JP2023133082A

JP2023133082A - 読取装置、画像形成装置、読取方法、および情報処理装置

Info

Publication number: JP2023133082A
Application number: JP2022146213A
Authority: JP
Inventors: 拓也盛; Takuya Mori
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2022-03-10
Filing date: 2022-09-14
Publication date: 2023-09-22

Abstract

【課題】読取対象の文字に用いる色材の制限を抑えつつ、文字認識の精度を向上させる読取装置、画像形成装置、読取方法及び情報処理装置を提供する。【解決手段】コピー機能、プリンタ機能、スキャナ機能およびファクシミリ機能のうち少なくとも２つの機能を有する画像形成装置において、読取装置１０１は、異なる色材からなる読取対象に可視光及び不可視光を照射する光源２と、読取対象に対する不可視光の照射によって読み取られた第１の画像データ及び読取対象に対する可視光の照射によって読み取られた第２の画像データを生成する画像生成部２１と、画像生成部２１が生成した第１の画像データ及び第２の画像データの文字認識を行う画像認識部２２と、を備える。画像認識部２２は、第１の画像データから文字認識して抽出した文字データ中に読取対象の文字に対して抜けがあると判断すると、抜けている文字データを第２の画像データから文字認識して抽出する。【選択図】図４

Description

本発明は、読取装置、画像形成装置、読取方法、および情報処理装置に関する。

従来、画像データに含まれる文字画像を文字として認識するＯＣＲ（Optical Character Recognition：光学文字認識）処理を実行する読取装置が知られている。読取装置の読取対象である文書には、認識対象の文字（以下、「コンテンツ情報」ともいう）の他に、罫線、地紋、印影など（以下、「非コンテンツ情報」ともいう）が含まれている場合があり、それらと文字が重なっていると文字認識の際に文字と認識されないなどの問題が生じることがあった。

このような問題を解決するものとして、色材の不可視域での光学特性の違いを用いることで、非コンテンツ情報を除去した画像データを生成して文字認識の精度を向上させるものが提案されている（例えば、特許文献１）。この特許文献１のものは、コンテンツ情報と、非コンテンツ情報とが異なる色材で印字されていることを前提とし、近赤外光などの不可視光を読取り対象に照射して、コンテンツ情報と非コンテンツ情報とを区別するものである。

より詳細には、読取対象に不可視光を照射することによって、ＣＹＭトナーなどの色材で形成された罫線、地紋、印影などの非コンテンツ情報が除去され、カーボンを利用したＫトナーなどの色材で形成された文字であるコンテンツ情報が残る画像データが得られるものである。特許文献１のものは、非コンテンツ情報を除去した画像データに基づいて、文字認識を行うことにより文字認識の精度を向上させるものである。

しかしながら、従来の非コンテンツ情報の除去方法では、例えばコンテンツ情報に非コンテンツ情報と同じ色材の文字が含まれていた場合、当該文字も除去してしまい正確な文字認識ができないという新たな問題が生じることがわかった。例えば、コンテンツ情報の一部に強調のための赤文字が含まれている場合、当該赤文字を赤い印影などとともに除去してしまい、文字認識できない場合があった。

本発明は、上記に鑑みてなされたものであって、読取対象の文字に用いる色材の制限を抑えつつ、文字認識の精度を向上させることを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、異なる色材からなる読取対象に可視光および不可視光を照射する光源と、前記読取対象に対する前記不可視光の照射によって読み取られた第１の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第２の画像データを生成する画像生成部と、前記画像生成部が生成した前記第１の画像データ、および前記第２の画像データの文字認識を行う文字認識部と、を備え、前記文字認識部は、前記第１の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第２の画像データから文字認識して抽出する、ことを特徴とする。

本発明によれば、読取対象の文字に用いる色材の制限を抑えつつ、文字認識の精度を向上させることができる、という効果を奏する。

図１は、第１の実施の形態にかかる画像形成装置の構成の一例を示す図である。図２は、画像形成装置のハードウェア構成を示すブロック図である。図３は、画像読取部の構造を例示的に示す断面図である。図４は、画像読取部を構成する各部の電気的接続を示すブロック図である。図５は、白紙に各トナーで印字した場合の分光反射率について説明する図である。図６は、第１の画像データ（不可視光による画像データ）と第２の画像データ（可視光による画像データ）の差異について説明するための図である。図７は、第１の画像データの文字認識結果を示すＯＣＲ結果テーブルの一例を示す図である。図８は、第２の画像データにおける抜け座標の文字認識結果を示すＯＣＲ結果テーブルの一例を示す図である。図９は、統合された文字認識結果テーブルの一例を示す図である。図１０は、第１の画像データにおける抜け座標を特定する特定処理の流れを示すフローチャートである。図１１は、第２の実施形態にかかる第１の画像データ（不可視光による画像データ）と第２の画像データ（可視光による画像データ）の差異について説明するための図である。図１２は、第２の実施形態にかかる第１の画像データの文字認識結果を示すＯＣＲ結果テーブルの一例を示す図である。図１３は、第２の実施形態にかかる第２の画像データにおける抜け座標の文字認識結果を示すＯＣＲ結果テーブルの一例を示す図である。図１４は、第２の実施形態にかかる統合されたＯＣＲ結果テーブルの一例を示す図である。図１５は、第２の実施形態にかかる第１の画像データの抜け座標を特定する特定処理の流れを示すフローチャートである。図１６は、第３の実施形態にかかる読取システムのハードウェア構成を示すブロック図である。

以下に添付図面を参照して、読取装置、画像形成装置、読取方法、および情報処理装置の実施の形態を詳細に説明する。

（第１の実施の形態）
図１は、第１の実施の形態にかかる画像形成装置１００の一例の構成を示す図である。図１において、画像形成装置１００は、コピー機能、プリンタ機能、スキャナ機能およびファクシミリ機能のうち少なくとも２つの機能を有する一般に複合機と称されるものである。

画像形成装置１００は、読取装置である画像読取部１０１およびＡＤＦ（Automatic Document Feeder）１０２を有し、その下部に作像装置１０３を有する。作像装置１０３については、内部の構成を説明するために、外部カバーを外して内部の構成を示している。

ＡＤＦ１０２は、原稿（読取対象）をコンタクトガラスである原稿支持部の読取位置に位置させる。より詳しくは、ＡＤＦ１０２は、載置台に載置した原稿を読取位置に自動搬送する。画像読取部１０１は、ＡＤＦ１０２により搬送された原稿を所定の読取位置で読み取る。また、画像読取部１０１は、原稿を載置する原稿支持部であるコンタクトガラスを上面に有し、読取位置であるコンタクトガラス上の原稿を読み取る。具体的に画像読取部１０１は、内部に光源や、光学系や、ＣＣＤ（Charge Coupled Device）等のイメージセンサを有するスキャナであり、光源で照明した原稿の反射光を、光学系を通じてイメージセンサで読み取る。

作像装置１０３は、画像読取部１０１で原稿（読取対象）の画像を読み取った画像データや、ＰＣ（Personal Computer）等の外部装置から受信した画像データなどを画像として記録紙に印刷する。作像装置１０３は、記録紙を手差しする手差ローラ１０４や、記録紙を供給する記録紙供給ユニット１０７を有する。記録紙供給ユニット１０７は、多段の記録紙給紙カセット１０７ａから記録紙を繰り出す機構を有する。供給された記録紙は、レジストローラ１０８を介して二次転写ベルト１１２に送られる。

二次転写ベルト１１２上を搬送する記録紙は、転写部１１４において中間転写ベルト１１３上のトナー画像が転写される。

また、作像装置１０３は、光書込装置１０９や、タンデム方式の作像ユニット（Ｙ、Ｍ、Ｃ、Ｋ）１０５や、上記中間転写ベルト１１３や、上記二次転写ベルト１１２などを有する。さらに、作像装置１０３は、作像ユニット１０５を備える。作像ユニット１０５による作像プロセスにより、光書込装置１０９が書き込んだ感光体ドラム上の静電画像を中間転写ベルト１１３上にトナー画像として形成する。

具体的に、作像ユニット（Ｙ、Ｍ、Ｃ、Ｋ）１０５は、４つの感光体ドラム（Ｙ、Ｍ、Ｃ、Ｋ）を回転可能に有し、各感光体ドラムの周囲に、帯電ローラ、現像器、一次転写ローラ、クリーナーユニット、及び除電器を含む作像要素１０６をそれぞれ備える。各感光体ドラムにおいて作像要素１０６が機能し、感光体ドラム上のトナー画像が各一次転写ローラにより中間転写ベルト１１３上に転写される。

中間転写ベルト１１３は、各感光体ドラムと各一次転写ローラとの間のニップに、駆動ローラと従動ローラとにより張架して配置されている。中間転写ベルト１１３に一次転写されたトナー画像は、中間転写ベルト１１３の走行により、二次転写装置で二次転写ベルト１１２上の記録紙に二次転写される。その記録紙は、二次転写ベルト１１２の走行により、定着装置１１０に搬送され、記録紙上にトナー画像がカラー画像として定着する。その後、記録紙は、機外の排紙トレイへと排出される。なお、両面印刷の場合は、反転機構１１１により記録紙の表裏が反転されて、反転された記録紙が二次転写ベルト１１２上へと送られる。

なお、作像装置１０３は、上述したような電子写真方式によって印刷画像を形成するものに限るものではなく、インクジェット方式によって印刷画像を形成するものであってもよい。

図２は、画像形成装置１００のハードウェア構成を示すブロック図である。画像形成装置１００は、上述した画像読取部１０１、ＡＤＦ１０２、作像装置１０３に加えて、操作パネル１２０、ＣＰＵ（Central Processing Unit）１２１、メモリ１２２、および記憶装置１２３等を備える。

操作パネル１２０は、例えば、ＬＣＤ（Liquid Crystal Display）等で構成される表示デバイスとその表面に設けられたタッチパネル等で構成される。操作パネル１２０は、画像形成装置１００を利用するユーザに対して各種情報を表示する。また、操作パネル１２０は、ユーザの操作を受付けて操作信号をＣＰＵに出力する。

ＣＰＵ１２１は、画像形成装置１００を統括的に制御する。メモリ１２２は、ＯＳ（Operating System）や各種アプリケーションプログラムを動作させるためのメモリである。記憶装置１２３は、画像形成装置１００のＯＳや各種アプリケーションプログラムを記憶する。また、記憶装置１２３は、画像読取部１０１によって読み取られた読取画像データ、当該読取画像データから文字認識処理した文字認識データ、辞書データ等も記憶する。ＣＰＵ１２１、メモリ１２２、および記憶装置１２３は、バス等を介して接続され、画像形成装置１００の制御部を構成する。通信装置１２４は、ＰＣやサーバ装置などの外部機器と通信を行うための装置である。

次に、画像読取部１０１について説明する。

図３は、画像読取部１０１の構造を例示的に示す断面図である。図３に示すように、画像読取部１０１は、本体１１内に、撮像素子であるイメージセンサ９を備えたセンサ基板１０、レンズユニット８、第１キャリッジ６及び第２キャリッジ７を有する。イメージセンサ９は、読取手段として機能するものであって、例えばＣＣＤやＣＭＯＳイメージセンサなどである。第１キャリッジ６は、ＬＥＤ（Light Emitting Diode）である光源２及びミラー３を有する。第２キャリッジ７は、ミラー４、５を有する。また、画像読取部１０１は、上面にコンタクトガラス１及び基準白板１３を設けている。

画像読取部１０１は、読取動作において、第１キャリッジ６及び第２キャリッジ７を待機位置（ホームポジション）から副走査方向（Ａ方向）に移動させながら光源２から光を上方に向けて照射する。そして、第１キャリッジ６及び第２キャリッジ７は、原稿１２からの反射光を、レンズユニット８を介してイメージセンサ９上に結像させる。

また、画像読取部１０１は、電源ＯＮ時などには、基準白板１３からの反射光を読取って基準を設定する。即ち、画像読取部１０１は、第１キャリッジ６を基準白板１３の直下に移動させ、光源２を点灯させて基準白板１３からの反射光をイメージセンサ９の上に結像させることによりゲイン調整を行う。

図４は、画像読取部１０１を構成する各部の電気的接続を示すブロック図である。図４に示すように、画像読取部１０１は、上述したイメージセンサ９、光源２に加え、画像生成部２１、文字認識部として機能する画像認識部２２、画像読取部１０１の制御を行う制御部２３、光源駆動部２４を備えている。なお、画像生成部２１や画像認識部２２は、ハードウェア、ソフトウェアのどちらで実現されても良い。

光源２は、近赤外光などの不可視光、および可視光を発光する。光源駆動部２４は、光源２を駆動する。

イメージセンサ９は、可視、不可視の波長域を撮像可能である。以下の説明において、異なる色材からなる原稿（読取対象）に近赤外光などの不可視光を照射してイメージセンサ９が撮像した読取画像データを不可視画像データと呼ぶ。また、原稿（読取対象）に可視光を照射してイメージセンサ９が撮像した読取画像データを可視画像データと呼ぶ。イメージセンサ９は、被写体からの反射光を読み取り、可視画像データとしての読取りの場合はＲＧＢ信号を、不可視画像データとしての読取りの場合はＮＩＲ信号を出力する。すなわち読取対象原稿（読取対象）の画像はイメージセンサ９で撮像することで画像データになる。一般のイメージセンサのカラーフィルタはＮＩＲ光を透過する特性を持っているため、不可視画像データの読取りの場合にはＮＩＲ信号がＲＧＢ各出力に現れることになる。本実施の形態においては、説明上、Ｒ出力のＮＩＲ信号を用いることとする。

なお、本実施形態においては、不可視波長領域として近赤外領域（８００～１０００ｎｍ）を想定しているが、他の波長域でもかまわない。ただし、シリコン半導体で構成されているイメージセンサ９は近赤外領域にも感度を持つことから、不可視波長領域として近赤外領域を用いることで既存のイメージセンサを流用することが可能となり、容易に不可視領域での読み取りを実現できる。そのため、不可視波長領域として近赤外領域を用いることが望ましい。

画像生成部２１は、イメージセンサ９から出力される可視画像データ（Ｒ／Ｇ／Ｂ）と不可視画像データ（ＩＲ）を入力する。画像生成部２１は、入力した画像データに対して画像処理を行って画像認識用の画像データを生成する。画像生成部２１における画像処理には、例えば、解像度調整、倍率補正、スキュー補正などが含まれる。以下の説明において、不可視画像データに対して画像処理を行って生成された画像データを第１の画像データと呼ぶ。また、可視画像データに対して画像処理を行って生成された画像データを第２の画像データと呼ぶ。画像生成部２１は、生成した画像データ（第１の画像データまたは第２の画像データ）を画像認識部２２に出力する。

画像認識部２２は、画像生成部２１から出力された画像データを入力する。画像認識部２２は、特定の情報を認識して、その認識結果を出力する。具体的には、本実施形態の画像認識部２２は、文字を認識する文字認識部として機能し文字認識データとしての認識結果を出力する。

制御部２３は、光源駆動部２４、イメージセンサ９、画像生成部２１、画像認識部２２の各部を制御する。

ここで、図５は白紙に各トナーで印字した場合の分光反射率について説明する図である。図５は、例えば、作像装置１０３で用いられるＫＣＭＹのトナーを白紙（各波長において高い反射率を示す紙）に載せた場合における分光反射率を示している。

本実施形態では、白紙に異なる色材を載せた時の分光反射率の違いを利用して可視画像と不可視画像で異なる画像を得る。図５に示すように、Ｋトナーで印字した箇所は近赤外領域の光をほぼ吸収するが、ＣＭＹトナーのみで印字した箇所は近赤外領域の光をほとんど吸収しない。すなわち、不可視画像ではＫトナーで印字された画像のみが現れるので、可視画像と不可視画像で差異が生じる。図５に示すような色材毎の近赤外領域の吸収特性の違いは、色材の一部にカーボンブラックを含むか否かによって決まる。そのため、作像装置１０３で用いられるトナーに限らず他の色材であってもカーボンブラックを含む色材とカーボンブラックを含まない色材を用いて印字を行えば、同様に可視画像と不可視画像で差異が生じる画像を得ることが可能である。また、カーボンブラックに限らずとも不可視領域で吸収特性を持つ物質を含む色材と含まない色材を用いることで同様の効果を得ることが可能である。

次に、図６を参照して、本実施形態の文字認識の概要について説明する。図６（ａ）は原稿（読取対象）の一例である。原稿の文字部は、「営業活動」の文字がカーボンブラックを含まないＣＭＹトナー（以下、単に「ＣＭＹトナー」という）で印字される。また、他の文字はカーボンブラックを含むＫトナー（以下、単に「Ｋトナー」という）で印字されている。また、「社外秘」の印影はＣＹＭトナーで印字されている。上記原稿において、文字認識対象のコンテンツ情報は、印影の「社外秘」を除去した文字である。

原稿の文字認識を行うにあたり、画像読取部１０１は、原稿の不可視画像に基づく第１の画像データの生成および可視画像に基づく第２の画像データの生成を行う。このとき、画像読取時に原稿が斜めになっていて読取った画像が傾いている場合、画像読取部１０１は、ＯＣＲ処理の結果に悪影響がでないようにＯＣＲ処理を行う前にスキュー補正を行う。

「社外秘」の印影を除去するために、原稿に不可視光を照射すると、不可視画像にはＫトナーで印字された画像のみが現れるため、図６（ｂ）に示すような不可視画像が得られる。この場合、コンテンツ情報である文字部の一部、すなわちＣＹＭトナーで印字された「営業活動」の文字も除去されてしまう。

そこで、本実施形態の画像認識部２２は、不可視画像データから文字認識を行って抽出した文字データ中に原稿（読取対象）の文字または文字列が抜けて除去されている文字データの抜けを判断、すなわち抜けて除去されている文字データの座標を特定し、特定した座標を用いて抜けて除去されてしまった文字データを図６（ｃ）に示す可視画像データの第２の画像データから文字認識してその文字データを抽出する。そして、不可視画像データの第１の画像データの文字データの抜けと判断した文字認識処理結果と可視画像データの第２の画像データから抽出した文字認識処理結果とを統合することで、「営業活動」の文字も含めた文字認識データを得ることができるようにするものである。

具体的には、第１の画像データに対してＯＣＲ処理を実行して、文字データの位置座標を認識する。図７は、第１の画像データのＯＣＲ結果テーブルを示す。ＯＣＲ結果テーブルは、文字データが存在する座標について、垂直方向座標、水平方向座標、および文字データを対応付けて記憶する。第１の画像データには、「営業活動」の文字データは含まれないため、ＯＣＲ結果テーブルには「営業活動」の文字データは含まれない。なお、以下の説明において、垂直方向座標と水平方向座標との組み合わせを単に座標という場合がある。

また、画像認識部２２は、ＯＣＲ結果による文字座標と辞書データに登録された単語とから、原稿が横書き文書であるか縦書き文書であるか判断できるようになっている。例えば、文書に対して実行されたＯＣＲ結果で、水平方向に連続する文字によって形成される単語が所定数以上辞書データに登録されている場合、画像認識部２２は当該文書を横書き文書であると判断する。また、文書に対して実行されたＯＣＲ結果で、垂直方向に連続する文字によって形成される単語が所定数以上辞書データに登録されている場合、画像認識部２２は当該文書を縦書き文書であると判断する。画像認識部２２は、図６に示す原稿について横書き文書であると判断する。また、画像認識部２２は、辞書データに登録された単語を用いて不可視画像から抽出した文字データで原稿の文字列が誤認識した文字データを文字データの抜けと判断してもさらに追加してもよい。

図７に示すＯＣＲ結果テーブルにおいて、垂直方向座標が同じ値である文字データは、第１の画像データにおいて水平方向に並んでいる。例えば、座標が（１、７）の「報」の文字データ、座標（１、８）の「告」の文字データ、および座標が（１、９）の「書」の文字データは、第１の画像データにおいて水平方向に並んでいる。また、垂直方向座標が１の文字データは、上記のとおり水平方向座標が７、８、９と連続しており等間隔で並んでいる。

画像認識部２２は、横書き文書の第１の画像データにおいて、水平方向（横方向）に複数の文字データが等間隔に並んでいる場合、これら文字データ間に抜けはないと判断する。通常の横書き文書では、文字は水平方向に等間隔で配置されるからである。

図７の例では、画像認識部２２は、第１の画像データにおいて垂直方向座標が１である行に存在する「報」「告」「書」の文字データの間に文字データの抜けはないと判断する。垂直方向座標が３および４の文字データについても、水平方向座標が等間隔で並んでいるので、これらの文字データ間に文字データの抜けはないと判断する。

これに対し、垂直方向座標が６の文字データは、水平方向座標が１～３の間、８～１５の間は連続しているが、３～８の間には存在しない。言い換えると、垂直方向座標が６である文字データは、水平方向に等間隔で並んでいないので、画像認識部２２は、座標が（６、４）、（６、５）、（６、６）（６、７）の文字データが抜けている可能性があり抜けと判断する。つまり、画像認識部２２は、（６、４）、（６、５）、（６、６）（６、７）を抜け座標と判断する。

なお、画像認識部２２は、文字データが水平方向に等間隔で並んでいるか否かによって文字データに抜けがあるか否かを判断するので、例えば水平方向座標が１つおきで文字データが規則的に並んでいる場合、これら文字データの間に抜けはないと判断する。

そして、画像認識部２２は、第１の画像データについて抜けと判断した座標に対応する第２の画像データの座標のみＯＣＲ処理を実行する。図８は、第２の画像データについて抜け座標をＯＣＲ処理した結果を示すＯＣＲ結果テーブルである。第２の画像データのＯＣＲ結果テーブルには、（６、４）の座標に「営」、（６、５）の座標に「業」、（６、６）の座標に「活」、（６、７）座標に「動」の文字データが記憶されている。

画像認識部２２は、図７に示す第１の画像データのＯＣＲ結果と図８に示す第２の画像データのＯＣＲ結果とを統合して、図９に示す統合データ（文字認識データ）を生成し、最終的な文字認識処理結果として出力する。これにより、画像認識部２２は、コンテンツ情報にＣＭＹトナーで印字された文字が含まれている場合でも正しく文字認識処理を行うことができる。

なお、本実施形態において、可視画像データはユーザが利用するスキャン画像として記憶装置１２３に保存される。また、不可視画像データは、ＯＣＲ処理の結果にのみ利用するため、原稿の文字認識処理が終了すると削除される。不可視画像データが生成および削除されたことはユーザには通知しないようになっている。

上記の文字認識により、画像認識部２２は、ＣＭＹトナーで印字される非コンテンツ情報（印影の文字）を文字認識の対象から除外できるばかりでなく、当該ＣＭＹトナーで印字されるコンテンツ情報（文書の文字）については文字認識の対象とすることができる。したがって、画像認識部２２による文書の文字認識の精度をより向上させることができる。しかも、第２の画像データのＯＣＲ処理については、可視画像データ全体でなく、抜け座標のみについて行えばよいので、処理時間を短くすることができる。したがって、効率的に文字認識を行うことができる。

ここで、画像認識部２２が実行する特定処理について説明する。特定処理は、上述した第１の画像データにおける抜け座標を特定するための処理である。図１０は、特定処理の流れを示すフローチャートである。なお、画像認識部２２は、特定処理を実行する前に原稿の不可視画像に基づく第１の画像データ、および可視画像に基づく第２の画像データを取得しているものとする。

画像認識部２２は、第１の画像データのＯＣＲ結果テーブルから先頭の垂直方向座標を抽出してセットする（ステップＳ１）。図７の例では、（１、７）、（１、８）、（１、９）の座標に係るデータが抽出される。画像認識部２２は、同一垂直方向座標の行を検索する（ステップＳ２）。具体的には、ステップＳ１でセットされた垂直方向座標が１のデータについて検索を行う。

次いで、画像認識部２２は、検索したデータの水平座標の値が等間隔に並んでいるか否か判断する（ステップＳ３）。言い換えると、第１の画像データの文字データが水平方向に等間隔で並んでいるか否か判断する。等間隔に並んでいると（ステップＳ３のＹｅｓ）、画像認識部２２は次の垂直方向座標があるか否か判断する（ステップＳ４）。等間隔に並んでいない場合（ステップＳ３のＮｏ）、画像認識部２２は間隔が空いている座標、すなわち抜けがあると判断し抜け座標と判断した座標を記憶し（ステップＳ５）、ステップＳ４の処理に移行する。

ステップＳ４の処理において、次の垂直方向座標がある場合（ステップＳ４のＹｅｓ）、画像認識部２２は、次の垂直方向座標のデータをセットし（ステップＳ６）、ステップＳ２の処理に移行する。次の垂直方向座標がない場合（ステップＳ４のＮｏ）、画像認識部２２は特定処理を終了する。

上記特定処理により、画像認識部２２は、第１の画像データにおける抜け座標を特定することができる。

（第２の実施の形態）
次に第２の実施形態について説明する。第２の実施形態は、文書の先頭あるいは末尾にＣＹＭトナーで印字された文字があっても、これを認識することができるようにした点において、第１の実施形態と相違する。なお、第１の実施形態と同様の構成および機能については説明を省略する場合がある。

まず、図１１を参照して、本実施形態の文字認識の概要について説明する。図１１（ａ）は原稿（読取対象）の一例である。この原稿は、左端１列および右端１列にスペースを有している。

原稿の文字部は、１行目の「先頭」の文字、および２行目の「末尾」の文字がＣＭＹトナーで印字され、他の文字はＫトナーで印字されている。なお、図示はしていないが、原稿の用紙にはＣＭＹの色材を含む地紋が形成されているとする。

地紋を除去するために原稿に不可視光を照射すると、不可視画像にはＫトナーで印字された画像のみが現れるため、図１１（ｂ）に示すような不可視画像が得られる。この場合、コンテンツ情報である文字部の一部、すなわちＣＹＭトナーで印字された「先頭」および「末尾」の文字が除去されてしまう。本実施形態においても、画像認識部２２は、除去されてしまった文字を図１１（ｃ）に示す可視画像に基づいて生成される第２の画像データから認識し、不可視画像に基づいて生成される第１の画像データの認識結果と統合することで、文字認識の精度を向上させるものである。

画像認識部２２は、第１の実施形態と同様に、第１の画像データに対してＯＣＲ処理を実行して、文字データの位置座標を認識する。図１２は、第１の画像データのＯＣＲ結果テーブルを示す。本実施形態におけるＯＣＲ結果テーブルは、第１の画像データにおいて文字データが位置していない座標には「空白」が登録される。

第１の画像データのＯＣＲ結果テーブルにおいて「空白」が登録される座標は、抜け座標あるいは原稿自体に文字がない座標のいずれかとなる。図１１の例では、原稿自体に文字がない座標である（１、１）、（１、９）、（２、１）、（２、９）に「空白」が登録される。また、第１の画像データには、「先頭」および「末尾」の文字データは含まれないため、これらの文字データが位置する抜け座標である（１、２）、（１、３）、（２、７）、（２、８）に「空白」が登録されている。

画像認識部２２は、「空白」が登録されている座標を抜け座標と推定し、第２の画像データについて抜け座標にのみＯＣＲ処理を実行する。図１３は、第２の画像データについて抜け座標をＯＣＲ処理した結果を示すＯＣＲ結果テーブルである。

原稿自体に文字がない座標の（１、１）、（１、９）、（２、１）、（２、９）は、第２の画像データのＯＣＲ結果テーブルにおいても「空白」が登録される。一方、（１、２）の座標には「先」、（１、３）の座標には「頭」、（２、７）座標には「末」、（２、８）の座標には「尾」の文字データが登録される。

画像認識部２２は、図１２に示す第１の画像データのＯＣＲ結果と図１３に示す第２の画像データのＯＣＲ結果とを統合して、図１４に示す統合データを生成し、最終的な文字認識結果として出力する。これにより、画像認識部２２は、コンテンツ情報にＣＭＹトナーで印字された文字が行の先頭あるいは末尾に含まれている場合でも正しく文字認識を行うことができる。

上記の文字認識により、第１の実施形態と同様に、画像認識部２２は、ＣＭＹトナーで印字される非コンテンツ情報の文字を文字認識の対象から除外できるばかりでなく、当該ＣＭＹトナーで印字されるコンテンツ情報の文字については文字認識の対象とすることができる。したがって、画像認識部２２による文書の文字認識の精度をより向上させることができる。

また、画像認識部２２は、文字データが存在しない座標に対応して空白を示す情報を登録したＯＣＲ結果テーブルに基づいて抜けがあると判断、すなわち抜け座標を判断する。このため、文書の先頭や末尾にＣＭＹトナーで印字された文字が存在している場合であっても、確実に抜け座標を認識することができる。

なお、本実施形態においては、図１３の第２の画像データのＯＣＲ結果テーブルで「空白」が登録されている座標、つまり原稿自体に文字が存在しない座標についてもＯＣＲ処理の処理対象となるが、これら座標には文字データが存在しないため文字認識処理は実行されない。このため、第２の画像データのＯＣＲ結果テーブルで「空白」が登録された座標のＯＣＲ処理の処理時間は実質的に無視できる。したがって、効率的に文字認識を行うことができる。

ここで、本実施形態において画像認識部２２が実行する特定処理について説明する。図１５は、特定処理の流れを示すフローチャートである。

画像認識部２２は、第１の画像データのＯＣＲ結果テーブルから先頭の垂直方向座標をセットし（ステップＳ１１）、同一垂直方向座標の行を検索する（ステップＳ１２）。図１２の第１の画像データのＯＣＲ結果テーブルの例においては、垂直方向座標が１の文字データについて検索を行う。

次いで、画像認識部２２は、検索した垂直方向座標で「空白」でない文字データが登録されているか否か判断する（ステップＳ１３）。言い換えると、画像認識部２２は、第１の画像データの検索した行に文字データがあるか否か判断する。

検索した行に「空白」でない文字データが登録されていないと（ステップＳ１３のＮｏ）、画像認識部２２は次の垂直方向座標があるか否か判断する（ステップＳ１４）。検索した行に「空白」でない文字データが登録されていると（ステップＳ１３のＹｅｓ）、画像認識部２２は、当該行の文字データに「空白」が登録されている座標を記憶し（ステップＳ１５）、ステップＳ１４の処理に移行する。

なお、画像認識部２２は、ステップＳ１５の処理において、検索した行の文字データに「空白」が登録されている座標がない場合、すなわち検索した行の座標全てに「空白」以外の文字データが登録されている場合、抜け座標がないと判断して座標の記憶は行わない。

ステップＳ１４の処理において、次の垂直方向座標がある場合（ステップＳ１４のＹｅｓ）、画像認識部２２は、次の垂直方向座標をセットし（ステップＳ１６）、ステップＳ１２の処理に移行する。次の垂直方向座標がない場合（ステップＳ１４のＮｏ）、画像認識部２２は特定処理を終了する。

（第３の実施の形態）
次に第３の実施形態について説明する。第３の実施形態は、第１の実施形態および第２の実施形態において画像認識部２２で実行される処理を、画像形成装置１００と通信可能に接続されたサーバ装置２００で実行するようにしたものである。

図１６は、読取システム３００のハードウェア構成を示すブロック図である。読取システム３００は、画像形成装置１００とサーバ装置２００とを含む。画像形成装置１００とサーバ装置２００はネットワークを介して通信可能に接続される。

画像形成装置１００は、第１の実施形態および第２の実施形態と同様であるので、重複する説明を省略する。

サーバ装置２００は、ＣＰＵ２０１、メモリ２０２、記憶装置２０３、画像処理装置２０４、および通信装置２０５を備える。サーバ装置２００は、情報処理装置の一例である。

ＣＰＵ２０１は、サーバ装置２００を統括的に制御する。メモリ２０２は、ＯＳや各種アプリケーションプログラムを動作させるためのメモリである。記憶装置２０３は、ＯＣＲ処理を実行するためのプログラムや、上述した特定処理を実行するためのプログラムなど、各種プログラムを記憶する。また、記憶装置２０３は、画像形成装置１００から受信した第１の画像データおよび第２の画像データ、これら画像をＯＣＲ処理したＯＣＲ結果テーブル等を記憶する。ＣＰＵ２０１、メモリ２０２、および記憶装置２０３は、バス等を介して接続され、サーバ装置２００の制御部を構成する。

画像処理装置２０４は、画像形成装置１００から受信した第１の画像データおよび第２の画像データに対して画像処理を行い、処理結果を外部装置に出力する。例えば、画像処理装置２０４は、第１の画像データおよび第２の画像データに対してＯＣＲ処理を実行し、文字認識した認識結果を画像形成装置１００に送信する。通信装置２０５は、画像形成装置１００などの外部機器と通信を行うための装置である。

上記構成の読取システム３００において、画像形成装置１００は、読取対象に対して不可視光を照射して不可視画像を読取り、当該不可視画像に基づく第１の画像データを生成する。また、画像形成装置１００は、読取対象に対して可視光を照射して可視画像を読取り、当該不可視画像に基づく第２の画像データを生成する。画像形成装置１００は、これら第１の画像データおよび第２の画像データをサーバ装置２００に送信する。

サーバ装置２００は、通信装置２０５を介して受信した第１の画像データおよび第２の画像データを記憶装置２０３に記憶する。サーバ装置２００は、不可視画像および可視画像を取得する取得部の機能を備えている。

画像処理装置２０５は、記憶装置２０３に記憶された第１の画像データおよび第２の画像データの文字認識を行うための処理を実行する。画像処理装置２０５は、文字認識部として機能する。文字認識を行うための処理は、第１の実施形態や第２の実施形態において、画像認識部２２が実行した処理と同様である。サーバ装置２００は、画像処理装置２０５が文字認識した認識結果を画像形成装置１００に送信する。なお、サーバ装置２００は、他の外部装置に上記認識結果を送信してもよい。

本実施形態においても、上述した第１の実施形態および第２の実施形態で得られる効果と同様の効果を得ることができる。

なお、上記各実施形態においては、読取対象が横書きの文書で例について説明したが、縦書きの文書であっても同様に文字認識を行うことができる。具体的には、上述したとおり画像認識部２２が、ＯＣＲ結果による文字座標と辞書データに登録された単語とから、原稿が縦書き文書であることを判断する。そして、画像認識部２２は、第１の実施形態および第２の実施形態で説明した垂直方向座標と水平方向座標とを入れ換えて処理することにより、縦書き文書についても確実に文字認識することができる。

以上説明したとおり、各実施形態によれば、非コンテンツ情報を除去した不可視画像に基づく第１の画像データにおいて文字データが抜けてしまった抜け座標を特定する。そして、第１の画像データのＯＣＲ結果と、可視画像に基づく第２の画像データにおける上記抜け座標のＯＣＲ結果とを統合した統合データを生成し、最終的な文字認識結果として出力する。

このため、ＣＭＹトナーで印字される非コンテンツ情報を文字認識の対象から除外できるばかりでなく、ＣＭＹトナーで印字されるコンテンツ情報については文字認識の対象とすることができる。言い換えれば、文字認識の対象となるコンテンツ情報に使用する色材の選択肢を広げることができる。したがって、各実施形態によれば、コンテンツ情報に使用される色材の制限を抑えつつ、画像認識部２２による文書の文字認識の精度をより向上させることができる。しかも、第２の画像データのＯＣＲ処理については、第２の画像データ全体でなく、抜け座標についてのみ行えばよいので、ＯＣＲ処理の処理時間を短くすることができる。したがって、効率的に文字認識を行うことができる。

なお、上記各実施形態では、本発明の読取装置を、コピー機能、プリンタ機能、スキャナ機能およびファクシミリ機能のうち少なくとも２つの機能を有する複合機に適用した例について説明したが、これに限らない。本発明は、画像から文字を認識する読取装置に広く適用することが可能である。

本発明の態様は、例えば、以下のとおりである。
＜１＞
異なる色材からなる読取対象に可視光および不可視光を照射する光源と、
前記読取対象に対する前記不可視光の照射によって読み取られた第１の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第２の画像データを生成する画像生成部と、
前記画像生成部が生成した前記第１の画像データ、および前記第２の画像データの文字認識を行う文字認識部と、を備え、
前記文字認識部は、前記第１の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第２の画像データから文字認識して抽出する、
読取装置。
＜２＞
前記文字認識部は、前記第１の画像データにおける文字データの座標に基づいて、前記読取対象から抜けた文字データがあるか否か判断する、
＜１＞に記載の読取装置。
＜３＞
前記文字認識部は、前記第１の画像データにおいて文字データが抜けた抜け座標を特定し、前記第２の画像データにおける当該抜け座標の文字データを抽出する、
＜２＞に記載の読取装置。
＜４＞
前記文字認識部は、前記第２の画像データに含まれる文字データのうち、前記抜け座標の文字データについて認識処理を行う、
＜３＞に記載の読取装置。
＜５＞
前記文字認識部は、前記第１の画像データが横書きの画像である場合、水平方向座標において文字データの間隔が他より広くなっている座標を前記抜け座標と特定する、
＜４＞に記載の読取装置。
＜６＞
前記文字認識部は、前記第１の画像データが縦書きの画像である場合、垂直方向座標において文字データの間隔が他より広くなっている座標を前記抜け座標と特定する、
＜４＞または＜５＞に記載の読取装置。
＜７＞
前記文字認識部は、前記第１の画像データが横書きの画像である場合、水平方向座標において空白の座標を前記抜け座標と特定する、
＜４＞に記載の読取装置。
＜８＞
前記文字認識部は、前記第１の画像データが縦書きの画像である場合、垂直方向座標において空白の座標を前記抜け座標と特定する、
＜４＞または＜７＞に記載の読取装置。
＜９＞
＜１＞ないし＜８＞のいずれか一項に記載の読取装置を備えた画像形成装置。
＜１０＞
異なる色材からなる読取対象に可視光および不可視光を照射する光源を備えた読取装置が実行する読取方法であって、
前記読取対象に対する前記不可視光の照射によって読み取られた第１の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第２の画像データを生成する画像生成ステップと、
前記画像生成ステップで生成された前記第１の画像データ、および前記第２の画像データの文字認識を行う文字認識ステップと、を含み、
前記文字認識ステップは、前記第１の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第２の画像データから文字認識して抽出する、
読取方法。
＜１１＞
異なる色材からなる読取対象に可視光および不可視光を照射する光源を備えた読取装置と通信可能に接続される情報処理装置であって、
前記読取対象に対する前記不可視光の照射によって読み取られた第１の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第２の画像データを取得する取得部と、
前記取得部が取得した前記第１の画像データ、および前記第２の画像データの文字認識を行う文字認識部と、を備え、
前記文字認識部は、前記第１の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第２の画像データから文字認識して抽出する、
情報処理装置。

２光源
２１画像生成部
２２画像認識部（文字認識部）
１００画像形成装置
１０１画像読取部（読取装置）
２００サーバ装置（情報処理装置）

特開２０２１－５１６２号公報

Claims

異なる色材からなる読取対象に可視光および不可視光を照射する光源と、
前記読取対象に対する前記不可視光の照射によって読み取られた第１の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第２の画像データを生成する画像生成部と、
前記画像生成部が生成した前記第１の画像データ、および前記第２の画像データの文字認識を行う文字認識部と、を備え、
前記文字認識部は、前記第１の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第２の画像データから文字認識して抽出する、
読取装置。
前記文字認識部は、前記第１の画像データにおける文字データの座標に基づいて、前記読取対象から抜けた文字データがあるか否か判断する、
請求項１に記載の読取装置。
前記文字認識部は、前記第１の画像データにおいて文字データが抜けた抜け座標を特定し、前記第２の画像データにおける当該抜け座標の文字データを抽出する、
請求項２に記載の読取装置。
前記文字認識部は、前記第２の画像データに含まれる文字データのうち、前記抜け座標の文字データについて認識処理を行う、
請求項３に記載の読取装置。
前記文字認識部は、前記第１の画像データが横書きの画像である場合、水平方向座標において文字データの間隔が他より広くなっている座標を前記抜け座標と特定する、
請求項４に記載の読取装置。
前記文字認識部は、前記第１の画像データが縦書きの画像である場合、垂直方向座標において文字データの間隔が他より広くなっている座標を前記抜け座標と特定する、
請求項４に記載の読取装置。
前記文字認識部は、前記第１の画像データが横書きの画像である場合、水平方向座標において空白の座標を前記抜け座標と特定する、
請求項４に記載の読取装置。
前記文字認識部は、前記第１の画像データが縦書きの画像である場合、垂直方向座標において空白の座標を前記抜け座標と特定する、
請求項４に記載の読取装置。
請求項１ないし請求項８のいずれか一項に記載の読取装置を備えた画像形成装置。
異なる色材からなる読取対象に可視光および不可視光を照射する光源を備えた読取装置が実行する読取方法であって、
前記読取対象に対する前記不可視光の照射によって読み取られた第１の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第２の画像データを生成する画像生成ステップと、
前記画像生成ステップで生成された前記第１の画像データ、および前記第２の画像データの文字認識を行う文字認識ステップと、を含み、
前記文字認識ステップは、前記第１の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第２の画像データから文字認識して抽出する、
読取方法。
異なる色材からなる読取対象に可視光および不可視光を照射する光源を備えた読取装置と通信可能に接続される情報処理装置であって、
前記読取対象に対する前記不可視光の照射によって読み取られた第１の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第２の画像データを取得する取得部と、
前記取得部が取得した前記第１の画像データ、および前記第２の画像データの文字認識を行う文字認識部と、を備え、
前記文字認識部は、前記第１の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第２の画像データから文字認識して抽出する、
情報処理装置。