JP2020170309A

JP2020170309A - 画像処理システム、画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP2020170309A
Application number: JP2019070710A
Authority: JP
Inventors: 啓水奥間; Hiromi Okuma
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2020-10-15
Also published as: US20200320325A1; US11521365B2

Abstract

【課題】処理対象の画像に使用されているフォントによらずＯＣＲの認識精度を向上させる。【解決手段】画像形成装置１００は、原稿をスキャンして得られたスキャン画像を取得し、サーバ１０１へ送信する。サーバ１０１は、スキャン画像の中で文字を含む文字領域を抽出する。更に、サーバ１０１は、入力された画像内のＯＣＲ非推奨フォント（第１フォント）の文字をＯＣＲ推奨フォント（第２フォント）の文字に変換するように予め学習が行われた学習済モデルを用いて、スキャン画像に対して、抽出された文字領域に含まれる文字のフォントをＯＣＲ非推奨フォントからＯＣＲ推奨フォントに変換する変換処理を行う。画像形成装置１００は、変換後のスキャン画像をサーバ１０１から受信し、受信したスキャン画像に対してＯＣＲを実行する。【選択図】図５

Description

本発明は、画像処理システム、画像処理装置、画像処理方法、及びプログラムに関するものである。

原稿の画像をスキャナで読み取り、得られたスキャン画像内の文字をコード化する技術としてＯＣＲ（Optional Character Recognition/Reader）が知られている。ＯＣＲでは、印刷された文字をスキャナで光学的に読み取り、予め記憶されたフォントの文字形状（ＯＣＲ推奨フォント）との照合により文字情報を特定する。そのため、記憶されていないフォントの文字（ＯＣＲ非推奨フォント）が読み取られた場合、文字形状の照合を正しく行うことができずに文字情報の誤認識が生じ、ＯＣＲの認識精度が低下する課題がある。

上記の課題を解決するため、画像のプリント出力前に、当該画像内の文字のフォントをＯＣＲ非推奨フォントからＯＣＲ推奨フォントに変換することでＯＣＲ精度を高める技術が知られている。特許文献１では、印刷用のＰＤＬデータ内のフォント情報をＯＣＲ推奨フォントのフォント情報に書き換えた後に、当該ＰＤＬデータからラスタ画像を生成してプリント出力することで、ＯＣＲの認識精度を高めている。

特開２００７−１６６２８７号公報特開２０１３−１８２５１２号公報

An End-To-End Deep Chinese Font Generation System（http://www.icst.pku.edu.cn/zlian/SA2017-DCFont/） ImageNet Classification with Deep Convolutional Neural Networks（https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf）

上述の従来技術では、プリント出力前の画像に使用されるフォントをＯＣＲに適したフォントに変換することで、プリント出力された画像に対するＯＣＲの認識精度を高められる。しかし、既にプリント出力された画像にＯＣＲに適さないフォントの文字が含まれる場合、そのような画像に対するＯＣＲの認識精度を高めることはできない。

本発明は、上述の課題に鑑みてなされたものである。本発明は、処理対象の画像に使用されているフォントによらずＯＣＲの認識精度を向上させる技術を提供することを目的とする。

本発明の一態様に係る画像処理システムは、原稿をスキャンして得られたスキャン画像を取得する取得手段と、前記スキャン画像の中で文字を含む文字領域を抽出する抽出手段と、入力された画像内の第１フォントの文字を第２フォントの文字に変換して変換後の画像を出力するように予め学習が行われた変換モデルを用いて、前記スキャン画像に対して、前記抽出された文字領域に含まれる文字のフォントを前記第１フォントから前記第２フォントに変換する変換処理を行う変換手段と、前記変換手段による変換後の前記スキャン画像に対してＯＣＲを実行する実行手段と、を備えることを特徴とする。

本発明によれば、処理対象の画像に使用されているフォントによらずＯＣＲの認識精度を向上させることが可能になる。

画像処理システムの構成例を示す図。画像形成装置のハードウェア構成例を示すブロック図。サーバのハードウェア構成例を示すブロック図。情報端末のハードウェア構成例を示すブロック図。画像処理システムの機能構成例及び動作例を示す図。学習データの生成処理の手順を示すフローチャート。学習データとして用いられる学習用画像の一例を示す図。学習データの保存用のデータベースの一例を示す図。フォント変換の学習処理を示すフローチャート。ＯＣＲ処理の手順を示すフローチャート。フォント変換処理の手順を示すフローチャート。スキャン画像及び当該スキャン画像内の文字領域の一例を示す図。フォント変換の一例を示す図。文字が劣化した画像の一例を示す図。学習データとして用いられる学習用画像の一例を示す図。学習データの保存用のデータベースの一例を示す図。フォント変換の一例を示す図。フォント変換処理の手順を示すフローチャート。学習データを保存用のデータベースの一例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一又は同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１実施形態］
第１実施形態では、シートに印刷された画像に対してＯＣＲを行う際に、当該画像に含まれる文字のフォント（文字形状）をＯＣＲ推奨フォントに変換してからＯＣＲ処理を実行することで、ＯＣＲの認識精度を向上させる例について説明する。

＜画像処理システムの構成＞
図１は、本実施形態に係る画像処理システムの全体の構成例を示す図である。本画像処理システムは、画像形成装置（画像処理装置）１００、サーバ（サーバ装置）１０１、及び情報端末１０２で構成され、有線ＬＡＮ等のネットワーク１０３を介して相互に接続されている。サーバ１０１は、ネットワーク１０３を介して画像形成装置１００及び情報端末１０２のそれぞれと通信可能である。なお、本画像処理システムには、任意の数の画像形成装置１００、及び任意の数の情報端末１０２が存在しうる。

＜画像形成装置の構成＞
図２は、本実施形態に係る画像形成装置１００のハードウェア構成例を示すブロック図である。画像形成装置１００は、ＣＰＵ２０１、ＲＡＭ２０２、ＲＯＭ２０３、ネットワークＩ／Ｆ（インタフェース）２０４、スキャナ部（読取部）２０５、印刷部２０６、操作部２０７、及びＨＤＤ２０８を有する。画像形成装置１００内のこれらのデバイスは、システムバス２０９に接続されている。

ＣＰＵ２０１は、画像形成装置１００全体の制御を行う。ＣＰＵ２０１は、ＲＯＭ２０３又はＨＤＤ２０８等の記憶装置に格納されたプログラムをＲＡＭ２０２に読み出して実行することで、各種処理を実行する。ＲＯＭ２０３は、ＣＰＵ２０１を起動するためのプログラムを含む各種プログラムを格納している。ＲＡＭ２０２は、ＣＰＵ２０１が動作するためのシステムワークメモリとして用いられ、画像データを一時的に保存するためのメモリとしても用いられる。ＨＤＤ２０８は、画像データ等の各種データを保存するために用いられる不揮発性記憶装置である。

ネットワークＩ／Ｆ２０４は、ネットワーク１０３に接続され、外部装置との通信を行う通信Ｉ／Ｆとして機能する。スキャナ部２０５は、原稿の画像を読み取ってスキャン画像データを生成する。印刷部２０６は、入力された画像データに基づいてシートに画像を印刷（出力）する。操作部２０７は、各種情報を表示する表示部、及びユーザの操作を受け付ける入力部で構成される。入力部は、例えば表示部と一体化したタッチパネル、及び各種スイッチで構成される。

＜サーバ及び情報端末の構成＞
図３は、本実施形態に係るサーバ１０１のハードウェア構成例を示すブロック図である。サーバ１０１は、ＣＰＵ３０１、ＲＡＭ３０２、ＲＯＭ３０３、ネットワークＩ／Ｆ３０４、キーボードＩ／Ｆ３０５、ディスプレイＩ／Ｆ３０６、外部メモリＩ／Ｆ３０７、及びマウスＩ／Ｆ３０８を有する。サーバ１０１内のこれらのデバイスは、システムバス３１３に接続されている。キーボードＩ／Ｆ３０５、ディスプレイＩ／Ｆ３０６、外部メモリＩ／Ｆ３０７、及びマウスＩ／Ｆ３０８には、それぞれ、キーボード３０９、ディスプレイ３１０、ＨＤＤ等の外部メモリ３１１、及びマウス３１２が接続される。

ＣＰＵ３０１は、サーバ１０１全体の制御を行う。ＣＰＵ３０１は、ＲＯＭ３０３又は外部メモリ３１１等の記憶装置に格納されたプログラムをＲＡＭ３０２に読み出して実行することで、各種処理を実行する。即ち、ＣＰＵ３０１は、コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータプログラムを実行することにより、後述するフローチャートの各ステップの処理を実行する処理部として機能しうる。ＲＯＭ３０３は、ＣＰＵ３０１を起動するためのプログラムを含む各種データを格納している。ＲＡＭ３０２は、ＣＰＵ３０１が動作するためのシステムワークメモリとして用いられる。

図４は、本実施形態に係る情報端末１０２のハードウェア構成例を示すブロック図である。情報端末１０２は、ＣＰＵ４０１、ＲＡＭ４０２、ＲＯＭ４０３、ネットワークＩ／Ｆ４０４、キーボードＩ／Ｆ４０５、ディスプレイＩ／Ｆ４０６、外部メモリＩ／Ｆ４０７、及びマウスＩ／Ｆ４０８を有する。情報端末１０２内のこれらのデバイスは、システムバス４１３に接続されている。キーボードＩ／Ｆ４０５、ディスプレイＩ／Ｆ４０６、外部メモリＩ／Ｆ４０７、及びマウスＩ／Ｆ４０８には、それぞれ、キーボード４０９、ディスプレイ４１０、ＨＤＤ等の外部メモリ４１１、及びマウス４１２が接続される。

ＣＰＵ４０１は、情報端末１０２全体の制御を行う。ＣＰＵ４０１は、ＲＯＭ４０３又は外部メモリ４１１等の記憶装置に格納されたプログラムをＲＡＭ４０２に読み出して実行することで、各種処理を実行する。即ち、ＣＰＵ４０１は、コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータプログラムを実行することにより、後述するフローチャートの各ステップの処理を実行する処理部として機能しうる。ＲＯＭ４０３は、ＣＰＵ４０１を起動するためのプログラムを含む各種データを格納している。ＲＡＭ４０２は、ＣＰＵ４０１が動作するためのシステムワークメモリとして用いられる。

＜画像処理システムの動作＞
図５は、本実施形態に係る画像処理システムの機能構成及び動作の例を示す図である。画像処理システムにおいて実行される処理は、大きく分けて２つの処理で構成される。具体的には、これら２つの処理は、フォント変換を学習する学習処理（図５（Ａ））と、フォント変換を適用してＯＣＲを実行するＯＣＲ処理（図５（Ｂ））である。

図５（Ａ）に示される学習処理は、サーバ１０１に配置された学習データ生成部５００及び変換学習部５０１によって実行される。学習データ生成部５００は、まず、情報端末１０２等の外部装置から複数の学習用画像５１０を受信する。学習用画像５１０は、情報端末１０２において動作するアプリケーションから送信される画像である。例えば、学習用画像５１０は、ＯＣＲ非推奨フォントを用いて印刷された画像と、ＯＣＲ推奨フォントを用いて印刷された画像とを含む。

ＯＣＲ推奨フォントは、ＯＣＲの認識精度が高く、ＯＣＲの対象となる画像内の文字に使用されることが推奨されるフォントである。一方、ＯＣＲ非推奨フォントは、ＯＣＲ推奨フォントよりもＯＣＲによる文字の認識精度が低いフォントであり、ＯＣＲの対象となる画像内の文字に使用されることが推奨されないフォントである。本実施形態では、ＯＣＲ非推奨フォントは第１フォント（第１文字形状）の一例であり、ＯＣＲ推奨フォントは第２フォント（第２文字形状）の一例である。

学習データ生成部５００は、受信し複数の学習用画像５１０に基づいて、学習データ５１１を生成する。生成される学習データ５１１は、ＯＣＲ非推奨フォントを用いて印刷された画像と、ＯＣＲ推奨フォントを用いて印刷された画像とをセットとして含む。生成された学習データ５１１は、学習データ生成部５００から変換学習部５０１へ入力される。

変換学習部５０１は、学習データ５１１を用いて、処理対象の画像に含まれる文字のフォントを変換するための学習を行う。変換学習部５０１は、例えば非特許文献１に記載のような、画像内の文字を別の形状の文字へ変換するための既存のディープラーニング技術を使用する。非特許文献１では、あるフォントの文字画像とその手書き文字画像とのセットを学習データとして用いて、当該学習データを未学習モデルへ入力して学習を行うことにより、あるフォントの文字を手書き文字へ変換可能な学習済モデル（変換モデル）を生成する。この学習済モデルに対して任意の文字画像を入力することにより、入力された文字画像が、手書きで書かれたような文字画像へ変換される。

本実施形態では、変換学習部５０１は、あるフォントの文字画像と別のフォントの文字画像とをセットとして含む学習データ５１１を、未学習モデルへ入力して学習を行う。これにより、変換学習部５０１は、処理対象の画像内のあるフォントの文字を別のフォントの文字へ変換可能な学習済モデル５１２を生成する。この学習済モデル５１２は、入力された画像内のＯＣＲ非推奨フォント（第１フォント）の文字をＯＣＲ推奨フォント（第２フォント）の文字に変換して変換後の画像を出力するように予め学習が行われた変換モデルに相当する。

図５（Ｂ）に示されるＯＣＲ処理は、画像形成装置１００に配置されたＯＣＲ処理部５０３と、サーバ１０１に配置されたフォント変換部５０２によって実行される。まず、画像形成装置１００のＯＣＲ処理部５０３は、シート原稿（原稿）５１３の画像をスキャナ部２０５により読み取って（スキャンして）得られた画像（スキャン画像）を、サーバ１０１へ送信する。原稿５１３は、フォント変換前の画像５１４としてサーバ１０１へ送信される。

サーバ１０１は、フォント変換前の画像５１４を受信した後、当該画像５１４をフォント変換部５０２へ入力する。フォント変換部５０２は、前述の変換学習部５０１によって生成された学習済モデル５１２を取得し、フォント変換前の画像５１４を学習済モデル５１２へ入力する。これにより、学習済モデル５１２は、入力されたフォント変換前の画像５１４を、フォント変換後の画像５１５に変換して出力する。サーバ１０１は、フォント変換部５０２から出力されたフォント変換後の画像５１５を、画像形成装置１００へ送信する。

画像形成装置１００は、サーバ１０１からフォント変換後の画像５１５を受信した後、当該画像５１５をＯＣＲ処理部５０３へ入力する。ＯＣＲ処理部５０３は、フォント変換後の画像５１５に対してＯＣＲを実行することにより、ＯＣＲ結果５１６を出力する。ＯＣＲ結果５１６は、例えば、テキストファイル形式、又はスキャン画像とＯＣＲにより得られた文字情報とが１つのファイルとして保存されたＰＤＦ（Portable Document Format）ファイル形式で出力される。

＜学習データの生成処理＞
図６は、サーバ１０１における、学習データ生成部５００による学習データの生成処理の手順を示すフローチャートである。図６の各ステップの処理は、ＲＯＭ３０３、ＲＡＭ３０２又は外部メモリ３１１に格納されたプログラムをＣＰＵ３０１が実行することによって実現されうる。

Ｓ６００で、ＣＰＵ３０１（学習データ生成部５００）は、情報端末１０２から送信された複数の学習用画像５１０を受信することで、複数の学習用画像５１０を取得する。サーバ１０１は、図７に示されるような、ＯＣＲ推奨フォントで印刷された画像７００と、画像７００に対応する、ＯＣＲ非推奨フォントで印刷された画像７０１とを、学習用画像５１０として受信する。なお、サーバ１０１は、情報端末１０２から学習用画像５１０を受信する以外に、サーバ１０１内で学習用画像５１０を生成してもよい。

本実施形態の学習用画像５１０は、図７の画像７００及び７０１のように、画像内に文字が一文字だけ含まれる画像である。各画像は、文字コード表において表現される漢字、カタカナ、ひらがな、句読点等の記号が文字として印刷された画像である。画像７００及び７０１のうち、一方の画像内の文字の位置が、他方の画像内の文字の位置に対してずれたり傾いたりせずに、両画像内の文字の位置が合っていることが望ましい。

次にＳ６０１で、ＣＰＵ３０１は、Ｓ６００で取得した学習用画像５１０に基づいて学習データ５１１を生成し、生成した学習データ５１１を外部メモリ３１１に保存し、処理を終了する。ここで、図８は、サーバ１０１において外部メモリ３１１に設けられる、学習データ５１１の保存用のデータベース（ＤＢ）の例を示す図である。ＤＢ８００は、識別子（ＩＤ）８０１のフィールド、変換前画像８０２のフィールド、及び正解画像８０３のフィールドで構成される。

本実施形態では、ＣＰＵ３０１は、学習用画像５１０として取得した、ＯＣＲ推奨フォントで印刷された画像７００と、ＯＣＲ非推奨フォントで印刷された、対応する画像７０１とのセットを含む学習データ５１１を生成し、ＤＢ８００に保存する。ＯＣＲ推奨フォントで印刷された画像７００は、変換前画像８０２としてＤＢ８００に保存される。また、ＯＣＲ非推奨フォントで印刷された画像７０１は、対応する正解画像８０３としてＤＢ８００に保存される。

より具体的には、図８に示されるように、１つの画像７００と対応する１つの画像７０１とのセットにＩＤ８０１が付与されて、当該セットが１つのデータ項目としてＤＢ８００に格納される。その際、画像７００は変換前画像８０２として、画像７０１は正解画像８０３としてＤＢ８００に格納される。ＩＤ８０１は、変換前画像８０２と正解画像８０３との異なるセットを識別するために、各セットに付与される。このように、変換前画像８０２のフィールドは、ＯＣＲ非推奨フォントを用いて印刷された画像を保持するために用いられる。また、正解画像８０３のフィールドは、ＯＣＲ推奨フォントを用いて印刷された画像を保持するために用いられる。ＤＢ８００に格納されたデータは、変換学習部５０１による学習に用いられる学習データ５１１を構成する。

本実施形態では、変換前画像８０２は、ＯＣＲ非推奨フォント（第１フォント）で表された文字を含む第１画像の一例である。また、正解画像８０３は、第１画像に含まれる文字と同じ文字であってＯＣＲ推奨フォント（第２フォント）で表された文字を含む第２画像の一例である。学習データ生成部５００は、このような変換前画像８０２（第１画像）と正解画像８０３（第２画像）とを含む学習データ５１１を生成する。本実施形態では、図８に示されるように、学習データ生成部５００は、それぞれ一文字だけ含む変換前画像８０２と正解画像８０３とを含む学習データ５１１を生成する。

＜フォント変換の学習処理＞
図９は、サーバ１０１における、変換学習部５０１によるフォント変換の学習処理の手順を示すフローチャートである。図９の各ステップの処理は、ＲＯＭ３０３、ＲＡＭ３０２又は外部メモリ３１１に格納されたプログラムをＣＰＵ３０１が実行することによって実現されうる。変換学習部５０１は、学習データ生成部５００によって生成された学習データ５１１に基づく学習を行うことで、変換モデルである学習済モデルを生成する。

まずＳ９００で、ＣＰＵ３０１（変換学習部５０１）は、ＤＢ８００から学習データを取得する。図８に示されるように、ＤＢ８００から取得される学習データは、変換前画像８０２と対応する正解画像８０３とで各セットが構成される複数のセットを含む。次にＳ９０１で、ＣＰＵ３０１は、取得した学習データを未学習モデル（又は学習中のモデル）に入力して、フォント変換の学習を行う。学習データの入力対象の学習モデルでは、入力された学習データに基づいて、変換前画像８０２（ＯＣＲ非推奨フォントを用いて印刷された画像）を正解画像８０３（ＯＣＲ推奨フォントを用いて印刷された画像）へ変換するための学習が行われる。

その後Ｓ９０２で、ＣＰＵ３０１は、学習が終了したか否か判定する。本例では、ＣＰＵ３０１は、学習の実行回数が予め指定された学習回数に達したか否かを判定する。ＣＰＵ３０１は、実行回数が学習回数に達した場合には学習が終了したと判定し、Ｓ９０３へ処理を進め、実行回数が学習回数に達していない場合には学習が終了していないと判定し、Ｓ９００へ処理を戻す。

学習回数は、ＤＢ８００に保存されている各画像を学習に使用する回数である。一例として、ＤＢ８００に保存されている全ての画像について同一の学習回数が予め指定されるが、画像ごとに異なる学習回数が指定されてもよい。例えば、図７及び図８に示されるように、画像内に文字が一文字だけ含まれる画像を用いて学習を行う場合、学習用画像として使用される画像の数は、ひらがな、カタカナ及び句読点のような文字の画像よりも漢字の画像の方が非常に多くなる。このため、学習の結果、漢字のフォントの変換精度が相対的に高く、ひらがな及びカタカナのフォントの変換精度が相対的に低い学習済モデルが生成される可能性がある。この場合、ひらがな、カタカナ、及び句読点のような記号についての学習回数を多く設定し、漢字の学習回数を少なく設定してもよい。

Ｓ９０３で、ＣＰＵ３０１は、Ｓ９０１における学習により得られたモデルを、学習済モデル５１２として外部メモリ３１１に保存し、処理を終了する。

＜ＯＣＲ処理及びフォント変換処理＞
図１０は、画像形成装置１００における、ＯＣＲ処理部５０３によるＯＣＲ処理の手順を示すフローチャートである。図１０の各ステップの処理は、画像形成装置１００において、ＲＯＭ２０３、ＲＡＭ２０２又はＨＤＤ２０８に格納されたプログラムをＣＰＵ２０１が実行することによって実現されうる。また、図１１は、サーバ１０１における、フォント変換部５０２によって実行されるフォント変換処理の手順を示すフローチャートである。図１１の各ステップの処理は、サーバ１０１において、ＲＯＭ３０３、ＲＡＭ３０２又は外部メモリ３１１に格納されたプログラムをＣＰＵ３０１が実行することによって実現されうる。

（画像形成装置１００の処理）
以下の処理において、画像形成装置１００は、ＯＣＲ処理部５０３によって取得されたスキャン画像をサーバ１０１へ送信し、フォント変換部５０２による変換後のスキャン画像をサーバ１０１から受信する。画像形成装置１００では、ＯＣＲ処理部５０３は、サーバ１０１から受信されたスキャン画像に対してＯＣＲを実行する。

まずＳ１０００で、ＣＰＵ２０１（ＯＣＲ処理部５０３）は、原稿５１３の画像をスキャナ部２０５により読み取ることでスキャン画像を取得する。ここでは、一例として、図１２（Ａ）に示されるスキャン画像が得られた場合について説明する。

その後Ｓ１００１で、ＣＰＵ２０１は、スキャン画像をサーバ１０１へ送信する。サーバ１０１では、送信されたスキャン画像に対してフォント変換処理が実行され、当該処理の結果として、フォント変換後の画像がサーバ１０１から画像形成装置１００へ送信される。そこで、ＣＰＵ２０１は、Ｓ１００２で、フォント変換後の画像をサーバ１０１から受信したか否かを判定することで、サーバ１０１からフォント変換後の画像を受信するまで待機する。

（サーバ１０１の処理）
サーバ１０１側では、Ｓ１１００で、ＣＰＵ３０１（フォント変換部５０２）は、Ｓ１００１で画像形成装置１００から送信されるスキャン画像を、フォント変換前の画像５１４として受信する。フォント変換前の画像５１４の受信後、Ｓ１１０１で、ＣＰＵ３０１は、受信された画像に対して像域分離処理を実行することで、受信された画像から文字領域を抽出する。例えば、画像形成装置１００から受信された、図１２（Ａ）の画像に対して像域分離処理が実行されると、図１２（Ｂ）において点線枠で示される領域が、文字領域１２００，１２０１，１２０２として抽出される。

次にＳ１１０２で、ＣＰＵ３０１は、Ｓ１１０１で抽出された文字領域から所定サイズの領域を順に切り出し、Ｓ１１０３へ処理を進める。本実施形態では、所定サイズの領域は、一文字を含む領域である。即ち、ＣＰＵ３０１は、Ｓ１１０２において、文字領域から一文字ずつ各文字を切り出す。文字の切り出しには、既存の文字切り出し技術（例えば特許文献２）を使用可能である。例えば、図１３（Ａ）に示される文字領域１２００に対して文字の切り出しを行うと、図１３（Ｂ）において点線枠で示されるような、文字ごとの文字画像が得られる。

Ｓ１１０３で、ＣＰＵ３０１は、処理対象の文字領域から切り出した画像（本実施形態では文字画像）を学習済モデル５１２へ入力する。これにより、ＣＰＵ３０１は、入力した画像に対応する、フォント変換後（入力した画像に含まれる文字のフォントの変換後）の画像を生成し、Ｓ１１０４へ処理を進める。このように本実施形態では、ＣＰＵ３０１（フォント変換部５０２）は、文字領域に含まれる文字を一文字ずつ順に切り出し、切り出した文字の画像を学習済モデル５１２に入力することで変換処理を行う。なお、Ｓ１１０３では、Ｓ９０３で外部メモリ３１１に保存された学習済モデル５１２が読み出されて使用される。

Ｓ１１０４で、ＣＰＵ３０１は、フォント変換前の画像内で、切り出した行われた領域（切り出された文字）を、Ｓ１１０３で得られたフォント変換後の画像で置き換える。その後Ｓ１１０５で、ＣＰＵ３０１は、フォント変換処理が完了したか否かを判定する。具体的には、ＣＰＵ３０１は、Ｓ１１０１で抽出された全ての文字領域に含まれる文字について、Ｓ１１０２〜Ｓ１１０４の処理が完了（即ち、全ての文字領域に含まれる文字についてフォント変換後の文字への置き換えが完了）したか否かを判定する。ＣＰＵ３０１は、フォント変換処理が完了していないと判定した場合、Ｓ１１０２へ処理を戻し、別の文字領域を処理対象として、Ｓ１１０２〜Ｓ１１０４の処理を再び実行する。

ＣＰＵ３０１は、フォント変換処理が完了していないと判定した場合、Ｓ１１０５からＳ１１０６へ処理を進める。フォント変換処理が完了した場合、図１３（Ｃ）に示されるように、全ての文字領域１２００，１２０１，１２０２に含まれる文字のフォントが変換された画像が得られる。Ｓ１１０６で、ＣＰＵ３０１は、Ｓ１１００で受信された画像に対応するフォント変換後の画像を画像形成装置１００へ送信し、処理を終了する。

（画像形成装置１００の処理）
図１０のフローチャートの説明に戻り、ＣＰＵ２０１は、フォント変換後の画像をサーバ１０１から受信すると、Ｓ１００２からＳ１００３へ処理を進める。Ｓ１００３で、ＣＰＵ２０１は、受信したフォント変換後の画像に対してＯＣＲを実行する。これにより、スキャン画像内に含まれる文字情報が得られる。

その後Ｓ１００４で、ＣＰＵ２０１は、ＯＣＲ結果を出力し、ＯＣＲ処理を終了する。ＯＣＲ結果は、例えば、テキストファイル形式又はＰＤＦファイル形式で出力される。ＣＰＵ２０１は、テキストファイルを出力する場合、Ｓ１００３で得られた文字情報をテキストファイルへ書き込む。また、ＣＰＵ２０１は、ＰＤＦファイルを出力する場合、Ｓ１０００で取得したスキャン画像と、Ｓ１００３で得られた文字情報とを合わせてＰＤＦファイルへ書き込む。

以上説明したように、本実施形態では、画像形成装置１００（ＯＣＲ処理部５０３）は、原稿をスキャンして得られたスキャン画像を取得し、サーバ１０１へ送信する。サーバ１０１（フォント変換部５０２）は、スキャン画像の中で文字を含む文字領域を抽出する。更に、サーバ１０１（フォント変換部５０２）は、スキャン画像に対して、抽出された文字領域に含まれる文字のフォントをＯＣＲ非推奨フォント（第１フォント）からＯＣＲ推奨フォント（第２フォント）に変換する変換処理を行う。この変換処理には、入力された画像内のＯＣＲ非推奨フォント（第１フォント）の文字をＯＣＲ推奨フォント（第２フォント）の文字に変換するように予め学習が行われた学習済モデルが用いられる。画像形成装置１０１は、変換後のスキャン画像をサーバ１０１から受信し、受信したスキャン画像に対してＯＣＲを実行する。

より具体的には、サーバ１０１は、ＯＣＲ非推奨フォントを用いて印刷された画像とＯＣＲ推奨フォントを用いて印刷された画像とのセットを学習データとして生成し、当該学習データに基づく学習を行う。これにより、未知のＯＣＲ非推奨フォントを用いて印刷された画像を、ＯＣＲ推奨フォントを用いて印刷された画像に変換できる。更に、変換後の画像に対してＯＣＲを実行することで、ＯＣＲの認識精度を高めることができる。即ち、処理対象の画像に使用されているフォントによらずＯＣＲの認識精度を向上させることが可能になる。

本実施形態では、学習データ生成部５００、変換学習部５０１、及びフォント変換部５０２をサーバ１０１に配置する例について説明したが、これら全てを画像形成装置１００に配置することも可能である。即ち、図５（Ａ）に示される学習処理と図５（Ｂ）に示されるＯＣＲ処理とを、全て画像形成装置１００上で実行することも可能である。即ち、画像形成装置１００を、学習データ生成部５００、変換学習部５０１、フォント変換部５０２、及びＯＣＲ処理部５０３を備えるように構成することも可能である。

また、本実施形態では、ある一種類のＯＣＲ非推奨フォントを用いて印刷された画像と、ある一種類のＯＣＲ推奨フォントを用いて印刷された画像とのセットを学習データとして使用する例について説明した。しかし、一種類のＯＣＲ非推奨フォントではなく、異なる複数の種類のＯＣＲ非推奨フォントを用いて印刷された画像を用いて学習データを生成してもよい。即ち、異なる複数の種類のＯＣＲ非推奨フォントを用いて印刷された画像から、ある一種類のＯＣＲ推奨フォントを用いて印刷された画像へ変換可能な学習済モデルを生成してもよい。これにより、スキャン対象の原稿の画像に、複数の種類のＯＣＲ非推奨フォントの文字が含まれていた場合でも、それら全ての種類のＯＣＲ非推奨フォントについて学習済みであれば、各文字のフォントをある一種類のＯＣＲ推奨フォントに変換可能になる。

また、変換前画像８０２として用いられる画像は、ＯＣＲ推奨フォントを用いて印刷された画像が劣化した画像であってもよい。即ち、学習データ生成部５００は、変換前画像８０２として、正解画像８０３に含まれるＯＣＲ推奨フォントで表された文字が劣化した状態に変化した文字を含む画像を用いて、変換前画像８０２と正解画像８０３とのセットを含む学習データを生成してもよい。

例えば、図１４に示されるように、ＯＣＲ推奨フォントを用いて印刷された画像に含まれる各文字が、ＦＡＸ送信により潰れた状態に変化した画像が、変換前画像８０２として用いられてもよい。ＦＡＸ送信により潰れた状態に変化した文字は、ＯＣＲ推奨フォントで印刷された文字であっても形状が大きく変化しているため、ＯＣＲによるこのような文字の認識精度は一般的に低下する。この場合、ＦＡＸ送信による潰れた状態に変化した文字の画像を変換前画像８０２として、ＦＡＸ送信前の文字の画像を正解画像８０３として用いて学習を行ってもよい。このような学習により、ＦＡＸ送信による潰れた状態に変化した文字を、ＦＡＸ送信前の（潰れた状態に変化する前の）文字に変換可能な学習済モデルを生成できる。また、生成した学習済モデルを用いてフォント変換及びＯＣＲを実行することで、ＯＣＲの認識精度を高めることが可能になる。

［第２実施形態］
第１実施形態では、変換学習部５０１による学習に用いられる学習用画像として、画像内に文字が一文字だけ含まれる画像を用いる例を説明した。第２実施形態では、画像内に複数の文字が含まれる画像を学習用画像として用いる例について説明する。以下では、第１実施形態と共通する部分については説明を省略し、異なる部分について説明する。

＜学習データの生成処理＞
本実施形態において、学習データ生成部５００は、第１実施形態と同様、図６に示す手順に従って学習データの生成処理を実行する。本実施形態では、学習データ生成部５００は、それぞれ複数の文字を含む変換前画像８０２（第１画像）と正解画像８０３（第２画像）とのセットを含む学習データ５１１を生成する。

まずＳ６００で、学習データ生成部５００（ＣＰＵ３０１）は、情報端末１０２から送信された文章画像を受信し、受信した文章画像に基づいて複数の学習用画像を取得する。図１５（Ａ）は、情報端末１０２から送信される学習用の文章画像のペアの例を示している。画像１５００は、ＯＣＲ推奨フォントで表された文章を含む第１文章画像であり、画像１５０１は、画像１５００に対応する、ＯＣＲ非推奨フォントで表された文章を含む第２文章画像である。Ｓ６００で、学習データ生成部５００は、画像１５００及び１５０１のような学習用の文章画像のペアから、図１５（Ｂ）に示される画像１５１０及び１５１１のような画像を切り出す処理を行うことで、学習用画像を生成する。

このように、ＯＣＲ推奨フォントを用いて印刷された第１文章画像と、ＯＣＲ非推奨フォントを用いて印刷された、対応する第２文章画像とのペアが受信され、学習用画像の生成に使用される。学習データ生成部５００は、第１文章画像と第２文章画像とのそれぞれにおいて、所定サイズの（同じ位置に相当する）領域を切り出して部分画像を得る。学習データ生成部５００は、このような部分画像の切り出しを、第１文章画像と第２文章画像とのそれぞれにおいて、１回ごとに異なる領域を対象として複数回にわたって行う。これにより、変換前画像８０２（第１画像）と正解画像８０３（第２画像）として用いられる部分画像を学習用画像として生成する。受信した文書画像に含まれる全ての文字が、取得される複数の部分画像のいずれかに含まれるように、このような切り出し処理が行われうる。

なお、Ｓ１６００では、それぞれ異なる文書（文字）を含む複数の文書画像が情報端末１０２から受信され、学習用画像の生成に使用されてもよい。また、情報端末１０２から受信される文書画像は、どのような文書を含む画像であってもよいが、ＯＣＲが行われる頻度の高い文書を含む画像であることが望ましい。また、上述の切り出し処理の実行回数は、例えば、文章画像に含まれる文字数に応じて定められてもよい。

次にＳ６０１で、ＣＰＵ３０１は、Ｓ６００で取得した学習用画像に基づいて学習データ５１１を生成し、生成した学習データ５１１を外部メモリ３１１に保存し、処理を終了する。ここで、図１６は、本実施形態に係る、サーバ１０１において外部メモリ３１１に設けられる、学習データ５１１の保存用のＤＢの例を示す図である。本実施形態では、ＤＢ１６００には、第１実施形態のＤＢ８００と異なり、変換前画像８０２及び正解画像８０３として、Ｓ６００で生成された、複数の文字を含む画像（例えば、画像１５００及び１５０１）が、学習データ５１１として格納される。

＜フォント変換の学習処理＞
本実施形態において、変換学習部５０１は、第１実施形態と同様、図９に示す手順に従ってフォント変換の学習処理を実行する。変換学習部５０１は、ＤＢ１６００に保存されている学習データ５１１を未学習モデル（又は学習中のモデル）に入力する（Ｓ９００）。これにより、変換学習部５０１は、複数の文字を含む画像に対して、ＯＣＲ非推奨フォントからＯＣＲ推奨フォントへのフォント変換を行うことが可能な学習済モデルを生成し、生成した学習済モデルを外部メモリ３１１に保存する（Ｓ９０３）。

＜ＯＣＲ処理及びフォント変換処理＞
本実施形態では、画像形成装置１００のＯＣＲ処理部５０３は、第１実施形態と同様、図１０に示される手順に従ってＯＣＲ処理を実行する。また、サーバ１０１のフォント変換部５０２は、第１実施形態と同様、図１１に示される手順に従ってフォント変換処理を実行する。

ただし、本実施形態では、フォント変換部５０２（ＣＰＵ３０１）は、Ｓ１１０２において、Ｓ１１０１で抽出した文字領域から所定サイズの領域を順に切り出す際に、複数の文字を含むサイズの領域の切り出しを行う。例えば、フォント変換部５０２は、図１７（Ａ）に示される文字領域１２００に対して切り出し行う場合、図１７（Ｂ）において点線枠で示されるサイズの領域について、順に切り出しを行う。

その後、フォント変換部５０２は、Ｓ１１０３〜Ｓ１１０６において第１実施形態と同様の処理を行う。本実施形態のフォント変換処理が完了すると（Ｓ１１０５で「ＹＥＳ」）、第１実施形態と同様、図１３（Ｃ）に示されるような、全ての文字領域１２００，１２０１，１２０２に含まれる文字のフォントが変換された画像が得られる。フォント変換後の画像は、サーバ１０１から画像形成装置１００へ送信される。

ＯＣＲ処理部５０３は、第１実施形態と同様、サーバ１０１から受信したフォント変換後の画像に対してＯＣＲを実行し（Ｓ１００３）、ＯＣＲ結果を出力し（Ｓ１００４）、処理を終了する。

以上説明したように、本実施形態では、フォント変換部５０２は、スキャン画像から抽出された文字領域から所定サイズの領域を順に切り出し、切り出した領域の画像を学習済モデル５１２に入力することでフォント変換処理を行う。本実施形態によれば、第１実施形態で必要であった、文字領域から一文字ずつ文字を切り出す処理が不要となる。

［第３実施形態］
第１実施形態では、スキャン画像に含まれる文字のフォントをＯＣＲ推奨フォントへ変換する例を説明した。しかし、実際のスキャン画像には、種々のフォントを用いて印刷された文字が含まれうるため、フォント変換前の文字が、既にＯＣＲ推奨フォントの文字である場合もありうる。本実施形態では、既にＯＣＲ推奨フォントを用いて印刷された文字についてフォント変換を行わないようにすることで、フォント変換処理に要する時間を短縮する。以下では、第１実施形態と共通する部分については説明を省略し、異なる部分について説明する。

＜フォント変換処理＞
本実施形態では、サーバ１０１のフォント変換部５０２は、図１８に示される手順に従ってフォント変換処理を実行する。図１８のフローチャートは、Ｓ１１０２とＳ１１０３との間にＳ１８００が追加されている点で、第１実施形態における図１１のフローチャートと異なっている。

本実施形態では、フォント変換部５０２（ＣＰＵ３０１）は、Ｓ１１０２で、Ｓ１１０１で抽出された文字領域から所定サイズの領域を順に切り出した後、Ｓ１８００へ処理を進める。

Ｓ１８００で、フォント変換部５０２は、切り出し領域が、フォント変換の対象領域であるか否かを判定する。具体的には、フォント変換部５０２は、切り出し領域にＯＣＲ非推奨フォントの文字が含まれる場合には、切り出し領域がフォント変換の対象領域であると判定し、Ｓ１１０３へ処理を進める。一方、フォント変換部５０２は、切り出し領域にＯＣＲ非推奨フォントの文字が含まれない場合には、切り出し領域がフォント変換の対象領域ではないと判定し、Ｓ１１０２へ処理を戻す。

Ｓ１８００の判定処理は、例えば、非特許文献２に記載のような、ディープラーニングを用いた画像分類技術を用いて実現できる。非特許文献２では、入力画像が、予め定義された数百種類のカテゴリのうちでどのカテゴリに分類されるかを、学習済モデルを用いて判定する。学習済モデルは、画像とともに、画像のカテゴリをタグ情報としてセットで用いて学習を行うことによって生成される。

本実施形態では、文字を含む画像とともに、ＯＣＲ推奨フォント又はＯＣＲ非推奨フォントをタグ情報としてセットで用いて学習を行うことで、学習済モデルを生成する。この学習済モデルに対して、文字を含む画像を入力すると、入力された画像がＯＣＲ推奨フォントを用いて印刷された画像であるか、ＯＣＲ非推奨フォントを用いて印刷された画像であるかを判定できる。

以上説明したように、本実施形態では、フォント変換部５０２は、スキャン画像から抽出された文字領域に含まれる文字のうち、ＯＣＲ推奨フォント（第２フォント）の文字に対してフォント変換処理を行わない。このように、ＯＣＲ推奨フォントで印刷された画像に対してフォント変換処理を実行しないことにより、フォント変換処理に要する時間を短縮することが可能になる。

［第４実施形態］
ＯＣＲ推奨フォントを用いて印刷された、劣化の無い画像に対してＯＣＲを行った場合でも、文字の認識精度が低い場合がある。例えば、拗音又は促音を表す小文字（「っ」、「ょ」、「ャ」等）に対してＯＣＲを行った場合に、このような文字が小文字ではなく大文字として誤認識される可能性がある。

そこで、第４実施形態では、小文字の正解画像として通常の文字サイズよりも小さいサイズの小文字を含む正解画像を生成し、生成した正解画像を学習データに含めて、フォント変換の学習処理に使用する。これにより、小文字のフォント変換において、通常の文字サイズよりも小さいサイズの文字への変換を行い、ＯＣＲによる小文字の認識精度を高めることを可能にする。以下では、第１実施形態と共通する部分については説明を省略し、異なる部分について説明する。

図１９（Ａ）は、第１実施形態におけるＤＢ８００に保存される学習データの例を示している。ＤＢ８００に保存される変換前画像８０２及び正解画像８０３では、拗音又は促音を表す小文字は通常のサイズで含められている。一方、図１９（Ｂ）は、本実施形態に係るＤＢ１９００を示している。ＤＢ１９００には、小文字を含む正解画像として、図１９（Ａ）に示される正解画像１９０１に含まれる小文字よりもサイズの小さい小文字を含む正解画像１９０２が格納される。

以上説明したように、本実施形態では、変換前画像８０２（第１画像）に小文字が含まれる場合、正解画像８０３（第２画像）に含まれる小文字のサイズを、変換前画像８０２に含まれる小文字のサイズより小さくする。フォント変換の学習処理において上述のような学習データを用いることにより、小文字を含む画像を、通常の文字サイズよりも小さいサイズの文字を含む画像に変換する学習済モデルが生成される。更に、生成された学習済モデルを用いて、第１乃至第３実施形態のようにフォント変換を適用したＯＣＲ処理が行われる。これにより、ＯＣＲにおける小文字の認識精度を高めることが可能である。

［その他の実施形態］
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上述の実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。したがって、発明の範囲を公にするために請求項を添付する。

１００：画像形成装置、１０１：サーバ、１０２：情報端末

Claims

原稿をスキャンして得られたスキャン画像を取得する取得手段と、
前記スキャン画像の中で文字を含む文字領域を抽出する抽出手段と、
入力された画像内の第１フォントの文字を第２フォントの文字に変換して変換後の画像を出力するように予め学習が行われた変換モデルを用いて、前記スキャン画像に対して、前記抽出された文字領域に含まれる文字のフォントを前記第１フォントから前記第２フォントに変換する変換処理を行う変換手段と、
前記変換手段による変換後の前記スキャン画像に対してＯＣＲを実行する実行手段と、
を備えることを特徴とする画像処理システム。
前記第１フォントで表された文字を含む第１画像と、前記第１画像に含まれる文字と同じ文字であって前記第２フォントで表された文字を含む第２画像とのセットを含む学習データを生成する生成手段と、
前記生成手段によって生成された前記学習データに基づく学習を行うことで前記変換モデルを生成する学習手段と、
を更に備えることを特徴とする請求項１に記載の画像処理システム。
前記生成手段は、それぞれ一文字だけ含む前記第１画像と前記第２画像とのセットを含む学習データを生成し、
前記変換手段は、前記文字領域に含まれる文字を一文字ずつ順に切り出し、切り出した文字の画像を前記変換モデルに入力することで前記変換処理を行う
ことを特徴とする請求項２に記載の画像処理システム。
前記生成手段は、それぞれ複数の文字を含む前記第１画像と前記第２画像とのセットを含む学習データを生成し、
前記変換手段は、前記文字領域から所定サイズの領域を順に切り出し、切り出した領域の画像を前記変換モデルに入力することで前記変換処理を行う
ことを特徴とする請求項２に記載の画像処理システム。
前記生成手段は、前記第１フォントで表された文章を含む第１文章画像と前記第２フォントで表された文章を含む第２文章画像とのそれぞれの中で、前記所定サイズの領域を切り出すことで、前記第１画像と前記第２画像とのセットを生成する
ことを特徴とする請求項４に記載の画像処理システム。
前記生成手段は、前記第１文章画像、及び前記第２文章画像の中で、１回ごとに異なる領域を対象として複数回にわたって前記所定サイズの領域を切り出すことで、前記第１画像と前記第２画像との複数のセットを生成する
ことを特徴とする請求項５に記載の画像処理システム。
前記生成手段は、前記第１画像に小文字が含まれる場合、前記第２画像に含まれる小文字のサイズを、前記第１画像に含まれる小文字のサイズより小さくする
ことを特徴とする請求項２から６のいずれか１項に記載の画像処理システム。
前記生成手段は、前記第１画像として、前記第２画像に含まれる前記第２フォントで表された文字が劣化した状態に変化した文字を含む画像を用いて、前記第１画像と前記第２画像とのセットを含む学習データを生成する
ことを特徴とする請求項２から７のいずれか１項に記載の画像処理システム。
前記変換手段は、前記文字領域に含まれる文字のうち、前記第２フォントの文字に対して前記変換処理を行わない
ことを特徴とする請求項１から８のいずれか１項に記載の画像処理システム。
前記第１フォントは、前記第２フォントよりも前記ＯＣＲによる文字の認識精度が低いフォントである
ことを特徴とする請求項１から９のいずれか１項に記載の画像処理システム。
前記画像処理システムは、画像処理装置と前記画像処理装置と通信可能なサーバ装置とを備え、
前記画像処理装置は、前記取得手段と前記実行手段とを含み、
前記サーバ装置は、前記抽出手段と前記変換手段とを含む
ことを特徴とする請求項１から１０のいずれか１項に記載の画像処理システム。
前記画像処理装置は、前記取得手段によって取得された前記スキャン画像を前記サーバ装置へ送信し、前記変換手段による変換後の前記スキャン画像を前記サーバ装置から受信し、
前記実行手段は、前記サーバ装置から受信された前記スキャン画像に対して前記ＯＣＲを実行する
ことを特徴とする請求項１１に記載の画像処理システム。
原稿をスキャンしてスキャン画像を生成する読取手段と、
前記スキャン画像の中で文字を含む文字領域を抽出する抽出手段と、
入力された画像内の第１フォントの文字を第２フォントの文字に変換して変換後の画像を出力するように予め学習が行われた変換モデルを用いて、前記スキャン画像に対して、前記抽出された文字領域に含まれる文字のフォントを前記第１フォントから前記第２フォントに変換する処理を行う変換手段と、
前記変換手段による変換後の前記スキャン画像に対してＯＣＲを実行する実行手段と、
を備えることを特徴とする画像処理装置。
画像処理方法であって、
原稿をスキャンして得られたスキャン画像を取得する取得工程と、
前記スキャン画像の中で文字を含む文字領域を抽出する抽出工程と、
入力された画像内の第１フォントの文字を第２フォントの文字に変換して変換後の画像を出力するように予め学習が行われた変換モデルを用いて、前記スキャン画像に対して、前記抽出された文字領域に含まれる文字のフォントを前記第１フォントから前記第２フォントに変換する処理を行う変換工程と、
前記変換工程での変換後の前記スキャン画像に対してＯＣＲを実行する実行工程と、
を含むことを特徴とする画像処理方法。
請求項１４に記載の画像処理方法の各工程をコンピュータに実行させるためのプログラム。