JP2023037360A

JP2023037360A - 画像処理プログラムおよび画像処理システム

Info

Publication number: JP2023037360A
Application number: JP2021144053A
Authority: JP
Inventors: 和樹同前; Kazuki Domae; 幸雄岩崎; Yukio Iwasaki; 淳鈴木; Atsushi Suzuki; 俊介森; Shunsuke Mori; 拓真藤田; Takuma Fujita
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2023-03-15
Also published as: US20230071008A1; CN115331234A

Abstract

【課題】文字検出モデルによる文字の位置の検出の精度を向上することができる画像処理プログラムおよび画像処理システムを提供する。【解決手段】画像に含まれる文書における文字の認識のために、この画像における、この文字の位置を検出する文字検出モデルの学習データを生成する画像処理システムは、画像をクロッピングしたクロッピング画像を生成し（Ｓ１２１）、分断された文字を含むクロッピング画像を学習データとして扱わず（Ｓ１２９）、分断された文字を含まないクロッピング画像を学習データとして扱う（Ｓ１２５）ことを特徴とする。【選択図】図９

Description

本発明は、画像を処理する画像処理プログラムおよび画像処理システムに関する。

従来、画像に含まれる文書における文字を認識する技術が知られている（例えば、特許文献１、２参照。）。

特許第６７２２９２９号公報特許第６７９５１９５号公報

しかしながら、従来の技術においては、画像に含まれる文書における文字の認識のために、この画像における、この文字の位置を検出する文字検出モデルによる文字の位置の検出の精度が低いという問題がある。

そこで、本発明は、文字検出モデルによる文字の位置の検出の精度を向上することができる画像処理プログラムおよび画像処理システムを提供することを目的とする。

本発明の画像処理プログラムは、画像に含まれる文書における文字の認識のために、この画像における、この文字の位置を少なくとも検出する文字検出モデルの学習データを生成するための画像処理プログラムであって、画像をクロッピングしたクロッピング画像をコンピューターに生成させ、分断された文字を含む前記クロッピング画像を前記コンピューターに前記学習データとして扱わせず、分断された文字を含まない前記クロッピング画像を前記コンピューターに前記学習データとして扱わせることを特徴とする。

この構成により、本発明の画像処理プログラムを実行するコンピューターは、画像をクロッピングしたクロッピング画像に基づいて学習データを生成するので、１つの画像から複数の学習データを生成することができ、その結果、文字検出モデルによる文字の位置の検出の精度を向上することができる。また、本発明の画像処理プログラムを実行するコンピューターは、分断された文字を含むクロッピング画像を学習データとして扱わず、分断された文字を含まないクロッピング画像を学習データとして扱うので、分断された文字を誤って学習することを防止することができ、その結果、文字検出モデルによる文字の位置の検出の精度を向上することができる。

本発明の画像処理プログラムは、分断された文字が前記クロッピング画像に含まれている場合に、分断された文字を前記クロッピング画像から除去した修正クロッピング画像を前記学習データとして前記コンピューターに扱わせても良い。

この構成により、本発明の画像処理プログラムを実行するコンピューターは、分断された文字がクロッピング画像に含まれている場合に、分断された文字をクロッピング画像から除去した修正クロッピング画像を学習データとして扱うので、学習データの生成を容易化することができる。

本発明の画像処理プログラムは、前記クロッピング画像がクロッピングされる予定の画像における手書きの線の画素を前記コンピューターに推論によって検出させ、前記コンピューターによって検出された前記画素を前記コンピューターに塗り潰させ、前記画素が前記コンピューターによって塗り潰された画像をクロッピングした前記クロッピング画像を前記コンピューターに生成させても良い。

この構成により、本発明の画像処理プログラムを実行するコンピューターは、画像における手書きの線の画素を推論によって検出し、検出した画素を塗り潰すので、掠れた文字が画像に含まれている場合に、掠れた文字を補正した画像をクロッピングしたクロッピング画像を生成することができ、その結果、文字検出モデルによる文字の位置の検出の精度を向上することができる。

本発明の画像処理システムは、画像に含まれる文書における文字の認識のために、この画像における、この文字の位置を少なくとも検出する文字検出モデルの学習データを生成する画像処理システムであって、画像をクロッピングしたクロッピング画像を生成し、分断された文字を含む前記クロッピング画像を前記学習データとして扱わず、分断された文字を含まない前記クロッピング画像を前記学習データとして扱うことを特徴とする。

この構成により、本発明の画像処理システムは、画像をクロッピングしたクロッピング画像に基づいて学習データを生成するので、１つの画像から複数の学習データを生成することができ、その結果、文字検出モデルによる文字の位置の検出の精度を向上することができる。また、本発明の画像処理システムは、分断された文字を含むクロッピング画像を学習データとして扱わず、分断された文字を含まないクロッピング画像を学習データとして扱うので、分断された文字を誤って学習することを防止することができ、その結果、文字検出モデルによる文字の位置の検出の精度を向上することができる。

本発明の画像処理プログラムおよび画像処理システムは、文字検出モデルによる文字の位置の検出の精度を向上することができる。

１台のコンピューターによって構成される場合の本発明の一実施の形態に係る画像処理システムのブロック図である。図１に示す画像処理システムによって実現されるＯＣＲ技術の流れを示す図である。（ａ）図２に示す画像取り込み処理によって取り込まれた電子化画像の一例を示す図である。（ｂ）図２に示す文字検出処理によって検出された各文字の位置の一例を示す図である。（ｃ）図２に示す行検出処理によって検出された各行の位置の一例を示す図である。（ａ）図２に示す文字認識処理によって認識された各文字の一例を示す図である。（ｂ）図２に示す文字認識処理によって特定された各行の文字列の一例を示す図である。（ａ）図１に示す手書き画素検出モデルの学習に使用される学習データの一例を示す図である。（ｂ）図１に示す手書き画素検出モデルの学習に使用される正解データの一例を示す図である。掠れ補正処理を実行する場合の図１に示す画像処理システムの動作のフローチャートである。（ａ）図１に示す手書き画素検出モデルによって画素が検出される前の電子化画像の一例を示す図である。（ｂ）図１に示す手書き画素検出モデルによって検出された画素の一例を示す図である。掠れた文字が図２に示す掠れ補正処理によって補正された後の電子化画像の一例を示す図である。文字検出モデルの学習を実行する場合の図１に示す画像処理システムの動作のフローチャートである。図１に示す文字検出モデルの学習のために用意された電子化画像の一例を示す図である。図９に示す動作において生成されたクロッピング画像の一例を示す図である。図９に示す動作において生成された修正クロッピング画像の一例を示す図である。

以下、本発明の実施の形態について、図面を用いて説明する。

まず、本発明の一実施の形態に係る画像処理システムの構成について説明する。

本実施の形態に係る画像処理システムは、例えば、ＭＦＰ（ＭｕｌｔｉｆｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）などの画像形成装置、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）など、１台のコンピューターによって構成されても良いし、複数台のコンピューターによって構成されても良い。

図１は、１台のコンピューターによって構成される場合の画像処理システム１０のブロック図である。

図１に示すように、画像処理システム１０は、種々の操作が入力される例えばキーボード、マウスなどの操作デバイスである操作部１１と、種々の情報を表示する例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）などの表示デバイスである表示部１２と、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部１３と、各種の情報を記憶する例えば半導体メモリー、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの不揮発性の記憶デバイスである記憶部１４と、画像処理システム１０全体を制御する制御部１５とを備えている。

記憶部１４は、画像処理プログラム１４ａを記憶している。画像処理プログラム１４ａは、例えば、画像処理システム１０の製造段階で画像処理システム１０にインストールされていても良いし、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリーなどの外部の記憶媒体から画像処理システム１０に追加でインストールされても良いし、ネットワーク上から画像処理システム１０に追加でインストールされても良い。

図２は、画像処理システム１０によって実現されるＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）技術の流れを示す図である。

制御部１５は、画像処理プログラム１４ａを実行することによって、図２に示す処理を実現する。

図２に示すように、画像処理システム１０によって実現されるＯＣＲ技術は、ＯＣＲ技術のメインの処理であるメイン処理３０と、メイン処理３０の前に実行される前処理２０と、メイン処理３０の後に実行される後処理４０とを含んでいる。

前処理２０は、紙などの媒体に描かれた文書をスキャナー、カメラなどのデバイスによって電子化して画像（以下「電子化画像」という。）として取り込む画像取り込み処理２１と、電子化画像に含まれる文書における文字、行などのレイアウトを解析するレイアウト解析処理２２とを含んでいる。

画像取り込み処理２１は、文字認識の精度の向上のために、例えば、電子化画像に対する台形補正、向きの補正など、電子化画像の形状の補正を実行したり、文字認識の精度の向上のために、例えば、電子化画像に含まれる網掛けの除去、電子化の際に電子化画像に映り込んだ影の除去など、文字認識に不要な情報の、電子化画像からの除去を実行したりするノイズ除去処理２１ａと、ノイズ除去処理２１ａが実行された電子化画像に含まれる、掠れた線を補正する掠れ補正処理２１ｂとを含んでいる。掠れた線が電子化画像に含まれる場合としては、例えば、筆圧が弱かった手書き文字が電子化される場合が存在する。

なお、以上においては、ノイズ除去処理２１ａの実行の後に掠れ補正処理２１ｂが実行されているが、掠れ補正処理２１ｂの実行のタイミングは、ノイズ除去処理２１ａの実行の後でなくても良い。例えば、ノイズ除去処理２１ａの実行の途中で掠れ補正処理２１ｂが実行されても良いし、掠れ補正処理２１ｂの実行の後にノイズ除去処理２１ａが実行されても良い。

レイアウト解析処理２２は、ノイズ除去処理２１ａおよび掠れ補正処理２１ｂが実行された電子化画像に含まれる文書のレイアウトを解析する。レイアウト解析処理２２は、電子化画像に含まれる文書における文字の、電子化画像における位置を検出する文字検出処理２２ａと、文字検出処理２２ａによって検出された文字によって構成される行の、電子化画像における位置を検出する行検出処理２２ｂとを含んでいる。

図３（ａ）は、画像取り込み処理２１によって取り込まれた電子化画像の一例を示す図である。図３（ｂ）は、文字検出処理２２ａによって検出された各文字の位置の一例を示す図である。図３（ｃ）は、行検出処理２２ｂによって検出された各行の位置の一例を示す図である。

画像取り込み処理２１によって取り込まれた電子化画像が例えば図３（ａ）に示すものである場合、文字検出処理２２ａは、図３（ｂ）に示すように、電子化画像に含まれる文書における各文字の位置を検出する。電子化画像に含まれる文書における各文字の位置は、例えば、各文字を囲む矩形範囲の左上の端の座標など、各文字を囲む矩形範囲に対するいずれかの位置の座標（ｘ，ｙ）と、各文字を囲む矩形範囲の幅（ｗｉｄｔｈ）および高さ（ｈｅｉｇｈｔ）とによって表されても良いし、他の方法によって表されても良い。

画像取り込み処理２１によって取り込まれた電子化画像が例えば図３（ａ）に示すものである場合、行検出処理２２ｂは、図３（ｃ）に示すように、電子化画像に含まれる文書における各行の位置を検出する。電子化画像に含まれる文書における各行の位置は、例えば、各行を囲む矩形範囲の左上の端の座標など、各行を囲む矩形範囲に対するいずれかの位置の座標（ｘ，ｙ）と、各行を囲む矩形範囲の幅（ｗｉｄｔｈ）および高さ（ｈｅｉｇｈｔ）とによって表されても良いし、他の方法によって表されても良い。

図２に示すように、メイン処理３０は、文字検出処理２２ａによって位置が検出された各文字が具体的にどのような文字であるかを認識し、その結果、行検出処理２２ｂによって位置が検出された各行が具体的にどのような文字列で構成されるかを特定する文字認識処理３１を含んでいる。

図４（ａ）は、文字認識処理３１によって認識された各文字の一例を示す図である。図４（ｂ）は、文字認識処理３１によって特定された各行の文字列の一例を示す図である。

文字検出処理２２ａによって検出された各文字の位置が例えば図３（ｂ）に示すものである場合、文字認識処理３１は、図４（ａ）に示すように、電子化画像に含まれる文書における各文字を認識する。そして、行検出処理２２ｂによって検出された各行の位置が例えば図３（ｃ）に示すものである場合、文字認識処理３１は、図４（ｂ）に示すように、電子化画像に含まれる文書における各行の文字列を特定する。

図２に示すように、後処理４０は、例えば辞書に含まれる単語を使用するなどして、文字認識処理３１による誤認識を修正する知識処理４１を含んでいる。

図１に示すように、記憶部１４は、掠れ補正処理２１ｂにおいて手書きの線の画素を推論によって検出するモジュールとしての手書き画素検出モデル１４ｂを記憶可能である。手書き画素検出モデル１４ｂは、例えばＵ－Ｎｅｔをベースとする機械学習手法である。

記憶部１４は、文字検出処理２２ａを実行するモジュールとしての文字検出モデル１４ｃを記憶可能である。

制御部１５は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、プログラムおよび各種のデータを記憶しているＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）と、制御部１５のＣＰＵの作業領域として用いられるメモリーとしてのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）とを備えている。制御部１５のＣＰＵは、記憶部１４または制御部１５のＲＯＭに記憶されているプログラムを実行する。

制御部１５は、画像処理プログラム１４ａを実行することによって、例えば、手書き画素検出モデル１４ｂの学習を実行する手書き画素検出モデル学習部１５ａと、掠れ補正処理２１ｂを実行する掠れ補正処理部１５ｂと、文字検出モデル１４ｃの学習を実行する文字検出モデル学習部１５ｃとを実現する。

次に、手書き画素検出モデル１４ｂの学習を実行する場合の画像処理システム１０の動作について説明する。

作業者は、掠れが存在する手書き文字の画像を学習データとして用意するとともに、この画像において手書き文字に掠れが存在しない場合の画像を正解データとして用意する。

図５（ａ）は、手書き画素検出モデル１４ｂの学習に使用される学習データの一例を示す図である。図５（ｂ）は、手書き画素検出モデル１４ｂの学習に使用される正解データの一例を示す図である。

例えば、図５（ａ）に示す学習データは、図５（ｂ）に示す正解データに対して、手動または自動でランダムに画素が例えば白色などの背景色で塗り潰されることによって生成されても良い。

作業者は、学習データおよび正解データを指定した手書き画素検出モデル１４ｂの学習の指示を、例えば操作部１１を介して画像処理システム１０に入力する。手書き画素検出モデル学習部１５ａは、この指示が入力されると、この指示において指定された、学習データおよび正解データを使用して、手書き画素検出モデル１４ｂの学習を実行する。

次に、掠れ補正処理２１ｂを実行する場合の画像処理システム１０の動作について説明する。

図６は、掠れ補正処理２１ｂを実行する場合の画像処理システム１０の動作のフローチャートである。

図６に示すように、掠れ補正処理部１５ｂは、電子化画像に含まれる手書きの線の画素を手書き画素検出モデル１４ｂによって検出する（Ｓ１０１）。

図７（ａ）は、手書き画素検出モデル１４ｂによって画素が検出される前の電子化画像の一例を示す図である。図７（ｂ）は、手書き画素検出モデル１４ｂによって検出された画素の一例を示す図である。

図７（ａ）に示す電子化画像は、掠れた「い」の文字が含まれている。手書き画素検出モデル１４ｂは、図７（ａ）に示す電子化画像が入力されることによって、図７（ｂ）において太枠で囲まれている画素を、手書きの線の画素として推論する。

図６に示すように、掠れ補正処理部１５ｂは、Ｓ１０１の処理の後、Ｓ１０１によって検出された画素を例えば黒色などの特定の色によって塗り潰すことによって、電子化画像に含まれる、掠れた線を補正して（Ｓ１０２）、図６に示す動作を終了する。

図８は、掠れた文字が掠れ補正処理２１ｂによって補正された後の電子化画像の一例を示す図である。

Ｓ１０１によって図７（ｂ）に示す画素が検出された場合、掠れ補正処理部１５ｂは、図８に示す電子化画像をＳ１０２において生成する。

なお、図７および図８に示す例では、電子化画像には、１つの手書き文字のみが含まれている。しかしながら、掠れ補正処理２１ｂの対象の電子化画像には、複数の手書き文字が含まれても良い。また、掠れ補正処理２１ｂの対象の電子化画像には、手書き文字以外の手書きの線が含まれても良いし、手書きの線以外のものが含まれても良い。例えば、掠れ補正処理２１ｂの対象の電子化画像には、手書き文字以外の文字と、手書きの線以外の罫線と、手書きの図形以外の図形との少なくとも１つが含まれても良い。また、掠れ補正処理２１ｂの対象の電子化画像は、カラー画像でも良いが、掠れ補正処理２１ｂにおける処理量の低減のために、カラー画像の場合にはモノクロ画像に変換されることが好ましい。

次に、文字検出モデル１４ｃの学習を実行する場合の画像処理システム１０の動作について説明する。

例えばＡ４サイズの画像など、サイズの大きな画像を学習データとして文字検出モデル１４ｃの学習を実行する場合、学習データのデータ量が大きくなり過ぎて、画像処理システム１０のハードウェアリソースを超過する可能性があるため、文字検出モデル１４ｃの学習が正常に実行できない可能性がある。そのため、画像処理システム１０は、画像から一部を適宜切り出して、すなわち、クロッピングしてデータ量が小さい学習データを生成する。

図９は、文字検出モデル１４ｃの学習を実行する場合の画像処理システム１０の動作のフローチャートである。

作業者は、例えばＡ４サイズなどの特定のサイズの画像（以下、図９に示す動作の説明において「対象画像」という。）と、この対象画像に含まれる文書における全ての文字の位置を示す正解データ（以下、図９に示す動作の説明において「対象正解データ」という。）とを用意し、対象画像および対象正解データを指定した文字検出モデル１４ｃの学習の指示を、例えば操作部１１を介して画像処理システム１０に入力する。文字検出モデル学習部１５ｃは、この指示が入力されると、図９に示す動作を実行する。

図９に示すように、文字検出モデル学習部１５ｃは、対象画像における特定の位置から特定の高さおよび幅で対象画像をクロッピングした画像（以下「クロッピング画像」という。）を生成する（Ｓ１２１）。ここで、特定の高さおよび幅は、画像処理システム１０のハードウェアリソース次第であるが、例えば、５００ピクセル×５００ピクセルである。

文字検出モデル学習部１５ｃは、Ｓ１２１の処理の後、直前のＳ１２１において生成したクロッピング画像に、分断された文字が含まれているか否かを、対象正解データに基づいて判断する（Ｓ１２２）。ここで、分断された文字とは、直前のＳ１２１において生成したクロッピング画像に一部のみが含まれている文字である。

図１０は、文字検出モデル１４ｃの学習のために用意された対象画像５０の一例を示す図である。図１１は、Ｓ１２１において生成されたクロッピング画像６０の一例を示す図である。

図１１に示すクロッピング画像６０は、図１０に示す対象画像５０から生成されたものである。図１１に示すクロッピング画像６０は、分断されていない文字６１と、分断された文字６２とを含んでいる。図１１において、分断された文字６２は、図１０に示す「貼」である。「貼」のうち、「貝」の部分のみがクロッピング画像６０に含まれている。図１１に示すクロッピング画像６０には、分断された文字６２が１つのみ含まれている。しかしながら、分断された文字は、クロッピング画像に複数含まれても良い。

図９に示すように、文字検出モデル学習部１５ｃは、直前のＳ１２１において生成したクロッピング画像に、分断された文字が含まれていないとＳ１２２において判断すると、このクロッピング画像に含まれる文字の数が特定の数以上であるか否かを、対象正解データに基づいて判断する（Ｓ１２３）。

文字検出モデル学習部１５ｃは、直前のＳ１２１において生成したクロッピング画像に含まれる文字の数が特定の数以上であるとＳ１２３において判断すると、このクロッピング画像における全ての文字の位置を示す正解データを、対象正解データに基づいて生成する（Ｓ１２４）。

文字検出モデル学習部１５ｃは、Ｓ１２４の処理の後、直前のＳ１２１において生成したクロッピング画像である学習データと、直前のＳ１２４において生成した正解データとを使用して、文字検出モデル１４ｃの学習を実行する（Ｓ１２５）。

文字検出モデル学習部１５ｃは、直前のＳ１２１において生成したクロッピング画像に、分断された文字が含まれているとＳ１２２において判断すると、このクロッピング画像に含まれる、分断されていない文字の数が特定の数以上であるか否かを、対象正解データに基づいて判断する（Ｓ１２６）。なお、Ｓ１２６における「特定の数」は、Ｓ１２３における「特定の数」と同じ数でも良い。

文字検出モデル学習部１５ｃは、直前のＳ１２１において生成したクロッピング画像に含まれる、分断されていない文字の数が特定の数以上であるとＳ１２６において判断すると、このクロッピング画像に含まれる、分断された文字を、このクロッピング画像から除去した画像（以下「修正クロッピング画像」という。）を生成する（Ｓ１２７）。具体的には、文字検出モデル学習部１５ｃは、このクロッピング画像に含まれる、分断された文字を、例えば白色など、このクロッピング画像の背景色で塗り潰すことによって、修正クロッピング画像を生成する。

図１２は、Ｓ１２７において生成された修正クロッピング画像７０の一例を示す図である。

図１２に示す修正クロッピング画像７０は、図１１に示すクロッピング画像６０から生成されたものである。修正クロッピング画像７０は、分断された文字６２（図１１参照。）が白色で塗り潰されたものである。

図９に示すように、文字検出モデル学習部１５ｃは、Ｓ１２７の処理の後、直前のＳ１２７において生成した修正クロッピング画像における全ての文字の位置を示す正解データを、対象正解データに基づいて生成する（Ｓ１２８）。すなわち、Ｓ１２８において生成される正解データには、直前のＳ１２１において生成されたクロッピング画像に含まれる、分断された文字の位置が含まれない。

文字検出モデル学習部１５ｃは、Ｓ１２８の処理の後、直前のＳ１２７において生成した修正クロッピング画像である学習データと、直前のＳ１２８において生成した正解データとを使用して、文字検出モデル１４ｃの学習を実行する（Ｓ１２９）。

文字検出モデル学習部１５ｃは、Ｓ１２５またはＳ１２９の処理の後、今回の図９に示す動作において特定の回数の学習を実行したか否かを判断する（Ｓ１３０）。

文字検出モデル学習部１５ｃは、直前のＳ１２１において生成したクロッピング画像に含まれる文字の数が特定の数以上ではないとＳ１２３において判断するか、このクロッピング画像に含まれる、分断されていない文字の数が特定の数以上ではないとＳ１２６において判断するか、今回の図９に示す動作において特定の回数の学習を実行していないとＳ１３０において判断すると、Ｓ１２１の処理を実行する。ここで、文字検出モデル学習部１５ｃは、新たに実行されるＳ１２１の処理において、今回の図９に示す動作において生成されていないクロッピング画像を生成する。例えば、文字検出モデル学習部１５ｃは、複数回のＳ１２１の処理によって、対象画像を升目状に区切った各升に対応する複数のクロッピング画像と、対象画像のランダムな位置からクロッピングした複数のクロッピング画像とを生成しても良い。

文字検出モデル学習部１５ｃは、今回の図９に示す動作において特定の回数の学習を実行したとＳ１３０において判断すると、今回の図９に示す動作を終了する。

なお、クロッピング画像に含まれる文字の数が特定の数以上であるか否かをＳ１２３において判断したり、クロッピング画像に含まれる、分断されていない文字の数が特定の数以上であるか否かをＳ１２６において判断したりする理由は、特定の数以上の文字を含む画像を学習データとした学習のみを実行することによって、文字検出モデル１４ｃの学習を効率的に実行するためである。したがって、Ｓ１２３およびＳ１２６の処理は、省略されても良い。すなわち、文字検出モデル学習部１５ｃは、直前のＳ１２１において生成したクロッピング画像に、分断された文字が含まれていないとＳ１２２において判断した場合に直ちにＳ１２４の処理を実行するとともに、直前のＳ１２１において生成したクロッピング画像に、分断された文字が含まれているとＳ１２２において判断した場合に直ちにＳ１２７の処理を実行しても良い。

以上に説明したように、画像処理システム１０は、画像をクロッピングしたクロッピング画像に基づいて学習データを生成する（Ｓ１２１～Ｓ１３０）ので、１つの画像から複数の学習データを生成することができ、その結果、文字検出モデル１４ｃによる文字の位置の検出の精度を向上することができる。

画像処理システム１０は、分断された文字を含むクロッピング画像を学習データとして扱わず（Ｓ１２９）、分断された文字を含まないクロッピング画像を学習データとして扱う（Ｓ１２５）ので、分断された文字を誤って学習することを防止することができ、その結果、文字検出モデル１４ｃによる文字の位置の検出の精度を向上することができる。例えば、図１１に示すクロッピング画像６０を学習データとして文字検出モデル１４ｃの学習が実行されると、「貼」を１文字として検出するのではなく「貼」のうちの「貝」および「占」の部分をそれぞれ１文字として検出する文字検出モデル１４ｃが生成される可能性がある。しかしながら、画像処理システム１０は、図１１に示すクロッピング画像６０から「貼」のうちの「貝」の部分を除去した修正クロッピング画像７０（図１２参照。）を学習データとして生成するので、「貼」のうちの「貝」および「占」の部分をそれぞれ１文字として検出する文字検出モデル１４ｃが生成される可能性を低減することができる。

画像処理システム１０は、分断された文字がクロッピング画像に含まれている場合（Ｓ１２２でＹＥＳ）に、分断された文字をクロッピング画像から除去した修正クロッピング画像を学習データとして扱う（Ｓ１２７）ので、学習データの生成を容易化することができる。

なお、画像処理システム１０は、分断された文字を含むクロッピング画像を学習データとして扱わない方法として、修正クロッピング画像を学習データとして扱う方法以外の方法を採用しても良い。例えば、画像処理システム１０は、分断された文字がクロッピング画像に含まれている場合に、対象画像における位置、形および大きさの少なくとも１つを変更したクロッピング画像を生成し直しても良い。

以上において、掠れた文字の補正については、掠れ補正処理２１ｂにおけるものについてのみ説明している。しかしながら、掠れた文字の補正は、文字検出モデル１４ｃの学習データの生成の前処理としても応用可能である。すなわち、画像処理システム１０は、図９に示す動作における対象画像になる予定の画像における手書きの線の画素を推論によって検出し、検出した画素を塗り潰した画像を対象画像として、Ｓ１２１～Ｓ１３０の処理を実行しても良い。これによって、画像処理システム１０は、掠れた文字が対象画像に含まれている場合に、掠れた文字を補正した対象画像をクロッピングしたクロッピング画像を生成する（Ｓ１２１）ことができ、その結果、文字検出モデル１４ｃによる文字の位置の検出の精度を向上することができる。

以上においては、文字検出モデル１４ｃは、文字検出処理２２ａのみを実行するモジュールである。しかしながら、文字検出モデル１４ｃは、文字検出処理２２ａに加えて、文字検出処理２２ａ以外の処理を実行しても良い。例えば、文字検出モデル１４ｃは、文字検出処理２２ａに加えて、行検出処理２２ｂおよび文字認識処理３１を実行しても良い。

１０画像処理システム（コンピューター）
１４ａ画像処理プログラム
１４ｃ文字検出モデル
５０対象画像（画像）
６０クロッピング画像
６２文字（分断された文字）
７０修正クロッピング画像

Claims

画像に含まれる文書における文字の認識のために、この画像における、この文字の位置を少なくとも検出する文字検出モデルの学習データを生成するための画像処理プログラムであって、
画像をクロッピングしたクロッピング画像をコンピューターに生成させ、
分断された文字を含む前記クロッピング画像を前記コンピューターに前記学習データとして扱わせず、分断された文字を含まない前記クロッピング画像を前記コンピューターに前記学習データとして扱わせることを特徴とする画像処理プログラム。
分断された文字が前記クロッピング画像に含まれている場合に、分断された文字を前記クロッピング画像から除去した修正クロッピング画像を前記学習データとして前記コンピューターに扱わせることを特徴とする請求項１に記載の画像処理プログラム。
前記クロッピング画像がクロッピングされる予定の画像における手書きの線の画素を前記コンピューターに推論によって検出させ、
前記コンピューターによって検出された前記画素を前記コンピューターに塗り潰させ、
前記画素が前記コンピューターによって塗り潰された画像をクロッピングした前記クロッピング画像を前記コンピューターに生成させることを特徴とする請求項１または請求項２に記載の画像処理プログラム。
画像に含まれる文書における文字の認識のために、この画像における、この文字の位置を少なくとも検出する文字検出モデルの学習データを生成する画像処理システムであって、
画像をクロッピングしたクロッピング画像を生成し、
分断された文字を含む前記クロッピング画像を前記学習データとして扱わず、分断された文字を含まない前記クロッピング画像を前記学習データとして扱うことを特徴とする画像処理システム。