JP7689439B2

JP7689439B2 - 画像処理システム、画像処理方法、及びプログラム

Info

Publication number: JP7689439B2
Application number: JP2021067356A
Authority: JP
Inventors: 悠貴鳴海; 剛大石
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2025-06-06
Anticipated expiration: 2041-04-12
Also published as: JP2022162474A; US20220335738A1; US12183101B2

Description

本発明は、手書き文字と活字が混在する文書画像に対して、傾き補正を実施する技術に関する画像処理システム、画像処理方法及びプログラムに関する。

従来、画像形成装置でスキャンした文書画像データに光学文字認識処理（以下、ＯＣＲ処理とする）を行うことで、画像データ内の文字列をデジタルデータとして抽出する技術が存在する。しかしながら、スキャンした文書画像が傾いている場合、正しいＯＣＲ処理が実施できない場合がある。そこで、ＯＣＲ処理の前処理として、文書画像の傾き角度を推定し、正しい角度になるよう補正を行う技術（以下、傾き補正）が存在する（例えば、特許文献１、特許文献２、特許文献３）。

特許文献１に記載の技術では、文書画像の回転角の関数として画素の分散を測定し、分散が最大である文書回転角度（傾き角度）で、傾き補正を実施している。また、特許文献２に記載の技術では、表領域を検出後、罫線の傾きに基づいて入力画像の傾き補正を実施する。また、特許文献３に記載の技術では、文書画像のエッジを検出することで、画像の中身を確認することなく、傾き補正を実施する。

特開平３－２６８１８９号公報特開平８－４４８２２号公報特開２０２０－５３９３１号公報

しかしながら、特許文献１では、行間隔やピッチ、角度にバラつきのある手書き文字が多く混在する場合、正確な傾き角度を推定することが困難である。特に、活字に対して、手書き文字数の割合が多い場合、または、手書き文字の濃度が濃い（活字に対して輝度差が大きい）場合に、正確な傾き角度を推定できないおそれがある。また、特許文献２では、原稿画像に罫線情報がない場合、傾き補正が実施できないおそれがある。また、特許文献３では、エッジの検出ができない場合や、文書原稿が四角くない場合（やぶれ等）、正確な傾き補正が実施できないおそれがある。

本発明は、上記事情に鑑みてなされたものであり、手書き文字と活字が混在する文書画像に対する、傾き補正の精度を向上させた画像処理システムを提供することを目的とする。

上記の目的を達成するために、本発明における画像処理システムは、文書画像に対して、傾き補正を実施する画像処理システムにおいて、手書き文字と活字とが混在する文書画像を取得する文書画像取得部と、手書き文字を含む画像により手書き文字の特徴を学習させたニューラルネットワークを用いて、前記文書画像内に含まれる手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成する分離部と、前記生成された手書き文字以外の画像を用いて、傾き角度を推定する傾き角度推定部と、前記推定された傾き角度に基づいて、前記手書き文字と前記活字とが混在する前記文書画像の傾きを補正する傾き補正部と、を有する
ことを特徴とする。

本発明によれば、手書き文字と活字が混在する文書画像に対する、傾き補正の精度を向上させることができる。

本発明の実施形態における画像処理システムの一例を示すブロック図。第１実施形態における画像処理の手順を示すフローチャート。第１実施形態における文書画像と処理結果の一例を示す図。第２実施形態における画像処理の手順を示すフローチャート。第２実施形態における手書き文字分離のための学習データの一例を示す図。

以下、添付図面を参照して本発明の実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る本発明を限定するものでなく、また本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成要素には同一の参照番号を付して、説明を省略する。

＜画像形成システム概要＞
図１は、本発明の実施形態における画像処理システムの一例を示すブロック図である。図１に示すように、画像処理システムは、画像形成装置１００と、ホストコンピュータ１７０と、サーバー１９１（クラウドサーバーであってもよい）を含む。

本実施形態では、画像形成装置１００として、印刷機能、読取機能、ＦＡＸ機能等、複数の機能が一体化された複合機（ＭＦＰ：ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｒｉｎｔｅｒ）が用いられるものとして説明する。また、サーバー１９１は、文書管理機能を有するものとして説明する。画像形成装置１００とホストコンピュータ１７０とサーバー１９１は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）１９０等のネットワークを相互に通信可能に接続されている。画像形成装置１００とホストコンピュータ１７０とサーバー１９１は、複数台接続されていてもよく、他の装置が接続されていてもよい。また、ネットワークは、本実施形態ではＬＡＮ１９０を例示して説明するが、有線ネットワークや無線ネットワーク、もしくは、それらが組み合わされた構成の場合がある。

画像形成装置１００は、制御装置１１０、リーダー装置１２０、プリンタ装置１３０、操作部１４０、記憶装置１５０を含む。制御装置１１０は、リーダー装置１２０、プリンタ装置１３０、操作部１４０、記憶装置１５０のそれぞれと接続される。

制御装置１１０は、画像形成装置１００を統括的に制御する制御基板（コントローラ）である。制御装置１１０は、ＣＰＵ１１１、ＲＯＭ１１２、ＲＡＭ１１３、画像処理部１１４を含む。

ＣＰＵ１１１は、システムバス（不図示）を介して、制御装置１１０内の各ブロックを制御する。例えば、ＣＰＵ１１１は、ＲＯＭ１１２やＲＡＭ１１３、記憶装置１５０、又は、他の記憶媒体に記憶されたプログラムを読み出して実行することにより、画像形成装置１００の機能を実行する。

ＲＯＭ１１２は、例えば、制御プログラムや、画像形成装置１００の機能を実行する上で必要なテーブルや設定データ等を記憶する。ＲＡＭ１１３は、例えば、ＣＰＵ１１１のワークメモリとして用いられる。

画像処理部１１４は、リーダー装置１２０によって生成された読取画像データや、外部から受信した画像データに対して、変換、補正、編集、圧縮／解凍など、種々の画像処理を実行する。画像処理部１１４は、ハードウェアで構成される場合があれば、ソフトウェアで実現される場合もある。

リーダー装置１２０は、スキャナエンジンの構成を有し、原稿を光学的に読み取る原稿スキャン処理をし、光学的に読み取った原稿から読取画像データ（文書画像）を生成する。原稿スキャン処理は、原稿台にセットされた原稿を光学的に読み取る方法でもよいし、自動原稿給送装置（ＡＤＦ：ＡｕｔｏｍａｔｉｃＤｏｃｕｍｅｎｔＦｅｅｄｅｒ）から給送された原稿を光学的に読み取る方法でもよい。

プリンタ装置１３０は、インクジェット記録方式や電子写真方式等、各種の記録方式に対応したプリンタエンジンの構成を有する。これにより、プリンタ装置１３０は、記録媒体上に画像を形成する。

操作部１４０は、ユーザーの操作を受付けるための操作キー、及び、各種設定やユーザーインターフェース画面の表示などを行う液晶パネルを備える。操作部１４０は、ユーザー操作等によって受け付けた情報を制御装置１１０へ出力する。

記憶装置１５０は、ユーザー情報を記憶する。ユーザー情報としては、例えば、画像データや、モードやライセンスなどの機器情報や、アドレス帳やカスタマイズなどがある。

なお、画像形成装置１００は、図１に示す構成に限られず、画像形成装置１００の実行可能な機能に応じて他の構成を含む。例えば、ＦＡＸ機能の実行に必要な構成や、近距離無線通信を可能とする構成を含む場合もある。

サーバー１９１は、制御装置１９８、操作部１９５、記憶装置１９６、表示部１９７を含む。制御装置１９８は、操作部１９５、記憶装置１９６、表示部１９７のそれぞれと接続される。

制御装置１９８は、サーバー１９１を統括的に制御する制御基板（コントローラ）である。制御装置１９８は、ＣＰＵ１９２、ＲＯＭ１９３、ＲＡＭ１９４を含む。

ＣＰＵ１９２は、システムバス（不図示）を介して、制御装置１９８内の各ブロックを制御する。例えば、ＣＰＵ１９２は、ＲＯＭ１９３やＲＡＭ１９４、記憶装置１９６、又は、他の記憶媒体に記憶されたプログラムを読み出して実行することにより、サーバー１９１の機能を実行する。

ＲＯＭ１９３は、例えば、オペレーティングシステムプログラム（ＯＳ）等の各種制御プログラムや、サーバー１９１の機能を実行する上で必要なテーブルや設定データ等を記憶する。ＲＡＭ１９４は、例えば、ＣＰＵ１９２のワークメモリとして用いられる。

操作部１９５は、ユーザーの操作を受付けるためのキーボードやポインティングデバイス等を備え、受け付けたユーザー操作等の情報を制御装置１９８へ出力する。記憶装置１９６は、例えば、各種アプリケーションプログラムや、データ、ユーザー情報、機器情報などを記憶する。表示部１９７は、例えば液晶ディスプレイであり、各種ユーザーインターフェース画面や情報の表示を行う。

ホストコンピュータ１７０は、ＬＡＮ１９０を介して、画像形成装置１００やサーバー１９１のそれぞれと接続される。この構成により、ホストコンピュータ１７０による操作や指示に基づいて、画像形成装置１００やサーバー１９１を操作することもできる。

上述のような構成の画像処理システムを例に挙げ、具体的な実施形態を以下に述べる。なお、下記の実施形態で用いる「手書き文字」とは、人の手によって手書き入力された文字を指す。

［第１実施形態］
手書き文字と活字が混在する文書の場合、文字間隔やピッチが不均一な手書き文字の影響により、従来の傾き補正が失敗する可能性がある。本実施形態では、手書き文字がある場合、手書き文字の影響を除外した傾き角度推定用の画像を生成して、傾き角度推定を実施する。

図２は、第１実施形態における画像処理の手順を示すフローチャートである。図３は、第１実施形態における入力文書画像と処理結果の一例を示す図である。なお、以下の説明で、「傾き」とは、傾きの基準となる左右方向に延びる基準線Ｌ（図３参照）に対する入力文書画像の傾き角度をいう。

以下、図２を用いて画像処理の手順の説明を進めるが、必要に応じて、図３を参照して、画像処理の手順を説明する。図２の処理は、例えば、ＣＰＵ１１１が、ＲＯＭ１１２に記憶されたプログラムをＲＡＭ１１３に読みだして実行することで実現される。

ステップＳ２０１において、入力文書画像の取得処理を行う。入力文書画像とは、画像処理システムに入力される文書画像３００のことである。入力文書画像の取得処理において、ＣＰＵ１１１は、操作部１４０を介してユーザーからの原稿スキャン処理の指示を受け付けると、リーダー装置１２０にスキャン指示を行い、スキャンを実施する。これにより、原稿に対応した読取画像データ（文書画像）を取得する。図３に示す文書画像３００は、ステップＳ２０１の文書画像取得処理で取得した入力文書画像の一例である。原稿が原稿台に斜めにセットされる場合には、リーダー装置１２０により取得された文書画像３００にも傾きが生じる。また、ＡＤＦを用いて原稿を読み込んだ場合であっても、原稿のセットの仕方や搬送用モータの左右の速度差等により、取得された文書画像に傾きが生じる場合がある。そのため、取得した文書画像の傾きを識別し、補正することが必要である。このように、ＣＰＵ１１１は、画像処理システムにおいて、文書画像を取得する文書画像取得部として機能する。

ステップＳ２０２において、手書き文字分離処理を行う。手書き文字の分離処理において、ＣＰＵ１１１は、ステップＳ２０１で生成した読取画像データに対して、手書き文字の記載個所を分離する処理を行う。これにより、手書き文字の画像と手書き文字以外の画像を生成する。ここで生成した手書き文字以外の画像を、本分離処理の後、傾き角度推定のために用いる。このように、ＣＰＵ１１１は、画像処理システムにおいて、手書き文字と判断された手書き文字の画像と、手書き文字と判断されない手書き文字以外の画像とに分離する手書き文字分離部として機能する。

本実施形態の手書き文字分離手法では、まず、画像内の手書き文字領域とそれ以外の背景領域を、ニューラルネットワーク（ＮＮ）に学習させる。次に、ニューラルネットワークの学習に基づいて、画素ごとに手書きか手書きでないかを判断する。これにより、手書き文字の画像特徴と一致する場合に手書き文字と判断し、画素を抽出することが可能である。例えば、図３の文書画像３００の読取画像データに対して本処理を行うことで、画素３１０～３１２に示すような画素を手書き文字と判断する。次に、手書き文字と判断された画素３１０～３１２を除去することで、手書き文字以外の文書画像３０１が得られる。なお、本実施形態の手書き文字分離手法は一例であって、手書き文字を分離する手法を本実施形態の手法に限定するものではない。

従来の手書き文字分離は、文字種別に特化したＯＣＲ処理への投入を目的としていた。なお、ＯＣＲ処理とは、光学的文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）による文字データの抽出処理のことをいう。

これに対し、本実施形態では、傾き認識の妨げにならないよう手書き文字を分離する。つまり、本分離処理により手書き文字を除外して、以後の傾き角度推定に用いる画像を生成している。手書き文字以外の文書画像３０１のような、手書き文字を除外した画像を用いることで、傾き角度の推定精度を向上させることが期待できる。

ステップＳ２１１で、ＣＰＵ１１１は、読み取った文書画像３００に手書き文字が混在するかを判断する。ステップＳ２０２において、手書き文字として抽出できた画素が一定量以上の場合、手書き文字がある（Ｙｅｓ）と判断し、ステップＳ２０２の処理へ進む。一方、ステップＳ２０２において、手書き文字として抽出できた画素が一定量を下回る場合、手書き文字がない（Ｎｏ）と判断し、ステップＳ２１２の処理へ進む。

本実施形態では、ステップＳ２１１において手書き文字があるかないかの判断において、ステップＳ２０２で画像分離した手書き文字の画像の画素と手書き文字以外の画像の画素の割合に基づいて、手書き文字の有無を判断した。手書き文字として抽出した画素が一定量を下回る場合、画像ノイズ等の可能性が高く、傾き角度推定に及ぼす影響はほとんど無い。あるいは、真に手書き文字を抽出した場合であっても、対する活字など手書き文字以外の画素の方が一定割合以上あれば、傾き角度推定に影響を与えることはほとんど無い。従って、手書き文字の有無を判断する際には、ステップＳ２０２で画像分離した手書き文字の画像の画素が、手書き文字以外の画像の画素よりも一定割合以上多い場合に、手書き文字あり（Ｙｅｓ）という判断を行った。

ステップＳ２０３において、傾き角度推定処理を行う。傾き角度推定処理では、ＣＰＵ１１１は、ステップＳ２０２で生成した手書き文字以外の文書画像３０１を用いて傾き角度推定を行う。行間隔やピッチ、角度にバラつきのある手書き文字を除外し、手書き文字以外の文書画像３０１を用いて傾き角度推定を行うことで、傾き角度推定の精度が向上する。このように、ＣＰＵ１１１は、画像処理システムにおいて、手書き文字以外の画像の傾き角度を推定する傾き角度推定部として機能する。

本実施形態で用いた傾き角度（回転角度）を推定する手法は、文書画像内の文字列や線が印字前のデータ上では水平方向に並んでいることを利用する。例えば、様々な方向への射影ヒストグラムを取り、ヒストグラムのピークとボトムが短い周期で大きく振動するヒストグラムに対応する角度を選択することにより、傾き角度の推定が可能である。これは、正しい方向への射影であれば、同一ラインの文字列や、同一方向の罫線等の水平の線が、ヒストグラム上の同一のビンに投票され、行間にあたる部分には何も投票されないため、大きな振幅が文字間の周期で生じるためである。

ここまでの手法で推定した角度は、文字の向きが考慮されておらず、１８０度の不確実性が存在する。文字の向きについては、簡易的な文字認識処理を行った際の文字の確からしさ情報を用いて、判定することが可能である。これにより、文字の向きも考慮した角度情報を算出することが可能になる。この傾き角度推定手法は、行間隔が均一で行間隙間が所定の隙間以上に空いており、横ストロークが水平となる活字や罫線主体の文書において有効な手法である。従って、手書き文字以外の文書画像３０１のような、活字ベースの文書においては、傾き角度を正確に判断することができる。なお、上述の水平方向とは、図３における基準線Ｌと平行な方向であることをいう。基準線Ｌは、紙面における左右方向に延びる線であり、紙面における上下方向と直交する線である。

本実施形態で、手書き文字以外の文書画像３０１に対して、傾き角度推定処理を実施することで、基準線Ｌに対する傾き角度αを得ることができる。ただし、画像の傾き角度を識別する手法については特定の手法に限定するものではない。

ステップＳ２１２において、ＣＰＵ１１１は、ステップＳ２１１で手書き文字がないと判断された文書画像について、傾き角度推定処理を実施する。傾き角度推定処理は、ステップＳ２０３で行った処理と同様である。

ステップＳ２１３において、ステップＳ２０３およびステップＳ２１２で推定した傾き角度に基づいて、文書画像に傾きがあるかを判断する。傾き角度が一定角度以上ある場合、傾きがある（Ｙｅｓ）と判断し、ステップＳ２０４の傾き補正処理へ進む。一方、傾き角度が一定角度に満たない場合、傾きがない（Ｎｏ）と判断し、傾き補正をスキップし、ステップＳ２０５のＯＣＲ処理へ進む。

ステップＳ２０４で、ＣＰＵ１１１は、ステップＳ２０３またはステップＳ２１２で推定した傾き角度を用いて、Ｓ２０１で取得した文書画像に対して傾き補正処理を実施する。本実施形態における傾き補正は、ステップＳ２０３およびステップＳ２１２で推定した傾き角度による回転座標変換を行った。なお、補正手段はこれに限定するものではない。本実施形態では、図３に示す傾き角度αを用いて、手書き文字以外の文書画像３０１に対して本傾き補正処理を行うことで、傾き補正後の補正画像３０２を得ることができる。傾き補正処理の後、ステップＳ２０５のＯＣＲ処理へ進む。このように、ＣＰＵ１１１は、画像処理システムにおいて、傾き角度αに基づいて文書画像３００を補正する傾き補正部として機能する。

ステップＳ２０５で、ＣＰＵ１１１は、ステップＳ２０４で補正した補正画像３０２に対してＯＣＲ処理を行う。本実施形態においては、ステップＳ２０２で分離した手書き文字と、手書き文字以外の文書画像３０１について、それぞれ、手書き用、活字用に特化したＯＣＲ処理を実施する。その後、手書き文字のＯＣＲ結果と、手書き文字以外の文書画像３０１のＯＣＲ結果とを、マージする処理を行った。

また本実施形態においては、ＯＣＲ処理の前に文字列領域を判定し、文字列領域となった各領域についてＯＣＲ処理を実施し、文字列領域における文字列の文字コードを取得する。この領域判定により、文字列領域以外の領域を処理しなくて済む。この結果、処理負荷の軽減や文字認識の精度を向上することができる。なお、ＯＣＲ処理については、様々な手法が考案されており、本実施形態の手法に限定するものではない。

ステップＳ２０６で、ＣＰＵ１１１は、文書画像３００や補正画像３０２にステップＳ２０５で得たテキスト情報を付加したものを、記憶装置１５０にデータを登録して、本処理を終了する。データを登録する際に、文書画像を画像データのままではなく、ＯＣＲ処理結果を用いて、全文検索可能なＰＤＦなどの文書フォーマットに変換してもよい。

本実施形態では、画像形成装置１００上で全ての処理を行ったが、これに限るものではない。例えば、処理負荷を分散するために、ＬＡＮ１９０を介して、ステップＳ２０１で生成した読取画像データを、サーバー１９１に送信し、サーバー１９１でユーザーからの操作受付以外の処理を行ってもよい。

［第２実施形態］
本実施形態では、第１実施形態における手書き文字を分離する処理（図２のステップＳ２０２の処理）において、傾きの大きい文書画像に対しても、手書き文字の分離精度を高く維持できる手法について説明する。傾きの大きい文書画像に対しては、手書き文字の分離精度を維持する処理を実行し、傾きの小さい文書画像に対しては、十分な精度が発揮できるだけのシンプルな処理を実行する。図４は、第２実施形態における画像処理の手順を示すフローチャートである。以下、第２実施形態について、第１実施形態と異なる点を主に説明する。

ステップＳ４１０で、ＣＰＵ１１１は、ステップＳ２０１で取得した文書画像の傾きの範囲を判断する。傾きの範囲とは、どの程度傾いた画像が入力される可能性があるか、その取り得る傾きの程度の幅を指す。例えば、ＡＤＦで取得した文書画像より、原稿台にセットして取得した文書画像の方が置き方の自由度が高いため、傾きの範囲は大きいと言える。また、ＡＤＦであっても、原稿のセットの仕方や搬送用モータの左右の速度差等により文書画像に傾きが生じる可能性がある。特に、マルチサイズの原稿に対応可能なＡＤＦを利用する場合は、特定原稿サイズ対応のＡＤＦを利用する場合と比べて、傾きの範囲が大きくなる。このように、ＣＰＵ１１１は、画像処理システムにおいて、傾き角度が取り得る範囲を判断する傾き角度範囲判断部として機能する。

例えば、本実施形態で用いる画像形成装置１００におけるＡＤＦは、小サイズ（はがき、領収書など）などの原稿サイズを自動で検知する。この検知した原稿サイズが、給送可能な最大原稿サイズより小さい場合、セット位置のずれなどで原稿が傾き易い。この場合は、傾きの範囲が規定以上である（Ｙｅｓ）と判断する。また、原稿台から原稿を読み取って取得した場合も、傾きの範囲が規定以上である（Ｙｅｓ）と判断する。対して、ＡＤＦで検知した原稿サイズが、給送可能な最大原稿サイズである場合は、傾きの範囲は小さく、規定を下回る（Ｎｏ）と判断する。このように、ステップＳ４１０においては、文書画像が傾く可能性が大きく、傾きの範囲が規定以上の場合（Ｙｅｓ）、ステップＳ４０１に進む。一方、傾きの範囲が規定を下回る場合（Ｎｏ）、ステップＳ４０２に進む。

本実施形態で用いた手書き文字の分離手法は、画像内の手書き文字領域とそれ以外の背景領域をニューラルネットワーク（ＮＮ）に学習させて、画素ごとに手書きかそうでないかを判断する、といった手法である。以下、入力文書画像の傾き角度の範囲が規定以上であるか否かによって、場合分けをして説明する。

ステップＳ４０１において、ステップＳ４１０で入力文書画像の傾き角度の範囲が規定以上と判断されているため、ＣＰＵ１１１は、その範囲に対応可能な、傾き角度の大きい文書用の手書き文字分離処理を行う。ステップＳ４０１の処理で用いるニューラルネットワークには、手書き文字の画像データとして、手書き文字の傾き角度を異ならせた複数通りのパターン画像を学習させる。図５は、第２実施形態における手書き文字分離のための学習データの一例を示す図である。図５に示すように、様々な角度で手書き文字を学習させることで、傾き角度の大きい入力文書画像に対しても、手書き文字の抽出精度を維持することが可能である。

なお、本実施形態では、手書き文字の傾き角度を異ならせることとしたが、これに限るものではない。例えば、ニューラルネットワークの学習画像の傾き角度の範囲を制限して、本処理において、入力文書画像の傾き角度が異なるようにしながら手書き文字の抽出を行い、取り得る傾き角度を網羅することとしてもよい。

ステップＳ４０２において、ステップＳ４１０で入力文書画像の傾きの範囲が規定を下回ると判断されているため、ＣＰＵ１１１は、その範囲に対応可能な、傾きが小さい文書用の手書き文字分離処理を行う。ステップＳ４０２の処理で用いるニューラルネットワークには、手書き文字分離のための画像データとして、ステップＳ４０１の処理で用いるニューラルネットワークよりも少ない数の回転パターンの画像を学習させる。学習パターンの少ないシンプルなネットワーク構造のニューラルネットワークを利用した方が、同一精度を目指した場合に、推論のコストを低減することが可能である。そのため、傾き範囲が小さいと思われる場合には、十分な精度が見込めるシンプルなネットワーク構造を用いる。本処理で用いるニューラルネットワークには、図５の画像５０１に示すような、正常の向きの画像のみを学習に使用する。

このように、本実施形態においては、傾きの範囲が大きい文書画像に対して、回転した複数パターンの手書き文字を学習したニューラルネットワークを用いて手書き文字の分離処理を行う。このため、手書き文字の分離精度を高く維持することが可能である。また、傾きの範囲が小さい文書画像に対しては、学習パターンを減らしたニューラルネットワークを用いて、手書き文字の分離処理を行う。このため、シンプルな処理で十分な精度を発揮することが可能である。

［その他の実施形態］
以上、本発明をその好適な実施形態に基づいて詳述したが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。また、上述の実施形態の一部を適宜組み合わせてもよい。特に、上述の実施形態においては、画像処理をするＣＰＵとして、画像形成装置１００のＣＰＵ１１１を例示したが、サーバー１９１のＣＰＵ１９２を用いてもよい。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００…画像形成装置
１１０…制御装置
１２０…リーダー装置
１９１…サーバー
１９８…制御装置

Claims

文書画像に対して、傾き補正を実施する画像処理システムにおいて、
手書き文字と活字とが混在する文書画像を取得する文書画像取得部と、
手書き文字を含む画像により手書き文字の特徴を学習させたニューラルネットワークを用いて、前記文書画像内に含まれる手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成する分離部と、
前記生成された手書き文字以外の画像を用いて、傾き角度を推定する傾き角度推定部と、
前記推定された傾き角度に基づいて、前記手書き文字と前記活字とが混在する前記文書画像の傾きを補正する傾き補正部と、を有する
ことを特徴とする画像処理システム。
前記分離部は、前記文書画像の傾き角度の範囲に対応する手法を適用して、前記文書画像から手書き文字を除外することにより、前記手書き文字以外の画像を生成する
ことを特徴とする請求項１に記載の画像処理システム。
前記分離部は、
前記文書画像の傾き角度の範囲が規定値以上であれば、第１のニューラルネットワークを用いて前記文書画像内に含まれる手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成する一方、
前記文書画像の傾き角度の範囲が前記規定値より小さければ、第２のニューラルネットワークを用いて前記文書画像内に含まれる手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成するものであり、
前記第２のニューラルネットワークの学習に用いた文書画像の傾きは、前記第１のニューラルネットワークの学習に用いた文書画像の傾きより小さい、
ことを特徴とする請求項１に記載の画像処理システム。
前記分離部は、
傾き角度が異なる複数通りの手書き文字の画像により手書き文字の特徴を学習させた前記ニューラルネットワークを用いて、前記手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成する
ことを特徴とする請求項１に記載の画像処理システム。
前記分離部は、
傾き角度が異なる複数通りの手書き文字を含む文書画像により手書き文字の特徴を学習させた前記ニューラルネットワークを用いて、前記手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成する
ことを特徴とする請求項１に記載の画像処理システム。
文書画像に対して、傾き補正を実施する画像処理方法において、
手書き文字と活字とが混在する文書画像を取得する文書画像取得工程と、
手書き文字を含む画像により手書き文字の特徴を学習させたニューラルネットワークを用いて、前記文書画像内に含まれる手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成する分離工程と、
前記生成された手書き文字以外の画像を用いて、傾き角度を推定する傾き角度推定工程と、
前記推定された傾き角度に基づいて、前記手書き文字と前記活字とが混在する前記文書画像の傾きを補正する傾き補正工程と、を有する
ことを特徴とする画像処理方法。
コンピュータを、請求項１乃至５のいずれか１項に記載の画像処理装置として機能させるためのプログラム。