JP2019109562A

JP2019109562A - フォーム種別学習システムおよび画像処理装置

Info

Publication number: JP2019109562A
Application number: JP2017240285A
Authority: JP
Inventors: 篤志西田; Atsushi Nishida
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2019-07-04
Anticipated expiration: 2037-12-15
Also published as: CN109934244A; JP6928876B2; CN109934244B; US20190188462A1; US10762343B2

Abstract

【課題】フォームレイアウト情報を使用することなく、フォームの分類を正確に行う。【解決手段】画像処理装置１は、記入済みフォームの画像が所定サイズに縮小された、分類器２７で、縮小後の記入済みフォームを入力として、記入済みフォームのフォーム種別を特定する。その分類器２７は、フォーム種別学習システムにより機械学習されたものであり、そのフォーム種別学習システムは、記入済みフォームの画像を原書類画像として縮小し、縮小される前のまたは縮小された後の原書類画像にノイズを付加して複数の機械学習用画像を生成し、複数の機械学習用画像に対して、原書類画像のフォーム種別をラベルとして関連付け、分類器２７の機械学習を、複数の機械学習用画像およびラベルを訓練データとして実行する。【選択図】図１

Description

本発明は、フォーム種別学習システムおよび画像処理装置に関するものである。

ある文書管理システムでは、デジタル複合機でスキャンした文書のフォームが特定され、フォームに対応するフォルダーにその文書が格納される（例えば特許文献１参照）。

特開２００６−２２９３０５号公報

上述のようなシステムでは、フォーム内の枠・表の位置およびサイズや、フォーム内の文字などを示すフォームレイアウト情報に基づいて、フォームが識別される。

しかしながら、同一種別のフォームであっても、フォーム内の枠・表が違う場合、異なる種別のフォームであっても、フォーム内の枠・表が同じであり、一部の文字のみが異なる場合などがあるため、フォーム識別に使用されるフォーム情報を正確に事前登録するために、ユーザーが、あるフォームに対して登録すべきフォームレイアウト情報が正しいか否かを確認する必要がある。したがって、多数のフォーム種別を識別するためには、ユーザーの手間が多くなり、現実的ではない。

本発明は、上記の問題に鑑みてなされたものであり、フォームレイアウト情報を使用することなく、フォームの分類を正確に行う画像処理装置、およびそのフォームの分類に使用される画像処理装置内の分類器の機械学習を行うフォーム種別学習システムを得ることを目的とする。

本発明に係るフォーム種別学習システムは、記入済みフォームの画像を原書類画像として取得する原書類画像取得部と、前記原書類画像を縮小する画像縮小部と、前記画像縮小部により縮小される前の前記原書類画像または前記画像縮小部により縮小された後の前記原書類画像にノイズを付加して複数の機械学習用画像を生成するノイズ付加部と、前記複数の機械学習用画像に対して、前記原書類画像のフォーム種別をラベルとして関連付けるラベル付加部と、記入済みフォームの画像を入力としフォーム種別を出力とする分類器の機械学習を、前記複数の機械学習用画像および前記ラベルを訓練データとして実行する機械学習処理部とを備える。

本発明に係る画像処理装置は、記入済みフォームの画像を取得するフォーム画像取得部と、取得された前記記入済みフォームの画像を所定サイズに縮小する画像縮小部と、縮小された前記記入済みフォームの画像を入力としフォーム種別を出力とする分類器とを備える。そして、前記分類器は、上述のフォーム種別学習システムにより機械学習されたものである。

本発明によれば、フォームレイアウト情報を使用することなく、フォームの分類を正確に行う画像処理装置、およびそのフォームの分類に使用される画像処理装置内の分類器の機械学習を行うフォーム種別学習システムが得られる。

本発明の上記又は他の目的、特徴および優位性は、添付の図面とともに以下の詳細な説明から更に明らかになる。

図１は、本発明の実施の形態に係るフォーム種別学習システムの構成を示すブロック図である。図２は、図１における分類器２７の機械学習に使用する記入済みフォームの一例を示す図である。図３は、図２に示す記入済みフォームに対応する機械学習用画像の一例を示す図である。図４は、図１に示すフォーム種別学習システムにおけるフォーム種別の機械学習を説明する図である。

以下、図に基づいて本発明の実施の形態を説明する。

図１は、本発明の実施の形態に係るフォーム種別学習システムの構成を示すブロック図である。図１に示すシステムでは、画像処理装置１がネットワーク２を介してサーバー装置３との間で通信を行う。

図１における画像処理装置１は、例えば、複合機などといった画像形成装置であり、画像読取装置１１、入力装置１２、表示装置１３、記憶装置１４、通信装置１５、および演算処理装置１６を備える。

画像読取装置１１は、書類（ここでは、記入済みのフォーム）の画像を光学的に読み取り、その画像の画像データを生成する。

入力装置１２は、ユーザー操作を検出し、ユーザー操作を示す情報を出力する、ハードキー、タッチパネルなどといった装置である。表示装置１３は、ユーザーに対して各種情報を表示する、液晶ディスプレイなどといった装置である。例えば、入力装置１２および表示装置１３は、筐体の表面に設置されている操作パネルに配置される。

記憶装置１４は、ハードディスク、フラッシュメモリーなどといった不揮発性の記憶装置である。

通信装置１５は、ネットワーク２に接続され、他の装置（サーバー装置３など）との間でデータ通信を行う、ネットワークインターフェイスなどといった装置である。

演算処理装置１６は、各種プログラムを実行するコンピューター、ＡＳＩＣ（Application Specific Integrated Circuit）などを備え、コンピューター、ＡＳＩＣなどで、各種処理部として動作する。

ここでは、フォーム種別の機械学習のために、演算処理装置１６は、原書類画像取得部２１、画像縮小部２２、ノイズ付加部２３、およびラベル付加部２４として動作する。また、フォームの分類のために、演算処理装置１６は、フォーム画像取得部２５、画像縮小部２６、分類器２７、フォーム処理部２８、およびパラメーター設定部２９として動作する。

原書類画像取得部２１は、分類器２７の機械学習に使用する記入済みフォームの画像を原書類画像として取得する。この実施の形態では、原書類画像取得部２１は、画像読取装置１１を使用して、記入済みフォームから読み取られたフォーム画像を取得する。

図２は、図１における分類器２７の機械学習に使用する記入済みフォームの一例を示す図である。

画像縮小部２２は、その原書類画像を縮小する。つまり、画像縮小部２２は、原書類画像に対して解像度変換を行う。なお、画像縮小部２２は、縮小後の原書類画像のサイズ（縦横の画素数）が所定値（例えば、縦１００画素，横１００画素）になるように、原書類画像を縮小する。

ノイズ付加部２３は、画像縮小部２２により縮小される前の原書類画像または画像縮小部により縮小された後の原書類画像（ここでは、縮小後の原書類画像）にノイズを付加して複数の機械学習用画像を生成する。

ノイズ付加部２３は、互いに異なる位置パターンでノイズを付加することで、互いに異なる複数の機械学習用画像を生成する。例えば、ノイズ付加部２３は、所定個数のノイズの付加位置をランダムに特定し、それらの付加位置にノイズを付加する。

あるいは、ノイズ付加部２３は、縮小前の原書類画像に対して互いに異なるパターンでノイズを配置して複数の中間画像を生成し、複数の中間画像をそれぞれ縮小することで、互いに異なる複数の機械学習用画像を生成する。

さらに、この実施の形態では、ノイズ付加部２３は、上述のノイズとして擬似文字画像を原書類画像に付加して複数の機械学習用画像を生成する。この擬似文字画像は、文字画像ではなく、所定形状かつ所定サイズの画像である。例えば、一定濃度の矩形形状の画像が、擬似文字画像とされる。

ここで、画像縮小部２２により縮小される前の原書類画像にノイズが付加される場合、「所定サイズ」は、縮小前の原書類画像内で使用され得る文字の最小サイズから最大サイズまでのいずれかのサイズである。一方、画像縮小部２２により縮小された後の原書類画像にノイズが付加される場合、「所定サイズ」は、原書類画像内で使用され得る縮小後の文字の最小サイズから最大サイズまでのいずれかのサイズである。例えば、「所定サイズ」は、（縮小前または縮小後の）原書類画像のサイズの１〜１０パーセントの範囲のいずれかの値に設定される。

また、ノイズ付加部２３は、上述のノイズを付加すべき位置（以下、付加位置という）の濃度が背景濃度（例えば白色）と異なる場合には、背景濃度を有する別の位置に付加位置を変更するようにしてもよい。この別の位置は、例えば、再度、ランダムに選択される。

図３は、図２に示す記入済みフォームに対応する機械学習用画像の一例を示す図である。例えば図３に示すように、複数の擬似文字画像がノイズとしてランダムな位置に付加される。

さらに、ノイズ付加部２３は、互いに異なるアスペクト比で複数の付加位置に、擬似文字画像を付加するようにしてもよい。

さらに、ノイズ付加部２３は、原書類画像内の枠を検出し、検出した枠の内部に擬似文字画像を付加するようにしてもよい。なお、枠は、既存の方法（エッジ抽出、パターンマッチングなど）で検出することができる。

ラベル付加部２４は、生成された複数の機械学習用画像に対して、原書類画像のフォーム種別をラベルとして関連付け、複数の機械学習用画像とフォーム種別とを含む機械学習用の訓練データを生成する。

例えば、ラベル付加部２４は、入力装置１２により検出されたユーザー操作に従って、原書類画像のフォーム種別（納品書、領収書など）をラベルとして特定する。

また、フォーム画像取得部２５は、機械学習後の分類器２７によりフォーム種別を特定したい記入済みフォームの画像を取得する。この実施の形態では、フォーム画像取得部２５は、画像読取装置１１を使用して、そのような記入済みフォームから読み取られたフォーム画像を取得する。

画像縮小部２６は、取得された記入済みフォームの画像を所定サイズに縮小する。つまり、画像縮小部２６は、取得された記入済みフォームの画像を、機械学習に使用された機械学習用画像と同一のサイズに縮小する。つまり、画像縮小部２６は、記入済みフォームの画像に対して解像度変換を行う。

分類器２７は、縮小された記入済みフォームの画像を入力としフォーム種別を出力とする分類器であり、縮小された記入済みフォームの画像に対応するフォーム種別を特定する。

分類器２７は、機械学習されたニューラルネットワーク（例えばディープニューラルネットワーク）を備え、そのニューラルネットワークで、記入済みフォームの画像に対応するフォーム種別を特定する。このニューラルネットワークとしては、例えば、ＶＧＧ１６などといった既存の畳み込みニューラルネットワークを使用することができる。

フォーム処理部２８は、分類器２７により特定されたフォーム種別に従って、記入済みフォームの画像に対して特定の処理を実行する。例えば、フォーム処理部２８は、フォーム種別に対応するフォルダーに、記入済みフォームの画像ファイルを格納する。

パラメーター設定部２９は、機械学習処理部３２により特定された機械学習後のパラメーターを、機械学習処理部３２から取得し、分類器２７に設定する。

また、図３におけるサーバー装置３は、クラウドサーバー、ローカルネットワークに接続されたサーバーなどであって、通信装置３１および機械学習処理部３２を備える。

通信装置３１は、ネットワーク２に接続され、他の装置（画像処理装置１など）との間でデータ通信を行う、ネットワークインターフェイスなどといった装置である。

機械学習処理部３２は、分類器２７の機械学習を、上述の複数の機械学習用画像およびラベルを訓練データとして実行する。

具体的には、機械学習処理部３２は、ニューラルネットワークとしての分類器２７のパラメーター（ニューロン間の結合係数、ニューロンのバイアスなど）を訓練データに基づいて、既存のディープラーニングの方式で最適化することで、分類器２７の機械学習を実行する。

なお、図１では、画像処理装置１は１台のみであるが、当該システムは複数の画像処理装置１を含んでいてもよく、機械学習処理部３２は、それらの画像処理装置１の分類器２７に対して、一括して機械学習を行ってもよいし、別々に機械学習を行ってもよい。

次に、上記システムの動作について説明する。

上記システムにおいてフォーム種別の機械学習が行われ、また、画像処理装置１では、機械学習された分類器によるフォーム画像の分類が行われる。

（ａ）フォーム種別の機械学習

図４は、図１に示すフォーム種別学習システムにおけるフォーム種別の機械学習を説明する図である。

まず、機械学習に使用される、複数フォーム種別の記入済みフォーム（帳票など）が用意される。そして、原書類画像取得部２１は、画像読取装置１１を使用して、その記入済みフォームの画像（フォーム画像）を取得する。

画像縮小部２２は、そのフォーム画像を所定サイズに縮小し、ノイズ付加部２３は、上述のようにして、縮小後のフォーム画像に、異なるパターンでノイズを付加することで、複数の機械学習用画像を生成する。

ラベル付加部２４は、複数の機械学習用画像に対して、その記入済みフォームのフォーム種別をラベルとして付加する。

機械学習処理部３２は、その複数の機械学習用画像とそのフォーム種別とを訓練データとして取得し、各機械学習用画像を入力とし対応するフォーム種別を出力として、分類器２７のパラメーターの最適化処理を実行し、これにより、分類器２７の機械学習を行う。

機械学習の完了後に、パラメーター設定部２９は、機械学習後のパラメーターをサーバー装置３の機械学習処理部３２から取得し、分類器２７にセットする。

（ｂ）フォーム画像の分類

フォーム画像取得部２５は、画像読取装置１１を使用して、フォーム種別で分類すべき記入済みフォームの画像（フォーム画像）を取得する。

画像縮小部２６は、取得されたフォーム画像を所定サイズに縮小する。

分類器２７は、縮小されたフォーム画像に対応するフォーム種別を特定する。

フォーム処理部２８は、特定されたフォーム種別に対応する特定の処理を、取得されたフォーム画像について実行する。

以上のように、上記実施の形態によれば、画像処理装置１は、記入済みフォームの画像が所定サイズに縮小された、縮小後の記入済みフォームの画像を入力としフォーム種別を出力とする分類器２７で、記入済みフォームのフォーム種別を特定する。そして、その分類器２７は、フォーム種別学習システムにより機械学習されたものであり、そのフォーム種別学習システムは、記入済みフォームの画像を原書類画像として取得する原書類画像取得部２１と、原書類画像を縮小する画像縮小部２２と、画像縮小部２２により縮小される前の原書類画像または画像縮小部２２により縮小された後の原書類画像にノイズを付加して複数の機械学習用画像を生成するノイズ付加部２３と、複数の機械学習用画像に対して、原書類画像のフォーム種別をラベルとして関連付けるラベル付加部２４と、分類器２７の機械学習を、複数の機械学習用画像およびラベルを訓練データとして実行する機械学習処理部３２とを備える。

これにより、フォームレイアウト情報を使用することなく、フォームの分類が正確に行われる。また、上述のノイズ付加によってフォームの記入内容が機械学習で反映されにくくなり、記入を除いたフォーム固有のレイアウトが機械学習されやすくなり、その結果、記入内容の影響を受けにくくなり、フォームが正確に分類されやすくなる。

なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。

例えば、上記実施の形態において、原書類画像取得部２１、画像縮小部２２、ノイズ付加部２３、およびラベル付加部２４は、フォーム画像取得部２５、画像縮小部２６、分類器２７、フォーム処理部２８、およびパラメーター設定部２９とは異なる装置に設けられていてもよい。

また、上記実施の形態において、機械学習処理部３２は、画像処理装置１とは異なるサーバー装置３に設けられているが、画像処理装置１に設けられていてもよい。

さらに、上記実施の形態において、ノイズ付加部２３は、上述の付加位置の濃度が背景濃度（例えば白色）と異なる場合には、擬似文字画像を白色に変換し、変換後の擬似文字画像をその付加位置に付加するようにしてもよい。

さらに、上記実施の形態において、原書類画像取得部２１およびフォーム画像取得部２５の一方を、他方の代わりに使用してもよい。その場合、原書類画像取得部２１およびフォーム画像取得部２５の一方を省略してもよい。また、上記実施の形態において、画像縮小部２２，２６の一方を、他方の代わりに使用してもよい。その場合、画像縮小部２２，２６の一方を省略してもよい。

本発明は、例えば、複合機に適用可能である。

１画像処理装置
２１原書類画像取得部
２２画像縮小部
２３ノイズ付加部
２４ラベル付加部
２５フォーム画像取得部
２６画像縮小部
２７分類器
３２機械学習処理部

Claims

記入済みフォームの画像を原書類画像として取得する原書類画像取得部と、
前記原書類画像を縮小する画像縮小部と、
前記画像縮小部により縮小される前の前記原書類画像または前記画像縮小部により縮小された後の前記原書類画像にノイズを付加して複数の機械学習用画像を生成するノイズ付加部と、
前記複数の機械学習用画像に対して、前記原書類画像のフォーム種別をラベルとして関連付けるラベル付加部と、
記入済みフォームの画像を入力としフォーム種別を出力とする分類器の機械学習を、前記複数の機械学習用画像および前記ラベルを訓練データとして実行する機械学習処理部と、
を備えることを特徴とするフォーム種別学習システム。
前記ノイズ付加部は、前記ノイズとして擬似文字画像を前記原書類画像に付加して複数の機械学習用画像を生成し、
前記擬似文字画像は、所定形状かつ所定サイズの画像であること、
を特徴とする請求項１記載のフォーム種別学習システム。
前記所定サイズは、前記画像縮小部により縮小される前の前記原書類画像または前記画像縮小部により縮小された後の前記原書類画像において存在し得る文字の最小サイズから最大サイズまでのいずれかのサイズであることを特徴とする請求項２記載のフォーム種別学習システム。
前記ノイズ付加部は、互いに異なるアスペクト比で複数の付加位置に、前記擬似文字画像を付加することを特徴とする請求項２記載のフォーム種別学習システム。
前記ノイズ付加部は、前記原書類画像内の枠を検出し、検出した前記枠の内部に前記擬似文字画像を付加することを特徴とする請求項２記載のフォーム種別学習システム。
前記ノイズ付加部は、前記ノイズの付加位置をランダムに特定し、特定した前記付加位置の濃度が背景濃度と異なる場合には、前記背景濃度である別の位置に前記付加位置を変更することを特徴とする請求項１記載のフォーム種別学習システム。
記入済みフォームの画像を取得するフォーム画像取得部と、
取得された前記記入済みフォームの画像を所定サイズに縮小する画像縮小部と、
縮小された前記記入済みフォームの画像を入力としフォーム種別を出力とする分類器とを備え、
前記分類器は、フォーム種別学習システムにより機械学習されたものであり、
前記フォーム種別学習システムは、記入済みフォームの画像を原書類画像として取得する原書類画像取得部と、前記原書類画像を縮小する画像縮小部と、前記画像縮小部により縮小される前の前記原書類画像または前記画像縮小部により縮小された後の前記原書類画像にノイズを付加して複数の機械学習用画像を生成するノイズ付加部と、前記複数の機械学習用画像に対して、前記原書類画像のフォーム種別をラベルとして関連付けるラベル付加部と、記入済みフォームの画像を入力としフォーム種別を出力とする分類器の機械学習を、前記複数の機械学習用画像および前記ラベルを訓練データとして実行する機械学習処理部とを備えること、
を特徴とする画像処理装置。