JP7431005B2

JP7431005B2 - 学習データ生成装置、学習データ生成方法、及びプログラム

Info

Publication number: JP7431005B2
Application number: JP2019171710A
Authority: JP
Inventors: 美恵大串; 貴広馬場; 陽太 ▲高▼岡; 英雄寺田
Original assignee: Open Stream Inc
Current assignee: Open Stream Inc
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2024-02-14
Anticipated expiration: 2039-09-20
Also published as: JP2021047816A

Description

本発明は、学習データ生成装置、学習データ生成方法、及びプログラムに関する。

近年、文書画像に対する文字認識により、当該文書画像における文字や幾何学的図形等を認識する技術が各種提案されている。

例えば、下記特許文献１には、機械学習を利用して文書画像の所定の領域の画素が文字を示す文字画素であるか否かを判定する技術が開示されている。当該技術では、文書画像を入力された機械学習モデルが文書画像の画素ごとに文字を示す画素であるか否かを判定し、文字を示す画素が所定の領域を占める範囲に応じて、所定の領域が文字を示す領域であるか否かを判定する。

特開２０１９－５７８０３号公報

機械学習を利用した画像認識の精度は、機械学習モデルの学習時のデータ量が多いほど向上する。そのため、文書画像のレイアウトの認識の精度を向上するには、多様なレイアウトの画像データがより多く用意されることが望ましい。当該画像データは、例えば、文書画像等の印刷物をスキャンすることで生成される。そのため、多様なレイアウトの画像データを用意するには、多様なレイアウトの印刷物をより多く用意する必要がある。しかしながら、文書画像等のレイアウトは限りなく存在するため、多様なレイアウトの印刷物を用意することには時間と労力を要する。また、教師有り学習においては、画像データごとに教師データを用意する必要があるため、さらに時間と労力を要する。

上述の課題を鑑み、本発明の目的は、文書画像認識のための機械学習における多様な学習データを効率よく用意することが可能な学習データ生成装置、学習データ生成方法、及びプログラムを提供することにある。

上述の課題を解決するために、本発明の一態様に係る学習データ生成装置は、画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件を組み合わせた生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成する画像データ生成部と、生成された前記画像における各画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を前記生成条件に基づき取得し、前記画像の各画素に対して前記文字要素、前記幾何学要素、又は前記背景要素のいずれか１つを対応付けた情報を、前記機械学習における教師データとして生成する教師データ生成部と、を備える。

本発明の一態様に係る学習データ生成方法は、画像データ生成部が、画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件を組み合わせた生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成することと、教師データ生成部が、生成された前記画像における各画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を前記生成条件に基づき取得し、前記画像の各画素に対して前記文字要素、前記幾何学要素、又は前記背景要素のいずれか１つを対応付けた情報を、前記機械学習における教師データとして生成することと、を含む。

本発明の一態様に係るプログラムは、コンピュータを、画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件を組み合わせた生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成する画像データ生成部と、生成された前記画像における各画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を前記生成条件に基づき取得し、前記画像の各画素に対して前記文字要素、前記幾何学要素、又は前記背景要素のいずれか１つを対応付けた情報を、前記機械学習における教師データとして生成する教師データ生成部と、として機能させる。

本発明によれば、文書画像認識のための機械学習における多様な学習データを効率よく用意することができる。

本発明の実施形態に係る学習データ生成装置の構成例を示すブロック図である。同実施形態に係る学習データの生成例を示す図である。同実施形態に係る学習データ生成装置における処理の流れを示すフローチャートである。

以下、図面を参照しながら本発明の実施形態について詳しく説明する。

＜学習データ生成装置の構成例＞
まず、図１を参照しながら、本実施形態に係る学習データ生成装置について説明する。図１は、本発明の実施形態に係る学習データ生成装置１０の構成例を示すブロック図である。

学習データ生成装置１０は、機械学習に用いられる学習データを生成する機能を有する装置である。以下では、画像における画素ごとの要素種別を判定する学習済みモデルを生成する際に用いられる学習データを学習データ生成装置１０が生成する例について説明する。

要素種別とは、画像における各画素が如何なる種類を構成する要素であるかを示す情報であり、文字要素、線分要素、及び背景要素のいずれかを示す情報である。文字要素は、画素が画像における文字領域を構成する要素であることを示す。線分要素は、画素が画像における線分を構成する要素であることを示す。背景要素は、画素が画像における背景（線分ではなく、且つ文字領域ではないもの）を構成する要素であることを示す。ここで、線分要素は「幾何学要素」の一例である。

学習済みモデルは、画像における各画素が画像に示されている如何なる内容を構成する要素であるか判定する装置（以下、「判定装置」とも称される）に用いられ得る。例えば、判定装置は、画像における画素が文字とそれ以外の要素との何れであるかを判定する。ここで、それ以外の要素とは、例えば、幾何学的図形である。幾何学的図形とは、幾何学的な図形であって、例えば、線、線分、一定条件を満たす状態で配置された記号の群等である。

画像は、線、及び文字を含む画像である。線が組み合わされる、或いは線の一部が屈曲（或いは湾曲）されることで、罫線や枠線等が構成される場合もある。画像は、判定装置による判定の対象となる画像である。すなわち、画像は、「対象画像」の一例である。

学習済みモデルは、対象画像が入力されると、対象画像における画素の要素種別を判定する。学習済みモデルは、入力された対象画像の画素の要素種別を判定するために、あらかじめ学習データを用いた機械学習を行った上で生成される。当該学習データは、学習データ生成装置１０によって生成される。

学習データ生成装置１０は、例えば、教師有り学習における学習用のデータセットを生成する。データセットは、入力データと、当該入力データと対応する教師データのセットである。入力データは、学習時の入力となるデータである。本実施形態に係る入力データは、文字と幾何学的図形とを含む画像である。教師データは、入力データに基づき出力される出力データの正解を示すデータである。本実施形態に係る教師データは、入力データである画像の各画素と、当該画素の要素種別とを対応付けた情報である。

（ＤＣＮＮの基本）
教師有り学習における学習済みモデルは、学習用のデータセットを用いてＤＣＮＮ（Deep Convolutional Neural Network）などのモデルを学習させることにより生成される。ＤＣＮＮは、Convolution（畳込み積分）層を主要部分に使用する深層形のニューラルネットワークである。画像認識においては、ＤＣＮＮにて入力層に２次元のConvolution層を使用することにより、着目画素とその近傍にある画素の双方の情報を加味した画像特徴情報を効率よく認識できる。さらに２次元Convolutionを重ねて多層化して適用することにより、着目画素の近傍だけでなく、より離れた画素の情報も加味した大域的な画像特徴情報も認識できることが知られている。

（ＤＣＮＮの学習）
Convolution層の計算は、数学的な線形変換式(y=<W,x>+b)で表現することができる。すなわち、これは微分可能な計算式である。微分可能な計算層は、誤差逆伝播法として知られているニューラルネットの教師有り学習の原理を使って、学習を実行することが可能である。

ＤＣＮＮでは、ある層のユニットから、より深い層のユニットにデータが出力される際に、ユニット同士を接続するノードの結合係数に応じた重みＷ、及びバイアス成分ｂが付与されたデータが出力される。学習モデルは、入力されたデータ（入力データ）に対し、各ユニット間の演算を行い、出力層から出力データを出力する。

本実施形態における学習用のデータセットは、入力としての画像情報と、その画素ごとの要素種別とを対応付けた情報である。

学習の過程において、学習モデルに、学習用のデータセットの入力データを入力させる。学習モデルは、入力データに対して出力層から出力されるデータ（出力データ）が、学習用のデータセットの出力（教師データ）に近づくように、学習モデルのパラメータ（重みＷ及びバイアス成分ｂ）を調整することにより、学習モデルを学習させる。

例えば、ＤＣＮＮモデルのパラメータ（重みＷ、及びバイアス成分ｂ）の調整には、誤差逆伝搬法が用いられる。誤差逆伝搬法では、学習モデルの出力層から出力されるデータと、学習用のデータセットの出力との乖離度合いが、損失関数として表現される。ここでの乖離度合いには、任意の指標が用いられてよいが、例えば、誤差の二乗（二乗誤差）やクロスエントロピー等が用いられる。誤差逆伝搬法では、出力層から入力層側に至る方向に、損失関数が最小となるように、重みＷとバイアス成分ｂの値を決定（更新）する。これにより学習モデルを学習させ、判定の精度を向上させる。

なお、学習モデルは、ＤＣＮＮに限定されることはない。学習モデルとして、例えば、決定木、階層ベイズ、ＳＶＭ（Support Vector Machine）などの手法が用いられてもよい。

学習データ生成装置１０は、学習データを生成する機能を実現するために、図１に示すように、画像データ生成部１１０及び教師データ生成部１２０を備える。

（画像データ生成部１１０）
画像データ生成部１１０は、生成条件に基づき、機械学習における入力用の画像データを生成する機能を有する。例えば、画像データ生成部１１０は、生成条件に基づき、文字と幾何学的図形とを含む画像を生成する。生成後、画像データ生成部１１０は、生成した画像を例えば記憶装置（不図示）へ出力し、記憶装置に画像を保存させる。

なお、生成条件は、ユーザにより設定されてもよいし、画像データ生成部１１０により自動で設定されてもよい。ユーザは、例えば、キーボードやタッチパネル等の入力インタフェースを介して生成条件を入力することで生成条件を設定する。画像データ生成部１１０は、例えば、設定項目をランダムに変更することで生成条件をランダムに設定してもよいし、ユーザに指定された条件に基づき生成条件を設定してもよい。

生成条件は、多様な条件の組み合わせにより設定される。主な生成条件の一例として、画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件が挙げられる。

画像生成条件は、具体的に、生成する画像のサイズの設定である。文字生成条件は、具体的に、生成する文字のフォント、サイズ、太さ、数、位置、及び反転の有無等の設定である。幾何学的図形生成条件は、具体的に、生成する幾何学的図形の種類、サイズ、数、太さ、位置、境界の線種（例えば実践、点線等）、塗りつぶしの条件（例えば白塗り、ベタ塗り等）、及びコーナーの形状（例えば角、ラウンド等）等の設定である。背景生成条件は、具体的に、背景パターンの有無及び背景の種類等の設定である。

画像データ生成部１１０は、上述した画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件の組み合わせに基づき、文字と幾何学的図形とを含む画像を入力用の画像データとして生成する。これにより、画像データ生成部１１０は、上述の条件が組み合わされた多様な生成条件に応じて、多様な画像を入力用の画像データとして生成することができる。

なお、生成条件は、かかる例に限定されず、その他の条件が設定されてもよい。例えば、ノイズの追加の有無が設定されてもよい。ノイズの追加が有りに設定された場合、画像データ生成部１１０は、ノイズの追加を行う設定も組み合わせた生成条件に基づき、文字と幾何学的図形に加えてノイズをさらに含む画像を生成する。これにより、画像データには、例えばスキャナーで印刷物がスキャンされた際に生じるノイズが再現される。よって、画像データ生成部１１０は、より現実的な画像データを生成することができる。

スキャンにより生じるノイズは、例えば、ドットや線状のもので、画像の全体に均等に生じたり、部分的に生じたりする。ノイズの種類は、一例として、ガウシアンノイズ、インパルスノイズ、スキャナーの読込部の汚れが原因で生じるノイズ等が挙げられる。

なお、生成条件は、画像データ生成部１１０による画像の生成後に、自動的に変更され得る。生成条件が変更された場合、画像データ生成部１１０は、変更された生成条件に基づく画像を生成する。さらに、生成条件の自動的な変更と、変更後の生成条件に基づく画像の生成は繰り返される。これにより、学習データ生成装置１０は、自動的に多様な画像を大量に生成することができる。

（教師データ生成部１２０）
教師データ生成部１２０は、入力データと対応する教師データを生成する機能を有する。例えば、教師データ生成部１２０は、入力データとして生成された画像の画素と、当該画素の要素種別とを対応付けた情報を、機械学習における教師データとして生成する。例えば、教師データ生成部１２０は、画像の画素ごとに、文字要素、線分要素、又は背景要素のいずれか１つを要素種別として対応付ける。生成後、教師データ生成部１２０は、生成した教師データを例えば記憶装置（不図示）へ出力し、記憶装置に教師データを保存させる。

教師データ生成部１２０は、例えば、画像の生成時の生成条件を参照して、画素ごとの要素種別を取得し、取得した要素種別を各画素に対して対応付けた教師データを生成する。教師データ生成部１２０は、例えば、要素種別ごとに教師データを生成する。

教師データ生成部１２０は、要素種別が文字要素である画素をある特定の色（例えば黒）とし、文字要素ではない画素を、別の色（例えば白）とすることにより、文字要素が対応付けられた画素を示す教師データを生成する。
教師データ生成部１２０は、要素種別が線分要素である画素をある特定の色（例えば黒）とし、線分要素ではない画素を、別の色（例えば白）とすることにより、線分要素が対応付けられた画素を示す教師データを生成する。
教師データ生成部１２０は、要素種別が背景要素である画素をある特定の色（例えば黒）とし、背景要素ではない画素を、別の色（例えば白）とすることにより、背景要素が対応付けられた画素を示す教師データを生成する。

教師データ生成部１２０は、要素種別ごとに生成した教師データに基づき、教師データに対して領域情報をさらに設定してもよい。領域情報とは、各要素種別を示す画素が対応付けられている画像上の領域を示す情報である。教師データ生成部１２０は、例えば、要素種別ごとに教師データに領域情報を設定する。

教師データ生成部１２０は、文字要素が対応付けられた画素を示す教師データにおいて、特定の色（例えば黒）で示された文字要素である画素を含む領域を、文字領域と設定する。
教師データ生成部１２０は、線分要素が対応付けられた画素を示す教師データにおいて、特定の色（例えば黒）で示された線分要素である画素を含む領域を、線分領域と設定する。
教師データ生成部１２０は、背景要素が対応付けられた画素を示す教師データにおいて、特定の色（例えば黒）で示された背景要素である画素を含む領域を、背景領域と設定する。

なお、各要素種別の領域には、画素が１つのみ含まれてもよいし、同一の要素種別を示す隣接する画素が複数含まれてもよい。このように、要素種別ごとに領域情報が設定されることで、教師データは、各画素の要素種別の違いを領域単位で明確に示すことができる。

ここで、図２を参照して、学習データの生成例について説明する。図２は、本発明の実施形態に係る学習データの生成例を示す図である。上述したように、学習データには入力データと教師データが含まれ、入力データと対応する教師データが１つのデータセットとなっている。

例えば、図２に示すように、入力データ２０－１と対応する３つの教師データ３０－１、教師データ３１－１、及び教師データ３２－１が１つのデータセット４０－１となっている。なお、教師データ３０－１は、文字要素が対応付けられた画素を示す教師データであり、黒い領域が文字領域を示している。また、教師データ３１－１は、線分要素が対応付けられた画素を示す教師データであり、黒い領域が線分領域を示している。また、教師データ３２－１は、背景要素が対応付けられた画素を示す教師データであり、黒い領域が背景領域を示している。

また、図２に示すように、入力データ２０－２と対応する３つの教師データ３０－２、教師データ３１－２、及び教師データ３２－２が１つのデータセット４０－２となっている。なお、教師データ３０－２は、文字要素が対応付けられた画素を示す教師データであり、黒い領域が文字領域を示している。また、教師データ３１－２は、線分要素が対応付けられた画素を示す教師データであり、黒い領域が線分領域を示している。また、教師データ３２－２は、背景要素が対応付けられた画素を示す教師データであり、黒い領域が背景領域を示している。

＜処理の流れ＞
以上、学習データ生成装置１０の構成例について説明した。続いて、本実施形態に係る学習データ生成装置１０における処理の流れについて説明する。図３は、本発明の実施形態に係る学習データ生成装置１０における処理の流れを示すフローチャートである。

まず、学習データ生成装置１０の画像データ生成部１１０は、生成条件に基づき、入力用の画像データを生成する（Ｓ１０２）。

次いで、教師データ生成部１２０は、生成された画像データと対応する教師データを生成する（Ｓ１０４）。

以上説明したように、本実施形態に係る学習データ生成装置１０は、まず、生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成する。また、学習データ生成装置は、入力データとして生成された画像の画素ごとに要素種別を対応付けた情報を、機械学習における教師データとして生成する。かかる構成により、学習データ生成装置１０は、生成条件に基づき入力データと教師データを生成するため、生成条件が変更される度に変更後の生成条件に応じた多様な入力データと教師データを生成することができる。よって、学習データ生成装置１０は、文書画像認識のための機械学習における多様な学習データを効率よく用意することができる。

以上、本発明の実施形態について説明した。なお、上述した実施形態における学習データ生成装置１０をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１０…学習データ生成装置
１１０…画像データ生成部
１２０…教師データ生成部

Claims

画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件を組み合わせた生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成する画像データ生成部と、
生成された前記画像における各画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を前記生成条件に基づき取得し、前記画像の各画素に対して前記文字要素、前記幾何学要素、又は前記背景要素のいずれか１つを対応付けた情報を、前記機械学習における教師データとして生成する教師データ生成部と、
を備える、学習データ生成装置。
前記教師データ生成部は、前記文字要素が対応付けられた前記画素を含む領域である文字領域を前記教師データに設定する、請求項１に記載の学習データ生成装置。
前記画像データ生成部は、前記生成条件に基づき、ノイズをさらに含む前記画像を生成する、請求項１又は請求項２に記載の学習データ生成装置。
画像データ生成部が、画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件を組み合わせた生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成することと、
教師データ生成部が、生成された前記画像における各画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を前記生成条件に基づき取得し、前記画像の各画素に対して前記文字要素、前記幾何学要素、又は前記背景要素のいずれか１つを対応付けた情報を、前記機械学習における教師データとして生成することと、
を含む、学習データ生成方法。
コンピュータを、
画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件を組み合わせた生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成する画像データ生成部と、
生成された前記画像における各画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を前記生成条件に基づき取得し、前記画像の各画素に対して前記文字要素、前記幾何学要素、又は前記背景要素のいずれか１つを対応付けた情報を、前記機械学習における教師データとして生成する教師データ生成部と、
として機能させる、プログラム。