JP2021144461A

JP2021144461A - 学習装置及び推論装置

Info

Publication number: JP2021144461A
Application number: JP2020042563A
Authority: JP
Inventors: 修二奥野; Shuji Okuno
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2021-09-24
Anticipated expiration: 2040-03-12
Also published as: JP6723488B1

Abstract

【課題】機械学習によるデータ処理において、表現力・精度を保ちながら演算量を抑えて、機械学習の処理の軽量化を図った学習装置及び推論装置を提供する。【解決手段】画像処理装置は、機械学習モデルを用いて所定の推論処理を実行する装置であって、画像データの処理を行う例では、対象画像データの入力を受け付ける入力部１１１と、入力部１１１に入力された対象画像データが推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する予測可能領域判定部１１１ａと、入力部１１１から画像データが入力される機械学習モデル１１２と、機械学習モデル１１２を用いて、対象画像データに対して所定の推論処理を実行する推論処理実行部１０２と、を備え、推論処理実行部１０２は、予測可能領域ではない領域を推論するのに必要な画像データを機械学習モデル１１２に出力する。この構成により、画像処理装置は、機械学習による画像処理において、表現力・精度を保ちながら演算量を抑えて、機械学習の処理の軽量化を実現できる。【選択図】図２

Description

本発明は、機械学習モデルを用いた学習装置及び推論装置に関し、特に、画像処理用の機械学習モデルを用いた学習装置及び推論装置に関する。

従来より、機械学習によるデータ処理方法で、コンピュータのプログラムに対して、教師データとなるデータセットを与えて、プログラムのパラメータを学習することで、任意のデータに対してデータ処理を行うことができる学習済みモデルを生成する方法が知られている。

例えば、機械学習を用いた「入力画像（教師データ）→学習用プログラム→出力画像（教師データ）」という処理において、入力画像と出力画像の誤差が一番小さくなるように学習用プログラムのパラメータを計算して「学習済みモデル」を生成する。そして、この「学習済モデル」を用いることで、「入力画像（任意のデータ：例えば低解像度画像）→学習済みモデル→出力画像（推論データ：例えば高解像度画像）」という、入力画像から出力画像を推論することで出力画像を生成することができる。

近年、機械学習のうちニューラルネットワークを用いた機械学習が多くの分野に適用されている。特に画像認識、音声認識の分野にて、ニューラルネットワークを多層構造で使用したディープラーニング（Deep Learning；深層学習）が高い認識精度を発揮している。多層化したディープラーニングでも、入力の特徴を抽出する畳み込み層及びプーリング層を複数回使用した畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を用いた画像処理が行なわれている。

そして、ニューラルネットワークを用いた画像処理としては、信号を高解像度化させる超解像装置（例えば、特許文献１参照）や疾患領域の違いを把握することを容易にして精度の高い診断支援を行う診断支援装置（例えば、特許文献２参照）などがある。

特開2020-27557号公報特開2018-38789号公報

ニューラルネットワークを用いるデータ処理においては、機械学習モデルに対象となるデータが入力される。例えば画像処理において、機械学習モデルに使用される画像データは、座標ごとに区画されたピクセル(画素)の集まりとして表現され、各ピクセルにはピクセル値（例えば色情報RGBの３つの値）が付与される。機械学習モデルでは、対象となる画像データの有する全てのピクセル値が入力ニューロンに入力されて機械学習が実行されている。

しかしながら、画像データには例えば単色領域やエッジ成分のほとんどない（変化の少ない）領域など機械学習用の推論処理の前後で変化の生じなかったり、単純な処理で生成が可能な、すなわち推論結果を容易に予測できる領域（以下、予測可能領域と記載）が含まれているものがある。通常、機械学習モデルにおいては、より高速で高精度な処理を実現できるためにはパラメータ数や演算量を抑えることが好ましい。従って、画像データの特性を無視して、上述のような予測可能領域を含む画像データを一律に全て機械学習モデルに入力することで、演算量が増加したり、学習の処理効率が落ちたりするなどの問題が生じる。

そして、上記特許文献に示される画像処理方法においても、入力される画像データの予測可能領域を配慮した演算処理は開示されていない。

本発明は、上記課題に鑑みてなされたものであり、畳み込みニューラルネットワークなどの機械学習によるデータ処理において、表現力・精度を保ちながら演算量を抑えて、機械学習の処理の軽量化を図った学習装置及び推論装置を提供することを目的とする。

上記目的を達成するために本発明は、機械学習モデルを用いて一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータに対して所定の推論処理を実行する推論装置であって、対象データの入力を受け付ける入力部と、前記入力部に入力された対象データが推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する予測可能領域判定部と、前記入力部からデータが入力される機械学習モデルと、前記機械学習モデルを用いて、前記対象データに対して所定の推論処理を実行する推論処理実行部と、を備え、前記推論処理実行部は、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力することを特徴とするものである。

この推論装置において、前記推論装置は、さらに、前記予測可能領域とされたデータ領域に所定のデータ処理を行う予測データ生成部と、前記機械学習モデルにおいて処理された対象データと、前記予測データ生成部において生成されたデータを結合するデータ結合部と、前記データ結合部において結合されたデータを出力する出力部と、を備えることが好ましい。

この推論装置において、前記予測可能領域判定部は、対象データにおける連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定することが好ましい。

この推論装置において、前記予測可能領域判定部は、対象データにおける高周波成分に基づいて、高周波成分のない領域を予測可能領域と判定する高周波成分判定部を有することが好ましい。

この推論装置において、前記推論装置は、さらに、前記入力部に入力された対象データを領域分割するブロック分割部を備え、前記予測可能領域判定部は、前記ブロック分割部で分割されたブロック単位で予測可能領域の判定を行うことが好ましい。

この推論装置において、前記推論処理実行部は、予測可能領域の全て又は少なくとも一部の領域をスキップさせたデータを前記機械学習モデルに出力することが好ましい。

この推論装置において、前記対象データは画像データであることが好ましい。

また、上記目的を達成するために本発明は、一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現した学習用データに基づいて機械学習モデルにおける設定値を学習する学習装置であって、学習用データの入力を受け付ける入力部と、前記入力部に入力された学習用データが前記設定値を学習する必要性が低い予測可能領域を有しているか否かを判定する予測可能領域判定部と、前記入力部からデータが入力される機械学習モデルと、学習対象の機械学習モデルを用いて、学習用データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行部と、前記設定値を記憶する学習結果記憶部と、を備え、前記学習処理実行部は、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力することを特徴とするものである。

この学習装置において、前記予測可能領域判定部は、学習用データにおける連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定することが好ましい。

この学習装置において、前記予測可能領域判定部は、学習用データにおける高周波成分に基づいて、高周波成分のない領域を予測可能領域と判定する高周波成分判定部を有することが好ましい。

この学習装置において、前記学習処理実行部は、さらに、予測可能領域を含む学習用データを前記機械学習モデルに出力することが好ましい。

この学習装置において、前記学習用データは画像データであることが好ましい。

また、本発明は、コンピュータを上記記載の学習装置又は推論装置として動作させることを特徴とするコンピュータプログラムである。

また、本発明は、上記に記載の学習装置もしくは推論装置又は上記記載のコンピュータプログラムに向けて前記入力データを送信し、前記出力データを受信して利用することを特徴とするコンピュータシステムである。

また、上記目的を達成するために本発明は、機械学習モデルを用いて一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータに対して所定の推論処理を実行する推論方法であって、対象データの入力を受け付ける入力ステップと、前記入力ステップにおいて入力された対象データが推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する予測可能領域判定ステップと、データが入力される機械学習モデルを用いて、前記対象データに対して所定の推論処理を実行する推論処理実行ステップと、を含み、前記推論処理実行ステップにおいては、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力することを特徴とするものである。

また、上記目的を達成するために本発明は、一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現した学習用データに基づいて機械学習モデルにおける設定値を学習する学習方法であって、学習用データの入力を受け付ける入力ステップと、前記入力ステップにおいて入力された学習用データが前記設定値を学習する必要性が低い予測可能領域を有しているか否かを判定する予測可能領域判定ステップと、学習対象の機械学習モデルを用いて、学習用データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行ステップと、前記設定値を記憶する学習結果記憶ステップと、を含み、前記学習処理実行ステップにおいては、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力することを特徴とするものである。

本発明に係る推論装置は、機械学習モデルを用いて一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータに対して所定の推論処理を実行する推論装置であって、対象データの入力を受け付ける入力部と、入力部に入力された対象データが推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する予測可能領域判定部と、入力部からデータが入力される機械学習モデルと、機械学習モデルを用いて、前記対象データに対して所定の推論処理を実行する推論処理実行部と、を備え、推論処理実行部は、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力する。この構成により、本願発明に係る推論装置では、機械学習によるデータ処理において、表現力・精度を保ちながら演算量を抑えて、機械学習の処理の軽量化を図ることができる。

本発明の実施の形態１に係る画像処理装置の構成を示すブロック図である。同上画像処理装置の機能ブロック図である。同上画像処理装置の推論動作時の動作手順を示すフローチャートである。同上画像処理装置の学習動作時の動作手順を示すフローチャートである。同上画像処理装置における推論動作時の画像の遷移を示すイメージ図である。本発明の実施の形態２に係る画像処理装置の機能ブロック図である。同上画像処理装置の推論動作時の動作手順を示すフローチャートである。

（実施の形態１）
本発明の実施の形態１に係る画像処理装置について図１乃至図５を参照して説明する。なお、本発明の対象データは、一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータであり、画像データに限定されるものではないが、以下の実施の形態では典型例としての画像データを用いて説明する。本実施の形態１に係る画像処理装置は、画像データなどの所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習装置、及び機械学習モデルを用いて対象画像データに対して所定の推論処理を実行する推論装置の少なくとも一方としての機能を発揮する。

最初に、画像処理装置１に備わる各処理部に関して図１を参照しながら説明する。画像処理装置１は、図１に示すように、制御部１０、画像処理部１１、記憶部１２、通信部１３、表示部１４、操作部１５及び読取部１６を備える。なお、画像処理装置１及び画像処理装置１における動作について以下では、１台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。

制御部１０は、ＣＰＵなどのプロセッサやメモリを用いて、装置の構成部を制御して各種機能を実現する。画像処理部１１は、ＧＰＵ又は専用回路等のプロセッサ及びメモリを用い、制御部１０からの制御指示に応じて画像処理を実行する。なお、制御部１０及び画像処理部１１は、ＣＰＵ，ＧＰＵ等のプロセッサ、メモリ、さらには記憶部１２及び通信部１３を集積した１つのハードウェア（ＳｏＣ：System on a Chip）として構成されていてもよい。

記憶部１２は、ハードディスクやフラッシュメモリを用いる。記憶部１２には、画像処理プログラム１Ｐ、機械学習モデル（例えばＣＮＮ）としての機能を発揮させる機械学習ライブラリ１Ｌが記憶されている。また、記憶部１２には、機械学習モデルを定義する定義データ、学習済み機械学習モデルにおける設定値等を含むパラメータなどが記憶される。

通信部１３は、インターネット等の通信網への通信接続を実現する通信モジュールである。通信部１３は、ネットワークカード、無線通信デバイス又はキャリア通信用モジュールを用いる。

表示部１４は、液晶パネル又は有機ＥＬ（Electro Luminescence）ディプレイ等を用いる。表示部１４は、制御部１０の指示による画像処理部１１での処理によって画像を表示することが可能である。

操作部１５は、キーボード又はマウス等のユーザインタフェースを含む。筐体に設けられた物理的ボタンを用いてもよい。及び表示部１４に表示されるソフトウェアボタン等を用いてもよい。操作部１５は、ユーザによる操作情報を制御部１０へ通知する。

読取部１６は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体２に記憶してある画像処理プログラム２Ｐ、及び機械学習ライブラリ３Ｌを読み取ることが可能である。記憶部１２に記憶してある画像処理プログラム１Ｐ及び機械学習ライブラリ１Ｌは、記録媒体２から読取部１６が読み取った画像処理プログラム２Ｐ及び機械学習ライブラリ３Ｌを制御部１０が記憶部１２に複製したものであってもよい。

次に、画像処理装置１の画像処理の機能に関して図２を参照しながら説明する。画像処理装置１の制御部１０は学習処理実行部１０１及び推論処理実行部１０２を備える。学習処理実行部１０１は、記憶部１２に記憶してある機械学習ライブラリ１Ｌ、定義データ、パラメータ情報に基づき機械学習モデル（機械学習エンジン）として機能する。すなわち、学習処理実行部１０１は、学習対象の機械学習モデルを用いて、学習用画像データに基づいて、学習対象の機械学習モデルにおける設定値（パラメータ等）を学習する処理を実行する。

推論処理実行部１０２は、記憶部１２に記憶してある画像処理プログラム１Ｐに基づき、画像処理を行う。すなわち、推論処理実行部１０２は、機械学習モデルを用いて、入力される対象画像データ（対象データ）に対して所定の推論処理を実行する。また、推論処理実行部１０２は、ユーザの操作部１５を用いた操作に基づき、入力データである画像データを入力部１１１に入力する画像処理実行部としての機能を発揮する。

本実施の形態１において、画像処理部１１の入力部１１１は学習用画像データ又は推論対象となる対象画像データの入力を受け付ける。入力部１１１に備わる予測可能領域判定部１１１ａは、入力部１１１に入力された対象画像データ（すなわち学習用画像データ又は推論対象となる対象画像データ）が推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する。推論処理実行部１０２（及び学習処理実行部１０１）は、予測可能領域判定部１１１ａにおいて対象画像データが予測可能領域を有していると判定される場合には、予測可能領域ではない領域を推論（学習）するのに必要なデータを機械学習モデル１１２に出力する。具体的には、推論処理実行部１０２は、予測可能領域の全て又は少なくとも一部の領域をスキップさせた画像データを機械学習モデル１１２に、予測可能領域の画像データ（機械学習モデル１１２に入力された画像データ以外の画像データ）を出力部１１３に振り分けて出力する。

本実施の形態において、予測可能領域判定部１１１ａは、対象データ（画像データ）における連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定し、単色領域判定部１１１ｂ及びブロック分割部１１１ｃを有する。単色領域判定部１１１ｂは、対象画像データにおける連続した単色の領域の全部又はその内側の少なくとも一部の領域を予測可能領域と判定する。例えば、単色領域判定部１１１ｂは、対象画像データの有する画素の色情報（RGBの値など）に基づいて、同じサンプル値で連続した領域を予測可能領域とする。８ビット表現の場合にRGBで（0,0,0）の完全黒や（255,255,255）の完全白が連続する領域など、特定の色のみを対象として予測可能領域としても良い。また、連続した領域のうち、例えばその数ピクセル内側のみを予測可能領域としてもよい。領域の範囲に関しても所定数以上同じ値が連続（隣接）する領域を縦横任意のサイズのブロック単位で判定しても良いし、対象画像データがブロック分割される場合には１ブロック単位で判定しても構わない。

特に、機械学習モデルがＣＮＮとなる場合には、畳み込みの処理過程において処理対象ピクセルの周囲のピクセルも参照する場合もある。このため、単色領域判定部１１１ｂは、対象画像データにおける連続した単色領域の内側の少なくとも一部の領域を予測可能領域と判定することで、ＣＮＮと同様の画像データの参照範囲を模擬し、予測可能領域の予測値と機械学習モデルの出力との間に誤差が発生して判定領域の境界でノイズが出ることを防止できる。ここで内側とは、例えば、境界の全てのピクセルから任意の縦横ピクセル分以上離れた領域である。また同様に、予測可能領域以外の領域についても、機械学習モデルにおいて予測可能領域を参照してもよい。また、これに限らず、予測可能領域の境界部は、畳み込みの参照範囲などを考慮して適宜調整しても良い。

ブロック分割部１１１ｃは、入力部１１１に入力された画像データを領域分割する。ブロック分割部１１１ｃは、画像データが例えば1920×1080ピクセルの色情報で表現される場合、 128×128ピクセル（１ブロック）などに領域分割してもよい（割り切れないピクセルは１ブロックのサイズを超えない最大限のブロックで分割してもよい）。ブロック分割はブロックが重なってもよいし、画像の周辺を画像の境界のピクセルと同じ画素で任意のピクセル分拡張を行ってからブロック分割してもよい。予測可能領域判定部１１１ａは、ブロック分割部１１１ｃで分割されたブロック単位で予測可能領域の判定を行ってもよい。ブロック単位での判定は、前記のとおり畳み込みで参照する範囲を考慮して行っても良い。また、予測可能領域を自由な形で設定し、機械学習モデルに出力する画像データのみをブロック単位で出力することで、ブロック中の一部のみに予測可能領域を含むブロックが混在してもよい。

機械学習モデル１１２は、学習済みモデル使用時にはそれぞれ既に学習済のパラメータに基づいて画像データの最適化処理（例えば高解像度化やノイズ除去）を行う。推論時の機械学習モデル１１２がＣＮＮとなる場合には、定義データにより定義される複数段の畳み込み層及びプーリング層と、全結合層とを含んでもよく、画像データの特徴量を取り出し、取り出された特徴量に基づいて画像加工処理を行う。

機械学習モデル１１２で処理された画像データ、及び予測可能領域判定部１１１ａにおいて予測可能領域と判定された画像データは、出力部１１３に入力される。出力部１１３は、設定画像生成部（予測データ生成部）１１３ａ及び画像結合部（データ結合部）１１３ｂを有する。設定画像生成部１１３ａは、予測可能領域とされた画像データ（データ領域）に所定の画像処理（データ処理）を行う。例えば推論処理が高解像度化であれば、予測可能領域を設定に応じて拡大した画像を生成する。前記の畳み込みの参照範囲による境界部の調整はここで行ってもよい。画像結合部１１３ｂは、機械学習モデル１１２において処理された対象データと、予測データ生成部１１３ａにおいて生成されたデータを結合する。ここでは、画像データのピクセル毎に付与された座標情報を用いて機械学習モデル１１２において処理された画像データと、設定画像生成部１１３ａにおいて生成された画像を再結合させる。なお、機械学習モデル１１２において処理された画像データと、設定画像生成部１１３ａにおいて生成された画像の両方が存在するピクセルは、どちらのピクセルを使用してもよいし、合成してもよい。出力部１１３は、画像結合部１１３ｂにおいて結合された画像データを記憶部１２に出力する。なお、出力データを画像処理部１１において画像として描画し、表示部１４へ出力してもよい。

出力部１１３から出力される画像データは、例えば拡大、ノイズ除去、カラー化などの特定の画像処理を施すことができ、また、出力は画像データに限られずクラス分けの場合は特定されたクラスを出力する。

次に、本実施の形態１に係る画像処理装置１が推論装置として動作する際の動作手順に関して図３を参照しながら説明する。最初に、入力部１１１において画像データの入力がある場合（Ｓ３０１でＹｅｓ）、予測可能領域判定部１１１ａは画像データが予測可能領域（例えば完全単色の領域）を有するか否かを判定する（Ｓ３０２）。そして、予測可能領域を含む場合（Ｓ３０２でＹｅｓ）、入力部１１１は、予測可能領域の少なくとも一部の領域スキップさせた画像データを機械学習モデル１１２、予測可能領域を出力部１１３に出力する（Ｓ３０３）。次に、機械学習モデル１１２は、入力された画像データに対してＣＮＮなどによる推論処理を行い、推論画像を生成する（Ｓ３０４）。そして、設定画像生成部１１３ａは予測可能領域に所定の画像処理（例えば拡大処理）を行うことで設定画像を生成し、画像結合部１１３ｂにおいてこの設定画像と推論画像が結合され（Ｓ３０５）、結果を記憶部１２に格納する（Ｓ３０６）。

一方、予測可能領域判定部１１１ａにおいて入力部１１１に入力された対象画像データが予測可能領域を含まないと判定する場合（Ｓ３０２でＮｏ）、入力部１１１は、対象画像データの全てを機械学習モデル１１２に出力する（Ｓ３０７）。次に、機械学習モデル１１２は、推論処理を行い画像を生成する（Ｓ３０８）。

次に、本実施の形態１に係る画像処理装置１が学習装置として動作する際の動作手順に関して図４を参照しながら説明する。最初に、入力部１１１において学習用データ（画像データ）の入力がある場合（Ｓ４０１でＹｅｓ）、予測可能領域判定部１１１ａは画像データが設定値を学習する必要性が低い予測可能領域、を有しているか否かを判定する（Ｓ４０２）。ここでは学習用データにおける連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定する。予測可能領域判定部１１１ａは、学習用データにおける高周波成分に基づいて、高周波成分のない領域を予測可能領域と判定する高周波成分判定部として機能しても良い。そして、予測可能領域を含む場合（Ｓ４０２でＹｅｓ）、入力部１１１は、予測可能領域の少なくとも一部の領域スキップさせた画像データを機械学習モデル１１２に出力する（Ｓ４０３）。次に、機械学習モデル１１２は、画像データのパラメータ更新処理（設定値の更新処理）を行う（Ｓ４０４）。この設定値の更新は、例えばパラメータをミニバッチ勾配降下法で更新するなど入力データと解答データとの差分を最小化する処理である。次に、更新された設定値を記憶部１２に格納する（Ｓ４０５）。

一方、予測可能領域判定部１１１ａにおいて入力部１１１に入力された学習用データが予測可能領域を含まないと判定する場合（Ｓ４０２でＮｏ）、入力部１１１は、全画像データを機械学習モデル１１２に出力する（Ｓ４０６）。次に、機械学習モデル１１２は、学習時にはそれぞれ画像データのパラメータ更新（設定値の更新処理）を行い、結果を記憶部１２に格納する（Ｓ４０７）。

このように、本実施の形態１に係る画像処理装置１は、予測可能領域を分けて、予測可能領域以外の領域専用に学習した機械学習モデル１１２を用意する。この構成により、学習用データから予測可能領域を分離して、予測可能領域を除く画像データに機械学習モデルを設定することができる。

本実施の形態１に係る画像処理装置１における推論画像生成（高解像度画像生成）の場合の遷移イメージ図を図５に示す。図５（ａ）に示すように、画像データには完全単色または高周波成分を含まない一定範囲の予測可能領域（斜線領域）が含まれており、図５（ｂ）に示すように予測可能領域を除く画像データを機械学習モデル１１２に通して推論処理をする。そして、図５（ｃ）に示す機械学習モデル１１２において生成された推論画像と、設定画像生成部１１３ａで生成された予測可能領域の画像データの設定画像を結合することで図５（ｄ）に示す最終的な推論画像が生成される。

以上の説明のように、本実施の形態１に係る画像処理装置（推論装置）１は、学習済みモデルを用いた推論装置として機能する場合には、記憶部１２に記憶してある定義データ及びパラメータを用いて、予測可能領域の少なくとも一部を除いた画像データ専用の機械学習モデル１１２を用いて画像生成を行う。そして、推論処理実行部１０２は、画像結合部１１３ｂにおいて結合された出力画像を出力する。

この構成により、画像処理装置１では、畳み込みニューラルネットワークなどの機械学習において、予測可能領域に対した入力を省く（スキップする）ことで演算量を減らして処理の軽量化を図り、画像データを用いた機械学習の効率・精度を向上できる。すなわち、推論処理での表現力（精度）を保ち・向上させながらパラメータ数や演算量を抑えることで、より高精度なモデルを実現できる。

一方、予測可能領域の少なくとも一部を除いた画像データを用いて機械学習モデル１１２を用いて学習を行なうことができ、機械学習による画像処理において、より効率的な処理を実現できる。より具体的には、学習処理実行部１０１は、予測可能領域を除いた学習データを機械学習モデル１１２に入力して得られる出力データと、既知の学習用画像データとの誤差を最小にする処理を実行し、パラメータ（重み）を更新できる。この学習処理により得られるパラメータは記憶部１２に記憶される。この際、記憶部１２は学習結果記憶部として機能している。

なお、上述のように、本発明の適用対象データは、一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータであり、画像データに限定されるものではない。例えば、音響データは時間の一次元の空間に対する音圧値である。また、動画データは縦方向、横方向及び時間の３次元に対するピクセル値である。これらのデータは、いずれも、本実施の形態の予測可能領域判定部１１１ａにおける予測領域判定の対象データとなり得て、入力部１１１への入力データとなり、本願に係る推論方法及び学習方法を適用することが可能である。この場合も、予測可能領域判定部は、対象データにおける連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定する。その他、機械学習モデルにおける中間層の出力データに対して用いてもよい。

また、本実施の形態１に係る画像処理装置１のハードウェア構成の内、通信部１３、表示部１４、操作部１５、及び読取部１６は必須ではない。通信部１３については、例えば記憶部１２に記憶される画像処理プログラム１Ｐ、及び機械学習ライブラリ１Ｌを外部サーバ装置から取得する場合に一旦使用された後は使用しない場合がある。読取部１６も同様に、画像処理プログラム１Ｐ、機械学習ライブラリ１Ｌを記憶媒体から読み出して取得した後は使用されない可能性がある。そして通信部１３及び読取部１６は、ＵＳＢ等のシリアル通信を用いた同一のデバイスであってもよい。

画像処理装置１がＷｅｂサーバとして、上述の予測可能領域判定部１１１ａ、機械学習モデル１１２としての機能を、表示部及び通信部を備えるＷｅｂクライアント装置へ提供する構成としてもよい。この場合、通信部１３は、Ｗｅｂクライアント装置からのリクエストを受信し、処理結果を送信するために使用される。

そして、推論時や学習時に用いる誤差は、二乗誤差、絶対値誤差、又は交差エントロピー誤差等、入出力されるデータ、学習目的に応じて適切な関数を用いるとよい。例えば、出力が分類である場合、交差エントロピー誤差を用いる。誤差関数を用いることに拘わらずその他の基準を用いるなど柔軟な運用が適用できる。この誤差関数自体に外部の機械学習モデルを用いて評価を行なってもよい。例えば予測可能領域判定部１１１ａは、予測可能領域の判定に所定範囲の誤差を有する領域を含ませることができる。この誤差は、例えば二乗平均誤差を用いてこの値が一定値以下の範囲を誤差の範囲としたり、ハイパスフィルタ通過後の係数が一定値以下の範囲を誤差の範囲とする。

（変形例）
本発明の実施の形態１に係る画像処理装置１の変形例に関して説明する。本変形例では、学習処理の際に、学習処理実行部１０１は、予測可能領域を含む画像データを機械学習モデル１１２に出力する。更には、予測可能領域を含む画像データを複数追加し、または予測可能領域における誤差に重みを付ける。これにより、機械学習モデル１１２は、学習における演算量が増え、予測可能領域以外の精度が下がる可能性はあるが、逆に予測可能領域においては、より精度よく学習することが出来る。そうすることで、推論処理においては、予測可能領域の機械学習モデル１１２への入力をスキップした場合、例えばスキップしたブロックと、スキップしていないブロックで誤差が発生してブロックノイズが出る可能性を抑えることが出来る。

（実施の形態２）
本発明の実施の形態２に係る画像処理装置に関して図６及び図７を参照しながら説明する。なお、上記実施の形態１に係る画像処理装置１と同様の構成については同様の符号を付し、その詳細な説明は省略する。

通常、画像データは種類に応じて、例えばイラスト画像などはエッジ成分を多く含むために高周波成分を多く含み、風景画像などは画像に変化量が少なく高周波成分が少ない。本実施の形態２に係る画像処理装置１の予測可能領域判定部１１１ａは、対象画像データにおける高周波成分に基づいて、高周波成分のない領域を予測可能領域と判定する高周波成分判定部１１１ｄを有する。ここで、高周波成分判定部１１１ｄはハイパスフィルタを用いて高周波成分を判定する。

次に、本実施の形態２に係る画像処理装置１が推論装置として動作する際の動作手順に関して図７を参照しながら説明する。最初に、入力部１１１において画像データの入力がある場合（Ｓ７０１でＹｅｓ）、予測可能領域判定部１１１ａは画像データが予測可能領域（例えば高周波領域）を有するか否かを判定する（Ｓ７０２）。そして、予測可能領域を含む場合（Ｓ７０２でＹｅｓ）、入力部１１１は、予測可能領域の少なくとも一部の領域をスキップさせた画像データを機械学習モデル１１２、予測可能領域を出力部１１３に出力する（Ｓ７０３）。次に、機械学習モデル１１２は、入力された画像データに対してＣＮＮなどによる推論処理を行い、推論画像を生成する（Ｓ７０４）。そして、設定画像生成部１１３ａは予測可能領域に所定の画像処理（例えば拡大処理）を行うことで設定画像を生成し、画像結合部１１３ｂにおいて設定画像と推論画像が結合され（Ｓ７０５）、結果を記憶部１２に格納する（Ｓ７０６）。

一方、予測可能領域判定部１１１ａにおいて入力部１１１に入力された対象画像データが予測可能領域を含まないと判定する場合（Ｓ７０２でＮｏ）、入力部１１１は、対象画像データの全てを機械学習モデル１１２に出力する（Ｓ７０７）。次に、機械学習モデル１１２は、推論処理を行い画像を生成する（Ｓ７０８）。

以上の説明のように、本実施の形態２に係る画像処理装置１では、学習済みモデルを用いた推論装置として機能する場合には、記憶部１２に記憶してある定義データ及びパラメータを用いて、高周波成分の有無に基づいて予測可能領域の少なくとも一部を除いた画像データ専用の機械学習モデル１１２を用いて画像生成を行う。そして、推論処理実行部１０２は、画像結合部１１３ｂにおいて結合された出力画像を出力する。この構成により、画像処理装置１では、上記実施の形態１と同様の作用効果を奏することができる。なお、予測可能領域の抽出にはローパスフィルタやバンドパスフィルタの構成部を用いて抽出されたデータを用いても良い。また、予測可能領域判定部１１１ａは、本実施の形態１における単色領域判定部１１１ｂと形態２における高周波判定部１１１ｄの両方を含んでいても良いし、その他の判定を行う装置を含んでいても良い。そして、それらの判定に機械学習モデルを用いても良く、形態１，２と同じくピクセル単位で判定しても良いし、ブロック単位で判定しても良い。

本発明は、上記実施の形態の構成に限られず、発明の趣旨を変更しない範囲で種々の変形が可能である。また、本発明の目的を達成するために、本発明は、画像処理装置（学習装置及び推論装置）に含まれる特徴的な構成手段をステップとする画像処理方法（学習方法及び推論方法）としたり、それらの特徴的なステップを含むプログラムとして実現することもできる。そして、そのプログラムは、ＲＯＭ等に格納しておくだけでなく、ＵＳＢメモリ等の記録媒体や通信ネットワークを介して流通させることもできる。

また、本発明は、画像処理装置又はコンピュータプログラムに向けて入力データを送信し、画像処理装置又はコンピュータプログラムからの出力データを受信して利用するコンピュータシステムとしても実現できる。このシステムは、上述の処理により学習済みの機械学習モデルから得られるデータを利用した処理システムで、種々のサービスを提供できる。本システムに用いる装置は、表示部及び通信部を備えた画像処理装置又はコンピュータと情報を送受信できる情報処理装置などであり、例えば所謂ＰＣ、スマートフォン、携帯端末、ゲーム機器などである。

１画像処理装置（学習装置及び推論装置）
１２記憶部（学習結果記憶部）
１０１学習処理実行部
１０２推論処理実行部
１１１入力部
１１１ａ予測可能領域判定部
１１１ｂ単色領域判定部
１１１ｃブロック分割部
１１１ｄ高周波成分判定部
１１２機械学習モデル
１１３出力部
１１３ａ設定画像生成部（予測データ生成部）
１１３ｂ画像結合部（データ結合部）

また、上記目的を達成するために本発明は、機械学習モデルを用いて一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータに対して所定の推論処理を実行する推論装置又はコンピュータプログラムを機能させるための推論方法であって、対象データの入力を受け付ける入力ステップと、前記入力ステップにおいて入力された対象データが推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する予測可能領域判定ステップと、データが入力される機械学習モデルを用いて、前記対象データに対して所定の推論処理を実行する推論処理実行ステップと、を含み、前記推論処理実行ステップにおいては、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力することを特徴とするものである。

また、上記目的を達成するために本発明は、一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現した学習用データに基づいて機械学習モデルにおける設定値を学習する学習装置又はコンピュータプログラムを機能させるための学習方法であって、学習用データの入力を受け付ける入力ステップと、前記入力ステップにおいて入力された学習用データが前記設定値を学習する必要性が低い予測可能領域を有しているか否かを判定する予測可能領域判定ステップと、学習対象の機械学習モデルを用いて、学習用データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行ステップと、前記設定値を記憶する学習結果記憶ステップと、を含み、前記学習処理実行ステップにおいては、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力することを特徴とするものである。

次に、本実施の形態１に係る画像処理装置１が推論装置として動作する際の動作手順に関して図３を参照しながら説明する。最初に、入力部１１１において画像データの入力がある場合（Ｓ３０１でＹｅｓ）、予測可能領域判定部１１１ａは画像データが予測可能領域（例えば完全単色の領域）を有するか否かを判定する（Ｓ３０２）。そして、予測可能領域を含む場合（Ｓ３０２でＹｅｓ）、入力部１１１は、予測可能領域の少なくとも一部の領域をスキップさせた画像データを機械学習モデル１１２、予測可能領域を出力部１１３に出力する（Ｓ３０３）。次に、機械学習モデル１１２は、入力された画像データに対してＣＮＮなどによる推論処理を行い、推論画像を生成する（Ｓ３０４）。そして、設定画像生成部１１３ａは予測可能領域に所定の画像処理（例えば拡大処理）を行うことで設定画像を生成し、画像結合部１１３ｂにおいてこの設定画像と推論画像が結合され（Ｓ３０５）、結果を記憶部１２に格納する（Ｓ３０６）。

次に、本実施の形態１に係る画像処理装置１が学習装置として動作する際の動作手順に関して図４を参照しながら説明する。最初に、入力部１１１において学習用データ（画像データ）の入力がある場合（Ｓ４０１でＹｅｓ）、予測可能領域判定部１１１ａは画像データが設定値を学習する必要性が低い予測可能領域、を有しているか否かを判定する（Ｓ４０２）。ここでは学習用データにおける連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定する。予測可能領域判定部１１１ａは、学習用データにおける高周波成分に基づいて、高周波成分のない領域を予測可能領域と判定する高周波成分判定部として機能しても良い。そして、予測可能領域を含む場合（Ｓ４０２でＹｅｓ）、入力部１１１は、予測可能領域の少なくとも一部の領域をスキップさせた画像データを機械学習モデル１１２に出力する（Ｓ４０３）。次に、機械学習モデル１１２は、画像データのパラメータ更新処理（設定値の更新処理）を行う（Ｓ４０４）。この設定値の更新は、例えばパラメータをミニバッチ勾配降下法で更新するなど入力データと解答データとの差分を最小化する処理である。次に、更新された設定値を記憶部１２に格納する（Ｓ４０５）。

Claims

機械学習モデルを用いて一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータに対して所定の推論処理を実行する推論装置であって、
対象データの入力を受け付ける入力部と、
前記入力部に入力された対象データが推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する予測可能領域判定部と、
前記入力部からデータが入力される機械学習モデルと、
前記機械学習モデルを用いて、前記対象データに対して所定の推論処理を実行する推論処理実行部と、を備え、
前記推論処理実行部は、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力することを特徴とする推論装置。
、
前記推論装置は、さらに、
前記予測可能領域とされたデータ領域に所定のデータ処理を行う予測データ生成部と、
前記機械学習モデルにおいて処理された対象データと、前記予測データ生成部において生成されたデータを結合するデータ結合部と、
前記データ結合部において結合されたデータを出力する出力部と、を備えることを特徴とする請求項１記載の推論装置。
前記予測可能領域判定部は、対象データにおける連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定する、ことを特徴とする請求項１又は２記載の推論装置。
前記予測可能領域判定部は、対象データにおける高周波成分に基づいて、高周波成分のない領域を予測可能領域と判定する高周波成分判定部を有する、ことを特徴とする請求項１又は２記載の推論装置。
前記推論装置は、さらに、
前記入力部に入力された対象データを領域分割するブロック分割部を備え、
前記予測可能領域判定部は、前記ブロック分割部で分割されたブロック単位で予測可能領域の判定を行う、ことを特徴とする請求項１乃至４の何れか一項に記載の推論装置。
前記推論処理実行部は、予測可能領域の全て又は少なくとも一部の領域をスキップさせたデータを前記機械学習モデルに出力する、ことを特徴とする請求項１乃至５の何れか一項に記載の推論装置。
前記予測可能領域判定部は、予測可能領域の判定に所定範囲の誤差を有する領域を含ませる、ことを特徴とする請求項１乃至６の何れか一項に記載の推論装置。
前記対象データは画像データである、ことを特徴する請求項１乃至７の何れか一項に記載の推論装置。
一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現した学習用データに基づいて機械学習モデルにおける設定値を学習する学習装置であって、
学習用データの入力を受け付ける入力部と、
前記入力部に入力された学習用データが前記設定値を学習する必要性が低い予測可能領域を有しているか否かを判定する予測可能領域判定部と、
前記入力部からデータが入力される機械学習モデルと、
学習対象の機械学習モデルを用いて、学習用データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行部と、
前記設定値を記憶する学習結果記憶部と、を備え、
前記学習処理実行部は、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力する、ことを特徴とする学習装置。
前記予測可能領域判定部は、学習用データにおける連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定する、ことを特徴とする請求項９記載の学習装置。
前記予測可能領域判定部は、学習用データにおける高周波成分に基づいて、高周波成分のない領域を予測可能領域と判定する高周波成分判定部を有する、ことを特徴とする請求項９記載の学習装置。
前記学習用データは画像データである、ことを特徴する請求項９乃至１１の何れか一項に記載の学習装置。
コンピュータを請求項１〜１２の何れか１項に記載の学習装置又は推論装置として動作させる、ことを特徴とするコンピュータプログラム。
請求項１〜１２の何れか１項に記載の学習装置もしくは推論装置又は請求項１３に記載のコンピュータプログラムに向けて入力データを送信し、これら学習装置もしくは推論装置又はコンピュータプログラムからの出力データを受信して利用する、ことを特徴とするコンピュータシステム。
機械学習モデルを用いて一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータに対して所定の推論処理を実行する推論方法であって、
対象データの入力を受け付ける入力ステップと、
前記入力ステップにおいて入力された対象データが推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する予測可能領域判定ステップと、
データが入力される機械学習モデルを用いて、前記対象データに対して所定の推論処理を実行する推論処理実行ステップと、を含み、
前記推論処理実行ステップにおいては、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力する、ことを特徴とする推論方法。
一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現した学習用データに基づいて機械学習モデルにおける設定値を学習する学習方法であって、
学習用データの入力を受け付ける入力ステップと、
前記入力ステップにおいて入力された学習用データが前記設定値を学習する必要性が低い予測可能領域を有しているか否かを判定する予測可能領域判定ステップと、
学習対象の機械学習モデルを用いて、学習用データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行ステップと、
前記設定値を記憶する学習結果記憶ステップと、を含み、
前記学習処理実行ステップにおいては、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力する、ことを特徴とする学習方法。