JP7005040B2

JP7005040B2 - 学習装置、推論装置、学習方法、プログラムおよび推論方法

Info

Publication number: JP7005040B2
Application number: JP2020079462A
Authority: JP
Inventors: 修二奥野
Original assignee: Axell Corp
Current assignee: Axell Corp
Priority date: 2019-07-01
Filing date: 2020-04-28
Publication date: 2022-01-21
Anticipated expiration: 2040-04-28
Also published as: JP2021009686A

Description

本発明は、機械学習モデルを用いた学習装置及び推論装置に関し、特に、画像処理用の機械学習モデルを用いた学習装置及び推論装置に関する。

従来から、機械学習により学習済みモデルを生成する技術が知られている。この機械学習では、コンピュータのプログラムに対して、教師データとなる画像セットを与えて、プログラムのパラメータを学習することで学習済みモデルが生成される。学習済みモデルを利用することで、任意の画像に対して画像処理を行うことができる。

プログラムのパラメータ学習は、画像を機械学習モデルに入力すると共に、該機械学習モデルの出力から画像を得、入力画像と出力画像との誤差が最小となるように機械学習モデルのパラメータを計算するのが一般的である。そして、このように学習した「学習済モデル」を用いることで、例えば、任意の低解像度画像を学習済みモデルに入力し、推論データとして高解像度画像を出力することもできる。

近年、機械学習のうちニューラルネットワークを用いた機械学習が多くの分野に適用されている。特に画像認識、音声認識の分野にて、ニューラルネットワークを多層構造で使用したディープラーニング（Deep Learning；深層学習）が高い認識精度を発揮している。ディープラーニングでは畳み込み層や、プーリング層を複数回使用した畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）のモデルが代表的である。畳み込み層は、入力の特徴を抽出し、プーリング層は、抽出された特徴に関する情報を残しながらデータを凝縮するのに利用される。

通常、ニューラルネットワークを用いる画像処理においては、学習モデルに対して入出力されるチャンネルの数は固定されている。その理由は、画像データはＲＧＢ、グレースケール、ＹＣｂＣｒ、ＣＭＹＫなど、色の表現法が決まっているためである。画像データを用いた機械学習では、入力する画像データのデータ形式に応じて複数のチャンネルを用意し、チャンネル毎にデータを入力するのが一般的である。

そして、例えばニューラルネットワークを用いた画像処理としては、特許文献１や特許文献２で示される処理装置などがある。

特開２０１９－８７０７２号公報特開２０１８－３８７８９号公報

機械学習を用いた画像処理に入力される画像データは通常ＲＧＢやＹＣｂＣｒなどである。しかし、例えばコンピュータグラフィックス等で作成された画像データや画像編集ソフトで作成された画像データは、ＲＧＢなどの色情報以外にαチャンネル（α値）を有しているものが存在する。

αチャンネルは、一般的には画素の不透明度を表現している画像補助データである。例えば、αチャンネルが［０～１］の値域の場合、０で完全透明、１で完全不透明となる。このα値を例えば８ビットで表現すると、完全透明の画素は０、完全不透明の画素は２５５である。一方、ＲＧＢデータを８ビットで表現する場合、色成分はα値と同じく０～２５５の値となるが、色成分が強いほど大きい値をとる。

したがって、αチャンネルのデータは人の感覚的には反転したような画像データとなる場合が多い。例えば、図１４（ａ）に示すように、白地に黒色で画像を表現する場合を想定する。この場合、表現されるオブジェクト（図においては「αチャンネル」の文字に相当する部分）のデータは（Ｒ０，Ｇ０，Ｂ０）である。一方、オブジェクト以外のベース部分のデータは（Ｒ２５５、Ｇ２５５、Ｂ２５５）となる。なお、画像データをＹＣｂＣｒで表現する場合にも、オブジェクトのデータの輝度は０、ベース部分の輝度は２５５である。

一方、同じ画像をα値で表現すると、図１４（ｂ）に示すように表現されるオブジェクト（図においては「αチャンネル」の文字に相当する部分）の画素のデータが２５５（不透明）、オブジェクト以外のベース部分の画素のデータは０（透明）となる。したがって、αチャンネルのデータは人の感覚的に反転した画像データと受け止められる。なお、ベース部分の透明となる部分はデータ値が０であるため、説明上黒色で表現している。

従来、αチャンネル付き画像は機械学習の素材として利用されてこなかった。そのため、αチャンネル付き画像が機械学習の対象となった場合にはαチャンネルを無視し、画像データのみを学習するか、または、α値と画素データ（ＲＧＢ等）値とを分離し、α値はグレースケール用の１チャンネルの機械学習モデルを利用して学習・推論し、画素データは例えば３チャンネルの機械学習モデルを利用して学習・推論を行うのが一般的である。或いはα値を複数チャンネル分、例えば、３チャンネル分コピーし、画素データを学習・推論する機械学習モデルに入力する方法も用いられている。

しかしながら、αチャンネルのデータは前述したように人の感覚的に反転した画像であり、またデータの数値的にも通常の画像データとは異なる出現傾向を有する。例えば、文字と背景における画素値（輝度値）とα値の出現頻度は図１５に示すように反転した特性となる傾向がある。すなわち、白地に黒色で表現する場合、文字に相当する部分の輝度値は０近辺のデータの出現頻度が高く、背景の輝度値は２５５近辺のデータの出現頻度が高い。一方、α値については文字に相当する部分のα値は２５５近辺のデータの出現頻度が高く、背景のα値は０近辺のデータの出現頻度が高くなる。

このように特性が反転したαチャンネルのデータをグレースケール用の１チャンネルの機械学習モデルや画素データを用いて学習した画素データ用の機械学習モデルに入力し、推論しても処理後の画質が落ちるという課題がある。さらに上記特許文献に示される画像処理においても、αチャンネルにおけるこのような性質は考慮されていない。

本発明は、上記課題に鑑みてなされたものであり、畳み込みニューラルネットワークなどの機械学習による画像処理において、αチャンネル付き画像の効率的な処理を実現できる学習装置及び推論装置を提供することを目的とする。

本発明の学習装置は、所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習装置であって、学習用画像データの各チャンネルのうち少なくとも一部のチャンネルのデータを反転させる反転部と、反転されたデータを機械学習モデルに入力する入力部と、機械学習モデルから出力されたデータを反転させたデータと教師データとを比較可能、または／および、機械学習モデルから出力されたデータと教師データを反転させたデータとを比較可能な出力部と、比較の結果に応じて、設定値を学習する学習処理実行部とを具備することを特徴とする。

本発明によれば、畳み込みニューラルネットワークなどの機械学習による画像処理において、αチャンネル付き画像の効率的な処理を実現できる学習装置及び推論装置を提供することができる。

本発明係る画像処理装置の構成を示すブロック図である。本発明の実施の形態１に係る画像処理装置の機能ブロック図である。機械学習の全体フローを示す図である。実施の形態１における機械学習の詳細フローを示す図である。本発明の実施の形態２に係る画像処理装置の機能ブロック図である。実施の形態２における機械学習の詳細フローを示す図である。本発明の実施の形態３に係る画像処理装置の機能ブロック図である。実施の形態３における機械学習の詳細フローを示す図である。図２および図７に示した機械学習モデルの推論時における機能ブロック図である。図９に示した機械学習モデルの推論時のフローを示す図である。図５に示した機械学習モデルの推論時における機能ブロック図である。図１１に示した機械学習モデルの推論時のフローを示す図である。同上変形例に係る画像処理装置におけるαチャンネルの遷移を示すイメージ図である。 αチャンネルの一例を示す参考図である。画像データとαチャンネルデータにおける出現頻度傾向を示す図である。

（実施の形態１）
本発明の実施の形態１に係る画像処理装置について図１乃至図３を参照して説明する。本実施の形態１において、画像処理装置は、αチャンネル付き画像データなどの所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習装置、及び機械学習モデルを用いて対象画像データに対して所定の推論処理を実行する推論装置の少なくとも一方としての機能を発揮する。

なお、αチャンネル（alpha channel）とは画像処理分野において、各ピクセルに対し色表現のデータとは別に持たせた画像補助データのことであり、一般に画素の不透明度を表現するものである。αチャンネルは、画像のマスク、複数画像の合成などに使われている。

＜画像処理装置＞
最初に、画像処理装置１に備わる各処理部に関して図１を参照しながら説明する。画像処理装置１は、図１に示すように、制御部１０、画像処理部１１、記憶部１２、通信部１３、表示部１４、操作部１５及び読取部１６を備える。なお、画像処理装置１及び画像処理装置１における動作について以下では、１台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。

制御部１０は、ＣＰＵなどのプロセッサやメモリを用いて、装置の構成部を制御して各種機能を実現する。画像処理部１１は、ＧＰＵ又は専用回路等のプロセッサ及びメモリを用い、制御部１０からの制御指示に応じて画像処理を実行する。なお、制御部１０及び画像処理部１１は、ＣＰＵ，ＧＰＵ等のプロセッサ、メモリ、さらには記憶部１２及び通信部１３を集積した１つのハードウェア（ＳｏＣ：System on a Chip）として構成されていてもよい。

記憶部１２は、ハードディスクやフラッシュメモリを用いる。記憶部１２には、画像処理プログラム１Ｐ、機械学習モデル（例えばＣＮＮ）としての機能を発揮させる機械学習ライブラリ１Ｌが記憶されている。また、記憶部１２には、機械学習モデルを定義する定義データ、学習済み機械学習モデルにおける設定値等を含むパラメータなどが記憶される。
通信部１３は、インターネット等の通信網への通信接続を実現する通信モジュールである。通信部１３は、ネットワークカード、無線通信デバイス又はキャリア通信用モジュールを用いる。

表示部１４は、液晶パネル又は有機ＥＬ（Electro Luminescence）ディプレイ等を用いる。表示部１４は、制御部１０の指示による画像処理部１１での処理によって画像を表示することが可能である。

操作部１５は、キーボード又はマウス等のユーザインタフェースを含む。筐体に設けられた物理的ボタンを用いてもよい。及び表示部１４に表示されるソフトウェアボタン等を用いてもよい。操作部１５は、ユーザによる操作情報を制御部１０へ通知する。

読取部１６は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体２に記憶してある画像処理プログラム２Ｐ、及び機械学習ライブラリ３Ｌを読み取ることが可能である。記憶部１２に記憶してある画像処理プログラム１Ｐ及び機械学習ライブラリ１Ｌは、記録媒体２から読取部１６が読み取った画像処理プログラム２Ｐ及び機械学習ライブラリ３Ｌを制御部１０が記憶部１２に複製したものであってもよい。

＜学習時の画像処理機能＞
次に、画像処理装置１の機能に関して図面を参照しながら説明する。なお、画像データは３チャンネルで、ＲＧＢを例に挙げて説明するが、ＹＣｂＣｒ等、他の画像データ形式のものであっても良い。

＜＜αチャンネルを持たない画像データによる学習：実施形態１＞＞
図２は本実施の形態１に係る画像処理装置の機能ブロックを示す図あり、図３は機械学習の全体フローを示す図、図４は実施の形態１における機械学習の詳細フローを示す図である。

まず、画像処理装置１の制御部１０は学習処理実行部１０１を備える。学習処理実行部１０１は、記憶部１２に記憶してある機械学習ライブラリ１Ｌ、定義データ、パラメータ情報に基づき、画像処理部１１に入力部１１１、第一機械学習モデル１１３、第二機械学習モデル１１５、出力部１１７の機能を構成する。また入力部１１１及び出力部１１７には第一チャンネル数調整部１１９、色反転部１２１の機能が含まれている。なお、第一機械学習モデル１１３及び第二機械学習モデル１１５を総称し、「機械学習モデル」と称することがある。

学習処理実行部１０１は、学習対象の機械学習モデルを用い、学習用画像データに基づいて、学習対象の機械学習モデルにおける設定値（パラメータ等）を学習する処理を実行する（図３、ステップＳ１１）。

ステップＳ１１における機械学習の詳細を図４に基づき説明する。画像処理部１１の入力部１１１は学習用画像の入力画像データ（例えば、ＲＧＢデータ）を受け付け（ステップＳ１０１）、入力画像データの画素データを第一機械学習モデル１１３に供給し、機械学習を行う（ステップＳ１０２）。第一機械学習モデル１１３がＣＮＮとなる場合には、定義データにより定義される複数段の畳み込み層及びプーリング層と、全結合層とを含んでもよい。この構成によれば、第一機械学習モデル１１３において入力画像データの特徴量が取り出され、取り出された特徴量に基づいて画像加工処理が実行され、画像加工処理結果が学習結果（出力画像データ）として出力部１１７に出力される（ステップＳ１０３）。

出力部１１７は、第一機械学習モデル１１３から入力した画像加工処理結果と、教師データである画像データとを比較する（ステップＳ１０４）。また、出力部１１７は、比較結果に基づき第一機械学習モデル１１３のパラメータを設定する（ステップＳ１０５）。このパラメータの設定は、例えばパラメータをミニバッチ勾配降下法で更新するなど入力データと解答データとの差分を最小化する処理である。更新された設定値は、記憶部１２に格納される（ステップＳ１０６）。

その後、学習処理実行部１０１は色反転データが学習済みか否かを判定する（ステップＳ１０７）。色反転データの学習が行われていない場合（ステップＳ１０７でＮｏ）、学習処理実行部１０１は、入力した画素データを第一チャンネル数調整部１１９で１チャンネルにまとめる（ステップＳ１０８）。学習処理実行部１０１は、１チャンネルにまとめられた画素データを色反転部１２１で色反転させる（ステップＳ１０９）。色反転した画素データは第二機械学習モデル１１５に入力される（ステップＳ１１０）。その後、当該画像データを用いて第二機械学習モデル１１５で機械学習が実行され、機械学習の結果が出力される（ステップＳ１１１、Ｓ１１２）。

第一チャンネル数調整部１１９は３チャンネルのデータを１チャンネルにまとめる機能を有する。具体的には、第一チャンネル数調整部１１９は、入力画像データがＲＧＢの場合、赤色（Ｒ）画素の画素データ（画素値）、緑色（Ｇ）画素の画素データおよび青色（Ｂ）画素の画素データの３つのデータの最大値と最小値との平均値を１チャンネルのデータとする。あるいは、入力画像データがＹＣｂＣｒの場合、画素データの輝度値Ｙが、色反転部１２１に入力するデータとして採用される。またＲＧＢデータから輝度値Ｙを算出し、その輝度値を利用してもよい。

色反転部１２１は階調を反転させる処理を行う。例えば、入力するデータが８ｂｉｔの整数で表現されている場合は、ビットを反転させる処理を行ってもよいし、階調の最大値（２５５や１など）から画素値を差し引いた差分を求めてもよい。

第二機械学習モデル１１５から出力された処理結果は、出力部１１７に供給される。出力部１１７は、教師データの画素データを用い、第一チャンネル数調整部１１９及び色反転部１２１を介して得られた第二機械学習モデル１１５用の教師データを生成する。出力部１１７は、該教師データと第二機械学習モデル１１５の出力とを比較し（ステップＳ１１３）、第二機械学習モデル１１５のパラメータを設定すると共に記憶部１２のパラメータを更新する（ステップＳ１１５、ステップＳ１０６）。

その後、学習処理実行部１０１は色反転データの学習済みか否かを判定し、色反転データの学習が終了している場合（ステップＳ１０７でＹｅｓ）は図２におけるステップＳ１１の機械学習を終了する。ステップＳ１１を実行した後に、学習処理実行部１０１は、全ての入力画像データの学習が終了したか否かを判断する（図３、ステップＳ１２）。

全ての入力画像データの学習が終了していない場合（ステップＳ１２でＮｏ）、次の入力画像データについて前述した学習処理を行い、機械学習モデルのパラメータ調整を実施する。一方、全ての入力画像データについて学習が終了した場合（ステップＳ１２でＹｅｓ）には学習を終了する。

なお、上記説明では第二機械学習モデル１１５の教師データとして、教師データである画像データをチャンネル数調整後に色反転したものを用いた。しかし、教師データとして用いる画像データを各々色反転させ、その後、チャンネル数調整で１個のデータにまとめて第二機械学習モデル１１５に教師データとして入力してもよい。

＜＜αチャンネルを持つ画像データによる学習１：実施形態２＞＞
次にαチャンネルを持つ画像データによる学習について、図３、図５及び図６を用いて説明する。図５は本実施の形態２に係る画像処理装置の機能ブロックを示す図、図６は実施の形態２における画像処理装置の学習動作時の動作を示すフローチャートである。上記実施の形態１に係る画像処理装置１と同様の構成については同様の符号を付し、その詳細な説明は省略する。

画像処理装置１の制御部１０は学習処理実行部１０１を備える。学習処理実行部１０１は、記憶部１２に記憶してある機械学習ライブラリ１Ｌ、定義データ、パラメータ情報に基づき、画像処理部１１に入力部１１１、機械学習モデル１１３、出力部１１７の機能を構成する。また入力部１１１には第二チャンネル数調整部１２０、αチャンネル判定部１３１、α値反転部１３３の機能が含まれる。出力部１１７には第一チャンネル数調整部１１９、α値反転部１３３の機能が含まれる。

学習処理実行部１０１は、学習対象の第一機械学習モデル１１３を用いて、学習用画像データに基づいて、学習対象の機械学習モデルにおける設定値（パラメータ等）を学習する処理を実行する（ステップＳ１１）。

ステップＳ１１における機械学習の詳細を図６に基づき説明する。画像処理部１１の入力部１１１は記憶部１２から入力した学習用入力画像データ（例えば、ＲＧＢデータ）を受け付ける（ステップＳ１２０）。αチャンネル判定部１３１は、入力された画像データにαチャンネルが含まれるか否か判定する（ステップＳ１２１）。αチャンネルの判定は、例えば画像データのヘッダ部の情報や識別子を読み込むことにより画像データがαチャンネル付き画像か否かを判定すれば良い。

入力画像データにαチャンネルが含まれる場合（ステップＳ１２１でＹｅｓ）にはαチャンネルのデータ（α値）を分離してＲＧＢの画素データを第一機械学習モデル１１３に入力し、機械学習を行う（ステップＳ１２２、１２３、Ｓ１２４）。なお、入力画像データにαチャンネルが含まれていない場合（ステップＳ１２１でＮｏ）、そのままＲＧＢの画素データを第一機械学習モデル１１３に入力する（ステップＳ１２３、Ｓ１２４）。

その後、第一機械学習モデル１１３で機械学習を行い、機械学習モデル出力を出力部１１７に出力する（ステップＳ１２４、Ｓ１２５）。出力部１１７では第一機械学習モデル１１３からの出力と記憶部１２に格納された教師データである画像データとを比較し、比較結果に基づいて第一機械学習モデル１１３のパラメータを設定し、記憶部１２のパラメータを更新する（ステップＳ１２６、Ｓ１２７、Ｓ１２８）。

一方、入力画像にαチャンネルを含む場合（ステップＳ１２９でＹｅｓ）、ステップＳ１２２で分離されたαチャンネルのデータは、入力部１１１のα値反転部１３３に入力され（ステップＳ１３０）反転される（ステップＳ１３１）。反転したα値は、入力部１１１の第二チャンネル数調整部１２０に入力され、チャンネル数が調整される（ステップＳ１３２）。

α値反転部１３３によるα値の反転は、例えば、α値を８ビットで表現している場合、入力α値をα１とすると、反転α値＝２５５－α１とすれば良い。また第二チャンネル数調整部１２０によるチャンネル数の調整は、本実施形態のように画像データをＲＧＢの３チャンネルで機械学習する場合には反転したα値を３チャンネル分に増やす。第二チャンネル数調整部１２０からの出力データを用いて第一機械学習モデル１１３にて学習が実行される（ステップＳ１３３）。

入力部１１１の第二チャンネル数調整部１２０から第一機械学習モデル１１３に入力するデータは同じデータが各チャンネルに入力されるので、基本的には同じ結果が第一機械学習モデル１１３から出力部１１７に出力される。したがって、出力部１１７の第一チャンネル数調整部１１９は、第一機械学習モデル１１３のいずれかのチャンネルから出力されたデータを選択するか、もしくは各チャンネルから出力されるデータの平均値を出力部１１７のα値反転部１３３に供給する（ステップＳ１３４、Ｓ１３５）。出力部１１７のα値反転部１３３（再反転部）は、入力したデータを再反転させる（ステップＳ１３６）。

出力部１１７は、α値反転部１３３より供給されたデータと記憶部１２に格納されたαチャンネルの教師データとを比較し（ステップＳ１３７）、比較結果に基づいてパラメータ設定をする（ステップＳ１３８）。その後、記憶部１２のパラメータが更新される（ステップＳ１３９）。全ての入力画像データについて機械学習（図３、ステップＳ１１）が終了したか否かを判断し（図３、ステップＳ１２）、終了していない場合（図３、ステップＳ１２でＮｏ）には次の入力画像についての学習を行い、終了している場合（図３、ステップＳ１２でＹｅｓ）には学習を終了する。

第一機械学習モデル１１３がＣＮＮとなる場合には、定義データにより定義される複数段の畳み込み層及びプーリング層と、全結合層とを含んでもよい。この構成では、第一機械学習モデル１１３において入力画像データの特徴量を取り出し、取り出された特徴量に基づいて学習する。

本実施の形態においては、ＲＧＢ等の画像データはそのまま第一機械学習モデル１１３に入力し、αチャンネルのデータはその値を反転し、かつチャンネル数を調整してから第一機械学習モデル１１３に入力する。したがって、画素データとαチャンネルのデータ（α値）との出現頻度が反転するものであっても、同様の性質のデータに変換され学習が行われるので、学習効率が向上する。

なお、上記実施の形態では反転したα値を第一機械学習モデル１１３に入力した際、第一機械学習モデル１１３の出力をチャンネル調整及びα値反転し、教師データであるαチャンネルデータと比較した。しかし、チャンネル数調整やα値の反転を出力部１１７に供給される教師データに対して行っても良い。この構成では、第一機械学習モデル１１３の出力をα値反転する必要がないため、出力部１１７のα値反転部１３３が省略できる。

例えば、教師データであるαチャンネルデータをα値反転部１３３で反転し、該反転したデータを３チャンネル分に増やし、該３チャンネルのデータと第一機械学習モデル１１３の出力とを比較するよう構成しても良い。さらに、記憶部１２に記憶されたαチャンネルデータを、α値反転部１３３で反転し、教師データとしてもよい。この構成では、第一機械学習モデル１１３から出力された３チャンネルのデータが１チャンネルにまとめられ、教師データと比較される。

＜＜αチャンネルを持つ画像データによる学習２：実施形態３＞＞
次にαチャンネルを持つ画像データによる学習を行う他の実施の形態について図３、図７、図８を用いて説明する。

図７は本実施の形態３に係る画像処理装置の機能ブロックを示す図、図８は実施の形態３における画像処理装置の学習動作時の動作を示すフローチャートである。上記実施の形態１、２に係る画像処理装置１と同様の構成については同様の符号を付し、その詳細な説明は省略する。

画像処理装置１の制御部１０は学習処理実行部１０１を備える。学習処理実行部１０１は、記憶部１２に記憶してある機械学習ライブラリ１Ｌ、定義データ、パラメータ情報に基づき、画像処理部１１に入力部１１１、第一機械学習モデル１１３、第二機械学習モデル１１５、出力部１１７の機能を構成する。また入力部１１１には第一チャンネル数調整部１１９、第二チャンネル数調整部１２０、色反転部１２１、αチャンネル判定部１３１、α値反転部１３３の機能が含まれる。出力部１１７には第一チャンネル数調整部１１９、第二チャンネル数調整部１２０、色反転部１２１、α値反転部１３３の機能が含まれている。

学習処理実行部１０１は、学習対象の機械学習モデル１１３、１１５を用いて、学習用画像データに基づいて、学習対象の機械学習モデルにおける設定値（パラメータ等）を学習する処理を実行する（図３、ステップＳ１１）。

ステップＳ１１における機械学習の詳細を図８に基づき説明する。画像処理装置１の画像処理部１１の入力部１１１は記憶部１２から入力した学習用入力画像データ（例えば、ＲＧＢデータ）を受け付ける（ステップＳ１５０）。αチャンネル判定部１３１は、入力した画像データにαチャンネルが含まれるか否か判定する（ステップＳ１５１）。αチャンネルの判定は、例えば画像データのヘッダ部の情報や識別子を読み込むことにより画像データがαチャンネル付き画像か否かを判定すれば良い。

入力画像データにαチャンネルが含まれる場合（ステップＳ１５１でＹｅｓ）にはαチャンネルのデータ（α値）を分離し、ＲＧＢの画素データを第一機械学習モデル１１３に入力し、機械学習を行う（ステップＳ１５２、Ｓ１５３、Ｓ１５４、Ｓ１５５）。なお、入力画像データにαチャンネルが含まれていない場合（ステップＳ１５１でＮｏ）、そのままＲＧＢの画素データが機械学習モデルに入力される。その後、第一機械学習モデル１１３で機械学習が実行され、機械学習モデル出力が出力部１１７に出力される（ステップＳ１５３、Ｓ１５４、Ｓ１５５、Ｓ１５６）。

出力部１１７は、第一機械学習モデル１１３からの出力と記憶部１２に格納された教師データである画像データとを比較する（ステップＳ１５７）。この比較結果に基づいて第一機械学習モデル１１３のパラメータが設定され（ステップＳ１５８）、記憶部１２のパラメータが更新される（ステップＳ１５９）。

また、抽出されたＲＧＢデータは第一チャンネル数調整部１１９で１チャンネルに集約され、その後、色反転部１２１で色データが反転され第二機械学習モデル１１５に入力する（ステップＳ１６０、Ｓ１６１、Ｓ１６２）。色反転されたデータは第二機械学習モデル１１５で機械学習が行われ、出力部１１７に第二機械学習モデル１１５の出力が供給される（ステップＳ１６３、Ｓ１６４、１６５）。出力部１１７ではデータが反転され（ステップＳ１６５）、反転されたデータが教師データと比較される（ステップＳ１５７）。また、この比較結果に基づいて第二機械学習モデル１１５のパラメータが設定され、記憶部１２のパラメータが更新される（ステップＳ１５８、Ｓ１５９）。この時用いられる教師データは記憶部１２に格納された画像データを第二チャンネル数調整部１２０でチャンネル数調整したものが用いられる。またステップＳ１６５の色データの反転を省略すると共に、教師データをチャンネル数調整及び色反転したものを用いることも可能である。

第一チャンネル数調整部１１９では入力したＲＧＢの画素データの最大値と最小値との平均値を１チャンネルのデータとしたり、あるいは入力画像データがＹＣｂＣｒの場合には画素データの輝度値Ｙを採用したりすることで行われる。またＲＧＢデータから輝度値Ｙを算出し、その輝度値を利用してもよい。このようにＲＧＢデータを用いて第一機械学習モデル１１３と第二機械学習モデル１１５のいずれも学習させることができる。

一方、ステップＳ１５２で分離されたαチャンネルのデータはα値反転部１３３で反転され、第二チャンネル数調整部１２０で３チャンネルに分けられ、第一機械学習モデル１１３に入力し、機械学習が行われる（ステップＳ１７０、Ｓ１７１、Ｓ１７２、Ｓ１７３）。

第一機械学習モデル１１３の出力は出力部１１７に供給され（ステップＳ１７４）、第一チャンネル数調整部１１９にて１チャンネルにまとめられる（ステップＳ１７５）。その後、１チャンネルにまとめられたデータは、出力部１１７のα値反転部１３３（再反転部）でデータ反転される（ステップＳ１７６）。出力部１１７ではα値反転部１３３からの出力と記憶部１２に格納された教師データであるαチャンネルデータとを比較する（ステップＳ１５７）。この比較結果に基づいて第一機械学習モデル１１３のパラメータが設定され（ステップＳ１５８）、記憶部１２のパラメータが更新される（ステップＳ１５９）。

さらに、ステップＳ１５２で分離されたαチャンネルのデータはそのまま第二機械学習モデル１１５に入力する（ステップＳ１８０）。αチャンネルデータを入力した第二機械学習モデル１１５は処理を行い、処理結果は出力部１１７に出力される（ステップＳ１８１、Ｓ１８２）。出力部１１７では第二機械学習モデル１１５からの出力と記憶部１２に格納された教師データであるαチャンネルデータとを比較し、比較結果に基づいて第二機械学習モデル１１５のパラメータを設定し、記憶部１２のパラメータを更新する（ステップＳ１５７、Ｓ１５８、Ｓ１５９）。

このように、画像データ、色反転画像データ、αチャンネルデータ、データ反転したαチャンネルデータを用いて学習し、かつ、データとその出現頻度の傾向が類似したものを同じ機械学習モデルに入力するので、効率良く学習を行うことができる。

なお、上記実施の形態では反転したα値を機械学習モデル１１３に入力した際、出力部１１７において機械学習モデル１１３の出力をチャンネル調整及びα値反転し、教師データであるαチャンネルデータと比較したが、チャンネル数調整やα値の反転は機械学習モデルの出力に対して行っても良いし、あるいは出力部１１７に供給される教師データに対して行っても良い。

すなわち、教師データであるαチャンネルデータをα値反転部１３３で反転し、該反転したデータを第二チャンネル数調整部１２０で３チャンネル分に増やし、該３チャンネルのデータと機械学習モデル１１３の出力とを比較するよう構成しても良い。さらに、機械学習モデル１１３の出力を出力部１１７の第一チャンネル数調整部１１９で調整し、１チャンネルのデータを得ると共に、教師データであるαチャンネルデータをα値反転部１３３で反転し、その反転した教師データと前記第一チャンネル数調整部１１９出力とを比較するよう構成しても良い。

本実施の形態１、２、３に係る画像処理装置１のハードウェア構成の内、通信部１３、表示部１４、操作部１５、及び読取部１６は必須ではない。通信部１３については、例えば記憶部１２に記憶される画像処理プログラム１Ｐ、及び機械学習ライブラリ１Ｌを外部サーバ装置から取得する場合に一旦使用された後は使用しない場合がある。読取部１６も同様に、画像処理プログラム１Ｐ、機械学習ライブラリ１Ｌを記憶媒体から読み出して取得した後は使用されない可能性がある。そして通信部１３及び読取部１６は、ＵＳＢ等のシリアル通信を用いた同一のデバイスであってもよい。

画像処理装置１がＷｅｂサーバとして、上述の各機能を、表示部及び通信部を備えるＷｅｂクライアント装置へ提供する構成としてもよい。この場合、通信部１３は、Ｗｅｂクライアント装置からのリクエストを受信し、処理結果を送信するために使用される。

学習時に用いる誤差は、二乗誤差、絶対値誤差、又は交差エントロピー誤差等、入出力されるデータ、学習目的に応じて適切な関数を用いるとよい。例えば、出力が分類である場合、交差エントロピー誤差を用いる。誤差関数を用いることに拘わらずその他の基準を用いるなど柔軟な運用が適用できる。この誤差関数自体に外部の機械学習モデルを用いて評価を行なってもよい。

＜推論時の画像処理機能＞
次に推論時の画像処理装置１の機能に関して図面を参照しながら説明する。なお、画像データは３チャンネルで、ＲＧＢを例に挙げて説明するが、ＹＣｂＣｒ等、他の画像データ形式のものであっても良い。

＜＜実施形態１・実施形態３の機械学習モデルを用いた推論＞＞
図９は図２および図７に示した機械学習モデルの推論時における機能ブロックを示した図、図１０はそのフローである。なお、前述した実施の形態における各機能と同じ機能ブロックは同じ符号を付す。

まず、画像処理装置１の制御部１０は推論処理実行部１０２を備える。推論処理実行部１０２は、記憶部１２に記憶してある機械学習ライブラリ１Ｌ、定義データ、パラメータ情報に基づき第一機械学習モデル１１３、第二機械学習モデル１１５として機能する。また入力部１１１、αチャンネル判定部１３１の機能を有すると共に、出力部１１７では画素データとαチャンネルとの統合を行うよう機能する。

画像処理装置１の画像処理部１１の入力部１１１は記憶部１２から入力した入力画像データ（例えば、ＲＧＢデータ）を受け付ける（ステップＳ２００）。αチャンネル判定部１３１は、受け付けられた画像データにαチャンネルが含まれるか否か判定する（ステップＳ２０１）。αチャンネルの判定は、例えば画像データのヘッダ部の情報や識別子を読み込むことにより画像データがαチャンネル付き画像か否かを判定すれば良い。入力画像データにαチャンネルが含まれる場合（ステップＳ２０１でＹｅｓ）にはαチャンネルのデータ（α値）が分離される（ステップＳ２０２）。その後、ＲＧＢの画素データが第一機械学習モデル１１３に入力され、機械学習モデルによる推論が実施される（ステップＳ２０３、Ｓ２０４）。なお、入力画像データにαチャンネルが含まれていない場合には（ステップＳ２０１でＮｏ）、そのままＲＧＢデータを第一機械学習モデルに入力し、推論が実施される（ステップＳ２０３、Ｓ２０４）。第一機械学習モデル１１３での推論結果は出力部１１７に出力される（ステップＳ２０５）。入力画像データにαチャンネルのデータが含まれない場合には出力部１１７で画像を形成し、画像データとして出力される（ステップＳ２０５、Ｓ２０６、Ｓ２０７）。

一方、入力画像データにαチャンネルのデータを含み、αチャンネルのデータが分離されている場合は（ステップＳ２０６でＹｅｓ）、α値が第二機械学習モデル１１５に入力し、推論が行われる（ステップＳ２０８、２０９）。第二機械学習モデル１１５での推論結果は出力部１１７に供給される（ステップＳ２１０）。出力部１１７では第一機械学習モデル１１３からの推論結果と第二機械学習モデル１１５からの推論結果を統合し、αチャンネル付きの画像データを生成する（ステップＳ２１１）。

この実施形態のように、反転したα値や画像データで学習した第一機械学習モデル１１３と反転した画像データやα値で学習した第二機械学習モデルを用い、画像データおよびαチャンネルの推論を行い、高精度なαチャンネル付き画像を生成することができる。

＜＜実施形態２の機械学習モデルを用いた推論＞＞
次に実施形態２の機械学習モデルを用いた推論について説明する。図１１は図５に示した機械学習モデルの推論時における機能ブロックを示した図であり、図１２はそのフローである。また、図１３はαチャンネルの推論処理における遷移を示すイメージ図であり、入力データの解像度を上げる処理を例示している。図５と図１１とを対比すると、推論時は制御部１０が学習処理実行部１０１に替えて推論処理実行部１０２を具備する点で学習時と相違する。また、推論時は、出力部１１７が画像データとαチャンネルの統合を行う機能を備えている点、および、出力部１１７に第二チャンネル数調整部を備えない点で学習時と異なり、他の機能は学習時と略同じである。

まず、画像処理部１１の入力部１１１に画像データが入力すると（ステップＳ２２０）、αチャンネル判定部１３１が入力データにαチャンネルが含まれるか否かを判定する（ステップＳ２２１）。αチャンネルを含む場合（ステップＳ２２１でＹｅｓ）には入力データからαチャンネルが分離される（Ｓ２２２）。入力画像データの画素データは機械学習モデル１１３に入力し、機械学習モデルで推論が行われ、その推論結果が出力部１１７に供給される（ステップＳ２２３、Ｓ２２４、Ｓ２２５）。なお、入力画像データにαチャンネルが含まれていない場合（ステップＳ２２１でＮｏ）、そのままＲＧＢの画素データを機械学習モデルに入力し推論が行われ、機械学習モデル１１３から推論結果が出力される（ステップＳ２２３、Ｓ２２４、Ｓ２２５）。入力画像データにαチャンネルを含まない場合（ステップＳ２２６でＮｏ）、推論結果に基づき、出力部１１７で画像データが生成される（ステップＳ２２７）。

一方、入力画像データにαチャンネルを含む場合（ステップＳ２２６でＹｅｓ）、ステップＳ２２２で分離したαチャンネルのデータをα値反転部１３３にて反転する（ステップＳ２２８、Ｓ２２９）。反転されたデータは、第二チャンネル数調整部１２０で３チャンネル分に増加され、機械学習モデル１１３に入力し、機械学習（推論）が行われる（ステップＳ２３０、Ｓ２３１）。

機械学習モデル１１３の推論結果は第一チャンネル数調整部１１9で１チャンネルにまとめられ、さらにα値反転部１３３でデータ反転された後に出力部１１７に供給される（ステップＳ２３２、Ｓ２３３、Ｓ２３４）。出力部１１７ではＲＧＢの画素データを用いて第一機械学習モデル１１３で推論した結果と、α値反転部１３３より出力されたα値とを統合し、出力画像データを生成する（ステップＳ２３５）。

このように単一の機械学習モデルを用いる場合であっても、α値を反転し、チャンネル数を調整して機械学習モデルで推論するので、α値を含む入力画像についても高精度に機械学習（推論）を行うことができる。また本実施の形態に用いる機械学習モデルは学習時にα値反転したデータで学習したものである必要はなく、通常の画素データのみで学習したものを用いることもできる。すなわち、推論時にαチャンネルデータを反転させると共に、チャンネル数調整して機械学習モデルに入力するので、αチャンネルのデータであっても画素データで学習した機械学習モデルで推論することができる。

なお、本発明は、上記実施の形態の構成に限られず、発明の趣旨を変更しない範囲で種々の変形が可能である。また、本発明の目的を達成するために、本発明は、画像処理装置（学習装置及び推論装置）に含まれる特徴的な構成手段をステップとする画像処理方法（学習方法及び推論方法）としたり、それらの特徴的なステップを含むプログラムとして実現することもできる。そして、そのプログラムは、ＲＯＭ等に格納しておくだけでなく、ＵＳＢメモリ等の記録媒体や通信ネットワークを介して流通させることもできる。

また、本発明は、画像処理装置又はコンピュータプログラムに向けて入力データを送信し、画像処理装置又はコンピュータプログラムからの出力データを受信して利用するコンピュータシステムとしても実現できる。このシステムは、上述の処理により学習済みの機械学習モデルから得られるデータを利用した処理システムで、種々のサービスを提供できる。本システムに用いる装置は、表示部及び通信部を備えた画像処理装置又はコンピュータと情報を送受信できる情報処理装置などであり、例えば所謂ＰＣ、スマートフォン、携帯端末、ゲーム機器などである。

＜実施形態の態様例の作用、効果のまとめ＞
＜第１態様＞
本態様の学習装置は、所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習装置であって、学習用画像データの各チャンネルのうち少なくとも一部のチャンネルのデータ（色データ、α値）を反転させる反転部（色反転部１２１、α値反転部１３３）と、反転されたデータを機械学習モデル（第一機械学習モデル１１３、第二機械学習モデル１１５）に入力する入力部（１１１）と、機械学習モデルから出力されたデータを反転させたデータと教師データとを比較可能、または／および、機械学習モデルから出力されたデータと教師データを反転させたデータとを比較可能な出力部（１１７）と、比較の結果に応じて、設定値を学習する学習処理実行部（１０１）とを具備することを特徴とする。

仮に、各画素の画素値の大きさの傾向が、色データとα値とで反転する場合を想定する（実施形態と同様）。第１態様によれば、例えば、学習用画像データに含まれる色データを反転することにより、当該反転した色データに基づいて、推論時にα値が入力される機械学習モデル（第二機械学習モデル１１５）を学習可能である（図２の具体例および図７の具体例を参照）。また、第１態様によれば、学習用画像データに含まれるα値を反転することにより、当該反転したα値に基づいて、推論時に色データが入力される機械学習モデル（第一機械学習モデル１１３）を学習可能である（図５の具体例および図７の具体例を参照）。したがって、効率的な機械学習が可能になる。

＜第２態様＞
本態様の学習装置は、反転部（α値反転部１３３）は、学習用画像データの各チャンネルのうちαチャンネルのデータ（α値）を反転することを特徴とする。本態様によれば、各画素の画素値の大きさの傾向が色データとα値とで反転する場合において、学習用画像データに含まれるα値を反転することにより、当該反転したα値に基づいて、推論時に色データが入力される機械学習モデル（第一機械学習モデル１１３）を学習可能である（図５の具体例および図７の具体例を参照）。したがって、効率的な機械学習が可能になる。

＜第３態様＞
本態様の学習装置は、機械学習モデルは画素データ（色データ）および／または反転したαチャンネルのデータ（α値）を学習する第一機械学習モデル（１１３）と、色反転した画素データおよび／またはαチャンネルのデータを学習する第二機械学習モデル（１１５）のいずれか一方或いは両方とからなることを特徴とする。本態様によれば、例えば、第二機械学習モデルが設けられない構成と比較して、α値に対して適当な推論処理が実行できるという利点がある。

＜第４態様＞
本態様の推論装置は、機械学習モデルを用いて所定の推論処理を実行する推論装置であって、対象画像データの各チャンネルのうちαチャンネルのデータ（α値）を反転させる反転部（α値反転部１３３）と、反転されたデータを機械学習モデル（第一機械学習モデル１１３）に入力する入力部（１１１）と、機械学習モデルに入力されたデータに対して推論処理を実行する推論処理実行部（１０２）と、推論処理が実行されたデータを反転させる再反転部（α値反転部１３３）とを具備することを特徴とする。

仮に、各画素の画素値の大きさの傾向が色データとα値とで反転する場合を想定する（上述の実施形態と同様）。第４態様によれば、学習用画像データに含まれるα値を反転することにより、色データが入力される機械学習モデルを用いて、当該反転したα値に対して推論処理が実行できる。すなわち、α値用の機械学習モデルを設けなくても、色データおよびα値の双方に対して適当な推論処理が実行され易くなるという利点がある。

＜第５態様＞
本態様の学習方法は、機械学習モデルにおける設定値の学習方法であって、所定の学習用画像データの各チャンネルのうち少なくとも一部のチャンネルのデータを反転させ（図４のＳ１０９、図６のＳ１３１、図８のＳ１６１、図８のＳ１７０）、反転されたデータを機械学習モデルに入力し（図４のＳ１１０、図６のＳ１３３、図８のＳ１６２、図８のＳ１７２）、機械学習モデルから出力されたデータを反転させたデータと教師データとを比較（図４のＳ１１３、図８のＳ１６５、図８のＳ１７６）、または／および、機械学習モデルから出力されたデータと教師データを反転させたデータとを比較（図６のＳ１３７）し、比較の結果に応じて、設定値を学習する（図４のＳ１１４、図６のＳ１３８、図８のＳ１５８）ことを特徴とする。本態様によれば、第１態様と同様な効果が奏せられる。

＜第６態様＞
本態様のプログラムは、所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習装置のコンピュータを、学習用画像データの各チャンネルのうち少なくとも一部のチャンネルのデータ（色データまたはα値）を反転させる反転部（α値反転部１３３、色反転部１２１）と、反転されたデータを機械学習モデル（第一機械学習モデル１１３、第二機械学習モデル１１５）に入力する入力部（１１１）と、機械学習モデルから出力されたデータを反転させたデータと教師データとを比較可能、または／および、機械学習モデルから出力されたデータと教師データを反転させたデータとを比較可能な出力部（１１７）と、比較の結果に応じて、設定値を学習する学習処理実行部（１０１）として機能させることを特徴とする。本態様によれば、第１態様と同様な効果が奏せられる。

＜第７態様＞
本態様の推論装置は、機械学習モデルを用いて所定の推論処理を実行する推論方法であって、対象画像データの各チャンネルのうちαチャンネルのデータ（α値）を反転させ（図１２のＳ２２９）、反転されたデータを機械学習モデル（第一機械学習モデル１１３）に入力し、機械学習モデルに入力されたデータに対して推論処理を実行し（図１２のＳ２３１）、推論処理が実行されたデータを反転させる（図１２のＳ２３４）ことを特徴とする。本態様によれば、第４態様と同様な効果が奏せられる。

＜第８態様＞
本態様のプログラムは、機械学習モデルを用いて所定の推論処理を実行する推論装置のコンピュータを、対象画像データの各チャンネルのうちαチャンネルのデータ（α値）を反転させる反転部（α値反転部１３３）と、反転されたデータを機械学習モデル（第一機械学習モデル１１３）に入力する入力部（１１１）と、機械学習モデルに入力されたデータに対して推論処理を実行する推論処理実行部（１０２）と、推論処理が実行されたデータを反転させる再反転部（α値反転部１３３）として機能させることを特徴とする。本態様によれば、第４態様と同様な効果が奏せられる。

１画像処理装置（学習装置及び推論装置）
１２記憶部
１０１学習処理実行部
１０２推論処理実行部
１１１入力部
１１３第一機械学習モデル
１１５第二機械学習モデル
１１７出力部
１１９第一チャンネル数調整部
１２０第二チャンネル数調整部
１２１色反転部
１３１ αチャンネル判定部
１３３ α値反転部

Claims

所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習装置であって、
前記学習用画像データの各チャンネルのうち少なくとも一部のチャンネルのデータを反転させる反転部と、
前記反転されたデータを前記機械学習モデルに入力する入力部と、
前記機械学習モデルから出力されたデータを反転させたデータと教師データとを比較可能、または／および、前記機械学習モデルから出力されたデータと教師データを反転させたデータとを比較可能な出力部と、
前記比較の結果に応じて、前記設定値を学習する学習処理実行部と
を具備することを特徴とする学習装置。
前記反転部は、前記学習用画像データの各チャンネルのうちαチャンネルのデータを反転することを特徴とする請求項１に記載の学習装置。
前記機械学習モデルは画素データおよび／または反転したαチャンネルのデータを学習する第一機械学習モデルと、
色反転した画素データおよび／またはαチャンネルのデータを学習する第二機械学習モデルのいずれか一方或いは両方とからなることを特徴とする請求項１または２に記載の学習装置。
機械学習モデルを用いて所定の推論処理を実行する推論装置であって、
対象画像データの各チャンネルのうちαチャンネルのデータを反転させる反転部と、
前記反転されたデータを前記機械学習モデルに入力する入力部と、
前記機械学習モデルに入力されたデータに対して前記推論処理を実行する推論処理実行部と、
前記推論処理が実行されたデータを反転させる再反転部と
を具備することを特徴とする推論装置。
機械学習モデルにおける設定値の学習方法であって、
所定の学習用画像データの各チャンネルのうち少なくとも一部のチャンネルのデータを反転させ、
前記反転されたデータを前記機械学習モデルに入力し、
前記機械学習モデルから出力されたデータを反転させたデータと教師データとを比較、または／および、前記機械学習モデルから出力されたデータと教師データを反転させたデータとを比較し、
前記比較の結果に応じて、前記設定値を学習する
ことを特徴とするコンピュータにより実現される学習方法。
所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習装置のコンピュータを、
前記学習用画像データの各チャンネルのうち少なくとも一部のチャンネルのデータを反転させる反転部と、
前記反転されたデータを前記機械学習モデルに入力する入力部と、
前記機械学習モデルから出力されたデータを反転させたデータと教師データとを比較可能、または／および、前記機械学習モデルから出力されたデータと教師データを反転させたデータとを比較可能な出力部と、
前記比較の結果に応じて、前記設定値を学習する学習処理実行部として機能させることを特徴とするプログラム。
機械学習モデルを用いて所定の推論処理を実行する推論方法であって、
対象画像データの各チャンネルのうちαチャンネルのデータを反転させ、
前記反転されたデータを前記機械学習モデルに入力し、
前記機械学習モデルに入力されたデータに対して前記推論処理を実行し、
前記推論処理が実行されたデータを反転させる
ことを特徴とするコンピュータにより実現される推論方法。
機械学習モデルを用いて所定の推論処理を実行する推論装置のコンピュータを、
対象画像データの各チャンネルのうちαチャンネルのデータを反転させる反転部と、
前記反転されたデータを前記機械学習モデルに入力する入力部と、
前記機械学習モデルに入力されたデータに対して前記推論処理を実行する推論処理実行部と、
前記推論処理が実行されたデータを反転させる再反転部として機能させることを特徴とするプログラム。