JP2022067858A

JP2022067858A - 学習済みモデル及びデータ処理装置

Info

Publication number: JP2022067858A
Application number: JP2020176698A
Authority: JP
Inventors: 龍佑野坂; Ryusuke Nosaka
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2022-05-09
Anticipated expiration: 2040-10-21
Also published as: JP7543080B2

Abstract

【課題】対象データの質に応じたデータ処理が可能となり、様々な質劣化がありうる環境での処理精度の向上が可能となるようにする。【解決手段】データ用入力層４９Ａは、対象データを取得し、データ用中間層４９Ｂは、データ用入力層４９Ａの出力と、質推定器４８から出力された前記対象データの質に関するパラメータとが入力され、データ用出力層４９Ｃは、データ用中間層４９Ｂの出力が入力され、前記対象データの処理結果を出力する。データ処理器４９に、対象データ及び質推定器４８から出力された当該対象データの質に関するパラメータを入力することで前記対象データの処理を行う。【選択図】図４

Description

本発明は、対象データの処理結果を出力するための学習済みモデル及びデータ処理装置に関する。

画像から所定の対象物を認識する技術として、非特許文献１のようなＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ）を用いた手法がある。非特許文献１はＣＮＮを用い、画像に写る対象物の位置・大きさ、種別などを推定する。

Ren, Shaoqing, et al. "Faster R-CNN: towards real-time object detection with region proposal networks." IEEE transactions on pattern analysis and machine intelligence 39.6 (2017): 1137-1149.

非特許文献１のような手法では、学習に用いる画像は高画質で撮影されており、入力画像にブロックノイズ、ピンボケなどの画質劣化があると認識性能が低下する問題がある。その対応策として、学習に用いる画像にノイズを加え、入力画像で想定される画質劣化と同様の画質劣化を再現することが考えられる。一方で多種多様なカメラや設置状況において認識処理をする場合、それぞれで異なる画質劣化が発生するため、非常に幅広いノイズとして数多くの種類のノイズを付与して学習することになり、単一のＣＮＮだけではカバーしきれず、認識性能が低下する問題があった。

そこで、本発明では、上記問題を鑑みてなされたものであり、対象データの質に応じたデータ処理が可能となり、様々な質劣化がありうる環境での処理精度の向上が可能となる学習済みモデル及びデータ処理装置を提供することを目的とする。

上記の目的を達成するために第１の発明に係る学習済みモデルは、対象データを取得するデータ用入力手段、前記データ用入力手段の出力と、前記対象データの質を推定するための質推定部から出力された前記対象データの質に関するパラメータとが入力されるデータ用中間手段、及び前記データ用中間手段の出力が入力され、前記対象データの処理結果を出力するデータ用出力手段を備えたデータ処理部を含む学習済みモデルであって、データ処理部学習用の対象データ、当該対象データの正解処理結果、及び前記質推定部から出力された当該対象データの質に関するパラメータを訓練データセットとして用いて学習されたモデルである。

第１の発明に係る学習済みモデルによれば、推定された対象データの質に関するパラメータをデータ処理時に用いるため、対象データの質に応じたデータ処理が可能となり、様々な質劣化がありうる環境での処理精度の向上が可能となる。

また、前記質推定部は、質推定部学習用の対象データ及び当該対象データの質を質推定部学習用の訓練データセットとして用いて学習されることができる。

また、前記質推定部は、さらに前記データ処理部学習用の対象データ及び当該対象データの質を前記質推定部学習用の訓練データセットに含めて学習されることができる。

第２の発明に係る学習済みモデルは、対象データ及び当該対象データの質に関するパラメータを取得するデータ用入力手段と、前記データ用入力手段の出力として、前記対象データ及び当該対象データの質に関するパラメータが入力されるデータ用中間手段と、前記データ用中間手段の出力が入力され、前記対象データの処理結果を出力するデータ用出力手段とを備えたデータ処理部を含む学習済みモデルであって、データ処理部学習用の対象データ、当該対象データの正解処理結果、及び当該対象データの質に関するパラメータを訓練データセットとして用いて学習されたモデルである。

第２の発明に係る学習済みモデルによれば、入力された対象データの質に関するパラメータをデータ処理時に用いるため、対象データの質に応じたデータ処理が可能となり、様々な質劣化がありうる環境での処理精度の向上が可能となる。

また、前記データ処理部は、前記データ用入力手段、前記データ用出力手段、及び前記データ用入力手段と前記データ用出力手段の間に設けられる前記データ用中間手段を有するニューラルネットワークであり、前記対象データの質に関するパラメータに応じて前記データ用中間手段の出力が決定されることができる。

また、前記データ処理部は、畳み込みニューラルネットワークであって、前記データ用中間手段の畳み込み処理で用いられるフィルタのフィルタ係数は、前記対象データの質に関するパラメータに応じて決定されることができる。

また、前記対象データは、画像であり、前記質は、画像圧縮に関するパラメータ、画像の鮮鋭性に関するパラメータ、偽色に関するパラメータ、インターレース方式に関するパラメータ、イメージセンサーのノイズに関するパラメータ、カメラ情報に関するパラメータ、解像度に関するパラメータ、レンズ歪みに関するパラメータ、フレームの種別に関するパラメータ、色かぶりに関するパラメータ、及びコントラストに関するパラメータの少なくとも一つを含むことができる。

第３の発明に係るデータ処理装置は、データ用入力手段、データ用中間手段およびデータ用出力手段を含むデータ処理部と、対象データの質を推定するための質推定部とを備えるデータ処理装置であって、前記データ用入力手段は、対象データを取得し、前記データ用中間手段は、前記データ用入力手段の出力と、前記質推定部から出力された前記対象データの質に関するパラメータとが入力され、前記データ用出力手段は、前記データ用中間手段の出力が入力され、前記対象データの処理結果を出力し、前記データ処理部は、データ処理部学習用の対象データ、当該対象データの正解処理結果、及び前記質推定部から出力された当該対象データの質に関するパラメータを訓練データセットとして用いて学習され、前記データ処理部に、対象データ及び前記質推定部から出力された当該対象データの質に関するパラメータを入力することで前記対象データの処理を行う。

第３の発明に係るデータ処理装置によれば、推定された対象データの質に関するパラメータをデータ処理時に用いるため、対象データの質に応じたデータ処理が可能となり、様々な質劣化がありうる環境での処理精度の向上が可能となる。

第４の発明に係るデータ処理装置は、データ用入力手段、データ用中間手段、及びデータ用出力手段を含むデータ処理部を備えるデータ処理装置であって、前記データ用入力手段は、対象データ及び当該対象データの質に関するパラメータを取得し、前記データ用中間手段は、前記データ用入力手段の出力である前記対象データ及び当該対象データの質に関するパラメータが入力され、前記データ用出力手段は、前記データ用中間手段の出力が入力され、前記対象データの処理結果を出力し、前記データ処理部は、データ処理部学習用の対象データ、当該対象データの正解処理結果、及び当該対象データの質に関するパラメータを訓練データセットとして用いて学習され、前記データ処理部に、対象データおよび当該対象データの質に関するパラメータを入力することで前記対象データの処理を行う。

第４の発明に係るデータ処理装置によれば、入力された対象データの質に関するパラメータをデータ処理時に用いるため、対象データの質に応じたデータ処理が可能となり、様々な質劣化がありうる環境での処理精度の向上が可能となる。

以上説明したように、本発明に係る学習済みモデル及びデータ処理装置によれば、対象データの質に応じたデータ処理が可能となり、様々な質劣化がありうる環境での処理精度の向上が可能となる、という効果が得られる。

本発明の実施の形態に係る質推定器学習装置の構成を示すブロック図である。本発明の実施の形態に係る質推定器学習装置の質推定器学習手段の構成を示すブロック図である。本発明の実施の形態に係るデータ処理器学習装置の構成を示すブロック図である。本発明の実施の形態に係るデータ処理器学習装置のデータ処理器学習手段の構成を示すブロック図である。データ処理器の特徴合成部の構成を示すブロック図である。本発明の実施の形態に係るデータ処理装置の構成を示すブロック図である。本発明の実施の形態に係るデータ処理装置の認識手段の構成を示すブロック図である。本発明の実施の形態に係る質推定器学習装置による学習処理の動作を示すフローチャートである。本発明の実施の形態に係るデータ処理器学習装置による学習処理の動作を示すフローチャートである。本発明の実施の形態に係るデータ処理装置による認識処理の動作を示すフローチャートである。本発明の実施の形態の他の例に係るデータ処理器学習装置のデータ処理器学習手段の構成を示すブロック図である。本発明の実施の形態の他の例に係るデータ処理器学習装置のデータ処理器学習手段の構成を示すブロック図である。本発明の実施の形態の他の例に係るデータ処理装置の認識手段の構成を示すブロック図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、データ処理システムの実施形態の一例として、質推定器学習装置、データ処理器学習装置、及びデータ処理装置を備えたシステムについて説明する。また、本実施形態において、対象データは画像であり、データ処理は物体検出であり、対象データの質は画質である場合を例に説明する。

質推定器学習装置は、入力画像の画質を推定する質推定器を構築する。データ処理器学習装置は、入力画像内に写っている対象物の位置とカテゴリを推定するデータ処理器を構築する。データ処理装置は、質推定器学習装置で作成された質推定器とデータ処理器学習装置で作成されたデータ処理器を用いて、対象物が存在しうる空間が撮影された画像に写った対象物を認識し、認識結果を報知する。対象物の認識では、対象物の外接矩形とカテゴリを推定する。

なお、本実施形態では対象物を人とする例を説明するが、本発明は、人の上半身などの人体の一部を対象物としてもよいし、車両などの人以外の物体を対象物としてもよい。また、対象物は人、車、自転車など、複数設定しても良い。また、質推定器は、質推定部の一例である。データ処理器は、データ処理部の一例である。
データ処理システムの各装置の構成について順に説明する。

＜質推定器学習装置の構成＞
質推定器学習装置は、事前に用意した質推定器学習用の学習データを用いて、入力画像の画質を推定する質推定器を学習する装置である。
図１に質推定器学習装置２のブロック図を示す。質推定器学習装置２は、質推定器用学習データ記憶手段２０、画質劣化手段２１、質推定器学習手段２２、及び学習済みモデル記憶手段２３を含んで構成される。

質推定器用学習データ記憶手段２０には、質推定器学習用の多数の画像が格納されている。この画像は、画質の劣化が少ない、高画質な画像である。
ここで本発明において高画質な画像とは、ノイズが重畳されていない、ＪＰＥＧ等の圧縮によるブロックノイズが存在していない、偽色が発生していない、などの物体検出の阻害要因がない画像を指す。

画質劣化手段２１は、質推定器用学習データ記憶手段２０から質推定器学習用画像を読み込み、学習用劣化画像を作成する。学習用劣化画像は、様々な画質を変化させる処理を付加することで作成する。本実施形態では、画質を変化させる処理として、ガウシアンフィルタ処理又はＪＰＥＧ劣化処理を施す。

ガウシアンフィルタ処理は、フィルタサイズを０，１，２，４，８，１６，３２，６４の８種類の中からランダムに選択し、選択したフィルタサイズで入力画像にガウシアンフィルタをかける。これにより、ピンボケしたような画像を擬似的に生成できる。フィルタサイズによりボケの度合いが変化し、大きいほどボケた画像が生成される。なお、フィルタサイズが０の場合、ガウシアンフィルタ処理を行わないことを示す。

ＪＰＥＧ劣化処理とは、ランダムに選択したＪＰＥＧのｑｕａｌｉｔｙｆａｃｔｏｒを用いて、入力画像をＪＰＥＧ形式でエンコードし、再びデコードすることである。ＪＰＥＧのｑｕａｌｉｔｙｆａｃｔｏｒは、１～１００の数値で、高い値ほど高画質である。この処理により、ＪＰＥＧ特有のノイズを付加することができる。本実施形態では１０，２０，３０，・・・，１００の１０種類のｑｕａｌｉｔｙｆａｃｔｏｒからランダムに選択し、それを用いてＪＰＥＧ劣化処理を施す。

画質劣化手段２１で生成されるガウシアンフィルタの画質パラメータは、８次元のｏｎｅ－ｈｏｔベクトルで表現される。例えば選択されたフィルタサイズが４の場合は、ガウシアンフィルタの画質パラメータは（０，０，０，１，０，０，０，０）で表現される。ＪＰＥＧのｑｕａｌｉｔｙｆａｃｔｏｒの画質パラメータは１０次元のｏｎｅ－ｈｏｔベクトルで表現される。例えば、選択されたｑｕａｌｉｔｙｆａｃｔｏｒが２０の場合は、ＪＰＥＧのｑｕａｌｉｔｙｆａｃｔｏｒの画質パラメータは（０，１，０，０，０，０，０，０，０，０）で表現される。

画質劣化手段２１は、ガウシアンフィルタで選択されたフィルタサイズと選択されたＪＰＥＧのｑｕａｌｉｔｙｆａｃｔｏｒのそれぞれの画質パラメータを正解画質パラメータとして、高画質な画像に対して選択されたパラメータでガウシアンフィルタ処理とＪＰＥＧ劣化処理の両方の処理を行った学習用劣化画像と紐づけて出力する。

質推定器学習手段２２は、画質劣化手段２１から学習用劣化画像と正解画質パラメータを読み込み、質推定器学習用の訓練データセットとして用いて質推定器を学習する。つまり、質推定器は、学習用劣化画像が入力された時に、学習用劣化画像に紐づいた正解画質パラメータに近い値が出力されるように学習される。学習後、得られた質推定器を学習済みモデル記憶手段２３に格納する。

図２に示すように、質推定器学習手段２２は、学習用推定部３８、画質推定誤差算出部４２、及びパラメータ更新部４３を備えている。
学習用推定部３８は、質推定器３９を用いて、画質パラメータを推定する。質推定器３９は、カラー画像を入力とし、推定した画質パラメータを出力するニューラルネットワークで構成される。質推定器学習装置２での質推定器３９のネットワークの構造の概要を同図２に示す。質推定器３９は、画質特徴抽出部４０及び画質推定部４１を含んで構成される。画質特徴抽出部４０は、学習用劣化画像を入力とし、画質特徴量を算出する。画質推定部４１は算出された画質特徴量を入力とし、画質パラメータの推定値を出力する。

画質特徴抽出部４０及び画質推定部４１は、例えば、畳み込み処理、全結合処理、ＲｅＬＵ関数（活性化関数）、ｍａｘ－ｐｏｏｌｉｎｇ等にて構成されるＣＮＮである。この構成は予め定めておき、畳み込み処理や全結合処理で用いるフィルタやバイアス等のパラメータを質推定器学習手段２２にて求める。

画質特徴抽出部４０は、まず入力画像に対し、畳み込み処理、ＲｅＬＵ関数、及びｍａｘ－ｐｏｏｌｉｎｇを繰り返し、特徴マップを算出する。この特徴マップは、縦、横、チャネルの次元をもつ３次元数値列の形式をしている。画質特徴抽出部４０は、算出された特徴マップに対して特徴マップを縦方向、横方向にて平均化するｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇを施す。これにより、特徴マップはチャネル数次元の特徴ベクトルとなる。画質特徴抽出部４０は、この特徴ベクトルを画質特徴量として出力する。

画質推定部４１は、画質特徴抽出部４０にて算出された画質特徴量を用いて、全結合処理及びｓｏｆｔｍａｘ関数等にて、画質の種類ごとに画質パラメータの推定値（推定画質パラメータ）を算出する。本実施形態では、ガウシアンのフィルタサイズは８種類、ＪＰＥＧのｑｕａｌｉｔｙｆａｃｔｏｒは１０種類であり、それぞれの画質パラメータの推定は分類問題と考えられる。したがって、画質推定部４１では、推定画質パラメータとして、画質の種類ごとに画質パラメータの確率値を算出する。

ガウシアンフィルタのフィルタサイズに関する推定画質パラメータは、入力画像がどのくらいボケているかを表現した値になり、ボケていない画像に対して、どのくらいのフィルタサイズのガウシアンフィルタでボカしたものかに相当する。推定画質パラメータは８次元のベクトルで表現される。例えば、１番目の要素は入力画像がガウシアンフィルタのフィルタサイズが０で処理された画像と同程度のボケ度合いである確率を表し、２番目の要素は入力画像がガウシアンフィルタのフィルタサイズが１で処理された画像と同程度のボケ度合いである確率を表し、３番目の要素は入力画像がガウシアンフィルタのフィルタサイズが２で処理された画像と同程度のボケ度合いである確率を表す。

ＪＰＥＧ劣化処理のｑｕａｌｉｔｙｆａｃｔｏｒに関する推定画質パラメータは、入力画像がＪＰＥＧ劣化のような劣化がどの程度あるかを表現した値になり、圧縮していない画像に対して、どのくらいのｑｕａｌｉｔｙｆａｃｔｏｒでＪＰＥＧ劣化処理をした場合であるかに相当する。推定画質パラメータは、１０次元のベクトルで表現される。例えば、１番目の要素は入力画像がｑｕａｌｉｔｙｆａｃｔｏｒを１０でＪＰＥＧ劣化処理をした画像と同程度の劣化である確率を表し、２番目の要素は入力画像がｑｕａｌｉｔｙｆａｃｔｏｒを２０でＪＰＥＧ劣化処理をした画像と同程度の劣化である確率を表し、３番目の要素は入力画像がｑｕａｌｉｔｙｆａｃｔｏｒを３０でＪＰＥＧ劣化処理をした画像と同程度の劣化である確率を表す。なお、画像圧縮に関する画質パラメータとして、ＪＰＥＧｑｕａｌｉｔｙ以外を用いてもよい。また、鮮鋭性に関する画質パラメータとして、ガウシアンフィルタサイズ以外を用いてもよい。

画質推定部４１は、具体的には、各画質パラメータの全結合処理、ｓｏｆｔｍａｘ関数から構成され、画質特徴量から画質の種類ごとに推定画質パラメータ、すなわち画質パラメータに対応する確率ベクトルを算出する。これにより、ガウシアンフィルタのフィルタサイズの推定画質パラメータとして８次元ベクトル、ＪＰＥＧのｑｕａｌｉｔｙｆａｃｔｏｒの推定画質パラメータとして１０次元ベクトルの確率が算出される。

画質推定誤差算出部４２は、画質劣化手段２１から出力される正解画質パラメータと、画質推定部４１から出力される推定画質パラメータから求まる誤差を算出する。この誤差は、画質の種類ごとに推定画質パラメータと正解画質パラメータの誤差を計算し、それらの和をとったものである。本実施形態では、ガウシアンのフィルタサイズ、ＪＰＥＧのｑｕａｌｉｔｙｆａｃｔｏｒの推定を分類問題と考えるので、両画質パラメータの誤差として、分類問題の誤差として広く使われる交差エントロピー誤差を用いる。
なお、画質パラメータの推定を分類問題として扱ったが、回帰問題としてもよい。その場合、質推定器３９の画質推定部４１の出力値を各パラメータの確率値ではなく、各パラメータそのものを推定し、正解画質パラメータとの誤差を二乗誤差で測ればよい。これは後述の質推定器５８の画質推定器６１でも同様である。

パラメータ更新部４３は、画質推定誤差算出部４２によって算出された誤差を最小化するように、質推定器３９のパラメータを更新する。誤差の最小化には確率的勾配法を用いる。確率的勾配法による学習では、最初に画質特徴抽出部４０、画質推定部４１のパラメータをランダムな数値等で初期化しておく。その後、推定画質パラメータと正解画質パラメータの誤差を元に誤差逆伝播法にてパラメータの勾配を算出し、その勾配をもとに画質特徴抽出部４０や画質推定部４１のパラメータを更新する。質推定器学習装置２は、上記の学習データの読み込み、誤差算出、画質特徴抽出部４０や画質推定部４１のパラメータ更新の処理を繰り返していくことで、質推定器３９の学習を行う。反復終了条件としては、例えば、誤差の変動量が事前に定めた閾値よりも小さくなったか否かや、事前に定めた反復回数に達したか否かなどを用いることができる。質推定器学習装置２は、最終的に求まった質推定器３９のパラメータを、ネットワーク構造等と共に学習済み質推定器として、学習済みモデル記憶手段２３に記憶する。

上記の学習を通して、質推定器３９の画質特徴抽出部４０は、学習用劣化画像の画質パラメータを高精度に推定するのに適した情報を抽出できるようになる。一方、上記の学習で用いる質推定器学習用画像は画質劣化が少ない高画質な画像であるため、画質劣化手段２１が出力する学習用劣化画像の画質劣化の多くは画質劣化手段２１によるものである。よって、学習にて得られた画質特徴抽出部４０が出力する画質特徴量は、入力画像内の画質劣化に関する情報を多く含んでおり、これをデータ処理器で利用する。なお、画質特徴量が、データ処理器に入力される質に関するパラメータの一例である。

＜データ処理器学習装置の構成＞
データ処理器学習装置は、事前に用意したデータ処理器学習用の学習データを用いて、入力画像の物体位置などを推定するデータ処理器を学習する装置である。
図３にデータ処理器学習装置３のブロック図を示す。データ処理器学習装置３は、データ処理器用学習データ記憶手段３０、画質劣化手段３１、データ処理器学習手段３２、及び学習済みモデル記憶手段３３を含んで構成される。

データ処理器用学習データ記憶手段３０には、データ処理器学習用の学習データとして、画像内の対象物ごとの外接矩形（中心位置、縦幅、横幅）及び対象物のカテゴリで構成される正解対象物情報が、複数の画像の各々と紐づいて格納されている。この画像は、画質の劣化が少ない、高画質な画像である。なお、正解対象物情報が、正解処理結果の一例である。

画質劣化手段３１は、データ処理器用学習データ記憶手段３０からデータ処理器学習用画像を読み込み、質推定器学習装置２の画質劣化手段２１と同様に、ガウシアンフィルタ処理、ＪＰＥＧ劣化処理を施し、学習用劣化画像を作成する。

データ処理器学習手段３２は、画質劣化手段３１から学習用劣化画像、データ処理器用学習データ記憶手段３０から学習用劣化画像のもととなったデータ処理器学習用画像と紐づく正解対象物情報、学習済みモデル記憶手段３３から質推定器学習装置２で得られた学習済み質推定器を読み込み、学習用劣化画像及び正解対象物情報を訓練データセットとして用いて、データ処理器４９の学習を行い、得られたデータ処理器４９を学習済みモデル記憶手段３３に格納する。

図４に示すように、データ処理器学習手段３２は、学習用処理部４７、物体検出誤差算出部５５、及びパラメータ更新部５６を備えている。
学習用処理部４７は、質推定器４８及びデータ処理器４９を用いて、画像内の推定した対象物ごとの中心位置、縦幅、横幅、及び各カテゴリの確率値を出力する。

データ処理器４９はカラー画像と質推定器で算出される画質特徴量を入力とし、画像内の推定した対象物ごとの中心位置、縦幅、横幅、及び各カテゴリの確率値を出力するニューラルネットワークで構成される。データ処理器学習装置３でのデータ処理器４９のネットワークの構造の概要を同図４に示す。質推定器学習装置２で得られる質推定器は、画質特徴抽出部５０及び画質推定部５１を含んで構成されるが、本実施形態では画質特徴抽出部５０のみ用いる。データ処理器４９は、物体特徴抽出部５２、特徴合成部５３、及び認識部５４を含んで構成される。

画質特徴抽出部５０及び物体特徴抽出部５２は、学習用劣化画像を入力とし、それぞれ画質特徴量、物体特徴量を出力する。特徴合成部５３は、画質特徴量と物体特徴量を合成し、それを合成特徴量として出力する。認識部５４は、合成特徴量を用いて画像内の対象物情報（中心位置、縦幅、横幅、及び各カテゴリの確率値）を算出し、それを認識結果として出力する。

データ処理器４９は、データ用入力層４９Ａ、データ用中間層４９Ｂ、及びデータ用出力層４９Ｃを含んで構成されるＣＮＮである。データ用中間層４９Ｂは、物体特徴抽出部５２及び特徴合成部５３を含んで構成され、データ用出力層４９Ｃは、認識部５４を含んで構成される。
データ用入力層４９Ａは、学習用劣化画像を取得し、出力する。
データ用中間層４９Ｂには、データ用入力層４９Ａの出力と、質推定器４８から出力された画質特徴量とが入力され、データ用中間層４９Ｂは、合成特徴量を出力する。
データ用出力層４９Ｃには、データ用中間層４９Ｂの出力が入力され、学習用劣化画像の認識結果を出力する。

物体特徴抽出部５２、特徴合成部５３、及び認識部５４は、畳み込み処理、全結合処理、ＲｅＬＵ関数（活性化関数）、ｍａｘ－ｐｏｏｌｉｎｇ等にて構成される。データ処理器４９のネットワーク構造は予め定めておき、畳み込み処理や全結合処理で用いるフィルタやバイアス等のパラメータをデータ処理器学習手段３２にて求める。

物体特徴抽出部５２として、本実施形態では、ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋ（非特許文献２を参照）を利用する。これは、畳み込み処理、ＲｅＬＵ関数、ｍａｘ－ｐｏｏｌｉｎｇ、ｕｐ－ｓａｍｐｌｉｎｇ等の処理を用いて、入力画像から異なる縦幅、横幅の複数の特徴マップを算出するものである。物体特徴抽出部５２は、これらの特徴マップを画像特徴量として出力する。

［非特許文献２］ LIN, Tsung-Yi, et al. “Feature pyramid networks for object detection.” In: Proceedings of the IEEE conference on computer vision and pattern recognition. (2017): 2117-2125.

特徴合成部５３は、画質特徴量を用いて算出されるフィルタ集合を用いて、物体特徴量に畳み込み処理をすることにより、合成特徴量を算出する。具体的には、図５に示すように合成特徴量を算出する。まず、畳み込み処理で用いるフィルタ集合を複数考える。ここで、フィルタ集合の通し番号をｉ、フィルタ集合の数をＮ、フィルタ集合内のフィルタの通し番号をｃ、フィルタ数をＣ、ｉ番目のフィルタ集合のｃ番目のフィルタをＷ_ｃ，ｉとする。またフィルタはすべて同一サイズとする。特徴合成部５３は、画質特徴量を用いて各フィルタ集合に対する重みを算出する。各フィルタ集合の重みは、画質特徴量に対して全結合処理及びｓｏｆｔｍａｘ関数を施すことで算出される（図５の５３Ａ参照）。次に、その重みを用いて、フィルタ集合の重み付き和を求める（図５の５３Ｂ参照）。具体的には、ｉ番目のフィルタに対する重みをα_ｉとすると、重み付き和によるフィルタ集合のｃ番目のフィルタは、ｉ＝１，．．．，Ｎの重み付き和となり、以下の式で表される。

なお、￣Ｘは数式中では、記号Ｘ上に“￣”であることを示す。
そして、この重み付き和によって求まったフィルタ集合｛￣Ｗ_ｃ｝_{ｃ＝１，．．．，Ｃ}を用いた畳み込み処理を物体特徴量に施し（図５の５３Ｃ参照）、その結果を合成特徴量として出力する。
なお、物体特徴抽出部５２から出力される物体特徴量には、非特許文献２の構造を利用した場合、縦幅と横幅が異なる複数の物体特徴量が得られるが、それぞれでフィルタ集合を用意し、上記の処理を行い、複数の合成特徴量を算出する。なお、全結合処理で使われる重みだけでなく、Ｗ_ｃ，ｉも学習で求める。

また、画質特徴量と物体特徴量を単に連結させてもよい。具体的には、画質特徴量のチャネル数Ｃｑの特徴ベクトルとし、物体特徴量は縦幅Ｈ、横幅Ｗ、チャネル数Ｃｏの特徴マップとすると、縦幅Ｈ、横幅Ｗ、チャネル数Ｃｑの特徴マップとなるように画質特徴量を複製し、それを画質特徴量と連結し、縦幅Ｈ、横幅Ｗ、チャネル数Ｃｑ＋Ｃｏの特徴マップを合成特徴量として出力すればよい。
また、フィルタ集合の重みを求めて、フィルタ集合の重み付き和で畳み込み処理で用いるフィルタ集合を合成するために、全結合処理とＲｅＬＵ関数やｓｉｇｍｏｉｄ関数でフィルタ集合の重みを求めてもよいし、全結合処理でフィルタ集合を生成するようにしてもよい。これらは、後述するデータ処理器５９の特徴合成部６３でも同様である。

認識部５４は合成特徴量に対し、畳み込み処理及びＲｅＬＵ関数を繰り返すことで、推定した対象物の外接矩形（中心位置、縦幅、横幅）及び各カテゴリの確率値を算出し、認識結果として出力する。ただし、各カテゴリの確率値については、処理の最後にｓｉｇｍｏｉｄ関数を施すことで、値域を０から１の間に変換してから出力される。また、外接矩形は特徴マップの各ピクセルを中心とした相対座標にて出力されるため、画像上の絶対座標となるように変換する。非特許文献２の構造を利用した場合、縦幅と横幅が異なる複数の合成特徴量が得られるが、上記の処理を合成特徴量ごとに行う。

物体検出誤差算出部５５は、認識部５４で算出した認識結果と正解対象物情報との誤差を算出する。誤差は、外接矩形の中心位置、縦幅、横幅で算出する誤差と各カテゴリの確率値で算出する誤差との和からなる。

具体的には、まず正解対象物とその正解対象物の外接矩形の近傍に位置する認識部５４で算出した外接矩形とを対応付ける。対応付かない外接矩形についてはカテゴリを背景として誤差を算出する。このとき、学習を安定させるために、大きい正解対象物には縦横幅が小さく低解像度な合成特徴量（縦幅と横幅が小さい合成特徴量）から求めた外接矩形のみを対応付け、小さい正解対象物には縦横幅が大きく高解像度な合成特徴量（縦幅と横幅が大きい合成特徴量）から求めた外接矩形のみを対応付ける。この対応付けをもとに誤差を算出する。カテゴリの確率値の誤差は、推定値と正解のカテゴリの交差エントロピー誤差を用いる。外接矩形の中心位置、縦幅、横幅の誤差は、推定値と正解のＳｍｏｏｔｈＬ１距離とする。カテゴリ「背景」に対応付けられた外接矩形では外接矩形の中心位置、縦幅、横幅の誤差を算出しない。カテゴリの確率値の誤差、外接矩形の中心位置、縦幅、横幅の誤差のそれぞれで平均誤差をもとめ、その和を最小化に用いる。

パラメータ更新部５６は、物体検出誤差算出部５５によって算出された誤差を最小化するように、データ処理器４９の物体特徴抽出部５２、特徴合成部５３、及び認識部５４の各パラメータを更新する。なお、パラメータ更新部５６で更新されるパラメータには、畳み込み処理や全結合処理のフィルタやバイアスだけでなく、特徴合成部５３のフィルタ集合の重み付き和で用いられるＷ_ｃ，ｉも含まれる。また、本実施形態では、パラメータ更新部５６は、質推定器のパラメータは更新しない。

誤差の最小化には確率的勾配法を用いる。確率的勾配法による学習では、最初に学習で求めるデータ処理器４９の各パラメータをランダムな数値等で初期化する。そして、誤差逆伝播法にて各パラメータの勾配を算出し、その勾配をもとに各パラメータを更新する。データ処理器学習装置３は、上記の学習データの読み込み、誤差算出、及びパラメータ更新の処理を繰り返していくことで、データ処理器４９の学習を行う。反復終了条件としては、例えば、誤差の変動量が事前に定めた閾値よりも小さくなったか否かや、事前に定めた反復回数に達したか否かなどを用いることができる。データ処理器学習装置３は最終的に求まったデータ処理器のパラメータを、データ処理器４９のネットワーク構造などと共に学習済みデータ処理器として学習済みモデル記憶手段３３に記憶する。
なお、質推定器のパラメータを更新するようにしてもよい。その際は、誤差逆伝播法にて、画質特徴量を通じて、質推定器に誤差を伝播させることとする。

特徴合成部５３でのフィルタ集合の合成は、入力画像の画質を表す画質特徴量をもとに行われる。また上記の学習を通して、特徴合成部５３は、対象物認識がより高精度となるように、畳み込み処理で用いるフィルタ集合の合成し、合成特徴量を算出する。つまり、特徴合成部５３は、入力画像の画質に応じて、対象物認識がより高精度となる合成特徴量を算出する。したがって、入力画像の画質に応じた認識処理が可能となる。

＜データ処理装置の構成＞
データ処理装置は、人が存在しうる空間が撮影された画像を解析することで、画像に写った人物の外接矩形を検出し、認識結果を報知する装置である。
図６に、データ処理装置１のブロック図を示す。データ処理装置１は、画像取得手段１０、認識手段１１、表示手段１２、及び学習済みモデル記憶手段１３を含んで構成される。
画像取得手段１０は、監視カメラからカラー画像である撮影画像を取得し、その画像を認識手段１１へ出力する。

学習済みモデル記憶手段１３には、予め質推定器学習装置２で得られた学習済み質推定器、データ処理器学習装置３で得られた学習済みデータ処理器が記憶されている。なお、学習済みデータ処理器が、学習済みモデルの一例である。

認識手段１１は、まず、学習済みモデル記憶手段１３から学習済みの質推定器とデータ処理器を読み込む。次に、画像取得手段１０から撮影画像が入力されると、図７に示すように、認識手段１１は、質推定器５８及びデータ処理器５９を用いて、対象物の外接矩形と確率値を推定する。
質推定器５８は、質推定器学習装置２で得られた学習済み質推定器のパラメータを用いる。

データ処理器５９は、データ処理器４９と同様に、データ用入力層５９Ａ、データ用中間層５９Ｂ、及びデータ用出力層５９Ｃを含んで構成されるＣＮＮである。データ用中間層５９Ｂは、物体特徴抽出部６２及び特徴合成部６３を含んで構成され、データ用出力層５９Ｃは、認識部６４を含んで構成される。

データ処理器５９の物体特徴抽出部６２、特徴合成部６３、及び認識部６４の各パラメータは、データ処理器学習装置３で得られた学習済みデータ処理器のパラメータを用いる。
データ用入力層５９Ａは、撮影画像を取得し、出力する。
データ用中間層５９Ｂには、データ用中間層４９Ｂと同様に、データ用入力層５９Ａの出力と、質推定器５８から出力された画質特徴量とが入力され、データ用中間層５９Ｂは、合成特徴量を出力する。
データ用出力層５９Ｃには、データ用出力層４９Ｃと同様に、データ用中間層５９Ｂの出力が入力され、撮影画像の認識結果を出力する。

具体的には、まず、認識手段１１に入力された撮影画像は質推定器５８の画質特徴抽出部６０、データ処理器の物体特徴抽出部６２に入力され、それぞれ画質特徴量、物体特徴量を出力する。特徴合成部６３は両特徴量を用いて合成特徴量を算出する。そして合成特徴量は認識部６４に入力され、認識部６４は対象物の推定外接矩形、種別の確率値を算出する。なお、外接矩形は複数算出されるが、領域が大きく重複している場合があるため、Ｎｏｎ－ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ処理にて大きく重複する外接矩形を削除する。認識手段１１は、最終的に残った対象物の外接矩形を認識結果として、撮影画像と共に出力する。

表示手段１２は、撮影画像に認識結果を重畳し、ディスプレイに表示するなどする。

＜データ処理システムの動作例＞
次に、図８～図１０を参照して、データ処理システムの動作例について説明する。
本実施形態では、まず、質推定器学習装置２を用いて、入力画像の画質を推定する質推定器を学習する。次に、質推定器学習装置２で作成された質推定器とデータ処理器学習装置３を用いて、画像内の物体を推定するデータ処理器を学習する。

事前に質推定器学習装置２で学習された質推定器と、事前にデータ処理器学習装置３で学習されたデータ処理器を用いて、データ処理装置１において人が存在しうる空間が撮影された撮影画像に写った人物の外接矩形を認識し、認識結果を報知する。

質推定器学習装置２、データ処理器学習装置３、及びデータ処理装置１の動作例について順に説明する。
＜質推定器学習装置の動作例＞
図８は質推定器学習装置２の動作に関する概略のフロー図である。質推定器の学習動作が開始されると、質推定器学習装置２は、質推定器を予め定めたネットワーク構造に設定し、そのネットワークのパラメータをランダムな数値等で初期化する（ステップＳ１０）。

質推定器学習装置２は、質推定器用学習データ記憶手段２０から、質推定器学習用画像を読み込む（ステップＳ１１）。
質推定器学習装置２は、画質劣化手段２１にて、読み込んだ質推定器学習用画像から学習用劣化画像を生成し、劣化画像の生成に用いた画質パラメータと劣化画像とを訓練データセットとして出力する（ステップＳ１２）。

質推定器学習装置２は、質推定器学習手段２２にて、訓練データセットを用いて、劣化画像を質推定器に入力して推定画質を算出し、それと画質パラメータを用いて誤差を算出する（ステップＳ１３）。
質推定器学習装置２は、質推定器学習手段２２にて、算出した誤差をもとに誤差逆伝播法で質推定器の各パラメータの勾配を求め、その勾配を用いて、確率的勾配法にて質推定器の各パラメータを更新する（ステップＳ１４）。

質推定器学習装置２は、反復終了条件が満たされているかを判定する（ステップＳ１５）。満たされた場合は質推定器を学習済みモデル記憶手段２３に格納し（ステップＳ１６）、終了する。満たされない場合は反復終了条件が満たされるまでステップＳ１１からステップＳ１４の動作を反復する。反復終了条件としては、例えば、誤差の変動量が事前に定めた閾値よりも小さくなったか否かや、事前に定めた反復回数に達したか否かなどを用いることができる。

＜データ処理器学習装置の動作例＞
図９はデータ処理器学習装置３の動作に関する概略のフロー図である。データ処理器の学習動作が開始されると、まず、データ処理器学習装置３は、学習済みモデル記憶手段３３から、質推定器学習装置２で予め得られた質推定器を読み込み（ステップＳ２０）、データ処理器を予め定めたネットワーク構造に設定し、そのネットワークのパラメータをランダムな数値等で初期化する（ステップＳ２１）。

データ処理器学習装置３は、データ処理器用学習データ記憶手段３０から、データ処理器学習用画像とそれに対応する正解対象物情報を読み込む（ステップＳ２２）。
データ処理器学習装置３は、画質劣化手段３１にて、データ処理器学習用画像から学習用劣化画像を生成し、学習用劣化画像、及び学習用劣化画像のもととなるデータ処理器学習用画像に対応する正解対象物情報を、訓練データセットとする（ステップＳ２３）。

データ処理器学習装置３は、データ処理器学習手段３２にて、学習用劣化画像を質推定器及びデータ処理器に入力して認識結果を求め、それと正解対象物情報を用いて誤差を算出する（ステップＳ２４）。
データ処理器学習装置３は、データ処理器学習手段３２にて、算出した誤差をもとに誤差逆伝播法でデータ処理器の各パラメータの勾配を求め、その勾配を用いて、確率的勾配法にてデータ処理器の各パラメータを更新する（ステップＳ２５）。

データ処理器学習装置３は、反復終了条件が満たされているかを判定する（ステップＳ２６）。満たされた場合はデータ処理器を学習済みモデル記憶手段３３に格納し（ステップＳ２７）、終了する。満たされない場合は反復終了条件が満たされるまでステップＳ２２からステップＳ２５の動作を反復する。反復終了条件としては、例えば、誤差の変動量が事前に定めた閾値よりも小さくなったか否かや、事前に定めた反復回数に達したか否かなどを用いることができる。

＜データ処理装置の動作例＞
図１０はデータ処理装置１の動作に関する概略のフロー図である。
動作が開始されると、データ処理装置１は、学習済みモデル記憶手段１３から学習済みの質推定器及び学習済みのデータ処理器を読み込む。（ステップＳ３０）。
続いて、データ処理装置１は、画像取得手段１０によりカラー画像である撮影画像を取得する（ステップＳ３１）。取得した撮影画像は認識手段１１に送信される。
データ処理装置１は、認識手段１１にて、受信した撮影画像を質推定器及びデータ処理器に入力して認識結果を求め、それを撮影画像と共に表示手段１２に出力する（ステップＳ３２）。
データ処理装置１は、表示手段１２にて、取得した画像と認識結果をディスプレイに表示する（ステップＳ３３）。そして、監視員が表示された認識結果を視認して状況を判断し、異常があれば必要に応じて対処員を派遣する。
認識結果を表示後、画像取得手段１０による画像の取得（ステップＳ３１）に戻り、データ処理装置１を停止するまで、動作を続ける。

以上説明したように、本発明の実施の形態に係るデータ処理装置によれば、データ処理器のデータ用中間層には、データ用入力層の出力と、質推定器から出力された画質特徴量とが入力され、データ用出力層には、データ用中間層の出力が入力され、撮影画像の認識結果を出力することにより、画質に応じた認識処理が可能となり、様々な質劣化がありうる環境での認識精度の向上が可能となる。

＜変形例＞
なお、本発明は、上述した実施形態の装置構成及び作用に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

（変形例１）
上記実施形態では、質推定器の学習とデータ処理器の学習を順に行っていたが、両学習を同時に行ってもよい。この場合には、データ処理器学習装置３のデータ処理器学習手段３２の代わりに、図１１に示すデータ処理器学習手段２３２を用いて構成すればよい。データ処理器学習手段２３２は、学習用処理部６７、画質推定誤差算出部７２、物体検出誤差算出部７６、及びパラメータ更新部７７を含んで構成される。
学習用処理部６７は、質推定器６８を用いて、学習用劣化画像の画質パラメータを推定する。質推定器６８は、質推定器３９と同様に、画質特徴抽出部７０及び画質推定部７１を含んで構成される。
学習用処理部６７は、質推定器６８及びデータ処理器６９を用いて、学習用劣化画像内の推定した対象物ごとの中心位置、縦幅、横幅、及び各カテゴリの確率値を出力する。
データ処理器６９は、データ処理器４９と同様に、データ用入力層６９Ａ、データ用中間層６９Ｂ、及びデータ用出力層６９Ｃを含んで構成され、データ用中間層６９Ｂは、物体特徴抽出部７３及び特徴合成部７４を含んで構成され、データ用出力層６９Ｃは、認識部７５を含んで構成される。
画質推定誤差算出部７２は、画質推定誤差算出部４２と同様に、正解画質パラメータと推定画質パラメータとを用い、画質推定誤差を算出する。
物体検出誤差算出部７６は、物体検出誤差算出部５５と同様に、正解対象物情報と認識結果とを用い、物体検出誤差を算出する。
パラメータ更新部７７は、画質推定誤差と物体検出誤差との和を最小化するように、質推定器６８及びデータ処理器６９のパラメータを更新する。
データ処理器学習装置３は、上記の学習データの読み込み、誤差算出、質推定器６８及びデータ処理器６９のパラメータ更新の処理を繰り返していくことで、質推定器６８及びデータ処理器６９の学習を行う。

（変形例２）
上記実施形態では、画質特徴量をデータ処理器４９、５９に入力していたが、推定画質パラメータをデータ処理器４９、５９に入力してもよい。上記実施形態では、画質パラメータとしてガウシアンフィルタのフィルタサイズは８種類、ＪＰＥＧのｑｕａｌｉｔｙｆａｃｔｏｒは１０種類であり、推定画質パラメータとして１８個の確率値が算出されるので、それを特徴合成部５３、６３に入力すればよい。

（変形例３）
上記実施形態では、データ処理器４９、５９に入力する画質特徴量はｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇによって特徴マップから特徴ベクトルに変換されていたが、局所領域ごとの画質情報を利用するために、ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇ処理前の特徴マップを画質特徴量としてデータ処理器４９、５９に入力するようにし、局所領域ごとにフィルタ集合を合成してもよい。この場合、画質特徴量と物体特徴量の縦幅、横幅が異なる場合があるが、バイリニア補間などを用いて画質特徴量のサイズを物体特徴量と同じサイズに変換すればよい。また、両特徴量を連結する場合も、画質特徴量のサイズを物体特徴量と同じサイズに変換し、連結すればよい。
また、上記の実施形態では、画質特徴量から算出した重みで複数のフィルタ集合を合成し、合成したフィルタを用いて物体特徴量に対し畳み込み処理をすることで合成特徴量を算出していたが、本変形例では、はじめに各フィルタ集合で物体特徴量に対し畳み込み処理をして複数の特徴マップを算出し、そして画質特徴量から算出した重みで特徴マップを合成することで合成特徴量を算出するのが、並列計算で処理することを考えると好適である。

（変形例４）
上記実施形態では、画質劣化処理として、ガウシアンフィルタ処理やＪＰＥＧ劣化処理を用いたが、コントラスト変換処理や偽色付与処理などを用いてもよい。
画質劣化処理として、コントラスト変換処理を用いる場合、画像のコントラストを補正し、過度に明るくしたり、暗くしたりし、それらの変化があったか否か、変化の度合いなどのコントラスト変換のパラメータを画質パラメータとして用いる。例えば、コントラスト変換のパラメータの一つであるガンマ補正を利用する場合であればガンマ値を画質パラメータとして用いる。質推定器３９はこのガンマ値を推定する。質推定器３９の学習では、ランダムにガンマ値を選択し、それを用いて入力画像に対してコントラスト変換処理をし、処理した画像を質推定器学習用の画像とし、質推定器学習用の画像と選択したパラメータとを、質推定器学習用の訓練データセットとして用いる。
画質劣化処理として偽色付与処理を用いる場合、画質パラメータは偽色の有無とし、質推定器３９はこの偽色の有無を推定する。質推定器３９の学習では、入力画像の各チャネルを数ピクセル異なる方向に動かすと、高周波な領域に偽色が発生する。そこで、これを偽色付与処理として用い、入力画像に対してランダムで偽色付与処理を行い、処理した画像を、質推定器学習用の画像とし、質推定器学習用の画像と偽色の有無とを質推定器学習用の訓練データセットとして用いる。または、質推定器学習用の画像を人が視認し、偽色の有無の情報を付与しておき、その情報と画像を質推定器学習用の訓練データセットとして用いる。
画質劣化処理として色かぶり処理を用いる場合、選択した色相や強度に応じて、ＲＧＢチャネルごとのトーンカーブを修正することで、擬似的に色がぶりした画像を作ることができるので、これを色かぶり処理として用いる。画質パラメータとしては、色かぶりしている色相、強度を用い、質推定器３９は、色かぶりしている色相、強度を推定する。質推定器３９の学習では、ランダムに色かぶり処理の色相や強度といったパラメータを選択し、それを用いて入力画像に対して色かぶり処理をし、処理した画像を質推定器学習用の画像とし、質推定器学習用の画像と選択したパラメータとを、質推定器学習用の訓練データセットとして用いる。

（変形例５）
上記実施形態では、ＣＮＮを用いて画質特徴量を抽出していたが、学習を伴わない処理により算出された画質情報を画質特徴量として利用してもよい。例えば、ボケ度合いや鮮明さを表すものとして、入力画像の高周波成分の強度やエッジ強度のヒストグラム、ＬＢＰ特徴量などが利用できる。また、極端に明るい画像や暗い画像かどうかを表すものとしては、画像内の色数や色ヒストグラムなどが利用できる。

（変形例６）
上記実施形態では、質推定器３９、４８やデータ処理器４９、５９をＣＮＮによって構成していたが、これに限定されるものではない。例えば、質推定器３９、４８にＣＮＮを利用しない場合、画質特徴抽出部４０、５０ではＨＯＧ特徴量やＬＢＰ特徴量、色ヒストグラムなどを抽出し、画質推定部４１、５１ではロジスティック回帰やＳＶＭ、ＲａｎｄｏｍＦｏｒｅｓｔ、ＡｄａＢｏｏｓｔを用いて画質パラメータを推定し、その推定結果を、質に関するパラメータとして、データ処理器４９、５９の特徴合成部５３、６３に入力すればよい。また、上記のような構成において、Ｌ１正則付きのロジスティック回帰で選択された画質特徴量やＡｄａＢｏｏｓｔで選択された画質特徴量を、データ処理器４９、５９の特徴合成部５３、６３に入力してもよい。データ処理器４９、５９にＣＮＮを利用しない場合は、物体特徴抽出部５２、６２では物体特徴量としてＨＯＧ特徴量やＨａａｒ－ｌｉｋｅ特徴量を抽出し、特徴合成部５３、６３では画質特徴量と物体特徴量を連結し、認識部５４、６４ではロジスティック回帰やＳＶＭ、ＲａｎｄｏｍＦｏｒｅｓｔ、ＡｄａＢｏｏｓｔなどを用いればよい。

（変形例７）
上記実施形態では、質推定器学習装置２の学習で用いる質推定器学習用画像として、データ処理器学習装置３の学習で用いるデータ処理器学習用画像と異なるものを用いていたが、データ処理器学習用画像を質推定器学習用画像としても用いてもよい。

（変形例８）
上記実施形態では、画像に対するデータ処理として、画像内に写る対象物の位置や種別を推定する物体認識を行う場合を例として説明したが、他の画像認識タスクでも良い。例えば、画像内に写る物体の種別を推定する画像分類や、画像の各ピクセルの種別を推定するセマンティックセグメンテーション、各ピクセルで局所領域あたりの人数を推定する群衆密度推定、対象物の関節位置を推定するキーポイント検出を、画像に対するデータ処理としてもよい。

（変形例９）
上記実施形態において、対象データを動画とした、行動認識や物体検出をデータ処理としてもよい。その場合、対象データの質に関するパラメータとして、エンコードパラメータの推定結果、フリッカーの有無の推定結果、手ぶれ度合いの推定結果などを用いればよい。また、推定結果だけでなく、推定時に用いる中間特徴量を、対象データの質に関するパラメータとして用いてもよい。
入力動画のエンコードした際のエンコードパラメータには、コーデックやビットレートなどがある。エンコードパラメータを推定する質推定器の学習には、各エンコードパラメータを変化させて再エンコードした動画を用いればよい。
質に関するパラメータとして、フリッカーの有無を用いる場合には、一定の時間周期、空間周期で画像の明暗を変化させることで擬似的にフリッカーを含む動画を生成できるので、それを質推定器学習用の訓練データセットとして用いればよい。
手ぶれ動画は、異方性のフィルタＰＳＦ（ｐｏｉｎｔｓｐｒｅａｄｆｕｎｃｔｉｏｎ）を逐次的に変化させながら各時刻の画像に畳み込み処理をすることで擬似的に生成できる。質に関するパラメータとして、手ぶれ度合いを用いる場合には、複数種類の変化の度合いで生成した手ぶれ動画と手ぶれ度合いとを質推定器学習用の訓練データセットとして用いる。

（変形例１０）
上記実施形態において、対象データをデプス画像や点群とした、物体検出や各点の種別を推定するセマンティックセグメンテーションをデータ処理としてもよい。その場合、対象データの質に関するパラメータとして、距離によるブレ度合いの推定結果、物体の材質や形状によるブレ度合いの推定結果、センサー方式（ＴｏＦ方式、ステレオカメラ方式など）などを用いればよい。また、推定結果だけでなく、推定時に用いる中間特徴量を、対象データの質に関するパラメータとして用いてもよい。
距離によるブレ度合いの推定、物体の材質や形状によるブレ度合いの推定の学習には、高精度なセンサーと実際に用いるセンサーの両方で測定したデータを質推定器学習用の訓練データセットに用いてもよいし、ＣＧで生成したデータにノイズを付与したデータを質推定器学習用の訓練データセットに用いてもよい。
センサー方式（ＴｏＦ方式、ステレオカメラ方式など）は、実行時に方式が既知の場合はその情報を用いてもよいし、未知の場合は対象データから推定するようにしてもよい。この推定の学習には、実際に各センサーで収集したデータを質推定器学習用の訓練データセットに用いてもよいし、ＣＧで擬似的に生成した各方式のデータを質推定器学習用の訓練データセットに用いてもよい。

（変形例１１）
上記実施形態において、対象データを音響データとしたイベント音推定や発話文推定などをデータ処理としてもよい。その場合、対象データの質に関するパラメータとして、雑音の種別（白色雑音、ピンク雑音など）や環境音の種別（工場雑音、車の走行音など）の推定結果などを用いればよい。また、推定結果だけでなく、推定時に用いる中間特徴量を質に関するパラメータとして用いてもよい。
雑音や環境音の種別を推定する質推定器の学習には、事前に生成もしくは録音した雑音や環境音などを、イベント音や発話音などに重ね合わせて擬似的に作成した音響データを、質推定器学習用の訓練データセットに用いればよい。

（変形例１２）
上記実施形態において、対象データを、ＩＭＵ等で測定した加速度や角速度などとし、人のジェスチャー認識やアクティビティ推定をデータ処理としてもよい。その場合、対象データの質に関するパラメータとして、静止状態時の平均値や分散などの統計量や、動作実行時の移動平均、移動分散などの移動統計量などを用いればよい。静止状態時の統計量は、予め、実際に静止した状態で計測したものを利用してもよいし、動作実行時の対象データから適宜、静止状態時の統計量を推定してもよい。この場合の推定の学習に用いる静止状態のデータと動作実行時のデータは、実際にセンサーを人に装着して収集してもよいし、シミュレーションにて算出したものでもよい。また、推定結果だけでなく、推定時に用いる中間特徴量を質に関するパラメータとして用いてもよい。

（変形例１３）
上記実施形態において、質推定器を用いずに、画質パラメータを入力として受け付けるようにしてもよい。この場合、データ処理器学習装置３のデータ処理器学習手段３２の代わりに、図１２に示すデータ処理器学習手段３３２を用いて構成し、画質劣化手段３１を省略する。また、データ処理器８１は、画質パラメータを画質特徴量として受け付け、データ処理器学習手段３３２は、学習用画像、当該学習用画像について入力された画質特徴量、及び正解対象物情報を訓練データセットとして用いて、データ処理器８１を学習する。
データ処理器学習手段３３２は、学習用処理部８０、物体検出誤差算出部８５、及びパラメータ更新部８６を含んで構成される。
学習用処理部８０は、データ処理器８１を用いて、学習用画像内の推定した対象物ごとの中心位置、縦幅、横幅、及び各カテゴリの確率値を出力する。
データ処理器８１は、データ処理器４９と同様に、データ用入力層８１Ａ、データ用中間層８１Ｂ、及びデータ用出力層８１Ｃを含んで構成され、データ用中間層８１Ｂは、物体特徴抽出部８２及び特徴合成部８３を含んで構成され、データ用出力層８１Ｃは、認識部８４を含んで構成される。データ用入力層８１Ａは、学習用画像及び当該学習用画像の画質特徴量を取得し、出力する。
物体検出誤差算出部８５は、物体検出誤差算出部５５と同様に、正解対象物情報と認識結果とを用い、物体検出誤差を算出する。パラメータ更新部８６は、物体検出誤差を最小化するようにデータ処理器８１のパラメータを更新する。
データ処理器学習装置３は、上記の学習データの読み込み、誤差算出、データ処理器８１のパラメータ更新の処理を繰り返していくことで、データ処理器８１の学習を行う。データ処理器学習装置３の動作に関する概略のフロー図は、上記図９のステップＳ２０、Ｓ２３を省略したものと同様である。
画質パラメータとして、ＪＰＥＧｑｕａｌｉｔｙを用いる場合には、データ処理器８１の学習では、ランダムに選択したＪＰＥＧのｑｕａｌｉｔｙｆａｃｔｏｒを用いて、学習用画像をＪＰＥＧ形式でエンコードし、再びデコードした画像と、ｑｕａｌｉｔｙｆａｃｔｏｒ、及び正解対象物情報を訓練データセットとして用いる。
また、画質パラメータとして、ガウシアンフィルタサイズを用いる場合、データ処理器８１の学習では、ランダムに選択したフィルタサイズを用いて入力画像にガウシアンフィルタをかけた画像と、そのフィルタサイズ、及び正解対象物情報を訓練データセットとして用いる。
また、画質パラメータとして、偽色の有無を用いる場合、データ処理器８１の学習では、学習用画像を人が視認し、偽色の有無の情報を付与しておき、その情報と画像、及び正解対象物情報を訓練データセットとして用いる。または、画像の各チャネルを異なる方向に数ピクセル動かすと、高周波な領域に偽色が発生するので、この偽色付与処理を行うか否かを偽色の有無とみなし、学習用画像に対してランダムで偽色付与処理を行い、処理した画像と処理の有無、及び正解対象物情報を訓練データセットとして用いる。
また、画質パラメータとして、コントラスト変換のパラメータを用いる場合、データ処理器８１の学習では、ランダムに選択したコントラスト変換のパラメータを用いて、学習用画像のコントラストを変化させ、その画像と、選択したパラメータ、及び正解対象物情報を訓練データセットとして用いる。
また、画質パラメータとして、色かぶりしている色相、強度を用いる場合、データ処理器８１の学習では、ランダムに色かぶり処理の色相や強度といったパラメータを選択し、それを用いて学習用画像に対して色かぶり処理をし、その画像と、選択したパラメータ、及び正解対象物情報を用いて行う。

また、データ処理装置１の認識手段１１の代わりに、図１３に示す認識手段３１１を用いて構成する。また、認識手段３１１は、撮影画像から、当該撮影画像について入力された画質特徴量とデータ処理器９０を用いて、撮影画像内の推定した対象物ごとの中心位置、縦幅、横幅、及び各カテゴリの確率値を出力する。
データ処理器９０は、データ処理器５９と同様に、データ用入力層９０Ａ、データ用中間層９０Ｂ、及びデータ用出力層９０Ｃを含んで構成され、データ用中間層９０Ｂは、物体特徴抽出部９１及び特徴合成部９２を含んで構成され、データ用出力層９０Ｃは、認識部９３を含んで構成される。データ用入力層９０Ａは、撮影画像及び当該撮影画像の画質特徴量を取得し、出力する。
画質パラメータとして、ＪＰＥＧｑｕａｌｉｔｙを用いる場合には、撮影画像がＪＰＥＧ形式であれば、撮影画像のｑｕａｌｉｔｙｆａｃｔｏｒを用いる。または、事前に人がｑｕａｌｉｔｙｆａｃｔｏｒを設定する。
画質パラメータとして、ガウシアンフィルタサイズを用いる場合には、事前に人が撮影画像のボケの度合いに応じてフィルタサイズを設定する。
また、画質パラメータとして、偽色の有無を用いる場合には、事前に人が偽色の有無を設定する。
また、画質パラメータとして、コントラスト変換のパラメータを用いる場合、事前に人がパラメータを設定する。
また、画質パラメータとして、色かぶりしている色相、強度を用いる場合には、人が入力画像に色かぶりしている色相や強度といったパラメータを設定する。

（変形例１４）
上記実施形態に述べた画質パラメータの他に、以下の画質パラメータを設定してもよい。例えば、画質パラメータとして、インターレース方式か否かを用いる。この場合、質推定器３９の学習では、質推定器学習用の画像の撮影時の設定や、質推定器学習用を人が視認するなどして、インターレース方式か否かという情報を付与しておき、その情報と質推定器学習用の画像とを訓練データセットとして用いる。または、画像の奇数行のピクセルと偶数行のピクセルの位置をずらすことで、インターレース方式を模擬できるので、このインターレース化処理を行うか否かをインターレース方式か否かとみなし、入力画像に対して、ランダムにインターレース化処理を行い、処理した画像を質推定器学習用の画像とし、質推定器学習用の画像と処理の有無を質推定器学習用の訓練データセットとして用いて質推定器３９の学習を行う。また、上記変形例１３のように、質推定器がない場合には、データ処理器８１の学習では、データ処理器学習用の画像の撮影時の設定や、画像を人が視認するなどして、インターレース方式か否かという情報を付与しておき、その情報、データ処理器学習用の画像、及び正解対象物情報を訓練データセットとして用いる。または、入力画像に対して、ランダムにインターレース化処理を行い、処理した画像を、データ処理器学習用の画像とし、データ処理器学習用の画像、処理の有無、及び正解対象物情報を訓練データセットとして用いて、データ処理器８１の学習を行う。データ処理装置１では、撮影時の設定を用いたり、人が事前に視認するなどしてインターレース方式か否かを、画質パラメータとして設定する。

また、画質パラメータとして、イメージセンサーのノイズに関するパラメータを用いてもよい。例えば、フォトンショットノイズやダークショットノイズ、読み取りノイズなどのイメージセンサーに起因するノイズの分布のパラメータを、画質パラメータとして用いる。ノイズ分布をガウス分布と仮定し、質推定器３９の学習では、ガウス分布の分散パラメータを予め複数種類を設定し、ランダムに選んだ分散パラメータのガウス分布から画素ごとにサンプリングした値を加算した画像を学習用劣化画像とし、質推定器３９にこの分散パラメータを推定するよう学習させる。

また、上記変形例１３のように、質推定器がない場合には、データ処理器８１の学習では、データ処理器学習用の画像に用いるイメージセンサーのノイズ分布のパラメータを様々な照明条件下で測定しておき、データ処理器学習用の画像、その画像の撮影時のノイズ分布のパラメータ、及び正解対象物情報を訓練データセットとして用いる。データ処理装置１では、撮影環境下でのイメージセンサーのノイズ分布のパラメータを測定しておき、その値を用いる。

また、画質パラメータとして、撮影時のカメラ情報を用いてもよい。例えば、Ｆ値（絞り値）、シャッタースピード、ＩＳＯ感度、焦点距離、カメラの機種、シャッター方式（グローバルシャッター、ローリングシャッター）を、画質パラメータとして用いる。質推定器３９の学習では、質推定器学習用の画像の撮影時の各パラメータを保持しておき、質推定器学習用の画像、及びその画像の撮影時のパラメータを質推定器学習用の訓練データセットとして用いる。

また、上記変形例１３のように、質推定器がない場合には、データ処理器８１の学習では、データ処理器学習用の画像の撮影時の各パラメータを保持しておき、データ処理器学習用の画像、その画像の撮影時のパラメータ、及び正解対象物情報を訓練データセットとして用いる。データ処理装置１では、撮影環境下での各パラメータを保持しておき、その値を用いる。

また、画質パラメータとして、解像度を用いてもよい。例えば、撮影された画像がデータ処理装置１に入力される過程で、複数回、拡大、縮小されると仮定し、画質パラメータとして、撮影からデータ処理装置１に入力されるまでの間での最小画像サイズや、最小画像サイズから最終的な画像サイズへの拡大・縮小率を用いる。質推定器３９の学習では、入力画像をランダムに拡大縮小させ、その画像を、質推定器学習用の画像とし、質推定器学習用の画像と、それに対応する最小画像サイズや、拡大縮小率とを質推定器学習用の訓練データセットとして用いる。

また、上記変形例１３のように、質推定器がない場合には、データ処理器８１の学習では、入力画像をランダムに拡大縮小させ、その画像を、データ処理器学習用の画像とし、データ処理器学習用の画像と、それに対応する最小画像サイズや、拡大縮小率と、正解対象物情報とを訓練データセットとして用いる。データ処理装置１は、データ処理装置１に入力されるまでの最小サイズを保持しておき、それを利用する。

また、画質パラメータとして、レンズ歪みに関する情報を用いてもよい。例えば、ひずみパラメータを用いる。質推定器３９の学習では、質推定器学習用の画像に用いるカメラのひずみパラメータを計測しておく、もしくは、質推定器学習用の画像内の構造線などをもとに画像毎にひずみパラメータを算出しておき、質推定器学習用の画像とその画像のひずみパラメータを質推定器学習用の訓練データセットとして用いる。

また、上記変形例１３のように、質推定器がない場合には、データ処理器８１の学習は、データ処理器学習用の画像に用いるカメラのひずみパラメータを計測しておく、もしくは、データ処理器学習用の画像内の構造線などをもとに画像毎にひずみパラメータを算出しておき、データ処理器学習用の画像、その画像のひずみパラメータ、及び正解対象物情報を訓練データセットとして用いる。データ処理装置１は、使用するカメラのひずみパラメータを予め測定しておき、その値を用いる。

また、画質パラメータとして、フレームの種別に関する情報を用いてもよい。例えば、対象データを、ｈ．２６４形式などの動画をフレーム単位に分割したものとする場合、フレームの種別（Ｉフレーム、Ｐフレーム、Ｂフレームなど）を画質パラメータとして用いる。また、対象データが動画の場合は、フレームの種別の系列を画質パラメータとして用いる。
質推定器３９の学習では、学習用動画を分割し質推定器学習用の画像を作る際に、質推定器学習用の画像毎にそれに対応するフレームの種別を保持しておき、質推定器学習用の画像とそれに対応するフレームの種別を質推定器学習用の訓練データセットとして用いる。

また、上記変形例１３のように、質推定器がない場合には、データ処理器８１の学習では、学習用動画を分割しデータ処理器学習用の画像を作る際に、データ処理器学習用の画像毎にそれに対応するフレームの種別を保持しておき、データ処理器学習用の画像、それに対応するフレームの種別、及び正解対象物情報を訓練データセットとして用いる。データ処理装置１は、撮影された動画を分割した際の画像ごとのフレームの種別を用いる。

以上のように、当業者は本発明の範囲内で、実施される形態に合わせて様々な変更を行うことができる。

１データ処理装置
２質推定器学習装置
３データ処理器学習装置
１０画像取得手段
１１認識手段
１２表示手段
２２質推定器学習手段
３２、２３２、３３２データ処理器学習手段
３９、４８、５８、６８質推定器
４９、５９、６９、８１、９０データ処理器
４９Ａ、５９Ａ、６９Ａ、８１Ａ、９０Ａデータ用入力層
４９Ｂ、５９Ｂ、６９Ｂ、８１Ｂ、９０Ｂデータ用中間層
４９Ｃ、５９Ｃ、６９Ｃ、８１Ｃ、９０Ｃデータ用出力層

Claims

対象データを取得するデータ用入力手段、
前記データ用入力手段の出力と、前記対象データの質を推定するための質推定部から出力された前記対象データの質に関するパラメータとが入力されるデータ用中間手段、及び
前記データ用中間手段の出力が入力され、前記対象データの処理結果を出力するデータ用出力手段
を備えたデータ処理部
を含む学習済みモデルであって、
データ処理部学習用の対象データ、当該対象データの正解処理結果、及び前記質推定部から出力された当該対象データの質に関するパラメータを訓練データセットとして用いて学習された、学習済みモデル。
前記質推定部は、
質推定部学習用の対象データ及び当該対象データの質を質推定部学習用の訓練データセットとして用いて学習された、請求項１記載の学習済みモデル。
前記質推定部は、さらに
前記データ処理部学習用の対象データ及び当該対象データの質を前記質推定部学習用の訓練データセットに含めて学習された、請求項２記載の学習済みモデル。
対象データ及び当該対象データの質に関するパラメータを取得するデータ用入力手段と、
前記データ用入力手段の出力として、前記対象データ及び当該対象データの質に関するパラメータが入力されるデータ用中間手段と、
前記データ用中間手段の出力が入力され、前記対象データの処理結果を出力するデータ用出力手段と
を備えたデータ処理部
を含む学習済みモデルであって、
データ処理部学習用の対象データ、当該対象データの正解処理結果、及び当該対象データの質に関するパラメータを訓練データセットとして用いて学習された、学習済みモデル。
前記データ処理部は、前記データ用入力手段、前記データ用出力手段、及び前記データ用入力手段と前記データ用出力手段の間に設けられる前記データ用中間手段を有するニューラルネットワークであり、
前記対象データの質に関するパラメータに応じて前記データ用中間手段の出力が決定される、請求項１または請求項４に記載の学習済みモデル。
前記データ処理部は、畳み込みニューラルネットワークであって、
前記データ用中間手段の畳み込み処理で用いられるフィルタのフィルタ係数は、前記対象データの質に関するパラメータに応じて決定される請求項４または請求項５に記載の学習済みモデル。
前記対象データは、画像であり、
前記質は、画像圧縮に関するパラメータ、画像の鮮鋭性に関するパラメータ、偽色に関するパラメータ、インターレース方式に関するパラメータ、イメージセンサーのノイズに関するパラメータ、カメラ情報に関するパラメータ、解像度に関するパラメータ、レンズ歪みに関するパラメータ、フレームの種別に関するパラメータ、色かぶりに関するパラメータ、及びコントラストに関するパラメータの少なくとも一つを含む請求項１乃至請求項６の何れか一項に記載の学習済みモデル。
データ用入力手段、データ用中間手段およびデータ用出力手段を含むデータ処理部と、
対象データの質を推定するための質推定部と
を備えるデータ処理装置であって、
前記データ用入力手段は、対象データを取得し、
前記データ用中間手段は、前記データ用入力手段の出力と、前記質推定部から出力された前記対象データの質に関するパラメータとが入力され、
前記データ用出力手段は、前記データ用中間手段の出力が入力され、前記対象データの処理結果を出力し、
前記データ処理部は、データ処理部学習用の対象データ、当該対象データの正解処理結果、及び前記質推定部から出力された当該対象データの質に関するパラメータを訓練データセットとして用いて学習され、
前記データ処理部に、対象データ及び前記質推定部から出力された当該対象データの質に関するパラメータを入力することで前記対象データの処理を行う
データ処理装置。
データ用入力手段、データ用中間手段、及びデータ用出力手段を含むデータ処理部を備えるデータ処理装置であって、
前記データ用入力手段は、対象データ及び当該対象データの質に関するパラメータを取得し、
前記データ用中間手段は、前記データ用入力手段の出力である前記対象データ及び当該対象データの質に関するパラメータが入力され、
前記データ用出力手段は、前記データ用中間手段の出力が入力され、前記対象データの処理結果を出力し、
前記データ処理部は、データ処理部学習用の対象データ、当該対象データの正解処理結果、及び当該対象データの質に関するパラメータを訓練データセットとして用いて学習され、
前記データ処理部に、対象データ及び当該対象データの質に関するパラメータを入力することで前記対象データの処理を行う
データ処理装置。