JP2022067858A - 学習済みモデル及びデータ処理装置 - Google Patents
学習済みモデル及びデータ処理装置 Download PDFInfo
- Publication number
- JP2022067858A JP2022067858A JP2020176698A JP2020176698A JP2022067858A JP 2022067858 A JP2022067858 A JP 2022067858A JP 2020176698 A JP2020176698 A JP 2020176698A JP 2020176698 A JP2020176698 A JP 2020176698A JP 2022067858 A JP2022067858 A JP 2022067858A
- Authority
- JP
- Japan
- Prior art keywords
- data
- quality
- image
- target data
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 claims abstract description 160
- 230000013016 learning Effects 0.000 claims description 277
- 238000000034 method Methods 0.000 claims description 81
- 230000008569 process Effects 0.000 claims description 57
- 238000012549 training Methods 0.000 claims description 57
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000006866 deterioration Effects 0.000 abstract description 67
- 238000000605 extraction Methods 0.000 description 33
- 230000004048 modification Effects 0.000 description 23
- 238000012986 modification Methods 0.000 description 23
- 238000001514 detection method Methods 0.000 description 20
- 230000015572 biosynthetic process Effects 0.000 description 17
- 238000003786 synthesis reaction Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 16
- 239000002131 composite material Substances 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000013500 data storage Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000011478 gradient descent method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
データ処理システムの各装置の構成について順に説明する。
質推定器学習装置は、事前に用意した質推定器学習用の学習データを用いて、入力画像の画質を推定する質推定器を学習する装置である。
図1に質推定器学習装置2のブロック図を示す。質推定器学習装置2は、質推定器用学習データ記憶手段20、画質劣化手段21、質推定器学習手段22、及び学習済みモデル記憶手段23を含んで構成される。
ここで本発明において高画質な画像とは、ノイズが重畳されていない、JPEG等の圧縮によるブロックノイズが存在していない、偽色が発生していない、などの物体検出の阻害要因がない画像を指す。
学習用推定部38は、質推定器39を用いて、画質パラメータを推定する。質推定器39は、カラー画像を入力とし、推定した画質パラメータを出力するニューラルネットワークで構成される。質推定器学習装置2での質推定器39のネットワークの構造の概要を同図2に示す。質推定器39は、画質特徴抽出部40及び画質推定部41を含んで構成される。画質特徴抽出部40は、学習用劣化画像を入力とし、画質特徴量を算出する。画質推定部41は算出された画質特徴量を入力とし、画質パラメータの推定値を出力する。
なお、画質パラメータの推定を分類問題として扱ったが、回帰問題としてもよい。その場合、質推定器39の画質推定部41の出力値を各パラメータの確率値ではなく、各パラメータそのものを推定し、正解画質パラメータとの誤差を二乗誤差で測ればよい。これは後述の質推定器58の画質推定器61でも同様である。
データ処理器学習装置は、事前に用意したデータ処理器学習用の学習データを用いて、入力画像の物体位置などを推定するデータ処理器を学習する装置である。
図3にデータ処理器学習装置3のブロック図を示す。データ処理器学習装置3は、データ処理器用学習データ記憶手段30、画質劣化手段31、データ処理器学習手段32、及び学習済みモデル記憶手段33を含んで構成される。
学習用処理部47は、質推定器48及びデータ処理器49を用いて、画像内の推定した対象物ごとの中心位置、縦幅、横幅、及び各カテゴリの確率値を出力する。
データ用入力層49Aは、学習用劣化画像を取得し、出力する。
データ用中間層49Bには、データ用入力層49Aの出力と、質推定器48から出力された画質特徴量とが入力され、データ用中間層49Bは、合成特徴量を出力する。
データ用出力層49Cには、データ用中間層49Bの出力が入力され、学習用劣化画像の認識結果を出力する。
そして、この重み付き和によって求まったフィルタ集合{ ̄Wc}c=1,...,Cを用いた畳み込み処理を物体特徴量に施し(図5の53C参照)、その結果を合成特徴量として出力する。
なお、物体特徴抽出部52から出力される物体特徴量には、非特許文献2の構造を利用した場合、縦幅と横幅が異なる複数の物体特徴量が得られるが、それぞれでフィルタ集合を用意し、上記の処理を行い、複数の合成特徴量を算出する。なお、全結合処理で使われる重みだけでなく、Wc,iも学習で求める。
また、フィルタ集合の重みを求めて、フィルタ集合の重み付き和で畳み込み処理で用いるフィルタ集合を合成するために、全結合処理とReLU関数やsigmoid関数でフィルタ集合の重みを求めてもよいし、全結合処理でフィルタ集合を生成するようにしてもよい。これらは、後述するデータ処理器59の特徴合成部63でも同様である。
なお、質推定器のパラメータを更新するようにしてもよい。その際は、誤差逆伝播法にて、画質特徴量を通じて、質推定器に誤差を伝播させることとする。
データ処理装置は、人が存在しうる空間が撮影された画像を解析することで、画像に写った人物の外接矩形を検出し、認識結果を報知する装置である。
図6に、データ処理装置1のブロック図を示す。データ処理装置1は、画像取得手段10、認識手段11、表示手段12、及び学習済みモデル記憶手段13を含んで構成される。
画像取得手段10は、監視カメラからカラー画像である撮影画像を取得し、その画像を認識手段11へ出力する。
質推定器58は、質推定器学習装置2で得られた学習済み質推定器のパラメータを用いる。
データ用入力層59Aは、撮影画像を取得し、出力する。
データ用中間層59Bには、データ用中間層49Bと同様に、データ用入力層59Aの出力と、質推定器58から出力された画質特徴量とが入力され、データ用中間層59Bは、合成特徴量を出力する。
データ用出力層59Cには、データ用出力層49Cと同様に、データ用中間層59Bの出力が入力され、撮影画像の認識結果を出力する。
次に、図8~図10を参照して、データ処理システムの動作例について説明する。
本実施形態では、まず、質推定器学習装置2を用いて、入力画像の画質を推定する質推定器を学習する。次に、質推定器学習装置2で作成された質推定器とデータ処理器学習装置3を用いて、画像内の物体を推定するデータ処理器を学習する。
<質推定器学習装置の動作例>
図8は質推定器学習装置2の動作に関する概略のフロー図である。質推定器の学習動作が開始されると、質推定器学習装置2は、質推定器を予め定めたネットワーク構造に設定し、そのネットワークのパラメータをランダムな数値等で初期化する(ステップS10)。
質推定器学習装置2は、画質劣化手段21にて、読み込んだ質推定器学習用画像から学習用劣化画像を生成し、劣化画像の生成に用いた画質パラメータと劣化画像とを訓練データセットとして出力する(ステップS12)。
質推定器学習装置2は、質推定器学習手段22にて、算出した誤差をもとに誤差逆伝播法で質推定器の各パラメータの勾配を求め、その勾配を用いて、確率的勾配法にて質推定器の各パラメータを更新する(ステップS14)。
図9はデータ処理器学習装置3の動作に関する概略のフロー図である。データ処理器の学習動作が開始されると、まず、データ処理器学習装置3は、学習済みモデル記憶手段33から、質推定器学習装置2で予め得られた質推定器を読み込み(ステップS20)、データ処理器を予め定めたネットワーク構造に設定し、そのネットワークのパラメータをランダムな数値等で初期化する(ステップS21)。
データ処理器学習装置3は、画質劣化手段31にて、データ処理器学習用画像から学習用劣化画像を生成し、学習用劣化画像、及び学習用劣化画像のもととなるデータ処理器学習用画像に対応する正解対象物情報を、訓練データセットとする(ステップS23)。
データ処理器学習装置3は、データ処理器学習手段32にて、算出した誤差をもとに誤差逆伝播法でデータ処理器の各パラメータの勾配を求め、その勾配を用いて、確率的勾配法にてデータ処理器の各パラメータを更新する(ステップS25)。
図10はデータ処理装置1の動作に関する概略のフロー図である。
動作が開始されると、データ処理装置1は、学習済みモデル記憶手段13から学習済みの質推定器及び学習済みのデータ処理器を読み込む。(ステップS30)。
続いて、データ処理装置1は、画像取得手段10によりカラー画像である撮影画像を取得する(ステップS31)。取得した撮影画像は認識手段11に送信される。
データ処理装置1は、認識手段11にて、受信した撮影画像を質推定器及びデータ処理器に入力して認識結果を求め、それを撮影画像と共に表示手段12に出力する(ステップS32)。
データ処理装置1は、表示手段12にて、取得した画像と認識結果をディスプレイに表示する(ステップS33)。そして、監視員が表示された認識結果を視認して状況を判断し、異常があれば必要に応じて対処員を派遣する。
認識結果を表示後、画像取得手段10による画像の取得(ステップS31)に戻り、データ処理装置1を停止するまで、動作を続ける。
なお、本発明は、上述した実施形態の装置構成及び作用に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
上記実施形態では、質推定器の学習とデータ処理器の学習を順に行っていたが、両学習を同時に行ってもよい。この場合には、データ処理器学習装置3のデータ処理器学習手段32の代わりに、図11に示すデータ処理器学習手段232を用いて構成すればよい。データ処理器学習手段232は、学習用処理部67、画質推定誤差算出部72、物体検出誤差算出部76、及びパラメータ更新部77を含んで構成される。
学習用処理部67は、質推定器68を用いて、学習用劣化画像の画質パラメータを推定する。質推定器68は、質推定器39と同様に、画質特徴抽出部70及び画質推定部71を含んで構成される。
学習用処理部67は、質推定器68及びデータ処理器69を用いて、学習用劣化画像内の推定した対象物ごとの中心位置、縦幅、横幅、及び各カテゴリの確率値を出力する。
データ処理器69は、データ処理器49と同様に、データ用入力層69A、データ用中間層69B、及びデータ用出力層69Cを含んで構成され、データ用中間層69Bは、物体特徴抽出部73及び特徴合成部74を含んで構成され、データ用出力層69Cは、認識部75を含んで構成される。
画質推定誤差算出部72は、画質推定誤差算出部42と同様に、正解画質パラメータと推定画質パラメータとを用い、画質推定誤差を算出する。
物体検出誤差算出部76は、物体検出誤差算出部55と同様に、正解対象物情報と認識結果とを用い、物体検出誤差を算出する。
パラメータ更新部77は、画質推定誤差と物体検出誤差との和を最小化するように、質推定器68及びデータ処理器69のパラメータを更新する。
データ処理器学習装置3は、上記の学習データの読み込み、誤差算出、質推定器68及びデータ処理器69のパラメータ更新の処理を繰り返していくことで、質推定器68及びデータ処理器69の学習を行う。
上記実施形態では、画質特徴量をデータ処理器49、59に入力していたが、推定画質パラメータをデータ処理器49、59に入力してもよい。上記実施形態では、画質パラメータとしてガウシアンフィルタのフィルタサイズは8種類、JPEGのquality factorは10種類であり、推定画質パラメータとして18個の確率値が算出されるので、それを特徴合成部53、63に入力すればよい。
上記実施形態では、データ処理器49、59に入力する画質特徴量はglobal average poolingによって特徴マップから特徴ベクトルに変換されていたが、局所領域ごとの画質情報を利用するために、global average pooling処理前の特徴マップを画質特徴量としてデータ処理器49、59に入力するようにし、局所領域ごとにフィルタ集合を合成してもよい。この場合、画質特徴量と物体特徴量の縦幅、横幅が異なる場合があるが、バイリニア補間などを用いて画質特徴量のサイズを物体特徴量と同じサイズに変換すればよい。また、両特徴量を連結する場合も、画質特徴量のサイズを物体特徴量と同じサイズに変換し、連結すればよい。
また、上記の実施形態では、画質特徴量から算出した重みで複数のフィルタ集合を合成し、合成したフィルタを用いて物体特徴量に対し畳み込み処理をすることで合成特徴量を算出していたが、本変形例では、はじめに各フィルタ集合で物体特徴量に対し畳み込み処理をして複数の特徴マップを算出し、そして画質特徴量から算出した重みで特徴マップを合成することで合成特徴量を算出するのが、並列計算で処理することを考えると好適である。
上記実施形態では、画質劣化処理として、ガウシアンフィルタ処理やJPEG劣化処理を用いたが、コントラスト変換処理や偽色付与処理などを用いてもよい。
画質劣化処理として、コントラスト変換処理を用いる場合、画像のコントラストを補正し、過度に明るくしたり、暗くしたりし、それらの変化があったか否か、変化の度合いなどのコントラスト変換のパラメータを画質パラメータとして用いる。例えば、コントラスト変換のパラメータの一つであるガンマ補正を利用する場合であればガンマ値を画質パラメータとして用いる。質推定器39はこのガンマ値を推定する。質推定器39の学習では、ランダムにガンマ値を選択し、それを用いて入力画像に対してコントラスト変換処理をし、処理した画像を質推定器学習用の画像とし、質推定器学習用の画像と選択したパラメータとを、質推定器学習用の訓練データセットとして用いる。
画質劣化処理として偽色付与処理を用いる場合、画質パラメータは偽色の有無とし、質推定器39はこの偽色の有無を推定する。質推定器39の学習では、入力画像の各チャネルを数ピクセル異なる方向に動かすと、高周波な領域に偽色が発生する。そこで、これを偽色付与処理として用い、入力画像に対してランダムで偽色付与処理を行い、処理した画像を、質推定器学習用の画像とし、質推定器学習用の画像と偽色の有無とを質推定器学習用の訓練データセットとして用いる。または、質推定器学習用の画像を人が視認し、偽色の有無の情報を付与しておき、その情報と画像を質推定器学習用の訓練データセットとして用いる。
画質劣化処理として色かぶり処理を用いる場合、選択した色相や強度に応じて、RGBチャネルごとのトーンカーブを修正することで、擬似的に色がぶりした画像を作ることができるので、これを色かぶり処理として用いる。画質パラメータとしては、色かぶりしている色相、強度を用い、質推定器39は、色かぶりしている色相、強度を推定する。質推定器39の学習では、ランダムに色かぶり処理の色相や強度といったパラメータを選択し、それを用いて入力画像に対して色かぶり処理をし、処理した画像を質推定器学習用の画像とし、質推定器学習用の画像と選択したパラメータとを、質推定器学習用の訓練データセットとして用いる。
上記実施形態では、CNNを用いて画質特徴量を抽出していたが、学習を伴わない処理により算出された画質情報を画質特徴量として利用してもよい。例えば、ボケ度合いや鮮明さを表すものとして、入力画像の高周波成分の強度やエッジ強度のヒストグラム、LBP特徴量などが利用できる。また、極端に明るい画像や暗い画像かどうかを表すものとしては、画像内の色数や色ヒストグラムなどが利用できる。
上記実施形態では、質推定器39、48やデータ処理器49、59をCNNによって構成していたが、これに限定されるものではない。例えば、質推定器39、48にCNNを利用しない場合、画質特徴抽出部40、50ではHOG特徴量やLBP特徴量、色ヒストグラムなどを抽出し、画質推定部41、51ではロジスティック回帰やSVM、Random Forest、AdaBoostを用いて画質パラメータを推定し、その推定結果を、質に関するパラメータとして、データ処理器49、59の特徴合成部53、63に入力すればよい。また、上記のような構成において、L1正則付きのロジスティック回帰で選択された画質特徴量やAdaBoostで選択された画質特徴量を、データ処理器49、59の特徴合成部53、63に入力してもよい。データ処理器49、59にCNNを利用しない場合は、物体特徴抽出部52、62では物体特徴量としてHOG特徴量やHaar-like特徴量を抽出し、特徴合成部53、63では画質特徴量と物体特徴量を連結し、認識部54、64ではロジスティック回帰やSVM、Random Forest、AdaBoostなどを用いればよい。
上記実施形態では、質推定器学習装置2の学習で用いる質推定器学習用画像として、データ処理器学習装置3の学習で用いるデータ処理器学習用画像と異なるものを用いていたが、データ処理器学習用画像を質推定器学習用画像としても用いてもよい。
上記実施形態では、画像に対するデータ処理として、画像内に写る対象物の位置や種別を推定する物体認識を行う場合を例として説明したが、他の画像認識タスクでも良い。例えば、画像内に写る物体の種別を推定する画像分類や、画像の各ピクセルの種別を推定するセマンティックセグメンテーション、各ピクセルで局所領域あたりの人数を推定する群衆密度推定、対象物の関節位置を推定するキーポイント検出を、画像に対するデータ処理としてもよい。
上記実施形態において、対象データを動画とした、行動認識や物体検出をデータ処理としてもよい。その場合、対象データの質に関するパラメータとして、エンコードパラメータの推定結果、フリッカーの有無の推定結果、手ぶれ度合いの推定結果などを用いればよい。また、推定結果だけでなく、推定時に用いる中間特徴量を、対象データの質に関するパラメータとして用いてもよい。
入力動画のエンコードした際のエンコードパラメータには、コーデックやビットレートなどがある。エンコードパラメータを推定する質推定器の学習には、各エンコードパラメータを変化させて再エンコードした動画を用いればよい。
質に関するパラメータとして、フリッカーの有無を用いる場合には、一定の時間周期、空間周期で画像の明暗を変化させることで擬似的にフリッカーを含む動画を生成できるので、それを質推定器学習用の訓練データセットとして用いればよい。
手ぶれ動画は、異方性のフィルタPSF(point spread function)を逐次的に変化させながら各時刻の画像に畳み込み処理をすることで擬似的に生成できる。質に関するパラメータとして、手ぶれ度合いを用いる場合には、複数種類の変化の度合いで生成した手ぶれ動画と手ぶれ度合いとを質推定器学習用の訓練データセットとして用いる。
上記実施形態において、対象データをデプス画像や点群とした、物体検出や各点の種別を推定するセマンティックセグメンテーションをデータ処理としてもよい。その場合、対象データの質に関するパラメータとして、距離によるブレ度合いの推定結果、物体の材質や形状によるブレ度合いの推定結果、センサー方式(ToF方式、ステレオカメラ方式など)などを用いればよい。また、推定結果だけでなく、推定時に用いる中間特徴量を、対象データの質に関するパラメータとして用いてもよい。
距離によるブレ度合いの推定、物体の材質や形状によるブレ度合いの推定の学習には、高精度なセンサーと実際に用いるセンサーの両方で測定したデータを質推定器学習用の訓練データセットに用いてもよいし、CGで生成したデータにノイズを付与したデータを質推定器学習用の訓練データセットに用いてもよい。
センサー方式(ToF方式、ステレオカメラ方式など)は、実行時に方式が既知の場合はその情報を用いてもよいし、未知の場合は対象データから推定するようにしてもよい。この推定の学習には、実際に各センサーで収集したデータを質推定器学習用の訓練データセットに用いてもよいし、CGで擬似的に生成した各方式のデータを質推定器学習用の訓練データセットに用いてもよい。
上記実施形態において、対象データを音響データとしたイベント音推定や発話文推定などをデータ処理としてもよい。その場合、対象データの質に関するパラメータとして、雑音の種別(白色雑音、ピンク雑音など)や環境音の種別(工場雑音、車の走行音など)の推定結果などを用いればよい。また、推定結果だけでなく、推定時に用いる中間特徴量を質に関するパラメータとして用いてもよい。
雑音や環境音の種別を推定する質推定器の学習には、事前に生成もしくは録音した雑音や環境音などを、イベント音や発話音などに重ね合わせて擬似的に作成した音響データを、質推定器学習用の訓練データセットに用いればよい。
上記実施形態において、対象データを、IMU等で測定した加速度や角速度などとし、人のジェスチャー認識やアクティビティ推定をデータ処理としてもよい。その場合、対象データの質に関するパラメータとして、静止状態時の平均値や分散などの統計量や、動作実行時の移動平均、移動分散などの移動統計量などを用いればよい。静止状態時の統計量は、予め、実際に静止した状態で計測したものを利用してもよいし、動作実行時の対象データから適宜、静止状態時の統計量を推定してもよい。この場合の推定の学習に用いる静止状態のデータと動作実行時のデータは、実際にセンサーを人に装着して収集してもよいし、シミュレーションにて算出したものでもよい。また、推定結果だけでなく、推定時に用いる中間特徴量を質に関するパラメータとして用いてもよい。
上記実施形態において、質推定器を用いずに、画質パラメータを入力として受け付けるようにしてもよい。この場合、データ処理器学習装置3のデータ処理器学習手段32の代わりに、図12に示すデータ処理器学習手段332を用いて構成し、画質劣化手段31を省略する。また、データ処理器81は、画質パラメータを画質特徴量として受け付け、データ処理器学習手段332は、学習用画像、当該学習用画像について入力された画質特徴量、及び正解対象物情報を訓練データセットとして用いて、データ処理器81を学習する。
データ処理器学習手段332は、学習用処理部80、物体検出誤差算出部85、及びパラメータ更新部86を含んで構成される。
学習用処理部80は、データ処理器81を用いて、学習用画像内の推定した対象物ごとの中心位置、縦幅、横幅、及び各カテゴリの確率値を出力する。
データ処理器81は、データ処理器49と同様に、データ用入力層81A、データ用中間層81B、及びデータ用出力層81Cを含んで構成され、データ用中間層81Bは、物体特徴抽出部82及び特徴合成部83を含んで構成され、データ用出力層81Cは、認識部84を含んで構成される。データ用入力層81Aは、学習用画像及び当該学習用画像の画質特徴量を取得し、出力する。
物体検出誤差算出部85は、物体検出誤差算出部55と同様に、正解対象物情報と認識結果とを用い、物体検出誤差を算出する。パラメータ更新部86は、物体検出誤差を最小化するようにデータ処理器81のパラメータを更新する。
データ処理器学習装置3は、上記の学習データの読み込み、誤差算出、データ処理器81のパラメータ更新の処理を繰り返していくことで、データ処理器81の学習を行う。データ処理器学習装置3の動作に関する概略のフロー図は、上記図9のステップS20、S23を省略したものと同様である。
画質パラメータとして、JPEG qualityを用いる場合には、データ処理器81の学習では、ランダムに選択したJPEGのquality factorを用いて、学習用画像をJPEG形式でエンコードし、再びデコードした画像と、quality factor、及び正解対象物情報を訓練データセットとして用いる。
また、画質パラメータとして、ガウシアンフィルタサイズを用いる場合、データ処理器81の学習では、ランダムに選択したフィルタサイズを用いて入力画像にガウシアンフィルタをかけた画像と、そのフィルタサイズ、及び正解対象物情報を訓練データセットとして用いる。
また、画質パラメータとして、偽色の有無を用いる場合、データ処理器81の学習では、学習用画像を人が視認し、偽色の有無の情報を付与しておき、その情報と画像、及び正解対象物情報を訓練データセットとして用いる。または、画像の各チャネルを異なる方向に数ピクセル動かすと、高周波な領域に偽色が発生するので、この偽色付与処理を行うか否かを偽色の有無とみなし、学習用画像に対してランダムで偽色付与処理を行い、処理した画像と処理の有無、及び正解対象物情報を訓練データセットとして用いる。
また、画質パラメータとして、コントラスト変換のパラメータを用いる場合、データ処理器81の学習では、ランダムに選択したコントラスト変換のパラメータを用いて、学習用画像のコントラストを変化させ、その画像と、選択したパラメータ、及び正解対象物情報を訓練データセットとして用いる。
また、画質パラメータとして、色かぶりしている色相、強度を用いる場合、データ処理器81の学習では、ランダムに色かぶり処理の色相や強度といったパラメータを選択し、それを用いて学習用画像に対して色かぶり処理をし、その画像と、選択したパラメータ、及び正解対象物情報を用いて行う。
データ処理器90は、データ処理器59と同様に、データ用入力層90A、データ用中間層90B、及びデータ用出力層90Cを含んで構成され、データ用中間層90Bは、物体特徴抽出部91及び特徴合成部92を含んで構成され、データ用出力層90Cは、認識部93を含んで構成される。データ用入力層90Aは、撮影画像及び当該撮影画像の画質特徴量を取得し、出力する。
画質パラメータとして、JPEG qualityを用いる場合には、撮影画像がJPEG形式であれば、撮影画像のquality factorを用いる。または、事前に人がquality factorを設定する。
画質パラメータとして、ガウシアンフィルタサイズを用いる場合には、事前に人が撮影画像のボケの度合いに応じてフィルタサイズを設定する。
また、画質パラメータとして、偽色の有無を用いる場合には、事前に人が偽色の有無を設定する。
また、画質パラメータとして、コントラスト変換のパラメータを用いる場合、事前に人がパラメータを設定する。
また、画質パラメータとして、色かぶりしている色相、強度を用いる場合には、人が入力画像に色かぶりしている色相や強度といったパラメータを設定する。
上記実施形態に述べた画質パラメータの他に、以下の画質パラメータを設定してもよい。例えば、画質パラメータとして、インターレース方式か否かを用いる。この場合、質推定器39の学習では、質推定器学習用の画像の撮影時の設定や、質推定器学習用を人が視認するなどして、インターレース方式か否かという情報を付与しておき、その情報と質推定器学習用の画像とを訓練データセットとして用いる。または、画像の奇数行のピクセルと偶数行のピクセルの位置をずらすことで、インターレース方式を模擬できるので、このインターレース化処理を行うか否かをインターレース方式か否かとみなし、入力画像に対して、ランダムにインターレース化処理を行い、処理した画像を質推定器学習用の画像とし、質推定器学習用の画像と処理の有無を質推定器学習用の訓練データセットとして用いて質推定器39の学習を行う。また、上記変形例13のように、質推定器がない場合には、データ処理器81の学習では、データ処理器学習用の画像の撮影時の設定や、画像を人が視認するなどして、インターレース方式か否かという情報を付与しておき、その情報、データ処理器学習用の画像、及び正解対象物情報を訓練データセットとして用いる。または、入力画像に対して、ランダムにインターレース化処理を行い、処理した画像を、データ処理器学習用の画像とし、データ処理器学習用の画像、処理の有無、及び正解対象物情報を訓練データセットとして用いて、データ処理器81の学習を行う。データ処理装置1では、撮影時の設定を用いたり、人が事前に視認するなどしてインターレース方式か否かを、画質パラメータとして設定する。
質推定器39の学習では、学習用動画を分割し質推定器学習用の画像を作る際に、質推定器学習用の画像毎にそれに対応するフレームの種別を保持しておき、質推定器学習用の画像とそれに対応するフレームの種別を質推定器学習用の訓練データセットとして用いる。
2 質推定器学習装置
3 データ処理器学習装置
10 画像取得手段
11 認識手段
12 表示手段
22 質推定器学習手段
32、232、332 データ処理器学習手段
39、48、58、68 質推定器
49、59、69、81、90 データ処理器
49A、59A、69A、81A、90A データ用入力層
49B、59B、69B、81B、90B データ用中間層
49C、59C、69C、81C、90C データ用出力層
Claims (9)
- 対象データを取得するデータ用入力手段、
前記データ用入力手段の出力と、前記対象データの質を推定するための質推定部から出力された前記対象データの質に関するパラメータとが入力されるデータ用中間手段、及び
前記データ用中間手段の出力が入力され、前記対象データの処理結果を出力するデータ用出力手段
を備えたデータ処理部
を含む学習済みモデルであって、
データ処理部学習用の対象データ、当該対象データの正解処理結果、及び前記質推定部から出力された当該対象データの質に関するパラメータを訓練データセットとして用いて学習された、学習済みモデル。 - 前記質推定部は、
質推定部学習用の対象データ及び当該対象データの質を質推定部学習用の訓練データセットとして用いて学習された、請求項1記載の学習済みモデル。 - 前記質推定部は、さらに
前記データ処理部学習用の対象データ及び当該対象データの質を前記質推定部学習用の訓練データセットに含めて学習された、請求項2記載の学習済みモデル。 - 対象データ及び当該対象データの質に関するパラメータを取得するデータ用入力手段と、
前記データ用入力手段の出力として、前記対象データ及び当該対象データの質に関するパラメータが入力されるデータ用中間手段と、
前記データ用中間手段の出力が入力され、前記対象データの処理結果を出力するデータ用出力手段と
を備えたデータ処理部
を含む学習済みモデルであって、
データ処理部学習用の対象データ、当該対象データの正解処理結果、及び当該対象データの質に関するパラメータを訓練データセットとして用いて学習された、学習済みモデル。 - 前記データ処理部は、前記データ用入力手段、前記データ用出力手段、及び前記データ用入力手段と前記データ用出力手段の間に設けられる前記データ用中間手段を有するニューラルネットワークであり、
前記対象データの質に関するパラメータに応じて前記データ用中間手段の出力が決定される、請求項1または請求項4に記載の学習済みモデル。 - 前記データ処理部は、畳み込みニューラルネットワークであって、
前記データ用中間手段の畳み込み処理で用いられるフィルタのフィルタ係数は、前記対象データの質に関するパラメータに応じて決定される請求項4または請求項5に記載の学習済みモデル。 - 前記対象データは、画像であり、
前記質は、画像圧縮に関するパラメータ、画像の鮮鋭性に関するパラメータ、偽色に関するパラメータ、インターレース方式に関するパラメータ、イメージセンサーのノイズに関するパラメータ、カメラ情報に関するパラメータ、解像度に関するパラメータ、レンズ歪みに関するパラメータ、フレームの種別に関するパラメータ、色かぶりに関するパラメータ、及びコントラストに関するパラメータの少なくとも一つを含む請求項1乃至請求項6の何れか一項に記載の学習済みモデル。 - データ用入力手段、データ用中間手段およびデータ用出力手段を含むデータ処理部と、
対象データの質を推定するための質推定部と
を備えるデータ処理装置であって、
前記データ用入力手段は、対象データを取得し、
前記データ用中間手段は、前記データ用入力手段の出力と、前記質推定部から出力された前記対象データの質に関するパラメータとが入力され、
前記データ用出力手段は、前記データ用中間手段の出力が入力され、前記対象データの処理結果を出力し、
前記データ処理部は、データ処理部学習用の対象データ、当該対象データの正解処理結果、及び前記質推定部から出力された当該対象データの質に関するパラメータを訓練データセットとして用いて学習され、
前記データ処理部に、対象データ及び前記質推定部から出力された当該対象データの質に関するパラメータを入力することで前記対象データの処理を行う
データ処理装置。 - データ用入力手段、データ用中間手段、及びデータ用出力手段を含むデータ処理部を備えるデータ処理装置であって、
前記データ用入力手段は、対象データ及び当該対象データの質に関するパラメータを取得し、
前記データ用中間手段は、前記データ用入力手段の出力である前記対象データ及び当該対象データの質に関するパラメータが入力され、
前記データ用出力手段は、前記データ用中間手段の出力が入力され、前記対象データの処理結果を出力し、
前記データ処理部は、データ処理部学習用の対象データ、当該対象データの正解処理結果、及び当該対象データの質に関するパラメータを訓練データセットとして用いて学習され、
前記データ処理部に、対象データ及び当該対象データの質に関するパラメータを入力することで前記対象データの処理を行う
データ処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020176698A JP7543080B2 (ja) | 2020-10-21 | 2020-10-21 | 学習済みモデル及びデータ処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020176698A JP7543080B2 (ja) | 2020-10-21 | 2020-10-21 | 学習済みモデル及びデータ処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022067858A true JP2022067858A (ja) | 2022-05-09 |
JP7543080B2 JP7543080B2 (ja) | 2024-09-02 |
Family
ID=81455956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020176698A Active JP7543080B2 (ja) | 2020-10-21 | 2020-10-21 | 学習済みモデル及びデータ処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7543080B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502959A (zh) * | 2023-06-21 | 2023-07-28 | 南京航空航天大学 | 一种基于元学习的产品制造质量预测方法 |
WO2024038505A1 (ja) * | 2022-08-16 | 2024-02-22 | 日本電気株式会社 | 映像処理装置、映像処理システム及び映像処理方法 |
WO2024057446A1 (ja) * | 2022-09-14 | 2024-03-21 | 日本電気株式会社 | 映像処理システム、映像処理装置および映像処理方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014130427A (ja) | 2012-12-28 | 2014-07-10 | Samsung R&D Institute Japan Co Ltd | 画質推定装置、画質推定方法および画質推定プログラム |
JP6450287B2 (ja) | 2015-09-16 | 2019-01-09 | 日本電信電話株式会社 | 学習データ生成装置、学習装置、学習データ生成方法、学習方法及び画像処理プログラム |
JP7180590B2 (ja) | 2017-03-22 | 2022-11-30 | 日本電気株式会社 | オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及びオブジェクト特徴量抽出プログラム |
JP7121678B2 (ja) | 2019-03-15 | 2022-08-18 | Kddi株式会社 | 画像処理装置、プログラム及び学習方法 |
-
2020
- 2020-10-21 JP JP2020176698A patent/JP7543080B2/ja active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024038505A1 (ja) * | 2022-08-16 | 2024-02-22 | 日本電気株式会社 | 映像処理装置、映像処理システム及び映像処理方法 |
WO2024057446A1 (ja) * | 2022-09-14 | 2024-03-21 | 日本電気株式会社 | 映像処理システム、映像処理装置および映像処理方法 |
CN116502959A (zh) * | 2023-06-21 | 2023-07-28 | 南京航空航天大学 | 一种基于元学习的产品制造质量预测方法 |
CN116502959B (zh) * | 2023-06-21 | 2023-09-08 | 南京航空航天大学 | 一种基于元学习的产品制造质量预测方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7543080B2 (ja) | 2024-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111539879B (zh) | 基于深度学习的视频盲去噪方法及装置 | |
Yin et al. | Color transferred convolutional neural networks for image dehazing | |
US20200357099A1 (en) | Video inpainting with deep internal learning | |
JP2022067858A (ja) | 学習済みモデル及びデータ処理装置 | |
KR20210114856A (ko) | 딥 컨볼루션 신경망을 이용한 이미지 노이즈 제거 시스템 및 방법 | |
CN111292264A (zh) | 一种基于深度学习的图像高动态范围重建方法 | |
US20100061642A1 (en) | Prediction coefficient operation device and method, image data operation device and method, program, and recording medium | |
CN112288632B (zh) | 基于精简esrgan的单图像超分辨率方法及系统 | |
Lu et al. | An imaging information estimation network for underwater image color restoration | |
CN112270691B (zh) | 一种基于动态滤波器网络的单目视频结构和运动预测方法 | |
CN113284061B (zh) | 一种基于梯度网络的水下图像增强方法 | |
Prajapati et al. | Direct unsupervised super-resolution using generative adversarial network (DUS-GAN) for real-world data | |
Sahu et al. | Blind deblurring using deep learning: A survey | |
Fan et al. | Multiscale cross-connected dehazing network with scene depth fusion | |
Aakerberg et al. | Semantic segmentation guided real-world super-resolution | |
Saleh et al. | Adaptive uncertainty distribution in deep learning for unsupervised underwater image enhancement | |
Mei et al. | Ltt-gan: Looking through turbulence by inverting gans | |
Li et al. | Human perceptual quality driven underwater image enhancement framework | |
Shaw et al. | Hdr reconstruction from bracketed exposures and events | |
CN114119428B (zh) | 一种图像去模糊方法和装置 | |
CN115018726A (zh) | 一种基于U-Net的图像非均匀模糊核的估计方法 | |
CN114005157A (zh) | 一种基于卷积神经网络的像素位移向量的微表情识别方法 | |
KS et al. | A Comprehensive Analysis of Underwater Image Processing based on Deep Learning Techniques | |
CN113935928A (zh) | 基于Raw格式岩心图像超分辨率重建 | |
Yang et al. | Multi-scale extreme exposure images fusion based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230828 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240521 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240730 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240821 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7543080 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |