JP2019082847A - データ推定装置、データ推定方法及びプログラム - Google Patents
データ推定装置、データ推定方法及びプログラム Download PDFInfo
- Publication number
- JP2019082847A JP2019082847A JP2017209674A JP2017209674A JP2019082847A JP 2019082847 A JP2019082847 A JP 2019082847A JP 2017209674 A JP2017209674 A JP 2017209674A JP 2017209674 A JP2017209674 A JP 2017209674A JP 2019082847 A JP2019082847 A JP 2019082847A
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- similar
- estimation
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Image Analysis (AREA)
Abstract
【課題】ビッグデータに対してスケールする学習を行うことが可能な学習装置を提供する。【解決手段】データ推定装置は、推定の対象となる対象データを受け付ける、対象データ受付部と、教師付データの集合から、前記対象データに類似する類似データの集合である類似データ群を抽出する、類似データ群抽出部と、前記類似データ群を用いて、局所的かつ正則化させる学習を行い、局所的モデルを生成する、学習部と、前記局所的モデルを用いて前記対象データについて推定する、推定部と、推定した結果を出力する、出力部と、を備える。【選択図】図2
Description
本発明は、データ推定装置、データ推定方法及びプログラムに関する。
ディープニューラルネットワーク(Deep Neural Network:DNN)は、ビッグデータを用いて学習することにより様々な方面でこれまでなしえなかった成果を上げている。しかしながら、巨大なDNNの学習には莫大な時間が掛かり、ResNetのように構造を工夫したりAdamやバッチ規格化のように学習アルゴリズムを工夫したりしないと最適化が困難である。特に、追加されていくデータに対して構造を最適化し直すのは困難である。また、DNNはパラメータをもつ非線形関数であり、パラメータを変化させることで様々な関数を表現できるものの、任意の非線形関数を表現できるわけではないため、データ数が無限に増えていっても真の分布への漸近的な接近を保証することはできない。その一方で、多くの問題では局所的に単純なモデルで記述が可能である。そこで、推定したい対象データが与えられるたびに、類似したデータ群のみを用いて局所的に単純なモデル(典型的には線形モデル)を学習して、推論を行う手法が存在する。しかし、それらは少数の類似したデータ群のみを用いて学習をおこなうため過学習を行う危険性が存在する。
William S. Cleveland, et.al, "Locally Weighted Regression: An Approach to Regression Analysis by Local Fitting," Jounal of the American Statistical Association, 1988, 83(403), p.596−p.610
R. Tibshirani, et.al, "Local likelihood estimation," Journal of the American Statistical Association, 1987, 82(398), p.559−p.567
そこで、本発明は、ビッグデータに対してスケールする学習を行うことが可能でかつ、過学習を抑えた学習装置を提供する。
一実施形態に係るデータ推定装置は、推定の対象となる対象データを受け付ける、対象データ受付部と、教師付データの集合から、前記対象データに類似するデータの集合である類似データ群を抽出する、類似データ群抽出部と、前記類似データ群を用いて、局所的かつ正則化させる学習を行い、局所的モデルを生成する、学習部と、前記局所的モデルを用いて前記対象データについて推定する、推定部と、推定した結果を出力する、出力部と、を備える。
学習を行う際に、ビッグデータに対してスケールすることが可能でかつ、過学習を抑えることができる。
本実施形態においては、事前に生成された学習モデルを用いて推定をするのではなく、推定を行う対象となるデータに基づいて、オンデマンドで学習モデルを生成し、生成された学習モデルを用いて推定をしようとするものである。以下図面を用いて本実施形態に係る学習装置について詳しく説明する。
図1は、本実施形態に係る学習、推定モデルの概略を示す図である。データ空間1内には、多くの教師付データが格納されている。データ空間1は、例えば、所謂ビッグデータと呼ばれるものであり、1のサーバ機に備えられているものであってもよいし、インターネット回線等を介して様々な場所に散らばって存在するデータの集合であってもよい。
一例として、8×8ピクセルの対象データを入力した場合に、32×32の高解像度画像を出力する、超解像画像を推定する場合について説明する。対象データ2Aが入力されると、データ空間1内において、対象データ2Aと類似する入力を有するデータを抽出し、抽出された複数の画像を類似データ群1Aとして取得する。すなわち、類似データ群1Aに属するデータは、データ空間1の集合に属するデータの一部の集合である。
本実施形態に係る学習装置は、この類似データ群1Aから、局所的な推定モデル3Aを学習により取得する。そして、推定モデル3Aに対象データ2Aを入力することにより、対象データ2Aの超解像画像を推定し、出力する。このように、データの入力がされた後に、学習を行い、当該入力されたデータについての推定を行い出力すると言ったオンデマンドな学習と推定を行う。
例えば、別の対象データ2Bが入力されると、データ空間1から、別の類似データ群1Bが抽出され、推定モデル3Aとは別の推定モデル3Bが学習により取得される。そして、対象データ2Aを当該推定モデル3Bの入力とすることにより、対象データ2Bの超解像画像を得ることが可能となる。
類似データ群1A、1Bが異なるデータ群に属していることから、取得される推定モデル3A、3Bも異なるモデルとなる。このように、対象データごとに異なる推定モデルをオンデマンドな学習により取得して、対象データに対する推定が行われる。
図2は、本実施形態に係るデータ推定装置10の機能を示すブロック図である。データ推定装置10は、対象データ受付部100と、類似データ群抽出部102と、教師付データ格納部104と、初期値生成部106と、学習部108と、推定部110と、出力部112と、を備える。
対象データ受付部100は、推定の対象となるデータである対象データを受け付けるインターフェースである。この対象データ受付部100は、受け付けた対象データを類似データ群抽出部102へと出力する。
類似データ群抽出部102は、入力された対象データに基づいて、類似データを抽出する。類似データは、教師付データ格納部104内に存在する教師付データのうち、対象データと類似するデータである。類似データ群抽出部102は、所定の条件にしたがい、複数の対象データを教師付データ格納部104から抽出する。
教師付データ格納部104は、複数の教師付データを格納している。この教師付データ格納部104は、図1におけるデータ空間1に対応するものである。上述したように、このデータは、1のサーバにまとめて格納されていてもよいし、インターネット等を介して複数の場所に分散して格納されていてもよい。
対象となるデータの種類によって、類似データ群抽出部102は、別のデータ空間1を参照する。例えば、超解像を行う場合には、超解像の教師付データが格納されているデータ空間1を参照し、文字認識、音声認識といった別のデータの推定を行う場合には、当該別の種類のデータが格納されているデータ空間1を参照する。もちろん、対象となるデータの種類のうち、複数の種類を包含するデータ空間1があってもよい。
初期値生成部106は、訓練データを用いて学習を行う前に、ネットワークの初期値を生成する。初期値の生成は、例えば、学習部108が学習を実行する学習モデルと比較して、単純なモデルにより実行される。典型的には線形モデルを学習モデルとして、その初期値を生成する。超解像の場合であれば、一例として、対象データ2Aに類似した類似データ群1Aに含まれる高解像度画像に対する主成分分析により、基底ベクトルとその重みの初期値を生成する。
学習部108は、抽出又は生成された類似データ群から推定モデルを学習により取得する。局所的な推定モデルである局所的モデルを取得できればよいので、学習部108にて構築される推定モデルは、オーバーフィッティングしないようにしつつも単純な方法で学習するものであってもよい。
推定部110は、学習部108が学習により生成した推定モデルに基づいて、対象データ受付部100が受け付けた対象データから推定値を取得する。
出力部112は、推定部110が推定した推定値を出力する。出力は、画面等に表示するようにしてもよいし、印刷機により印刷するようにしてもよいし、音声データであれば、スピーカ等から音声を出力してもよい。
図3は、本実施形態におけるデータ推定装置の処理の流れを示すフローチャートである。以下、一例として、上述したように8×8ピクセルの画像から、32×32ピクセルの超解像画像を推定する処理について、フローチャートを用いて説明する。
まず、対象データ受付部100は、推論対象データを受け付ける(ステップS100)。例えば、ユーザがコンピュータのインターフェースを用いて入力した画像を、対象データ受付部100が受け付ける。
次に、類似データ群抽出部102は、教師付データ格納部104から、対象データと類似している類似データ群を抽出する(ステップS102)。対象データをx*、教師付データ格納部104に格納されているデータにおける8×8ピクセルの入力データをxkとした場合に、例えば、以下の式を満たすような集合Dを抽出する。
ここで、d(x*,xk)は、x*とxkの距離を表し、例えば、L2ノルムであり、εは、近傍の大きさを示す指標である。距離は、L2ノルムには限られず、他の評価を行う関数であってもよい。別の例として、以下の式を用いてもよい。
一例として、所定数とは、100程度であるが、これには限られず、例えば、200、50といったこれより大きい値でも、小さい値でも構わない。この所定数は、データの密度又はデータのサイズ、種類等により変更されるものであってもよい。
また、上述した式には限られず、他の手法を用いて近傍画像を抽出し、類似データとしてもよい。
抽出された類似データ群に属するそれぞれのデータは、8×8ピクセルの入力データxnと、当該入力データの高解像度画像である32×32ピクセルの出力データynの組(xn,yn)として取得される。
次に、初期値生成部106は、抽出された類似データ群から、学習モデルの初期値を生成する(ステップS104)。8×8ピクセルの入力データを32×32ピクセルの超解像を行った出力データとする場合においては、高解像度の32×32ピクセルの画像が単純モデルで記述されるとして、その初期値を求める。一例として、以下のように表わされる。なお、以下の数式は、線形モデルで記載しているが、上記の単純モデルは、線型モデルには限られるものではない。
ここで、ynは、抽出された類似データ群の中のn番目の32×32ピクセルの高解像度画像を1024次元のベクトル、xnは、当該ynに対応する8×8ピクセルの低解像度を64次元のベクトルで表現したものであり、fは、xnからynへの変換を表し、Vはそのパラメータを表わす。εnは、その線形モデルと当該ynの間の誤差を表わすベクトルである。別の例として、[数3]においては、xn、ynは、ベクトル表現でもなく、行列で表現されていてもよい。類似データ群において、このような関係を満たすfの初期値を生成する。
また、用いるアルゴリズムによっては、[数3]のような関係ではなく、他の関係、例えば、後述する[数4]等を用いて初期値を生成してもよい。すなわち、ここで言う初期値は、xn及びynの関係性を示す初期値のみならず、変換系の学習において用いるパラメータ等の初期値を生成することであってもよい。このステップS104及び次のステップS106の具体例については、後述する。
次に、学習部108は、ステップS104で生成された初期値を用いて、類似データ群において[数3]を満たすようなfを学習により洗練する(ステップS106)。モデルの初期値は、比較的少数の対象データの類似データ群から求めたものとなるため、オーバーフィットの問題が生じやすい。そこで、学習部108は、オーバーフィットを回避したモデルとなるように、初期値で与えられたモデルを学習により洗練する。このような条件を満たすものとして、例えば、局所的には線形となるモデルであり、かつ、正則化されるような学習アルゴリズムを用いる
次に、推定部110は、学習部108が学習した局所的モデルに対象データx*を当てはめることにより、超解像画像である出力データy*を推定する(ステップS108)。出力部112は、上記の一連の処理により推定された出力データy*を適切に出力する。
(初期化例)
ステップS104の初期化処理の一例について説明する。ynを、基底ベクトルを用いて以下のように表す。
ここで、ynは抽出された類似データ群のなかのn番目の32×32の高解像度画像を1024次元のベクトルで表現したもの、Vは1024×Kの行列、anは、K次元ベクトル、εnは1024次元ベクトルである。Kは、基底ベクトルの数を表し、Vは高解像度画像を表わす基底ベクトルがK個ならんだもの、anはそれぞれの基底ベクトルの重みを表わす。εnはモデルからのズレを表わす誤差ベクトルであり、平均ゼロ、分散σ2のガウス分布に従うと仮定される。
ステップS104の初期化処理の一例について説明する。ynを、基底ベクトルを用いて以下のように表す。
初期値生成部106は、この変換行列Vと重みベクトルanと分散σ2の初期値を生成する。変換行列Vと重みベクトルanの初期値は、例えば、抽出された類似データ群のうち高解像度画像に対してPCA(主成分分析:Principal Component Analysis)を行って求められたものであってもよい。分散σ2の推定値は、誤差の2乗(yn−V・an)2の平均によって求めてもよい。基底の数Kは、予め定めた数、もしくは、PCAにおける寄与率がある一定以上のものとして求めてもよい。
(学習例1)
次に、ステップS106の学習処理の一例について説明する。この学習の一例として、近似ベイズ推定を適用してもよい。例えば、超解像画像を推定するための局所的モデルにおいて変換行列Vや重みベクトルanに事前分布をおき、その事後分布を変分ベイズ法によって推定してもよい。これに限らず、初期モデルのパラメータにガウスノイズを付加し、複数のパラメータを生成してそれらのアンサンブルで推定してもよい。より複雑なモデルとして中間層が1層のニューラルネットワーク等を用いることもできるが、複雑なモデルの学習は時間がかかるため、学習時間と精度を考慮して適切なモデルを選択する。初期値として求める単純な線形モデルでは、オーバーフィットを引き起こす可能性があるため、それを防ぐため、一例として、近似ベイズ推定をオンデマンドな学習に含める。
次に、ステップS106の学習処理の一例について説明する。この学習の一例として、近似ベイズ推定を適用してもよい。例えば、超解像画像を推定するための局所的モデルにおいて変換行列Vや重みベクトルanに事前分布をおき、その事後分布を変分ベイズ法によって推定してもよい。これに限らず、初期モデルのパラメータにガウスノイズを付加し、複数のパラメータを生成してそれらのアンサンブルで推定してもよい。より複雑なモデルとして中間層が1層のニューラルネットワーク等を用いることもできるが、複雑なモデルの学習は時間がかかるため、学習時間と精度を考慮して適切なモデルを選択する。初期値として求める単純な線形モデルでは、オーバーフィットを引き起こす可能性があるため、それを防ぐため、一例として、近似ベイズ推定をオンデマンドな学習に含める。
パラメータθにおける変換行列Vによるxnの変換をf(xn,θ)、この場合の損失関数を、E(f(xn;θ),yn)とそれぞれ表す。学習部108は、E(・)をより小さくするようなθを求めることにより実行される。すなわち、類似データ群に属するデータの個数をNとする場合に、以下の式のパラメータθを求めることにより学習を行う。
一例として、ベイズ推定によれば、モデルp(x,y|θ)及びp(θ)が与えられた下で、以下の式における確率分布にしたがうように学習が行われる。入力データxn、集合Dにおける出力データynの予測分布は、尤度関数p(y|x,θ)をモデリングすることにより表される。
事前分布p(θ)を設定し、[数7]から、パラメータθの事後分布p(θ|x,D)を、適切な手法により算出し、[数6]の式に代入することにより、出力データyの予測分布を求めることが可能となる。適切な手法には、例えば、ギブスサンプリングを行う手法がある。別の例としては、基底となるベクトルを算出する方法もあるが、これらには限られず、正則化できるのであれば、どのような手法であってもよい。そして、求められた[数6]の予測分布に基づいて、yの期待値E[y|x,D]を算出する。
なお、[数7]は、類似データ群の抽出のステップを含めて表すと、以下のようになり、教師付データ格納部104に格納されているデータのうち、近傍のデータのみを使用して学習を行っていることが分かる。
ただし、K(xn,x*)は、対象データx*の近傍にある場合に1、それ以外では0となるカーネル関数である。
多数のパラメータ候補を事後分布p(θ|x,D)で表現し、その事後分布による出力の平均を算出し、予測分布の期待値において予測を行う。このようにすることにより、少数のデータからパラメータを定める過学習を抑制することが可能となる。期待値E[y|x,D]は、以下のようにアンサンブルによる推定とすることもできる。
yθは、パラメータθの下での出力の推定値であり、それらの出力の事後分布による平均が求める出力となる。
(学習例2)
前述の学習例1においては、全てのパラメータをベイズ推定で学習するものとしたが、これには限られず、パラメータθを、1以上の要素を備えるパラメータξと、1以上の要素を備えるパラメータηの組に分け、パラメータξに関してはベイズ推定を行い、パラメータηに関しては最尤推定に基づく点推定を行ってもよい。このようにパラメータθを2つのパラメータに分割した場合、すなわち、θ=(ξ,η)とした場合、期待値E[・]は、以下のように表すことができる。
ただし、[数10]に代えて以下の式が適用される。
ここで、パラメータηハットと事後分布p(ξ|x,D,ηハット)は、[数5]、[数8]及び[数11]の代わりに、以下の式に基づいて求めることができる。
前述の学習例1においては、全てのパラメータをベイズ推定で学習するものとしたが、これには限られず、パラメータθを、1以上の要素を備えるパラメータξと、1以上の要素を備えるパラメータηの組に分け、パラメータξに関してはベイズ推定を行い、パラメータηに関しては最尤推定に基づく点推定を行ってもよい。このようにパラメータθを2つのパラメータに分割した場合、すなわち、θ=(ξ,η)とした場合、期待値E[・]は、以下のように表すことができる。
このようにパラメータごとに別のアルゴリズムを利用することにより、計算量と過学習の平仄をとることが可能となる。
以上のように、本実施形態によれば、ビッグデータ等の莫大な量についての学習において、全てのデータを用いて推定モデルを学習するのではなく、対象データの近傍のデータを用いることにより、ビッグデータを用いているにもかかわらず、オンデマンドなデータ推定を行うことができる。さらに、ビッグデータ中から近傍のデータを抽出しつつも近似ベイズ推定を用いることにより、汎化性を持たせ、対象データに対する精度の高いデータ推定を行うこともできる。対象データが入力されてから近傍のデータから局所的モデルを学習により生成することにより、上記の効果を達成することが可能となる。
以下に、本実施形態に係るデータ推定装置10による超解像の結果を例として示す。図4は、本実施形態に係る低解像度画像から高解像度画像を推定する超解像モデルを生成し、推定した結果を示す図である。
yを高解像度画像、xを低解像度画像とし、いずれも2次元画像を1次元に並べたベクトルとする。モデルとして、低解像度画像xは、高解像度画像yから線形変換によって生成されたものとする。このようにモデリングすると、xとyの関係は以下の数式のように表すことができる。
ここで、Wは劣化過程を表す線形変換、mは、平均0、分散σ2のガウス分布であるとする。例えば、高解像度画像中の3×3ピクセルの画素を、1つの低解像度画素とする場合には、3×3の高解像度が祖の画素値の平均又は重み付け平均を低解像度がその画素値とする。この他、線形変換では、レンズのぼけや、ダウンサンプリングが表現可能であるため、実際の劣化過程に応じて適切な関数を選択することが可能である。
一方で、生成する高解像度画像yは、任意の画像ではなく、空間的な滑らかさ等の特定の性質を持った自然画像であると考え、局所的に低ランクのベクトル空間で、以下の数式のように表現できるものとする。
ここで、vk、akは、それぞれk番目の基底ベクトル及び当該基底ベクトルに対応する係数であるとする。nは、K次元ベクトル空間で表示しきれない残差ベクトルであり、平均0、分散Σのガウス分布にしたがうものとする。
このようにすると、パラメータθは、θ=(W,σ2,{ak,vk|k=1,・・・,K},Σ)となる。このパラメータにおいて、[数18]及び[数19]の下で、それぞれ確率モデルp(x|y,θ)と、p(y|θ)を定義する。これらから、例えば、p(x,y|θ)=p(x|y,θ)p(y|θ)として定まる。
図4(a)は、対象データ、図4(b)は、本実施形態に係るデータ推定装置10により推定された高解像度画像、図4(c)は、正解のデータである。このように、図4(a)の低解像度画像に対し、精度のよい高解像度画像を推定できていることが分かる。図4(d)乃至図4(f)も同様であり、図4(d)が対象データ、図4(e)が推定データ、図4(f)が正解データである。
なお、この図4のデータ推定を行う際には、単純に8×8ピクセルの低解像度画像を用いるのではなく、8×8ピクセルの画像に対し、6×6ピクセルのパッチを当て、1枚の対象画像データから9枚の対象画像データを生成している。
同様に、教師付データ格納部104に格納されている各データに対しても、6×6ピクセルの低解像度画像と、対応する範囲の24×24ピクセルの高解像度画像とを生成している。このようにパッチを当てることにより、近傍画像をデータオーグメンテーションに近い効果により増強させることが可能となる。さらに、左右反転させて画像を教師付データ格納部104に格納しておいてもよい。
対象データの各パッチに対して、上述したデータ推定装置10により、学習と推定をオンデマンドで行う。その上で、各パッチから推定された高解像度のパッチ画像を合成することにより高解像度画像を取得している。
上述した例とは別の例としては、例えば、変分ベイズの手法を用いてもよい。パラメータθのうち、ベイズ推定を行うパラメータξ={ak|k=1,・・・,K}と、点推定するパラメータη=(W,σ2,{vk|k=1,・・・,K},Σ)に分けて、p(ξ)を成分ごとに独立なガウス分布とし、当該ガウス分布の分散がガンマ分布にしたがうものとしてもよい。p(ξ|x,D,η)と、ηハット(η^)は、変分ベイズの手法で近似的に算出する。
さらに別の例としては、サンプリングを用いた近似的な局所的にベイズ推定による学習を行ってもよい。サンプリングを用いた手法では、パラメータθのうち、ベイズ推定を行うパラメータξ={vk|k=1,・・・,K}と、点推定するパラメータη=(W,σ2,{ak|k=1,・・・,K},Σ)とに分けて学習を行う。ηハットは、例えば、主成分分析によって定める。同じく主成分分析で、基底{vk}も点推定することができる。
推定の不確実性を表現した事後分布p(ξ|x,D,ηハット)、すなわち、基底{vk}の事後分布を近似的に求めるために、主成分分析で点推定された{vハットk}にガウスノイズを付加して推定の不確かさを表現してもよい。このガウスノイズは、例えば、バリデーションデータに基づいて定められる。
単純にガウスノイズの平均を算出すると、元の主成分分析の基底が得られることになるが、有限この平均を算出した場合には、必ずしも元の主成分分析の基底とは一致しない。さらに、例えば、上述のようにパッチを当てて高解像画像を推定する場合には、パッチごとに推定が行われ、パッチ巻に重なりがあるため、重なりのある領域では単純なノイズとは異なる結果を生じさせる。
以上のように、本実施形態に係るデータ推定装置10では、対象データの近傍にあるデータのオーグメンテーションも容易に行うことが可能であり、近傍データについてのデータオーグメンテーションを行うことにより、より汎化性を持たせ、より精度の高いデータ推定を可能としている。
なお、一例として、低解像度画像の超解像についてのデータ推定を記載したが、本実施形態の応用例はこれには限られない。すなわち、回帰問題や識別問題(Higgs粒子の識別、文字識別、音声認識、文書解析)等にも応用可能である。回帰問題又は識別問題においても、典型的には局所的には線形な単純なモデルを仮定する。上記は、一例を挙げたものであり、他の局所的に単純なモデル、たとえば中間層が一層のニューラルネットワークにも応用することが可能である。
また、学習法としては、ベイズ推定を挙げたがこれには限られず、他の一般的な局所的なモデルを求めるものであり、かつ、オーバーフィットを抑制できるような機械学習方法で学習することも可能である。また、上述したデータ推定の種類により、学習のアルゴリズムを変えることも可能である。
上記の全ての記載において、データ推定装置10の少なくとも一部はハードウェアで構成されていてもよいし、ソフトウェアで構成され、ソフトウェアの情報処理によりCPU等が実施をしてもよい。ソフトウェアで構成される場合には、データ推定装置10及びその少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD−ROM等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。すなわち、ソフトウェアによる情報処理がハードウェア資源を用いて具体的に実装されるものであってもよい。さらに、ソフトウェアによる処理は、FPGA等の回路に実装され、ハードウェアが実行するものであってもよい。学習モデルの生成や、学習モデルに入力をした後の処理は、例えば、GPU等のアクセラレータを使用して行ってもよい。
また、本実施形態に係るデータ推定モデルは、人工知能ソフトウェアの一部であるプログラムモジュールとして利用することが可能である。すなわち、コンピュータのCPUが格納部に格納されているモデルに基づいて、演算を行い、結果を出力するように動作する。
上記の全ての記載に基づいて、本発明の追加、効果又は種々の変形を当業者であれば想到できるかもしれないが、本発明の態様は、上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更及び部分的削除が可能である。
10:データ推定装置、100:対象データ受付部、102:類似データ群抽出部、104:教師付データ格納部、106:初期値生成部、108:学習部、110:推定部、112:出力部
Claims (6)
- 推定の対象となる対象データを受け付ける、対象データ受付部と、
教師付データの集合から、前記対象データに類似する類似データの集合である類似データ群を抽出する、類似データ群抽出部と、
前記類似データ群を用いて、局所的かつ正則化させる学習を行い、局所的モデルを生成する、学習部と、
前記局所的モデルを用いて前記対象データについて推定する、推定部と、
推定した結果を出力する、出力部と、
を備えるデータ推定装置。 - 学習を行う前に、前記類似データ群から初期データを生成する、初期データ生成部を備える請求項1に記載のデータ推定装置。
- 前記初期データ生成部は、前記局所的モデルを生成する学習により前記初期データを生成する、請求項2に記載のデータ推定装置。
- 前記学習部は、ベイズ推定により学習を行う、請求項1乃至請求項3のいずれかに記載のデータ推定装置。
- 推定の対象となる対象データを受け付けるステップと、
教師付データの集合から、前記対象データに類似する類似データの集合である類似データ群を抽出するステップと、
前記類似データ群を用いて学習を行い、局所的かつ正則化させる学習を行い、局所的モデルを生成するステップと、
前記局所的モデルを用いて前記対象データについて推定するステップと、
推定した結果を出力するステップと、
を備えるデータ推定方法。 - コンピュータを、
推定の対象となる対象データを受け付ける手段、
教師付データの集合から、前記対象データに類似する類似データの集合である類似データ群を抽出する手段、
前記類似データ群を用いて学習を行い、局所的かつ正則化させる学習を行い、局所的モデルを生成する手段、
前記局所的モデルを用いて前記対象データについて推定する手段、
推定した結果を出力する手段、
として機能させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017209674A JP2019082847A (ja) | 2017-10-30 | 2017-10-30 | データ推定装置、データ推定方法及びプログラム |
US16/174,917 US20190156182A1 (en) | 2017-10-30 | 2018-10-30 | Data inference apparatus, data inference method and non-transitory computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017209674A JP2019082847A (ja) | 2017-10-30 | 2017-10-30 | データ推定装置、データ推定方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019082847A true JP2019082847A (ja) | 2019-05-30 |
Family
ID=66534579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017209674A Pending JP2019082847A (ja) | 2017-10-30 | 2017-10-30 | データ推定装置、データ推定方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20190156182A1 (ja) |
JP (1) | JP2019082847A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020201727A (ja) * | 2019-06-11 | 2020-12-17 | 株式会社デンソーアイティーラボラトリ | 品質管理方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553840B (zh) * | 2020-04-10 | 2023-06-27 | 北京百度网讯科技有限公司 | 图像超分辨的模型训练和处理方法、装置、设备和介质 |
-
2017
- 2017-10-30 JP JP2017209674A patent/JP2019082847A/ja active Pending
-
2018
- 2018-10-30 US US16/174,917 patent/US20190156182A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020201727A (ja) * | 2019-06-11 | 2020-12-17 | 株式会社デンソーアイティーラボラトリ | 品質管理方法 |
JP7161974B2 (ja) | 2019-06-11 | 2022-10-27 | 株式会社デンソーアイティーラボラトリ | 品質管理方法 |
Also Published As
Publication number | Publication date |
---|---|
US20190156182A1 (en) | 2019-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | Videoflow: A flow-based generative model for video | |
JP6504590B2 (ja) | 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体 | |
JP6441980B2 (ja) | 教師画像を生成する方法、コンピュータおよびプログラム | |
EP3298576B1 (en) | Training a neural network | |
Dosovitskiy et al. | Generating images with perceptual similarity metrics based on deep networks | |
WO2019157228A1 (en) | Systems and methods for training generative machine learning models | |
Chen et al. | Nas-dip: Learning deep image prior with neural architecture search | |
US11514694B2 (en) | Teaching GAN (generative adversarial networks) to generate per-pixel annotation | |
Liu et al. | Dynast: Dynamic sparse transformer for exemplar-guided image generation | |
JP2023549579A (ja) | ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ | |
AU2021379758A9 (en) | A temporal bottleneck attention architecture for video action recognition | |
JP2010258914A (ja) | 顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体 | |
JP2020181240A (ja) | データ生成装置、データ生成方法およびプログラム | |
JP6832252B2 (ja) | 超解像装置およびプログラム | |
JP2019082847A (ja) | データ推定装置、データ推定方法及びプログラム | |
JP7472471B2 (ja) | 推定システム、推定装置および推定方法 | |
CN113344784B (zh) | 通过潜在空间正则化对监督式生成对抗网络进行优化 | |
CN110717402B (zh) | 一种基于层级优化度量学习的行人再识别方法 | |
CN111062406B (zh) | 一种面向异构领域适应的半监督最优传输方法 | |
Iglesias et al. | Cuckoo search with Lévy flights for reconstruction of outline curves of computer fonts with rational Bézier curves | |
CN109754416B (zh) | 图像处理装置和方法 | |
JP2022075620A (ja) | 畳み込みニューラルネットワークをトレーニングする方法およびシステム | |
JP7047665B2 (ja) | 学習装置、学習方法及び学習プログラム | |
JP7148078B2 (ja) | 属性推定装置、属性推定方法、属性推定器学習装置、及びプログラム | |
Le et al. | Locality and relative distance-aware non-local networks for hand-raising detection in classroom video |