JP7216593B2

JP7216593B2 - 情報処理方法、情報処理装置、及び情報処理プログラム

Info

Publication number: JP7216593B2
Application number: JP2019065416A
Authority: JP
Inventors: アレットステファノ; 宗太郎築澤; 育規石井
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2018-09-07
Filing date: 2019-03-29
Publication date: 2023-02-01
Anticipated expiration: 2039-03-29
Also published as: JP2020129355A

Description

本開示は、情報処理方法、情報処理装置、及び情報処理プログラムに関する。

従来、ディープラーニングを用いて画像が雨天の画像であるか否かを分類する技術が知られている（例えば、特許文献１参照）。

米国特許出願公開第２０１７／０２９３８０８号明細書

従来の技術では、センシングデータから、局所的なノイズを効果的に除去することは難しい。

そこで、本開示は、センシングデータから、局所的なノイズを効果的に除去することができる情報処理方法、情報処理装置、及び情報処理プログラムを提供することを目的とする。

本開示の一態様に係る情報処理方法は、コンピュータが、ノイズ領域を含む第１センシングデータを取得し、前記第１センシングデータを第１変換器に入力することにより、前記第１変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、前記ノイズ領域推定情報及び前記第１センシングデータを第２変換器に入力することにより、前記第２変換器から出力されるノイズ領域除去処理が施された第２センシングデータを取得し、前記第１センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第３センシングデータを取得し、前記ノイズ領域推定情報と前記第３センシングデータとを用いて前記推定される前記ノイズ領域を含む第４センシングデータを生成し、前記第１センシングデータをリファレンスデータとし前記第４センシングデータを変換用データとした機械学習を用いて前記第１変換器を訓練し、前記第３センシングデータをリファレンスデータとし前記第２センシングデータを変換用データとした機械学習を用いて前記第２変換器を訓練する。

本開示の一態様に係る情報処理方法は、コンピュータが、ノイズ領域を含む第１センシングデータと、第１変換器から出力された、ノイズ領域除去処理が施された第２センシングデータとを取得し、前記第１センシングデータと、前記第１センシングデータの所定時間前の第１センシングデータについての処理により取得された前記所定時間前の第２センシングデータとを前記第１変換器に入力することにより前記第１変換器から出力される、前記第２センシングデータと第１動き情報とを取得し、前記第１動き情報と、前記所定時間前の第２センシングデータと、を用いて第３センシングデータを取得し、前記第３センシングデータをリファレンスデータとし前記第２センシングデータを変換用データとした機械学習を用いて前記第１変換器を訓練する。

本開示の一態様に係る情報処理装置は、プロセッサとメモリとを備え、前記メモリは、第１変換器及び第２変換器を記憶し、前記プロセッサは、センサからノイズ領域を含む第１センシングデータを取得し、前記第１センシングデータを前記第１変換器に入力することにより、前記第１変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、前記ノイズ領域推定情報及び前記第１センシングデータを前記第２変換器に入力することにより、前記第２変換器から出力されるノイズ領域除去処理が施された第２センシングデータを取得し、取得される前記第２センシングデータを出力するように構成され、前記第１変換器は、前記ノイズ領域推定情報と、前記第１センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第３センシングデータとを用いて生成される前記推定される前記ノイズ領域を含む第４センシングデータを変換用データとし、前記第１センシングデータをリファレンスデータとした機械学習を用いて訓練され、前記第２変換器は、前記第２センシングデータを変換用データとし、前記第３センシングデータをリファレンスデータとした機械学習を用いて訓練される。

本開示の一態様に係る情報処理プログラムは、プロセッサと、第１変換器及び第２変換器を記憶するメモリとを備えるコンピュータに情報処理を実行させるための情報処理プログラムであって、前記情報処理は、前記コンピュータが、ノイズ領域を含む第１センシングデータを取得し、前記第１センシングデータを前記第１変換器に入力することにより、前記第１変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、前記ノイズ領域推定情報及び前記第１センシングデータを前記第２変換器に入力することにより、前記第２変換器から出力されるノイズ領域除去処理が施された第２センシングデータを取得し、前記第１センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第３センシングデータを取得し、前記ノイズ領域推定情報と前記第３センシングデータとを用いて前記推定される前記ノイズ領域を含む第４センシングデータを生成し、前記第１変換器は、前記第１センシングデータをリファレンスデータとし前記第４センシングデータを変換用データとした機械学習を用いて訓練され、前記第２変換器は、前記第３センシングデータをリファレンスデータとし前記第２センシングデータを変換用データとした機械学習を用いて訓練される。

本開示の一態様に係る情報処理方法、情報処理装置、及び情報処理プログラムによれば、画像から、局所的なノイズを効果的に除去することができる。

図１は、実施の形態１に係る第１訓練装置の構成を示すブロック図である。図２Ａは、第３画像の一例を示す模式図である。図２Ｂは、第１画像の一例を示す模式図である。図３は、実施の形態１に係る第１訓練処理のフローチャートである。図４は、実施の形態１に係る第１情報処理装置の構成を示すブロック図である。図５は、実施の形態１に係る第１情報処理のフローチャートである。図６は、実施の形態２に係る第２訓練装置の構成を示すブロック図である。図７は、実施の形態２に係る第２訓練処理のフローチャートである。図８は、実施の形態２に係る第１処理のフローチャートである。図９は、実施の形態２に係る第２情報処理装置の構成を示すブロック図である。図１０は、実施の形態２に係る第２情報処理のフローチャートである。図１１は、実施の形態３に係る第３訓練装置の構成を示すブロック図である。図１２は、実施の形態３に係る第３訓練処理のフローチャートである。図１３は、実施の形態３に係る第２処理のフローチャートである。図１４は、実施の形態３に係る第３情報処理装置の構成を示すブロック図である。図１５は、実施の形態３に係る第３情報処理のフローチャートである。

（本開示の一態様を得るに至った知見）
一般に、センシングデータからノイズを除去するように機械学習モデルを訓練する場合には、ノイズのない画像をリファレンスデータ（正解データ、ラベルデータとも称する）とし、ノイズのある画像を変換用データ（トレーニングデータとも称する）として、センシングデータ全体の誤差が最小になるように機械学習モデルを訓練する。

一方で、例えば、レンズに雨滴が付着しているカメラで撮像した画像は、雨滴が付着している領域には雨滴による局所的なノイズが存在するが、雨滴が付着していない大部分の領域には雨滴によるノイズが存在しない画像となる。このような、局所的なノイズが存在する画像に対して上記方法で機械学習を訓練しようとする場合に、大部分の領域で誤差が小さくなるため、機械学習モデルの訓練が進まなくなってしまうことがある。

発明者は、上記問題を解決すべく、鋭意検討を重ねた。そして、発明者は、局所的なノイズが存在するセンシングデータについては、まず、そのセンシングデータから局所的なノイズの領域を推定し、そのセンシングデータに対して、推定した領域に重み付けをして機械学習モデルを訓練することで、効果的に機械学習モデルを訓練することができることを見出した。その結果、発明者は、下記情報処理方法、情報処理装置、及び情報処理プログラムに想到した。

上記情報処理方法によると、第１センシングデータからノイズ領域を推定するよう第１変換器を訓練し、第１センシングデータに対して、第１変換器により推定されたノイズ領域に重み付けをして第２センシングデータを出力するよう第２変換器を訓練することができる。このため、第１変換器と第２変換器とを、センシングデータから局所的なノイズを除去するよう効果的に訓練することができる。従って、上記情報処理方法により訓練された第１変換器及び第２変換器を利用することで、センシングデータから、局所的なノイズを効果的に除去することができる。

また、前記第１センシングデータの所定時間前の第１センシングデータについての処理により取得された前記所定時間前の第２センシングデータを取得し、前記第１センシングデータと前記所定時間前の第２センシングデータとを前記第１変換器に入力することにより、前記第１変換器から出力される第１動き情報を取得し、前記第１動き情報と前記所定時間前の第２センシングデータとを用いて前記第３センシングデータを取得し、前記第１センシングデータと前記所定時間前の第１センシングデータとの比較により得られる第２動き情報を取得し、前記第２動き情報をリファレンスデータとし、前記第１動き情報を変換用データとした機械学習を用いて前記第１変換器を訓練するとしてもよい。

また、前記第１センシングデータと前記所定時間前の第２センシングデータとを前記第１変換器に入力することにより、前記第１変換器から出力される前記ノイズ領域推定情報を取得するとしてもよい。

また、前記第１変換器の訓練で利用されるフィードバックデータは、入力されるセンシングデータが前記１変換器の変換用データであるか否か又はリファレンスデータであるか否かを識別するように機械学習を用いて訓練された第１識別器に前記第１センシングデータと前記第４センシングデータとを入力することにより、前記第１識別器から出力され、前記第２変換器の訓練で利用されるフィードバックデータは、入力されるセンシングデータが前記第２変換器の変換用データであるか否かリファレンスデータであるか否かを識別するように機械学習を用いて訓練された第２識別器に前記第２センシングデータと前記第３センシングデータとを入力することにより、前記第２識別器から出力されるとしてもよい。

また、前記第１変換器及び前記第２変換器は、ニューラルネットワークであるとしてもよい。

上記情報処理方法によると、第１センシングデータからノイズ領域を推定するよう第１変換器を訓練し、第１センシングデータに対して、第１変換器により推定されたノイズ領域に重み付けをして第２センシングデータを出力するよう第１変換器を訓練することができる。このため、第１変換器を、センシングデータから局所的なノイズを除去するよう効果的に訓練することができる。従って、上記情報処理方法により訓練された第１変換器を利用することで、センシングデータから、局所的なノイズを効果的に除去することができる。

また、前記第１センシングデータはカメラ画像であり、前記ノイズ領域は、カメラのレンズ又はレンズカバーの付着物に起因するノイズを含む領域であるとしてもよい。

上記情報処理装置によると、第１センシングデータからノイズ領域を推定するよう第１変換器を訓練し、第１センシングデータに対して、第１変換器により推定されたノイズ領域に重み付けをして第２センシングデータを出力するよう第２変換器を訓練することができる。このため、第１変換器と第２変換器とを、センシングデータから局所的なノイズを除去するよう効果的に訓練することができる。従って、上記情報処理装置によると、センシングデータから、局所的なノイズを効果的に除去することができる。

上記情報処理プログラムによると、第１センシングデータからノイズ領域を推定するよう第１変換器を訓練し、第１センシングデータに対して、第１変換器により推定されたノイズ領域に重み付けをして第２センシングデータを出力するよう第２変換器を訓練することができる。このため、第１変換器と第２変換器とを、センシングデータから局所的なノイズを除去するよう効果的に訓練することができる。従って、上記情報処理プログラムによると、センシングデータから、局所的なノイズを効果的に除去することができる。

以下、本開示の一態様に係る情報処理方法、情報処理装置、及び情報処理システムの具体例について、図面を参照しながら説明する。ここで示す実施の形態は、いずれも本開示の一具体例を示すものである。従って、以下の実施の形態で示される数値、形状、構成要素、構成要素の配置及び接続形態、並びに、ステップ（工程）及びステップの順序等は、一例であって本開示を限定するものではない。以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意に付加可能な構成要素である。また、各図は、模式図であり、必ずしも厳密に図示されたものではない。

なお、本開示の包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

（実施の形態１）
［１－１．第１訓練装置］
以下、実施の形態１に係る第１訓練装置について説明する。この第１訓練装置は、機械学習モデルからなる第１変換器と第２変換器とを備え、ノイズ領域を含む第１画像からノイズ領域を推定するよう第１変換器を訓練し、第１画像に対して、第１変換器により推定されたノイズ領域に重み付けをして、第１画像からノイズ領域除去処理が施された第２画像を出力するよう第２変換器を訓練する。

［１－１－１．第１訓練装置の構成］
図１は、実施の形態１に係る第１訓練装置１の構成を示すブロック図である。

図１に示されるように、第１訓練装置１は、第１画像取得部１０と、第１画像記憶部１１と、第３画像取得部２０と、第３画像記憶部２１と、第１変換器３０と、ノイズ領域推定情報記憶部３１と、第１識別器３５と、第１訓練部３６と、結合部４０と、加算部５０と、第４画像記憶部５１と、第２変換器６０と、第２画像記憶部６１と、第２識別器６５と、第２訓練部６６とを含んで構成される。

第１訓練装置１は、例えば、プロセッサとメモリとを含んで構成されるコンピュータによって実現されてよい。この場合、第１訓練装置１の各構成要素は、例えば、プロセッサがメモリに記憶される１以上のプログラムを実行することで実現されてよい。また、第１訓練装置１は、例えば、それぞれがプロセッサとメモリとを含んで構成される、互いに通信可能な複数のコンピュータが協調して動作することによって実現されてよい。この場合、第１訓練装置１の各構成要素は、例えば、いずれかの１以上のプロセッサが、いずれかの１以上のメモリに記憶される、１以上のプログラムを実行することで実現されてよい。ここでは、第１訓練装置１は、プロセッサとメモリとを含んで構成されるコンピュータによって実現されるとして説明する。

第１画像取得部１０は、ノイズ領域を含む第１画像を取得する。第１画像は、例えば、カメラによって撮像されたカメラ画像であってよい。また、ノイズ領域は、カメラのレンズ又はレンズカバーの付着物（例えば、雨滴）に起因するノイズを含む領域であってよい。第１画像取得部１０は、例えば、有線又は無線により通信可能に接続された撮像装置又は記録媒体から第１画像を取得してもよい。

第３画像取得部２０は、第１画像と同一又は対応する場面が映る、ノイズ領域を含まない１以上の第３画像を取得する。第３画像取得部２０は、例えば、有線又は無線により通信可能に接続された撮像装置又は記録媒体から第３画像を取得してもよい。

第１画像取得部１０と第３画像取得部２０とは、それぞれ、複数の第１画像と複数の第３画像とを取得してもよい。この場合、複数の第１画像のそれぞれと、複数の第３画像のそれぞれとは、互いに一対一に対応付けられた画像となる。この場合、例えば、第１画像のそれぞれは、一対一に対応付けられている第３画像のそれぞれに対して、ＣＧ（Computer Graphics）処理により、ノイズ領域が付加されるよう加工された画像であってもよい
し、例えば、第１画像のそれぞれは、一対一に対応付けられている第３画像と、略同一時刻に撮像された、略同一画角の画像であってもよい。

図２Ａは、第３画像の一例を示す模式図である。図２Ａに例示される第３画像は、車載カメラにより撮像された車両前方の撮像画像である。図２Ｂは、第１画像の一例を示す模式図である。図２Ｂに例示される第１画像は、対応する第３画像に対して、ＣＧ処理によりノイズ領域が付加されるよう加工された画像である。

再び図１に戻って、第１訓練装置１の説明を続ける。

第１画像記憶部１１は、第１画像取得部１０により取得された第１画像を記憶する。

第３画像記憶部２１は、第３画像取得部２０により取得された第３画像を記憶する。

第１変換器３０は、第１画像が入力されると、推定されるノイズ領域を示すノイズ領域推定情報を出力するよう機械学習を用いて訓練される機械学習モデルである。ここでは、ノイズ領域推定情報は、推定されるノイズ領域に含まれる画素の画素値のうちのノイズ成分を画素値とする画像であるとする。第１変換器３０は、第１画像が入力されると、ノイズ領域推定情報を出力するよう訓練され得る機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第１変換器３０は、畳み込みニューラルネットワークであるとする。

ノイズ領域推定情報記憶部３１は、第１変換器から出力されたノイズ領域推定情報を記憶する。

結合部４０は、ノイズ領域推定情報記憶部３１に記憶されるノイズ領域推定情報と、第１画像記憶部１１に記憶される、そのノイズ領域推定情報に対応する第１画像とを、チャネル方向に結合して第２変換器６０に入力する。

第２変換器６０は、互いにチャネル方向に結合されたノイズ領域推定情報と第１画像とが入力されると、その第１画像に対してノイズ領域除去処理が施された第２画像を出力するよう機械学習を用いて訓練される機械学習モデルである。第２変換器６０は、互いにチャネル方向に結合されたノイズ領域推定情報と第１画像とが入力されると、第２画像を出力されるように訓練され得る機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第２変換器６０は、畳み込みニューラルネットワークであるとする。

第２画像記憶部６１は、第２変換器６０から出力された第２画像を記憶する。

加算部５０は、ノイズ領域推定情報記憶部３１に記憶されるノイズ領域推定情報と、第３画像記憶部２１に記憶される、そのノイズ領域推定情報に対応する第３画像とを用いて、推定されるノイズ領域を含む第４画像を生成する。より具体的には、加算部５０は、第１画像と第３画像との互いに対応する位置の画素の画素値を加算することで、第４画像を生成する。

第４画像記憶部５１は、加算部５０により生成された第４画像を記憶する。

第１識別器３５は、第１変換器３０をＧｅｎｅｒａｔｏｒとし第１識別器３５をＤｉｓｃｒｉｍｉｎａｔｏｒとするＧＡＮ（Generative Adversarial Network）を構成する機械学習モデルである。第１識別器３５は、第１画像をリファレンスデータとし第４画像を変換用データとして入力されると、第１画像及び第４画像についてそれぞれリファレンスデータとしての真偽を識別する。言い換えると、第１画像と第１画像との同一性、及び第４画像と第１画像との同一性、が識別される。なお、リファレンスデータとしての真偽の代わりに変換用データとしての真偽が識別されてもよい。そして、第１識別器３５は、識別結果に基づき誤差を出力する。また、第１識別器３５は、機械学習を用いて識別結果に基づき訓練される。具体的には、第１識別器３５は、第１画像記憶部１１に記憶される第１画像がリファレンスデータとして入力されると、第１画像がリファレンスデータであるか否かを識別する。また、第１識別器３５は、第４画像記憶部５１に記憶される、上記第１画像に対応する第４画像が変換用データとして入力されると、第４画像がリファレンスデータであるか否かを識別する。例えば、それぞれの識別結果は確率値で表される。そして、第１識別器３５は、第４画像の識別結果に基づいて誤差を出力する。また、第１識別器３５は、第１画像及び第４画像についての識別結果に基づいて訓練される。例えば、第１識別器３５は、第４画像がリファレンスデータである確率に基づき算出された値（以下、第１フィードバックデータとも称する。）を誤差として出力する。また、第１画像がリファレンスデータである確率及び第４画像がリファレンスデータである確率に基づき算出された値（以下、第２フィードバックデータとも称する。）を出力する。なお、第１識別器３５は、第１画像と第４画像とが入力されると、これら画像の同一性を識別し、識別結果に基づき誤差を出力し、識別結果に基づき訓練される機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第１識別器３５は、畳み込みニューラルネットワークであるとする。

第１訓練部３６は、第１識別器３５から出力された第１フィードバックデータを用いて第１変換器３０を訓練する。具体的には、第１訓練部３６は、第１識別器３５から出力された第１フィードバックデータを第１変換器３０にフィードバックすることで、第１変換器３０を、第１画像が入力されると推定されるノイズ領域を示すノイズ領域推定情報を出力するよう訓練する。また、第１訓練部３６は、第１識別器３５から出力された第２フィードバックデータを用いて第１識別器３５を訓練する。具体的には、第１訓練部３６は、第１識別器３５から出力された第２フィードバックデータを第１識別器３５にフィードバックすることで、第１識別器３５を、第１画像及び第４画像が入力されると第１画像をリファレンスデータ、第４画像を変換用データと識別するよう訓練する。

第２識別器６５は、第２変換器６０をＧｅｎｅｒａｔｏｒとし第２識別器６５をＤｉｓｃｒｉｍｉｎａｔｏｒとするＧＡＮを構成する機械学習モデルである。第２識別器６５は、第３画像をリファレンスデータとし第２画像を変換用データとして入力されると、第３画像及び第２画像についてそれぞれリファレンスデータとしての真偽を識別する。言い換えると、第３画像と第３画像との同一性、及び第２画像と第３画像との同一性、が識別される。なお、リファレンスデータとしての真偽の代わりに変換用データとしての真偽が識別されてもよい。そして、第２識別器６５は、識別結果に基づき誤差を出力する。また、第２識別器６５は、機械学習を用いて識別結果に基づき訓練される。具体的には、第２識別器６５は、第３画像記憶部２１に記憶される第３画像がリファレンスデータとして入力されると、第３画像がリファレンスデータであるか否かを識別する。また、第２識別器６５は、第２画像記憶部６１に記憶される、上記第３画像に対応する第２画像が変換用データとして入力されると、第２画像がリファレンスデータであるか否かを識別する。例えば、それぞれの識別結果は確率値で表される。そして、第２識別器６５は、第２画像の識別結果に基づいて誤差を出力する。また、第２識別器６５は、第３画像及び第２画像についての識別結果に基づいて訓練される。例えば、第２識別器６５は、第２画像がリファレンスデータである確率に基づき算出された値（以下、第３フィードバックデータとも称する。）を誤差として出力する。また、第３画像がリファレンスデータである確率及び第２画像がリファレンスデータである確率に基づき算出された値（以下、第４フィードバックデータとも称する。）を出力する。なお、第２識別器６５は、第３画像と第２画像とが入力されると、これら画像の同一性を識別し、識別結果に基づき誤差を出力し、識別結果に基づき訓練される機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第２識別器６５は、畳み込みニューラルネットワークであるとする。

第２訓練部６６は、第２識別器６５から出力された第３フィードバックデータを用いて第２変換器６０を訓練する。具体的には、第２訓練部６６は、第２識別器６５から出力された第３フィードバックデータを第２変換器６０にフィードバックすることで、第２変換器６０を、互いにチャネル方向に結合されたノイズ領域推定情報と第１画像とが入力されると、第２画像を出力されるよう訓練する。また、第２訓練部６６は、第２識別器６５から出力された第４フィードバックデータを用いて第２識別器６５を訓練する。具体的には、第２訓練部６６は、第２識別器６５から出力された第４フィードバックデータを第２識別器６５にフィードバックすることで、第２識別器６５を、第３画像及び第２画像が入力されると第３画像をリファレンスデータ、第２画像を変換用データと識別するよう訓練する。

［１－１－２．第１訓練装置の動作］
上記構成の第１訓練装置１は、第１画像をリファレンスデータとし、第４画像を変換用データとした機械学習を用いて第１変換器３０を訓練し、第３画像をリファレンスデータとし、第２画像を変換用データとした機械学習を用いて第２変換器６０を訓練する第１訓練処理を行う。

図３は、第１訓練処理のフローチャートである。

第１訓練処理は、例えば、第１訓練装置１に対して、第１訓練処理を開始する旨の操作がなされることで開始される。

第１訓練処理が開始されると、第１画像取得部１０は、１以上の第１画像を取得する（ステップＳ１０）。第１画像が取得されると、第１画像記憶部１１は、取得された第１画像を記憶する。

第１画像が第１画像記憶部１１に記憶されると、第１変換器３０は、第１画像記憶部１１に記憶される第１画像の中に、未選択の第１画像が存在するか否かを調べる（ステップＳ２０）。ここで、未選択の第１画像とは、ステップＳ２０の処理～後述のステップＳ９０の処理によって形成されるループ処理において、未だ選択されたことのない第１画像のことをいう。

ステップＳ２０の処理において、未選択の第１画像が存在する場合に（ステップＳ２０：Ｙｅｓ）、第１変換器３０は、未選択の第１画像のうちの１つを選択する（ステップＳ３０）。

未選択の第１画像を選択すると、第１変換器３０は、選択した第１画像を第１変換器３０に入力し、ノイズ領域推定情報を出力する（ステップＳ４０）。ノイズ領域推定情報が出力されると、ノイズ領域推定情報記憶部３１は、出力されたノイズ領域推定情報を記憶する。

ノイズ領域推定情報が記憶されると、結合部４０は、そのノイズ領域推定情報と、選択中の第１画像とを、チャネル方向に結合して第２変換器６０に入力する。すると、第２変換器６０は、第２画像を出力する（ステップＳ５０）。第２画像が出力されると、第２画像記憶部６１は、出力された第２画像を記憶する。

第２画像が記憶されると、第３画像取得部２０は、選択中の第１画像に対応する第３画像を取得する（ステップＳ６０）。第３画像が取得されると、第３画像記憶部２１は、取得された第３画像を記憶する。

第３画像が記憶されると、加算部５０は、その第３画像と、ノイズ領域推定情報記憶部３１に記憶される、選択中の第１画像に対応するノイズ領域推定情報とを用いて、第４画像を生成する（ステップＳ７０）。第４画像が出力されると、第４画像記憶部５１は、生成された第４画像を記憶する。

第４画像が記憶されると、第１識別器３５と第１訓練部３６とは、選択中の第１画像をリファレンスデータとし、その第４画像を変換用データとした機械学習を用いて、第１変換器３０を訓練する（ステップＳ８０）。より具体的には、第１識別器３５は、第１画像と第４画像との誤差を出力し、第１訓練部３６は、出力された誤差を第１変換器３０にフィードバックすることで、第１識別器３５を訓練する。

第１識別器３５が訓練されると、第２識別器６５と第２訓練部６６とは、第３画像記憶部２１に新たに記憶された第３画像をリファレンスデータとし、第２画像記憶部６１に新たに記憶された第２画像を変換用データとした機械学習を用いて、第２変換器６０を訓練する（ステップＳ９０）。より具体的には、第２識別器６５は、第３画像と第２画像との誤差を出力し、第２訓練部６６は、出力された誤差を第２変換器６０にフィードバックすることで、第２識別器６５を訓練する。

ステップＳ９０の処理が終了すると、第１訓練装置１は、ステップＳ２０の処理へと進む。

ステップＳ２０の処理において、未選択の第１画像が存在しない場合に（ステップＳ２０：Ｎｏ）、第１訓練装置１は、その第１訓練処理を終了する。

［１－２．第１情報処理装置］
以下、実施の形態１に係る第１情報処理装置について説明する。この第１情報処理装置は、第１訓練装置１が行う第１訓練処理によりあらかじめ訓練された第１変換器３０と第２変換器６０とを備え、第１画像が入力されると、第１画像からノイズ除去処理が施された第２画像を出力する。

第１情報処理装置２は、第１訓練装置１と同様に、例えば、プロセッサとメモリとを含んで構成されるコンピュータによって実現されてよい。この場合、第１情報処理装置２の各構成要素は、例えば、プロセッサがメモリに記憶される１以上のプログラムを実行することで実現されてよい。また、第１情報処理装置２は、例えば、それぞれがプロセッサとメモリとを含んで構成される、互いに通信可能な複数のコンピュータが協調して動作することによって実現されてよい。この場合、第１情報処理装置２の各構成要素は、例えば、いずれかの１以上のプロセッサが、いずれかの１以上のメモリに記憶される、１以上のプログラムを実行することで実現されてよい。ここでは、第１情報処理装置２は、プロセッサとメモリとを含んで構成されるコンピュータによって実現されるとして説明する。

［１－２－１．第１情報処理装置の構成］
図４は、実施の形態１に係る第１情報処理装置２の構成を示すブロック図である。以下では、第１情報処理装置２について、第１訓練装置１と同様の構成要素については、既に説明済みであるとして同じ符号を振ってその詳細な説明を省略し、第１訓練装置１との相違点を中心に説明する。

図４に示されるように、第１情報処理装置２は、第１画像取得部１０と、第１画像記憶部１１と、第１変換器３０と、ノイズ領域推定情報記憶部３１と、結合部４０と、第２変換器６０と、第２画像記憶部６１と、出力部７０とを含んで構成される。ここで、第１変換器３０と第２変換器６０とは、第１訓練装置１が行う第１訓練処理によりあらかじめ訓練されているとする。

出力部７０は、第２画像記憶部６１に記憶される第２画像を外部に出力する。

［１－２－２．第１情報処理装置の動作］
上記構成の第１情報処理装置２は、第１画像が入力されると、第１画像からノイズ除去処理が施された第２画像を出力する第１情報処理を行う。

図５は、第１情報処理のフローチャートである。

第１情報処理は、例えば、第１情報処理装置２に対して、第１情報処理を開始する旨の操作がなされることで開始される。

第１情報処理が開始されると、第１画像取得部１０は、１の第１画像を取得する（ステップＳ１１０）。第１画像が取得されると、第１画像記憶部１１は、取得された第１画像を記憶する。

第１画像が記憶されると、第１変換器３０は、その第１画像を第１変換器３０に入力し、ノイズ領域推定情報を出力する（ステップＳ１４０）。ノイズ領域推定情報が出力されると、ノイズ領域推定情報記憶部３１は、出力されたノイズ領域推定情報を記憶する。

ノイズ領域推定情報が記憶されると、結合部４０は、そのノイズ領域推定情報と、第１画像とを、チャネル方向に結合して第２変換器６０に入力する。すると、第２変換器６０は、第２画像を出力する（ステップＳ５０）。第２画像が出力されると、第２画像記憶部６１は、出力された第２画像を記憶する。

第２画像が記憶されると、出力部７０は、その第２画像を外部に出力する（ステップＳ１６０）。

ステップＳ１６０の処理が終了すると、第１情報処理装置２は、その第１情報処理を終了する。

［１－３．考察］
上記構成の第１訓練装置１によると、ノイズ領域を含む第１画像からノイズ領域を推定するよう第１変換器３０を訓練し、第１画像に対して、第１変換器３０により推定されたノイズ領域に重み付けをして、ノイズ領域除去処理が施された第２画像を出力するよう第２変換器６０を訓練することができる。このため、第１変換器３０と第２変換器６０とを、画像から局所的なノイズを除去するよう効果的に訓練することができる。

また、上記構成の第１情報処理装置２によると、第１訓練装置１が行う第１訓練処理によりあらかじめ訓練された第１変換器３０により、第１画像からノイズ領域を推定し、第１訓練装置１が行う第１訓練処理によりあらかじめ訓練された第２変換器６０により、その推定されたノイズ領域に重み付けをして第２画像を出力することができる。

従って、第１情報処理装置２によると、画像から、局所的なノイズを効果的に除去することができる。

（実施の形態２）
［２－１．第２訓練装置］
以下、実施の形態１に係る第１訓練装置１から、その構成の一部が変更されて構成される、実施の形態２に係る第２訓練装置について説明する。この第２訓練装置は、第１訓練装置１と同様に、機械学習モデルからなる第１変換器と第２変換器とを備え、ノイズ領域を含む第１画像からノイズ領域を推定するよう第１変換器を訓練し、第１画像に対して、第１変換器により推定されたノイズ領域に重み付けをして、第１画像からノイズ領域除去処理が施された第２画像を出力するよう第２変換器を訓練する。

［２－１－１．第２訓練装置の構成］
図６は、実施の形態２に係る第２訓練装置１Ａの構成を示すブロック図である。以下では、第２訓練装置１Ａについて、第１訓練装置１と同様の構成要素については、既に説明済みであるとして同じ符号を振ってその詳細な説明を省略し、第１訓練装置１との相違点を中心に説明する。

図６に示されるように、第２訓練装置１Ａは、第１画像取得部１０Ａと、第１画像記憶部１１と、第２画像取得部１５と、第３画像取得部２０Ａと、第３画像記憶部２１と、第１変換器３０Ａと、ノイズ領域推定情報記憶部３１と、第１動き情報記憶部３２と、第１識別器３５Ａと、第１訓練部３６Ａと、結合部４０と、加算部５０と、第４画像記憶部５１と、第２変換器６０と、第２画像記憶部６１と、第２識別器６５と、第２訓練部６６と、動き情報取得部９０と、第２動き情報記憶部９１と、第３識別器８５と、第３訓練部８６とを含んで構成される。

第１画像取得部１０Ａは、ノイズ領域を含む複数の第１画像を取得する。ここで、複数の第１画像のそれぞれは、複数のフレームからなる動画を構成する。第１画像は、例えば、ビデオカメラによって撮像された動画を構成するフレーム画像であってよい。また、ノイズ領域は、ビデオカメラのレンズ又はレンズカバーの付着物（例えば、雨滴）に起因するノイズを含む領域であってよい。第１画像取得部１０Ａは、例えば、有線又は無線により通信可能に接続された撮像装置又は記録媒体から第１画像を取得してもよい。

第２画像取得部１５は、第２画像記憶部６１から第２画像を取得する。

第１変換器３０Ａは、第１画像と、その第１画像の所定フレーム前（例えば、１フレーム前）の第２画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第１動き情報とを出力するよう機械学習を用いて訓練される機械モデルである。ここでは、ノイズ領域推定情報は、第１画像に対して推定されるノイズ領域に含まれる画素の画素値のうちのノイズ成分を画素値とする画像であるとする。また、ここでは、第１動き情報は、所定フレーム前の第２画像を基準とする場合における第１画像の動き情報であるとする。ここで、第１変換器３０Ａには、第１画像記憶部１１に記憶される１の第１画像と、その第１画像の所定フレーム前の第２画像とがペアとなって入力される。すなわち、第２画像取得部１５は、第１画像が第１変換器３０Ａに入力される場合には、その第１画像とペアになる、その第１画像の所定フレーム前の第１画像についての処理により取得された所定フレーム前の第２画像を、第２画像記憶部１５から取得して、第１変換器３０Ａに入力する。第１変換器３０Ａは、第１画像と、その第１画像の所定フレーム前の第２画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第１動き情報とを出力するよう訓練され得る機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第１変換器３０Ａは、畳み込みニューラルネットワークであるとする。

第１変換器３０Ａは、機能ブロックとして、第１エンコーダ３０１と、第２エンコーダ３０２と、結合部３０３と、第１デコーダ３０４と、第２デコーダ３０５とを含んで構成される。

第１エンコーダ３０１は、第１画像が入力されると、第１画像の特徴量を出力するよう訓練される機能ブロックである。

第２エンコーダ３０２は、第２画像が入力されると、第２画像の特徴量を出力するよう訓練される機能ブロックである。

結合部３０３は、第１エンコーダ３０１により出力される第１画像の特徴量と、第２エンコーダ３０２により出力される第２画像の特徴量とをチャネル方向に結合する機能ブロックである。

第１デコーダ３０４は、結合部３０３により結合された特徴量が入力されると、ノイズ領域推定情報を出力するよう訓練される機能ブロックである。

第２デコーダ３０５は、結合部３０３により結合された特徴量が入力されると、第１動き情報を出力するよう訓練される機能ブロックである。

第１動き情報記憶部３２は、第１変換器３０Ａから出力された第１動き情報を記憶する。

第３画像取得部２０Ａは、第１動き情報と、所定フレーム前の第２画像とを用いて、第３画像を取得する。より具体的には、第３画像取得部２０Ａは、第１動き情報記憶部３２に記憶される第１動き情報と、第２画像取得部１５によって取得された、その第１動き情報に対応する第１画像の所定フレーム前の第２画像とを取得し、その第１動き情報を使って、その所定フレーム前の第２画像を現フレームの位置に変換することで、第３画像を取得する。

動き情報取得部９０は、第１画像と、その第１画像の所定フレーム前の第１画像との比較により、第２動き情報を取得する。ここでは、第２動き情報は、第１画像を基準とする場合における、所定フレーム前の第１画像の動き情報であるとする。

第２動き情報記憶部９１は、動き情報取得部９０によって取得された第２動き情報を記憶する。

第１識別器３５Ａは、第１変換器３０ＡをＧｅｎｅｒａｒｏｔとし第１識別器３５ＡをＤｉｓｃｒｉｍｉｎａｔｏｒとするＧＡＮを構成する機械学習モデルである。第１識別器３５Ａは、第１画像をリファレンスデータとし第４画像を変換用データとして入力されると、第１画像及び第４画像についてそれぞれリファレンスデータとしての真偽を識別する。言い換えると、第１画像と第１画像との同一性、及び第４画像と第１画像との同一性、が識別される。なお、リファレンスデータとしての真偽の代わりに変換用データとしての真偽が識別されてもよい。そして、第１識別器３５Ａは、識別結果に基づき誤差を出力する。また、第１識別器３５Ａは、機械学習を用いて識別結果に基づき訓練される。具体的には、第１識別器３５Ａは、第１画像記憶部１１に記憶される第１画像がリファレンスデータとして入力されると、第１画像がリファレンスデータであるか否かを識別する。また、第１識別器３５Ａは、第４画像記憶部５１に記憶される、上記第１画像に対応する第４画像が変換用データとして入力されると、第４画像がリファレンスデータであるか否かを識別する。例えば、それぞれの識別結果は確率値で表される。そして、第１識別器３５Ａは、第４画像の識別結果に基づいて誤差を出力する。また、第１識別器３５Ａは、第１画像及び第４画像についての識別結果に基づいて訓練される。例えば、第１識別器３５Ａは、第４画像がリファレンスデータである確率に基づき算出された値（以下、第５フィードバックデータとも称する。）を誤差として出力する。また、第１画像がリファレンスデータである確率及び第４画像がリファレンスデータである確率に基づき算出された値（以下、第６フィードバックデータとも称する。）を出力する。なお、第１識別器３５Ａは、第１画像と第４画像とが入力されると、これら画像の同一性を識別し、識別結果に基づき誤差を出力し、識別結果に基づき訓練される機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第１識別器３５Ａは、畳み込みニューラルネットワークであるとする。

第１訓練部３６Ａは、第１識別器３５Ａから出力された第５フィードバックデータを用いて第１変換器３０Ａを訓練する。具体的には、第１訓練部３６Ａは、第１識別器３５Ａから出力された第５フィードバックデータを第１変換器３０Ａにフィードバックすることで、第１変換器３０Ａを、第１画像と、その第１画像の所定フレーム前の第２画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第１動き情報とを出力するよう訓練する。この際、第１訓練部３６Ａは、第１識別器３５Ａから出力された第５フィードバックデータを、第１エンコーダ３０１と、第２エンコーダ３０２と、第１デコーダ３０４とにフィードバックすることで、第１変換器３０Ａを訓練する。また、第１訓練部３６Ａは、第１識別器３５Ａから出力された第６フィードバックデータを用いて第１識別器３５Ａを訓練する。具体的には、第１訓練部３６Ａは、第１識別器３５Ａから出力された第６フィードバックデータを第１識別器３５Ａにフィードバックすることで、第１識別器３５Ａを、第１画像及び第４画像が入力されると第１画像をリファレンスデータ、第４画像を変換用データと識別するよう訓練する。

第３識別器８５は、第２動き情報記憶部９１に記憶される第２動き情報をレファレンスデータとして入力され、第１動き情報記憶部３２に記憶される、その第２動き情報と同じフレームの第１動き情報を変換用データとして入力されると、第２動き情報と第１動き情報との誤差を出力する。第３識別器８５は、第１変換器３０ＡをＧｅｎｅｒａｔｏｒとし第３識別器８５をＤｉｓｃｒｉｍｉｎａｔｏｒとするＧＡＮを構成する機械学習モデルであってもよいが、必ずしもＧＡＮを構成する機械学習モデルである必要はない。

第３訓練部８６は、第３識別器８５から出力された誤差を第１変換器３０Ａにフィードバックすることで、第１変換器３０Ａを、第１画像と、その第１画像の所定フレーム前の第２画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第１動き情報とを出力するよう訓練する。この際、第３訓練部８６は、第３識別器８５から出力された誤差を、第１エンコーダ３０１と、第２エンコーダ３０２と、第２デコーダ３０５とにフィードバックすることで、第１変換器３０Ａを訓練する。

［２－１－２．第２訓練装置の動作］
上記構成の第２訓練装置１Ａは、第１画像をリファレンスデータとし、第４画像を変換用データとした機械学習を用いて第１変換器３０Ａを訓練し、第３画像をリファレンスデータとし、第２画像を変換用データとした機械学習を用いて第２変換器６０を訓練し、第２動き情報をリファレンスデータとし、第１動き情報を変換用データとした機械学習を用いで第１変換器３０Ａを訓練する第２訓練処理を行う。

図７は、第２訓練処理のフローチャートである。

第２訓練処理は、例えば、第２訓練装置１Ａに対して、第２訓練処理を開始する旨の操作がなされることで開始される。

第２訓練処理が開始されると、第１画像取得部１０Ａは、複数の第１画像を取得する（ステップＳ２１０）。第１画像が取得されると、第１画像記憶部１１は、取得された第１画像を記憶する。

複数の第１画像が第１画像記憶部１１に記憶されると、第１変換器３０Ａは、第１画像記憶部１１に記憶される第１画像の中に、未選択の第１画像が存在するか否かを調べる（ステップＳ２２０）。ここで、未選択の第１画像とは、ステップＳ２２０の処理～後述のステップＳ２９５の処理によって形成されるループ処理において、未だ選択されたことのない第１画像のことをいう。

ステップＳ２２０の処理において、未選択の第１画像が存在する場合に（ステップＳ２２０：Ｙｅｓ）、第１変換器３０Ａは、未選択の第１画像のうちの１つを選択する（ステップＳ３０）。

未選択の第１画像が選択されると、第２画像取得部１５は、第２画像記憶部６１から、選択した第１画像の所定フレーム前の第２画像を取得する（ステップＳ２３５）。ここで、第２画像取得部１５は、第２画像記憶部６１に、所定フレーム前の第２画像が未だ記憶されていない場合には、例えば、所定フレーム前の第２画像の代わりに代替画像を所定フレーム前の第２画像として取得するとしてもよい。この場合には、第２画像取得部１５は、例えば、外部装置から代替画像を取得するとしてもよいし、あらかじめ第２画像記憶部６１に記憶されている代替画像を第２画像記憶部６１から取得するとしてもよい。代替画像は、所定フレーム前の第２画像に対応する場面が映る画像であればどのような画像であっても構わない。例えば、代替画像は、所定フレーム前以外のフレームの第２画像に対して、ＣＧ処理により加工された画像であってもよい。

所定フレーム前の第２画像が取得されると、第１変換器３０Ａは、選択した第１画像と、取得された所定フレーム前の第２画像とを第１変換器３０Ａに入力し、ノイズ領域推定情報と第１動き情報とを出力する第１処理を行う（ステップＳ２４０）。

図８は、第１処理のフローチャートである。

第１処理が開始されると、第１エンコーダ３０１は、第１画像から、第１画像の特徴量を出力する（ステップＳ３１０）。

そして、第２エンコーダ３０２は、所定フレーム前の第２画像から、所定フレーム前の第２画像の特徴量を抽出する（ステップＳ３２０）。

第１画像の特徴量と、所定フレーム前の第２画像の特徴量とが出力されると、結合部３０３は、第１画像の特徴量と、所定フレーム前の第２画像の特徴量とをチャネル方向に結合する（ステップＳ３３０）。

特徴量が結合されると、第１デコーダ３０４は、結合された特徴量から、ノイズ領域推定情報を出力する（ステップＳ３４０）。そして、ノイズ領域推定情報記憶部３１は、第１デコーダ３０４から出力されたノイズ領域推定情報を記憶する。

そして、第２デコーダ３０５は、結合された特徴量から、第１動き情報を出力する（ステップＳ３５０）。そして、第１動き情報記憶部３２は、第２デコーダ３０５から出力された第１動き情報を記憶する。

ステップＳ３５０の処理が終了すると、第２訓練装置１Ａは、その第１処理を終了する。

再び図７に戻って、第２訓練処理の説明を続ける。

第１処理においてノイズ領域推定情報が記憶されると、結合部４０は、そのノイズ領域推定情報と、選択中の第１画像とを、チャネル方向に結合して第２変換器６０に入力する。すると、第２変換器６０は、第２画像を出力する（ステップＳ２５０）。第２画像が出力されると、第２画像記憶部６１は、出力された第２画像を記憶する。

第１処理において第１動き情報が記憶されると、第３画像取得部２０Ａは、その第１動き情報と、所定フレーム前の第２画像とを用いて、第３画像を取得する（ステップＳ２６０）。第３画像が取得されると、第３画像記憶部２１は、取得された第３画像を記憶する。

第３画像が記憶されると、加算部５０は、その第３画像と、ノイズ領域推定情報記憶部３１に記憶される、選択中の第１画像に対応するノイズ領域推定情報とを用いて、第４画像を生成する（ステップＳ２７０）。第４画像が出力されると、第４画像記憶部５１は、生成された第４画像を記憶する。

第４画像が記憶されると、動き情報取得部９０は、選択中の第１画像と、その第１画像の所定フレーム前の第１画像との比較により、第２動き情報を取得する（ステップＳ２７５）。第２動き情報が取得されると、第２動き情報記憶部９１は、取得された第２動き情報を記憶する。

第２動き情報が記憶されると、第１識別器３５Ａと第１訓練部３６Ａとは、選択中の第１画像をリファレンスデータとし、第４画像記憶部５１に新たに記憶された第４画像を変換用データとした機械学習を用いて、第１変換器３０Ａを訓練する（ステップＳ２８０）。より具体的には、第１識別器３５Ａは、第１画像と第４画像との誤差を出力し、第１訓練部３６Ａは、出力された誤差を、第１エンコーダ３０１と、第２エンコーダ３０２と、第１デコーダ３０４とにフィードバックすることで、第１変換器３０Ａを訓練する。

第１識別器３５Ａが訓練されると、第２識別器６５と第２訓練部６６とは、第３画像記憶部２１に新たに記憶された第３画像をリファレンスデータとし、第２画像記憶部６１に新たに記憶された第２画像を変換用データとした機械学習を用いて、第２変換器６０を訓練する（ステップＳ２９０）。より具体的には、第２識別器６５は、第３画像と第２画像との誤差を出力し、第２訓練部６６は、出力された誤差を第２変換器６０にフィードバックすることで、第２変換器６０を訓練する。

第２変換器６０が訓練されると、第３識別器８５と第３訓練部８６とは、第２動き情報記憶部９１に新たに記憶された第２動き情報をリファレンスデータとし、第１動き情報記憶部３２に新たに記憶された第１動き情報を変換用データとした機械学習を用いて、第１変換器３０Ａを訓練する（ステップＳ２９５）。より具体的には、第３識別器８５は、第２動き情報と第１動き情報との誤差を出力し、第３訓練部８６は、出力された誤差を、第１エンコーダ３０１と、第２エンコーダ３０２と、第２デコーダ３０５とにフィードバックすることで、第１変換器３０Ａを訓練する。

ステップＳ２９５の処理が終了すると、第２訓練装置１Ａは、ステップＳ２２０の処理へと進む。

ステップＳ２２０の処理において、未選択の第１画像が存在しない場合に（ステップＳ２２０：Ｎｏ）、第２訓練装置１Ａは、その第２訓練処理を終了する。

［２－２．第２情報処理装置］
以下、実施の形態１に係る第１情報処理装置２から、その構成の一部が変更されて構成される、実施の形態２に係る第２情報処理装置について説明する。この第２情報処理装置は、第１情報処理装置と同様に、第２訓練装置１Ａが行う第２訓練処理によりあらかじめ訓練された第１変換器３０Ａと第２変換器６０とを備え、第１画像が入力されると、第１画像からノイズ除去処理が施された第２画像を出力する。

［２－２－１．第２情報処理装置の構成］
図９は、実施の形態２に係る第２情報処理装置２Ａの構成を示すブロック図である。以下では、第２情報処理装置２Ａについて、第２訓練装置１Ａ又は第１情報処理装置２と同様の構成要素については、既に説明済みであるとして同じ符号を振ってその詳細な説明を省略し、第２訓練装置１Ａ又は第１情報処理装置２との相違点を中心に説明する。

図９に示されるように、第２情報処理装置２Ａは、第１画像取得部１０Ａと、第１画像記憶部１１と、第１変換器３０Ａと、ノイズ領域推定情報記憶部３１と、結合部４０と、第２変換器６０と、第２画像取得部１５と、第２画像記憶部６１と、出力部７０とを含んで構成される。ここで、第１変換器３０Ａと第２変換器６０とは、第２訓練装置１Ａが行う第２訓練処理によりあらかじめ訓練されているとする。

［２－２－２．第２情報処理装置の動作］
上記構成の第２情報処理装置２Ａは、第１画像が入力されると、第１画像からノイズ除去処理が施された第２画像を出力する第２情報処理を行う。

図１０は、第２情報処理のフローチャートである。

第２情報処理において、ステップＳ４５０の処理～ステップＳ４６０の処理は、それぞれ、実施の形態１に係る第１情報処理におけるステップＳ１５０の処理～ステップＳ１６０の処理と同様の処理である。このため、ここでは、ステップＳ４５０の処理～ステップＳ４６０の処理は、すでに説明済みであるとしてその詳細な説明を省略し、ステップＳ４１０の処理～ステップＳ４４０の処理を中心に説明する。

第２情報処理は、例えば、第２情報処理装置２Ａに対して、第２情報処理を開始する旨の操作がなされることで開始される。

第１情報処理が開始されると、第１画像取得部１０Ａは、１の第１画像を取得する（ステップＳ４１０）。第１画像が取得されると、第１画像記憶部１１は、取得された第１画像を記憶する。

第１画像が取得されると、第２画像取得部１５は、その第１画像の所定フレーム前の第２画像を取得する（ステップＳ４２０）。

第１画像と、所定フレーム前の第２画像とが取得されると、第１変換器３０Ａは、その第１画像と、その所定フレーム前の第２画像とを第１変換器３０Ａに入力し、ノイズ領域推定情報を出力する（ステップＳ４４０）。ノイズ領域推定情報が出力されると、ノイズ領域推定情報記憶部３１は、出力されたノイズ領域推定情報を記憶する。

ステップＳ４４０の処理が終了すると、第２情報処理装置２Ａは、ステップＳ４５０の処理に進む。第２情報処理装置２Ａは、ステップＳ４６０の処理が終了すると、その第２情報処理を終了する。

［２－３．考察］
上記構成の第２訓練装置１Ａによると、実施の形態１に係る第１訓練装置１と同様に、第１画像からノイズ領域を推定するよう第１変換器３０Ａを訓練し、第１画像に対して、第１変換器３０Ａにより推定されたノイズ領域に重み付けをして第２画像を出力するよう第２変換器６０を訓練することができる。このため、第１変換器３０Ａと第２変換器６０とを、画像から局所的なノイズを除去するよう効果的に訓練することができる。また、上記構成の第２訓練装置１Ａによると、動き情報を利用することで、１の第１画像においてノイズの影響で隠れていた情報を、他の第１画像より得ることができる。このため、第１変換器３０Ｂと第２変換器６０とを、画像から局所的なノイズを除去するよう効果的に訓練することができる。また、上記構成の第２訓練装置１Ａによると、第２訓練装置１Ａを利用するユーザは、あらかじめ第３画像を準備する必要がない。このため、第２訓練装置１Ａを利用するユーザは、あらかじめ第３画像を準備せずに、第１変換器３０Ａと第２変換器６０とを訓練することができる。

また、上記構成の第２情報処理装置２Ａによると、実施の形態１に係る第１情報処理装置２と同様に、第２訓練装置１Ａが行う第２訓練処理によりあらかじめ訓練された第１変換器３０Ａにより、第１画像からノイズ領域を推定し、第２訓練装置１Ａが行う第１訓練処理によりあらかじめ訓練された第２変換器６０により、その推定されたノイズ領域に重み付けをして第２画像を出力することができる。

従って、第２情報処理装置２Ａによると、実施の形態１に係る第１情報処理装置２と同様に、画像から、局所的なノイズを効果的に除去することができる。

（実施の形態３）
［３－１．第３訓練装置］
以下、実施の形態２に係る第２訓練装置１Ａから、その構成の一部が変更されて構成される、実施の形態３に係る第３訓練装置について説明する。この第３訓練装置は、機械学習モデルからなる第１変換器を備え、ノイズ領域を含む第１画像から、ノイズ除去処理が施された第２画像を出力するよう第１変換器を訓練する。

［３－１－１．第３訓練装置の構成］
図１１は、実施の形態３に係る第３訓練装置１Ｂの構成を示すブロック図である。以下では、第３訓練装置１Ｂについて、第２訓練装置１Ａ又は実施の形態１に係る第１訓練装置１と同様の構成要素については、既に説明済みであるとして同じ符号を振ってその詳細な説明を省略し、第２訓練装置１Ａ又は第１訓練装置１との相違点を中心に説明する。

図１１に示されるように、第３訓練装置１Ｂは、第１画像取得部１０Ａと、第１画像記憶部１１と、第２画像取得部１５と、第３画像取得部２０Ａと、第３画像記憶部２１と、第１変換器３０Ｂと、ノイズ領域推定情報記憶部３１と、第１動き情報記憶部３２と、第１識別器３５Ｂと、第１訓練部３６Ｂと、加算部５０と、第４画像記憶部５１と、第２変換器６０Ｂと、第２画像記憶部６１と、第２識別器６５Ｂと、第２訓練部６６Ｂと、動き情報取得部９０と、第２動き情報記憶部９１と、第３識別器８５と、第３訓練部８６Ｂとを含んで構成される。

第１変換器３０Ｂは、第１画像と、その第１画像の所定フレーム前（例えば、１フレーム前）の第２画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第２画像と、第１動き情報とを出力するよう機械学習を用いて訓練される機械モデルである。ここでは、ノイズ領域推定情報は、第１画像に対して推定されるノイズ領域に含まれる画素の画素値のうちのノイズ成分を画素値とする画像であるとする。また、ここでは、第１動き情報は、所定フレーム前の第２画像を基準とする場合における第１画像の動き情報であるとする。ここで、第１変換器３０Ｂには、第１画像記憶部１１に記憶される１の第１画像と、その第１画像の所定フレーム前の第２画像とがペアとなって入力される。すなわち、第２画像取得部１５は、第１画像が第１変換器３０Ｂに入力される場合には、その第１画像とペアになる、その第１画像の所定フレーム前の第１画像についての処理により取得された所定フレーム前の第２画像を、第２画像記憶部１５から取得して、第１変換器３０Ｂに入力する。第１変換器３０Ａは、第１画像と、その第１画像の所定フレーム前の第２画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第２画像と、第１動き情報とを出力するよう訓練され得る機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第１変換器３０Ｂは、畳み込みニューラルネットワークであるとする。

第１変換器３０Ｂは、機能ブロックとして、第１エンコーダ３０１と、第２エンコーダ３０２と、結合部３０３と、第１デコーダ３０４と、第２デコーダ３０５と、第３デコーダ３０６とを含んで構成される。

第３デコーダ３０６は、結合部３０３により結合された特徴量が入力されると、第２画像が出力されるよう訓練された機能ブロックである。

第１識別器３５Ｂは、第１変換器３０ＢをＧｅｎｅｒａｔｏｒとし、第１識別器３５ＢをＤｉｓｃｒｉｍｉｎａｔｏｒとするＧＡＮを構成する機械学習モデルである。第１識別器３５Ｂは、第１画像をリファレンスデータとし第４画像を変換用データとして入力されると、第１画像及び第４画像についてそれぞれリファレンスデータとしての真偽を識別する。言い換えると、第１画像と第１画像との同一性、及び第４画像と第１画像との同一性、が識別される。なお、リファレンスデータとしての真偽の代わりに変換用データとしての真偽が識別されてもよい。そして、第１識別器３５Ｂは、識別結果に基づき誤差を出力する。また、第１識別器３５Ｂは、機械学習を用いて識別結果に基づき訓練される。具体的には、第１識別器３５Ｂは、第１画像記憶部１１に記憶される第１画像がリファレンスデータとして入力されると、第１画像がリファレンスデータであるか否かを識別する。また、第１識別器３５Ｂは、第４画像記憶部５１に記憶される、上記第１画像に対応する第４画像が変換用データとして入力されると、第４画像がリファレンスデータであるか否かを識別する。例えば、それぞれの識別結果は確率値で表される。そして、第１識別器３５Ｂは、第４画像の識別結果に基づいて誤差を出力する。また、第１識別器３５Ｂは、第１画像及び第４画像についての識別結果に基づいて訓練される。例えば、第１識別器３５Ｂは、第４画像がリファレンスデータである確率に基づき算出された値（以下、第７フィードバックデータとも称する。）を誤差として出力する。また、第１画像がリファレンスデータである確率及び第４画像がリファレンスデータである確率に基づき算出された値（以下、第８フィードバックデータとも称する。）を出力する。なお、第１識別器３５Ｂは、第１画像と第４画像とが入力されると、これら画像の同一性を識別し、識別結果に基づき誤差を出力し、識別結果に基づき訓練される機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第１識別器３５Ｂは、畳み込みニューラルネットワークであるとする。

第１訓練部３６Ｂは、第１識別器３５Ｂから出力された第７フィードバックデータを用いて第１変換器３０Ｂを訓練する。具体的には、第１訓練部３６Ｂは、第１識別器３５Ｂから出力された第７フィードバックデータを第１変換器３０Ｂにフィードバックすることで、第１変換器３０Ｂを、第１画像と、その第１画像の所定フレーム前の第２画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第２画像と、第１動き情報とを出力するよう訓練する。この際、第１訓練部３６Ｂは、第１識別器３５Ｂから出力された第７フィードバックデータを、第１エンコーダ３０１と、第２エンコーダ３０２と、第１デコーダ３０４とにフィードバックすることで、第１変換器３０Ｂを訓練する。また、第１訓練部３６Ｂは、第１識別器３５Ｂから出力された第８フィードバックデータを用いて第１識別器３５Ｂを訓練する。具体的には、第１訓練部３６Ｂは、第１識別器３５から出力された第８フィードバックデータを第１識別器３５Ｂにフィードバックすることで、第１識別器３５Ｂを、第１画像及び第４画像が入力されると第１画像をリファレンスデータ、第４画像を変換用データと識別するよう訓練する。

第２識別器６５Ｂは、第１変換器３０ＢをＧｅｎｅｒａｔｏｒとし第２識別器６５ＢをＤｉｓｃｒｉｍｉｎａｔｏｒとするＧＡＮを構成する機械学習モデルである。第２識別器６５Ｂは、第３画像をリファレンスデータとし第２画像を変換用データとして入力されると、第３画像及び第２画像についてそれぞれリファレンスデータとしての真偽を識別する。言い換えると、第３画像と第３画像との同一性、及び第２画像と第３画像との同一性、が識別される。なお、リファレンスデータとしての真偽の代わりに変換用データとしての真偽が識別されてもよい。そして、第２識別器６５Ｂは、識別結果に基づき誤差を出力する。また、第２識別器６５Ｂは、機械学習を用いて識別結果に基づき訓練される。具体的には、第２識別器６５Ｂは、第３画像記憶部２１に記憶される第３画像がリファレンスデータとして入力されると、第３画像がリファレンスデータであるか否かを識別する。また、第２識別器６５Ｂは、第２画像記憶部６１に記憶される、上記第３画像に対応する第２画像が変換用データとして入力されると、第２画像がリファレンスデータであるか否かを識別する。例えば、それぞれの識別結果は確率値で表される。そして、第２識別器６５Ｂは、第２画像の識別結果に基づいて誤差を出力する。また、第２識別器６５Ｂは、第３画像及び第２画像についての識別結果に基づいて訓練される。例えば、第２識別器６５Ｂは、第２画像がリファレンスデータである確率に基づき算出された値（以下、第９フィードバックデータとも称する。）を誤差として出力する。また、第３画像がリファレンスデータである確率及び第２画像がリファレンスデータである確率に基づき算出された値（以下、第１０フィードバックデータとも称する。）を出力する。なお、第２識別器６５Ｂは、第３画像と第２画像とが入力されると、これら画像の同一性を識別し、識別結果に基づき誤差を出力し、識別結果に基づき訓練される機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第２識別器６５Ｂは、畳み込みニューラルネットワークであるとする。

第２訓練部６６Ｂは、第２識別器６５Ｂから出力された第９フィードバックデータを用いて第１変換器３０Ｂを訓練する。具体的には、第２訓練部６６は、第２識別器６５から出力された第９フィードバックデータを第１変換器３０Ｂにフィードバックすることで、第１変換器３０Ｂを、第１画像と、その第１画像の所定フレーム前の第２画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第２画像と、第１動き情報とを出力するよう訓練する。この際、第２訓練部６６Ｂは、第２識別器６５Ｂから出力された第９フィードバックデータを、第１エンコーダ３０１と、第２エンコーダ３０２と、第３デコーダ３０６とにフィードバックすることで、第１変換器３０Ｂを訓練する。また、第２訓練部６６Ｂは、第２識別器６５Ｂから出力された第１０フィードバックデータを用いて第２識別器６５Ｂを訓練する。具体的には、第２訓練部６６Ｂは、第２識別器６５Ｂから出力された第１０フィードバックデータを第２識別器６５Ｂにフィードバックすることで、第２識別器６５Ｂを、第３画像及び第２画像が入力されると第３画像をリファレンスデータ、第２画像を変換用データと識別するよう訓練する。

第３訓練部８６Ｂは、第３識別器８５から出力された誤差を第１変換器３０Ｂにフィードバックすることで、第１変換器３０Ｂを、第１画像と、その第１画像の所定フレーム前の第２画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第２画像と、第１動き情報とを出力するよう訓練する。この際、第３訓練部８６Ｂは、第３識別器８５から出力された誤差を、第１エンコーダ３０１と、第２エンコーダ３０２と、第２デコーダ３０５とにフィードバックすることで、第１変換器３０Ｂを訓練する。

［３－１－２．第３訓練装置の動作］
上記構成の第３訓練装置１Ｂは、第１画像をリファレンスデータとし、第４画像を変換用データとした機械学習を用いて第１変換器３０Ｂを訓練し、第３画像をリファレンスデータとし、第２画像を変換用データとした機械学習を用いて第１変換器３０Ｂを訓練し、第２動き情報をリファレンスデータとし、第１動き情報を変換用データとした機械学習を用いで第１変換器３０Ｂを訓練する第３訓練処理を行う。

図１２は、第３訓練処理のフローチャートである。

第３訓練処理において、ステップＳ５１０の処理～ステップＳ５３５の処理、ステップＳ５６０の処理～ステップＳ５８０の処理、及び、ステップＳ５９５の処理は、それぞれ、実施の形態２に係る第２訓練処理におけるステップＳ２１０の処理～ステップＳ２３５の処理、ステップＳ２６０の処理～ステップＳ２８０の処理、及び、ステップＳ２９５の処理に対して、「第１変換器３０Ａ」を「第１変換器３０Ｂ」に読み替え、「第１識別器３５Ａ」を「第１識別器３５Ｂ」に読み替え、「第１訓練部３６Ａ」を「第１訓練部３６Ｂ」に読み替え、「第３訓練部８６Ａ」を「第３訓練部８６Ｂ」に読み替えた処理と同様の処理である。このため、ここでは、ステップＳ５１０の処理～ステップＳ５３５の処理、ステップＳ５６０の処理～ステップＳ５８０の処理、及び、ステップＳ５９５の処理は、すでに説明済みであるとしてその詳細な説明を省略し、ステップＳ５４０の処理とステップＳ５９０の処理とを中心に説明する。

第３訓練処理は、例えば、第３訓練装置１Ｂに対して、第３訓練処理を開始する旨の操作がなされることで開始される。

ステップＳ５３５の処理が終了すると、第１変換器３０Ｂは、選択した第１画像と、取得された所定フレーム前の第２画像とを第１変換器３０Ｂに入力し、ノイズ領域推定情報と第２画像と第１動き情報とを出力する第２処理を行う（ステップＳ５４０）。

図１３は、第２処理のフローチャートである。

第２処理において、ステップＳ６１０の処理～ステップＳ６５０の処理は、それぞれ、実施の形態２に係る第１処理におけるステップＳ３１０の処理～ステップＳ３５０の処理と同様の処理である。このため、ここでは、ステップＳ６１０の処理～ステップＳ６５０の処理は、すでに説明済みであるとしてその詳細な説明を省略し、ステップＳ６６０の処理を中心に説明する。

ステップＳ６５０の処理が終了すると、第３デコーダ３０６は、結合された特徴量から、第２画像を出力する（ステップＳ６６０）。そして、第２画像記憶部６１は、第３デコーダ３０６から出力された第２画像を記憶する。

ステップＳ６６０の処理が終了すると、第３訓練装置１Ｂは、その第２処理を終了する。

再び図１２に戻って、第３訓練処理の説明を続ける。

第２処理が終了すると、第３訓練装置１Ｂは、ステップＳ５６０の処理へと進む。

ステップＳ５８０の処理が終了すると、第２識別器６５Ｂと第２訓練部６６Ｂとは、第３画像記憶部２１に新たに記憶された第３画像をリファレンスデータとし、第２画像記憶部６１に新たに記憶された第２画像を変換用データとした機械学習を用いて、第１変換器３０Ｂを訓練する（ステップＳ５９０）。より具体的には、第２識別器６５Ｂは、第３画像と第２画像との誤差を出力し、第２訓練部６６Ｂは、出力された誤差を第１エンコーダ３０１と、第２エンコーダ３０２と、第１デコーダ３０４とにフィードバックすることで、第１変換器３０Ｂを訓練する。

ステップＳ５９０の処理が終了すると、第３訓練装置１Ｂは、ステップＳ５９５の処理へと進む。

ステップＳ５２０の処理において、未選択の第１画像が存在しない場合に（ステップＳ５２０：Ｎｏ）、第３訓練装置１Ｂは、その第３訓練処理を終了する。

［３－２．第３情報処理装置］
以下、実施の形態２に係る第２情報処理装置２Ａから、その構成の一部が変更されて構成される、実施の形態３に係る第３情報処理装置について説明する。この第３情報処理装置は、第３訓練装置１Ｂが行う第３訓練処理によりあらかじめ訓練された第１変換器３０Ｂを備え、第１画像が入力されると、第１画像からノイズ除去処理が施された第２画像を出力する。

［３－２－１．第３情報処理装置の構成］
図１４は、実施の形態３に係る第３情報処理装置２Ｂの構成を示すブロック図である。以下では、第３情報処理装置２Ｂについて、第３訓練装置１Ｂ又は第２情報処理装置２Ａと同様の構成要素については、既に説明済みであるとして同じ符号を振ってその詳細な説明を省略し、第３訓練装置１Ｂ又は第２情報処理装置２Ａとの相違点を中心に説明する。

図１４に示されるように、第３情報処理装置２Ｂは、第１画像取得部１０Ａと、第１画像記憶部１１と、第２画像取得部１５と、第１変換器３０Ｂと、第２画像記憶部６１と、出力部７０とを含んで構成される。ここで、第１変換器３０Ｂは、第３訓練装置１Ｂが行う第３訓練処理によりあらかじめ訓練されているとする。

［３－２－２．第３情報処理装置の動作］
上記構成の第３情報処理装置２Ｂは、第１画像が入力されると、第１画像からノイズ除去処理が施された第２画像を出力する第３情報処理を行う。

図１５は、第３情報処理のフローチャートである。

第３情報処理において、ステップＳ７１０の処理～ステップＳ７２０の処理は、それぞれ、実施の形態２に係る第２情報処理におけるステップＳ４１０の処理～ステップＳ４２０の処理と同様の処理である。このため、ここでは、ステップＳ７１０の処理～ステップＳ７２０の処理は、すでに説明済みであるとしてその詳細な説明を省略し、ステップＳ７３０の処理～ステップＳ７４０の処理を中心に説明する。

第３情報処理は、例えば、第３情報処理装置２Ｂに対して、第３処理を開始する旨の操作がなされることで開始される。

ステップＳ７１０の処理において第１画像が取得され、ステップＳ７２０の処理において所定フレーム前の第２画像が取得されると、第１変換器３０Ｂは、その第１画像と、その所定フレーム前の第２画像とを第１変換器３０Ｂに入力し、第２画像を出力する（ステップＳ７３０）。第２画像が出力されると、第２画像記憶部６１は、出力された第２画像を記憶する。

第２画像が記憶されると、出力部７０は、その第２画像を外部に出力する（ステップＳ７４０）。

ステップＳ７４０の処理が終了すると、第３情報処理装置２Ｂは、その第３情報処理を終了する。

［３－３．考察］
上記構成の第３訓練装置１Ｂによると、第１画像からノイズ領域を推定するよう第１変換器３０Ｂを訓練し、第１画像に対して、第１変換器３０Ｂにより推定されたノイズ領域に重み付けをして第２画像を出力するよう第１変換器３０Ｂを訓練することができる。このため、第１変換器３０Ｂを、画像から局所的なノイズを除去するよう効果的に訓練することができる。また、上記構成の第３訓練装置１Ｂによると、動き情報を利用することで、１の第１画像においてノイズの影響で隠れていた情報を、他の第１画像より得ることができる。このため、第１変換器３０Ｂを、画像から局所的なノイズを除去するよう効果的に訓練することができる。また、上記構成の第３訓練装置１Ｂによると、第３訓練装置１Ｂを利用するユーザは、あらかじめ第３画像を準備する必要がない。このため、第３訓練装置１Ｂを利用するユーザは、あらかじめ第３画像を準備せずに、第１変換器３０Ｂを訓練することができる。

また、上記構成の第３情報処理装置２Ｂによると、第３訓練装置１Ｂが行う第３訓練処理によりあらかじめ訓練された第１変換器３０Ｂにより、第１画像から第２画像を出力することができる。

従って、第３情報処理装置２Ｂによると、実施の形態１に係る第１情報処理装置２、及び、実施の形態２に係る第２情報処理装置２Ａと同様に、画像から、局所的なノイズを効果的に除去することができる。

（補足）
以上、本開示の１つまたは複数の態様に係る訓練装置及び情報処理装置について、実施の形態１～実施の形態３に基づいて説明したが、本開示は、これら実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の１つまたは複数の態様の範囲内に含まれてもよい。

（１）実施の形態１において、第１画像として、例えば、カメラのレンズ又はレンズカバーの付着物（例えば雨滴）に起因するノイズを含む画像を例示して説明した。しかしながら、第１画像は、ノイズを含む画像であれば、必ずしも上記例に限定される必要はない。例えば、第１画像は、画像を撮像する際に発生している霧に起因するノイズを含む画像であってもよい。

（２）実施の形態２において、動き情報取得部９０は、第１画像と、その第１画像の所定フレーム前の第１画像との比較により、第２動き情報を取得するとして説明した。これに対して、他の例として、動き情報取得部９０は、例えば、外部装置においてあらかじめ生成された第２動き情報を外部から取得するとしてもよい。

（３）実施の形態２において、第１動き情報及び第２動き情報を取得するための比較画像の基となる画像は、選択中の第１画像と、その第１画像の所定フレーム前の第１画像であるとして説明した。これに対して、他の例として、比較画像の基となる画像は、選択中の第１画像と、その第１画像のｎ（ｎは１以上の整数）フレーム前の第１画像であって、選択中の第１画像に応じて、ｎの値が変更されるとしてもよい。この場合、ｎの値は、例えば、第１画像に含まれる物体の動きに応じて決定されるとしてもよい。より具体的には、ｎの値は、例えば、物体の動きがより小さい場合にｎの値がより大きくなるように決定されるとしてもよい。

（４）上記各実施の形態においては、処理の対象が画像である例を説明したが、処理の対象は画像以外のセンシングデータであってもよい。例えば、センシングデータは、画像若しくは骨格などの2次元座標などの２次元データのほか、マイクロフォン若しくは慣性センサなどから出力される波形データなどの１次元データ、又はＬｉＤＡＲ等のレーダから出力される点群データ若しくは時系列の複数の画像である動画データなどの３次元データのような他の次元のデータであってよい。なお、処理の対象となるセンシングデータは、次元が変更されてもよい。例えば、センシングデータが波形データである場合、所定期間の波形データ（すなわち２次元データ）が第１、第２変換器に入力されてもよい。また、ケプストラムのように波形データを時間と周波数からなる二次元データに変換したものが入力されてもよい。また、センシングデータが水平方向、垂直方向、及び奥行方向の位置で特定される点で構成される点群データである場合、特定の奥行方向における水平方向及び垂直方向の点群データ（すなわち２次元データ）が第１、第２変換器に入力されてもよい。

（５）各訓練装置及び各情報処理装置が備える構成要素の一部又は全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などを含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

なお、ここでは、システムＬＳＩとしたが、集積度の違いにより、ＩＣ、ＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、あるいはＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

（６）本開示の一態様は、このような訓練装置及び情報処理装置だけではなく、訓練装置及び情報処理装置に含まれる特徴的な構成部をステップとする情報処理方法であってもよい。また、本開示の一態様は、情報処理方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。

本開示は、センシングデータからノイズを除去する処理を行う装置等に広く利用可能である。

１第１訓練装置
１Ａ第２訓練装置
１Ｂ第３訓練装置
２第１情報処理装置
２Ａ第２情報処理装置
２Ｂ第３情報処理装置
１０、１０Ａ第１画像取得部
１５第２画像取得部
２０、２０Ａ第３画像取得部
３０、３０Ａ、３０Ｂ第１変換器
３５、３５Ａ、３５Ｂ第１識別器
３６、３６Ａ、３６Ｂ第１訓練部
４０結合部
５０加算部
６０第２変換器
６５、６５Ｂ第２識別器
６６、６６Ｂ第２訓練部
７０出力部
８５第３識別器
８６、８６Ｂ第３訓練部
９０動き情報取得部
３０１第１エンコーダ
３０２第２エンコーダ
３０３結合部
３０４第１デコーダ
３０５第２デコーダ
３０６第３デコーダ

Claims

コンピュータが、
ノイズ領域を含む第１センシングデータを取得し、
前記第１センシングデータを第１変換器に入力することにより、前記第１変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、
前記ノイズ領域推定情報及び前記第１センシングデータを第２変換器に入力することにより、前記第２変換器から出力されるノイズ領域除去処理が施された第２センシングデータを取得し、
前記第１センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第３センシングデータを取得し、
前記ノイズ領域推定情報と前記第３センシングデータとを用いて前記推定される前記ノイズ領域を含む第４センシングデータを生成し、
前記第１センシングデータをリファレンスデータとし前記第４センシングデータを変換用データとした機械学習を用いて前記第１変換器を訓練し、
前記第３センシングデータをリファレンスデータとし前記第２センシングデータを変換用データとした機械学習を用いて前記第２変換器を訓練する
情報処理方法。
前記第１センシングデータの所定時間前の第１センシングデータについての処理により取得された前記所定時間前の第２センシングデータを取得し、
前記第１センシングデータと前記所定時間前の第２センシングデータとを前記第１変換器に入力することにより、前記第１変換器から出力される第１動き情報を取得し、
前記第１動き情報と前記所定時間前の第２センシングデータとを用いて前記第３センシングデータを取得し、
前記第１センシングデータと前記所定時間前の第１センシングデータとの比較により得られる第２動き情報を取得し、
前記第２動き情報をリファレンスデータとし、前記第１動き情報を変換用データとした機械学習を用いて前記第１変換器を訓練する
請求項１に記載の情報処理方法。
前記第１センシングデータと前記所定時間前の第２センシングデータとを前記第１変換器に入力することにより、前記第１変換器から出力される前記ノイズ領域推定情報を取得する
請求項２に記載の情報処理方法。
前記第１変換器の訓練で利用されるフィードバックデータは、入力されるセンシングデータが前記１変換器の変換用データであるか否か又はリファレンスデータであるか否かを識別するように機械学習を用いて訓練された第１識別器に前記第１センシングデータと前記第４センシングデータとを入力することにより、前記第１識別器から出力され、
前記第２変換器の訓練で利用されるフィードバックデータは、入力されるセンシングデータが前記第２変換器の変換用データであるか否かリファレンスデータであるか否かを識別するように機械学習を用いて訓練された第２識別器に前記第２センシングデータと前記第３センシングデータとを入力することにより、前記第２識別器から出力される
請求項１から請求項３のいずれか１項に記載の情報処理方法。
前記第１変換器及び前記第２変換器は、ニューラルネットワークである
請求項１から請求項４のいずれか１項に記載の情報処理方法。
コンピュータが、
ノイズ領域を含む第１センシングデータと、第１変換器から出力された、ノイズ領域除去処理が施された第２センシングデータとを取得し、
前記第１センシングデータと、前記第１センシングデータの所定時間前の第１センシングデータについての処理により取得された前記所定時間前の第２センシングデータとを前記第１変換器に入力することにより前記第１変換器から出力される、前記第２センシングデータと第１動き情報とを取得し、
前記第１動き情報と、前記所定時間前の第２センシングデータと、を用いて第３センシングデータを取得し、
前記第３センシングデータをリファレンスデータとし前記第２センシングデータを変換用データとした機械学習を用いて前記第１変換器を訓練する
情報処理方法。
前記第１センシングデータはカメラ画像であり、
前記ノイズ領域は、カメラのレンズ又はレンズカバーの付着物に起因するノイズを含む領域である
請求項１から請求項６のいずれか１項に記載の情報処理方法。
プロセッサとメモリとを備え、
前記メモリは、第１変換器及び第２変換器を記憶し、
前記プロセッサは、
センサからノイズ領域を含む第１センシングデータを取得し、
前記第１センシングデータを前記第１変換器に入力することにより、前記第１変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、
前記ノイズ領域推定情報及び前記第１センシングデータを前記第２変換器に入力することにより、前記第２変換器から出力されるノイズ領域除去処理が施された第２センシングデータを取得し、
取得される前記第２センシングデータを出力する
ように構成され、
前記第１変換器は、前記ノイズ領域推定情報と、前記第１センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第３センシングデータとを用いて生成される前記推定される前記ノイズ領域を含む第４センシングデータを変換用データとし、前記第１センシングデータをリファレンスデータとした機械学習を用いて訓練され、
前記第２変換器は、前記第２センシングデータを変換用データとし、前記第３センシングデータをリファレンスデータとした機械学習を用いて訓練される
情報処理装置。
プロセッサと、第１変換器及び第２変換器を記憶するメモリとを備えるコンピュータに情報処理を実行させるための情報処理プログラムであって、
前記情報処理は、
前記コンピュータが、
ノイズ領域を含む第１センシングデータを取得し、
前記第１センシングデータを前記第１変換器に入力することにより、前記第１変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、
前記ノイズ領域推定情報及び前記第１センシングデータを前記第２変換器に入力することにより、前記第２変換器から出力されるノイズ領域除去処理が施された第２センシングデータを取得し、
前記第１センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第３センシングデータを取得し、
前記ノイズ領域推定情報と前記第３センシングデータとを用いて前記推定される前記ノイズ領域を含む第４センシングデータを生成し、
前記第１変換器は、前記第１センシングデータをリファレンスデータとし前記第４センシングデータを変換用データとした機械学習を用いて訓練され、
前記第２変換器は、前記第３センシングデータをリファレンスデータとし前記第２センシングデータを変換用データとした機械学習を用いて訓練される
情報処理プログラム。