JP7216593B2 - 情報処理方法、情報処理装置、及び情報処理プログラム - Google Patents

情報処理方法、情報処理装置、及び情報処理プログラム Download PDF

Info

Publication number
JP7216593B2
JP7216593B2 JP2019065416A JP2019065416A JP7216593B2 JP 7216593 B2 JP7216593 B2 JP 7216593B2 JP 2019065416 A JP2019065416 A JP 2019065416A JP 2019065416 A JP2019065416 A JP 2019065416A JP 7216593 B2 JP7216593 B2 JP 7216593B2
Authority
JP
Japan
Prior art keywords
image
sensing data
converter
data
noise region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019065416A
Other languages
English (en)
Other versions
JP2020129355A (ja
Inventor
アレット ステファノ
宗太郎 築澤
育規 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to EP19194089.9A priority Critical patent/EP3629240B1/en
Priority to US16/558,960 priority patent/US10970582B2/en
Priority to CN201910830402.7A priority patent/CN110889804A/zh
Publication of JP2020129355A publication Critical patent/JP2020129355A/ja
Application granted granted Critical
Publication of JP7216593B2 publication Critical patent/JP7216593B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)

Description

本開示は、情報処理方法、情報処理装置、及び情報処理プログラムに関する。
従来、ディープラーニングを用いて画像が雨天の画像であるか否かを分類する技術が知られている(例えば、特許文献1参照)。
米国特許出願公開第2017/0293808号明細書
従来の技術では、センシングデータから、局所的なノイズを効果的に除去することは難しい。
そこで、本開示は、センシングデータから、局所的なノイズを効果的に除去することができる情報処理方法、情報処理装置、及び情報処理プログラムを提供することを目的とする。
本開示の一態様に係る情報処理方法は、コンピュータが、ノイズ領域を含む第1センシングデータを取得し、前記第1センシングデータを第1変換器に入力することにより、前記第1変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、前記ノイズ領域推定情報及び前記第1センシングデータを第2変換器に入力することにより、前記第2変換器から出力されるノイズ領域除去処理が施された第2センシングデータを取得し、前記第1センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第3センシングデータを取得し、前記ノイズ領域推定情報と前記第3センシングデータとを用いて前記推定される前記ノイズ領域を含む第4センシングデータを生成し、前記第1センシングデータをリファレンスデータとし前記第4センシングデータを変換用データとした機械学習を用いて前記第1変換器を訓練し、前記第3センシングデータをリファレンスデータとし前記第2センシングデータを変換用データとした機械学習を用いて前記第2変換器を訓練する。
本開示の一態様に係る情報処理方法は、コンピュータが、ノイズ領域を含む第1センシングデータと、第1変換器から出力された、ノイズ領域除去処理が施された第2センシングデータとを取得し、前記第1センシングデータと、前記第1センシングデータの所定時間前の第1センシングデータについての処理により取得された前記所定時間前の第2センシングデータとを前記第1変換器に入力することにより前記第1変換器から出力される、前記第2センシングデータと第1動き情報とを取得し、前記第1動き情報と、前記所定時間前の第2センシングデータと、を用いて第3センシングデータを取得し、前記第3センシングデータをリファレンスデータとし前記第2センシングデータを変換用データとした機械学習を用いて前記第1変換器を訓練する。
本開示の一態様に係る情報処理装置は、プロセッサとメモリとを備え、前記メモリは、第1変換器及び第2変換器を記憶し、前記プロセッサは、センサからノイズ領域を含む第1センシングデータを取得し、前記第1センシングデータを前記第1変換器に入力することにより、前記第1変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、前記ノイズ領域推定情報及び前記第1センシングデータを前記第2変換器に入力することにより、前記第2変換器から出力されるノイズ領域除去処理が施された第2センシングデータを取得し、取得される前記第2センシングデータを出力するように構成され、前記第1変換器は、前記ノイズ領域推定情報と、前記第1センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第3センシングデータとを用いて生成される前記推定される前記ノイズ領域を含む第4センシングデータを変換用データとし、前記第1センシングデータをリファレンスデータとした機械学習を用いて訓練され、前記第2変換器は、前記第2センシングデータを変換用データとし、前記第3センシングデータをリファレンスデータとした機械学習を用いて訓練される。
本開示の一態様に係る情報処理プログラムは、プロセッサと、第1変換器及び第2変換器を記憶するメモリとを備えるコンピュータに情報処理を実行させるための情報処理プログラムであって、前記情報処理は、前記コンピュータが、ノイズ領域を含む第1センシングデータを取得し、前記第1センシングデータを前記第1変換器に入力することにより、前記第1変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、前記ノイズ領域推定情報及び前記第1センシングデータを前記第2変換器に入力することにより、前記第2変換器から出力されるノイズ領域除去処理が施された第2センシングデータを取得し、前記第1センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第3センシングデータを取得し、前記ノイズ領域推定情報と前記第3センシングデータとを用いて前記推定される前記ノイズ領域を含む第4センシングデータを生成し、前記第1変換器は、前記第1センシングデータをリファレンスデータとし前記第4センシングデータを変換用データとした機械学習を用いて訓練され、前記第2変換器は、前記第3センシングデータをリファレンスデータとし前記第2センシングデータを変換用データとした機械学習を用いて訓練される。
本開示の一態様に係る情報処理方法、情報処理装置、及び情報処理プログラムによれば、画像から、局所的なノイズを効果的に除去することができる。
図1は、実施の形態1に係る第1訓練装置の構成を示すブロック図である。 図2Aは、第3画像の一例を示す模式図である。 図2Bは、第1画像の一例を示す模式図である。 図3は、実施の形態1に係る第1訓練処理のフローチャートである。 図4は、実施の形態1に係る第1情報処理装置の構成を示すブロック図である。 図5は、実施の形態1に係る第1情報処理のフローチャートである。 図6は、実施の形態2に係る第2訓練装置の構成を示すブロック図である。 図7は、実施の形態2に係る第2訓練処理のフローチャートである。 図8は、実施の形態2に係る第1処理のフローチャートである。 図9は、実施の形態2に係る第2情報処理装置の構成を示すブロック図である。 図10は、実施の形態2に係る第2情報処理のフローチャートである。 図11は、実施の形態3に係る第3訓練装置の構成を示すブロック図である。 図12は、実施の形態3に係る第3訓練処理のフローチャートである。 図13は、実施の形態3に係る第2処理のフローチャートである。 図14は、実施の形態3に係る第3情報処理装置の構成を示すブロック図である。 図15は、実施の形態3に係る第3情報処理のフローチャートである。
(本開示の一態様を得るに至った知見)
一般に、センシングデータからノイズを除去するように機械学習モデルを訓練する場合には、ノイズのない画像をリファレンスデータ(正解データ、ラベルデータとも称する)とし、ノイズのある画像を変換用データ(トレーニングデータとも称する)として、センシングデータ全体の誤差が最小になるように機械学習モデルを訓練する。
一方で、例えば、レンズに雨滴が付着しているカメラで撮像した画像は、雨滴が付着している領域には雨滴による局所的なノイズが存在するが、雨滴が付着していない大部分の領域には雨滴によるノイズが存在しない画像となる。このような、局所的なノイズが存在する画像に対して上記方法で機械学習を訓練しようとする場合に、大部分の領域で誤差が小さくなるため、機械学習モデルの訓練が進まなくなってしまうことがある。
発明者は、上記問題を解決すべく、鋭意検討を重ねた。そして、発明者は、局所的なノイズが存在するセンシングデータについては、まず、そのセンシングデータから局所的なノイズの領域を推定し、そのセンシングデータに対して、推定した領域に重み付けをして機械学習モデルを訓練することで、効果的に機械学習モデルを訓練することができることを見出した。その結果、発明者は、下記情報処理方法、情報処理装置、及び情報処理プログラムに想到した。
本開示の一態様に係る情報処理方法は、コンピュータが、ノイズ領域を含む第1センシングデータを取得し、前記第1センシングデータを第1変換器に入力することにより、前記第1変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、前記ノイズ領域推定情報及び前記第1センシングデータを第2変換器に入力することにより、前記第2変換器から出力されるノイズ領域除去処理が施された第2センシングデータを取得し、前記第1センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第3センシングデータを取得し、前記ノイズ領域推定情報と前記第3センシングデータとを用いて前記推定される前記ノイズ領域を含む第4センシングデータを生成し、前記第1センシングデータをリファレンスデータとし前記第4センシングデータを変換用データとした機械学習を用いて前記第1変換器を訓練し、前記第3センシングデータをリファレンスデータとし前記第2センシングデータを変換用データとした機械学習を用いて前記第2変換器を訓練する。
上記情報処理方法によると、第1センシングデータからノイズ領域を推定するよう第1変換器を訓練し、第1センシングデータに対して、第1変換器により推定されたノイズ領域に重み付けをして第2センシングデータを出力するよう第2変換器を訓練することができる。このため、第1変換器と第2変換器とを、センシングデータから局所的なノイズを除去するよう効果的に訓練することができる。従って、上記情報処理方法により訓練された第1変換器及び第2変換器を利用することで、センシングデータから、局所的なノイズを効果的に除去することができる。
また、前記第1センシングデータの所定時間前の第1センシングデータについての処理により取得された前記所定時間前の第2センシングデータを取得し、前記第1センシングデータと前記所定時間前の第2センシングデータとを前記第1変換器に入力することにより、前記第1変換器から出力される第1動き情報を取得し、前記第1動き情報と前記所定時間前の第2センシングデータとを用いて前記第3センシングデータを取得し、前記第1センシングデータと前記所定時間前の第1センシングデータとの比較により得られる第2動き情報を取得し、前記第2動き情報をリファレンスデータとし、前記第1動き情報を変換用データとした機械学習を用いて前記第1変換器を訓練するとしてもよい。
また、前記第1センシングデータと前記所定時間前の第2センシングデータとを前記第1変換器に入力することにより、前記第1変換器から出力される前記ノイズ領域推定情報を取得するとしてもよい。
また、前記第1変換器の訓練で利用されるフィードバックデータは、入力されるセンシングデータが前記1変換器の変換用データであるか否か又はリファレンスデータであるか否かを識別するように機械学習を用いて訓練された第1識別器に前記第1センシングデータと前記第4センシングデータとを入力することにより、前記第1識別器から出力され、前記第2変換器の訓練で利用されるフィードバックデータは、入力されるセンシングデータが前記第2変換器の変換用データであるか否かリファレンスデータであるか否かを識別するように機械学習を用いて訓練された第2識別器に前記第2センシングデータと前記第3センシングデータとを入力することにより、前記第2識別器から出力されるとしてもよい。
また、前記第1変換器及び前記第2変換器は、ニューラルネットワークであるとしてもよい。
本開示の一態様に係る情報処理方法は、コンピュータが、ノイズ領域を含む第1センシングデータと、第1変換器から出力された、ノイズ領域除去処理が施された第2センシングデータとを取得し、前記第1センシングデータと、前記第1センシングデータの所定時間前の第1センシングデータについての処理により取得された前記所定時間前の第2センシングデータとを前記第1変換器に入力することにより前記第1変換器から出力される、前記第2センシングデータと第1動き情報とを取得し、前記第1動き情報と、前記所定時間前の第2センシングデータと、を用いて第3センシングデータを取得し、前記第3センシングデータをリファレンスデータとし前記第2センシングデータを変換用データとした機械学習を用いて前記第1変換器を訓練する。
上記情報処理方法によると、第1センシングデータからノイズ領域を推定するよう第1変換器を訓練し、第1センシングデータに対して、第1変換器により推定されたノイズ領域に重み付けをして第2センシングデータを出力するよう第1変換器を訓練することができる。このため、第1変換器を、センシングデータから局所的なノイズを除去するよう効果的に訓練することができる。従って、上記情報処理方法により訓練された第1変換器を利用することで、センシングデータから、局所的なノイズを効果的に除去することができる。
また、前記第1センシングデータはカメラ画像であり、前記ノイズ領域は、カメラのレンズ又はレンズカバーの付着物に起因するノイズを含む領域であるとしてもよい。
本開示の一態様に係る情報処理装置は、プロセッサとメモリとを備え、前記メモリは、第1変換器及び第2変換器を記憶し、前記プロセッサは、センサからノイズ領域を含む第1センシングデータを取得し、前記第1センシングデータを前記第1変換器に入力することにより、前記第1変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、前記ノイズ領域推定情報及び前記第1センシングデータを前記第2変換器に入力することにより、前記第2変換器から出力されるノイズ領域除去処理が施された第2センシングデータを取得し、取得される前記第2センシングデータを出力するように構成され、前記第1変換器は、前記ノイズ領域推定情報と、前記第1センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第3センシングデータとを用いて生成される前記推定される前記ノイズ領域を含む第4センシングデータを変換用データとし、前記第1センシングデータをリファレンスデータとした機械学習を用いて訓練され、前記第2変換器は、前記第2センシングデータを変換用データとし、前記第3センシングデータをリファレンスデータとした機械学習を用いて訓練される。
上記情報処理装置によると、第1センシングデータからノイズ領域を推定するよう第1変換器を訓練し、第1センシングデータに対して、第1変換器により推定されたノイズ領域に重み付けをして第2センシングデータを出力するよう第2変換器を訓練することができる。このため、第1変換器と第2変換器とを、センシングデータから局所的なノイズを除去するよう効果的に訓練することができる。従って、上記情報処理装置によると、センシングデータから、局所的なノイズを効果的に除去することができる。
本開示の一態様に係る情報処理プログラムは、プロセッサと、第1変換器及び第2変換器を記憶するメモリとを備えるコンピュータに情報処理を実行させるための情報処理プログラムであって、前記情報処理は、前記コンピュータが、ノイズ領域を含む第1センシングデータを取得し、前記第1センシングデータを前記第1変換器に入力することにより、前記第1変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、前記ノイズ領域推定情報及び前記第1センシングデータを前記第2変換器に入力することにより、前記第2変換器から出力されるノイズ領域除去処理が施された第2センシングデータを取得し、前記第1センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第3センシングデータを取得し、前記ノイズ領域推定情報と前記第3センシングデータとを用いて前記推定される前記ノイズ領域を含む第4センシングデータを生成し、前記第1変換器は、前記第1センシングデータをリファレンスデータとし前記第4センシングデータを変換用データとした機械学習を用いて訓練され、前記第2変換器は、前記第3センシングデータをリファレンスデータとし前記第2センシングデータを変換用データとした機械学習を用いて訓練される。
上記情報処理プログラムによると、第1センシングデータからノイズ領域を推定するよう第1変換器を訓練し、第1センシングデータに対して、第1変換器により推定されたノイズ領域に重み付けをして第2センシングデータを出力するよう第2変換器を訓練することができる。このため、第1変換器と第2変換器とを、センシングデータから局所的なノイズを除去するよう効果的に訓練することができる。従って、上記情報処理プログラムによると、センシングデータから、局所的なノイズを効果的に除去することができる。
以下、本開示の一態様に係る情報処理方法、情報処理装置、及び情報処理システムの具体例について、図面を参照しながら説明する。ここで示す実施の形態は、いずれも本開示の一具体例を示すものである。従って、以下の実施の形態で示される数値、形状、構成要素、構成要素の配置及び接続形態、並びに、ステップ(工程)及びステップの順序等は、一例であって本開示を限定するものではない。以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意に付加可能な構成要素である。また、各図は、模式図であり、必ずしも厳密に図示されたものではない。
なお、本開示の包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
(実施の形態1)
[1-1.第1訓練装置]
以下、実施の形態1に係る第1訓練装置について説明する。この第1訓練装置は、機械学習モデルからなる第1変換器と第2変換器とを備え、ノイズ領域を含む第1画像からノイズ領域を推定するよう第1変換器を訓練し、第1画像に対して、第1変換器により推定されたノイズ領域に重み付けをして、第1画像からノイズ領域除去処理が施された第2画像を出力するよう第2変換器を訓練する。
[1-1-1.第1訓練装置の構成]
図1は、実施の形態1に係る第1訓練装置1の構成を示すブロック図である。
図1に示されるように、第1訓練装置1は、第1画像取得部10と、第1画像記憶部11と、第3画像取得部20と、第3画像記憶部21と、第1変換器30と、ノイズ領域推定情報記憶部31と、第1識別器35と、第1訓練部36と、結合部40と、加算部50と、第4画像記憶部51と、第2変換器60と、第2画像記憶部61と、第2識別器65と、第2訓練部66とを含んで構成される。
第1訓練装置1は、例えば、プロセッサとメモリとを含んで構成されるコンピュータによって実現されてよい。この場合、第1訓練装置1の各構成要素は、例えば、プロセッサがメモリに記憶される1以上のプログラムを実行することで実現されてよい。また、第1訓練装置1は、例えば、それぞれがプロセッサとメモリとを含んで構成される、互いに通信可能な複数のコンピュータが協調して動作することによって実現されてよい。この場合、第1訓練装置1の各構成要素は、例えば、いずれかの1以上のプロセッサが、いずれかの1以上のメモリに記憶される、1以上のプログラムを実行することで実現されてよい。ここでは、第1訓練装置1は、プロセッサとメモリとを含んで構成されるコンピュータによって実現されるとして説明する。
第1画像取得部10は、ノイズ領域を含む第1画像を取得する。第1画像は、例えば、カメラによって撮像されたカメラ画像であってよい。また、ノイズ領域は、カメラのレンズ又はレンズカバーの付着物(例えば、雨滴)に起因するノイズを含む領域であってよい。第1画像取得部10は、例えば、有線又は無線により通信可能に接続された撮像装置又は記録媒体から第1画像を取得してもよい。
第3画像取得部20は、第1画像と同一又は対応する場面が映る、ノイズ領域を含まない1以上の第3画像を取得する。第3画像取得部20は、例えば、有線又は無線により通信可能に接続された撮像装置又は記録媒体から第3画像を取得してもよい。
第1画像取得部10と第3画像取得部20とは、それぞれ、複数の第1画像と複数の第3画像とを取得してもよい。この場合、複数の第1画像のそれぞれと、複数の第3画像のそれぞれとは、互いに一対一に対応付けられた画像となる。この場合、例えば、第1画像のそれぞれは、一対一に対応付けられている第3画像のそれぞれに対して、CG(Computer Graphics)処理により、ノイズ領域が付加されるよう加工された画像であってもよい
し、例えば、第1画像のそれぞれは、一対一に対応付けられている第3画像と、略同一時刻に撮像された、略同一画角の画像であってもよい。
図2Aは、第3画像の一例を示す模式図である。図2Aに例示される第3画像は、車載カメラにより撮像された車両前方の撮像画像である。図2Bは、第1画像の一例を示す模式図である。図2Bに例示される第1画像は、対応する第3画像に対して、CG処理によりノイズ領域が付加されるよう加工された画像である。
再び図1に戻って、第1訓練装置1の説明を続ける。
第1画像記憶部11は、第1画像取得部10により取得された第1画像を記憶する。
第3画像記憶部21は、第3画像取得部20により取得された第3画像を記憶する。
第1変換器30は、第1画像が入力されると、推定されるノイズ領域を示すノイズ領域推定情報を出力するよう機械学習を用いて訓練される機械学習モデルである。ここでは、ノイズ領域推定情報は、推定されるノイズ領域に含まれる画素の画素値のうちのノイズ成分を画素値とする画像であるとする。第1変換器30は、第1画像が入力されると、ノイズ領域推定情報を出力するよう訓練され得る機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第1変換器30は、畳み込みニューラルネットワークであるとする。
ノイズ領域推定情報記憶部31は、第1変換器から出力されたノイズ領域推定情報を記憶する。
結合部40は、ノイズ領域推定情報記憶部31に記憶されるノイズ領域推定情報と、第1画像記憶部11に記憶される、そのノイズ領域推定情報に対応する第1画像とを、チャネル方向に結合して第2変換器60に入力する。
第2変換器60は、互いにチャネル方向に結合されたノイズ領域推定情報と第1画像とが入力されると、その第1画像に対してノイズ領域除去処理が施された第2画像を出力するよう機械学習を用いて訓練される機械学習モデルである。第2変換器60は、互いにチャネル方向に結合されたノイズ領域推定情報と第1画像とが入力されると、第2画像を出力されるように訓練され得る機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第2変換器60は、畳み込みニューラルネットワークであるとする。
第2画像記憶部61は、第2変換器60から出力された第2画像を記憶する。
加算部50は、ノイズ領域推定情報記憶部31に記憶されるノイズ領域推定情報と、第3画像記憶部21に記憶される、そのノイズ領域推定情報に対応する第3画像とを用いて、推定されるノイズ領域を含む第4画像を生成する。より具体的には、加算部50は、第1画像と第3画像との互いに対応する位置の画素の画素値を加算することで、第4画像を生成する。
第4画像記憶部51は、加算部50により生成された第4画像を記憶する。
第1識別器35は、第1変換器30をGeneratorとし第1識別器35をDiscriminatorとするGAN(Generative Adversarial Network)を構成する機械学習モデルである。第1識別器35は、第1画像をリファレンスデータとし第4画像を変換用データとして入力されると、第1画像及び第4画像についてそれぞれリファレンスデータとしての真偽を識別する。言い換えると、第1画像と第1画像との同一性、及び第4画像と第1画像との同一性、が識別される。なお、リファレンスデータとしての真偽の代わりに変換用データとしての真偽が識別されてもよい。そして、第1識別器35は、識別結果に基づき誤差を出力する。また、第1識別器35は、機械学習を用いて識別結果に基づき訓練される。具体的には、第1識別器35は、第1画像記憶部11に記憶される第1画像がリファレンスデータとして入力されると、第1画像がリファレンスデータであるか否かを識別する。また、第1識別器35は、第4画像記憶部51に記憶される、上記第1画像に対応する第4画像が変換用データとして入力されると、第4画像がリファレンスデータであるか否かを識別する。例えば、それぞれの識別結果は確率値で表される。そして、第1識別器35は、第4画像の識別結果に基づいて誤差を出力する。また、第1識別器35は、第1画像及び第4画像についての識別結果に基づいて訓練される。例えば、第1識別器35は、第4画像がリファレンスデータである確率に基づき算出された値(以下、第1フィードバックデータとも称する。)を誤差として出力する。また、第1画像がリファレンスデータである確率及び第4画像がリファレンスデータである確率に基づき算出された値(以下、第2フィードバックデータとも称する。)を出力する。なお、第1識別器35は、第1画像と第4画像とが入力されると、これら画像の同一性を識別し、識別結果に基づき誤差を出力し、識別結果に基づき訓練される機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第1識別器35は、畳み込みニューラルネットワークであるとする。
第1訓練部36は、第1識別器35から出力された第1フィードバックデータを用いて第1変換器30を訓練する。具体的には、第1訓練部36は、第1識別器35から出力された第1フィードバックデータを第1変換器30にフィードバックすることで、第1変換器30を、第1画像が入力されると推定されるノイズ領域を示すノイズ領域推定情報を出力するよう訓練する。また、第1訓練部36は、第1識別器35から出力された第2フィードバックデータを用いて第1識別器35を訓練する。具体的には、第1訓練部36は、第1識別器35から出力された第2フィードバックデータを第1識別器35にフィードバックすることで、第1識別器35を、第1画像及び第4画像が入力されると第1画像をリファレンスデータ、第4画像を変換用データと識別するよう訓練する。
第2識別器65は、第2変換器60をGeneratorとし第2識別器65をDiscriminatorとするGANを構成する機械学習モデルである。第2識別器65は、第3画像をリファレンスデータとし第2画像を変換用データとして入力されると、第3画像及び第2画像についてそれぞれリファレンスデータとしての真偽を識別する。言い換えると、第3画像と第3画像との同一性、及び第2画像と第3画像との同一性、が識別される。なお、リファレンスデータとしての真偽の代わりに変換用データとしての真偽が識別されてもよい。そして、第2識別器65は、識別結果に基づき誤差を出力する。また、第2識別器65は、機械学習を用いて識別結果に基づき訓練される。具体的には、第2識別器65は、第3画像記憶部21に記憶される第3画像がリファレンスデータとして入力されると、第3画像がリファレンスデータであるか否かを識別する。また、第2識別器65は、第2画像記憶部61に記憶される、上記第3画像に対応する第2画像が変換用データとして入力されると、第2画像がリファレンスデータであるか否かを識別する。例えば、それぞれの識別結果は確率値で表される。そして、第2識別器65は、第2画像の識別結果に基づいて誤差を出力する。また、第2識別器65は、第3画像及び第2画像についての識別結果に基づいて訓練される。例えば、第2識別器65は、第2画像がリファレンスデータである確率に基づき算出された値(以下、第3フィードバックデータとも称する。)を誤差として出力する。また、第3画像がリファレンスデータである確率及び第2画像がリファレンスデータである確率に基づき算出された値(以下、第4フィードバックデータとも称する。)を出力する。なお、第2識別器65は、第3画像と第2画像とが入力されると、これら画像の同一性を識別し、識別結果に基づき誤差を出力し、識別結果に基づき訓練される機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第2識別器65は、畳み込みニューラルネットワークであるとする。
第2訓練部66は、第2識別器65から出力された第3フィードバックデータを用いて第2変換器60を訓練する。具体的には、第2訓練部66は、第2識別器65から出力された第3フィードバックデータを第2変換器60にフィードバックすることで、第2変換器60を、互いにチャネル方向に結合されたノイズ領域推定情報と第1画像とが入力されると、第2画像を出力されるよう訓練する。また、第2訓練部66は、第2識別器65から出力された第4フィードバックデータを用いて第2識別器65を訓練する。具体的には、第2訓練部66は、第2識別器65から出力された第4フィードバックデータを第2識別器65にフィードバックすることで、第2識別器65を、第3画像及び第2画像が入力されると第3画像をリファレンスデータ、第2画像を変換用データと識別するよう訓練する。
[1-1-2.第1訓練装置の動作]
上記構成の第1訓練装置1は、第1画像をリファレンスデータとし、第4画像を変換用データとした機械学習を用いて第1変換器30を訓練し、第3画像をリファレンスデータとし、第2画像を変換用データとした機械学習を用いて第2変換器60を訓練する第1訓練処理を行う。
図3は、第1訓練処理のフローチャートである。
第1訓練処理は、例えば、第1訓練装置1に対して、第1訓練処理を開始する旨の操作がなされることで開始される。
第1訓練処理が開始されると、第1画像取得部10は、1以上の第1画像を取得する(ステップS10)。第1画像が取得されると、第1画像記憶部11は、取得された第1画像を記憶する。
第1画像が第1画像記憶部11に記憶されると、第1変換器30は、第1画像記憶部11に記憶される第1画像の中に、未選択の第1画像が存在するか否かを調べる(ステップS20)。ここで、未選択の第1画像とは、ステップS20の処理~後述のステップS90の処理によって形成されるループ処理において、未だ選択されたことのない第1画像のことをいう。
ステップS20の処理において、未選択の第1画像が存在する場合に(ステップS20:Yes)、第1変換器30は、未選択の第1画像のうちの1つを選択する(ステップS30)。
未選択の第1画像を選択すると、第1変換器30は、選択した第1画像を第1変換器30に入力し、ノイズ領域推定情報を出力する(ステップS40)。ノイズ領域推定情報が出力されると、ノイズ領域推定情報記憶部31は、出力されたノイズ領域推定情報を記憶する。
ノイズ領域推定情報が記憶されると、結合部40は、そのノイズ領域推定情報と、選択中の第1画像とを、チャネル方向に結合して第2変換器60に入力する。すると、第2変換器60は、第2画像を出力する(ステップS50)。第2画像が出力されると、第2画像記憶部61は、出力された第2画像を記憶する。
第2画像が記憶されると、第3画像取得部20は、選択中の第1画像に対応する第3画像を取得する(ステップS60)。第3画像が取得されると、第3画像記憶部21は、取得された第3画像を記憶する。
第3画像が記憶されると、加算部50は、その第3画像と、ノイズ領域推定情報記憶部31に記憶される、選択中の第1画像に対応するノイズ領域推定情報とを用いて、第4画像を生成する(ステップS70)。第4画像が出力されると、第4画像記憶部51は、生成された第4画像を記憶する。
第4画像が記憶されると、第1識別器35と第1訓練部36とは、選択中の第1画像をリファレンスデータとし、その第4画像を変換用データとした機械学習を用いて、第1変換器30を訓練する(ステップS80)。より具体的には、第1識別器35は、第1画像と第4画像との誤差を出力し、第1訓練部36は、出力された誤差を第1変換器30にフィードバックすることで、第1識別器35を訓練する。
第1識別器35が訓練されると、第2識別器65と第2訓練部66とは、第3画像記憶部21に新たに記憶された第3画像をリファレンスデータとし、第2画像記憶部61に新たに記憶された第2画像を変換用データとした機械学習を用いて、第2変換器60を訓練する(ステップS90)。より具体的には、第2識別器65は、第3画像と第2画像との誤差を出力し、第2訓練部66は、出力された誤差を第2変換器60にフィードバックすることで、第2識別器65を訓練する。
ステップS90の処理が終了すると、第1訓練装置1は、ステップS20の処理へと進む。
ステップS20の処理において、未選択の第1画像が存在しない場合に(ステップS20:No)、第1訓練装置1は、その第1訓練処理を終了する。
[1-2.第1情報処理装置]
以下、実施の形態1に係る第1情報処理装置について説明する。この第1情報処理装置は、第1訓練装置1が行う第1訓練処理によりあらかじめ訓練された第1変換器30と第2変換器60とを備え、第1画像が入力されると、第1画像からノイズ除去処理が施された第2画像を出力する。
第1情報処理装置2は、第1訓練装置1と同様に、例えば、プロセッサとメモリとを含んで構成されるコンピュータによって実現されてよい。この場合、第1情報処理装置2の各構成要素は、例えば、プロセッサがメモリに記憶される1以上のプログラムを実行することで実現されてよい。また、第1情報処理装置2は、例えば、それぞれがプロセッサとメモリとを含んで構成される、互いに通信可能な複数のコンピュータが協調して動作することによって実現されてよい。この場合、第1情報処理装置2の各構成要素は、例えば、いずれかの1以上のプロセッサが、いずれかの1以上のメモリに記憶される、1以上のプログラムを実行することで実現されてよい。ここでは、第1情報処理装置2は、プロセッサとメモリとを含んで構成されるコンピュータによって実現されるとして説明する。
[1-2-1.第1情報処理装置の構成]
図4は、実施の形態1に係る第1情報処理装置2の構成を示すブロック図である。以下では、第1情報処理装置2について、第1訓練装置1と同様の構成要素については、既に説明済みであるとして同じ符号を振ってその詳細な説明を省略し、第1訓練装置1との相違点を中心に説明する。
図4に示されるように、第1情報処理装置2は、第1画像取得部10と、第1画像記憶部11と、第1変換器30と、ノイズ領域推定情報記憶部31と、結合部40と、第2変換器60と、第2画像記憶部61と、出力部70とを含んで構成される。ここで、第1変換器30と第2変換器60とは、第1訓練装置1が行う第1訓練処理によりあらかじめ訓練されているとする。
出力部70は、第2画像記憶部61に記憶される第2画像を外部に出力する。
[1-2-2.第1情報処理装置の動作]
上記構成の第1情報処理装置2は、第1画像が入力されると、第1画像からノイズ除去処理が施された第2画像を出力する第1情報処理を行う。
図5は、第1情報処理のフローチャートである。
第1情報処理は、例えば、第1情報処理装置2に対して、第1情報処理を開始する旨の操作がなされることで開始される。
第1情報処理が開始されると、第1画像取得部10は、1の第1画像を取得する(ステップS110)。第1画像が取得されると、第1画像記憶部11は、取得された第1画像を記憶する。
第1画像が記憶されると、第1変換器30は、その第1画像を第1変換器30に入力し、ノイズ領域推定情報を出力する(ステップS140)。ノイズ領域推定情報が出力されると、ノイズ領域推定情報記憶部31は、出力されたノイズ領域推定情報を記憶する。
ノイズ領域推定情報が記憶されると、結合部40は、そのノイズ領域推定情報と、第1画像とを、チャネル方向に結合して第2変換器60に入力する。すると、第2変換器60は、第2画像を出力する(ステップS50)。第2画像が出力されると、第2画像記憶部61は、出力された第2画像を記憶する。
第2画像が記憶されると、出力部70は、その第2画像を外部に出力する(ステップS160)。
ステップS160の処理が終了すると、第1情報処理装置2は、その第1情報処理を終了する。
[1-3.考察]
上記構成の第1訓練装置1によると、ノイズ領域を含む第1画像からノイズ領域を推定するよう第1変換器30を訓練し、第1画像に対して、第1変換器30により推定されたノイズ領域に重み付けをして、ノイズ領域除去処理が施された第2画像を出力するよう第2変換器60を訓練することができる。このため、第1変換器30と第2変換器60とを、画像から局所的なノイズを除去するよう効果的に訓練することができる。
また、上記構成の第1情報処理装置2によると、第1訓練装置1が行う第1訓練処理によりあらかじめ訓練された第1変換器30により、第1画像からノイズ領域を推定し、第1訓練装置1が行う第1訓練処理によりあらかじめ訓練された第2変換器60により、その推定されたノイズ領域に重み付けをして第2画像を出力することができる。
従って、第1情報処理装置2によると、画像から、局所的なノイズを効果的に除去することができる。
(実施の形態2)
[2-1.第2訓練装置]
以下、実施の形態1に係る第1訓練装置1から、その構成の一部が変更されて構成される、実施の形態2に係る第2訓練装置について説明する。この第2訓練装置は、第1訓練装置1と同様に、機械学習モデルからなる第1変換器と第2変換器とを備え、ノイズ領域を含む第1画像からノイズ領域を推定するよう第1変換器を訓練し、第1画像に対して、第1変換器により推定されたノイズ領域に重み付けをして、第1画像からノイズ領域除去処理が施された第2画像を出力するよう第2変換器を訓練する。
[2-1-1.第2訓練装置の構成]
図6は、実施の形態2に係る第2訓練装置1Aの構成を示すブロック図である。以下では、第2訓練装置1Aについて、第1訓練装置1と同様の構成要素については、既に説明済みであるとして同じ符号を振ってその詳細な説明を省略し、第1訓練装置1との相違点を中心に説明する。
図6に示されるように、第2訓練装置1Aは、第1画像取得部10Aと、第1画像記憶部11と、第2画像取得部15と、第3画像取得部20Aと、第3画像記憶部21と、第1変換器30Aと、ノイズ領域推定情報記憶部31と、第1動き情報記憶部32と、第1識別器35Aと、第1訓練部36Aと、結合部40と、加算部50と、第4画像記憶部51と、第2変換器60と、第2画像記憶部61と、第2識別器65と、第2訓練部66と、動き情報取得部90と、第2動き情報記憶部91と、第3識別器85と、第3訓練部86とを含んで構成される。
第1画像取得部10Aは、ノイズ領域を含む複数の第1画像を取得する。ここで、複数の第1画像のそれぞれは、複数のフレームからなる動画を構成する。第1画像は、例えば、ビデオカメラによって撮像された動画を構成するフレーム画像であってよい。また、ノイズ領域は、ビデオカメラのレンズ又はレンズカバーの付着物(例えば、雨滴)に起因するノイズを含む領域であってよい。第1画像取得部10Aは、例えば、有線又は無線により通信可能に接続された撮像装置又は記録媒体から第1画像を取得してもよい。
第2画像取得部15は、第2画像記憶部61から第2画像を取得する。
第1変換器30Aは、第1画像と、その第1画像の所定フレーム前(例えば、1フレーム前)の第2画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第1動き情報とを出力するよう機械学習を用いて訓練される機械モデルである。ここでは、ノイズ領域推定情報は、第1画像に対して推定されるノイズ領域に含まれる画素の画素値のうちのノイズ成分を画素値とする画像であるとする。また、ここでは、第1動き情報は、所定フレーム前の第2画像を基準とする場合における第1画像の動き情報であるとする。ここで、第1変換器30Aには、第1画像記憶部11に記憶される1の第1画像と、その第1画像の所定フレーム前の第2画像とがペアとなって入力される。すなわち、第2画像取得部15は、第1画像が第1変換器30Aに入力される場合には、その第1画像とペアになる、その第1画像の所定フレーム前の第1画像についての処理により取得された所定フレーム前の第2画像を、第2画像記憶部15から取得して、第1変換器30Aに入力する。第1変換器30Aは、第1画像と、その第1画像の所定フレーム前の第2画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第1動き情報とを出力するよう訓練され得る機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第1変換器30Aは、畳み込みニューラルネットワークであるとする。
第1変換器30Aは、機能ブロックとして、第1エンコーダ301と、第2エンコーダ302と、結合部303と、第1デコーダ304と、第2デコーダ305とを含んで構成される。
第1エンコーダ301は、第1画像が入力されると、第1画像の特徴量を出力するよう訓練される機能ブロックである。
第2エンコーダ302は、第2画像が入力されると、第2画像の特徴量を出力するよう訓練される機能ブロックである。
結合部303は、第1エンコーダ301により出力される第1画像の特徴量と、第2エンコーダ302により出力される第2画像の特徴量とをチャネル方向に結合する機能ブロックである。
第1デコーダ304は、結合部303により結合された特徴量が入力されると、ノイズ領域推定情報を出力するよう訓練される機能ブロックである。
第2デコーダ305は、結合部303により結合された特徴量が入力されると、第1動き情報を出力するよう訓練される機能ブロックである。
第1動き情報記憶部32は、第1変換器30Aから出力された第1動き情報を記憶する。
第3画像取得部20Aは、第1動き情報と、所定フレーム前の第2画像とを用いて、第3画像を取得する。より具体的には、第3画像取得部20Aは、第1動き情報記憶部32に記憶される第1動き情報と、第2画像取得部15によって取得された、その第1動き情報に対応する第1画像の所定フレーム前の第2画像とを取得し、その第1動き情報を使って、その所定フレーム前の第2画像を現フレームの位置に変換することで、第3画像を取得する。
動き情報取得部90は、第1画像と、その第1画像の所定フレーム前の第1画像との比較により、第2動き情報を取得する。ここでは、第2動き情報は、第1画像を基準とする場合における、所定フレーム前の第1画像の動き情報であるとする。
第2動き情報記憶部91は、動き情報取得部90によって取得された第2動き情報を記憶する。
第1識別器35Aは、第1変換器30AをGenerarotとし第1識別器35AをDiscriminatorとするGANを構成する機械学習モデルである。第1識別器35Aは、第1画像をリファレンスデータとし第4画像を変換用データとして入力されると、第1画像及び第4画像についてそれぞれリファレンスデータとしての真偽を識別する。言い換えると、第1画像と第1画像との同一性、及び第4画像と第1画像との同一性、が識別される。なお、リファレンスデータとしての真偽の代わりに変換用データとしての真偽が識別されてもよい。そして、第1識別器35Aは、識別結果に基づき誤差を出力する。また、第1識別器35Aは、機械学習を用いて識別結果に基づき訓練される。具体的には、第1識別器35Aは、第1画像記憶部11に記憶される第1画像がリファレンスデータとして入力されると、第1画像がリファレンスデータであるか否かを識別する。また、第1識別器35Aは、第4画像記憶部51に記憶される、上記第1画像に対応する第4画像が変換用データとして入力されると、第4画像がリファレンスデータであるか否かを識別する。例えば、それぞれの識別結果は確率値で表される。そして、第1識別器35Aは、第4画像の識別結果に基づいて誤差を出力する。また、第1識別器35Aは、第1画像及び第4画像についての識別結果に基づいて訓練される。例えば、第1識別器35Aは、第4画像がリファレンスデータである確率に基づき算出された値(以下、第5フィードバックデータとも称する。)を誤差として出力する。また、第1画像がリファレンスデータである確率及び第4画像がリファレンスデータである確率に基づき算出された値(以下、第6フィードバックデータとも称する。)を出力する。なお、第1識別器35Aは、第1画像と第4画像とが入力されると、これら画像の同一性を識別し、識別結果に基づき誤差を出力し、識別結果に基づき訓練される機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第1識別器35Aは、畳み込みニューラルネットワークであるとする。
第1訓練部36Aは、第1識別器35Aから出力された第5フィードバックデータを用いて第1変換器30Aを訓練する。具体的には、第1訓練部36Aは、第1識別器35Aから出力された第5フィードバックデータを第1変換器30Aにフィードバックすることで、第1変換器30Aを、第1画像と、その第1画像の所定フレーム前の第2画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第1動き情報とを出力するよう訓練する。この際、第1訓練部36Aは、第1識別器35Aから出力された第5フィードバックデータを、第1エンコーダ301と、第2エンコーダ302と、第1デコーダ304とにフィードバックすることで、第1変換器30Aを訓練する。また、第1訓練部36Aは、第1識別器35Aから出力された第6フィードバックデータを用いて第1識別器35Aを訓練する。具体的には、第1訓練部36Aは、第1識別器35Aから出力された第6フィードバックデータを第1識別器35Aにフィードバックすることで、第1識別器35Aを、第1画像及び第4画像が入力されると第1画像をリファレンスデータ、第4画像を変換用データと識別するよう訓練する。
第3識別器85は、第2動き情報記憶部91に記憶される第2動き情報をレファレンスデータとして入力され、第1動き情報記憶部32に記憶される、その第2動き情報と同じフレームの第1動き情報を変換用データとして入力されると、第2動き情報と第1動き情報との誤差を出力する。第3識別器85は、第1変換器30AをGeneratorとし第3識別器85をDiscriminatorとするGANを構成する機械学習モデルであってもよいが、必ずしもGANを構成する機械学習モデルである必要はない。
第3訓練部86は、第3識別器85から出力された誤差を第1変換器30Aにフィードバックすることで、第1変換器30Aを、第1画像と、その第1画像の所定フレーム前の第2画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第1動き情報とを出力するよう訓練する。この際、第3訓練部86は、第3識別器85から出力された誤差を、第1エンコーダ301と、第2エンコーダ302と、第2デコーダ305とにフィードバックすることで、第1変換器30Aを訓練する。
[2-1-2.第2訓練装置の動作]
上記構成の第2訓練装置1Aは、第1画像をリファレンスデータとし、第4画像を変換用データとした機械学習を用いて第1変換器30Aを訓練し、第3画像をリファレンスデータとし、第2画像を変換用データとした機械学習を用いて第2変換器60を訓練し、第2動き情報をリファレンスデータとし、第1動き情報を変換用データとした機械学習を用いで第1変換器30Aを訓練する第2訓練処理を行う。
図7は、第2訓練処理のフローチャートである。
第2訓練処理は、例えば、第2訓練装置1Aに対して、第2訓練処理を開始する旨の操作がなされることで開始される。
第2訓練処理が開始されると、第1画像取得部10Aは、複数の第1画像を取得する(ステップS210)。第1画像が取得されると、第1画像記憶部11は、取得された第1画像を記憶する。
複数の第1画像が第1画像記憶部11に記憶されると、第1変換器30Aは、第1画像記憶部11に記憶される第1画像の中に、未選択の第1画像が存在するか否かを調べる(ステップS220)。ここで、未選択の第1画像とは、ステップS220の処理~後述のステップS295の処理によって形成されるループ処理において、未だ選択されたことのない第1画像のことをいう。
ステップS220の処理において、未選択の第1画像が存在する場合に(ステップS220:Yes)、第1変換器30Aは、未選択の第1画像のうちの1つを選択する(ステップS30)。
未選択の第1画像が選択されると、第2画像取得部15は、第2画像記憶部61から、選択した第1画像の所定フレーム前の第2画像を取得する(ステップS235)。ここで、第2画像取得部15は、第2画像記憶部61に、所定フレーム前の第2画像が未だ記憶されていない場合には、例えば、所定フレーム前の第2画像の代わりに代替画像を所定フレーム前の第2画像として取得するとしてもよい。この場合には、第2画像取得部15は、例えば、外部装置から代替画像を取得するとしてもよいし、あらかじめ第2画像記憶部61に記憶されている代替画像を第2画像記憶部61から取得するとしてもよい。代替画像は、所定フレーム前の第2画像に対応する場面が映る画像であればどのような画像であっても構わない。例えば、代替画像は、所定フレーム前以外のフレームの第2画像に対して、CG処理により加工された画像であってもよい。
所定フレーム前の第2画像が取得されると、第1変換器30Aは、選択した第1画像と、取得された所定フレーム前の第2画像とを第1変換器30Aに入力し、ノイズ領域推定情報と第1動き情報とを出力する第1処理を行う(ステップS240)。
図8は、第1処理のフローチャートである。
第1処理が開始されると、第1エンコーダ301は、第1画像から、第1画像の特徴量を出力する(ステップS310)。
そして、第2エンコーダ302は、所定フレーム前の第2画像から、所定フレーム前の第2画像の特徴量を抽出する(ステップS320)。
第1画像の特徴量と、所定フレーム前の第2画像の特徴量とが出力されると、結合部303は、第1画像の特徴量と、所定フレーム前の第2画像の特徴量とをチャネル方向に結合する(ステップS330)。
特徴量が結合されると、第1デコーダ304は、結合された特徴量から、ノイズ領域推定情報を出力する(ステップS340)。そして、ノイズ領域推定情報記憶部31は、第1デコーダ304から出力されたノイズ領域推定情報を記憶する。
そして、第2デコーダ305は、結合された特徴量から、第1動き情報を出力する(ステップS350)。そして、第1動き情報記憶部32は、第2デコーダ305から出力された第1動き情報を記憶する。
ステップS350の処理が終了すると、第2訓練装置1Aは、その第1処理を終了する。
再び図7に戻って、第2訓練処理の説明を続ける。
第1処理においてノイズ領域推定情報が記憶されると、結合部40は、そのノイズ領域推定情報と、選択中の第1画像とを、チャネル方向に結合して第2変換器60に入力する。すると、第2変換器60は、第2画像を出力する(ステップS250)。第2画像が出力されると、第2画像記憶部61は、出力された第2画像を記憶する。
第1処理において第1動き情報が記憶されると、第3画像取得部20Aは、その第1動き情報と、所定フレーム前の第2画像とを用いて、第3画像を取得する(ステップS260)。第3画像が取得されると、第3画像記憶部21は、取得された第3画像を記憶する。
第3画像が記憶されると、加算部50は、その第3画像と、ノイズ領域推定情報記憶部31に記憶される、選択中の第1画像に対応するノイズ領域推定情報とを用いて、第4画像を生成する(ステップS270)。第4画像が出力されると、第4画像記憶部51は、生成された第4画像を記憶する。
第4画像が記憶されると、動き情報取得部90は、選択中の第1画像と、その第1画像の所定フレーム前の第1画像との比較により、第2動き情報を取得する(ステップS275)。第2動き情報が取得されると、第2動き情報記憶部91は、取得された第2動き情報を記憶する。
第2動き情報が記憶されると、第1識別器35Aと第1訓練部36Aとは、選択中の第1画像をリファレンスデータとし、第4画像記憶部51に新たに記憶された第4画像を変換用データとした機械学習を用いて、第1変換器30Aを訓練する(ステップS280)。より具体的には、第1識別器35Aは、第1画像と第4画像との誤差を出力し、第1訓練部36Aは、出力された誤差を、第1エンコーダ301と、第2エンコーダ302と、第1デコーダ304とにフィードバックすることで、第1変換器30Aを訓練する。
第1識別器35Aが訓練されると、第2識別器65と第2訓練部66とは、第3画像記憶部21に新たに記憶された第3画像をリファレンスデータとし、第2画像記憶部61に新たに記憶された第2画像を変換用データとした機械学習を用いて、第2変換器60を訓練する(ステップS290)。より具体的には、第2識別器65は、第3画像と第2画像との誤差を出力し、第2訓練部66は、出力された誤差を第2変換器60にフィードバックすることで、第2変換器60を訓練する。
第2変換器60が訓練されると、第3識別器85と第3訓練部86とは、第2動き情報記憶部91に新たに記憶された第2動き情報をリファレンスデータとし、第1動き情報記憶部32に新たに記憶された第1動き情報を変換用データとした機械学習を用いて、第1変換器30Aを訓練する(ステップS295)。より具体的には、第3識別器85は、第2動き情報と第1動き情報との誤差を出力し、第3訓練部86は、出力された誤差を、第1エンコーダ301と、第2エンコーダ302と、第2デコーダ305とにフィードバックすることで、第1変換器30Aを訓練する。
ステップS295の処理が終了すると、第2訓練装置1Aは、ステップS220の処理へと進む。
ステップS220の処理において、未選択の第1画像が存在しない場合に(ステップS220:No)、第2訓練装置1Aは、その第2訓練処理を終了する。
[2-2.第2情報処理装置]
以下、実施の形態1に係る第1情報処理装置2から、その構成の一部が変更されて構成される、実施の形態2に係る第2情報処理装置について説明する。この第2情報処理装置は、第1情報処理装置と同様に、第2訓練装置1Aが行う第2訓練処理によりあらかじめ訓練された第1変換器30Aと第2変換器60とを備え、第1画像が入力されると、第1画像からノイズ除去処理が施された第2画像を出力する。
[2-2-1.第2情報処理装置の構成]
図9は、実施の形態2に係る第2情報処理装置2Aの構成を示すブロック図である。以下では、第2情報処理装置2Aについて、第2訓練装置1A又は第1情報処理装置2と同様の構成要素については、既に説明済みであるとして同じ符号を振ってその詳細な説明を省略し、第2訓練装置1A又は第1情報処理装置2との相違点を中心に説明する。
図9に示されるように、第2情報処理装置2Aは、第1画像取得部10Aと、第1画像記憶部11と、第1変換器30Aと、ノイズ領域推定情報記憶部31と、結合部40と、第2変換器60と、第2画像取得部15と、第2画像記憶部61と、出力部70とを含んで構成される。ここで、第1変換器30Aと第2変換器60とは、第2訓練装置1Aが行う第2訓練処理によりあらかじめ訓練されているとする。
[2-2-2.第2情報処理装置の動作]
上記構成の第2情報処理装置2Aは、第1画像が入力されると、第1画像からノイズ除去処理が施された第2画像を出力する第2情報処理を行う。
図10は、第2情報処理のフローチャートである。
第2情報処理において、ステップS450の処理~ステップS460の処理は、それぞれ、実施の形態1に係る第1情報処理におけるステップS150の処理~ステップS160の処理と同様の処理である。このため、ここでは、ステップS450の処理~ステップS460の処理は、すでに説明済みであるとしてその詳細な説明を省略し、ステップS410の処理~ステップS440の処理を中心に説明する。
第2情報処理は、例えば、第2情報処理装置2Aに対して、第2情報処理を開始する旨の操作がなされることで開始される。
第1情報処理が開始されると、第1画像取得部10Aは、1の第1画像を取得する(ステップS410)。第1画像が取得されると、第1画像記憶部11は、取得された第1画像を記憶する。
第1画像が取得されると、第2画像取得部15は、その第1画像の所定フレーム前の第2画像を取得する(ステップS420)。
第1画像と、所定フレーム前の第2画像とが取得されると、第1変換器30Aは、その第1画像と、その所定フレーム前の第2画像とを第1変換器30Aに入力し、ノイズ領域推定情報を出力する(ステップS440)。ノイズ領域推定情報が出力されると、ノイズ領域推定情報記憶部31は、出力されたノイズ領域推定情報を記憶する。
ステップS440の処理が終了すると、第2情報処理装置2Aは、ステップS450の処理に進む。第2情報処理装置2Aは、ステップS460の処理が終了すると、その第2情報処理を終了する。
[2-3.考察]
上記構成の第2訓練装置1Aによると、実施の形態1に係る第1訓練装置1と同様に、第1画像からノイズ領域を推定するよう第1変換器30Aを訓練し、第1画像に対して、第1変換器30Aにより推定されたノイズ領域に重み付けをして第2画像を出力するよう第2変換器60を訓練することができる。このため、第1変換器30Aと第2変換器60とを、画像から局所的なノイズを除去するよう効果的に訓練することができる。また、上記構成の第2訓練装置1Aによると、動き情報を利用することで、1の第1画像においてノイズの影響で隠れていた情報を、他の第1画像より得ることができる。このため、第1変換器30Bと第2変換器60とを、画像から局所的なノイズを除去するよう効果的に訓練することができる。また、上記構成の第2訓練装置1Aによると、第2訓練装置1Aを利用するユーザは、あらかじめ第3画像を準備する必要がない。このため、第2訓練装置1Aを利用するユーザは、あらかじめ第3画像を準備せずに、第1変換器30Aと第2変換器60とを訓練することができる。
また、上記構成の第2情報処理装置2Aによると、実施の形態1に係る第1情報処理装置2と同様に、第2訓練装置1Aが行う第2訓練処理によりあらかじめ訓練された第1変換器30Aにより、第1画像からノイズ領域を推定し、第2訓練装置1Aが行う第1訓練処理によりあらかじめ訓練された第2変換器60により、その推定されたノイズ領域に重み付けをして第2画像を出力することができる。
従って、第2情報処理装置2Aによると、実施の形態1に係る第1情報処理装置2と同様に、画像から、局所的なノイズを効果的に除去することができる。
(実施の形態3)
[3-1.第3訓練装置]
以下、実施の形態2に係る第2訓練装置1Aから、その構成の一部が変更されて構成される、実施の形態3に係る第3訓練装置について説明する。この第3訓練装置は、機械学習モデルからなる第1変換器を備え、ノイズ領域を含む第1画像から、ノイズ除去処理が施された第2画像を出力するよう第1変換器を訓練する。
[3-1-1.第3訓練装置の構成]
図11は、実施の形態3に係る第3訓練装置1Bの構成を示すブロック図である。以下では、第3訓練装置1Bについて、第2訓練装置1A又は実施の形態1に係る第1訓練装置1と同様の構成要素については、既に説明済みであるとして同じ符号を振ってその詳細な説明を省略し、第2訓練装置1A又は第1訓練装置1との相違点を中心に説明する。
図11に示されるように、第3訓練装置1Bは、第1画像取得部10Aと、第1画像記憶部11と、第2画像取得部15と、第3画像取得部20Aと、第3画像記憶部21と、第1変換器30Bと、ノイズ領域推定情報記憶部31と、第1動き情報記憶部32と、第1識別器35Bと、第1訓練部36Bと、加算部50と、第4画像記憶部51と、第2変換器60Bと、第2画像記憶部61と、第2識別器65Bと、第2訓練部66Bと、動き情報取得部90と、第2動き情報記憶部91と、第3識別器85と、第3訓練部86Bとを含んで構成される。
第1変換器30Bは、第1画像と、その第1画像の所定フレーム前(例えば、1フレーム前)の第2画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第2画像と、第1動き情報とを出力するよう機械学習を用いて訓練される機械モデルである。ここでは、ノイズ領域推定情報は、第1画像に対して推定されるノイズ領域に含まれる画素の画素値のうちのノイズ成分を画素値とする画像であるとする。また、ここでは、第1動き情報は、所定フレーム前の第2画像を基準とする場合における第1画像の動き情報であるとする。ここで、第1変換器30Bには、第1画像記憶部11に記憶される1の第1画像と、その第1画像の所定フレーム前の第2画像とがペアとなって入力される。すなわち、第2画像取得部15は、第1画像が第1変換器30Bに入力される場合には、その第1画像とペアになる、その第1画像の所定フレーム前の第1画像についての処理により取得された所定フレーム前の第2画像を、第2画像記憶部15から取得して、第1変換器30Bに入力する。第1変換器30Aは、第1画像と、その第1画像の所定フレーム前の第2画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第2画像と、第1動き情報とを出力するよう訓練され得る機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第1変換器30Bは、畳み込みニューラルネットワークであるとする。
第1変換器30Bは、機能ブロックとして、第1エンコーダ301と、第2エンコーダ302と、結合部303と、第1デコーダ304と、第2デコーダ305と、第3デコーダ306とを含んで構成される。
第3デコーダ306は、結合部303により結合された特徴量が入力されると、第2画像が出力されるよう訓練された機能ブロックである。
第1識別器35Bは、第1変換器30BをGeneratorとし、第1識別器35BをDiscriminatorとするGANを構成する機械学習モデルである。第1識別器35Bは、第1画像をリファレンスデータとし第4画像を変換用データとして入力されると、第1画像及び第4画像についてそれぞれリファレンスデータとしての真偽を識別する。言い換えると、第1画像と第1画像との同一性、及び第4画像と第1画像との同一性、が識別される。なお、リファレンスデータとしての真偽の代わりに変換用データとしての真偽が識別されてもよい。そして、第1識別器35Bは、識別結果に基づき誤差を出力する。また、第1識別器35Bは、機械学習を用いて識別結果に基づき訓練される。具体的には、第1識別器35Bは、第1画像記憶部11に記憶される第1画像がリファレンスデータとして入力されると、第1画像がリファレンスデータであるか否かを識別する。また、第1識別器35Bは、第4画像記憶部51に記憶される、上記第1画像に対応する第4画像が変換用データとして入力されると、第4画像がリファレンスデータであるか否かを識別する。例えば、それぞれの識別結果は確率値で表される。そして、第1識別器35Bは、第4画像の識別結果に基づいて誤差を出力する。また、第1識別器35Bは、第1画像及び第4画像についての識別結果に基づいて訓練される。例えば、第1識別器35Bは、第4画像がリファレンスデータである確率に基づき算出された値(以下、第7フィードバックデータとも称する。)を誤差として出力する。また、第1画像がリファレンスデータである確率及び第4画像がリファレンスデータである確率に基づき算出された値(以下、第8フィードバックデータとも称する。)を出力する。なお、第1識別器35Bは、第1画像と第4画像とが入力されると、これら画像の同一性を識別し、識別結果に基づき誤差を出力し、識別結果に基づき訓練される機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第1識別器35Bは、畳み込みニューラルネットワークであるとする。
第1訓練部36Bは、第1識別器35Bから出力された第7フィードバックデータを用いて第1変換器30Bを訓練する。具体的には、第1訓練部36Bは、第1識別器35Bから出力された第7フィードバックデータを第1変換器30Bにフィードバックすることで、第1変換器30Bを、第1画像と、その第1画像の所定フレーム前の第2画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第2画像と、第1動き情報とを出力するよう訓練する。この際、第1訓練部36Bは、第1識別器35Bから出力された第7フィードバックデータを、第1エンコーダ301と、第2エンコーダ302と、第1デコーダ304とにフィードバックすることで、第1変換器30Bを訓練する。また、第1訓練部36Bは、第1識別器35Bから出力された第8フィードバックデータを用いて第1識別器35Bを訓練する。具体的には、第1訓練部36Bは、第1識別器35から出力された第8フィードバックデータを第1識別器35Bにフィードバックすることで、第1識別器35Bを、第1画像及び第4画像が入力されると第1画像をリファレンスデータ、第4画像を変換用データと識別するよう訓練する。
第2識別器65Bは、第1変換器30BをGeneratorとし第2識別器65BをDiscriminatorとするGANを構成する機械学習モデルである。第2識別器65Bは、第3画像をリファレンスデータとし第2画像を変換用データとして入力されると、第3画像及び第2画像についてそれぞれリファレンスデータとしての真偽を識別する。言い換えると、第3画像と第3画像との同一性、及び第2画像と第3画像との同一性、が識別される。なお、リファレンスデータとしての真偽の代わりに変換用データとしての真偽が識別されてもよい。そして、第2識別器65Bは、識別結果に基づき誤差を出力する。また、第2識別器65Bは、機械学習を用いて識別結果に基づき訓練される。具体的には、第2識別器65Bは、第3画像記憶部21に記憶される第3画像がリファレンスデータとして入力されると、第3画像がリファレンスデータであるか否かを識別する。また、第2識別器65Bは、第2画像記憶部61に記憶される、上記第3画像に対応する第2画像が変換用データとして入力されると、第2画像がリファレンスデータであるか否かを識別する。例えば、それぞれの識別結果は確率値で表される。そして、第2識別器65Bは、第2画像の識別結果に基づいて誤差を出力する。また、第2識別器65Bは、第3画像及び第2画像についての識別結果に基づいて訓練される。例えば、第2識別器65Bは、第2画像がリファレンスデータである確率に基づき算出された値(以下、第9フィードバックデータとも称する。)を誤差として出力する。また、第3画像がリファレンスデータである確率及び第2画像がリファレンスデータである確率に基づき算出された値(以下、第10フィードバックデータとも称する。)を出力する。なお、第2識別器65Bは、第3画像と第2画像とが入力されると、これら画像の同一性を識別し、識別結果に基づき誤差を出力し、識別結果に基づき訓練される機械学習モデルであればどのような機械学習モデルであっても構わない。ここでは、第2識別器65Bは、畳み込みニューラルネットワークであるとする。
第2訓練部66Bは、第2識別器65Bから出力された第9フィードバックデータを用いて第1変換器30Bを訓練する。具体的には、第2訓練部66は、第2識別器65から出力された第9フィードバックデータを第1変換器30Bにフィードバックすることで、第1変換器30Bを、第1画像と、その第1画像の所定フレーム前の第2画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第2画像と、第1動き情報とを出力するよう訓練する。この際、第2訓練部66Bは、第2識別器65Bから出力された第9フィードバックデータを、第1エンコーダ301と、第2エンコーダ302と、第3デコーダ306とにフィードバックすることで、第1変換器30Bを訓練する。また、第2訓練部66Bは、第2識別器65Bから出力された第10フィードバックデータを用いて第2識別器65Bを訓練する。具体的には、第2訓練部66Bは、第2識別器65Bから出力された第10フィードバックデータを第2識別器65Bにフィードバックすることで、第2識別器65Bを、第3画像及び第2画像が入力されると第3画像をリファレンスデータ、第2画像を変換用データと識別するよう訓練する。
第3訓練部86Bは、第3識別器85から出力された誤差を第1変換器30Bにフィードバックすることで、第1変換器30Bを、第1画像と、その第1画像の所定フレーム前の第2画像とが入力されると、推定されるノイズ領域を示すノイズ領域推定情報と、第2画像と、第1動き情報とを出力するよう訓練する。この際、第3訓練部86Bは、第3識別器85から出力された誤差を、第1エンコーダ301と、第2エンコーダ302と、第2デコーダ305とにフィードバックすることで、第1変換器30Bを訓練する。
[3-1-2.第3訓練装置の動作]
上記構成の第3訓練装置1Bは、第1画像をリファレンスデータとし、第4画像を変換用データとした機械学習を用いて第1変換器30Bを訓練し、第3画像をリファレンスデータとし、第2画像を変換用データとした機械学習を用いて第1変換器30Bを訓練し、第2動き情報をリファレンスデータとし、第1動き情報を変換用データとした機械学習を用いで第1変換器30Bを訓練する第3訓練処理を行う。
図12は、第3訓練処理のフローチャートである。
第3訓練処理において、ステップS510の処理~ステップS535の処理、ステップS560の処理~ステップS580の処理、及び、ステップS595の処理は、それぞれ、実施の形態2に係る第2訓練処理におけるステップS210の処理~ステップS235の処理、ステップS260の処理~ステップS280の処理、及び、ステップS295の処理に対して、「第1変換器30A」を「第1変換器30B」に読み替え、「第1識別器35A」を「第1識別器35B」に読み替え、「第1訓練部36A」を「第1訓練部36B」に読み替え、「第3訓練部86A」を「第3訓練部86B」に読み替えた処理と同様の処理である。このため、ここでは、ステップS510の処理~ステップS535の処理、ステップS560の処理~ステップS580の処理、及び、ステップS595の処理は、すでに説明済みであるとしてその詳細な説明を省略し、ステップS540の処理とステップS590の処理とを中心に説明する。
第3訓練処理は、例えば、第3訓練装置1Bに対して、第3訓練処理を開始する旨の操作がなされることで開始される。
ステップS535の処理が終了すると、第1変換器30Bは、選択した第1画像と、取得された所定フレーム前の第2画像とを第1変換器30Bに入力し、ノイズ領域推定情報と第2画像と第1動き情報とを出力する第2処理を行う(ステップS540)。
図13は、第2処理のフローチャートである。
第2処理において、ステップS610の処理~ステップS650の処理は、それぞれ、実施の形態2に係る第1処理におけるステップS310の処理~ステップS350の処理と同様の処理である。このため、ここでは、ステップS610の処理~ステップS650の処理は、すでに説明済みであるとしてその詳細な説明を省略し、ステップS660の処理を中心に説明する。
ステップS650の処理が終了すると、第3デコーダ306は、結合された特徴量から、第2画像を出力する(ステップS660)。そして、第2画像記憶部61は、第3デコーダ306から出力された第2画像を記憶する。
ステップS660の処理が終了すると、第3訓練装置1Bは、その第2処理を終了する。
再び図12に戻って、第3訓練処理の説明を続ける。
第2処理が終了すると、第3訓練装置1Bは、ステップS560の処理へと進む。
ステップS580の処理が終了すると、第2識別器65Bと第2訓練部66Bとは、第3画像記憶部21に新たに記憶された第3画像をリファレンスデータとし、第2画像記憶部61に新たに記憶された第2画像を変換用データとした機械学習を用いて、第1変換器30Bを訓練する(ステップS590)。より具体的には、第2識別器65Bは、第3画像と第2画像との誤差を出力し、第2訓練部66Bは、出力された誤差を第1エンコーダ301と、第2エンコーダ302と、第1デコーダ304とにフィードバックすることで、第1変換器30Bを訓練する。
ステップS590の処理が終了すると、第3訓練装置1Bは、ステップS595の処理へと進む。
ステップS520の処理において、未選択の第1画像が存在しない場合に(ステップS520:No)、第3訓練装置1Bは、その第3訓練処理を終了する。
[3-2.第3情報処理装置]
以下、実施の形態2に係る第2情報処理装置2Aから、その構成の一部が変更されて構成される、実施の形態3に係る第3情報処理装置について説明する。この第3情報処理装置は、第3訓練装置1Bが行う第3訓練処理によりあらかじめ訓練された第1変換器30Bを備え、第1画像が入力されると、第1画像からノイズ除去処理が施された第2画像を出力する。
[3-2-1.第3情報処理装置の構成]
図14は、実施の形態3に係る第3情報処理装置2Bの構成を示すブロック図である。以下では、第3情報処理装置2Bについて、第3訓練装置1B又は第2情報処理装置2Aと同様の構成要素については、既に説明済みであるとして同じ符号を振ってその詳細な説明を省略し、第3訓練装置1B又は第2情報処理装置2Aとの相違点を中心に説明する。
図14に示されるように、第3情報処理装置2Bは、第1画像取得部10Aと、第1画像記憶部11と、第2画像取得部15と、第1変換器30Bと、第2画像記憶部61と、出力部70とを含んで構成される。ここで、第1変換器30Bは、第3訓練装置1Bが行う第3訓練処理によりあらかじめ訓練されているとする。
[3-2-2.第3情報処理装置の動作]
上記構成の第3情報処理装置2Bは、第1画像が入力されると、第1画像からノイズ除去処理が施された第2画像を出力する第3情報処理を行う。
図15は、第3情報処理のフローチャートである。
第3情報処理において、ステップS710の処理~ステップS720の処理は、それぞれ、実施の形態2に係る第2情報処理におけるステップS410の処理~ステップS420の処理と同様の処理である。このため、ここでは、ステップS710の処理~ステップS720の処理は、すでに説明済みであるとしてその詳細な説明を省略し、ステップS730の処理~ステップS740の処理を中心に説明する。
第3情報処理は、例えば、第3情報処理装置2Bに対して、第3処理を開始する旨の操作がなされることで開始される。
ステップS710の処理において第1画像が取得され、ステップS720の処理において所定フレーム前の第2画像が取得されると、第1変換器30Bは、その第1画像と、その所定フレーム前の第2画像とを第1変換器30Bに入力し、第2画像を出力する(ステップS730)。第2画像が出力されると、第2画像記憶部61は、出力された第2画像を記憶する。
第2画像が記憶されると、出力部70は、その第2画像を外部に出力する(ステップS740)。
ステップS740の処理が終了すると、第3情報処理装置2Bは、その第3情報処理を終了する。
[3-3.考察]
上記構成の第3訓練装置1Bによると、第1画像からノイズ領域を推定するよう第1変換器30Bを訓練し、第1画像に対して、第1変換器30Bにより推定されたノイズ領域に重み付けをして第2画像を出力するよう第1変換器30Bを訓練することができる。このため、第1変換器30Bを、画像から局所的なノイズを除去するよう効果的に訓練することができる。また、上記構成の第3訓練装置1Bによると、動き情報を利用することで、1の第1画像においてノイズの影響で隠れていた情報を、他の第1画像より得ることができる。このため、第1変換器30Bを、画像から局所的なノイズを除去するよう効果的に訓練することができる。また、上記構成の第3訓練装置1Bによると、第3訓練装置1Bを利用するユーザは、あらかじめ第3画像を準備する必要がない。このため、第3訓練装置1Bを利用するユーザは、あらかじめ第3画像を準備せずに、第1変換器30Bを訓練することができる。
また、上記構成の第3情報処理装置2Bによると、第3訓練装置1Bが行う第3訓練処理によりあらかじめ訓練された第1変換器30Bにより、第1画像から第2画像を出力することができる。
従って、第3情報処理装置2Bによると、実施の形態1に係る第1情報処理装置2、及び、実施の形態2に係る第2情報処理装置2Aと同様に、画像から、局所的なノイズを効果的に除去することができる。
(補足)
以上、本開示の1つまたは複数の態様に係る訓練装置及び情報処理装置について、実施の形態1~実施の形態3に基づいて説明したが、本開示は、これら実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の1つまたは複数の態様の範囲内に含まれてもよい。
(1)実施の形態1において、第1画像として、例えば、カメラのレンズ又はレンズカバーの付着物(例えば雨滴)に起因するノイズを含む画像を例示して説明した。しかしながら、第1画像は、ノイズを含む画像であれば、必ずしも上記例に限定される必要はない。例えば、第1画像は、画像を撮像する際に発生している霧に起因するノイズを含む画像であってもよい。
(2)実施の形態2において、動き情報取得部90は、第1画像と、その第1画像の所定フレーム前の第1画像との比較により、第2動き情報を取得するとして説明した。これに対して、他の例として、動き情報取得部90は、例えば、外部装置においてあらかじめ生成された第2動き情報を外部から取得するとしてもよい。
(3)実施の形態2において、第1動き情報及び第2動き情報を取得するための比較画像の基となる画像は、選択中の第1画像と、その第1画像の所定フレーム前の第1画像であるとして説明した。これに対して、他の例として、比較画像の基となる画像は、選択中の第1画像と、その第1画像のn(nは1以上の整数)フレーム前の第1画像であって、選択中の第1画像に応じて、nの値が変更されるとしてもよい。この場合、nの値は、例えば、第1画像に含まれる物体の動きに応じて決定されるとしてもよい。より具体的には、nの値は、例えば、物体の動きがより小さい場合にnの値がより大きくなるように決定されるとしてもよい。
(4)上記各実施の形態においては、処理の対象が画像である例を説明したが、処理の対象は画像以外のセンシングデータであってもよい。例えば、センシングデータは、画像若しくは骨格などの2次元座標などの2次元データのほか、マイクロフォン若しくは慣性センサなどから出力される波形データなどの1次元データ、又はLiDAR等のレーダから出力される点群データ若しくは時系列の複数の画像である動画データなどの3次元データのような他の次元のデータであってよい。なお、処理の対象となるセンシングデータは、次元が変更されてもよい。例えば、センシングデータが波形データである場合、所定期間の波形データ(すなわち2次元データ)が第1、第2変換器に入力されてもよい。また、ケプストラムのように波形データを時間と周波数からなる二次元データに変換したものが入力されてもよい。また、センシングデータが水平方向、垂直方向、及び奥行方向の位置で特定される点で構成される点群データである場合、特定の奥行方向における水平方向及び垂直方向の点群データ(すなわち2次元データ)が第1、第2変換器に入力されてもよい。
(5)各訓練装置及び各情報処理装置が備える構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
なお、ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
(6)本開示の一態様は、このような訓練装置及び情報処理装置だけではなく、訓練装置及び情報処理装置に含まれる特徴的な構成部をステップとする情報処理方法であってもよい。また、本開示の一態様は、情報処理方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。
本開示は、センシングデータからノイズを除去する処理を行う装置等に広く利用可能である。
1 第1訓練装置
1A 第2訓練装置
1B 第3訓練装置
2 第1情報処理装置
2A 第2情報処理装置
2B 第3情報処理装置
10、10A 第1画像取得部
15 第2画像取得部
20、20A 第3画像取得部
30、30A、30B 第1変換器
35、35A、35B 第1識別器
36、36A、36B 第1訓練部
40 結合部
50 加算部
60 第2変換器
65、65B 第2識別器
66、66B 第2訓練部
70 出力部
85 第3識別器
86、86B 第3訓練部
90 動き情報取得部
301 第1エンコーダ
302 第2エンコーダ
303 結合部
304 第1デコーダ
305 第2デコーダ
306 第3デコーダ

Claims (9)

  1. コンピュータが、
    ノイズ領域を含む第1センシングデータを取得し、
    前記第1センシングデータを第1変換器に入力することにより、前記第1変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、
    前記ノイズ領域推定情報及び前記第1センシングデータを第2変換器に入力することにより、前記第2変換器から出力されるノイズ領域除去処理が施された第2センシングデータを取得し、
    前記第1センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第3センシングデータを取得し、
    前記ノイズ領域推定情報と前記第3センシングデータとを用いて前記推定される前記ノイズ領域を含む第4センシングデータを生成し、
    前記第1センシングデータをリファレンスデータとし前記第4センシングデータを変換用データとした機械学習を用いて前記第1変換器を訓練し、
    前記第3センシングデータをリファレンスデータとし前記第2センシングデータを変換用データとした機械学習を用いて前記第2変換器を訓練する
    情報処理方法。
  2. 前記第1センシングデータの所定時間前の第1センシングデータについての処理により取得された前記所定時間前の第2センシングデータを取得し、
    前記第1センシングデータと前記所定時間前の第2センシングデータとを前記第1変換器に入力することにより、前記第1変換器から出力される第1動き情報を取得し、
    前記第1動き情報と前記所定時間前の第2センシングデータとを用いて前記第3センシングデータを取得し、
    前記第1センシングデータと前記所定時間前の第1センシングデータとの比較により得られる第2動き情報を取得し、
    前記第2動き情報をリファレンスデータとし、前記第1動き情報を変換用データとした機械学習を用いて前記第1変換器を訓練する
    請求項1に記載の情報処理方法。
  3. 前記第1センシングデータと前記所定時間前の第2センシングデータとを前記第1変換器に入力することにより、前記第1変換器から出力される前記ノイズ領域推定情報を取得する
    請求項2に記載の情報処理方法。
  4. 前記第1変換器の訓練で利用されるフィードバックデータは、入力されるセンシングデータが前記1変換器の変換用データであるか否か又はリファレンスデータであるか否かを識別するように機械学習を用いて訓練された第1識別器に前記第1センシングデータと前記第4センシングデータとを入力することにより、前記第1識別器から出力され、
    前記第2変換器の訓練で利用されるフィードバックデータは、入力されるセンシングデータが前記第2変換器の変換用データであるか否かリファレンスデータであるか否かを識別するように機械学習を用いて訓練された第2識別器に前記第2センシングデータと前記第3センシングデータとを入力することにより、前記第2識別器から出力される
    請求項1から請求項3のいずれか1項に記載の情報処理方法。
  5. 前記第1変換器及び前記第2変換器は、ニューラルネットワークである
    請求項1から請求項4のいずれか1項に記載の情報処理方法。
  6. コンピュータが、
    ノイズ領域を含む第1センシングデータと、第1変換器から出力された、ノイズ領域除去処理が施された第2センシングデータとを取得し、
    前記第1センシングデータと、前記第1センシングデータの所定時間前の第1センシングデータについての処理により取得された前記所定時間前の第2センシングデータとを前記第1変換器に入力することにより前記第1変換器から出力される、前記第2センシングデータと第1動き情報とを取得し、
    前記第1動き情報と、前記所定時間前の第2センシングデータと、を用いて第3センシングデータを取得し、
    前記第3センシングデータをリファレンスデータとし前記第2センシングデータを変換用データとした機械学習を用いて前記第1変換器を訓練する
    情報処理方法。
  7. 前記第1センシングデータはカメラ画像であり、
    前記ノイズ領域は、カメラのレンズ又はレンズカバーの付着物に起因するノイズを含む領域である
    請求項1から請求項6のいずれか1項に記載の情報処理方法。
  8. プロセッサとメモリとを備え、
    前記メモリは、第1変換器及び第2変換器を記憶し、
    前記プロセッサは、
    センサからノイズ領域を含む第1センシングデータを取得し、
    前記第1センシングデータを前記第1変換器に入力することにより、前記第1変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、
    前記ノイズ領域推定情報及び前記第1センシングデータを前記第2変換器に入力することにより、前記第2変換器から出力されるノイズ領域除去処理が施された第2センシングデータを取得し、
    取得される前記第2センシングデータを出力する
    ように構成され、
    前記第1変換器は、前記ノイズ領域推定情報と、前記第1センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第3センシングデータとを用いて生成される前記推定される前記ノイズ領域を含む第4センシングデータを変換用データとし、前記第1センシングデータをリファレンスデータとした機械学習を用いて訓練され、
    前記第2変換器は、前記第2センシングデータを変換用データとし、前記第3センシングデータをリファレンスデータとした機械学習を用いて訓練される
    情報処理装置。
  9. プロセッサと、第1変換器及び第2変換器を記憶するメモリとを備えるコンピュータに情報処理を実行させるための情報処理プログラムであって、
    前記情報処理は、
    前記コンピュータが、
    ノイズ領域を含む第1センシングデータを取得し、
    前記第1センシングデータを前記第1変換器に入力することにより、前記第1変換器から出力される、推定される前記ノイズ領域を示すノイズ領域推定情報を取得し、
    前記ノイズ領域推定情報及び前記第1センシングデータを前記第2変換器に入力することにより、前記第2変換器から出力されるノイズ領域除去処理が施された第2センシングデータを取得し、
    前記第1センシングデータと同一又は対応する場面における前記ノイズ領域を含まない第3センシングデータを取得し、
    前記ノイズ領域推定情報と前記第3センシングデータとを用いて前記推定される前記ノイズ領域を含む第4センシングデータを生成し、
    前記第1変換器は、前記第1センシングデータをリファレンスデータとし前記第4センシングデータを変換用データとした機械学習を用いて訓練され、
    前記第2変換器は、前記第3センシングデータをリファレンスデータとし前記第2センシングデータを変換用データとした機械学習を用いて訓練される
    情報処理プログラム。
JP2019065416A 2018-09-07 2019-03-29 情報処理方法、情報処理装置、及び情報処理プログラム Active JP7216593B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP19194089.9A EP3629240B1 (en) 2018-09-07 2019-08-28 Generative adversarial networks for local noise removal from an image
US16/558,960 US10970582B2 (en) 2018-09-07 2019-09-03 Information processing method, information processing device, and recording medium
CN201910830402.7A CN110889804A (zh) 2018-09-07 2019-09-04 信息处理方法、信息处理装置及程序记录介质

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US201862728431P 2018-09-07 2018-09-07
US62/728,431 2018-09-07
US201862747883P 2018-10-19 2018-10-19
US62/747,883 2018-10-19
US201862767223P 2018-11-14 2018-11-14
US62/767,223 2018-11-14
JP2019029409 2019-02-21
JP2019029409 2019-02-21

Publications (2)

Publication Number Publication Date
JP2020129355A JP2020129355A (ja) 2020-08-27
JP7216593B2 true JP7216593B2 (ja) 2023-02-01

Family

ID=72174685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019065416A Active JP7216593B2 (ja) 2018-09-07 2019-03-29 情報処理方法、情報処理装置、及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP7216593B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010084521A1 (ja) 2009-01-20 2010-07-29 本田技研工業株式会社 ウインドシールド上の雨滴を同定するための方法及び装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010084521A1 (ja) 2009-01-20 2010-07-29 本田技研工業株式会社 ウインドシールド上の雨滴を同定するための方法及び装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Rui Qian et al.,Attentive_Generative Adversarial Network for Raindrop Removal from A Single Image,2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018年06月,p.2482-2491
Shaodi You et al.,Adherent Raindrop Modeling, Detection and Removal in Video,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,2016年09月,VOL. 38, NO. 9, SEPTEMBER 2016,p.1721-1733

Also Published As

Publication number Publication date
JP2020129355A (ja) 2020-08-27

Similar Documents

Publication Publication Date Title
KR101893047B1 (ko) 이미지 처리 방법 및 이미지 처리 장치
JP5493108B2 (ja) 距離画像カメラを用いた人体識別方法および人体識別装置
EP3629240B1 (en) Generative adversarial networks for local noise removal from an image
KR101362631B1 (ko) 머리 인식 방법
CN107025660B (zh) 一种确定双目动态视觉传感器图像视差的方法和装置
US20220148328A1 (en) Pedestrian detection method and apparatus, computer-readable storage medium, and chip
CN109564687B (zh) 学习方法和记录介质
CN108876813B (zh) 用于视频中物体检测的图像处理方法、装置及设备
JP6561512B2 (ja) 視差値導出装置、移動体、ロボット、視差値導出方法、視差値生産方法及びプログラム
JP6577703B2 (ja) 画像処理装置及び画像処理方法、プログラム、記憶媒体
JP2013089252A (ja) 映像処理方法及び装置
JP2018022360A (ja) 画像解析装置、画像解析方法およびプログラム
JP2008152530A (ja) 顔認識装置及び顔認識方法、ガボア・フィルタ適用装置、並びにコンピュータ・プログラム
JP2016081251A (ja) 画像処理装置および画像処理方法
KR20130134163A (ko) 표적 추출 장치와 그 방법 및 상기 방법을 구현하는 프로그램이 기록된 기록 매체
CN111008935A (zh) 一种人脸图像增强方法、装置、系统及存储介质
KR20210056149A (ko) 깊이 영상 생성 방법 및 깊이 영상 생성 장치
JP6052533B2 (ja) 特徴量抽出装置および特徴量抽出方法
CN111680573B (zh) 人脸识别方法、装置、电子设备和存储介质
JP2017199278A (ja) 検出装置、検出方法、およびプログラム
JP5710940B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
Kogler et al. Address-event based stereo vision with bio-inspired silicon retina imagers
JP7216593B2 (ja) 情報処理方法、情報処理装置、及び情報処理プログラム
JP2018197945A (ja) 障害物検出装置および障害物検出方法
JP6452324B2 (ja) 画像処理装置、画像処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230120

R150 Certificate of patent or registration of utility model

Ref document number: 7216593

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150