JP7454568B2

JP7454568B2 - 情報処理方法、情報処理装置及びプログラム

Info

Publication number: JP7454568B2
Application number: JP2021522683A
Authority: JP
Inventors: 育規石井
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2019-05-30
Filing date: 2020-04-08
Publication date: 2024-03-22
Anticipated expiration: 2040-04-08
Also published as: US20210374541A1; JPWO2020241074A1; WO2020241074A1

Description

本発明は、コンピュータにより実行される情報処理方法に関する。

画像（以下、復元処理前の画像）の特徴量に基づいて当該画像を復元する復元処理に関する技術が研究されている（例えば非特許文献１参照）。例えば、復元処理を用いて復元された画像に対し画像認識を実行することで、復元処理前の画像に対する画像認識の結果を間接的に得ることが考えられる。

Diederik P. Kingma and Max Welling、"Auto-Encoding Variational Bayes"、arXiv preprint arXiv:1312.6114、2013年12月20日

しかしながら、上記のような従来技術では、復元処理が難化すると、復元処理前の画像等のデータに対する画像認識等の推論の結果が実質的に悪化するおそれがある。例えば、復元処理が出力する画像の質が低下すると、復元処理が出力する画像に対する画像認識の結果も悪化する。このため、復元処理前の画像に対する画像認識の結果が実質的に悪化するおそれがあるといえる。

本開示では、復元処理が難化しても、復元処理前のデータに対する推論の結果が実質的に悪化することを抑制できる情報処理方法を提供する。

本開示の一態様に係る情報処理方法は、コンピュータにより実行される方法であって、ノイズを含む第１センシングデータを取得し、ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第１訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第１モデルに前記第１センシングデータを入力し、前記第１センシングデータの入力に対してノイズが低減された前記第１センシングデータを模擬した前記模擬センシングデータである第１模擬センシングデータが出力されるまでの過程で生成された、前記第１センシングデータについての前記特徴データである第１特徴データを取得し、前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第２訓練が実行される第２モデルに前記第１特徴データを入力し、前記第１特徴データの入力に対して前記第２モデルが出力する前記推論結果データである第１推論結果データを取得し、前記第１センシングデータに対する推論についてのリファレンスデータ及び前記第１推論結果データに基づいて、前記第２訓練を実行する。

また、本開示の一態様に係る情報処理方法は、コンピュータにより実行される方法であって、ノイズを含む第１センシングデータを取得し、ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第１訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第１モデルに前記第１センシングデータを入力し、前記第１センシングデータの入力に対してノイズが低減された前記第１センシングデータを模擬した前記模擬センシングデータである第１模擬センシングデータが出力されるまでの過程で生成された、前記第１センシングデータについての前記特徴データである第１特徴データを取得し、前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第２訓練が実行される第２モデルに前記第１特徴データを入力し、前記第１特徴データの入力に対して前記第２モデルが出力する前記推論結果データである第１推論結果データを取得し、前記第１推論結果データを出力する。

また、本開示の一態様に係るプログラムは、コンピュータにおいて、前記コンピュータが備えるプロセッサによって実行されることで前記プロセッサに、ノイズを含む第１センシングデータを取得させ、ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第１訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第１モデルへ前記第１センシングデータを入力させて、前記第１センシングデータの入力に対してノイズが低減された前記第１センシングデータを模擬した前記模擬センシングデータである第１模擬センシングデータが出力されるまでの過程で生成された、前記第１センシングデータについての前記特徴データである第１特徴データを取得させ、前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第１訓練が実行される第２モデルに前記第１特徴データを入力し、前記第１特徴データの入力に対して前記第２モデルが出力する前記推論結果データである第１推論結果データを取得させ、前記第１推論結果データを出力させる。

なお、これらの包括的又は具体的な態様は、装置、システム、集積回路又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、装置、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本開示に係る情報処理方法及びプログラムを用いることで、復元処理が難化しても、復元処理前のデータに対する推論の結果が実質的に悪化することを抑制できる。

図１は、画質の異なる画像及び各画像に対する復元処理結果の例を示す表である。図２は、実施の形態に係る情報処理方法の概要を説明するための図である。図３は、実施の形態に係る情報処理方法の手順例を示すフロー図である。図４は、上記情報処理方法における変分オートコーダの訓練方法の手順例を示すフロー図である。図５は、上記情報処理方法における認識器の訓練方法の手順例を示すフロー図である。図６は、上記情報処理方法で訓練した認識器を用いた画像認識方法の手順例を示すフロー図である。図７は、上記実施の形態の変形例に係る情報処理方法の概要を説明するための図である。図８は、発明者による実験結果を示す表である。

（基礎となる知見）
本発明者は、「背景技術」の欄において記載した画像認識の手法に関し、以下の問題を見出した。

個人宅又は公共の場所に設置された監視カメラ等で撮影された画像に対して、セキュリティ等の目的で画像認識が実行されることがある。この画像認識の処理は、カメラから出力された画像データがクラウドサーバにアップロードされてから、この画像データに対してクラウドサーバで行われる場合もある。この場合、プライバシ保護の要請から、画像認識処理の対象となる画像にぼかし等のノイズが予め加えられることがある。言い換えると、プライバシ保護のために低画質な画像での画像認識が求められることがある。ただし、このようなノイズを加えることで劣化した画像では画像認識の精度が落ちやすいため、画像認識処理の下処理として、ノイズを軽減して画質を改善するための復元処理が行われる。

しかしながら、プライバシの保護をより確実なものにするためにより強いノイズが加えられた画像では、精度の高い復元処理が困難になる。図１は、異なる強度のノイズが加えられた画像及び各画像に対する復元処理結果の例を示す表である。この例では、ＭＮＩＳＴ（Modified National Institute of Standards and Technology）データベースに含まれる手書きの数字「９」が写る画像に１０％、３０％、５０％、７０％の割合でごま塩ノイズを付加した画像と、これらの各画像に復元処理を実行した結果として得られた画像とを上下に並べている。このような復元処理は、対象のノイズを除去又は軽減（以下、実際の効果が除去か軽減かの別なく軽減という）するための機械学習の訓練が実行されたモデル、例えばオートエンコーダを用いて行うことができる。図１の例における復元処理には、畳み込みオートエンコーダが用いられている。図１を参照すると、ノイズの割合が３０％までは、復元によって得られた画像には肉眼で把握可能な手書きの「９」が含まれている。このことから、復元によって得られたこれらの画像の外観は、ノイズが付加される前の画像の外観に近いと推測される。ただし、復元処理前の画像では数字の「９」が肉眼で比較的把握しやすいことから、この強度のノイズではプライバシ保護には不十分である可能性がある。

しかしながら、復元処理前の画像に写る数字の認識はノイズの割合が増すにつれて肉眼でもより困難になる。つまり、例えば人物写真に適用した場合には、よりいっそうのプライバシ保護の効果が期待される。ところが、ノイズの割合が５０％以上になると、復元処理後の画像は全体のコントラストが低下し、輪郭のぼやけはより強くなって、数字の「９」を描くはずの白線には途切れ又は変形が見られる。したがって、これらの画像に対して画像認識を実行しても、正確な結果が得られるかは疑わしい。このように、プライバシ保護のためのノイズの強化と画像の復元の精度の向上とはトレードオフの関係にある。したがって、プライバシ保護の強化を図れば、結果的に画像認識性能が犠牲となるため、例えば画像認識の結果を利用してのセキュリティの強化は困難になる。

このような問題を解決するために案出された、本開示の一態様に係る情報処理方法は、コンピュータにより実行される方法であって、ノイズを含む第１センシングデータを取得し、ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第１訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第１モデルに前記第１センシングデータを入力し、前記第１センシングデータの入力に対してノイズが低減された前記第１センシングデータを模擬した前記模擬センシングデータである第１模擬センシングデータが出力されるまでの過程で生成された、前記第１センシングデータについての前記特徴データである第１特徴データを取得し、前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第２訓練が実行される第２モデルに前記第１特徴データを入力し、前記第１特徴データの入力に対して前記第２モデルが出力する前記推論結果データである第１推論結果データを取得し、前記第１センシングデータに対する推論についてのリファレンスデータ及び前記第１推論結果データに基づいて、前記第２訓練を実行する。

これにより、精度の高い復元処理が難化しても、復元処理前のデータに対する推論の結果が実質的に悪化することを抑制できる。すなわち、ノイズを含むセンシングデータに対してより高い認識性能を発揮し得る認識モデルが得られる。

また、前記第１モデルは、エンコーダとデコーダとを備え、前記エンコーダは、前記センシングデータの入力に対して、当該センシングデータについての前記特徴データを出力し、前記デコーダは、前記エンコーダが出力した前記特徴データの入力に対して、前記模擬センシングデータを生成して、前記模擬センシングデータを出力し、前記特徴データは、潜在変数であってもよい。また、前記特徴データは、前記第１センシングデータについての平均データ及び分散データであってもよい。また、前記特徴データは、前記第１センシングデータの事前分布に関する潜在変数であってもよい。

このように、本開示の一態様に係る情報処理方法は、例えば画像データのノイズの軽減に従来用いられているオートエンコーダ又は変分オートエンコーダの中間データを利用することができる。したがって、例えば画像認識のために画像のノイズを低減するオートエンコーダをすでに利用している場合には、認識器を追加実装することで、本開示の一態様に係る情報処理方法の実行環境を構築することができる。つまりこの場合、本開示の一態様に係る情報処理方法は、処理量やハードウェアのコストの増加を抑えて導入することができる。また、単なるエンコーダの中間データではなく、入力データの傾向が整理された中間データ（言い換えると、入力データの特徴が所定の構造で表された中間データ）を第２モデルの入力とすることにより、第２モデルの推論処理の性能（特に精度）を向上させることができる。

また、前記第１センシングデータ及び前記第１模擬センシングデータを取得し、前記第１センシングデータ、前記第１模擬センシングデータ、及び前記第１特徴データに基づいて、前記第１訓練を行ってもよい。そして、前記第２訓練の後に、再訓練を実行し、前記再訓練は、前記第１訓練をさらに実行し、さらに訓練された前記第１モデルが生成した前記特徴データである第２特徴データを取得し、前記第２特徴データの入力に対して前記第２モデルが出力する前記推論結果データである第２推論結果データを取得し、前記第２推論結果データに基づいて前記第２訓練をさらに実行することを含んでもよいし、さらに、前記推論結果データが示す前記第２モデルによる推論結果に対する評価を取得し、前記評価が所定の基準を満たすまで、前記再訓練を繰り返してもよい。

オートエンコーダの性能が向上すれば推論器の性能も向上する可能性が高いため、このように、オートエンコーダの訓練に応じて推論器の訓練を行うことにより、推論器の性能向上を期待することができる。また、第１モデルの機械学習による訓練も並行して実行することで、例えば第２モデルによる推論の精度を第１モデルの訓練の成果の指標に用いて、訓練の成否又は止め時を判断することができる。

また、前記センシングデータは、画像データであってもよい。

これにより、ノイズを含んで低画質な画像に対して、より高い認識性能を発揮し得る認識モデルが得られる。

これにより、ノイズを含むセンシングデータに対してより高い精度での認識が実行される。

なお、これらの包括的又は具体的な態様は、装置、システム、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、装置、システム、方法、集積回路、コンピュータプログラム及び記録媒体からの任意な組み合わせで実現されてもよい。

以下、実施の形態について、図面を参照しながら具体的に説明する。以下で説明する実施の形態は、包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、方法に含まれるステップの組み合わせ、ステップの順序等は一例であり、本開示に係る発明を限定する趣旨ではない。

（実施の形態）
［１．概要］
図２は、実施の形態に係る情報処理方法の概要を説明するための図であり、１台以上のコンピュータ上に実現される、当該情報処理方法を実行するためのこれらの２つのモデルを含む構成例を示す。本実施の形態に係る情報処理方法は、プロセッサを備える１台以上のコンピュータによって実行される、訓練済みの機械学習の推定モデルを得るための情報処理方法である。この（又はこれらの）コンピュータは、当該情報処理方法を実行するために用いられる２つのモデルが動作するよう構成されている。

２つのモデルのひとつは、ノイズを含むセンシングデータからノイズを低減したセンシングデータを模擬したデータを生成して出力するモデルである。図２では、上下を隔てる線より上に描かれた第１モデルがこのモデルにあたる。この例では、第１モデルは、ニューラルネットワークの一種であるＶＡＥ（Variational Autoencoderの略）の生成モデルである。また、図２においては、第１モデルは、センシングデータの例として画像のデータの入力を受けている。

２つのモデルのもうひとつは、第１モデルによる処理の過程における中間的なデータの入力を受け、このデータに対して推論による認識を実行してその認識の結果を出力する認識器として機能するニューラルネットワークの推論モデルである。図２では、上下を隔てる線より下に描かれた第２モデルがこのモデルにあたる。第２モデルが入力を受ける中間的なデータとは、エンコーダ１０に入力されたセンシングデータの特徴を示すデータであり、図２に示される例では潜在変数Ｚである。ＶＡＥである第１モデルの潜在変数Ｚは、エンコーダ１０に入力されたセンシングデータの事前分布に関する潜在分布である。この潜在分布は、エンコーダ１０が入力を受けたセンシングデータの特徴を圧縮して出力する多次元ガウス分布の平均（図２中のμ）及び分散（図２中のσ）をもとに、サンプリングによって求められる。

このようにして得られた潜在変数Ｚは、ＶＡＥにおいてデコーダ２０に入力される。デコーダ２０は、潜在変数Ｚの入力を受けると、ノイズが低減されたセンシングデータを模擬したデータ（図２の出力画像）を生成するよう訓練されている。この訓練については後述する。潜在変数Ｚは、本実施の形態における特徴データの例である。

本実施の形態に係る情報処理方法では、第２モデルにもこの特徴データが入力される。特徴データの入力を受けた第２モデルは、エンコーダ１０に入力されたセンシングデータに関する認識を実行する。図２の例で言えば、センシングデータは手書きの数字の画像データであり、第２モデルは、この画像データについての特徴データからこの手書きの数字が何であるかを認識し、その結果を出力する。第２モデルの機械学習を用いた訓練は、本実施の形態に係る情報処理方法に含まれるステップのひとつである。

第２モデルの訓練が進んで所望の認識性能が得られたところで、第１モデルのエンコーダ１０と第２モデルとを用いてのセンシングデータに対する認識のための情報処理方法の用意が整ったと言える。

なお、図２においては、エンコーダ１０、デコーダ２０及び認識器３０は、模式的に２層のネットワーク構成を持つものとしてそれぞれ図示されている。エンコーダ１０、デコーダ２０及び認識器３０のネットワーク構成は設計事項であって、図示に限定されない。

［２．手順］
図２に加えて図３から図５を参照して、本実施の形態に係る情報処理方法の手順について説明する。以下の説明では、認識処理の対象であるセンシングデータが画像データである場合を例に用いる。

［２．１全体の流れ］
図３は、本実施の形態に係る情報処理方法の手順例を示すフロー図である。コンピュータによって実行される当該情報処理方法の全体の流れは次のとおりである。

（ステップＳ１０）ＶＡＥである第１モデルを訓練する。このステップは、例えば第１モデルによるセンシングデータに対するノイズ低減の性能が所定のレベルに達するまで実行される。

（ステップＳ２０）エンコーダ１０及びデコーダ２０のパラメータが保存される。

（ステップＳ３０）エンコーダ１０のパラメータを読み込む。

（ステップＳ４０）エンコーダ１０を用いて、第２モデル、つまり認識器３０の訓練を実行する。このステップは、例えば第２モデルによるセンシングデータに対する認識性能が所定のレベルに達するまで実行される。

［２．２ＶＡＥの訓練］
ステップＳ１０のＶＡＥの訓練について、図２及び図４を参照してより詳しく説明する。図４は、ＶＡＥの訓練方法の手順例を示すフロー図である。

はじめに、画像を取得してエンコーダ１０に入力する（ステップＳ１１）。入力する画像には、ノイズのある画像及びノイズのない画像を含む。

次に、入力された画像についてエンコーダ１０が出力する平均及び分散をもとに、潜在変数Ｚを多次元ガウス分布からサンプリングして取得する（ステップＳ１２）。

次に、ステップＳ１２で取得した潜在変数Ｚをデコーダ２０に入力し、この入力に対するデコーダ２０の出力である画像（図２の出力画像を参照）を取得する（ステップＳ１３）。

最後に、ステップＳ１３で取得した出力画像のロス、つまりデコーダ２０からの出力画像とエンコーダ１０への入力画像との誤差を、誤差関数を用いて算出し、この誤差を用いてエンコーダ１０及びデコーダ２０のパラメータを更新する（ステップＳ１４）。この誤差関数としては、例えばＶＡＥに用いられる既知のものが利用可能である。なお、図２中のεは、ステップＳ１４においてＶＡＥの訓練に誤差逆伝播法を適用するために用いる手法で導入されるノイズを表す。

このようなＶＡＥの機械学習の訓練は、本実施の形態における第１訓練の例である。

［２．３認識器の訓練］
上述の方法で訓練されたＶＡＥのパラメータの保存（Ｓ２０）及びエンコーダ１０のパラメータの読込み（Ｓ３０）を経て、ステップＳ４０の認識器３０の訓練、つまり図２の例における第２モデルの訓練を実行する。認識器３０の訓練について、図２及び図５を参照してより詳しく説明する。図５は、認識器３０の訓練方法の手順例を示すフロー図である。

はじめに、画像を取得してエンコーダ１０に入力する（ステップＳ４１）。入力する画像には、ノイズのある画像及びノイズのない画像を含む。

次に、入力された画像についてエンコーダ１０が出力する平均及び分散をもとに、潜在変数Ｚを多次元ガウス分布からサンプリングして取得する（ステップＳ４２）。

次に、ステップＳ４２で取得した潜在変数Ｚを認識器３０に入力し、この入力に対する認識器３０の出力である認識結果（図２参照）を取得する（ステップＳ４３）。本実施の形態の説明に用いている例でいえば、認識器３０からは、エンコーダ１０に入力された画像に写る数字の推論による認識が実行された結果が出力される。認識器３０によるこの認識は、入力された画像の特徴を示す特徴データ（潜在変数Ｚ）から復元された入力画像、又は入力画像からノイズが除去された画像を用いることなく実行されている。

最後に、ステップＳ４３で取得した認識結果と正解との誤差を、誤差関数を用いて算出し、この誤差を用いた誤差逆伝播法によって認識器３０のパラメータを更新する（ステップＳ４４）。この誤差として用いられるものは、認識器の用途に応じて適宜選択され得る。本実施の形態の説明に用いている例でいえば、入力された画像に写る数字は０から９のいずれか、といったクラス分類を用途とする認識器の場合、クロスエントロピー誤差が用いられてもよい。

このような認識器の機械学習の訓練は、本実施の形態における第２訓練の例である。

［２．４訓練方法の小括］
このように、訓練された機械学習の推定モデルを得るための方法である本実施の形態に係る情報処理方法には、ノイズを含むセンシングデータの入力に対して、ノイズが低減されたセンシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練（第１訓練）が実行された第１モデルが用いられる。この訓練が実行された第１モデルは、ノイズを含むセンシングデータの入力に対して模擬センシングデータを出力するまでの過程で、このセンシングデータについての特徴データを生成する。

このような第１モデルからは、ノイズを含む第１センシングデータの入力に対して当該ノイズが低減された第１センシングデータを模擬した第１模擬センシングデータを出力するまでの過程で生成される、第１センシングデータについての特徴データ（第１特徴データ）が取得される。上記の説明では、ステップＳ４１でＶＡＥのエンコーダ１０に入力される画像は第１センシングデータの例であり、ＶＡＥのデコーダ２０が生成して出力するセンシングデータは第１模擬センシングデータの例である。また、上記の説明においてステップＳ４２で取得される潜在変数Ｚは、この第１特徴データの例である。

次に、第１特徴データを第２モデルに入力する。本実施の形態に係る情報処理方法において、第２モデルは、特徴データの入力に対して推論結果を出力させる機械学習の訓練（第２訓練）の対象である。第２モデルは、第１特徴データのこの入力に対して、第１推論結果のデータを出力する。上記の説明においてステップＳ４３で認識器から出力される認識結果は、この第１推論結果の例である。

そして、第２モデルから取得された第１推論結果のデータと、第１センシングデータに対する推論についてのリファレンスデータ（正解ラベル）とに基づいて、第２訓練を実行する。

このような訓練が行われた第２モデルが、上述の例のような画像認識のための認識器である場合、この認識器を用いた画像認識は、いったん復元された画像を用いることなく実行される。つまり、本実施の形態に係る情報処理方法によって、図１に示したように入力画像が含むノイズの量に左右されやすい画像復元の精度の影響を受けない認識器を得ることができる。

［３．認識器を用いた認識方法］
本実施の形態に係る情報処理方法の中で訓練された認識器を用いた認識方法は、上述の訓練済みの機械学習の推定モデルを得るための方法と同じく、プロセッサを備える１台以上のコンピュータによって実行される情報処理方法である。この認識方法の手順は、認識器３０の訓練方法の手順から、誤差を用いてのパラメータの更新のステップ（図５のＳ４４）を除いたものにほぼ相当する。図６は、訓練済みの認識器３０を用いた画像認識の手順例を示すフロー図である。ステップＳ５０はステップＳ４１に、ステップＳ６０はステップＳ４２に、ステップＳ７０はステップＳ４３に相当する。ただし、ステップＳ５０でエンコーダ１０に入力する画像には、ステップＳ４１のようにノイズを含まない画像を含める必要はない。ステップＳ５０でノイズを含む画像の入力を受けたエンコーダ１０の出力から、この画像についての特徴データである潜在変数Ｚが取得される（ステップＳ６０）。ステップＳ６０で取得した潜在変数Ｚを、次は訓練済みの認識器３０に入力すると、認識器３０から認識結果、ここまで用いている例に沿えば、ステップＳ５０でエンコーダ１０に入力された画像に写る数字の推論による認識が実行された結果が出力される（ステップＳ７０）。

この認識結果は、入力された画像の特徴を示す特徴データ（潜在変数Ｚ）から復元された画像を用いることなく取得されている。つまり、図１に示したように入力画像が含むノイズの量に左右されやすい画像復元の精度の影響を受けていない。したがって、このような認識器を用いた認識方法では、従来に比べて、例えばプライバシ保護の強化のために強度のノイズが付加された画像からも、より高い精度での画像認識が可能である。つまり、復元処理が難化しているデータからも、復元処理前のデータに対する推論の結果の実質的な悪化が抑制される。この認識方法を用いた認識の性能については、次に説明する変形例の後で実験結果を提示する。

［４．変形例等］
本開示の一又は複数の態様に係る情報処理方法は、上記実施の形態の説明に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が想到する各種の変形を上記実施の形態に施したものも本開示の態様に含まれ得る。下記にそのような変形の例、及び上記実施の形態の説明へのその他の補足事項を挙げる。

（１）上記実施の形態の説明で用いた例では、第１モデルは各々ニューラルネットワークのモデルであるエンコーダ及びデコーダを含むＶＡＥとしたが、これに限定されない。より細かな例を挙げると、第１モデルは全結合型のＶＡＥであってもよいし、その他にＣＶＡＥ（Conditional VAEの略）、ＣｏｎｖＶＡＥ（Convolutional VAEの略）又はＣｏｎｖＣＶＡＥ（Convolutional Conditional VAEの略であり、前二者の複合）といったネットワーク構成のＶＡＥが第１モデルに用いられてもよい。また上述のとおり、各ニューラルネットワークの層数についても設計事項として選択可能である。

図７は、第１モデルがＣＶＡＥである変形例に係る情報処理方法の概要を示す図である。図２に示す概要とは、エンコーダ１０Ａの最終層及びデコーダ２０Ａの最初の層に、条件を示すラベルが入力される点が異なる。エンコーダ１０Ａにラベルが入力されることで、ラベルが示す条件以外の情報が潜在変数Ｚに抽出される。デコーダ２０Ａには、条件を示すラベルを入力することで、この条件に応じた画像を潜在変数Ｚから生成させることができる。例えば入力画像がノイズを含むことを示すラベルが入力されたデコーダ２０Ａは、潜在変数Ｚからノイズを含む画像を生成する。

また、第１モデルはＶＡＥではなく、ＡＥ（Autoencoder）であってもよい。この場合、認識器に入力される特徴データとしては、エンコーダから選択されるいずれかの層の出力が用いられる。層の選択には、例えば各層の出力が、エンコーダに入力されるデータのどのような特徴であるかを可視化する処理を行って、エンコーダに入力されるデータの平均及び分散を示すデータを出力する層が選択されてもよい。あるいは、試行的にいくつかの層からの出力を特徴データとして認識器に入力して認識を実行させ、より好適な評価の認識性能が得られた層が選択されてもよい。また例えば、各層での入力データからの次元の圧縮の程度、又は計算量等が選択に考慮されてもよい。

なお、どのようなネットワーク構成の第１モデルを用いるかは、例えばエンコーダの用途（入力されるセンシングデータの種類）に応じて選択されてもよい。上記実施の形態は、センシングデータの例として画像データを用いたが、その他の各種のセンシングデータ、例えば音声データ、加速度データ、角速度データ、距離データ、温度データが、ＶＡＥ又はＡＥのエンコーダに入力されて抽出される特徴から推論モデルによる何らかの推論が実行される対象となり得る。

（２）上記実施の形態の説明で用いた例では、画像が含むノイズはごま塩ノイズであるが、これに限定されない。例えばガウシアンブラー等の他の種類のノイズであってもよい。また、上記に例示した他の種類のセンシングデータであれば、その種類に応じたノイズが含まれ得る。

（３）上記実施の形態で説明しているのは、ノイズを付加して劣化させた画像に対してより高い画像認識性能を有する認識モデルを得るための情報処理方法であるが、当該情報処理方法は、その他の原因による低画質な画像での画像認識性能の向上にも適用可能である。例えば、圧縮処理によって劣化した画像、性能の低いカメラで撮影された画像、好適でない通信環境での通信によって取得された画像又は経年劣化したメディアに記録されている画像であってもよい。さらに本開示に係る情報処理方法が適用されるのは画像データの認識に限らず、クオリティの低い各種のセンシングデータからでもより高い認識性能を有する認識モデルを得る方法としても利用可能である。所望の性能の第２モデルを得るための訓練に要する量のデータ及び正解情報が用意できれば、本開示に係る情報処理方法を利用して、より高い認識性能を有する認識モデルを得ることができる。

（４）上記実施の形態では、第１訓練、第２訓練の順に行う情報処理方法のみについて説明したが、これに限定されない。第１モデルの性能の向上に伴い、第２モデルの性能も向上する可能性があることに鑑みて、第２訓練の後に、さらに第１訓練及び第２訓練を含む再訓練を実行してもよい。再訓練では、第１訓練をさらに実行した第１モデルから特徴データ（第２特徴データ）を取得する。次に、第２特徴データを、認識器である第２モデルに入力して、第２モデルから第２特徴データに対する推論結果データである第２推論結果データを出力させる。そして、第２推論結果データ及びリファレンスデータに基づいて第２訓練をさらに実行する。

ただし、復元の精度がより高い第１モデル由来の特徴データを用いて訓練することで、より高性能の認識器が得られるとは限らない。したがって、例えば図３に示す手順の進行において、ステップＳ１０で所定量の訓練の実行後に試行的に以降の手順に移って、第２モデルによる認識結果（認識性能）の評価を取得し、この評価が所定の基準に照らして再訓練をさらに繰り返すか否か決定されてもよい。例えば評価としての認識の正解率が所定の高さに達する、又は訓練量の増加に対する正解率の向上率が所定の大きさを下回るといった基準を満たすまで、図３に示す一連の手順からなるサイクルが繰り返されてもよい。認識性能の評価としては、正解率以外に、精度、検出率、及びＦ値も用い得る。

（５）上述の各情報処理システムが備える機能的な構成要素の一部又は全部は、１個のシステムＬＳＩ（Large Scale Integration：大規模集積回路）で構成されてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（Read-Only Memory）、ＲＡＭ（Random Access Memory）などを含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサがこのコンピュータプログラムに従って動作することにより、システムＬＳＩは各構成要素の機能を達成する。

なお、ここでは、システムＬＳＩとしたが、集積度の違いにより、ＩＣ、ＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。

（６）本開示の一態様は、フロー図を用いて上述した情報処理方法に限定されず、コンピュータによって実行されるプログラム、及びコンピュータを含む情報処理システムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。

［５．実施例］
本発明者は、ここまでに説明した情報処理方法を用いて得た認識器による認識性能を確認するための実験を行った。図８は、この実験の結果を示す表である。

この実験では、ＭＮＩＳＴの手書き数字の画像データにノイズを付加したものと付加していないものとを合わせて用いて機械学習の訓練を行った。付加したノイズはごま塩ノイズ及びガウシアンブラーの２種類で、それぞれでノイズの強度が異なるものを用意した。このような画像データを訓練では６万枚用い、認識及びその評価は１万枚を対象に行った。

第１モデルにはＣＶＡＥを採用し、訓練時には入力画像のノイズの有無を示すラベルを用いた。認識器としては、従来のモデル、つまりデコーダが出力した復元画像から数字を認識する認識器と、本開示に係る情報処理方法を用いて訓練されたモデル、つまりＣＶＡＥの潜在変数の入力を受けて数字を認識する第２モデルに相当する認識器との２種類を用意した。表中の「ノイズラベルの表示」の欄は、認識時にエンコーダに入力したラベルの表示を示す。つまり、ラベルの表示が「ノイズ無」の場合は、入力画像の実際の状態と一致しない。

また、参考のために、ノイズを含む画像、つまり上記のＣＶＡＥではエンコーダに入力した画像から直接に認識を実行する認識器として、３層の全結合層からなり、１０クラス分類を行う認識モデルも用意した。

図８の表が示すのは、上記の各認識器による条件ごとの正解率である。この結果からは、下記の点が把握される。

（i）ノイズの種類及び認識器の種類のいずれにかかわらず、ノイズの強度が上がるほど正解率は下がる傾向を示した。

（ii）潜在変数からの認識、つまり本開示に係る情報処理方法を用いて訓練されたモデルによる認識（データ行の３行目及び５行目）は、ノイズ画像からの認識（データ行の１行目）、生成画像からの認識（データ行の２行目及び４行目）のいずれよりも正解率が高かった。

（iii）特にごま塩ノイズの方では、本開示に係る情報処理方法を用いて訓練されたモデルでは、他のモデルに比べて、ノイズの強度を上げても認識性能の低下が小さかった。

（iv）潜在変数からの認識、生成画像からの認識のいずれの場合も、ラベルの表示はノイズ無とした方が、ノイズ有とするよりも正解率が高かった。

上記の（ii）からは、本開示に係る情報処理方法を用いて得られる認識器の性能が従来の手法によって得られる認識器よりも性能が高いことが確認される。

また、上記の（iv）は、「ノイズ無」のラベルを入力することで、ノイズを含む画像を入力する場合でも、ノイズが無い状態に相当する画像特徴が抽出されやすくなることによる結果と考えられる。

本開示に係る情報処理方法は、センシングデータに対する認識処理に利用可能である。

１０，１０Ａエンコーダ
２０，２０Ａデコーダ
３０認識器（第２モデル）

Claims

コンピュータにより実行される方法であって、
ノイズを含む第１センシングデータを取得し、
ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第１訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第１モデルに前記第１センシングデータを入力し、前記第１センシングデータの入力に対してノイズが低減された前記第１センシングデータを模擬した前記模擬センシングデータである第１模擬センシングデータが出力されるまでの過程で生成された、前記第１センシングデータについての前記特徴データである第１特徴データを取得し、
前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第２訓練が実行される第２モデルに前記第１特徴データを入力し、前記第１特徴データの入力に対して前記第２モデルが出力する前記推論結果データである第１推論結果データを取得し、
前記第１センシングデータに対する推論についてのリファレンスデータ及び前記第１推論結果データに基づいて、前記第２訓練を実行し、
前記第１モデルは、ニューラルネットワークであり、
前記ニューラルネットワークは、複数の層を有するエンコーダとデコーダとを備え、
前記エンコーダは、前記センシングデータの入力に対して、当該センシングデータについての前記特徴データを出力し、
前記デコーダは、前記エンコーダが出力した前記特徴データの入力に対して、前記模擬センシングデータを生成して、前記模擬センシングデータを出力し、
前記エンコーダは、入力されたセンシングデータの平均及び分散を出力する層を有し、
前記特徴データは、前記平均及び前記分散に基づいて算出される潜在変数である
情報処理方法。
前記特徴データは、前記第１センシングデータについての平均データ及び分散データである
請求項１に記載の情報処理方法。
前記特徴データは、前記第１センシングデータの事前分布に関する潜在変数である
請求項１又は２に記載の情報処理方法。
前記第１センシングデータ及び前記第１模擬センシングデータを取得し、
前記第１センシングデータ、前記第１模擬センシングデータ、及び前記第１特徴データに基づいて、前記第１訓練を行う
請求項１～３のいずれか１項に記載の情報処理方法。
前記第２訓練の後に、再訓練を実行し、
前記再訓練は、前記第１訓練をさらに実行し、さらに訓練された前記第１モデルが生成した前記特徴データである第２特徴データを取得し、前記第２特徴データの入力に対して前記第２モデルが出力する前記推論結果データである第２推論結果データを取得し、前記第２推論結果データに基づいて前記第２訓練をさらに実行することを含む
請求項４に記載の情報処理方法。
前記推論結果データが示す前記第２モデルによる推論結果に対する評価を取得し、
前記評価が所定の基準を満たすまで、前記再訓練を繰り返す
請求項５に記載の情報処理方法。
前記センシングデータは、画像データである
請求項１～６のいずれか１項に記載の情報処理方法。
情報処理装置であって、
プロセッサと、
プログラムを記憶したメモリとを備え、
前記プログラムは、前記プロセッサに、
ノイズを含む第１センシングデータを取得する処理、
ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第１訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第１モデルに前記第１センシングデータを入力し、前記第１センシングデータの入力に対してノイズが低減された前記第１センシングデータを模擬した前記模擬センシングデータである第１模擬センシングデータが出力されるまでの過程で生成された、前記第１センシングデータについての前記特徴データである第１特徴データを取得する処理、及び、
前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第２訓練が実行される第２モデルに前記第１特徴データを入力し、前記第１特徴データの入力に対して前記第２モデルが出力する前記推論結果データである第１推論結果データを取得する処理を実行させ、
前記第１モデルは、ニューラルネットワークであり、
前記ニューラルネットワークは、複数の層を有するエンコーダとデコーダとを備え、
前記エンコーダは、前記センシングデータの入力に対して、当該センシングデータについての前記特徴データを出力し、
前記デコーダは、前記エンコーダが出力した前記特徴データの入力に対して、前記模擬センシングデータを生成して、前記模擬センシングデータを出力し、
前記エンコーダは、入力されたセンシングデータの平均及び分散を出力する層を有し、
前記特徴データは、前記平均及び前記分散に基づいて算出される潜在変数である
情報処理装置。
コンピュータにおいて、前記コンピュータが備えるプロセッサによって実行されることで前記プロセッサに、
ノイズを含む第１センシングデータを取得する処理、
ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第１訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第１モデルへ前記第１センシングデータを入力させて、前記第１センシングデータの入力に対してノイズが低減された前記第１センシングデータを模擬した前記模擬センシングデータである第１模擬センシングデータが出力されるまでの過程で生成された、前記第１センシングデータについての前記特徴データである第１特徴データを取得する処理、及び、
前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第１訓練が実行される第２モデルに前記第１特徴データを入力し、前記第１特徴データの入力に対して前記第２モデルが出力する前記推論結果データである第１推論結果データを取得する処理を実行させ、
前記第１モデルは、ニューラルネットワークであり、
前記ニューラルネットワークは、複数の層を有するエンコーダとデコーダとを備え、
前記エンコーダは、前記センシングデータの入力に対して、当該センシングデータについての前記特徴データを出力し、
前記デコーダは、前記エンコーダが出力した前記特徴データの入力に対して、前記模擬センシングデータを生成して、前記模擬センシングデータを出力し、
前記エンコーダは、入力されたセンシングデータの平均及び分散を出力する層を有し、
前記特徴データは、前記平均及び前記分散に基づいて算出される潜在変数である
プログラム。
前記デコーダが生成する前記模擬センシングデータの条件を示すラベルが前記エンコーダの最終層及び前記デコーダの最初の層に入力される、
請求項１～７のいずれか１項に記載の情報処理方法。