JP7014129B2

JP7014129B2 - 推定器生成装置、モニタリング装置、推定器生成方法及び推定器生成プログラム

Info

Publication number: JP7014129B2
Application number: JP2018203331A
Authority: JP
Inventors: 敦史橋本; 祥孝牛久; 康代小竹
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2022-02-01
Anticipated expiration: 2038-10-29
Also published as: US11834052B2; JP2020071550A; EP3876191A4; EP3876191A1; CN112673378B; US20210269046A1; WO2020090134A1; EP3876191B1; CN112673378A

Description

本発明は、推定器生成装置、モニタリング装置、推定器生成方法及び推定器生成プログラムに関する。

近年、居眠り、体調の急変等に起因する自動車の交通事故を防止するため、運転者の状態を監視する技術の開発が進んでいる。また、自動車の自動運転の実現に向けた動きが加速している。自動運転は、システムにより自動車の操舵を制御するものであるが、システムに代わって運転者が運転しなければならない場面もあり得ることから、自動運転中であっても、運転者が運転操作を行える状態にあるか否かを監視する必要性があるとされている。この自動運転中に運転者の状態を監視する必要性があることは、国連欧州経済委員会（ＵＮ－ＥＣＥ）の政府間会合（ＷＰ２９）においても確認されている。この点からも、運転者の状態を監視する技術の開発が進められている。

運転者の状態を推定する技術として、例えば、特許文献１では、乗員の顔の写る顔画像データをカメラにより取得し、取得した顔画像データを解析することで、乗員の状態（例えば、眠気等）を推定する装置が提案されている。具体的には、特許文献１で提案されている装置は、ニューラルネットワーク等により構成された学習済みモデルを利用し、顔画像データから抽出された顔の特徴点に基づいて乗員の状態を推定する。これにより、この装置は、顔画像データから乗員の状態を推定することができる。

特開２００７－２５７０４３号公報

本件発明者らは、特許文献１等のような従来の方法では、次のような問題点があることを見出した。すなわち、機械学習を利用すれば、顔画像データから対象者の状態を推定する推定器を構築することができる。しかしながら、特許文献１のように、抽出する顔の特徴点を人間がデザインした場合には、その特徴点から導出される特徴量に対象者の状態が常に表れるとは限らない。そこで、このような問題点を解決するために、顔画像データから直接的に対象者の状態を推定するようにニューラルネットワーク等の学習モデルを訓練することが考えられる。この方法によれば、学習モデルは、学習の過程で、顔画像から導出する特徴量を自動的にデザインする。そのため、訓練された学習モデルは、顔画像データから対象者の状態を適切に推定することができる。しかしながら、訓練データ（入力データ）から正解データを導出するモデルの局所的な最適解は複数存在し、ニューラルネットワーク等の学習モデルのパラメータは、機械学習の過程において、いずれかの局所解に向かうことが知られている。そのため、機械学習の過程によっては、学習モデルのパラメータは、顔画像データから対象者の状態を推定する精度の比較的に低い局所解に向かう可能性がある。

したがって、従来の方法では、顔画像データから対象者の状態を高精度に推定可能な推定器（学習済みの学習モデル）を構築することができない可能性があるという問題点があることを本件発明者らは見出した。なお、この課題は、上記のような運転者の状態を推定する場面だけではなく、生産ラインにおける作業者の状態を推定する場面等、対象者の活動を観測することで得られた観測データから当該対象者の状態を推定するあらゆる場面で生じ得る。

本発明は、一側面では、このような実情を鑑みてなされたものであり、その目的は、対象者の状態をより高精度に推定可能な推定器を生成するための技術を提供することである。

本発明は、上述した課題を解決するために、以下の構成を採用する。

すなわち、本発明の一側面に係る推定器生成装置は、学習データ取得部及び学習処理部を備える。学習データ取得部は、車両を運転する被験者の顔の写る第１顔画像データ、及び前記車両の運転時における前記被験者の状態を示す第１状態情報データの組み合わせによりそれぞれ構成される複数件の第１学習データセットを取得し、かつ前記被験者の顔の写る第２顔画像データ、及び前記被験者の生理学的パラメータをセンサで測定することにより得られた第１生理学的データの組み合わせによりそれぞれ構成される複数件の第２学習データセットを取得する、ように構成される。学習処理部は、エンコーダ及び推定部により構成される第１推定器であって、前記エンコーダの出力が前記推定部に入力されるように前記エンコーダ及び前記推定部が互いに接続された第１推定器の機械学習を実施することで、前記各件の第１学習データセットを構成する前記第１顔画像データを前記エンコーダに入力すると、入力した前記第１顔画像データに関連付けられた前記第１状態情報データにより示される前記被験者の状態に対応する出力値を前記推定部から出力するように訓練された第１推定器を構築すると共に、前記第１推定器の前記エンコーダ及びデコーダにより構成される第２推定器であって、前記エンコーダの出力が前記デコーダに入力されるように前記エンコーダ及び前記デコーダが互いに接続された第２推定器の機械学習を実施することで、前記各件の第２学習データセットを構成する前記第２顔画像データを前記エンコーダに入力すると、入力した前記第２顔画像データに関連付けられた前記第１生理学的データを再現した出力データを前記デコーダから出力するように訓練された第２推定器を構築する、ように構成される。

当該構成によれば、第１推定器及び第２推定器は、共通のエンコーダを有するように構成される。そして、第１推定器は、複数件の第１学習データセットを利用した機械学習により、第１顔画像データから第１状態情報データを導出するように訓練される。一方で、第２推定器は、複数件の第２学習データセットを利用した機械学習により、第２顔画像データから第１生理学的データを導出するように訓練される。そのため、両方の機械学習により、共通のエンコーダの出力（特徴量）は、第１状態情報データ及び第１生理学的データを導出可能にデザインされる。

ここで、生理学的データは、状態情報データに比べて、人間の状態に関する高次な情報を含み得る。したがって、第１状態情報データだけではなく、より高次な情報を含み得る第１生理学的データを導出可能に共通のエンコーダを訓練することで、共通のエンコーダのパラメータが、第１状態情報データを導出する（すなわち、対象者の状態を推定する）精度のよりよい局所解に向かうようにすることができる。よって、当該構成によれば、対象者の状態をより高精度に推定可能な推定器（第１推定器）を生成することができる。

なお、第１顔画像データと第２顔画像データとは共通であってもよいし、互いに異なっていてもよい。状態情報データは、対象者の何らかの状態を示し得るものであれば、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。生理学的データは、状態情報データにより示される対象者の状態に関係し得る生理学的パラメータを１又は複数のセンサで測定することで得られる。生理学的データは、１又は複数のセンサから得られたローデータであってもよいし、何らかの情報処理が適用された加工済みデータであってもよい。生理学的データは、状態情報データよりも人間の状態に関する高次な情報を含むように選択されるのが好ましい。生理学的パラメータは、例えば、脳活動（脳波、脳血流等）、眼球運動（瞳孔径、視線方向等）、筋電位、心電位、血圧、脈拍、心拍、体温、皮膚電気反応（galvanic skin reflex：GSR）又はこれらの組み合わせであってよい。センサは、例えば、脳波計、脳磁計、核磁気共鳴画像装置、カメラ、眼電位センサ、眼球運動計測器、筋電計、心電計、血圧計、脈拍計、心拍計、体温計、皮膚電気反応計又はこれらの組み合わせであってよい。カメラは、ＲＧＢ画像等の一般的なカメラの他、深度画像を取得可能に構成された深度カメラ（距離カメラ、ステレオカメラ等）、サーモグラフィ画像を取得可能に構成されたサーモカメラ（赤外線カメラ等）等を含んでよい。眼球運動計測器は、瞳孔径の変化、視線方向等の眼球運動を計測するように構成される。眼球運動計測器による計測対象の眼球運動は、随意運動であってもよいし、不随意運動であってもよい。この眼球運動計測器は、例えば、瞳孔径計測装置、視線計測装置等であってよい。瞳孔径計測装置は、対象者の瞳孔径（の時間変化）を計測するように構成される。視線計測装置は、対象者の視線方向（の時間変化）を計測するように構成される。各学習データセットは、学習サンプルと称されてもよい。各顔画像データは、訓練データ又は入力データと称されてもよい。第１状態情報データ及び第１生理学的データはそれぞれ、正解データ又は教師データと称されてもよい。各推定器は、機械学習可能な学習モデルにより構成される。各推定器は、学習器と称されてもよい。

上記一側面に係る推定器生成装置において、前記各件の第１学習データセットを構成する前記第１顔画像データ及び前記第１状態情報データは実環境で収集されてよく、前記各件の第２学習データセットを構成する前記第２顔画像データ及び前記第１生理学的データは仮想環境で収集されてよい。

実環境は、訓練された推定器（第１推定器）を実際に運用する環境又はそれと同等の環境である。実環境は、例えば、車両内の空間、車両を模した構造物内の空間である。一方、仮想環境は、例えば、実験室等の、実環境ではない環境である。仮想環境では、実環境よりも、より高性能なセンサを用いて、人間の状態を示すより高次な情報を収集することが可能である。しかしながら、実環境では、そのような高性能なセンサを運用するのが困難であったり、運用できたとしても、コストがかかり過ぎてしまったり等の問題が生じ得る。

例えば、対象者の眠気の度合いを示す眠気度を対象者の状態として推定するために、生理学的データとして脳血流量の測定データを取得することを想定する。このような場合、生理学的データを収集するためのセンサとして、機能的核磁気共鳴画像法（Functional Magnetic Resonance Imaging, fMRI）により脳活動に関連した血流を撮影するよう構成された磁気共鳴画像装置が用いられる。この磁気共鳴画像装置によれば、対象者の状態（眠気度）をより高精度に推定可能な生理学的データを取得することが可能である。しかしながら、この磁気共鳴画像装置は、非常に大掛りである。そのため、実環境（例えば、車内）で、この磁気共鳴画像装置を運用することは困難である。

そこで、当該構成では、第１推定器の機械学習に利用する各第１学習データセットを実環境で収集するのに対して、第２推定器の機械学習に利用する各第２学習データセットを仮想環境で収集する。これにより、被験者の状態を示すより高次な情報を含み得る第１生理学的データが収集されるようにし、この第１生理学的データを利用した機械学習により、共通のエンコーダのパラメータが、実環境で容易に取得可能な顔画像データから対象者の状態を導出する精度のよりよい局所解に向かうようにすることができる。よって、当該構成によれば、実環境で容易に取得可能なデータから対象者の状態をより高精度に推定可能な推定器を生成することができ、これによって、実環境で推定器を運用するのにかかるコストを低減することができる。

上記一側面に係る推定器生成装置において、前記生理学的パラメータは、脳活動、筋電位、心電位、眼球運動（特に、瞳孔径）又はこれらの組み合わせで構成されてよい。当該構成によれば、被験者の状態を示すより高次な情報を含む第１生理学的データを取得することができ、これによって、共通のエンコーダのパラメータが、第１状態情報データを導出する精度のよりよい局所解に向かうようにすることができる。したがって、当該構成によれば、対象者の状態をより高精度に推定可能な推定器を生成することができる。なお、これらの生理学的データの測定には、例えば、脳波計（Electroencephalograph：EEG）、脳磁計（Magnetoencephalography：MEG）、機能的核磁気共鳴画像法により脳活動に関連した血流を撮影するように構成された核磁気共鳴画像装置、筋電計、心電計、眼電位センサ、眼球運動計測器（特に、瞳孔径計測装置）等が用いられてよい。

上記一側面に係る推定器生成装置において、前記第１状態情報データは、前記被験者の状態として、前記被験者の眠気の度合いを示す眠気度、前記被験者の疲労の度合いを示す疲労度、前記被験者の運転に対する余裕の度合いを示す余裕度、又はこれらの組み合わせを含んでもよい。当該構成によれば、眠気度、疲労度、余裕度、又はこれらの組み合わせをより高精度に推定可能な推定器を生成することができる。

上記一側面に係る推定器生成装置において、前記学習データ取得部は、前記被験者の顔の写る第３顔画像データ、及び前記第１生理学的データとは異なる前記被験者の第２生理学的データの組み合わせによりそれぞれ構成される複数件の第３学習データセットを更に取得するように構成されてよく、前記学習処理部は、前記第１推定器及び前記第２推定器の機械学習と共に、前記第１推定器の前記エンコーダ及び前記第２推定器の前記デコーダとは異なる他のデコーダにより構成される第３推定器であって、前記エンコーダの出力が前記他のデコーダに入力されるように前記エンコーダ及び前記他のデコーダが互いに接続された第３推定器の機械学習を実施することで、前記各件の第３学習データセットを構成する前記第３顔画像データを前記エンコーダに入力すると、入力した前記第３顔画像データに関連付けられた前記第２生理学的データを再現した出力データを前記他のデコーダから出力するように訓練された第３推定器を更に構築するように構成されてよい。当該構成によれば、第３推定器の機械学習の過程で、共通のエンコーダの出力が、第２生理学的データを更に導出可能にデザインされる。これにより、対象者の状態を更に高精度に推定可能な推定器を生成することができる。なお、第３推定器の機械学習に利用される第２生理学的データは、第１生理学的データと同じ生理学的パラメータを測定することで得られたものであってもよい。また、複数の第３推定器が設けられてもよい。

上記一側面に係る推定器生成装置において、前記学習データ取得部は、前記被験者の第３生理学的データ、及び前記被験者の状態を示す第２状態情報データの組み合わせによりそれぞれ構成される複数件の第４学習データセットを更に取得するように構成されてよい。そして、前記学習処理部は、前記第１推定器及び前記第２推定器の機械学習と共に、前記第１推定器の前記エンコーダとは異なる他のエンコーダ及び前記第１推定器の前記推定部により構成される第４推定器であって、前記他のエンコーダの出力が前記推定部に入力されるように前記他のエンコーダ及び前記推定部が互いに接続された第４推定器の機械学習を実施することで、前記各件の第４学習データセットを構成する前記第３生理学的データを前記他のエンコーダに入力すると、入力した前記第３生理学的データに関連付けられた前記第２状態情報データにより示される前記被験者の状態に対応する出力値を前記推定部から出力するように訓練された第４推定器を構築し、かつ前記機械学習の過程において、前記第１推定器及び前記第４推定器を、前記第１状態情報データと前記第２状態情報データとが一致する場合に、前記第１状態情報データに関連付けられた前記第１顔画像データを前記エンコーダに入力することで前記エンコーダから得られる出力値と、前記第２状態情報データに関連付けられた前記第３生理学的データを前記他のエンコーダに入力することで前記他のエンコーダから得られる出力値との誤差が閾値よりも小さくなるように訓練する、ように構成されてよい。

当該構成では、第４推定器は、生理学的データから対象者の状態を導出するように訓練される。顔画像データからよりも、生理学的データからの方が対象者の状態をより高精度に推定可能であると期待することができる。そのため、この第４推定器は、顔画像データから対象者の状態を推定する推定器と比べて、対象者の状態をより高精度に推定可能であると期待することができる。そこで、当該構成では、この第４推定器における他のエンコーダの出力を、対象者の状態をより高精度に推定するための第１推定器におけるエンコーダの出力の見本として利用する。つまり、機械学習の過程において、第１推定器及び第４推定器を、エンコーダの出力と他のエンコーダの出力との誤差が閾値よりも小さくなるように訓練する。これにより、第１推定器におけるエンコーダのパラメータが、対象者の状態を推定する精度のよりよい局所解に向かうようにすることができる。よって、当該構成によれば、対象者の状態をより高精度に推定可能な推定器を生成することができる。

また、本発明の一側面に係るモニタリング装置は、車両を運転する対象者の顔の写る顔画像データを取得するデータ取得部と、上記いずれかの形態に係る推定器生成装置により構築された前記第１推定器の前記エンコーダに対して取得した前記顔画像データを入力することで、前記対象者の状態を推定した結果に対応する出力を前記第１推定器の前記推定部から取得する推定処理部と、前記対象者の状態を推定した結果に関連する情報を出力する出力部と、を備える。当該構成によれば、対象者の状態を高精度に推定することができる。

また、上記各形態に係る推定器生成装置及びモニタリング装置は、車両の運転者の状態を推定する場面だけではなく、例えば、生産ラインの作業者の状態を推定する場面等、運転者以外の対象者の状態を推定するあらゆる場面に適用されてよい。更に、上記各形態に係る推定器生成装置及びモニタリング装置は、対象者の顔の写る顔画像データから当該対象者の状態を推定する場面だけではなく、対象者の活動を観測することで得られた観測データから対象者の状態を推定するあらゆる場面に適用されてよい。例えば、上記各形態に係る推定器生成装置及びモニタリング装置は、対象者の写る画像データから当該対象者の状態を推定する場面、画像データ以外の他種のデータから対象者の状態を推定する場面等に適用されてよい。

例えば、本発明の一側面に係る推定器生成装置は、学習データ取得部であって、所定の作業を実行する被験者の写る第１画像データ、及び前記所定の作業を実行している時における前記被験者の状態を示す状態情報データの組み合わせによりそれぞれ構成される複数件の第１学習データセットを取得し、かつ前記被験者の写る第２画像データ、及び前記被験者の生理学的パラメータをセンサで測定することにより得られた生理学的データの組み合わせによりそれぞれ構成される複数件の第２学習データセットを取得する、ように構成される学習データ取得部と、学習処理部であって、エンコーダ及び推定部により構成される第１推定器であって、前記エンコーダの出力が前記推定部に入力されるように前記エンコーダ及び前記推定部が互いに接続された第１推定器の機械学習を実施することで、前記各件の第１学習データセットを構成する前記第１画像データを前記エンコーダに入力すると、入力した前記第１画像データに関連付けられた前記状態情報データにより示される前記被験者の状態に対応する出力値を前記推定部から出力するように訓練された第１推定器を構築すると共に、前記第１推定器の前記エンコーダ及びデコーダにより構成される第２推定器であって、前記エンコーダの出力が前記デコーダに入力されるように前記エンコーダ及び前記デコーダが互いに接続された第２推定器の機械学習を実施することで、前記各件の第２学習データセットを構成する前記第２画像データを前記エンコーダに入力すると、入力した前記第２画像データに関連付けられた前記生理学的データを再現した出力データを前記デコーダから出力するように訓練された第２推定器を構築する、ように構成される学習処理部と、を備える。なお、所定の作業は、例えば、車両の運転、生産ラインにおける作業等であってよい。

例えば、本発明の一側面に係る推定器生成装置は、学習データ取得部であって、所定の作業を実行する被験者の活動を第１センサで測定することにより得られた第１観測データ、及び前記所定の作業を実行している時における前記被験者の状態を示す状態情報データの組み合わせによりそれぞれ構成される複数件の第１学習データセットを取得し、かつ前記被験者の活動を前記第１センサで測定することにより得られた第２観測データ、及び前記第１センサとは異なる種類の第２センサで前記被験者の生理学的パラメータを測定することにより得られた生理学的データの組み合わせによりそれぞれ構成される複数件の第２学習データセットを取得する、ように構成される学習データ取得部と、学習処理部であって、エンコーダ及び推定部により構成される第１推定器であって、前記エンコーダの出力が前記推定部に入力されるように前記エンコーダ及び前記推定部が互いに接続された第１推定器の機械学習を実施することで、前記各件の第１学習データセットを構成する前記第１観測データを前記エンコーダに入力すると、入力した前記第１観測データに関連付けられた前記状態情報データにより示される前記被験者の状態に対応する出力値を前記推定部から出力するように訓練された第１推定器を構築すると共に、前記第１推定器の前記エンコーダ及びデコーダにより構成される第２推定器であって、前記エンコーダの出力が前記デコーダに入力されるように前記エンコーダ及び前記デコーダが互いに接続された第２推定器の機械学習を実施することで、前記各件の第２学習データセットを構成する前記第２観測データを前記エンコーダに入力すると、入力した前記第２観測データに関連付けられた前記生理学的データを再現した出力データを前記デコーダから出力するように訓練された第２推定器を構築する、ように構成される学習処理部と、を備える。

第１センサ及び第２センサは、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。第２センサは、第１センサよりも高機能であり、第１センサよりも人間の状態に関する高次な情報を取得可能に構成されるのが好ましい。一方、第１センサは、第２センサよりも安価であるのが好ましい。なお、２種類のデータのうちより高次な情報を含むデータを判別する方法には、例えば、次のような方法を採用することができる。すなわち、２種類のデータ及び被験者の状態の組み合わせで構成された学習サンプルを用意する。機械学習により、学習サンプルを用いて、一方のデータから被験者の状態を導出するよう訓練された第１学習モデル、及び他方のデータから被験者の状態を導出するように訓練された第２学習モデルを構築する。次に、２種類のデータ及び対象者の状態（正解）の組み合わせで構成された評価サンプルを用意する。学習済みの第１学習モデルを利用して、評価サンプルの一方のデータから対象者の状態を推定する。同様に、学習済みの第２学習モデルを利用して、評価サンプルの他方のデータから対象者の状態を推定する。そして、各学習モデルによる推定の精度を評価する。この評価の結果、第１学習モデルの方が第２学習モデルよりも導出精度が高い場合には、一方のデータの方が他方のデータよりも高次な情報を含んでいると判定することができる。これに対して、第２学習モデルの方が第１学習モデルよりも導出精度が高い場合には、他方のデータの方が一方のデータよりも高次な情報を含んでいると判定することができる。

上記一側面に係る推定器生成装置において、前記各件の第１学習データセットを構成する前記第１観測データ及び前記状態情報データは実環境で収集されてよく、前記各件の第２学習データセットを構成する前記第２観測データ及び前記生理学的データは仮想環境で収集されてよい。当該構成によれば、実環境で容易に取得可能なデータから対象者の状態をより高精度に推定可能な推定器を生成することができ、これによって、実環境で推定器を運用するのにかかるコストを低減することができる。

上記一側面に係る推定器生成装置において、前記第１センサは、カメラ、眼電位センサ、視線計測装置、マイクロフォン、血圧計、脈拍計、心拍計、体温計、皮膚電気反応計、荷重センサ、操作デバイス又はこれらの組み合わせにより構成されてよく、前記第２センサは、脳波計、脳磁計、核磁気共鳴画像装置、筋電計、心電計、瞳孔径計測装置又はこれらの組み合わせにより構成されてよい。当該構成によれば、実環境で容易に取得可能なデータから対象者の状態をより高精度に推定可能な推定器を生成することができ、これによって、実環境で推定器を運用するのにかかるコストを低減することができる。なお、荷重センサは、一点の荷重を計測するように構成されていてもよいし、荷重分布を計測するように構成されていてもよい。操作デバイスは、状態を推定する対象となる対象者が操作可能なデバイスであれば特に限定されなくてもよく、その種類は、実施の形態に応じて適宜選択されてよい。対象者が車両の運転を行うケースでは、操作デバイスは、例えば、ハンドル、ブレーキ、アクセル等であってよい。第１センサにより得られる観測データは、例えば、画像データ、眼電位データ、視線の計測データ、音声データ、血圧データ、脈拍数データ、心拍数データ、体温データ、皮膚電気反射データ、荷重の計測データ、操作ログ又はこれらの組み合わせにより構成される。操作ログは、操作デバイスの操作履歴を示す。

上記各形態に係る推定器生成装置及びモニタリング装置それぞれの別の態様として、本発明の一側面は、以上の各構成を実現する情報処理方法であってもよいし、プログラムであってもよいし、このようなプログラムを記憶した、コンピュータ等が読み取り可能な記憶媒体であってもよい。ここで、コンピュータ等が読み取り可能な記憶媒体とは、プログラム等の情報を、電気的、磁気的、光学的、機械的、又は、化学的作用によって蓄積する媒体である。また、本発明の一側面に係る推定システムは、上記いずれかの形態に係る推定器生成装置及びモニタリング装置により構成されてもよい。

例えば、本発明の一側面に係る推定器生成方法は、コンピュータが、車両を運転する被験者の顔の写る第１顔画像データ、及び前記車両の運転時における前記被験者の状態を示す状態情報データの組み合わせによりそれぞれ構成される複数件の第１学習データセットを取得するステップと、前記被験者の顔の写る第２顔画像データ、及び前記被験者の生理学的パラメータをセンサで測定することにより得られた生理学的データの組み合わせによりそれぞれ構成される複数件の第２学習データセットを取得するステップと、エンコーダ及び推定部により構成される第１推定器であって、前記エンコーダの出力が前記推定部に入力されるように前記エンコーダ及び前記推定部が互いに接続された第１推定器の機械学習を実施することで、前記各件の第１学習データセットを構成する前記第１顔画像データを前記エンコーダに入力すると、入力した前記第１顔画像データに関連付けられた前記状態情報データにより示される前記被験者の状態に対応する出力値を前記推定部から出力するように訓練された第１推定器を構築すると共に、前記第１推定器の前記エンコーダ及びデコーダにより構成される第２推定器であって、前記エンコーダの出力が前記デコーダに入力されるように前記エンコーダ及び前記デコーダが互いに接続された第２推定器の機械学習を実施することで、前記各件の第２学習データセットを構成する前記第２顔画像データを前記エンコーダに入力すると、入力した前記第２顔画像データに関連付けられた前記生理学的データを再現した出力データを前記デコーダから出力するように訓練された第２推定器を構築するステップと、を実行する、情報処理方法である。

また、例えば、本発明の一側面に係る推定器生成プログラムは、コンピュータに、車両を運転する被験者の顔の写る第１顔画像データ、及び前記車両の運転時における前記被験者の状態を示す状態情報データの組み合わせによりそれぞれ構成される複数件の第１学習データセットを取得するステップと、前記被験者の顔の写る第２顔画像データ、及び前記被験者の生理学的パラメータをセンサで測定することにより得られた生理学的データの組み合わせによりそれぞれ構成される複数件の第２学習データセットを取得するステップと、エンコーダ及び推定部により構成される第１推定器であって、前記エンコーダの出力が前記推定部に入力されるように前記エンコーダ及び前記推定部が互いに接続された第１推定器の機械学習を実施することで、前記各件の第１学習データセットを構成する前記第１顔画像データを前記エンコーダに入力すると、入力した前記第１顔画像データに関連付けられた前記状態情報データにより示される前記被験者の状態に対応する出力値を前記推定部から出力するように訓練された第１推定器を構築すると共に、前記第１推定器の前記エンコーダ及びデコーダにより構成される第２推定器であって、前記エンコーダの出力が前記デコーダに入力されるように前記エンコーダ及び前記デコーダが互いに接続された第２推定器の機械学習を実施することで、前記各件の第２学習データセットを構成する前記第２顔画像データを前記エンコーダに入力すると、入力した前記第２顔画像データに関連付けられた前記生理学的データを再現した出力データを前記デコーダから出力するように訓練された第２推定器を構築するステップと、を実行させるための、プログラムである。

本発明によれば、人間の状態をより高精度に推定可能な推定器を生成することができる。

図１は、本発明が適用される場面の一例を模式的に例示する。図２は、実施の形態に係る推定器生成装置のハードウェア構成の一例を模式的に例示する。図３は、実施の形態に係るモニタリング装置のハードウェア構成の一例を模式的に例示する。図４Ａは、実施の形態に係る推定器生成装置のソフトウェア構成の一例を模式的に例示する。図４Ｂは、実施の形態に係る推定器の機械学習の過程の一例を模式的に例示する。図５は、実施の形態に係るモニタリング装置のソフトウェア構成の一例を模式的に例示する。図６は、実施の形態に係る推定器生成装置の処理手順の一例を例示する。図７は、実施の形態に係るモニタリング装置の処理手順の一例を例示する。図８は、変形例に係る推定器生成装置のソフトウェア構成の一例を模式的に例示する。図９は、変形例に係る推定器生成装置のソフトウェア構成の一例を模式的に例示する。図１０は、本発明が適用される場面の変形例を模式的に例示する。図１１は、変形例に係る推定器生成装置のソフトウェア構成の一例を模式的に例示する。図１２は、変形例に係るモニタリング装置のソフトウェア構成の一例を模式的に例示する。図１３は、変形例に係る推定器生成装置のソフトウェア構成の一例を模式的に例示する。図１４は、変形例に係るモニタリング装置のソフトウェア構成の一例を模式的に例示する。

以下、本発明の一側面に係る実施の形態（以下、「本実施形態」とも表記する）を、図面に基づいて説明する。ただし、以下で説明する本実施形態は、あらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメータ、マシン語等で指定される。

§１適用例
まず、図１を用いて、本発明が適用される場面の一例について説明する。図１は、本実施形態に係る推定システム１００の適用場面の一例を模式的に例示する。図１の例では、車両を運転する運転者の状態を顔画像データから導出する場面を想定している。車両の運転は、本発明の「所定の作業」の一例であり、顔画像データは、本発明の「画像データ」及び「観測データ」の一例である。ただし、本発明の適用対象は、このような例に限定されなくてもよい。本発明は、観測データから対象者の状態を推定する場面に広く適用可能である。

図１に示されるとおり、本実施形態に係る推定システム１００は、ネットワークを介して互いに接続される推定器生成装置１及びモニタリング装置２を備えている。これにより、本実施形態に係る推定システム１００は、顔画像データから対象者の状態を推定するための推定器を生成し、生成した推定器により運転者の状態を推定するように構成される。推定器生成装置１及びモニタリング装置２の間のネットワークの種類は、例えば、インターネット、無線通信網、移動通信網、電話網、専用網等から適宜選択されてよい。

本実施形態に係る推定器生成装置１は、機械学習を実施することにより、顔画像データから対象者の状態を推定するための推定器（第１推定器５１）を構築するように構成されたコンピュータである。具体的には、まず、本実施形態に係る推定器生成装置１は、複数件の第１学習データセット７１及び複数件の第２学習データセット７２を取得する。

各件の第１学習データセット７１は、車両を運転する被験者Ｔの顔の写る第１顔画像データ７１１、及び車両の運転時における被験者Ｔの状態を示す状態情報データ７１２の組み合わせにより構成される。第１顔画像データ７１１は、例えば、車両内の空間（実環境）で、運転席についた被験者Ｔの顔を撮影可能に配置されたカメラ３１により得られてよい。状態情報データ７１２は、本発明の「第１状態情報データ」の一例である。機械学習の対象となる対象者の状態は、例えば、眠気の度合いを示す眠気度、疲労の度合いを示す疲労度、運転に対する余裕の度合いを示す余裕度、又はこれらの組み合わせであってよい。これに応じて、状態情報データ７１２は、例えば、被験者Ｔの状態として、被験者Ｔの眠気の度合いを示す眠気度、被験者Ｔの疲労の度合いを示す疲労度、被験者Ｔの運転に対する余裕の度合いを示す余裕度、又はこれらの組み合わせを含むように構成されてよい。

一方、各件の第２学習データセット７２は、被験者Ｔの顔の写る第２顔画像データ７２１、及び被験者Ｔの生理学的パラメータを１又は複数のセンサで測定することにより得られた生理学的データ７２２の組み合わせにより構成される。例えば、第２顔画像データ７２１は、実験室等の仮想環境で、被験者Ｔの顔を撮影可能に配置されたカメラ３２により得られてよい。また、生理学的データ７２２は、本発明の「第１生理学的データ」の一例である。生理学的データ７２２は、例えば、脳波計３３により脳波を測定することで得られてよい。脳波は、本発明の「生理学的パラメータ」の一例であり、脳波計３３は、本発明の「センサ」の一例である。各カメラ（３１、３２）の種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。各カメラ（３１、３２）には、例えば、デジタルカメラ、ビデオカメラ等の一般的なカメラの他、深度画像を取得可能に構成された深度カメラ（距離カメラ、ステレオカメラ等）、サーモグラフィ画像を取得可能に構成されたサーモカメラ（赤外線カメラ等）等が用いられてよい。

続いて、本実施形態に係る推定器生成装置１は、取得した複数件の第１学習データセット７１及び複数件の第２学習データセット７２を利用して、学習ネットワーク５の機械学習を実施する。本実施形態に係る学習ネットワーク５は、第１推定器５１及び第２推定器５２を備えている。第１推定器５１は、エンコーダ６１及び推定部６２により構成されている。エンコーダ６１及び推定部６２は、エンコーダ６１の出力が推定部６２に入力されるように互いに接続されている。第２推定器５２は、第１推定器５１のエンコーダ６１及びデコーダ６３により構成されている。つまり、本実施形態では、第１推定器５１及び第２推定器５２は、共通のエンコーダ６１を有している。エンコーダ６１及びデコーダ６３は、エンコーダ６１の出力がデコーダ６３に入力されるように互いに接続されている。

本実施形態に係る推定器生成装置１は、複数件の第１学習データセット７１を利用して、第１推定器５１の機械学習を実施する。これにより、推定器生成装置１は、各件の第１学習データセット７１を構成する第１顔画像データ７１１をエンコーダ６１に入力すると、入力した第１顔画像データ７１１に関連付けられた状態情報データ７１２により示される被験者Ｔの状態に対応する出力値を推定部６２から出力するように訓練された第１推定器５１を構築する。また、本実施形態に係る推定器生成装置１は、複数件の第２学習データセット７２を利用して、第２推定器５２の機械学習を実施する。これにより、推定器生成装置１は、各件の第２学習データセット７２を構成する第２顔画像データ７２１をエンコーダ６１に入力すると、入力した第２顔画像データ７２１に関連付けられた生理学的データ７２２を再現した出力データをデコーダ６３から出力するように訓練された第２推定器５２を構築する。これらの機械学習により、顔画像データから対象者の状態を推定するための推定器（第１推定器５１）が生成される。

一方、本実施形態に係るモニタリング装置２は、推定器生成装置１により生成された学習済みの推定器（第１推定器５１）を利用して、車両を運転する運転者Ｄの状態を顔画像データから推定するように構成されたコンピュータである。具体的には、モニタリング装置２は、まず、車両を運転する運転者Ｄの顔の写る顔画像データを取得する。運転者Ｄは、本発明の「対象者」の一例である。顔画像データは、例えば、運転席についた運転者Ｄの顔を撮影可能に配置されたカメラ４１により得られてよい。

続いて、本実施形態に係るモニタリング装置２は、推定器生成装置１により構築された第１推定器５１のエンコーダ６１に、取得した顔画像データを入力することにより、運転者Ｄの状態を推定した結果に対応する出力を第１推定器５１の推定部６２から取得する。これにより、モニタリング装置２は、運転者Ｄの状態を推定する。そして、モニタリング装置２は、運転者Ｄの状態を推定した結果に関連する情報を出力する。

以上のとおり、本実施形態では、第１推定器５１及び第２推定器５２は、共通のエンコーダ６１を有するように構成される。第１推定器５１は、複数件の第１学習データセット７１を利用した機械学習により、顔画像データから対象者の状態を推定するように訓練される。一方で、第２推定器５２は、複数件の第２学習データセット７２を利用した機械学習により、顔画像データから対象者の生理学的な現象を再現するように訓練される。そのため、両推定器（５１、５２）の機械学習により、共通のエンコーダ６１の出力（特徴量）は、顔画像データから対象者の状態及び生理学的な現象を導出可能にデザインされる。

ここで、生理学的データ７２２は、状態情報データ７１２に比べて、人間の状態に関する高次な情報を含み得る。例えば、生理学的データ７２２が脳波計３３により得られる場合、生理学的データ７２２は、人間の脳活動に関する情報を含む。これに対して、状態情報データ７１２により示される人間の状態は、眠気度、疲労度、余裕度、又はこれらの組み合わせである。人間の脳活動に関する情報を利用すれば、眠気度、疲労度、及び余裕度を導出することができ、かつその他の人間の状態を導出することも可能である。そのため、生理学的データ７２２は、状態情報データ７１２に比べて、人間の状態に関する高次な情報を含む。

したがって、状態情報データ７１２だけではなく、より高次な情報を含み得る生理学的データ７２２を導出可能に共通のエンコーダ６１を訓練することで、共通のエンコーダ６１のパラメータが、状態情報データ７１２を導出する（すなわち、対象者の状態を推定する）精度のよりよい局所解に向かうようにすることができる。よって、本実施形態に係る推定器生成装置１によれば、対象者の状態をより高精度に推定可能な推定器（第１推定器５１）を生成することができる。

加えて、第１学習データセット７１及び第２学習データセット７２の件数が十分であれば、共通のエンコーダ６１は、人間の状態及び生理学的な現象の両方を導出可能な特徴量を出力するように適切に訓練される。そのため、第１学習データセット７１及び第２学習データセット７２のいずれか一方の件数が少ない場合に、機械学習に利用する学習サンプルの件数を他方により補うことができる。したがって、本実施形態によれば、学習サンプルを収集するコストの大きな増大を招くことなく、対象者の状態をより高精度に推定可能な推定器を生成することができる。本実施形態に係るモニタリング装置２は、このような第１推定器５１を利用することで、運転者Ｄの状態を高精度に推定することができる。

なお、図１の例では、推定器生成装置１及びモニタリング装置２は別個のコンピュータである。しかしながら、推定システム１００の構成は、このような例に限定されなくてもよい。推定器生成装置１及びモニタリング装置２は一体のコンピュータで構成されてもよい。また、推定器生成装置１及びモニタリング装置２はそれぞれ複数台のコンピュータにより構成されてもよい。更に、推定器生成装置１及びモニタリング装置２はネットワークに接続されていなくてもよい。この場合、推定器生成装置１及びモニタリング装置２の間のデータのやりとりは、不揮発メモリ等の記憶媒体を介して行われてもよい。

§２構成例
［ハードウェア構成］
＜推定器生成装置＞
次に、図２を用いて、本実施形態に係る推定器生成装置１のハードウェア構成の一例について説明する。図２は、本実施形態に係る推定器生成装置１のハードウェア構成の一例を模式的に例示する。

図２に示されるとおり、本実施形態に係る推定器生成装置１は、制御部１１、記憶部１２、通信インタフェース１３、入力装置１４、出力装置１５、及びドライブ１６が電気的に接続されたコンピュータである。なお、図２では、通信インタフェースを「通信Ｉ／Ｆ」と記載している。

制御部１１は、ハードウェアプロセッサであるＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等を含み、プログラム及び各種データに基づいて情報処理を実行するように構成される。記憶部１２は、メモリの一例であり、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。本実施形態では、記憶部１２は、推定器生成プログラム８１、複数件の第１学習データセット７１、複数件の第２学習データセット７２、学習結果データ１２１等の各種情報を記憶する。

推定器生成プログラム８１は、推定器生成装置１に、後述する機械学習の情報処理（図６）を実行させ、顔画像データから対象者の状態を推定するための学習済みの推定器（第１推定器５１）を構築させるためのプログラムである。推定器生成プログラム８１は、この情報処理の一連の命令を含む。複数件の第１学習データセット７１及び複数件の第２学習データセット７２は、この機械学習に利用される。学習結果データ１２１は、機械学習により構築された学習済みの推定器（第１推定器５１）の設定を行うためのデータである。学習結果データ１２１は、推定器生成プログラム８１の実行結果として生成される。詳細は後述する。

通信インタフェース１３は、例えば、有線ＬＡＮ（Local Area Network）モジュール、無線ＬＡＮモジュール等であり、ネットワークを介した有線又は無線通信を行うためのインタフェースである。推定器生成装置１は、この通信インタフェース１３を利用することで、ネットワークを介したデータ通信を他の情報処理装置（例えば、モニタリング装置２）と行うことができる。

入力装置１４は、例えば、マウス、キーボード等の入力を行うための装置である。また、出力装置１５は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。オペレータは、入力装置１４及び出力装置１５を利用することで、推定器生成装置１を操作することができる。

ドライブ１６は、例えば、ＣＤドライブ、ＤＶＤドライブ等であり、記憶媒体９１に記憶されたプログラムを読み込むためのドライブ装置である。ドライブ１６の種類は、記憶媒体９１の種類に応じて適宜選択されてよい。上記推定器生成プログラム８１、複数件の第１学習データセット７１、及び複数件の第２学習データセット７２の少なくともいずれかは、この記憶媒体９１に記憶されていてもよい。

記憶媒体９１は、コンピュータその他装置、機械等が、記録されたプログラム等の情報を読み取り可能なように、当該プログラム等の情報を、電気的、磁気的、光学的、機械的又は化学的作用によって蓄積する媒体である。推定器生成装置１は、この記憶媒体９１から、上記推定器生成プログラム８１、複数件の第１学習データセット７１、及び複数件の第２学習データセット７２の少なくともいずれかを取得してもよい。

ここで、図２では、記憶媒体９１の一例として、ＣＤ、ＤＶＤ等のディスク型の記憶媒体を例示している。しかしながら、記憶媒体９１の種類は、ディスク型に限定される訳ではなく、ディスク型以外であってもよい。ディスク型以外の記憶媒体として、例えば、フラッシュメモリ等の半導体メモリを挙げることができる。

なお、推定器生成装置１の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部１１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ（field-programmable gate array）、ＤＳＰ（digital signal processor）等で構成されてよい。記憶部１２は、制御部１１に含まれるＲＡＭ及びＲＯＭにより構成されてもよい。通信インタフェース１３、入力装置１４、出力装置１５及びドライブ１６の少なくともいずれかは省略されてもよい。推定器生成装置１は、各カメラ（３１、３２）及び脳波計３３と接続するための外部インタフェースを更に備えてもよい。この外部インタフェースは、モニタリング装置２の後述する外部インタフェース２４と同様に構成されてよい。推定器生成装置１は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、推定器生成装置１は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、ＰＣ（Personal Computer）等であってもよい。

＜モニタリング装置＞
次に、図３を用いて、本実施形態に係るモニタリング装置２のハードウェア構成の一例について説明する。図３は、本実施形態に係るモニタリング装置２のハードウェア構成の一例を模式的に例示する。

図３に示されるとおり、本実施形態に係るモニタリング装置２は、制御部２１、記憶部２２、通信インタフェース２３、外部インタフェース２４、入力装置２５、出力装置２６、及びドライブ２７が電気的に接続されたコンピュータである。なお、図３では、通信インタフェース及び外部インタフェースをそれぞれ「通信Ｉ／Ｆ」及び「外部Ｉ／Ｆ」と記載している。

モニタリング装置２の制御部２１～通信インタフェース２３及び入力装置２５～ドライブ２７はそれぞれ、上記推定器生成装置１の制御部１１～ドライブ１６それぞれと同様に構成されてよい。すなわち、制御部２１は、ハードウェアプロセッサであるＣＰＵ、ＲＡＭ、ＲＯＭ等を含み、プログラム及びデータに基づいて各種情報処理を実行するように構成される。記憶部２２は、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。記憶部２２は、モニタリングプログラム８２、学習結果データ１２１等の各種情報を記憶する。

モニタリングプログラム８２は、学習済みの第１推定器５１を利用して、運転者Ｄの状態を監視する後述の情報処理（図７）をモニタリング装置２に実行させるためのプログラムである。モニタリングプログラム８２は、この情報処理の一連の命令を含む。学習結果データ１２１は、この情報処理の際に、学習済みの第１推定器５１を設定するのに利用される。詳細は後述する。

通信インタフェース２３は、例えば、有線ＬＡＮモジュール、無線ＬＡＮモジュール等であり、ネットワークを介した有線又は無線通信を行うためのインタフェースである。モニタリング装置２は、この通信インタフェース２３を利用することで、ネットワークを介したデータ通信を他の情報処理装置（例えば、推定器生成装置１）と行うことができる。

外部インタフェース２４は、例えば、ＵＳＢ（Universal Serial Bus）ポート、専用ポート等であり、外部装置と接続するためのインタフェースである。外部インタフェース２４の種類及び数は、接続される外部装置の種類及び数に応じて適宜選択されてよい。本実施形態では、モニタリング装置２は、外部インタフェース２４を介して、カメラ４１に接続される。

カメラ４１は、運転者Ｄの顔を撮影することで、顔画像データを取得するのに利用される。カメラ４１の種類及び配置場所は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。カメラ４１には、例えば、上記各カメラ（３１、３２）と同種のカメラが用いられてよい。また、カメラ４１は、例えば、少なくとも運転者Ｄの上半身を撮影範囲とするように、運転席の前方上方に配置されてよい。なお、カメラ４１が通信インタフェースを備える場合、モニタリング装置２は、外部インタフェース２４ではなく、通信インタフェース２３を介して、カメラ４１に接続されてもよい。

入力装置２５は、例えば、マウス、キーボード等の入力を行うための装置である。また、出力装置２６は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。運転者Ｄ等のオペレータは、入力装置２５及び出力装置２６を利用することで、モニタリング装置２を操作することができる。

ドライブ２７は、例えば、ＣＤドライブ、ＤＶＤドライブ等であり、記憶媒体９２に記憶されたプログラムを読み込むためのドライブ装置である。上記モニタリングプログラム８２及び学習結果データ１２１のうちの少なくともいずれかは、記憶媒体９２に記憶されていてもよい。また、モニタリング装置２は、記憶媒体９２から、上記モニタリングプログラム８２及び学習結果データ１２１のうちの少なくともいずれかを取得してもよい。

なお、モニタリング装置２の具体的なハードウェア構成に関して、上記推定器生成装置１と同様に、実施の形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部２１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ、ＤＳＰ等で構成されてよい。記憶部２２は、制御部２１に含まれるＲＡＭ及びＲＯＭにより構成されてもよい。通信インタフェース２３、外部インタフェース２４、入力装置２５、出力装置２６及びドライブ２７の少なくともいずれかは省略されてもよい。モニタリング装置２は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、モニタリング装置２は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のデスクトップＰＣ、ノートＰＣ、タブレットＰＣ、スマートフォンを含む携帯電話等が用いられてよい。

［ソフトウェア構成］
次に、図４Ａを用いて、本実施形態に係る推定器生成装置１のソフトウェア構成の一例について説明する。図４Ａは、本実施形態に係る推定器生成装置１のソフトウェア構成の一例を模式的に例示する。

推定器生成装置１の制御部１１は、記憶部１２に記憶された推定器生成プログラム８１をＲＡＭに展開する。そして、制御部１１は、ＲＡＭに展開された推定器生成プログラム８１をＣＰＵにより解釈及び実行して、各構成要素を制御する。これによって、図４Ａに示されるとおり、本実施形態に係る推定器生成装置１は、学習データ取得部１１１、学習処理部１１２、及び保存処理部１１３をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、推定器生成装置１の各ソフトウェアモジュールは、制御部１１（ＣＰＵ）により実現される。

学習データ取得部１１１は、車両を運転する被験者Ｔの顔の写る第１顔画像データ７１１、及び車両の運転時における被験者Ｔの状態を示す状態情報データ７１２の組み合わせによりそれぞれ構成される複数件の第１学習データセット７１を取得する。第１顔画像データ７１１は、例えば、車両内の空間（実環境）で、運転席についた被験者Ｔの顔を撮影可能に配置されたカメラ３１により得られてよい。状態情報データ７１２は、例えば、被験者Ｔの状態として、被験者Ｔの眠気の度合いを示す眠気度、被験者Ｔの疲労の度合いを示す疲労度、被験者Ｔの運転に対する余裕の度合いを示す余裕度、又はこれらの組み合わせを含むように構成されてよい。

また、学習データ取得部１１１は、被験者Ｔの顔の写る第２顔画像データ７２１、及び被験者Ｔの生理学的パラメータを１又は複数のセンサで測定することにより得られた生理学的データ７２２の組み合わせによりそれぞれ構成される複数件の第２学習データセット７２を取得する。例えば、第２顔画像データ７２１は、実験室等の仮想環境で、被験者Ｔの顔を撮影可能に配置されたカメラ３２により得られてよい。また、生理学的データ７２２は、例えば、脳波計３３により脳波を測定することで得られてよい。

学習処理部１１２は、複数件の第１学習データセット７１及び複数件の第２学習データセット７２を利用して、学習ネットワーク５の機械学習を実施する。具体的には、学習処理部１１２は、複数件の第１学習データセット７１を利用して、第１推定器５１の機械学習を実施することで、顔画像データから対象者の状態を推定するように訓練された第１推定器５１を構築する。これと共に、学習処理部１１２は、複数件の第２学習データセット７２を利用して、第２推定器５２の機械学習を実施することで、顔画像データから生理学的データを再現するように訓練された第２推定器５２を構築する。保存処理部１１３は、構築された学習済みの第１推定器５１に関する情報を学習結果データ１２１として記憶部１２に保存する。

なお、「推定」することは、例えば、グループ分け（分類、識別）により離散値（クラス）を導出すること、及び回帰により連続値を導出することのいずれかであってよい。状態情報データ７１２の形式は、被験者Ｔの状態を示す形態に応じて適宜選択されてよい。上記のとおり、状態情報データ７１２は、被験者Ｔの状態として、被験者Ｔの眠気度、疲労度、余裕度、又はこれらの組み合わせを含むように構成されてよい。眠気度、疲労度、及び余裕度を連続値で表現する場合、状態情報データ７１２は、連続値の数値データにより構成されてよい。また、眠気度、疲労度、及び余裕度を離散値で表現する場合、状態情報データ７１２は、離散値（例えば、クラスを示す）の数値データにより構成されてよい。

（学習ネットワーク）
次に、図４Ｂを更に用いて、学習ネットワーク５の構成の一例について説明する。図４Ａ及び図４Ｂに示されるとおり、本実施形態に係る学習ネットワーク５は、エンコーダ６１、推定部６２、及びデコーダ６３を備えている。エンコーダ６１は、顔画像データから特徴量を導出するように構成される。推定部６２は、特徴量から対象者の状態を導出するように構成される。デコーダ６３は、特徴量から生理学的データを再現するように構成される。エンコーダ６１及び推定部６２は、エンコーダ６１の出力が推定部６２に入力されるように互いに接続されている。第１推定器５１は、エンコーダ６１及び推定部６２により構成される。一方、エンコーダ６１及びデコーダ６３は、エンコーダ６１の出力がデコーダ６３に入力されるように互いに接続されている。第２推定器５２は、エンコーダ６１及びデコーダ６３により構成される。エンコーダ６１、推定部６２、及びデコーダ６３の構成は、機械学習可能な学習モデルが用いられている限り、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。

図４Ｂに示されるとおり、本実施形態では、エンコーダ６１は、いわゆる深層学習に用いられる多層構造のニューラルネットワークにより構成されており、入力層６１１、中間層（隠れ層）６１２、及び出力層６１３を備えている。推定部６２は、全結合層６２１を備えている。デコーダ６３は、エンコーダ６１と同様に、多層構造のニューラルネットワークにより構成されており、入力層６３１、中間層（隠れ層）６３２、及び出力層６３３を備えている。

なお、図４Ｂの例では、エンコーダ６１を構成するニューラルネットワークは、１層の中間層６１２を備えている。ただし、エンコーダ６１の構成は、このような例に限定されなくてもよい。中間層６１２の数は、１層に限られなくてもよく、エンコーダ６１は、２層以上の中間層６１２を備えてもよい。デコーダ６３についても同様である。中間層６３２の数は、１層に限られなくてもよく、デコーダ６３は、２層以上の中間層６３２を備えてもよい。同様に、推定部６２の構成も、このような例に限定されなくてもよい。推定部６２は、多層構造のニューラルネットワークにより構成されてもよい。

各層（６１１～６１３、６２１、６３１～６３３）は、１又は複数のニューロン（ノード）を備えている。各層（６１１～６１３、６２１、６３１～６３３）のニューロンの数は、実施の形態に応じて適宜設定されてよい。例えば、入力層６１１のニューロンの数は、入力される顔画像データの画素数に応じて設定されてよい。全結合層６２１のニューロンの数は、推定の対象となる対象者の状態の種類数、状態の表現方法等に応じて設定されてよい。出力層６３３のニューロンの数は、生理学的データを再現する形式に応じて設定されてよい。

隣接する層のニューロン同士は適宜結合され、各結合には重み（結合荷重）が設定されている。図４Ｂの例では、各ニューロンは、隣接する層の全てのニューロンと結合されている。しかしながら、ニューロンの結合は、このような例に限定されなくてもよく、実施の形態に応じて適宜設定されてよい。

各ニューロンには閾値が設定されており、基本的には、各入力と各重みとの積の和が閾値を超えているか否かによって各ニューロンの出力が決定される。各層６１１～６１３に含まれる各ニューロン間の結合の重み及び各ニューロンの閾値は、演算処理に利用されるエンコーダ６１のパラメータの一例である。全結合層６２１に含まれる各ニューロン間の結合の重み及び各ニューロンの閾値は、推定部６２のパラメータの一例である。各層６３１～６３３に含まれる各ニューロン間の結合の重み及び各ニューロンの閾値は、デコーダ６３のパラメータの一例である。

第１推定器５１の機械学習では、学習処理部１１２は、各第１学習データセット７１について、第１顔画像データ７１１をエンコーダ６１の入力層６１１に入力し、エンコーダ６１及び推定部６２のパラメータを利用して、第１推定器５１の演算処理を実行する。この演算処理の結果、学習処理部１１２は、第１顔画像データ７１１から対象者（この場合は、被験者Ｔ）の状態を推定した結果に対応する出力値を推定部６２の全結合層６２１から取得する。続いて、学習処理部１１２は、取得した出力値と状態情報データ７１２に対応する値との誤差を算出する。そして、学習処理部１１２は、算出される誤差の和が小さくなるように、第１推定器５１（エンコーダ６１及び推定部６２）のパラメータの値を調節する。全結合層６２１から得られる出力値と状態情報データ７１２に対応する値との誤差の和が閾値以下になるまで、学習処理部１１２は、第１推定器５１のパラメータの値の調節を繰り返す。これにより、学習処理部１１２は、各件の第１学習データセット７１を構成する第１顔画像データ７１１をエンコーダ６１に入力すると、入力した第１顔画像データ７１１に関連付けられた状態情報データ７１２により示される被験者Ｔの状態に対応する出力値を推定部６２から出力するように訓練された第１推定器５１を構築することができる。

同様に、第２推定器５２の機械学習では、学習処理部１１２は、各第２学習データセット７２について、第２顔画像データ７２１をエンコーダ６１の入力層６１１に入力し、エンコーダ６１及びデコーダ６３のパラメータを利用して、第２推定器５２の演算処理を実行する。この演算処理の結果、学習処理部１１２は、第２顔画像データ７２１から対象者（この場合は、被験者Ｔ）の生理学的データを再現した結果に対応する出力データをデコーダ６３の出力層６３３から取得する。続いて、学習処理部１１２は、取得した出力データと生理学的データ７２２との誤差を算出する。そして、学習処理部１１２は、算出される誤差の和が小さくなるように、第２推定器５２（エンコーダ６１及びデコーダ６３）のパラメータの値を調節する。出力層６３３から得られる出力データと生理学的データ７２２との誤差の和が閾値以下になるまで、学習処理部１１２は、第２推定器５２のパラメータの値の調節を繰り返す。これにより、学習処理部１１２は、各件の第２学習データセット７２を構成する第２顔画像データ７２１をエンコーダ６１に入力すると、入力した第２顔画像データ７２１に関連付けられた生理学的データ７２２を再現した出力データをデコーダ６３から出力するように訓練された第２推定器５２を構築することができる。

これらの機械学習が完了した後、保存処理部１１３は、構築された学習済みの第１推定器５１の構成（例えば、ニューラルネットワークの層数、各層におけるニューロンの個数、ニューロン同士の結合関係、各ニューロンの伝達関数）、及び演算パラメータ（例えば、各ニューロン間の結合の重み、各ニューロンの閾値）を示す学習結果データ１２１を生成する。そして、保存処理部１１３は、生成した学習結果データ１２１を記憶部１２に保存する。

＜モニタリング装置＞
次に、図５を用いて、本実施形態に係るモニタリング装置２のソフトウェア構成の一例について説明する。図５は、本実施形態に係るモニタリング装置２のソフトウェア構成の一例を模式的に例示する。

モニタリング装置２の制御部２１は、記憶部２２に記憶されたモニタリングプログラム８２をＲＡＭに展開する。そして、制御部２１は、ＲＡＭに展開されたモニタリングプログラム８２をＣＰＵにより解釈及び実行して、各構成要素を制御する。これによって、図５に示されるとおり、本実施形態に係るモニタリング装置２は、データ取得部２１１、推定処理部２１２、及び出力部２１３をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、モニタリング装置２の各ソフトウェアモジュールも、上記推定器生成装置１と同様に、制御部２１（ＣＰＵ）により実現される。

データ取得部２１１は、車両を運転する運転者Ｄの顔の写る顔画像データ２２１を取得する。例えば、データ取得部２１１は、カメラ４１により運転者Ｄの顔を撮影することで、顔画像データ２２１を取得する。推定処理部２１２は、学習結果データ１２１を保持することで、学習済みの第１推定器５１を含んでいる。推定処理部２１２は、学習結果データ１２１を参照し、学習済みの第１推定器５１の設定を行う。そして、推定処理部２１２は、学習済みの第１推定器５１のエンコーダ６１に取得した顔画像データ２２１を入力することで、運転者Ｄの状態を推定した結果に対応する出力を第１推定器５１の推定部６２から取得する。出力部２１３は、運転者Ｄの状態を推定した結果に関連する情報を出力する。

＜その他＞
推定器生成装置１及びモニタリング装置２の各ソフトウェアモジュールに関しては後述する動作例で詳細に説明する。なお、本実施形態では、推定器生成装置１及びモニタリング装置２の各ソフトウェアモジュールがいずれも汎用のＣＰＵによって実現される例について説明している。しかしながら、以上のソフトウェアモジュールの一部又は全部が、１又は複数の専用のプロセッサにより実現されてもよい。また、推定器生成装置１及びモニタリング装置２それぞれのソフトウェア構成に関して、実施形態に応じて、適宜、ソフトウェアモジュールの省略、置換及び追加が行われてもよい。

§３動作例
［推定器生成装置］
次に、図６を用いて、推定器生成装置１の動作例について説明する。図６は、本実施形態に係る推定器生成装置１の処理手順の一例を示すフローチャートである。以下で説明する処理手順は、本発明の「推定器生成方法」の一例である。ただし、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

（ステップＳ１０１）
ステップＳ１０１では、制御部１１は、学習データ取得部１１１として動作し、第１顔画像データ７１１及び状態情報データ７１２の組み合わせによりそれぞれ構成される複数件の第１学習データセット７１を取得する。また、制御部１１は、第２顔画像データ７２１、及び生理学的データ７２２の組み合わせによりそれぞれ構成される複数件の第２学習データセット７２を取得する。

複数件の第１学習データセット７１を取得する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、カメラ３１を搭載した車両又は車両を模した構造物及び被験者Ｔを用意し、車両を運転する被験者Ｔをカメラ３１により様々な条件で撮影することで、被験者Ｔの顔の写る第１顔画像データ７１１を取得することができる。用意する車両又は車両を模した構造物及び被験者Ｔの数は、実施の形態に応じて適宜決定されてよい。そして、得られた第１顔画像データ７１１に対して、被験者Ｔの状態を示す状態情報データ７１２を組み合わせることで、各第１学習データセット７１を生成することができる。

第１顔画像データ７１１のデータ形式は、実施の形態に応じて適宜選択されてよい。状態情報データ７１２は、被験者Ｔの何らかの状態を示すものであれば特に限定されなくてもよい。状態情報データ７１２は、例えば、被験者Ｔの状態として、被験者Ｔの眠気度、疲労度、余裕度、又はこれらの組み合わせを含むように構成されてよい。また、第１学習データセット７１として互いに対応付けられる第１顔画像データ７１１及び状態情報データ７１２は必ずしも時間的に一致している必要はない。例えば、状態情報データ７１２は、第１顔画像データ７１１を得るために被験者Ｔの顔を撮影した時刻（以下、撮影時刻）と一致する時刻の被験者Ｔの状態を示すように構成されてもよいし、第１顔画像データ７１１の撮影時刻とずれた時刻（例えば、未来の時刻）の被験者Ｔの状態を示すように構成されてもよい。ただし、第１顔画像データ７１１から被験者Ｔの状態を導出可能であることを保証するため、第１顔画像データ７１１の撮影時刻と状態情報データ７１２により示される被験者Ｔの状態の時刻とは関連性があるのが好ましい。

同様に、複数件の第２学習データセット７２を取得する方法も、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、カメラ３２、脳波計３３、及び被験者Ｔを用意し、被験者Ｔをカメラ３２により様々な条件で撮影すると共に、脳波計３３により被験者Ｔの脳波を計測する。用意するカメラ３２、脳波計３３、及び被験者Ｔの数は、実施の形態に応じて適宜決定されてよい。第１学習データセット７１の取得に関与した被験者と第２学習データセット７２の取得に関与した被験者とは一致していてもよいし、一致していなくてもよい。これにより得られた第２顔画像データ７２１及び生理学的データ７２２を組み合わせることで、各第２学習データセット７２を生成することができる。

第２顔画像データ７２１のデータ形式は、実施の形態に応じて適宜選択されてよい。生理学的データ７２２は、状態情報データ７１２により示される被験者Ｔの状態に関係し得る生理学的パラメータを１又は複数のセンサで測定されたものであれば、上記脳波の測定データに限定されなくてもよい。生理学的パラメータは、例えば、脳活動（脳波、脳血流等）、眼球運動（瞳孔径、視線方向等）、筋電位、心電位、血圧、脈拍、心拍、体温、皮膚電気反応又はこれらの組み合わせであってよい。センサは、例えば、脳波計、脳磁計、核磁気共鳴画像装置、カメラ、眼電位センサ、眼球運動計測器、筋電計、心電計、血圧計、脈拍計、心拍計、体温計、皮膚電気反応計又はこれらの組み合わせであってよい。眼球運動計測器は、例えば、瞳孔径の変化、視線方向等の眼球運動を計測するように構成される。眼球運動計測器による計測対象の眼球運動は、随意運動であってもよいし、不随意運動であってもよい。この眼球運動計測器は、例えば、瞳孔径計測装置、視線計測装置等であってよい。瞳孔径計測装置は、対象者の瞳孔径（の時間変化）を計測するように適宜構成される。視線計測装置は、対象者の視線方向（の時間変化）を計測するように適宜構成される。生理学的データ７２２は、状態情報データ７１２よりも人間の状態に関する高次な情報を含むように選択されるのが好ましい。生理学的データ７２２は、１又は複数のセンサから得られたローデータであってもよいし、何らかの情報処理が適用された加工済みデータであってもよい。また、上記第１学習データセット７１と同様に、第２学習データセット７２として互いに対応付けられる第２顔画像データ７２１及び生理学的データ７２２は必ずしも時間的に一致している必要はない。

なお、各件の第１学習データセット７１を構成する第１顔画像データ７１１及び第１状態情報データ７１２は実環境で収集されるのが好ましい。実環境は、訓練された第１推定器５１を実際に運用する環境（例えば、モニタリング装置２を運用する環境）又はそれと同等の環境である。実環境は、例えば、車両内の空間、車両を模した構造物内の空間である。つまり、第１顔画像データ７１１は、カメラ３１を搭載した車両又は車両に模した構造物内で得られるのが好ましい。

これに対して、各件の第２学習データセット７２を構成する第２顔画像データ７２１及び生理学的データ７２２は仮想環境で収集されるのが好ましい。仮想環境は、例えば、実験室等の、実環境ではない環境である。生理学的データ７２２は、この仮想環境において、被験者Ｔの状態を示すより高次な情報を含むように取得されるのが好ましい。この場合、仮想環境で測定される生理学的パラメータは、脳活動、筋電位、心電位、眼球運動（特に、瞳孔径）又はこれらの組み合わせであってよい。これに応じて、仮想環境で利用されるセンサは、脳波計、脳磁計、核磁気共鳴画像装置、筋電計、心電計、眼電位センサ、眼球運動計測器（特に、瞳孔径計測装置）又はこれらの組み合わせであってよい。

また、第１顔画像データ７１１及び第２顔画像データ７２１の撮影環境が異なる場合、被験者Ｔの顔以外の要素（例えば、顔に装着したセンサ）が大きく相違し、この相違が、機械学習により構築される推定器の精度に悪影響を及ぼす可能性がある。撮影環境が異なるケースとは、例えば、上記のように、第１顔画像データ７１１を実環境で収集し、かつ第２顔画像データ７２１を仮想環境で収集するケースである。そこで、この場合、第１顔画像データ７１１及び第２顔画像データ７２１の顔以外の要素を区別不能なように、第１顔画像データ７１１及び第２顔画像データ７２１を適宜加工するのが好ましい。

この加工には、敵対的生成ネットワーク（Generative adversarial network：ＧＡＮ）等の生成モデルを利用することができる。敵対的生成ネットワークは、生成器及び判別器により構成される。生成器は、ノイズから学習サンプル（画像）に対応する画像を生成するように構成される。判別器は、与えられた画像が学習サンプル由来であるか生成器由来であるかを判別するように訓練される。これに対して、生成器は、判別器による判別が誤るような画像を生成するように訓練される。この判別器及び生成器の学習を交互に繰り返すことで、生成器は、学習サンプルに近い画像を生成する能力を習得する。

そのため、この敵対的生成ネットワークによれば、第１顔画像データ７１１及び第２顔画像データ７２１を適宜加工することができる。例えば、第１顔画像データ７１１を学習サンプルとして、第１顔画像データ７１１に対応する画像を生成する第１生成器を含む第１敵対的生成ネットワークを構築する。同様に、第２顔画像データ７２１を学習サンプルとして、第２顔画像データ７２１に対応する画像を生成する第２生成器を含む第２敵対的生成ネットワークを構築する。第１生成器により生成された画像を加工済みの新たな第１顔画像データ７１１として元の第１顔画像データ７１１と置き換え、第２生成器により生成された画像を加工済みの新たな第２顔画像データ７２１として元の第２顔画像データ７２１と置き換える。これにより、顔以外の要素を区別不能なように、第１顔画像データ７１１及び第２顔画像データ７２１を適宜加工することができる。

ただし、第１顔画像データ７１１及び第２顔画像データ７２１を加工する方法は、このような例に限定されなくてもよい。例えば、ガウシアンフィルタ、平均化フィルタ、メディアンフィルタ等の公知のフィルタを適用することで、第１顔画像データ７１１及び第２顔画像データ７２１を加工してもよい。また、例えば、画像処理により顔以外の要素を区別可能な領域にマスクをかけることで、第１顔画像データ７１１及び第２顔画像データ７２１を加工してもよい。マスクは、例えば、単色ノイズであってもよいし、ランダムノイズであってもよい。また、例えば、顔以外の要素を含まないように、第１顔画像データ７１１及び第２顔画像データ７２１それぞれから顔領域（例えば、矩形状の領域）を抽出して、抽出された顔領域の画像をそれぞれ新たな第１顔画像データ７１１及び第２顔画像データ７２１それぞれに置き換えてもよい。

ただし、各件の第１学習データセット７１及び各件の第２学習データセット７２を取得する環境は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。各件の第１学習データセット７１及び各件の第２学習データセット７２は同一の環境で取得されてもよい。この場合、第１顔画像データ７１１及び第２顔画像データ７２１は互いに同一であってよい。また、顔画像データ、状態情報データ７１２、及び生理学的データ７２２の組み合わせによりそれぞれ構成された複数件の学習データセットが収集されてよい。各件の第１学習データセット７１は、この各件の学習データセットから顔画像データ及び状態情報データ７１２を抽出することで得られてもよい。各件の第２学習データセット７２は、各件の学習データセットから顔画像データ及び生理学的データ７２２を抽出することで得られてもよい。

上記のような各件の第１学習データセット７１及び各件の第２学習データセット７２は、自動的に生成されてもよいし、手動的に生成されてもよい。また、各件の第１学習データセット７１及び各件の第２学習データセット７２の生成は、推定器生成装置１により行われてもよい。或いは、各件の第１学習データセット７１及び各件の第２学習データセット７２の少なくともいずれかの生成は、推定器生成装置１以外の他のコンピュータにより行われてもよい。

各件の第１学習データセット７１及び各件の第２学習データセット７２を推定器生成装置１が生成する場合、制御部１１は、第１顔画像データ７１１及び第２顔画像データ７２１を適宜各カメラ（３１、３２）から取得する。また、制御部１１は、例えば、オペレータによる入力装置１４を介する被験者Ｔの状態の指定を受け付け、指定された被験者Ｔの状態を示す状態情報データ７１２を生成する。更に、制御部１１は、生理学的データ７２２を適宜脳波計３３から取得する。そして、制御部１１は、第１顔画像データ７１１及び状態情報データ７１２を組み合わせることで、各件の第１学習データセット７１を生成する。制御部１１は、第２顔画像データ７２１及び生理学的データ７２２を組み合わせることで、各件の第２学習データセット７２を生成する。これにより、ステップＳ１０１では、制御部１１は、複数件の第１学習データセット７１及び複数件の第２学習データセット７２を取得することができる。

一方、各件の第１学習データセット７１及び各件の第２学習データセット７２の少なくともいずれかを他のコンピュータが生成する場合、生成された学習データセットは、他のコンピュータから推定器生成装置１に適宜転送される。本ステップ１０１では、制御部１１は、例えば、ネットワーク、記憶媒体９１等を介して、他のコンピュータにより生成された各件の第１学習データセット７１及び各件の第２学習データセット７２の少なくともいずれかを取得してもよい。他のコンピュータでは、上記推定器生成装置１と同様の方法で、各件の第１学習データセット７１及び各件の第２学習データセット７２の少なくともいずれかが生成されてよい。

また、取得する第１学習データセット７１及び第２学習データセット７２それぞれの件数は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。複数件の第１学習データセット７１及び複数件の第２学習データセット７２を取得すると、制御部１１は、次のステップＳ１０２に処理を進める。

（ステップＳ１０２）
ステップＳ１０２では、制御部１１は、学習処理部１１２として動作し、複数件の第１学習データセット７１及び複数件の第２学習データセット７２を利用して、学習ネットワーク５の機械学習を実施する。具体的には、制御部１１は、複数件の第１学習データセット７１を利用して、第１推定器５１の機械学習を実施することで、第１顔画像データ７１１から状態情報データ７１２を推定するように訓練された第１推定器５１を構築する。これと共に、制御部１１は、複数件の第２学習データセット７２を利用して、第２推定器５２の機械学習を実施することで、第２顔画像データ７２１から生理学的データ７２２を再現するように訓練された第２推定器５２を構築する。

詳細には、まず、制御部１１は、学習ネットワーク５を用意する。用意する学習ネットワーク５の構成、各ニューロン間の結合の重みの初期値、及び各ニューロンの閾値の初期値は、テンプレートにより与えられてもよいし、オペレータの入力により与えられてもよい。また、再学習を行う場合には、制御部１１は、過去の機械学習を行うことで得られた学習結果データに基づいて、学習ネットワーク５を用意してもよい。

次に、制御部１１は、ステップＳ１０１で取得した各第１学習データセット７１に含まれる第１顔画像データ７１１を入力データとして利用し、対応する状態情報データ７１２を教師データとして利用して、第１推定器５１の学習処理を実行する。この学習処理には、確率的勾配降下法等が用いられてよい。

例えば、第１のステップでは、制御部１１は、各第１学習データセット７１について、第１顔画像データ７１１をエンコーダ６１の入力層６１１に入力し、入力側から順に各層（６１１～６１３、６２１）に含まれる各ニューロンの発火判定を行う。これにより、制御部１１は、状態情報データ７１２により示される被験者Ｔの状態を第１顔画像データ７１１から推定した結果に対応する出力値を推定部６２の全結合層６２１から取得する。第２のステップでは、制御部１１は、取得した出力値と状態情報データ７１２に対応する値との誤差を算出する。第３のステップでは、制御部１１は、誤差逆伝播（Back propagation）法により、算出した出力値の誤差を用いて、各ニューロン間の結合の重み及び各ニューロンの閾値それぞれの誤差を算出する。第４のステップでは、制御部１１は、算出した各誤差に基づいて、各ニューロン間の結合の重み及び各ニューロンの閾値それぞれの値の更新を行う。

制御部１１は、各件の第１学習データセット７１について、全結合層６２１から得られる出力値と状態情報データ７１２に対応する値との誤差の和が閾値以下になるまで、上記第１～第４のステップによる第１推定器５１（エンコーダ６１及び推定部６２）のパラメータの値の調節を繰り返す。閾値は、実施の形態に応じて適宜設定されてよい。これにより、制御部１１は、各件の第１学習データセット７１を構成する第１顔画像データ７１１をエンコーダ６１に入力すると、入力した第１顔画像データ７１１に関連付けられた状態情報データ７１２により示される被験者Ｔの状態に対応する出力値を推定部６２から出力するように訓練された第１推定器５１を構築することができる。

同様に、制御部１１は、ステップＳ１０１で取得した各第２学習データセット７２に含まれる第２顔画像データ７２１を入力データとして利用し、対応する生理学的データ７２２を教師データとして利用して、第２推定器５２の学習処理を実行する。学習処理は、第１推定器５１と同様であってよい。すなわち、制御部１１は、学習処理の対象を各層（６１１～６１３、６２１）から各層（６１１～６１３、６３１～６３３）に置き換え、第１顔画像データ７１１を第２顔画像データ７２１に置き換え、状態情報データ７１２を生理学的データ７２２に置き換えて、上記第１～第４のステップの各処理を実行する。制御部１１は、各件の第２学習データセット７２について、デコーダ６３の出力層６３３から得られる出力データと生理学的データ７２２との誤差の和が閾値以下になるまで、上記第１～第４のステップによる第２推定器５２（エンコーダ６１及びデコーダ６３）のパラメータの値の調節を繰り返す。閾値は、実施の形態に応じて適宜設定されてよく、上記第１推定器５１の機械学習における閾値と同じであってもよいし、異なっていてもよい。これにより、制御部１１は、各件の第２学習データセット７２を構成する第２顔画像データ７２１をエンコーダ６１に入力すると、入力した第２顔画像データ７２１に関連付けられた生理学的データ７２２を再現した出力データをデコーダ６３から出力するように訓練された第２推定器５２を構築することができる。

第１推定器５１の機械学習及び第２推定器５２の機械学習の処理順序は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。第１推定器５１の機械学習の処理は、第２推定器５２の機械学習の処理の前に実行されてもよいし、第２推定器５２の機械学習の処理と共に実行されてもよいし、第２推定器５２の機械学習の処理の後に実行されてもよい。第１推定器５１及び第２推定器５２の機械学習が完了すると、制御部１１は、次のステップＳ１０３に処理を進める。

なお、上記ステップＳ１０１において、対応する第１顔画像データ７１１の撮影時刻とずれた時刻の被験者Ｔの状態を示す状態情報データ７１２が収集された場合、本ステップＳ１０２では、第１推定器５１は、顔画像データの撮影時刻からずれた時刻における対象者の状態を推定するように訓練される。第２推定器５２についても同様である。各第１学習データセット７１における第１顔画像データ７１１及び状態情報データ７１２の間の時間的な関係と、各第２学習データセット７２における第２顔画像データ７２１及び生理学的データ７２２の間の時間的な関係とは必ずしも一致していなくてよい。

また、第２推定器５２の学習処理の複雑性を低減し、学習データのばらつきにより学習処理が収束しない状態に陥るのを防止するために、教師データとして利用される生理学的データ７２２は、加工処理により単純化されていてもよい。例えば、生理学的データ７２２は、勾配の向き（次のサンプル点で値が上昇するか下降するか）を示すように加工されてもよい。また、例えば、生理学的データ７２２は、整数、対数スケール等の所定の間隔毎に連続値を離散化することで得られてもよいし、クラスタリング等の手法を利用して、データの分布に基づいて離散化することで得られてもよい。また、これらの離散化は、得られたデータそのものに適用されてよいし、上記勾配の大きさに適用されてもよい。

（ステップＳ１０３）
ステップＳ１０３では、制御部１１は、保存処理部１１３として動作し、ステップＳ１０２の機械学習により構築された第１推定器５１の構成及びパラメータを示す情報を学習結果データ１２１として生成する。そして、制御部１１は、生成した学習結果データ１２１を記憶部１２に保存する。これにより、制御部１１は、本動作例に係る処理を終了する。

なお、学習結果データ１２１の保存先は、記憶部１２に限られなくてもよい。制御部１１は、例えば、ＮＡＳ（Network Attached Storage）等のデータサーバに学習結果データ１２１を格納してもよい。学習結果データ１２１は、機械学習により構築された第２推定器５２（特に、デコーダ６３）の構成及びパラメータを示す情報を含んでもよいし、含んでいなくてもよい。

また、学習済みの第１推定器５１を構築した後、制御部１１は、生成した学習結果データ１２１を任意のタイミングでモニタリング装置２に転送してもよい。モニタリング装置２は、推定器生成装置１から転送を受けることで学習結果データ１２１を取得してもよいし、推定器生成装置１又はデータサーバにアクセスすることで学習結果データ１２１を取得してもよい。学習結果データ１２１は、モニタリング装置２に予め組み込まれてもよい。

更に、制御部１１は、上記ステップＳ１０１～Ｓ１０３の処理を定期的に繰り返すことで、学習結果データ１２１を定期的に更新してもよい。この繰り返す際には、第１学習データセット７１及び第２学習データセット７２の変更、修正、追加、削除等が適宜実行されてよい。そして、制御部１１は、更新した学習結果データ１２１を学習処理の実行毎にモニタリング装置２に転送することで、モニタリング装置２の保持する学習結果データ１２１を定期的に更新してもよい。

［モニタリング装置］
次に、図７を用いて、モニタリング装置２の動作例について説明する。図７は、本実施形態に係るモニタリング装置２の処理手順の一例を示すフローチャートである。ただし、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

（ステップＳ２０１）
ステップＳ２０１では、制御部２１は、データ取得部２１１として動作し、車両を運転する運転者Ｄの顔の写る顔画像データ２２１を取得する。本実施形態では、モニタリング装置２は、外部インタフェース２４を介してカメラ４１に接続されている。そのため、制御部２１は、カメラ４１から顔画像データ２２１を取得する。この顔画像データ２２１は、動画像データであってもよいし、静止画像データであってもよい。顔画像データ２２１を取得すると、制御部２１は、次のステップＳ２０２に処理を進める。

ただし、顔画像データ２２１を取得する経路は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、モニタリング装置２とは異なる他のコンピュータが、カメラ４１に接続されていてもよい。この場合、制御部２１は、他のコンピュータから顔画像データ２２１の送信を受け付けることで、顔画像データ２２１を取得してもよい。

（ステップＳ２０２）
ステップＳ２０２では、制御部２１は、推定処理部２１２として動作し、学習済みの第１推定器５１の設定を行う。続いて、制御部２１は、取得した顔画像データ２２１を学習済みの第１推定器５１に入力し、第１推定器５１の演算処理を実行する。すなわち、制御部２１は、顔画像データ２２１をエンコーダ６１の入力層６１１に入力し、入力側から順に各層（６１１～６１３、６２１）に含まれる各ニューロンの発火判定を行う。これにより、制御部２１は、運転者Ｄの状態を推定した結果に対応する出力値を推定部６２の全結合層６２１から取得する。

これにより、制御部２１は、学習済みの第１推定器５１を利用して、取得した顔画像データ２２１から運転者Ｄの状態を推定することができる。上記機械学習に利用された状態情報データ７１２が、被験者Ｔの状態として、被験者Ｔの眠気度、疲労度、余裕度、又はこれらの組み合わせを含むように構成されている場合、制御部２１は、運転者Ｄの眠気度、疲労度、余裕度、又はこれらの組み合わせを推定することができる。運転者Ｄの状態を推定すると、制御部２１は、次のステップＳ２０３に処理を進める。

（ステップＳ２０３）
ステップＳ２０３では、制御部２１は、出力部２１３として動作し、運転者Ｄの状態を推定した結果に関連する情報を出力する。出力先及び出力する情報の内容はそれぞれ、実施の形態に応じて適宜決定されてよい。例えば、制御部２１は、ステップＳ２０２により運転者Ｄの状態を推定した結果をそのまま出力装置２６を介して出力してもよい。

また、例えば、制御部２１は、運転者Ｄの状態を推定した結果に基づいて、何らかの情報処理を実行してもよい。そして、制御部２１は、その情報処理を実行した結果を出力してもよい。情報処理の一例として、運転者Ｄの状態として、眠気度及び疲労度の少なくとも一方を推定した場合、制御部２１は、眠気度及び疲労度の少なくとも一方が閾値を超えるか否かを判定してもよい。閾値は適宜設定されてよい。そして、眠気度及び疲労度の少なくとも一方が閾値を超えている場合に、制御部２１は、出力装置２６を介して、駐車場等に停車し、休憩を取るように運転者Ｄに促す警告を出力してもよい。

また、情報処理の他の例として、車両が自動運転動作可能に構成されている場合、制御部２１は、運転者Ｄの状態を推定した結果に基づいて、車両の自動運転の動作を制御してもよい。一例として、車両が、システムにより車両の走行を制御する自動運転モード及び運転者Ｄの操舵により車両の走行を制御する手動運転モードの切り替えが可能に構成されていると想定する。

このケースにおいて、自動運転モードで車両が走行しており、自動運転モードから手動運転モードへの切り替えを運転者Ｄ又はシステムから受け付けた際に、制御部２１は、運転者Ｄの推定された余裕度が閾値を超えているか否かを判定してもよい。そして、運転者Ｄの余裕度が閾値を超えている場合に、制御部２１は、自動運転モードから手動運転モードへの切り替えを許可してもよい。一方、運転者Ｄの余裕度が閾値以下である場合には、制御部２１は、自動運転モードから手動運転モードへの切り替えを許可せず、自動運転モードでの走行を維持してもよい。

また、手動運転モードで車両が走行している際に、制御部２１は、眠気度及び疲労度の少なくとも一方が閾値を超えるか否かを判定してもよい。そして、眠気度及び疲労度の少なくとも一方が閾値を超えている場合に、制御部２１は、手動運転モードから自動運転モードに切り替えて、駐車場等の安全な場所に停車するように指示する指令を車両のシステムに送信してもよい。一方で、そうではない場合には、制御部２１は、手動運転モードによる車両の走行を維持してもよい。

また、手動運転モードで車両が走行している際に、制御部２１は、余裕度が閾値以下であるか否かを判定してもよい。そして、余裕度が閾値以下である場合に、制御部２１は、減速する指令を車両のシステムに送信してもよい。一方で、そうではない場合には、制御部２１は、運転者Ｄの操作による車両の走行を維持してもよい。

情報の出力が完了すると、制御部２１は、本動作例に係る処理を終了する。なお、運転者Ｄが運転席に存在し、車両が走行している間、制御部２１は、ステップＳ２０１～Ｓ２０３の一連の処理を継続的に繰り返し実行してもよい。これにより、モニタリング装置２は、運転者Ｄの状態を継続的に監視することができる。

［特徴］
以上のように、本実施形態では、第１推定器５１及び第２推定器５２は、共通のエンコーダ６１を有するように構成される。本実施形態に係る推定器生成装置１は、上記ステップＳ１０２の機械学習の処理により、第１顔画像データ７１１から状態情報データ７１２を導出するように第１推定器５１を訓練すると共に、第２顔画像データ７２１から生理学的データ７２２を再現するように第２推定器５２を訓練する。そのため、エンコーダ６１の出力（特徴量）は、顔画像データから対象者の状態及び生理学的な現象を導出可能にデザインされる。生理学的データ７２２は、状態情報データ７１２に比べて、人間の状態に関する高次な情報を含み得る。そのため、ステップＳ１０２の機械学習において、状態情報データ７１２だけではなく、より高次な情報を含み得る生理学的データ７２２を導出可能に共通のエンコーダ６１を訓練することで、共通のエンコーダ６１のパラメータが、対象者の状態を推定する精度のよりよい局所解に向かうようにすることができる。したがって、本実施形態に係る推定器生成装置１によれば、対象者の状態をより高精度に推定可能な第１推定器５１を生成することができる。

加えて、第１学習データセット７１及び第２学習データセット７２の件数が十分であれば、共通のエンコーダ６１は、人間の状態及び生理学的な現象の両方を導出可能な特徴量を出力するように適切に訓練される。そのため、第１学習データセット７１及び第２学習データセット７２のいずれか一方の件数が少ない場合に、機械学習に利用する学習サンプルの件数を他方により補うことができる。つまり、上記ステップＳ１０１では、第１学習データセット７１及び第２学習データセット７２のいずれか一方の件数を増やすことにより他方の件数の不足を補うことができる。したがって、本実施形態によれば、学習サンプルを収集するコストの大きな増大を招くことなく、対象者の状態をより高精度に推定可能な第１推定器５１を生成することができる。本実施形態に係るモニタリング装置２は、このような第１推定器５１を利用することで、運転者Ｄの状態を高精度に推定することができる。

また、仮想環境では、実環境よりも、より高性能なセンサを用いて、人間の状態を示すより高次な情報を収集することが可能である。しかしながら、実環境では、そのような高性能なセンサを運用するのが困難であったり、運用できたとしても、コストがかかり過ぎてしまったり等の問題が生じ得る。そこで、本実施形態では、上記ステップＳ１０１で取得される各件の第１学習データセット７１は実環境で収集されてよく、各件の第２学習データセット７２は仮想環境で収集されてよい。これにより、被験者Ｔの状態に関する高次な情報を含み得る生理学的データ７２２が収集されるようにし、この生理学的データ７２２を利用した機械学習により、共通のエンコーダ６１のパラメータが、実環境で容易に取得可能な顔画像データから対象者の状態を導出する精度のよりよい局所解に向かうようにすることができる。よって、本実施形態によれば、実環境で容易に取得可能なデータから対象者の状態をより高精度に推定可能な第１推定器５１を生成することができ、これによって、実環境で第１推定器５１を運用するのにかかるコストを低減することができる。

§４変形例
以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。例えば、以下のような変更が可能である。なお、以下では、上記実施形態と同様の構成要素に関しては同様の符号を用い、上記実施形態と同様の点については、適宜説明を省略した。以下の変形例は適宜組み合わせ可能である。

＜４．１＞
上記実施形態では、エンコーダ６１及びデコーダ６３は、多層構造の全結合ニューラルネットワークにより構成され、推定部６２は、全結合層６２１により構成されている。しかしながら、エンコーダ６１、推定部６２、及びデコーダ６３それぞれを構成するニューラルネットワークの構造及び種類は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、エンコーダ６１及びデコーダ６３は、畳み込み層、プーリング層、及び全結合層を備える畳み込みニューラルネットワークにより構成されてよい。また、時系列データを利用する場合には、エンコーダ６１及びデコーダ６３は、再帰型ニューラルネットワークにより構成されてよい。

また、エンコーダ６１、推定部６２、及びデコーダ６３に利用される学習モデルは、ニューラルネットワークに限られなくてもよく、実施の形態に応じて適宜選択されてよい。エンコーダ６１、推定部６２、及びデコーダ６３にはそれぞれ、例えば、回帰木、サポートベクタ回帰モデル等の回帰モデルが用いられてよい。また、この回帰モデルには、サポートベクタマシン、分類木、ランダムフォレスト、バギング、ブースティング、又はこれらの組み合わせが接続されてもよい。推定部６２には、例えば、線形回帰モデルが用いられてよい。推定部６２及びデコーダ６３にはそれぞれ、例えば、条件付き確率場モデルが用いられてもよい。

＜４．２＞
上記実施形態では、学習結果データ１２１は、学習済みのニューラルネットワークの構成を示す情報を含んでいる。しかしながら、学習結果データ１２１の構成は、このような例に限定されなくてもよく、学習済みの第１推定器５１の設定に利用可能であれば、実施の形態に応じて適宜決定されてよい。例えば、利用するニューラルネットワークの構成が各装置で共通化されている場合、学習結果データ１２１は、学習済みのニューラルネットワークの構成を示す情報を含んでいなくてもよい。

＜４．３＞
上記実施形態では、学習ネットワーク５は、互いに共通するエンコーダ６１を備える第１推定器５１及び第２推定器５２により構成されている。これにより、上記実施形態に係る推定器生成装置１は、第２推定器５２の機械学習により、共通するエンコーダ６１のパラメータをよりよい局所解に向かうようにすることで、第１推定器５１の精度の向上を図っている。しかしながら、学習ネットワーク５の構成は、このような例に限定されなくてもよく、実施の形態に応じて適宜変更されてよい。例えば、以下の２つの変形例が採用されてよい。

（第１の変形例）
図８は、本変形例に係る推定器生成装置１Ａのソフトウェア構成の一例を模式的に例示する。推定器生成装置１Ａのハードウェア構成は、上記実施形態に係る推定器生成装置１と同様である。また、図８に示されるとおり、推定器生成装置１Ａのソフトウェア構成も、上記実施形態に係る推定器生成装置１と同様である。上記実施形態に係る学習ネットワーク５と比較して、本変形例に係る学習ネットワーク５Ａが第３推定器５３を更に備える点、学習データ取得部１１１が、複数件の第３学習データセット７３を更に取得するように構成される点、学習処理部１１２が、複数件の第３学習データセット７３を利用して、第３推定器５３の機械学習を更に実行するように構成される点を除き、推定器生成装置１Ａは、上記実施形態に係る推定器生成装置１と同様に動作する。

すなわち、本変形例に係る学習ネットワーク５Ａは、第１推定器５１、第２推定器５２、及び第３推定器５３を備えている。第３推定器５３は、第１推定器５１のエンコーダ６１及び第２推定器５２のデコーダ６３とは異なるデコーダ６４により構成される。デコーダ６４は、本発明の「他のデコーダ」の一例である。デコーダ６４は、機械学習可能な学習モデルにより構成される。このデコーダ６４は、デコーダ６３と同様に、ニューラルネットワークにより構成されてよい。エンコーダ６１及びデコーダ６４は、エンコーダ６１の出力がデコーダ６４に入力されるように互いに接続される。

推定器生成装置１Ａの制御部は、上記推定器生成装置１と同様に、ステップＳ１０１の処理を実行し、複数件の第１学習データセット７１及び複数件の第２学習データセット７２を取得する。加えて、ステップＳ１０１において、制御部は、被験者Ｔの顔の写る顔画像データ７３１、及び生理学的データ７２２とは異なる被験者Ｔの生理学的データ７３２の組み合わせによりそれぞれ構成される複数件の第３学習データセット７３を更に取得する。各件の第３学習データセット７３は、各件の第２学習データセット７２と同様に収集されてよい。

顔画像データ７３１は、本発明の「第３顔画像データ」の一例である。顔画像データ７３１は、第１顔画像データ７１１及び第２顔画像データ７２１の少なくとも一方と同一であってよい。また、生理学的データ７３２は、本発明の「第２生理学的データ」の一例である。生理学的データ７３２は、生理学的データ７２２とは異なる生理学的パラメータを測定することで得られてもよいし、生理学的データ７２２と同一の生理学的パラメータを異なる時刻に測定することで得られてもよい。また、同一の生理学的パラメータを測定することで得られたデータに対して異なる情報処理（例えば、上記単純化処理）を適用することで、各生理学的データ（７２２、７３２）は得られてもよい。

ステップＳ１０２では、制御部は、第１推定器５１及び第２推定器５２の機械学習と共に、複数件の第３学習データセット７３を利用して、第３推定器５３の機械学習を実施する。具体的には、制御部は、各第３学習データセット７３に含まれる顔画像データ７３１を入力データとして利用し、対応する生理学的データ７３２を教師データとして利用して、第３推定器５３の学習処理を実行する。この学習処理は、上記第１推定器５１と同様であってよい。すなわち、制御部は、学習処理の対象をエンコーダ６１及び推定部６２からエンコーダ６１及びデコーダ６４に置き換え、第１顔画像データ７１１を顔画像データ７３１に置き換え、状態情報データ７１２を生理学的データ７３２に置き換えて、上記第１～第４のステップの各処理を実行する。制御部は、各件の第３学習データセット７３について、デコーダ６４から得られる出力データと生理学的データ７３２との誤差の和が閾値以下になるまで、上記第１～第４のステップによる第３推定器５３（エンコーダ６１及びデコーダ６４）のパラメータの値の調節を繰り返す。閾値は、実施の形態に応じて適宜設定されてよく、上記第１推定器５１及び第２推定器５２のいずれかの機械学習における閾値と同じであってもよいし、第１推定器５１及び第２推定器５２の両方の機械学習における閾値と異なっていてもよい。これにより、制御部は、各件の第３学習データセット７３を構成する顔画像データ７３１をエンコーダ６１に入力すると、入力した顔画像データ７３１に関連付けられた生理学的データ７３２を再現した出力データをデコーダ６４から出力するように訓練された第３推定器５３を更に構築することができる。なお、上記実施形態と同様に、第１推定器５１、第２推定器５２、及び第３推定器５３それぞれの機械学習の処理順序は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。

ステップＳ１０３では、制御部は、上記実施形態と同様に、保存処理部１１３として動作し、ステップＳ１０２の機械学習により構築された第１推定器５１の構成及びパラメータを示す情報を学習結果データ１２１として記憶部１２に保存する。これにより、制御部は、本変形例に係る処理を終了する。生成された学習済みの第１推定器５１は、上記実施形態と同様に利用可能である。上記モニタリング装置２は、本変形例により生成された第１推定器５１を利用して、顔画像データ２２１から運転者Ｄの状態を推定してもよい。

本変形例によれば、第３推定器５３の機械学習の過程で、共通のエンコーダ６１の出力が、生理学的データ７３２を更に導出可能にデザインされる。これにより、対象者の状態を更に高精度に推定可能な第１推定器５１を生成することができる。

なお、複数の第３推定器５３が設けられてもよい。また、第３推定器５３を１つずつ学習ネットワーク５Ａに追加していき、ステップＳ１０２において、制御部は、第１推定器５１及び第２推定器５２の機械学習と共に、追加した第３推定器５３の機械学習を実行するようにしてもよい。そして、機械学習が完了する度に、用意した評価用データセットに対する、生成された学習済みの第１推定器５１による推定の正答率を算出してもよい。評価用データセットは、第１学習データセット７１と同様に構成される。評価用データセットに含まれる顔画像データを学習済みの第１推定器５１に入力し、第１推定器５１から出力される出力値が状態情報データに対応する値と一致するか否かに基づいて、学習済みの第１推定器５１による推定の正答率を算出することができる。この正答率が低下した場合には、制御部は、追加した第３推定器５３を学習ネットワーク５Ａから切り離してもよい。これにより、対象者の状態を更に高精度に推定可能な第１推定器５１を生成することができる。

（第２の変形例）
図９は、本変形例に係る推定器生成装置１Ｂのソフトウェア構成の一例を模式的に例示する。推定器生成装置１Ｂのハードウェア構成は、上記実施形態に係る推定器生成装置１と同様である。また、図９に示されるとおり、推定器生成装置１Ｂのソフトウェア構成も、上記実施形態に係る推定器生成装置１と同様である。上記実施形態に係る学習ネットワーク５と比較して、本変形例に係る学習ネットワーク５Ｂが第４推定器５４を更に備える点、学習データ取得部１１１が、複数件の第４学習データセット７４を更に取得するように構成される点、学習処理部１１２が、複数件の第４学習データセット７４を利用して、第４推定器５４の機械学習を更に実行するように構成される点を除き、推定器生成装置１Ｂは、上記実施形態に係る推定器生成装置１と同様に動作する。

すなわち、本変形例に係る学習ネットワーク５Ｂは、第１推定器５１、第２推定器５２、及び第４推定器５４を備えている。第４推定器５４は、第１推定器５１のエンコーダ６１とは異なるエンコーダ６５及び第１推定器５１の推定部６２により構成される。エンコーダ６５は、本発明の「他のエンコーダ」の一例である。エンコーダ６５は、機械学習可能な学習モデルにより、生理学的データから特徴量を導出するように構成される。このエンコーダ６５は、エンコーダ６１と同様に、ニューラルネットワークにより構成されてよい。エンコーダ６５及び推定部６２は、エンコーダ６５の出力が推定部６２に入力されるように互いに接続される。なお、エンコーダ６５及びデコーダ６３は、エンコーダ６５の出力がデコーダ６３に入力されるように互いに接続されていてもよい。

推定器生成装置１Ｂの制御部は、上記推定器生成装置１と同様に、ステップＳ１０１の処理を実行し、複数件の第１学習データセット７１及び複数件の第２学習データセット７２を取得する。加えて、ステップＳ１０１において、制御部は、被験者Ｔの生理学的データ７４１、及び被験者Ｔの状態を示す状態情報データ７４２の組み合わせによりそれぞれ構成される複数件の第４学習データセット７４を更に取得する。

生理学的データ７４１は、本発明の「第３生理学的データ」の一例であり、状態情報データ７４２は、本発明の「第２状態情報データ」の一例である。生理学的データ７４１及び生理学的データ７２２は、同じであってもよいし、互いに異なっていてもよい。状態情報データ７４２及び状態情報データ７１２は、同じであってもよいし、互いに異なっていてもよい。生理学的データ７４１は、生理学的データ７２２と同様に収集されてよく、状態情報データ７４２は、状態情報データ７１２と同様に収集されてよい。

ステップＳ１０２では、制御部は、第１推定器５１及び第２推定器５２の機械学習と共に、複数件の第４学習データセット７４を利用して、第４推定器５４の機械学習を実施する。具体的には、制御部１１は、各第４学習データセット７４に含まれる生理学的データ７４１を入力データとして利用し、対応する状態情報データ７４２を教師データとして利用して、第４推定器５４の学習処理を実行する。この学習処理は、基本的には、上記実施形態と同様であってよい。すなわち、制御部は、学習処理の対象をエンコーダ６１及び推定部６２からエンコーダ６５及び推定部６２に置き換え、第１顔画像データ７１１を生理学的データ７４１に置き換え、状態情報データ７１２を状態情報データ７４２に置き換えて、上記第１～第４のステップの各処理を実行する。制御部は、各件の第４学習データセット７４について、推定部６２から得られる出力値と状態情報データ７４２に対応する値との誤差を算出し、算出した各誤差に基づいて、エンコーダ６５及び推定部６２のパラメータの値を更新する。

加えて、第１推定器５１及び第４推定器５４の機械学習の過程において、制御部は、第１推定器５１及び第４推定器５４を、エンコーダ６１の出力とエンコーダ６５の出力との誤差が最小化されるように訓練する。具体的には、制御部は、状態情報データ７１２及び状態情報データ７４２が一致する場合に、状態情報データ７１２に関連付けられた第１顔画像データ７１１をエンコーダ６１に入力することでエンコーダ６１から得られた出力値と、状態情報データ７４２に関連付けられた生理学的データ７４１をエンコーダ６５に入力することでエンコーダ６５から得られた出力値との誤差を算出する。そして、制御部は、算出した各誤差に基づいて、各エンコーダ（６１、６５）のパラメータの値を更新する。

制御部は、各件の第４学習データセット７４について、推定部６２から得られる出力値と状態情報データ７１２との誤差の和が閾値以下であり、かつ同一の状態情報データを導出する際におけるエンコーダ６１から得られる出力値とエンコーダ６５から得られる出力値との誤差の和が閾値以下になるまで、各パラメータの値の調節を繰り返す。閾値は、実施の形態に応じて適宜設定されてよい。

なお、制御部は、各推定器（５１、５４）の機械学習を同時に実行してもよいし、いずれか一方の機械学習を先に実行した後に、他方の機械学習を実行してもよい。例えば、制御部は、第４推定器５４の機械学習を実行した後に、第１推定器５１の機械学習を実行してもよい。この場合、第１推定器５１の機械学習では、制御部は、第４推定器５４のエンコーダ６５のパラメータの値を固定した上で、両エンコーダ（６１、６５）の出力の誤差が最小化されるように、エンコーダ６１のパラメータの値を更新する。

これにより、制御部は、第１推定器５１及び第４推定器５４を、状態情報データ７１２と状態情報データ７４２とが一致する場合に、対応する第１顔画像データ７１１をエンコーダ６１に入力することでエンコーダ６１から得られる出力値と、対応する生理学的データ７４１をエンコーダ６５に入力することでエンコーダ６５から得られる出力値との誤差の和が閾値よりも小さくなるように訓練することができる。また、制御部は、各件の第４学習データセット７４を構成する生理学的データ７４１をエンコーダ６５に入力すると、入力した生理学的データ７４１に関連付けられた状態情報データ７４２により示される被験者Ｔの状態に対応する出力値を推定部６２から出力するように訓練された第４推定器５４を構築することができる。

なお、エンコーダ６５及びデコーダ６３が、エンコーダ６５の出力がデコーダ６３に入力されるように互いに接続されている場合、制御部は、機械学習により、各第４学習データセット７４の生理学的データ７４１をエンコーダ６５に入力すると、デコーダ６３から生理学的データ７４１を再現した出力データが出力されるように、エンコーダ６５及びデコーダ６３を訓練してもよい。制御部は、このエンコーダ６５及びデコーダ６３の機械学習を、上記各推定器５１～５４の機械学習と同様に実行可能である。

本変形例では、第４推定器５４は、生理学的データから対象者の状態を推定するように訓練される。生理学的データは顔画像データよりも高次な情報を含み得るため、顔画像データからよりも、生理学的データからの方が対象者の状態をより高精度に推定可能であると期待することができる。そのため、この第４推定器５４は、第１推定器５１と比べて、対象者の状態をより高精度に推定可能であると期待することができる。つまり、第１推定器５１及び第４推定器５４を個別に訓練した場合には、第４推定器５４におけるエンコーダ６５の出力は、第１推定器５１におけるエンコーダ６１の出力よりも、対象者の状態をより正確に示し得る。

そこで、本変形例では、制御部は、第４推定器５４におけるエンコーダ６５の出力を、対象者の状態をより高精度に推定するための第１推定器５１におけるエンコーダ６１の出力の見本として利用する。つまり、制御部は、機械学習の過程において、エンコーダ６１の出力とエンコーダ６５の出力との誤差が閾値よりも小さくなるように各エンコーダ（６１、６５）を訓練する。これにより、第１推定器５１におけるエンコーダ６１のパラメータが、対象者の状態を推定する精度のよりよい局所解に向かうようにすることができる。よって、本変形例によれば、対象者の状態をより高精度に推定可能な第１推定器５１を生成することができる。

なお、本変形例では、第４推定器５４は、生理学的データ７４１が入力されるように構成されている。しかしながら、第４推定器５４の構成は、このような例に限定されなくてもよく、実施の形態に応じて適宜設定されてよい。例えば、第４推定器５４は、顔画像データ及び生理学的データの組み合わせが入力されるように構成されてもよい。この場合、顔画像データ及び生理学的データの両方が第４推定器５４の入力として利用されるため、第４推定器５４は、第１推定器５１よりも優れた性能を有する。また、各推定器（５１、５４）は、同じ顔画像データを入力するように構成されるため、それぞれのエンコーダ（６１、６５）のパラメータは類似した値を取り得る。これを利用して、推定器生成装置１Ｂは、第４推定器５４の機械学習を実行した後に、エンコーダ６５の振る舞いをエンコーダ６１が模倣するように第１推定器５１の機械学習を実行するのが好ましい。

＜４．４＞
上記実施形態に係る推定器生成装置１は、車両の運転者の状態を推定する場面に適用されている。しかしながら、上記実施形態に係る推定器生成装置１は、車両の運転者の顔の写る顔画像データから運転者の状態を推定するための推定器を生成する場面ではなく、何らかの作業を行う対象者の顔の写る顔画像データから対象者の状態を推定するための推定器を生成する場面に広く適用されてよい。

図１０は、本発明が適用される他の場面の一例を模式的に例示する。具体的には、図１０は、生産現場で作業する作業者Ｕの顔を撮影し、得られる顔画像データから作業者Ｕの状態を推定するための推定器を生成する場面に上記実施形態に係る推定器生成装置１を適用した例を示している。作業者Ｕは、生産ラインに含まれる各工程のタスクを所定の作業として遂行している。顔画像データに写る対象者が車両の運転者から生産ラインにおける作業者に置き換わる点を除き、本変形例は、上記実施形態と同様である。

すなわち、ステップＳ１０１では、制御部１１は、所定の作業を遂行する被験者の顔の写る第１顔画像データ、及び所定の作業を遂行している時における被験者の状態を示す状態情報データの組み合わせによりそれぞれ構成される複数件の第１学習データセットを取得する。また、制御部１１は、被験者の顔の写る第２顔画像データ、及び被験者の生理学的パラメータを１又は複数のセンサで測定することで得られた生理学的データの組み合わせによりそれぞれ構成された複数件の第２学習データセットを取得する。各件の第１学習データセットは実環境で収集されてよく、各件の第２学習データセットは仮想環境で収集されてよい。本変形例では、所定の作業は、生産ラインにおけるタスクである。しかしながら、所定の作業は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。

ステップＳ１０２では、制御部１１は、取得した複数件の第１学習データセットを利用して、第１推定器５１の機械学習を実施する。これと共に、制御部１１は、取得した複数件の第２学習データセットを利用して、第２推定器５２の機械学習を実施する。これにより、制御部１１は、各件の第１学習データセットの第１顔画像データをエンコーダ６１に入力すると、対応する状態情報データにより示される被験者の状態に対応する出力値を推定部６２から出力するように訓練された第１推定器５１を構築する。また、制御部１１は、各件の第２学習データセットの第２顔画像データをエンコーダ６１に入力すると、対応する生理学的データを再現した出力データをデコーダ６３から出力するように訓練された第２推定器５２を構築する。機械学習の処理は、上記実施形態と同様であってよい。

ステップＳ１０３では、制御部１１は、ステップＳ１０２の機械学習により構築された第１推定器５１の構成及びパラメータを示す情報を学習結果データ１２１として記憶部１２に保存する。これにより、制御部１１は、本変形例に係る処理を終了する。本変形例に係る推定器生成装置１によれば、作業者の状態をより高精度に推定可能な第１推定器５１を生成することができる。

モニタリング装置２Ｃは、本変形例に係る推定器生成装置１により構築された第１推定器５１を利用して、生産ラインでロボット装置Ｒと共に作業を行う作業者Ｕをカメラ４１により撮影し、得られた顔画像データから作業者Ｕの状態を推定するように構成される。このモニタリング装置２Ｃのハードウェア構成及びソフトウェア構成は、上記実施形態に係るモニタリング装置２と同様であってよい。モニタリング装置２Ｃは、運転者以外の対象者の顔画像データを取り扱う点を除いて、上記実施形態に係るモニタリング装置２と同様に動作する。

すなわち、ステップＳ２０１では、モニタリング装置２Ｃの制御部は、作業者Ｕの顔の写る顔画像データをカメラ４１から取得する。次のステップＳ２０２では、制御部は、学習済みの第１推定器５１に得られた顔画像データを入力し、学習済みの第１推定器５１の演算処理を実行することで、作業者Ｕの状態を推定した結果に対応する出力値を第１推定器５１から取得する。次のステップＳ２０３では、制御部は、作業者Ｕの状態を推定した結果に関する情報を出力する。

本変形例に係るステップＳ２０３において、出力する情報の内容は、上記実施形態と同様に、実施の形態に応じて適宜選択されてよい。例えば、第１推定器５１を利用して、作業者Ｕの状態として、作業者Ｕの眠気度、疲労度、余裕度、又はこれらの組み合わせを推定する場合を想定する。この場合、制御部は、眠気度及び疲労度の少なくとも一方が閾値を超えるか否かを判定してもよい。そして、眠気度及び疲労度の少なくとも一方が閾値を超える場合に、制御部は、出力装置を介して、作業を中断し、休憩を取るように促すメッセージを出力してもよい。制御部は、ネットワーク等を介して、作業者Ｕ自身、作業者Ｕを監督する監督者等のユーザ端末にこのメッセージを送信してもよい。

また、制御部は、作業者Ｕの状態を推定した結果に応じて決定された動作の実行を指示する指令を推定結果に関する情報としてロボット装置Ｒに出力してもよい。一例として、作業者Ｕの推定される疲労度が高まっている時に、モニタリング装置２Ｃの制御部は、ロボット装置Ｒによる作業支援の割合を向上させる指令をロボット装置Ｒに出力してもよい。一方、作業者Ｕの余裕度が高まっている時には、モニタリング装置２Ｃの制御部は、ロボット装置Ｒによる作業支援の割合を低下させる指令をロボット装置Ｒに出力してもよい。これにより、本変形例に係るモニタリング装置２Ｃは、推定器生成装置１により生成された第１推定器５１を利用して、顔画像データから作業者Ｕの状態を推定することができる。また、モニタリング装置２Ｃは、推定の結果に基づいて、ロボット装置Ｒの動作を制御することができる。

＜４．５＞
上記実施形態及び変形例では、何らかの作業を行う対象者の顔画像データから対象者の状態を推定する場面に本発明を適用した例を示している。しかしながら、本発明の適用可能な範囲は、このような顔画像データから対象者の状態を推定する場面に限られなくてもよく、対象者の写る画像データから対象者の状態を推定するあらゆる場面に広く適用されてよい。

図１１は、本変形例に係る推定器生成装置１Ｄのソフトウェア構成の一例を模式的に例示する。推定器生成装置１Ｄのハードウェア構成は、上記実施形態に係る推定器生成装置１と同様である。また、図１１に示されるとおり、推定器生成装置１Ｄのソフトウェア構成も、上記実施形態に係る推定器生成装置１と同様である。第１顔画像データ７１１が第１画像データ７１１Ｄに置き換わり、第２顔画像データ７２１が第２画像データ７２１Ｄに置き換わる点を除き、推定器生成装置１Ｄは、上記実施形態に係る推定器生成装置１と同様に動作する。

すなわち、ステップＳ１０１では、推定器生成装置１Ｄの制御部は、学習データ取得部１１１として動作し、所定の作業を実行する被験者の写る第１画像データ７１１Ｄ及び所定の作業を実行している時における被験者の状態を示す状態情報データ７１２の組み合わせによりそれぞれ構成される複数件の第１学習データセットを取得する。また、制御部は、被験者の写る第２画像データ７２１Ｄ及び被験者の生理学的パラメータを１又は複数のセンサで測定することにより得られた生理学的データ７２２の組み合わせによりそれぞれ構成される複数件の第２学習データセットを取得する。所定の作業は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。所定の作業は、例えば、車両の運転、生産ラインにおけるタスク等であってよい。

ステップＳ１０２では、制御部は、学習処理部１１２として動作し、取得した複数件の第１学習データセットを利用して、第１推定器５１の機械学習を実施する。これと共に、制御部は、取得した複数件の第２学習データセットを利用して、第２推定器５２の機械学習を実施する。これにより、制御部は、取得した各件の第１学習データセットを構成する第１画像データ７１１Ｄをエンコーダ６１に入力すると、入力した第１画像データ７１１Ｄに関連付けられた状態情報データ７１２により示される被験者の状態に対応する出力値を推定部６２から出力するように訓練された第１推定器５１を構築する。また、制御部は、各件の第２学習データセットを構成する第２画像データ７２１Ｄをエンコーダ６１に入力すると、入力した第２画像データ７２１Ｄに関連付けられた生理学的データ７２２を再現した出力データをデコーダ６３から出力するように訓練された第２推定器５２を構築する。機械学習の処理は、上記実施形態と同様であってよい。

ステップＳ１０３では、制御部は、保存処理部１１３として動作し、ステップＳ１０２の機械学習により構築された第１推定器５１の構成及びパラメータを示す情報を学習結果データ１２１として記憶部１２に保存する。これにより、制御部は、本変形例に係る処理を終了する。本変形例に係る推定器生成装置１Ｄによれば、画像データから対象者の状態をより高精度に推定可能な第１推定器５１を生成することができる。

図１２は、本変形例に係るモニタリング装置２Ｄのソフトウェア構成の一例を模式的に例示する。モニタリング装置２Ｄは、本変形例に係る推定器生成装置１Ｄにより構築された第１推定器５１を利用して、画像データから対象者の状態を推定するように構成される。このモニタリング装置２Ｄのハードウェア構成は、上記実施形態に係るモニタリング装置２と同様であってよい。また、図１２に示されるとおり、モニタリング装置２Ｄのソフトウェア構成も、上記実施形態に係るモニタリング装置２と同様である。顔画像データ２２１が画像データ２２１Ｄに置き換わる点を除き、モニタリング装置２Ｄは、上記実施形態に係るモニタリング装置２と同様に動作する。

すなわち、ステップＳ２０１では、モニタリング装置２Ｄの制御部は、対象者の写る画像データ２２１Ｄをカメラから取得する。次のステップＳ２０２では、制御部は、学習済みの第１推定器５１に画像データ２２１Ｄを入力し、学習済みの第１推定器５１の演算処理を実行することで、対象者の状態を推定した結果に対応する出力値を第１推定器５１から取得する。次のステップＳ２０３では、制御部は、対象者の状態を推定した結果に関する情報を出力する。出力形式は、実施の形態に応じて適宜選択されてよい。本変形例に係るモニタリング装置２Ｄによれば、画像データから対象者の状態を精度よく推定することができる。

＜４．６＞
上記実施形態及び変形例では、何らかの作業を行う対象者の写る画像データから当該対象者の状態を推定する場面に本発明を適用した例を示している。しかしながら、本発明の適用範囲は、このような画像データから対象者の状態を推定する場面に限られなくてもよく、対象者の活動を観測することで得られた観測データから対象者の状態を推定するあらゆる場面に適用されてよい。

図１３は、本変形例に係る推定器生成装置１Ｅのソフトウェア構成の一例を模式的に例示する。推定器生成装置１Ｅのハードウェア構成は、上記実施形態に係る推定器生成装置１と同様である。図１３に示されるとおり、推定器生成装置１Ｅのソフトウェア構成も、上記実施形態に係る推定器生成装置１と同様である。第１顔画像データ７１１が第１観測データ７１１Ｅに置き換わり、第２顔画像データ７２１が第２観測データ７２１Ｅに置き換わる点を除き、推定器生成装置１Ｅは、上記実施形態に係る推定器生成装置１と同様に動作する。

すなわち、ステップＳ１０１では、推定器生成装置１Ｅの制御部は、学習データ取得部１１１として動作し、所定の作業を実行する被験者の活動を１又は複数の第１センサ３１Ｅで測定することにより得られた第１観測データ７１１Ｅ、及び所定の作業を実行している時における被験者Ｔの状態を示す状態情報データ７１２の組み合わせによりそれぞれ構成される複数件の第１学習データセットを取得する。また、制御部は、被験者Ｔの活動を１又は複数の第１センサ３２Ｅで測定することにより得られた第２観測データ７２１Ｅ、及び第１センサ３２Ｅとは異なる種類の１又は複数の第２センサ３３Ｅで被験者Ｔの生理学的パラメータを測定することにより得られた生理学的データ７２２Ｅの組み合わせによりそれぞれ構成される複数件の第２学習データセットを取得する。

第１センサ（３１Ｅ、３２Ｅ）及び第２センサ３３Ｅは、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。第１センサ（３１Ｅ、３２Ｅ）及び第２センサ３３Ｅは、同じであってもよいし、異なっていてもよい。第２センサ３３Ｅは、第１センサ（３１Ｅ、３２Ｅ）よりも高機能であり、第１センサ（３１Ｅ、３２Ｅ）よりも人間の状態に関する高次な情報を取得可能に構成されるのが好ましい。一方、第１センサ（３１Ｅ、３２Ｅ）は、第２センサ３３Ｅよりも安価であるのが好ましい。

また、各件の第１学習データセットを構成する第１観測データ７１１Ｅ及び状態情報データ７１２は実環境で収集されるのが好ましい。一方、各件の第２学習データセットを構成する第２観測データ７２１Ｅ及び生理学的データ７２２Ｅは仮想環境で収集されるのが好ましい。これに応じて、第１センサ（３１Ｅ、３２Ｅ）は、カメラ、眼電位センサ、視線計測装置、マイクロフォン、血圧計、脈拍計、心拍計、体温計、皮膚電気反応計、荷重センサ、操作デバイス又はこれらの組み合わせにより構成されてよい。荷重センサは、一点の荷重を計測するように構成されていてもよいし、荷重分布を計測するように構成されていてもよい。操作デバイスは、状態を推定する対象となる対象者が操作可能なデバイスであれば特に限定されなくてもよく、その種類は、実施の形態に応じて適宜選択されてよい。上記実施形態と同様に対象者が車両の運転を行うケースでは、操作デバイスは、例えば、ハンドル、ブレーキ、アクセル等であってよい。この場合、各観測データ（７１１Ｅ、７２１Ｅ）は、例えば、画像データ、眼電位データ、視線の計測データ、音声データ、血圧データ、脈拍数データ、心拍数データ、体温データ、皮膚電気反射データ、荷重の計測データ、操作ログ又はこれらの組み合わせにより構成される。操作ログは、操作デバイスの操作履歴を示す。一方、第２センサ３３Ｅは、脳波計、脳磁計、核磁気共鳴画像装置、筋電計、心電計、瞳孔径計測装置又はこれらの組み合わせにより構成されてよい。

第１センサは、第１推定器５１を実環境で運用する際にも利用される。つまり、所定の作業を実行している対象者から観測データを取得するために第１センサは利用される。そのため、第１センサ（３１Ｅ、３２Ｅ）には、被験者Ｔの活動を測定する間、被験者Ｔの身体的な動作を制限しないセンサを用いるのが好ましい。身体的な動作を制限しないとは、例えば、カメラ、マイクロフォン等のように、被験者に接触せずに配置されること、及び、例えば、腕時計型デバイス、眼鏡型デバイス等のように、被験者の身体の一部に接触するが、その身体の一部の移動を殆ど阻害しないことを含む。一方、第２センサ３３Ｅには、より高次な情報を収集可能であれば、被験者Ｔの身体的な動作を制限するセンサが用いられてもよい。身体的な動作を制限するとは、例えば、脳波計等のように、被験者Ｔの身体の少なくとも一部に取り付けられ、その身体の一部の移動を阻害すること、及び、例えば、核磁気共鳴画像装置等のように、被験者Ｔの身体に接触しないが、測定のため、所定の作業を行う場所とは異なる一定の場所に被験者Ｔが留まっていないといけないことを含む。

ステップＳ１０２では、制御部は、学習処理部１１２として動作し、取得した複数件の第１学習データセットを利用して、第１推定器５１の機械学習を実施する。これと共に、制御部は、取得した複数件の第２学習データセットを利用して、第２推定器５２の機械学習を実施する。これにより、制御部は、各件の第１学習データセットを構成する第１観測データ７１１Ｅをエンコーダ６１に入力すると、入力した第１観測データ７１１Ｅに関連付けられた状態情報データ７１２により示される被験者Ｔの状態に対応する出力値を推定部６２から出力するように訓練された第１推定器５１を構築する。また、制御部は、各件の第２学習データセットを構成する第２観測データ７２１Ｅをエンコーダ６１に入力すると、入力した第２観測データ７２１Ｅに関連付けられた生理学的データ７２２Ｅを再現した出力データをデコーダ６３から出力するように訓練された第２推定器５２を構築する。

ステップＳ１０３では、制御部は、ステップＳ１０２の機械学習により構築された第１推定器５１の構成及びパラメータを示す情報を学習結果データ１２１として記憶部１２に保存する。これにより、制御部は、本変形例に係る処理を終了する。本変形例に係る推定器生成装置１Ｅによれば、観測データから対象者の状態をより高精度に推定可能な第１推定器５１を生成することができる。

図１４は、本変形例に係るモニタリング装置２Ｅのソフトウェア構成の一例を模式的に例示する。モニタリング装置２Ｅは、本変形例に係る推定器生成装置１Ｅにより構築された第１推定器５１を利用して、観測データから対象者の状態を推定するように構成される。このモニタリング装置２Ｅのハードウェア構成は、上記実施形態に係るモニタリング装置２と同様であってよい。また、図１４に示されるとおり、モニタリング装置２Ｅのソフトウェア構成も、上記実施形態に係るモニタリング装置２と同様である。顔画像データ２２１が観測データ２２１Ｅに置き換わる点を除き、モニタリング装置２Ｅは、上記実施形態に係るモニタリング装置２と同様に動作する。

すなわち、ステップＳ２０１では、モニタリング装置２Ｅの制御部は、所定の作業を実行する対象者の活動を１又は複数の第１センサで測定することにより得られた観測データ２２１Ｅを取得する。次のステップＳ２０２では、制御部は、学習済みの第１推定器５１に観測データ２２１Ｅを入力し、学習済みの第１推定器５１の演算処理を実行することで、対象者の状態を推定した結果に対応する出力値を第１推定器５１から取得する。次のステップＳ２０３では、制御部は、対象者の状態を推定した結果に関する情報を出力する。出力形式は、実施の形態に応じて適宜選択されてよい。本変形例に係るモニタリング装置２Ｅによれば、観測データから対象者の状態を精度よく推定することができる。

１…推定器生成装置、
１１…制御部、１２…記憶部、１３…通信インタフェース、
１４…入力装置、１５…出力装置、１６…ドライブ、
１１１…学習データ取得部、１１２…学習処理部、
１１３…保存処理部、
１２１…学習結果データ、
８１…推定器生成プログラム、９１…記憶媒体、
２…モニタリング装置、
２１…制御部、２２…記憶部、２３…通信インタフェース、
２４…外部インタフェース、
２５…入力装置、２６…出力装置、
２１１…データ取得部、２１２…推定処理部、
２１３…出力部、
２２１…顔画像データ、
８２…モニタリングプログラム、
３１…カメラ、３２…カメラ、３３…脳波計、
４１…カメラ、
５…学習ネットワーク、
５１…第１推定器、５２…第２推定器、
５３…第３推定器、５４…第４推定器、
６１…エンコーダ、６２…推定部、
６３…デコーダ、
６４…（他の）デコーダ、６５…（他の）エンコーダ、
７１…第１学習データセット、
７１１…第１顔画像データ、７１２…（第１）状態情報データ、
７２…第２学習データセット、
７２１…第２顔画像データ、７２２…（第１）生理学的データ、
７３…第３学習データセット、
７３１…（第３）顔画像データ、７３２…（第２）生理学的データ、
７４…第４学習データセット、
７４１…（第３）生理学的データ、７４２…（第２）状態情報データ、
Ｔ…被験者、Ｄ…運転者（対象者）

Claims

学習データ取得部であって、
車両を運転する被験者の顔の写る第１顔画像データ、及び前記車両の運転時における前記被験者の状態を示す第１状態情報データの組み合わせによりそれぞれ構成される複数件の第１学習データセットを取得し、かつ
前記被験者の顔の写る第２顔画像データ、及び前記被験者の生理学的パラメータをセンサで測定することにより得られた第１生理学的データの組み合わせによりそれぞれ構成される複数件の第２学習データセットを取得する、
ように構成される学習データ取得部と、
学習処理部であって、
エンコーダ及び推定部により構成される第１推定器であって、前記エンコーダの出力が前記推定部に入力されるように前記エンコーダ及び前記推定部が互いに接続された第１推定器の機械学習を実施することで、前記各件の第１学習データセットを構成する前記第１顔画像データを前記エンコーダに入力すると、入力した前記第１顔画像データに関連付けられた前記第１状態情報データにより示される前記被験者の状態に対応する出力値を前記推定部から出力するように訓練された第１推定器を構築すると共に、
前記第１推定器の前記エンコーダ及びデコーダにより構成される第２推定器であって、前記エンコーダの出力が前記デコーダに入力されるように前記エンコーダ及び前記デコーダが互いに接続された第２推定器の機械学習を実施することで、前記各件の第２学習データセットを構成する前記第２顔画像データを前記エンコーダに入力すると、入力した前記第２顔画像データに関連付けられた前記第１生理学的データを再現した出力データを前記デコーダから出力するように訓練された第２推定器を構築する、
ように構成される学習処理部と、
を備える、
推定器生成装置。
前記各件の第１学習データセットを構成する前記第１顔画像データ及び前記第１状態情報データは実環境で収集され、
前記各件の第２学習データセットを構成する前記第２顔画像データ及び前記第１生理学的データは仮想環境で収集される、
請求項１に記載の推定器生成装置。
前記生理学的パラメータは、脳活動、筋電位、心電位、眼球運動又はこれらの組み合わせである、
請求項１又は２に記載の推定器生成装置。
前記第１状態情報データは、前記被験者の状態として、前記被験者の眠気の度合いを示す眠気度、前記被験者の疲労の度合いを示す疲労度、前記被験者の運転に対する余裕の度合いを示す余裕度、又はこれらの組み合わせを含む、
請求項１から３のいずれか１項に記載の推定器生成装置。
前記学習データ取得部は、前記被験者の顔の写る第３顔画像データ、及び前記第１生理学的データとは異なる前記被験者の第２生理学的データの組み合わせによりそれぞれ構成される複数件の第３学習データセットを更に取得するように構成され、
前記学習処理部は、前記第１推定器及び前記第２推定器の機械学習と共に、前記第１推定器の前記エンコーダ及び前記第２推定器の前記デコーダとは異なる他のデコーダにより構成される第３推定器であって、前記エンコーダの出力が前記他のデコーダに入力されるように前記エンコーダ及び前記他のデコーダが互いに接続された第３推定器の機械学習を実施することで、前記各件の第３学習データセットを構成する前記第３顔画像データを前記エンコーダに入力すると、入力した前記第３顔画像データに関連付けられた前記第２生理学的データを再現した出力データを前記他のデコーダから出力するように訓練された第３推定器を更に構築するように構成される、
請求項１から４のいずれか１項に記載の推定器生成装置。
前記学習データ取得部は、前記被験者の第３生理学的データ、及び前記被験者の状態を示す第２状態情報データの組み合わせによりそれぞれ構成される複数件の第４学習データセットを更に取得するように構成され、
前記学習処理部は、
前記第１推定器及び前記第２推定器の機械学習と共に、前記第１推定器の前記エンコーダとは異なる他のエンコーダ及び前記第１推定器の前記推定部により構成される第４推定器であって、前記他のエンコーダの出力が前記推定部に入力されるように前記他のエンコーダ及び前記推定部が互いに接続された第４推定器の機械学習を実施することで、前記各件の第４学習データセットを構成する前記第３生理学的データを前記他のエンコーダに入力すると、入力した前記第３生理学的データに関連付けられた前記第２状態情報データにより示される前記被験者の状態に対応する出力値を前記推定部から出力するように訓練された第４推定器を構築し、かつ
前記機械学習の過程において、前記第１推定器及び前記第４推定器を、前記第１状態情報データと前記第２状態情報データとが一致する場合に、前記第１状態情報データに関連付けられた前記第１顔画像データを前記エンコーダに入力することで前記エンコーダから得られる出力値と、前記第２状態情報データに関連付けられた前記第３生理学的データを前記他のエンコーダに入力することで前記他のエンコーダから得られる出力値との誤差が閾値よりも小さくなるように訓練する、
ように構成される、
請求項１から５のいずれか１項に記載の推定器生成装置。
車両を運転する対象者の顔の写る顔画像データを取得するデータ取得部と、
請求項１から６のいずれか１項に記載の推定器生成装置により構築された前記第１推定器の前記エンコーダに対して取得した前記顔画像データを入力することで、前記対象者の状態を推定した結果に対応する出力を前記第１推定器の前記推定部から取得する推定処理部と、
前記対象者の状態を推定した結果に関連する情報を出力する出力部と、
を備える、
モニタリング装置。
コンピュータが、
車両を運転する被験者の顔の写る第１顔画像データ、及び前記車両の運転時における前記被験者の状態を示す状態情報データの組み合わせによりそれぞれ構成される複数件の第１学習データセットを取得するステップと、
前記被験者の顔の写る第２顔画像データ、及び前記被験者の生理学的パラメータをセンサで測定することにより得られた生理学的データの組み合わせによりそれぞれ構成される複数件の第２学習データセットを取得するステップと、
エンコーダ及び推定部により構成される第１推定器であって、前記エンコーダの出力が前記推定部に入力されるように前記エンコーダ及び前記推定部が互いに接続された第１推定器の機械学習を実施することで、前記各件の第１学習データセットを構成する前記第１顔画像データを前記エンコーダに入力すると、入力した前記第１顔画像データに関連付けられた前記状態情報データにより示される前記被験者の状態に対応する出力値を前記推定部から出力するように訓練された第１推定器を構築すると共に、前記第１推定器の前記エンコーダ及びデコーダにより構成される第２推定器であって、前記エンコーダの出力が前記デコーダに入力されるように前記エンコーダ及び前記デコーダが互いに接続された第２推定器の機械学習を実施することで、前記各件の第２学習データセットを構成する前記第２顔画像データを前記エンコーダに入力すると、入力した前記第２顔画像データに関連付けられた前記生理学的データを再現した出力データを前記デコーダから出力するように訓練された第２推定器を構築するステップと、
を実行する、
推定器生成方法。
コンピュータに、
車両を運転する被験者の顔の写る第１顔画像データ、及び前記車両の運転時における前記被験者の状態を示す状態情報データの組み合わせによりそれぞれ構成される複数件の第１学習データセットを取得するステップと、
前記被験者の顔の写る第２顔画像データ、及び前記被験者の生理学的パラメータをセンサで測定することにより得られた生理学的データの組み合わせによりそれぞれ構成される複数件の第２学習データセットを取得するステップと、
エンコーダ及び推定部により構成される第１推定器であって、前記エンコーダの出力が前記推定部に入力されるように前記エンコーダ及び前記推定部が互いに接続された第１推定器の機械学習を実施することで、前記各件の第１学習データセットを構成する前記第１顔画像データを前記エンコーダに入力すると、入力した前記第１顔画像データに関連付けられた前記状態情報データにより示される前記被験者の状態に対応する出力値を前記推定部から出力するように訓練された第１推定器を構築すると共に、前記第１推定器の前記エンコーダ及びデコーダにより構成される第２推定器であって、前記エンコーダの出力が前記デコーダに入力されるように前記エンコーダ及び前記デコーダが互いに接続された第２推定器の機械学習を実施することで、前記各件の第２学習データセットを構成する前記第２顔画像データを前記エンコーダに入力すると、入力した前記第２顔画像データに関連付けられた前記生理学的データを再現した出力データを前記デコーダから出力するように訓練された第２推定器を構築するステップと、
を実行させるための、
推定器生成プログラム。
学習データ取得部であって、
所定の作業を実行する被験者の写る第１画像データ、及び前記所定の作業を実行している時における前記被験者の状態を示す状態情報データの組み合わせによりそれぞれ構成される複数件の第１学習データセットを取得し、かつ
前記被験者の写る第２画像データ、及び前記被験者の生理学的パラメータをセンサで測定することにより得られた生理学的データの組み合わせによりそれぞれ構成される複数件の第２学習データセットを取得する、
ように構成される学習データ取得部と、
学習処理部であって、
エンコーダ及び推定部により構成される第１推定器であって、前記エンコーダの出力が前記推定部に入力されるように前記エンコーダ及び前記推定部が互いに接続された第１推定器の機械学習を実施することで、前記各件の第１学習データセットを構成する前記第１画像データを前記エンコーダに入力すると、入力した前記第１画像データに関連付けられた前記状態情報データにより示される前記被験者の状態に対応する出力値を前記推定部から出力するように訓練された第１推定器を構築すると共に、
前記第１推定器の前記エンコーダ及びデコーダにより構成される第２推定器であって、前記エンコーダの出力が前記デコーダに入力されるように前記エンコーダ及び前記デコーダが互いに接続された第２推定器の機械学習を実施することで、前記各件の第２学習データセットを構成する前記第２画像データを前記エンコーダに入力すると、入力した前記第２画像データに関連付けられた前記生理学的データを再現した出力データを前記デコーダから出力するように訓練された第２推定器を構築する、
ように構成される学習処理部と、
を備える、
推定器生成装置。
学習データ取得部であって、
所定の作業を実行する被験者の活動を第１センサで測定することにより得られた第１観測データ、及び前記所定の作業を実行している時における前記被験者の状態を示す状態情報データの組み合わせによりそれぞれ構成される複数件の第１学習データセットを取得し、かつ
前記被験者の活動を前記第１センサで測定することにより得られた第２観測データ、及び前記第１センサとは異なる種類の第２センサで前記被験者の生理学的パラメータを測定することにより得られた生理学的データの組み合わせによりそれぞれ構成される複数件の第２学習データセットを取得する、
ように構成される学習データ取得部と、
学習処理部であって、
エンコーダ及び推定部により構成される第１推定器であって、前記エンコーダの出力が前記推定部に入力されるように前記エンコーダ及び前記推定部が互いに接続された第１推定器の機械学習を実施することで、前記各件の第１学習データセットを構成する前記第１観測データを前記エンコーダに入力すると、入力した前記第１観測データに関連付けられた前記状態情報データにより示される前記被験者の状態に対応する出力値を前記推定部から出力するように訓練された第１推定器を構築すると共に、
前記第１推定器の前記エンコーダ及びデコーダにより構成される第２推定器であって、前記エンコーダの出力が前記デコーダに入力されるように前記エンコーダ及び前記デコーダが互いに接続された第２推定器の機械学習を実施することで、前記各件の第２学習データセットを構成する前記第２観測データを前記エンコーダに入力すると、入力した前記第２観測データに関連付けられた前記生理学的データを再現した出力データを前記デコーダから出力するように訓練された第２推定器を構築する、
ように構成される学習処理部と、
を備える、
推定器生成装置。
前記各件の第１学習データセットを構成する前記第１観測データ及び前記状態情報データは実環境で収集され、
前記各件の第２学習データセットを構成する前記第２観測データ及び前記生理学的データは仮想環境で収集される、
請求項１１に記載の推定器生成装置。
前記第１センサは、カメラ、眼電位センサ、マイクロフォン、血圧計、脈拍計、心拍計、体温計、皮膚電気反応計、視線計測装置、荷重センサ、操作デバイス又はこれらの組み合わせにより構成され、
前記第２センサは、脳波計、脳磁計、核磁気共鳴画像装置、筋電計、心電計、瞳孔径計測装置又はこれらの組み合わせにより構成される、
請求項１１又は１２に記載の推定器生成装置。