JP2022169357A

JP2022169357A - 電子機器、電子機器の制御方法、及びプログラム

Info

Publication number: JP2022169357A
Application number: JP2021075343A
Authority: JP
Inventors: 淳吾宮崎; Jungo Miyazaki; 裕亮西井; Yusuke NISHII
Original assignee: Kyocera Corp
Current assignee: Kyocera Corp
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2022-11-09
Also published as: WO2022230629A1; CN117242486A; EP4332885A1

Abstract

【課題】対象者の集中度のような内部状態を合理的に推定する電子機器、電子機器の制御方法、及びプログラムを提供する。【解決手段】電子機器は、エンコーダ及びデコーダを備える。エンコーダは、対象者の画像から抽出される対象者の視線を含む第１生体情報、対象者の属性情報、及び対象者の内部状態を示す情報に基づいて、未知の値を推定する。デコーダは、未知の値、対象者の属性情報、及び対象者の内部状態を示す情報に基づいて、対象者の視線を含む第２生体情報を推定する。電子機器は、第２生体情報による第１生体情報の再現度に基づいて、エンコーダ及びデコーダのパラメータを調整する。【選択図】図１

Description

本発明は、電子機器、電子機器の制御方法、及びプログラムに関する。

移動体の安全な運転には、運転者の注意力が求められる。それゆえ、運転者の注意力を観察して、注意力が低下する場合、運転者への警告を発したり、運転の支援を行ったりすることが検討されている。注意力の観察として、自車の周辺の対向車などの対象物に対する視線の重なり度合いの累積値である累積視認度を算出し、基準値と比較することが提案されている（特許文献１参照）。

また、近年、対象者の集中度又は感情などの内部状態の推定を試みる研究が行われている。例えば、講義中に、教師の発話、学習者の生体情報、及び学習者の動画を記録し、講義後に学習者が各シーンにおける自身の感情を内観報告することにより、学習者の心的状態を推定する試みが報告されている（非特許文献１参照）。さらに、例えば、Ｘ線写真を診る読影士の視線データ及び診断結果のデータを収集して、深層学習によって胸部Ｘ線写真を診断する試みも報告されている（非特許文献２参照）。

国際公開第２００８／０２９８０２号

松居辰則、宇野達朗、田和辻可昌、「心的状態の時間遅れと持続モデルを考慮した生体情報からの学習者の心的状態推定の試み」、２０１８年度人工知能学会全国大会（第３２回）、一般社団法人人工知能学会井上大輝、木村仁星、中山浩太郎、作花健也、Rahman Abdul、中島愛、Patrick Radkohl、岩井聡、河添悦昌、大江和彦、「視線データを活用した深層学習による胸部Ｘ線写真の診断的分類」、２０１９年度人工知能学会全国大会（第３３回）、一般社団法人人工知能学会

特許文献１においては、累積視認度を算出するために、毎時における視認度を、テーブルを用いて算出している。しかしながら、実環境の多様な運転状況に対して適切なテーブルは異なっており、多様な運転状況において、運転者の注意力を正確に観察することは困難であった。

非特許文献１においては、対象者の生体情報と内部状態（感情など）との因果関係は、単純な識別モデルによっては合理的なモデル化が困難になることが懸念される。すなわち、本来、感情など心的状態が原因となって生体反応が生起されるのが合理的な情報処理の流れと考えられる。しかしながら、単純な識別モデルの学習では、逆に、生体情報から心的状態を推論する流れになっている。このため、モデルの構造が真実とは異なり、モデルの学習がうまく進まないことが想定される。また、対象者の生体情報に基づいて内部状態を推定するモデルのふるまいを使用者に説明することが必要な場面もある。このような観点からも、対象者の生体情報に基づいて内部状態を推定するモデルの因果関係について、合理性の更なる検証が望まれる。非特許文献２においても、非特許文献１と同様に、対象者の生体情報（視線データなど）と内部状態（疾患判断など）との因果関係も同様に、単純な識別モデルによっては合理的なモデル化が困難になることが懸念される。また、非特許文献２においても、対象者の生体情報に基づいて内部状態を推定するモデルの因果関係については、合理性の更なる検証が望まれる。以上のように、対象者の生体情報から対象者の集中度又は感情などの内部状態を良好な精度で推定するためには、データ生成の因果関係に関する合理的なモデル化が望ましい。

本開示の目的は、対象者の集中度のような内部状態をデータ生成過程に基づいて合理的に推定する電子機器、電子機器の制御方法、及びプログラムを提供することにある。

一実施形態に係る電子機器は、
対象者の画像から抽出される前記対象者の視線を含む第１生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、未知の値を推定するエンコーダと、
前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、前記対象者の視線を含む第２生体情報を推定するデコーダと、
を備える。
前記電子機器は、前記第２生体情報による前記第１生体情報の再現度に基づいて、前記エンコーダ及び前記デコーダのパラメータを調整する。

また、一実施形態に係る電子機器は、
対象者の画像から抽出される前記対象者の視線を含む第１生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、未知の値を推定するエンコーダと、
前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、前記対象者の視線を含む第２生体情報を推定するデコーダと、
前記対象者の内部状態を示す情報として複数の値を仮定して、当該複数の値のうち前記第２生体情報による前記第１生体情報の再現度が最も高くなる値を、前記対象者の内部状態を示す情報と推定する推定部と、
を備える。

一実施形態に係る電子機器の制御方法は、
対象者の画像から抽出される前記対象者の視線を含む第１生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、未知の値を推定するエンコードステップと、
前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、前記対象者の視線を含む第２生体情報を推定するデコードステップと、
前記第２生体情報による前記第１生体情報の再現度に基づいて、前記エンコードステップ及び前記デコードステップにおけるパラメータを調整するステップと、
を含む。

一実施形態に係る電子機器の制御方法は、
対象者の画像から抽出される前記対象者の視線を含む第１生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、未知の値を推定するエンコードステップと、
前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、前記対象者の視線を含む第２生体情報を推定するデコードステップと、
前記対象者の内部状態を示す情報として複数の値を仮定して、当該複数の値のうち前記第２生体情報による前記第１生体情報の再現度が最も高くなる値を、前記対象者の内部状態を示す情報と推定するステップと、
を含む。

一実施形態に係るプログラムは、
電子機器に、
対象者の画像から抽出される前記対象者の視線を含む第１生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、未知の値を推定するエンコードステップと、
前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、前記対象者の視線を含む第２生体情報を推定するデコードステップと、
前記第２生体情報による前記第１生体情報の再現度に基づいて、前記エンコードステップ及び前記デコードステップにおけるパラメータを調整するステップと、
を実行させる。

一実施形態に係るプログラムは、
電子機器に、
対象者の画像から抽出される前記対象者の視線を含む第１生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、未知の値を推定するエンコードステップと、
前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、前記対象者の視線を含む第２生体情報を推定するデコードステップと、
前記対象者の内部状態を示す情報として複数の値を仮定して、当該複数の値のうち前記第２生体情報による前記第１生体情報の再現度が最も高くなる値を、前記対象者の内部状態を示す情報と推定するステップと、
を実行させる。

一実施形態によれば、対象者の集中度のような内部状態を合理的に推定する電子機器、電子機器の制御方法、及びプログラムを提供することができる。

第１実施形態に係る電子機器の概略構成を示すブロック図である。第１実施形態に係る電子機器によるエンコードの例を説明する概念図である。第１実施形態に係る電子機器によるデコードの例を説明する概念図である。第１実施形態に係る電子機器における自己符号化器の動作を説明する概念図である。第１実施形態に係る電子機器が学習フェーズにおいて行う動作を説明するローチャートである。第１実施形態に係る電子機器が推定フェーズにおいて行う動作を説明するローチャートである。第２実施形態に係る電子機器の概略構成を示すブロック図である。

以下、本開示を適用した電子機器の実施形態について、図面を参照して説明する。以下の説明は、本開示を適用した、電子機器の制御方法、及びプログラムの説明を兼ねてもよい。

本開示において、「電子機器」とは、電力により駆動する機器としてよい。一実施形態に係る電子機器は、対象者の例えば集中度のような内部状態を推定する。ここで、「対象者」とは、一実施形態に係る電子機器によって内部状態が推定される対象となる者（典型的には人間）としてよい。また、本開示において、「ユーザ」とは、一実施形態に係る電子機器を使用する者（典型的には人間）としてよい。「ユーザ」は、「対象者」と同じ者としてもよいし、異なる者としてもよい。また、「ユーザ」及び「対象者」は、人間としてもよいし、人間以外の動物としてもよい。

本開示の一実施形態に係る電子機器は、例えば、移動体に設けられる。移動体は、例えば車両、船舶、及び航空機等を含んでよい。車両は、例えば自動車、産業車両、鉄道車両、生活車両、及び滑走路を走行する固定翼機等を含んでよい。自動車は、例えば乗用車、トラック、バス、二輪車、及びトロリーバス等を含んでよい。産業車両は、例えば農業及び建設向けの産業車両等を含んでよい。産業車両は、例えばフォークリフト及びゴルフカート等を含んでよい。農業向けの産業車両は、例えばトラクター、耕耘機、移植機、バインダー、コンバイン、及び芝刈り機等を含んでよい。建設向けの産業車両は、例えばブルドーザー、スクレーバー、ショベルカー、クレーン車、ダンプカー、及びロードローラ等を含んでよい。車両は、人力で走行するものを含んでよい。車両の分類は、上述した例に限られない。例えば、自動車は、道路を走行可能な産業車両を含んでよい。複数の分類に同じ車両が含まれてよい。船舶は、例えばマリンジェット(personal watercraft(PWC))、ボート、及びタンカー等を含んでよい。航空機は、例えば固定翼機及び回転翼機等を含んでよい。また、本開示の「ユーザ」及び「対象者」は、車両などの移動体を運転している者でもよいし、車両なの移動体を運転していない車両の同乗者でもよい。

一実施形態に係る電子機器１は、各種の機器としてよい。例えば、一実施形態に係る電子機器は、専用に設計された端末の他、汎用のスマートフォン、タブレット、ファブレット、ノートパソコン（ノートＰＣ）、コンピュータ、又はサーバなどのように、任意の機器としてよい。また、一実施形態に係る電子機器は、例えば携帯電話又はスマートフォンのように、他の電子機器と通信を行う機能を有してもよい。ここで、上述の「他の電子機器」とは、例えば携帯電話又はスマートフォンのような電子機器としてもよいし、例えば基地局、サーバ、専用端末、又はコンピュータのように、任意の機器としてもよい。また、本開示における「他の電子機器」も、電力によって駆動される機器又は装置などとしてよい。一実施形態に係る電子機器が、他の電子機器と通信を行う際には、有線及び／又は無線による通信を行うものとしてよい。

以下、一例として、一実施形態に係る電子機器１は、例えば乗用車のような移動体に設けられるものとして説明する。この場合、一実施形態に係る電子機器１は、乗用車のような移動体に搭乗している者（運転者又は非運転者）の所定の内部状態（例えば所定の心理状態）を推定することができる。以下、一実施形態に係る電子機器１が、乗用車のような移動体を運転する運転者の内部状態として、運転者の運転時の集中度を推定する例について説明する。この場合、一実施形態に係る電子機器１は、例えば運転中に撮像された運転者の画像などに基づいて、運転者の運転時の集中度を推定することができる。

図１は、一実施形態に係る電子機器の機能的な概略構成を示すブロック図である。

図１に示すように、一実施形態に係る電子機器１は、制御部１０、撮像部２０、記憶部３０、及び報知部４０を含んで構成されてよい。また、制御部１０、図１に示すように、抽出部１２、推定部１４、及び判定部１６を含んで構成されてよい。一実施形態に係る電子機器１は、図１に示す全ての機能部を含んでもよいし、図１に示す機能部の少なくとも一部を含まなくてもよい。例えば、一実施形態に係る電子機器１は、図１に示す制御部１０のみを備えてもよい。この場合、一実施形態に係る電子機器１は、外部機器として用意される、撮像部２０、記憶部３０、及び報知部４０などに接続されるようにしてもよい。また、以下に説明するエンコーダＥＮＮ及びデコーダＤＮＮの機能は、制御部１０、推定部１４、及び記憶部３０の少なくともいずれか１つの機能により実現される。入力した情報やデータは、例えば、抽出部１２、エンコーダＥＮＮ、デコーダＤＮＮ、判定部１６の順に送信されるとしてよい。また、エンコーダＥＮＮから、以下に説明する潜在変数Ｚが出力されてもよい。この場合、出力された潜在変数Ｚは、デコーダＤＮＮに入力されてもよい。

制御部１０は、電子機器１を構成する各機能部をはじめとして、電子機器１の全体を制御及び／又は管理する。制御部１０は、種々の機能を実行するための制御及び処理能力を提供するために、例えばＣＰＵ（Central Processing Unit）又はＤＳＰ（Digital Signal Processor）のような、少なくとも１つのプロセッサを含んでよい。制御部１０は、まとめて１つのプロセッサで実現してもよいし、いくつかのプロセッサで実現してもよいし、それぞれ個別のプロセッサで実現してもよい。プロセッサは、単一の集積回路として実現されてよい。集積回路は、ＩＣ（Integrated Circuit）ともいう。プロセッサは、複数の通信可能に接続された集積回路及びディスクリート回路として実現されてよい。プロセッサは、他の種々の既知の技術に基づいて実現されてよい。

制御部１０は、１以上のプロセッサ及びメモリを含んでもよい。プロセッサは、特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、及び特定の処理に特化した専用のプロセッサを含んでよい。専用のプロセッサは、特定用途向けＩＣ（ＡＳＩＣ；ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）を含んでよい。プロセッサは、プログラマブルロジックデバイス（ＰＬＤ；ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）を含んでよい。ＰＬＤは、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を含んでよい。制御部１０は、１つ又は複数のプロセッサが協働するＳｏＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－Ｃｈｉｐ）、及びＳｉＰ（ＳｙｓｔｅｍＩｎａＰａｃｋａｇｅ）のいずれかであってもよい。制御部１０は、電子機器１の各構成要素の動作を制御する。

制御部１０は、例えば、ソフトウェア及びハードウェア資源の少なくとも一方を含んで構成されてよい。また、一実施形態に係る電子機器１において、制御部１０は、ソフトウェアとハードウェア資源とが協働した具体的手段によって構成されてもよい。制御部１０に含まれる抽出部１２、推定部１４、及び判定部１６の少なくともいずれかは、ソフトウェア及びハードウェア資源の少なくとも一方を含んで構成されてよい。また、一実施形態に係る電子機器１において、抽出部１２、推定部１４、及び判定部１６の少なくともいずれかは、ソフトウェアとハードウェア資源とが協働した具体的手段によって構成されてもよい。

抽出部１２は、撮像部２０によって撮像された対象者の画像から、対象者の視線を抽出する。推定部１４は、例えば対象者の集中度のような内部状態を推定する。判定部１６は、推定部１４によって推定された対象者の内部状態が所定の条件を満たすか否か判定する。判定部１６は、対象者の内部状態が所定の条件を満たす場合（例えば対象者の集中度が所定以下に低下した場合など）、所定の警報信号を報知部４０に出力する。本開示において、対象者の視線がデータとして抽出される視線のデータは、注視点の座標値（ｘ，ｙ）として扱ってよい。また、本開示において、視線のデータは、対象者の注視点の座標のみならず、例えば瞳孔径及び／又は眼球の回転情報などを視線の特徴量として用いてもよい。

制御部１０の動作、並びに、制御部１０に含まれる抽出部１２、推定部１４、及び判定部１６の動作については、さらに後述する。

撮像部２０は、例えばデジタルカメラのような、電子的に画像を撮像するイメージセンサを含んで構成されてよい。撮像部２０は、ＣＣＤ（Charge Coupled Device Image Sensor）又はＣＭＯＳ（Complementary Metal Oxide Semiconductor）センサ等のように、光電変換を行う撮像素子を含んで構成されてよい。例えば、撮像部２０は、撮像した画像に基づく信号を、制御部１０などに供給してよい。このため、図１に示すように、撮像部２０は、制御部１０に有線及び／又は無線で接続されてよい。撮像部２０は、対象者の画像を撮像するものであれば、デジタルカメラのような撮像デバイスに限定されず、任意の撮像デバイスとしてよい。例えば、撮像部２０は、近赤外線カメラを採用することで、光を反射する特徴の差異、及び／又は、光を吸収する特徴の差異などを、画像として撮像することができる。

撮像部２０は、対象者の画像を撮像する。以下、対象者の例として、乗用車のような移動体を運転する運転者を想定して説明する。すなわち、一実施形態において、撮像部２０は、乗用車のような移動体を運転する運転者を撮像する。一実施形態において、撮像部２０は、例えば対象者を所定時間ごと（例えば秒間３０フレーム）の静止画として撮像してもよい。また、一実施形態において、撮像部２０は、例えば対象者を連続した動画として撮像してもよい。撮像部２０は、ＲＧＢデータ、及び／又は、赤外線データなどの各種のデータ形態で対象者の画像を撮像するものとしてよい。

撮像部２０は、運転者を撮像するために、例えば乗用車のような移動体の内部前方において、運転者に向けて設置されてよい。撮像部２０によって撮像された対象者の画像は、制御部１０に供給される。後述のように、制御部１０において、抽出部１２は、対象者の画像から、対象者の視線を含む生体情報を抽出する。このため、撮像部２０は、運転者の視線を含む画像を撮像するのに適した箇所に設置されてよい。

記憶部３０は、各種の情報を記憶するメモリとしての機能を有してよい。記憶部３０は、例えば制御部１０において実行されるプログラム、及び、制御部１０において実行された処理の結果などを記憶してよい。また、記憶部３０は、制御部１０のワークメモリとして機能してよい。このため、図１に示すように、記憶部３０は、制御部１０に有線及び／又は無線で接続されてよい。記憶部３０は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）及びＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）の少なくとも一方を含んでもよい。記憶部３０は、例えば半導体メモリ等により構成することができるが、これに限定されず、任意の記憶装置とすることができる。例えば、記憶部３０は、一実施形態に係る電子機器１に挿入されたメモリカードのような記憶媒体としてもよい。また、記憶部３０は、制御部１０として用いられるＣＰＵの内部メモリであってもよいし、制御部１０に別体として接続されるものとしてもよい。

記憶部３０は、例えば機械学習データを記憶してもよい。ここで、機械学習データは、機械学習によって生成されるデータとしてよい。機械学習データは、機械学習によって生成されるパラメータを含むものとしてよい。また、機械学習とは、特定のタスクをトレーニングによって実行可能になるＡＩ（Artificial Intelligence）の技術に基づくものとしてよい。より具体的には、機械学習とは、コンピュータのような情報処理装置が多くのデータを学習し、分類及び／又は予測などのタスクを遂行するアルゴリズム又はモデルを自動的に構築する技術としてよい。本明細書において、ＡＩの一部には、機械学習が含まれるとしてもよい。本明細書において、機械学習には、正解データをもとに入力データの特徴又はルールを学習する教師あり学習が含まれるものとしてよい。また、機械学習には、正解データがない状態で入力データの特徴又はルールを学習する教師なし学習が含まれるものとしてもよい。さらに、機械学習には、報酬又は罰などを与えて入力データの特徴又はルールを学習する強化学習などが含まれるものとしてもよい。また、本明細書において、機械学習は、教師あり学習、教師なし学習、及び強化学習を任意に組み合わせたものとしてもよい。

本実施形態の機械学習データの概念は、入力データに対して学習されたアルゴリズムを用いて所定の推論（推定）結果を出力するアルゴリズムを含むとしてもよい。本実施形態は、このアルゴリズムとして、例えば、従属変数と独立変数との関係を予測する線形回帰、人の脳神経系ニューロンを数理モデル化したニューラルネットワーク（ＮＮ）、誤差を二乗して算出する最小二乗法、問題解決を木構造にする決定木、及びデータを所定の方法で変形する正則化などその他適宜なアルゴリズムを用いることができる。本実施形態は、ニューラルネットワークの一種であるディープニューラルネットワークを利用するとしてよい。ディープニューラルネットワークは、ニューラルネットワークの一種であり、一般にネットワークの中間層が１層以上の深い構造のものを意味する。ディープラーニングは、ＡＩを構成するアルゴリズムとして多用されている。

一実施形態において、記憶部３０に記憶される情報は、例えば工場出荷時などまでに予め記憶された情報としてもよいし、制御部１０などが適宜取得する情報としてもよい。一実施形態において、記憶部３０は、制御部１０又は電子機器１などに接続された通信部（通信インタフェース）から受信する情報を記憶してもよい。この場合、通信部は、例えば外部の電子機器又は基地局などと無線又は有線の少なくとも一方で通信することにより、各種の情報を受信してよい。また、一実施形態において、記憶部３０は、制御部１０又は電子機器１に接続された入力部（入力インタフェース）などに入力された情報を記憶してもよい。この場合、電子機器１のユーザ又はその他の者は、入力部を操作することにより、各種の情報を入力してよい。

報知部４０は、制御部１０から出力される所定の信号（例えば警報信号など）に基づいて、電子機器１のユーザなどに注意を促すための所定の警報を出力してよい。このため、図１に示すように、報知部４０は、制御部１０に有線及び／又は無線で接続されてよい。報知部４０は、所定の警報として、例えば音、音声、光、文字、映像、及び振動など、ユーザの聴覚、視覚、及び触覚の少なくともいずれかを刺激する任意の機能部としてよい。具体的には、報知部４０は、例えばブザー又はスピーカのような音声出力部、ＬＥＤのような発光部、ＬＣＤのような表示部、及びバイブレータのような触感呈示部などの少なくともいずれかを含んで構成されてよい。このように、報知部４０は、制御部１０から出力される所定の信号に基づいて、所定の警報を出力してよい。一実施形態において、報知部４０は、所定の警報を、人間などの生物の聴覚、視覚、及び触覚の少なくともいずれかに作用する情報として出力してもよい。

一実施形態において、報知部４０は、例えば対象者の内部状態として当該対象者の集中度が所定の閾値以下に低下と推定されると、対象者の集中力が低下した旨の警報を出力してよい。例えば、一実施形態において、視覚情報を出力する報知部４０は、例えば運転者の集中度が所定の閾値以下に低下と推定されると、その旨を発光又は所定の表示などによって運転者及び／又は他のユーザなどに報知してよい。また、一実施形態において、聴覚情報を出力する報知部４０は、例えば運転者の集中度が所定の閾値以下に低下と推定されると、その旨を所定の音又は音声などによって運転者及び／又は他のユーザなどに報知してよい。また、一実施形態において、触覚情報を出力する報知部４０は、例えば運転者の集中度が所定の閾値以下に低下と推定されると、その旨を所定の振動などによって運転者及び／又は他のユーザなどに報知してよい。このようにして、運転者及び／又は他のユーザなどは、例えば運転者の集中度が低下している旨を知ることができる。

次に、一実施形態に係る電子機器１による、対象者の内部情報の推定について説明する。

一実施形態に係る電子機器１は、自己符号化器（auto encoder）を用いて、運転者の運転中の画像などに基づく機械学習を行うことにより、運転者の集中度などのような内部状態を推定する。自己符号化器は、ニューラルネットワークのアーキテクチャの１つである。自己符号化器は、エンコーダ（以下、符号ＥＮＮを対応させることがある）及びデコーダ（以下、符号ＤＮＮを対応させることがある）を含むニューラルネットワークである。一実施形態に係る電子機器１において、制御部１０は、自己符号化器としての機能を含んでよい。すなわち、一実施形態に係る電子機器１の制御部１０は、エンコーダＥＮＮ及びデコーダＤＮＮとしての機能を備える。

図２及び図３は、一実施形態に係る電子機器１において自己符号化器として機能するニューラルネットワークを概念的に示す図である。図２は、エンコーダを概念的に示す図である。すなわち、図２は、一実施形態に係る電子機器１において自己符号化器として機能するニューラルネットワークのエンコーダＥＮＮを概念的に示す図である。また、図３は、デコーダを概念的に示す図である。まず、一実施形態に係る電子機器１が対象者（運転者）の画像に基づいて、対象者の集中度のような内部状態を推定する原理について説明する。すなわち、図３は、一実施形態に係る電子機器１において自己符号化器として機能するニューラルネットワークのデコーダＤＮＮを概念的に示す図である。

一実施形態に係る電子機器１によって対象者の内部状態を推定するに際し、図３に示すように、対象者の画像に関連する第２生体情報Ｘ’は、内部状態を示す情報Ｙと、未知の値Ｚと、属性情報Ｄが原因となって生じる、という生成プロセスを仮定する。ここで、対象者の画像に関連する第２生体情報Ｘ’は、対象者（例えば運転者）の視線の画像を含む情報としてよい。また、内部状態を示す情報Ｙは、対象者の例えば集中度のような内部状態を示す情報を含むものとしてよい。また、未知の値Ｚは、観測できない潜在変数を含むものとしてよい。さらに、属性情報Ｄは、対象者の例えば年齢及び／又は性別などの属性を示す情報を含むものとしてよい。

一実施形態に係る電子機器１による機械学習時においては、まず、図２に示すように、ニューラルネットワークのエンコーダＥＮＮを用いて、対象者の画像に関連する第１生体情報Ｘと、内部状態を示す情報Ｙと、属性情報Ｄとから、未知の値Ｚを推論する。ここで、対象者の画像に関連する第１生体情報Ｘは、対象者（例えば運転者）の視線の画像を含む情報としてよい。この第１生体情報Ｘに含まれる対象者の視線の画像は、撮像部２０によって撮像される対象者の画像から、抽出部１２によって抽出されるものとしてよい。また、内部状態を示す情報Ｙは、上述のように、対象者の例えば集中度のような内部状態を示す情報を含むものとしてよい。また、属性情報Ｄは、上述のように、対象者の例えば年齢及び／又は性別などの属性を示す情報を含むものとしてよい。さらに、未知の値Ｚは、上述のように、観測できない潜在変数を含むものとしてよい。以下、対象者の内部状態を推定するための学習を行うフェーズを、単に「学習フェーズ」と記すことがある。

上述のように未知の値Ｚが推論されると、図３に示すニューラルネットワークのデコーダＤＮＮを用いて、推論された未知の値Ｚと、内部状態を示す情報Ｙと、属性情報Ｄとから、対象者の画像に関連する第２生体情報Ｘ’を生成することができる。ここで、対象者の画像に関連する第２生体情報Ｘ’は、対象者の画像に関連する第１生体情報Ｘを再構成したものとなる。一実施形態に係る電子機器１において、この第２生体情報Ｘ’が、元の第１生体情報Ｘから変化した度合いを損失関数とし、誤差逆伝搬によってニューラルネットワークの重みパラメータを更新してよい。また、この損失関数に、未知の値Ｚの従う確率分布が所定の確率分布からどの程度逸脱したかを表す正則化項を含んでもよい。この所定の確率分布は、例えば正規分布であってもよい。この所定の確率分布と未知の値Ｚが従う分布との逸脱度合いを表す項として、カルバック・ライブラダイバージェンスを用いてもよい。

図４は、一実施形態に係る電子機器１における自己符号化器による実装を概念的に示す図である。まず、一実施形態に係る電子機器１による学習フェーズについて説明する。

図４に示すように、一実施形態に係る電子機器１において、最下段に示す第１生体情報Ｘが与えられ、さらに内部状態を示す情報Ｙ及び属性情報Ｄが与えられると、図４の中段に示す未知の値Ｚが推論される。そして、一実施形態に係る電子機器１において、未知の値Ｚが推論され、さらに内部状態を示す情報Ｙ及び属性情報Ｄが与えられると、最上段に示す第２生体情報Ｘ’が得られる。

一実施形態に係る電子機器１において、第１生体情報Ｘ及び属性情報Ｄのみが与えられることにより、内部状態を示す情報Ｙ及び未知の値Ｚが推定されるようにしてもよい。また、対象者の例えば年齢及び／又は性別などの属性を示す情報を含む属性情報Ｄは、予め記憶部３０に記憶されてもよいし、入力部から入力されてもよいし、通信部から受信してもよい。また、属性情報Ｄは、撮像部２０によって撮像される対象者の画像から、制御部１０などによって推定されるものとしてもよい。

図４に示すように、一実施形態に係る電子機器１において、自己符号化器は、対象者の画像に関連する第１生体情報Ｘ、内部状態を示す情報Ｙ、及び属性情報Ｄから、未知の値Ｚを介して、対象者の画像に関連する第２生体情報Ｘ’を再現する。すなわち、一実施形態に係る電子機器１において、自己符号化器は、対象者の視線の画像及び視線の特徴量（第１生体情報Ｘ）の少なくとも一方に基づいて、対象者の視線の画像及び視線の特徴量（第２生体情報Ｘ’）の少なくとも一方を再構成する機能を備える。本開示において、対象者の視線の画像及び視線の特徴量の少なくとも一方には、注視点の座標値（ｘ，ｙ）を含むとしてよい。また、本開示において、対象者の視線の画像及び視線の特徴量には、注視点の座標だけでなく、例えば瞳孔径若しくは眼球の回転情報、又はこれらの組み合わせなどの視線の特徴量が含まれるとしてもよい。本開示において、対象者の視線の画像及び視線の特徴量の少なくとも一方を抽出することを、単に「視線を抽出する」又は「視線を取得する」等と表記することがある。本開示において、対象者の視線の画像及び視線の特徴量の少なくとも一方を推定することを、単に「視線を推定する」又は「視線を算出する」等と表記することもある。また、本開示において、対象者の視線の画像及び視線の特徴量の少なくとも一方は、眼球領域を含む画像を含むとしてもよい。また、以下の説明において、ニューラルネットワークに入力される情報は、画像を処理した後に得られる生体情報であるため、上記眼球領域を含む画像を有する視線情報と定義してもよい。

一実施形態に係る電子機器１において、内部状態を示す情報Ｙを推定するために、例えば集中度とする内部状態の種々の場合について、対象者の視線の画像又は視線の特徴量（第２生体情報Ｘ’）を再構成してよい。例えば、対象者が移動体の運転のみに完全に集中している状態を意図的に作り出し、その時の内部状態を示す情報Ｙに対応する対象者の視線の画像又は視線の特徴量（第２生体情報Ｘ’）を、一実施形態に係る電子機器１の自己符号化器によって再構成してよい。また、例えば、対象者が移動体の運転に完全には集中していない状態を意図的に作り出し、その時の内部状態を示す情報Ｙに対応する対象者の視線の画像又は視線の特徴量（第２生体情報Ｘ’）を、一実施形態に係る電子機器１の自己符号化器によって再構成してよい。ここで、対象者が移動体の運転に完全には集中していない状態とは、運転者が運転以外のタスクに注意を奪われている状態であるとしてよい。例えば、運転者が移動体の運転中に、運転以外のタスクとして所定の暗算などを同時に行う状態としてもよい。そして、所定の暗算のレベル（比較的簡単な暗算又は比較的複雑な暗算など）に応じて、対象者が移動体の運転に完全には集中していない状態の度合いを段階的に調節してもよい。例えば、運転者が移動体の運転中に非常に簡単な暗算を同時に行う状態は、対象者が移動体の運転に完全には集中していないが比較的集中している状態としてもよい。また、運転者が移動体の運転中に相当複雑な暗算を同時に行う状態は、対象者が移動体の運転に比較的集中していない状態としてもよい。

上述のようにして、一実施形態に係る電子機器１において、内部状態を示す情報Ｙの種々の場合について、対象者の視線の画像又は視線の特徴量（第２生体情報Ｘ’）を再構成してよい。内部状態を示す情報Ｙは、例えば集中している状態においてＹ＝０とし、例えば集中していない状態においてＹ＝１などとしてよい。そして、種々の内部状態を示す情報Ｙに基づいて再構成される対象者の視線の画像（第２生体情報Ｘ’）が、元の対象者の視線の画像（第１生体情報Ｘ）を再現した度合いに応じて、内部状態を示す情報Ｙの妥当性を判断してよい。例えば、ある内部状態を示す情報Ｙ１に基づいて再構成された対象者の視線の画像（第２生体情報Ｘ’）が、元の対象者の視線の画像又は視線の特徴量（第１生体情報Ｘ）を再現する度合いが高い場合、内部状態を示す情報Ｙ１の妥当性は高い（すなわち正解に近い）と判断してよい。一方、ある内部状態を示す情報Ｙ２に基づいて再構成された対象者の視線の画像又は視線の特徴量（第２生体情報Ｘ’）が、元の対象者の視線の画像又は視線の特徴量（第１生体情報Ｘ）を再現する度合いが低い場合、内部状態を示す情報Ｙ２の妥当性は低い（すなわち正解から遠い）と判断してよい。このようにして、一実施形態に係る電子機器１は、第２生体情報Ｘ’による第１生体情報Ｘの再現度に基づいて、エンコーダＥＮＮ及びデコーダＤＮＮのパラメータを調整してよい。また、この再現度に加えて、エンコーダＥＮＮによって推定された未知の値Ｚの従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度も含めた損失関数に基づいて、エンコーダＥＮＮ及びデコーダＤＮＮのパラメータを調整してよい。この場合、所定の確率分布は、正規分布であってもよい。また、前述の場合、分布逸脱度はカルバック・ライブラダイバージェンスであってもよい。

図５は、一実施形態に係る電子機器１による学習フェーズを説明するフローチャートである。以下、図５を参照して、一実施形態に係る電子機器１による学習フェーズを説明する。

図５に示す学習フェーズの動作が開始するに際し、対象者（運転者）は移動体を運転しているものとする。ここで、対象者は、乗用車のような移動体を現実に運転していてもよいし、例えばドライブシミュレータを用いて仮想的に移動体を運転していてもよい。また、図５に示す動作が開始するに際し、撮像部２０は対象者の画像を撮像しているものとする。ここで、撮像部２０は、対象者の画像から対象者の視線の画像及び視線の特徴量の少なくとも一方が抽出できるように、対象者の視線を含む画像を撮像するものとしてよい。

また、図５に示す動作が開始するに際し、記憶部３０は、対象者の所定の属性情報を記憶しているものとする。ここで、対象者の所定の属性情報とは、例えば、対象者の性別、年齢、及び年齢の区分（２０代、３０代、４０代など）の少なくともいずれかを含むものとしてよいが、運転者の運転歴など他の属性情報であってもよい。記憶部３０は、上述のような対象者の所定の属性情報を予め記憶していてもよいし、必要に応じて対象者などに入力部などから入力を求めてもよいし、必要に応じて通信部などから受信してもよい。

図５に示す動作が開始すると、一実施形態に係る電子機器１の制御部１０は、撮像部２０によって撮像された対象者の画像を取得する（ステップＳ１１）。ステップＳ１１において取得される対象者の画像とは、上述のように、対象者の視線の画像及び視線の特徴量の少なくとも一方が抽出できるように、対象者の視線を含む画像としてよい。

ステップＳ１１において対象者の画像を取得したら、制御部１０の抽出部１２は、対象者の画像から対象者の注視点の位置の座標など、視線の画像及び視線の特徴量の少なくとも一方を抽出する（ステップＳ１２）。ステップＳ１２において、対象者の画像から対象者の視線を抽出する技術は、例えば画像認識などの任意の技術を採用してよい。このようにして、一実施形態に係る電子機器１の制御部１０は、ステップＳ１２において、対象者の画像から抽出される対象者の視線を含む第１生体情報Ｘを取得する。

ステップＳ１２において対象者の視線が抽出されたら、制御部１０は、対象者の所定の属性情報を取得する（ステップＳ１３）。ステップＳ１３において、制御部１０は、対象者の所定の属性情報を例えば記憶部３０から取得してよい。また、上述のように、対象者の所定の属性情報とは、例えば、対象者の性別、年齢、年齢の区分（２０代、３０代、４０代など）、及び運転歴の少なくともいずれかを含むものとしてよい。このようにして、一実施形態に係る電子機器１の制御部１０は、ステップＳ１３において、対象者の属性情報Ｄを取得する。本開示における運転歴は、運転期間、事故履歴、免許取得時期、免許保持期間、運転講習受講履歴、及び運転可能な車種情報などのうちの少なくとも１つを含むとしてよい。

ステップＳ１３において対象者の属性情報を取得したら、制御部１０の推定部１４は、未知の値を推定する（ステップＳ１４）。ステップＳ１４において、推定部１４は、自己符号化器のエンコーダＥＮＮによって、対象者の視線を含む第１生体情報Ｘ、対象者の属性情報Ｄ、及び対象者の内部状態を示す情報Ｙに基づいて、未知の値Ｚを推定してよい（図２参照）。ここで、対象者の内部状態を示す情報Ｙは、上述のように、外的に作り出した対象者の集中度に対応する値としてよい。

ステップＳ１４において未知の値が推定されたら、制御部１０の推定部１４は、対象者の視線を含む第２生体情報を推定する（ステップＳ１５）。ステップＳ１４において、推定部１４は、自己符号化器のデコーダＤＮＮによって、対象者の内部状態を示す情報Ｙ、未知の値Ｚ、及び対象者の属性情報Ｄに基づいて、対象者の視線を含む第２生体情報Ｘ’を推定してよい（図３参照）。

ステップＳ１５において第２生体情報Ｘ’が推定されたら、制御部１０は、エンコーダＥＮＮ及びデコーダＤＮＮのパラメータを調整する（ステップＳ１６）。ステップＳ１６において、制御部１０は、対象者の視線を含む第２生体情報Ｘ’によって、対象者の視線を含む第１生体情報Ｘが再現される度合いに基づいて、エンコーダＥＮＮ及びデコーダＤＮＮのパラメータを調整してよい。また、前述のように、この再現の度合いに加えて、エンコーダＥＮＮによって推論された未知の値Ｚの従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度も含めた損失関数に基づいて、エンコーダＥＮＮ及びデコーダＤＮＮのパラメータを調整してよい。以上のような学習フェーズにおける動作によって、一実施形態に係る電子機器１は学習を行うことができる。

このように、一実施形態に係る電子機器１において、制御部１０のエンコーダＥＮＮは、対象者の画像から抽出される対象者の視線を含む第１生体情報Ｘ、対象者の属性情報Ｄ、及び対象者の内部状態を示す情報Ｙに基づいて、未知の値Ｚを推定する。また、一実施形態に係る電子機器１において、制御部１０のデコーダＤＮＮは、未知の値Ｚ、対象者の属性情報Ｄ、及び対象者の内部状態を示す情報Ｙに基づいて、対象者の視線を含む第２生体情報Ｘ’を推定する。そして、一実施形態に係る電子機器１は、第２生体情報Ｘ’による第１生体情報Ｘの再現度、及び当該再現度と未知の値Ｚの分布逸脱度のうちの少なくとも一方に基づいて、エンコーダＥＮＮ及びデコーダＤＮＮのパラメータを調整する。

一実施形態において、対象者の内部状態を示す情報Ｙは、対象者の集中度を示す情報を含んでもよい。特に、一実施形態において、対象者の内部状態を示す情報Ｙは、対象者が乗り物を運転している最中の集中度を示す情報を含んでもよい。

また、一実施形態において、対象者の属性情報Ｄは、対象者の性別を含んでもよい。また、一実施形態において、対象者の属性情報Ｄは、対象者の年齢又は年齢の区分を含んでもよい。また、一実施形態において、対象者の属性情報Ｄは、対象者の運転歴などを含んでもよい。

一方、一実施形態において、対象者の性別、対象者の年齢、対象者の年齢の区分、及び対象者の運転歴の少なくともいずれかのような対象者の属性は、対象者の画像から推定されてもよい。例えば、一実施形態に係る電子機器１において、制御部１０（又は推定部１４）は、撮像部２０によって撮像された対象者の画像から、対象者の性別、対象者の年齢、対象者の年齢の区分、及び対象者の運転歴の少なくともいずれかのような対象者の属性を推定してもよい。ここで、対象者の属性は、対象者の画像から画像認識などの任意の技術によって推定されてよい。また、対象者の属性は、機械学習などによって、対象者の画像から推定される精度を向上させてもよい。すなわち、一実施形態において、対象者の属性情報Ｄは、対象者の画像に基づいて推定されてもよい。また、この画像から属性情報を推定する部分のみを事前に機械学習してもよい。その際、内部状態の推定に使用する学習データとは別のデータをつかって学習を行ってもよい。

上述のようにして、一実施形態に係る電子機器１は、学習フェーズを実行することにより、対象者の内部状態を推定することができる。以下、対象者の内部状態を推定するフェーズを、単に「推定フェーズ」と記すことがある。

図６は、一実施形態に係る電子機器１による推定フェーズを説明するフローチャートである。以下、図６を参照して、一実施形態に係る電子機器１による推定フェーズを説明する。

図６に示す推定フェーズの動作が開始するに際し、対象者（運転者）は移動体を運転しているものとする。ここで、対象者は、乗用車のような移動体を現実に運転しているものとする。また、検証実験のようなテストにおいては、対象者は、例えばドライブシミュレータを用いて仮想的に移動体を運転していてもよい。また、図６に示す動作が開始するに際し、撮像部２０は対象者の画像を撮像しているものとする。ここで、撮像部２０は、対象者の画像から対象者の視線が抽出できるように、対象者の視線を含む画像を撮像するものとしてよい。

また、図６に示す動作が開始するに際し、記憶部３０は、対象者の所定の属性情報を記憶しているものとする。ここで、対象者の所定の属性情報とは、例えば、対象者の性別、年齢、年齢の区分（２０代、３０代、４０代など）、及び運転歴の少なくともいずれかを含むものとしてよい。記憶部３０は、上述のような対象者の所定の属性情報を予め記憶していてもよいし、必要に応じて対象者などに入力部などから入力を求めてもよいし、必要に応じて通信部などから受信してもよい。

図６に示す動作が開始すると、一実施形態に係る電子機器１の制御部１０は、撮像部２０によって撮像された対象者の画像を取得する（ステップＳ２１）。ステップＳ２１において取得される対象者の画像とは、上述のように、対象者の視線が抽出できるように、対象者の視線を含む画像としてよい。ステップＳ２１の動作は、図５に示したステップＳ１１の動作と同様に行ってよい。

ステップＳ２１において対象者の画像を取得したら、制御部１０の抽出部１２は、対象者の画像から対象者の視線及び視線の特徴量のうちの少なくとも一方を抽出する（ステップＳ２２）。ステップＳ２２の動作は、図５に示したステップＳ１２の動作と同様に行ってよい。このようにして、一実施形態に係る電子機器１の制御部１０は、ステップＳ２２において、対象者の画像から抽出される対象者の視線を含む第１生体情報Ｘを取得する。

ステップＳ２２において対象者の視線が抽出されたら、制御部１０の推定部１４は、対象者の内部状態を示す情報Ｙを推定する（ステップＳ２３）。ステップＳ２３において推定される対象者の内部状態を示す情報Ｙは、例えば対象者の集中度を示す情報としてよい。特に、一実施形態において、対象者の内部状態を示す情報Ｙは、例えば対象者が乗用車のような乗り物（移動体）を運転している最中の集中度を示す情報を含んでよい。

ステップＳ２３において、一実施形態に係る電子機器１は、例えば以下のようにして、対象者の内部状態を示す情報Ｙを推定してよい。すなわち、例えば、一実施形態に係る電子機器１の制御部１０は、例えば集中している状態における内部状態を示す情報Ｙを０とし、例えば集中していない状態における内部状態を示す情報Ｙを１とするなどとして、複数の内部状態を示す情報Ｙを仮定する。同様に、一実施形態において、制御部１０は、例えば内部状態を示す情報Ｙを０から１の間で複数仮定してもよい。

そして、制御部１０は、このように仮定した複数の内部状態を示す情報Ｙのそれぞれについて、再構成された対象者の視線及び視線の特徴量のうちの少なくとも一方（第２生体情報Ｘ’）が、元の対象者の視線の画像（第１生体情報Ｘ）を再現する度合いを検証する。そして、推定部１４は、再構成された対象者の視線及び視線の特徴量のうちの少なくとも一方（第２生体情報Ｘ’）が、元の対象者の視線及び視線の特徴量のうちの少なくとも一方（第１生体情報Ｘ）を再現する度合い（再現度）を最も高くする内部状態を示す情報Ｙを、その時の対象者の内部状態（集中度）と推定する。例えば、対象者の内部状態を示す情報Ｙが０の時に、上述の再現度が最も高くなる場合、推定部１４は、対象者が集中している状態と推定してよい。一方、例えば、対象者の内部状態を示す情報Ｙが１の時に、上述の再現度が最も高くなる場合、推定部１４は、対象者が集中していない状態と推定してよい。また、例えば、対象者の内部状態を示す情報Ｙが０から１の間の値の時に、上述の再現度が最も高くなる場合、推定部１４は、対象者が当該値に対応する集中度である状態と推定してよい。また、推定部１４は、エンコーダＥＮＮが推定した未知の値Ｚの従う確率分布が所定の確率分布からどれくらい逸脱しているかを表す分布逸脱度を用いて対象者の内部状態を推定してもよい。当該所定の確率分布は正規分布であってもよい。当該分野逸脱度はカルバック・ライブラダイバージェンスを用いてもよい。

ステップＳ２３において対象者の内部状態を示す情報Ｙが推定されたら、判定部１６は、推定された集中度が所定の閾値以下であるか否かを判定する（ステップＳ２４）。ステップＳ２４の処理を行うに際し、対象者の集中度について警報を出す基準となる所定の閾値を予め設定しておいてよい。このようにして設定された所定の閾値は、例えば記憶部３０に記憶してもよい。ステップＳ２４において、判定部１６は、推定された集中度が所定の閾値以下であるか否かのように、推定された集中度が所定の条件を満たすか否かを判定してよい。

ステップＳ２４において集中度が所定の閾値以下である（集中度が低下した）場合、判定部１６は、所定の警報を報知部４０から出力して（ステップＳ２５）、図６に示す動作を終了してよい。一方、ステップＳ２４において集中度が所定の閾値以下でない（集中度が低下していない）場合、判定部１６は、図６に示す動作を終了してよい。図６に示す動作が終了すると、制御部１０は、適宜、図６に示す処理を再び開始してもよい。

このように、一実施形態に係る電子機器１において、制御部１０のエンコーダＥＮＮは、対象者の画像から抽出される対象者の視線を含む第１生体情報Ｘ、対象者の属性情報Ｄ、及び対象者の内部状態を示す情報Ｙとして仮定される値に基づいて、未知の値Ｚを推定する。また、一実施形態に係る電子機器１において、制御部１０のデコーダＤＮＮは、未知の値Ｚ、対象者の属性情報Ｄ、及び対象者の内部状態を示す情報Ｙとして仮定される値に基づいて、対象者の視線を含む第２生体情報Ｘ’を推定する。そして、一実施形態に係る電子機器１は、対象者の内部状態を示す情報Ｙとして複数の値を仮定して、その複数の値のうち第２生体情報Ｘ’による第１生体情報Ｘの再現度が最も高くなる値を、対象者の内部状態を示す情報Ｙと推定する。また、一実施形態に係る電子機器１において、当該再現度に加えて、エンコーダＥＮＮが推定した未知の値Ｚの従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度も考慮して、対象者の内部状態を示す情報Ｙと推定するとしてもよい。当該所定の確率分布は正規分布であってもよい。当該分野逸脱度はカルバック・ライブラダイバージェンスを用いてもよい。

一実施形態に係る電子機器１は、対象者の内部状態を示す情報Ｙとして仮定される複数の値のうち第２生体情報Ｘ’による第１生体情報Ｘの再現度が最も高くなる値が所定の条件を満たす場合、所定の警報を出力してもよい。また、当該再現度に加えて、エンコーダＥＮＮが推定した未知の値Ｚの従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度も考慮して所定の警報を出力するかを決定してもよい。当該所定の確率分布は正規分布であってもよい。当該分野逸脱度はカルバック・ライブラダイバージェンスを用いてもよい。

以上のように、一実施形態に係る電子機器１は、対象者の内部状態を原因として、対象者の視線を含む生体情報が生成されるというモデルに基づいて、対象者の内部状態を推定することができる。したがって、一実施形態に係る電子機器１は、自然な因果関係によって、対象者の集中度のような内部状態を合理的に推定することができる。また、一実施形態に係る電子機器１は、例えば移動体を運転中の対象者の集中度が低下したら、所定の警報を出力することができる。したがって、一実施形態に係る電子機器１によれば、例えば移動体を運転中の対象者の安全性を高めることができる。

一般的に、人間の視線及び／又は注意行動などは、本来個体差が大きいものである。例えば、高齢者は若年者より視線の可動域が狭いなどの例を挙げることができる。したがって、対象者の内部状態を推定する際には、例えば上述のような個体差を適切に考慮しないと、良好な精度の結果が得られないことが懸念される。また、対象者の内部状態を推定する際には、推定結果がどのようなモデルに基づくものなのか、ユーザに客観的に説明可能であることが望ましい。

例えば、対象者を撮像した画像から、対象者の集中度のような内部状態を推定する場合、従来の機械学習のように、両者の因果関係とは逆に、すなわち対象者の視線などの生体反応データから内部状態を推定するように学習を行うことも想定される。しかしながら、このような場合、因果関係が逆のモデル構造であるがゆえにそのモデル内部のデータ構造がブラックボックス化されてしまうため、要因を特定できずに誤った構造を学習してしまうおそれがある。また、因果関係がブラックボックス化されるため、因果関係のモデルをユーザに客観的に説明することは困難になる。

一実施形態に係る電子機器１において対象者の内部状態を推定するアルゴリズムは、一般の認識モデル又は回帰モデルとは異なる生成モデルに基づくものである。電子機器１における生成モデルは、対象者の内部状態及び対象者の属性（年齢・性別など）を原因として、対象者の視線が生成されるという過程を、データから学習する。このため、一実施形態に係る電子機器１によれば、対象者の個体の属性を考慮して推定精度を向上させることが期待できる。また、一実施形態に係る電子機器１によれば、データ生成過程を踏まえたメカニズムをユーザに客観的に説明することができる。一実施形態によれば、対象者の集中度のような内部状態を、データ生成過程に基づいて合理的に推定することができる。

以下、他の実施形態について説明する。

図７は、他の実施形態に係る電子機器の機能的な概略構成を示すブロック図である。

図７に示すように、他の実施形態に係る電子機器２は、図１に示した電子機器１と異なり、第１撮像部２１及び第２撮像部２２を備えている。

図７に示す第１撮像部２１は、図１に示した撮像部２０と同様に機能するものとしてよい。すなわち、図７に示す第１撮像部２１は、対象者の画像を撮像するものとしてよい。このため、図７に示す第１撮像部２１は、図１に示した撮像部２０と同様に、例えば乗用車のような移動体の内部前方において、運転者に向けて設置されてよい。

一方、図７に示す第２撮像部２２は、対象者が見得る風景の画像を撮像するものとしてよい。すなわち、第２撮像部２２は、対象者の視線の先の風景を含む画像（例えば周辺画像）を撮像するものとしてよい。このため、図７に示す第２撮像部２２は、第１撮像部２１とは異なり、例えば乗用車のような移動体の前方を向くように、すなわち運転者の視線と同じ方向に向くように設置されてよい。

図７に示すように、第２撮像部２２によって撮像された画像のデータは、制御部１０の視線予測部１８に供給される。視線予測部１８は、対象者が見得る風景の画像において、対象者の視線を予測する。一実施形態において、視線予測部１８は、対象者の視線の先の風景を含む画像（例えば周辺画像）から、対象者の視線が向けられると予測されるマップ（視線予測マップ）を推定するものとしてよい。対象者が見得る風景の画像に基づいて視線予測マップを生成する技術は、既存の任意の技術を採用してよい。

図７に示すように、視線予測部１８によって推定された視線予測マップのデータは、推定部１４に供給されてよい。推定部１４は、対象者の内部状態を推定するに際し、学習フェーズ及び／又は推定フェーズにおいて、上述の動作に視線予測マップのデータを加味してよい。具体的には、例えば、上述した対使用者の属性情報Ｄの一部として、視線予測マップのデータを含ませてもよい。

このように、一実施形態に係る電子機器２において、対象者の属性情報Ｄは、対象者の視線を予測する情報を含んでもよい。また、この場合、対象者の視線を予測する情報は、対象者の前方の風景画像から予測される情報としてもよい。

図７に示す電子機器２は、図１に示した電子機器１において、さらに対象者の視線予測マップのデータにも基づいて対象者の内部状態を推定することができる。したがって、図７に示す電子機器２は、環境によっては図１に示した電子機器１よりも高い推定精度が期待できる。

図７においては、第２撮像部２２は、第１撮像部２１とは別の部材として示した。しかしながら、例えば、３６０°撮像可能なドライブレコーダのように１つの撮像部によって撮像された画像から、第１撮像部２１及び第２撮像部２２がそれぞれ使用する画像のデータを抽出してもよい。

次に、上述した実施形態の変形例について説明する。

上述した実施形態において、対象者の内部状態を示す情報Ｙは、（乗用車のような移動体を運転している）対象者の集中度を示す情報を含むものとして説明した。一実施形態に係る電子機器において、推定部１４は、対象者の内部状態を示す情報Ｙとして、対象者の感情又は気分を示す情報を含んで推定してもよい。ここで、対象者の感情又は気分を示す情報とは、例えば、対象者のストレスの度合いを示す情報、対象者の苛つき又は怒りの感情を示す情報、対象者の疲れ、不安又は心配事を抱えた感情を示す情報など、種々の情報としてよい。

対象者の内部状態を示す情報Ｙとして、対象者の感情又は気分を示す情報を含んで推定することにより、一実施形態に係る電子機器は、例えば対象者の集中度が低下した場合に、対象者の感情又は気分に応じた警報を出力することができる。例えば、一実施形態に係る電子機器の推定部１４は、図６のステップＳ２３において、対象者の内部状態を推定する際に、対象者の感情又は気分を示す情報も含んで推定してよい。そして、一実施形態に係る電子機器の制御部１０は、図６のステップＳ２５において、対象者の感情又は気分に応じて、所定の警報を出力してよい。具体的には、対象者の集中度が低下した際に、対象者の苛つき又は怒りの感情が示される場合、一実施形態に係る電子機器の制御部１０は、例えば対象者をなだめるような口調及び／又は言葉遣いの警報を出力してもよい。

このように、一実施形態に係る電子機器において、対象者の内部状態を示す情報Ｙは、対象者の感情又は気分を示す情報を含んでもよい。また、一実施形態に係る電子機器は、例えば対象者の集中度が所定以下に低下した場合、所定の警報として、対象者の感情又は気分に応じた警報を出力してもよい。

上述した実施形態の変形例に係る電子機器１は、対象者の感情又は気分に応じた警報を出力することができる。したがって、上述した実施形態の変形例に係る電子機器１は、例えば移動体を運転中の対象者の安全性を一層高めることが期待できる。

本開示の内容は、当業者であれば本開示に基づき種々の変形及び修正を行うことができる。したがって、これらの変形及び修正は本開示の範囲に含まれる。例えば、各実施形態において、各機能部、各手段、各ステップなどは論理的に矛盾しないように他の実施形態に追加し、若しくは、他の実施形態の各機能部、各手段、各ステップなどと置き換えることが可能である。また、各実施形態において、複数の各機能部、各手段、各ステップなどを１つに組み合わせたり、或いは分割したりすることが可能である。また、上述した本開示の各実施形態は、それぞれ説明した各実施形態に忠実に実施することに限定されるものではなく、適宜、各特徴を組み合わせたり、一部を省略したりして実施することもできる。

１，２電子機器
１０制御部
１２抽出部
１４推定部
１６判定部
１８視線予測部
２０撮像部
２１第１撮像部
２２第２撮像部
３０記憶部
４０報知部
ＥＮＮエンコーダ
ＤＮＮデコーダ

Claims

対象者の画像から抽出される前記対象者の視線を含む第１生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、未知の値を推定するエンコーダと、
前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、前記対象者の視線を含む第２生体情報を推定するデコーダと、
を備え、
前記第２生体情報による前記第１生体情報の再現度に基づいて、前記エンコーダ及び前記デコーダのパラメータを調整する、電子機器。
対象者の画像から抽出される前記対象者の視線を含む第１生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、未知の値を推定するエンコーダと、
前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、前記対象者の視線を含む第２生体情報を推定するデコーダと、
前記対象者の内部状態を示す情報として複数の値を仮定して、当該複数の値のうち前記第２生体情報による前記第１生体情報の再現度が最も高くなる値を、前記対象者の内部状態を示す情報と推定する推定部と、を備える電子機器。
前記複数の値のうち前記第２生体情報による前記第１生体情報の再現度が最も高くなる値が所定の条件を満たす場合、所定の警報を出力する、請求項２に記載の電子機器。
前記対象者の内部状態を示す情報は、前記対象者の集中度を示す情報を含む、請求項１から３のいずれかに記載の電子機器。
前記対象者の内部状態を示す情報は、前記対象者が乗り物を運転している最中の集中度を示す情報を含む、請求項４に記載の電子機器。
前記エンコーダ及び前記デコーダのパラメータの調整は、
前記再現度に加えて、前記エンコーダが推定した前記未知の値の従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度に基づいて行われる、請求項１に記載の電子機器。
前記推定部は、
前記エンコーダが推定した前記未知の値の従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度に基づいて推定を行う、請求項２に記載の電子機器。
前記対象者の内部状態を示す情報は、前記対象者の感情又は気分を示す情報を含む、請求項１から７のいずれかに記載の電子機器。
前記所定の警報として、前記対象者の感情又は気分に応じた警報を出力する、請求項３を引用する請求項８に記載の電子機器。
前記対象者の属性情報は、前記対象者の性別を含む、請求項１から９のいずれかに記載の電子機器。
前記対象者の属性情報は、前記対象者の年齢又は年齢の区分を含む、請求項１から１０のいずれかに記載の電子機器。
前記対象者の属性情報は、前記対象者の画像に基づいて推定される、請求項１から１１のいずれかに記載の電子機器。
前記対象者の属性情報は、前記対象者の視線を予測する情報を含む、請求項１から１２のいずれかに記載の電子機器。
前記対象者の視線を予測する情報は、前記対象者の前方の風景画像から予測される情報である、請求項１３に記載の電子機器。
対象者の画像から抽出される前記対象者の視線を含む第１生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、未知の値を推定するエンコードステップと、
前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、前記対象者の視線を含む第２生体情報を推定するデコードステップと、
前記第２生体情報による前記第１生体情報の再現度に基づいて、前記エンコードステップ及び前記デコードステップにおけるパラメータを調整するステップと、
を含む、電子機器の制御方法。
対象者の画像から抽出される前記対象者の視線を含む第１生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、未知の値を推定するエンコードステップと、
前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、前記対象者の視線を含む第２生体情報を推定するデコードステップと、
前記対象者の内部状態を示す情報として複数の値を仮定して、当該複数の値のうち前記第２生体情報による前記第１生体情報の再現度が最も高くなる値を、前記対象者の内部状態を示す情報と推定するステップと、
を含む、電子機器の制御方法。
前記エンコードステップ及び前記デコードステップにおけるパラメータを調整するステップは、
前記エンコーダが推定した前記未知の値の従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度に基づいて行われる、請求項１５に記載の電子機器の制御方法。
前記対象者の内部状態を示す情報を推定するステップは、
前記エンコードステップにて推定した前記未知の値の従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度に基づいて行われる、請求項１６に記載の電子機器の制御方法。
電子機器に、
対象者の画像から抽出される前記対象者の視線を含む第１生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、未知の値を推定するエンコードステップと、
前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報に基づいて、前記対象者の視線を含む第２生体情報を推定するデコードステップと、
前記第２生体情報による前記第１生体情報の再現度に基づいて、前記エンコードステップ及び前記デコードステップにおけるパラメータを調整するステップと、
を実行させる、プログラム。
電子機器に、
対象者の画像から抽出される前記対象者の視線を含む第１生体情報、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、未知の値を推定するエンコードステップと、
前記未知の値、前記対象者の属性情報、及び前記対象者の内部状態を示す情報として仮定される値に基づいて、前記対象者の視線を含む第２生体情報を推定するデコードステップと、
前記対象者の内部状態を示す情報として複数の値を仮定して、当該複数の値のうち前記第２生体情報による前記第１生体情報の再現度が最も高くなる値を、前記対象者の内部状態を示す情報と推定するステップと、
を実行させる、プログラム。
前記エンコードステップ及び前記デコードステップにおけるパラメータを調整するステップは、
前記エンコーダが推定した未知の値の従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度に基づいて行われる、請求項１９に記載したプログラム。
前記対象者の内部状態を示す情報を推定するステップは、
前記エンコードステップにて推定した前記未知の値の従う確率分布が所定の確率分布からどのくらい逸脱しているかを表す分布逸脱度に基づいて行われる、請求項２０に記載のプログラム。