JP7233031B2

JP7233031B2 - 環境制御システム及び環境制御方法

Info

Publication number: JP7233031B2
Application number: JP2018244255A
Authority: JP
Inventors: 和樹原田; 健太郎山内; ゆり藤原; 由布川瀬; 順平薮亀
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2023-03-06
Anticipated expiration: 2038-12-27
Also published as: JP2020103508A

Description

本発明は、仮眠のための環境制御機器の制御内容を決定する環境制御システム及び環境制御方法に関する。

従来、非接触生体運動センサ等を用いてユーザの睡眠を計測し、計測により得られる睡眠情報等に基づいて、ユーザの良好な睡眠習慣を促進するための睡眠アドバイスを提案するシステムが開示されている（例えば、特許文献１を参照）。

特表２０１６－５３２４８１号公報

しかしながら、従来のシステムは、アドバイスを提案するだけで実際に環境制御機器の制御を行わない。つまり、従来のシステムでは、ユーザが自身で環境制御機器の動作を睡眠アドバイスに応じて変更する必要があり、手間である。また、環境制御システムは、短時間の睡眠（仮眠）において、仮眠効果を高める仮眠支援を行うことが望まれている。

そこで、本発明は、仮眠効果が高い仮眠支援を実行することができる環境制御システム及び環境制御方法を提供する。

本発明の一態様に係る環境制御システムは、ユーザの行動を示す行動指標情報を含む入力情報を取得する第１取得部と、制御内容決定ルールに従って、前記入力情報から、前記ユーザを仮眠させるための制御内容であって、光を出力する機器を含む環境制御機器の制御内容を決定する決定部と、決定された前記制御内容に基づいて前記環境制御機器を制御する制御部と、前記制御内容に対する前記ユーザの評価を示す評価情報を取得する第２取得部と、前記評価情報に基づく値を報酬として用いる機械学習によって前記制御内容決定ルールを更新する更新部とを備える。

本発明の一態様に係る環境制御方法は、ユーザの行動を示す行動指標情報を含む入力情報を取得する第１取得ステップと、制御内容決定ルールに従って、前記入力情報から、前記ユーザを仮眠させるための制御内容であって、光を出力する機器を含む環境制御機器の制御内容を決定する決定ステップと、決定された前記制御内容に基づいて前記環境制御機器を制御する制御ステップと、前記制御内容に対する前記ユーザの評価を示す評価情報を取得する第２取得ステップと、前記評価情報に基づく値を報酬として用いる機械学習によって前記制御内容決定ルールを更新する更新ステップとを含む。

なお、これらの包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本発明の一態様に係る環境制御システム及び環境制御方法によれば、仮眠効果が高い仮眠支援を実行することができる。

図１は、実施の形態１に係る環境制御システムの構成を示すブロック図である。図２Ａは、実施の形態１に係る環境制御装置に入力される入力情報の一例である。図２Ｂは、実施の形態１に係る環境制御装置が出力する出力情報の一例である。図３は、実施の形態１に係る環境制御装置が決定する制御内容の一例を説明するための第１図である。図４は、実施の形態１に係る環境制御装置が決定する制御内容の一例を説明するための第２図である。図５は、実施の形態１に係る環境制御装置が決定する制御内容の一例を説明するための第３図である。図６は、実施の形態１に係る環境制御装置に入力される報酬の一例である。図７は、実施の形態１に係る環境制御装置の処理を示すフローチャートである。図８は、実施の形態１に係る環境制御装置における報酬を算出する処理を示すフローチャートである。図９Ａは、実施の形態に係る環境制御装置における仮眠の質に対する個別報酬を算出する処理を示すフローチャートである。図９Ｂは、実施の形態に係る環境制御装置における入眠までの時間に対する個別報酬を算出する処理を示すフローチャートである。図９Ｃは、実施の形態に係る環境制御装置における回復効果に対する個別報酬を算出する処理を示すフローチャートである。図９Ｄは、実施の形態に係る環境制御装置における快適性に対する個別報酬を算出する処理を示すフローチャートである。図１０は、実施の形態１の変形例１に係る環境制御システムの構成を示すブロック図である。図１１は、実施の形態１の変形例２に係る環境制御装置におけるニューラルネットワークの一例を示す概念図である。図１２は、実施の形態１の変形例２における複数の制御内容の具体例を示す図である。図１３は、実施の形態２に係る環境制御システムの構成を示すブロック図である。

以下、実施の形態に係る環境制御システム、及び、環境制御方法について、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置、接続形態、ステップ、及び、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略又は簡略化される場合がある。

また、本明細書において、数値、および、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度の差異をも含むことを意味する表現である。

（実施の形態１）
以下、本実施の形態に係る環境制御システム１０について、図１～図９Ｄを参照しながら説明する。環境制御システム１０は、ユーザが仮眠をとる場合に、仮眠するときの環境制御を行う仮眠支援システムである。なお、仮眠とは、短時間の睡眠であり、例えば、作業の途中で当該作業を中断して行われる睡眠である。作業は、例えば、業務、執務、勉強、又は、読書などの頭を使う知的作業であってもよいし、車の運転、機械の操作、物品の制作などの手足を使う作業であってもよい。仮眠は、業務の休憩時間等に行われる睡眠であってもよく、例えば、昼寝である。また、夜勤等の警備員等が業務の途中でとる睡眠も仮眠に含まれる。仮眠とは、１～２時間以内の睡眠であり、例えば、３０分程度の睡眠である。また、仮眠は、日中に活動している人が夜にとる長時間の睡眠（以降において、本睡眠とも記載する）より浅い睡眠である。

また、以下の説明では、業務としてオフィスでパソコンを用いて仕事をしているユーザが、当該オフィスに設置された仮眠室で仮眠をとる場合を例として説明する。

［１.環境制御システムの構成］
まず、環境制御システム１０の全体構成について説明する。図１は、本実施の形態に係る環境制御システム１０の構成を示すブロック図である。本実施の形態に係る環境制御システム１０は、環境制御装置１００と、センサ２００と、入力装置３００と、環境制御機器４００とを備える。

環境制御装置１００は、ユーザの行動を示す行動指標情報を含む入力情報を取得し、取得した入力情報に合わせてユーザが仮眠をとるための仮眠室における環境制御機器４００の制御内容を決定し、その制御内容を当該環境制御機器４００に出力し、実行させる。この環境制御装置１００の詳細については後述する。制御内容には、少なくとも光に関する制御条件が含まれる。また、制御内容には、さらに映像、音、香り、振動、温湿度、及び、気流の少なくとも１つに関する制御条件が含まれていてもよい。

センサ２００は、ユーザの行動を検出する。また、センサ２００は、検出したユーザの行動に基づく情報を行動指標情報とし、当該行動指標情報を含む入力情報を環境制御装置１００の第１取得部１１０に出力する。センサ２００は、当該行動指標情報を含む入力情報を第１取得部１１０に出力する。センサ２００は、ユーザを撮像する撮像装置であってもよいし、ユーザが活動している環境の照度を計測する照度センサであってもよいし、ユーザが座る椅子に設けられた圧力センサであってもよいし、温度センサであってもよい。撮像装置は、可視光帯域に感度を有するイメージセンサであるが、赤外線イメージセンサ又は熱画像センサであってもよい。撮像装置が撮像する画像は、例えば動画であるが静止画であってもよい。また、センサ２００は、ユーザの行動を検出可能な他のセンサであってもよいし、それらの組み合わせであってもよい。なお、センサ２００は、検出装置の一例である。以下では、センサ２００が撮像装置であり、ユーザを撮像した画像からユーザのタイプスピードを計測しているとする。

センサ２００は、オフィス及び仮眠室のそれぞれでユーザをセンシングできるように設けられる。センサ２００は、例えば、オフィス及び仮眠室のそれぞれに配置されていてもよい。センサ２００は、仮眠前の作業中のユーザをセンシングしたセンシング結果を行動指標情報として第１取得部１１０に出力する。

また、センサ２００は、仮眠中のユーザ及び仮眠後の作業中のユーザをセンシングしたセンシング結果を評価情報として第２取得部１５０に出力してもよい。つまり、センサ２００は、入力情報に加えて評価情報を出力してもよい。なお、評価情報は、仮眠における評価を示す情報である。

入力装置３００は、ユーザから評価情報を取得し、取得した評価情報を第２取得部１５０に出力する。入力装置３００は、例えば、仮眠後のユーザから取得した情報を評価情報として第２取得部１５０に出力してもよい。入力装置３００は、例えば、スマートフォン及びタブレットコンピュータであり、タッチディスプレイを介して仮眠に対する評価情報の入力を受ける。なお、入力装置３００は、ユーザが着用可能なウェアラブルデバイス（例えば、スマートウォッチ）であってもよい。また、入力装置３００は、例えば、マイクロフォンであってもよい。この場合、入力装置３００は、ユーザから音声入力を受ける。また、入力装置３００は、例えば、機械式のプッシュボタン、キーボード、又はマウスなどであってもよい。

入力装置３００は、さらに、仮眠前のユーザから取得した情報を入力情報として第１取得部１１０に出力してもよい。つまり、入力装置３００は、評価情報に加えて入力情報を出力してもよい。また、入力装置３００は、ユーザから仮眠環境の制御を開始する操作を取得してもよい。

なお、環境制御システム１０が備えるセンサ２００及び入力装置３００の数は特に限定されない。

環境制御機器４００は、仮眠を支援するための機器である。例えば、環境制御機器４００は、仮眠室内の環境を制御する。環境制御機器４００は、光を出力する機器（例えば、照明機器）、つまり光によりユーザに刺激を与える機器を含む。なお、環境制御機器４００は、さらに照明機器以外の機器であって、仮眠のための環境を制御可能な他の機器を含んでもよい。環境制御機器４００は、光以外に、さらに、映像、音、香り、振動、温湿度、気流、及び、触感などによりユーザに刺激を与える機器を含んでもよい。例えば、環境制御機器４００は、さらに、エアコン、空気清浄機、換気扇、扇風機又は床暖房などを含んでいてもよい。また、例えば、環境制御機器４００は、窓を開閉可能に覆う遮光設備（例えばブラインド及びカーテンなど）の開閉機器を含んでもよい。また、例えば、環境制御機器４００は、映像機器、音響機器又は映像音響機器を含んでもよい。また、例えば、環境制御機器４００は、芳香器を含んでもよい。また、例えば、環境制御機器４００は、マッサージ器を含んでもよい。本実施の形態では、環境制御機器４００が照明機器である場合について説明する。

［１－１．環境制御装置の構成］
次に、環境制御装置１００の詳細な構成について説明する。図１に示すように、環境制御装置１００は、第１取得部１１０と、決定部１２０と、制御部１３０と、表示部１４０と、第２取得部１５０と、報酬算出部１６０と、報酬条件設定部１７０と、更新部１８０と、記憶部１９０とを備える。また、環境制御装置１００では、報酬算出部１６０と、報酬条件設定部１７０と、更新部１８０と、記憶部１９０とで学習部１００ｂが構成され、第１取得部１１０と、決定部１２０と、表示部１４０と、第２取得部１５０と、学習部１００ｂとで学習器１００ａ（エージェント）が構成される。学習部１００ｂは、制御内容を入力情報及び評価情報に関連付けて学習する。

環境制御装置１００は、例えば、プロセッサ及びメモリを含んで構成される。例えば、メモリに格納されたソフトウェアプログラムをプロセッサが実行したときに、当該プロセッサが、第１取得部１１０と、決定部１２０と、制御部１３０と、表示部１４０と、第２取得部１５０と、報酬算出部１６０と、報酬条件設定部１７０と、更新部１８０として機能する。また、環境制御装置１００は、第１取得部１１０、決定部１２０、制御部１３０、表示部１４０、第２取得部１５０、報酬算出部１６０、報酬条件設定部１７０、及び、更新部１８０に対応する専用の１以上の電子回路として実現されてもよい。

第１取得部１１０は、ユーザの行動を示す行動指標情報を含む入力情報を取得する。第１取得部１１０は、センサ２００から入力情報を取得する。なお、第１取得部１１０は、入力装置３００から入力情報を取得してもよい。

決定部１２０は、制御内容決定ルールに従って、入力情報からユーザを仮眠させるための制御内容であって、光を出力する機器を含む環境制御機器４００を制御する制御内容を決定する。制御内容決定ルールは、記憶部１９０に記憶されている。

制御内容決定ルールは、例えば、制御内容の価値を決定する行動価値関数で表される。決定部１２０は、例えば、行動価値関数を用いて、入力情報から報酬が最も高くなる制御内容（例えば、入眠効果に対する最大限の報酬が得られる制御内容）を当該入力情報に対する制御内容であると決定する。報酬が最も高くなる制御内容は、ユーザそれぞれで異なる場合がある。そのため、決定部１２０は、ユーザに対応する制御内容決定ルールに従って、制御内容に対する当該ユーザの報酬を算出してもよい。なお、行動価値関数は、価値関数の一例である。

なお、決定部１２０は、環境制御機器４００が他の機器（例えば、照明機器以外の機器）を有する場合、他の機器を含む環境制御機器４００の制御内容を決定する。

制御部１３０は、決定部１２０で決定された制御内容に基づいて環境制御機器４００を制御する。具体的には、制御部１３０は、制御内容に対応する制御信号を環境制御機器４００に出力する。

表示部１４０は、決定部１２０で決定した各種情報を表示する装置である。表示部１４０は、例えば、入力情報、制御内容、及び、評価結果に基づく情報の少なくとも１つを画像として出力する。画像は、写真、動画、イラスト、文字等を含む。表示部１４０は、液晶ディスプレイ等である。表示部１４０は、出力部の一例である。

なお、環境制御装置１００は、出力部として表示部１４０に替えて、又は、表示部１４０とともに、音声を出力する装置を有していてもよい。また、環境制御装置１００は、プロジェクタなどの対象物（例えば、スクリーン）に情報を表示する装置を表示部１４０として備えていてもよい。

第２取得部１５０は、入力装置３００から制御内容に対するユーザの仮眠における評価を示す評価情報を取得する。評価情報は、決定部１２０が決定した制御内容に基づいて環境制御機器４００を制御した結果に対する評価を示す情報を含み、例えば、環境制御後に入力装置３００を介してユーザから入力された情報を含む。例えば、第２取得部１５０は、ユーザによって入力された仮眠の質、入眠導入効果、回復効果、及び、快適感の少なくとも１つを示す値を入力装置３００から取得する。また、例えば、第２取得部１５０は、入力装置３００から音声信号を受信し、音声認識により所定のキーワードの発言を検出することにより評価情報を取得してもよい。快適感を例に説明すると、所定のキーワードは、仮眠に対するユーザの快適性等を示す予め定められたキーワードである。例えば、所定のキーワードは、「快適」あるいは「不快」などである。

報酬算出部１６０は、第２取得部１５０が取得した評価情報に基づいて報酬を算出する。評価情報は、１以上の項目情報を含み、報酬算出部１６０は、１以上の項目情報ごとに個別報酬を算出し、算出した１以上の個別報酬を演算することで、制御内容に対する報酬を算出する。報酬の詳細については、図６を用いて後述する。なお、演算とは、例えば、重み付け加算であるが、これに限定されない。また、報酬を算出する処理については、図７～図９Ｄを用いて後述する。

報酬条件設定部１７０は、報酬算出部１６０における報酬の算出における条件を設定する。報酬条件設定部１７０は、例えば、１以上の個別報酬を重み付け加算するときの重みを設定する。条件は、予め記憶部１９０に記憶されていてもよいし、入力装置３００を介してユーザにより設定されてもよい。また、報酬条件設定部１７０は、ユーザが仮眠するときの天気、季節及び時間帯の少なくとも１つに応じて、条件（例えば、重み）を変更してもよい。天気、季節及び時間帯が、例えば、第１取得部１１０が取得した入力情報に含まれている場合、報酬条件設定部１７０は、第１取得部１１０から天気、季節及び時間帯に関する情報を取得してもよい。また、報酬条件設定部１７０は、環境制御装置１００が備える、現在時刻を計測する汎用のタイマＩＣ（タイマ回路）、又は、リアルタイムクロックＩＣなどから季節及び時間帯に関する情報を取得してもよい。なお、重みに固定の値を用いる場合、及び、重み付けを行わない場合には、報酬条件設定部１７０は、設けられなくてもよい。

更新部１８０は、第２取得部１５０が取得した評価情報に基づく値を報酬として用いる機械学習によって制御内容決定ルールを更新する。更新部１８０は、決定部１２０が決定した制御内容に対する報酬であって報酬算出部１６０が算出した報酬に基づいた強化学習により、ユーザに適応した制御内容（すなわち、当該ユーザにおける報酬が最も多く得られる制御内容）の決定を学習する。本実施の形態では、更新部１８０は、行動価値関数を更新することで、制御内容決定ルールを更新する。

強化学習の代表的な手法としては、Ｑ学習やＴＤ学習が知られている。以下、Ｑ学習を例に説明する。Ｑ学習は、入力情報が示すユーザの身体状態ｓの下で、制御内容ａを選択する価値Ｑ（ｓ、ａ）を学習する方法であって、ある身体状態ｓのとき、価値Ｑ（ｓ、ａ）の最も高い制御内容ａを最適な制御内容として選択する。学習器１００ａは、ある身体状態ｓの下で様々な制御内容ａを選択し、そのときの制御内容ａに対して報酬が与えられる。それにより、学習器１００ａは、よりよい制御内容の選択、すなわち正しい価値Ｑ（ｓ、ａ）を学習していく。このような価値Ｑ（ｓ、ａ）の更新式は、例えば、式１により表すことができる。

ここで、ｓ_ｔは、時刻tにおける身体状態ｓの状態を表し、ａ_ｔは、時刻tにおける制御内容を表す。制御内容ａ_ｔにより、身体状態はｓ_ｔ＋１に変化する。ｒ_ｔ＋１は、その身体状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、身体状態ｓ_ｔ＋１の下で、そのときに分かっている最もＱ値の高い制御内容ａ_ｔ＋１を選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

図１を再び参照して、記憶部１９０は、決定部１２０が決定した制御内容を格納する。記憶部１９０は、入力情報及び制御内容のうち、制御内容のみを格納する。記憶部１９０は、例えば、決定部１２０が決定した制御内容を当該制御内容に対応する入力情報と対応付けずに格納する。なお、記憶部１９０は、さらに上記の制御内容決定ルール等を格納する。制御内容決定ルールは、例えば、学習された結果である学習結果の一例である。

［１－２．入力情報等の説明］
次に、決定部１２０で用いられる入力情報及び決定部１２０で決定される制御内容等について説明する。

まず、センサ２００及び入力装置３００の少なくとも一方から出力される入力情報について、図２Ａを参照しながら説明する。図２Ａは、本実施の形態に係る環境制御装置１００に入力される入力情報の一例である。具体的には、第１取得部１１０が取得する入力情報の一例である。

図２Ａに示すように、入力情報は、ユーザの行動を示す「行動指標情報」と、ユーザの心身の状態における自己評価の結果を示す「主観指標情報」と、ユーザのスケジュールを示す「スケジュール情報」と、ユーザの過去の仮眠の履歴を示す「利用履歴情報」と、現在の日時及びユーザがいる空間の情報を示す「環境情報」と、ユーザの属性を示す「ユーザ情報」とを含む。

「行動指標情報」には、ユーザがキーボードを操作するタイプスピード、前日又は過去の本睡眠の睡眠時間及び当該本睡眠の質、起床及び就寝時刻、マウスクリック数、離席頻度（トイレ及び給湯室など）、会話数及び会話の状態（例えば、議論しているか否か、ゆっくり話しているなど会話のスピード、及び、発言数など）、休憩時間、薬の摂取履歴（睡眠作用あるか否か（例えば、睡眠薬であるか否か）、及び、覚醒作用があるか否か（例えば、カフェインを含むか否か））、前日及び当日を含む飲食履歴（食べたもの、食べた量、飲酒、及び、飲食時刻を含む）などが含まれる。「行動指標情報」は、例えば、センサ２００及び入力装置３００の少なくとも一方から取得される。

入力情報に少なくとも「行動指標情報」が含まれることで、決定部１２０は、ユーザの疲労度等に応じて制御内容を決定することができる。決定部１２０は、例えば、「行動指標情報」からユーザの疲労度が非常に高く、眠気が高いと判定すると、仮眠導入期間を短く設定し、かつ仮眠期間を長く設定することができる。言い換えると、行動価値関数は、例えば、ユーザの疲労度が非常に高く、眠気が高い場合、仮眠導入期間が短く、かつ仮眠期間が長い制御内容の価値が高くなるように学習される。

「主観指標情報」には、ユーザによる心身の状態及び程度などが含まれる。「主観指標情報」には、眠気、やる気、体調、身体疲労の度合い、ストレス度合い、集中力、パフォーマンス、緊張又はリラックス度合い、イライラ度合い、怒り又は悲しみの度合いなどが含まれる。「主観指標情報」は、例えば、入力装置３００から取得される。

入力情報にさらに「主観指標情報」が含まれることで、決定部１２０は、ユーザ自身が感じている心身の状態（例えば、疲労度）に応じて、制御内容を決定することができる。

「スケジュール情報」には、利用日、利用日前日、及び、利用日翌日のユーザの活動予定（会議など）、作業状態（取り込み中、離席中、打ち合わせ中など）などが含まれる。「スケジュール情報」は、入力装置３００から取得される。例えば、入力装置３００は、スケジュールを管理するサーバから「スケジュール情報」を取得する。

入力情報にさらに「スケジュール情報」が含まれることで、決定部１２０は、ユーザの利用日のスケジュール内容から仮眠を長くとることができない場合に、仮眠導入期間及び仮眠期間ともに短くした制御内容を決定することができる。

「利用履歴情報」には、ユーザの過去の利用時間、時刻、曜日、及び、タイミング（例えば、仮眠をとりやすいタイミング）などの利用履歴、並びに、入力情報、出力情報、及び、報酬などのデータなどが含まれる。「利用履歴情報」は、例えば、入力装置３００から取得される。例えば、入力装置３００がサーバ装置から「利用履歴情報」を取得してもよい。また、「利用履歴情報」は、環境制御装置１００が備える記憶部に格納されていてもよい。

入力情報にさらに「利用履歴情報」が含まれることで、決定部１２０は、報酬が高かった過去の制御内容等を参照して、制御内容を決定することができる。

「環境情報」には、天気（日射量）、受光量（光環境情報）、季節、時間帯、環境温度、湿度、におい、音環境情報、ＣＯ_２濃度などが含まれる。環境情報とは、区画された空間内の環境の情報である。具体的には、「環境情報」には、例えば、ユーザが作業するオフィス内及び仮眠室の温度、湿度又は気流などに関する情報が含まれてもよい。「環境情報」は、例えば、センサ２００及び入力装置３００の少なくとも一方から取得される。

入力情報にさらに「環境情報」が含まれることで、決定部１２０は、例えば冬季にはエアコンを暖房設定にするように制御内容を決定することができる。

「ユーザ情報」には、性別、年齢、人種、出身地、職種、体質（例えば、光過敏など）、病歴（例えば、不眠症など）が含まれる。「ユーザ情報」は、例えば、入力装置３００から得される。入力装置３００は、例えば、ユーザからの操作を受け付けることで、「ユーザ情報」を取得してもよい。また、「ユーザ情報」は、環境制御装置１００が備える記憶部に格納されていてもよい。

入力情報にさらに「ユーザ情報」が含まれることで、決定部１２０は、よりユーザに適した制御内容を決定することができる。

次に、制御内容を決定する決定部１２０について、図２Ｂを参照しながら説明する。図２Ｂは、本実施の形態に係る環境制御装置１００が出力する出力情報の一例である。

図２Ｂに示すように、決定部１２０が決定する制御内容は、環境制御する時間を示す環境制御トータル時間、仮眠の各フェーズ（リラックス期間、仮眠導入期間、及び、仮眠期間など）の時間、光のゆらぎのパラメータ（例えば、周期、明るさのＭＡＸ及びＭＩＮ、光色など）、及び、仮眠室までの通路及び休憩室の光制御（リフレッシュｏｒ仮眠に応じた光制御）の少なくとも１つが含まれる。

また、決定部１２０は、入力情報に基づいて決定した制御内容を、表示部１４０を介してユーザに提示してもよい。決定部１２０は、入力情報にユーザの行動指標情報以外の他の情報（例えば、スケジュール情報）が含まれている場合、当該他の情報と当該行動指標情報とに基づいて、当該ユーザに適した１以上の制御内容を提示してもよい。例えば、決定部１２０は、ユーザが眠気の強い人である、又は、ユーザが眠気の強い状態であるとき、ゆらぎの期間を短く、覚醒を長くする制御内容をお勧めとして提示してもよい。決定部１２０は、例えば、価値が所定の値より高い１以上の制御内容を提示してもよい。決定部１２０がユーザに提示する制御内容の提示態様は、特に限定されない。例えば、文字であってもよいし、グラフ（図３及び図４を参照）であってもよいし、音声であってもよい。

また、決定部１２０は、第１取得部１１０が入力情報を取得できていない場合に、環境制御を開始する操作を取得すると、その旨を表示部１４０に表示させてもよい。この場合、決定部１２０は、記憶部１９０に格納されている制御内容を表示部１４０に表示させてもよい。このとき、決定部１２０は、制御内容を複数表示することで、ユーザによる制御内容の選択をより適切に行わせることができる。

なお、仮眠の各フェーズとは、仮眠環境制御実行中の期間であり、リラックス期間、仮眠導入期間、及び、仮眠期間の３つの期間を含む。リラックス期間は、入眠に臨む前にユーザがリラックスする期間、又は、リラックスに適した環境制御を行う期間である。仮眠導入期間は、ユーザが眠りに就こうとしている期間、又は、眠りに就かせるのに適した環境制御を行う期間である。仮眠導入期間では、ユーザはまだ眠っていない。仮眠期間は、ユーザが眠っている期間、又は、眠りに適した環境制御を行う期間である。

決定部１２０は、上記３つの期間の少なくとも１つの期間における制御内容を決定する。決定部１２０は、例えば、仮眠導入期間における第１制御内容と仮眠導入期間の後の仮眠期間における第２制御内容とを含む制御内容を決定してもよい。また、決定部１２０は、上記３つの期間のそれぞれにおいて制御内容を決定してもよい。決定部１２０は、例えば、３つの期間のうち少なくとも１つの期間を、他の期間と異なる制御内容に決定してよい。言い換えると、決定部１２０は、例えば、３つの期間のうち少なくとも１つの期間において、他の期間と異なる環境制御を行わせてもよい。決定部１２０は、例えば、ユーザが就寝の際、照明が点灯していないと不安で眠ることができない場合、仮眠導入期間では眠りに就かせるために照明を点灯状態にしておき、ユーザが眠りに就いてからは光が視覚刺激となって眠りを妨げないようにするために消灯することを含む制御内容を決定してもよい。

ここで、制御内容について、図３～図５を参照しながらより詳細に説明する。図３は、本実施の形態に係る環境制御装置１００が決定する制御内容の一例を説明するための第１図である。図４は、本実施の形態に係る環境制御装置１００が決定する制御内容の一例を説明するための第２図である。なお、図３及び図４では、リラックス期間、仮眠導入期間、及び、仮眠期間のうち、主に仮眠導入期間の制御内容について説明する。また、図３及び図４では、明るさにおける制御内容について説明する。

図３に示すように、制御内容は、仮眠導入期間全体の長さ、明るさの最大値及び最小値、明るさを上げる上昇期間、明るさの最大値の維持期間、明るさを下げる下降期間、明るさの最小値の維持期間、周期、明るさを上げるときの変化の仕方（例えば、傾き）を示す上昇カーブ、及び、明るさを下げるときの変化の仕方（例えば、傾き）を示す下降カーブを含む。なお、最大値及び最小値は、明るさを周期的に変化させるときの明るさの最大値及び最小値を意味する。

また、最大値、最小値、各種期間、及び、各種カーブの少なくとも１つは、時間経過とともに変化してもよい。図４では、最大値が時間経過とともに変化する例を示している。

図４に示すように、制御内容のパラメータは、さらに、最大値の変化を開始する変化開始時間、最大値の変化を終了する変化終了期間、最大値の変化の仕方を示す変化カーブ、及び、変化後の最大値を示す変化目標値を含む。決定部１２０は、最大値から変化目標値に変化させる場合、いきなり変化目標値に変化させるわけではなく、最大値から徐々に変化目標値に変化させるように制御内容を決定してもよい。決定部１２０は、例えば、第１最大値から第１最大値より暗い第２最大値に変化させる場合、第１最大値と第２最大値との間の第３最大値の明るさを最大値とするような周期を含むように制御内容を決定する。

決定部１２０は、例えば、行動価値関数を用いて、入力情報に対する制御内容の価値が最も高くなるように、上記の１４個のパラメータを決定する。

なお、図３及び図４では、仮眠導入期間において、周期的に明るさを変化させる制御内容を例として示しているが、周期的に変化させることに限定されない。制御内容は、例えば、仮眠導入期間において、明るさを一定に維持することであってもよいし、時間経過とともに明るさが減衰することであってもよい。また、上記では、制御内容は、１４個のパラメータを有する例を示したが、これに限定されない。制御内容のパラメータは、ユーザに応じて適宜決定されてもよい。

図５は、本実施の形態に係る環境制御装置１００が決定する制御内容の一例を説明するための第３図である。図５は、図３及び図４に示す仮眠導入期間における制御内容が色の制御である場合に用いられるｘｙ色度座標を示す。

決定部１２０は、例えば、図５に示す２つの点のうちの一方の点ａを色度の最大値とし、他方の点ｂを色度の最小値として、図３に示す各種期間及びカーブを制御内容として決定する。なお、ｘｙ色度座標以外の色座標が用いられてもよい。

次に、行動価値関数を更新するための報酬について、図６を参照しながら説明する。図６は、本実施の形態に係る環境制御装置１００に入力される報酬の一例である。

図６に示すように、報酬は、例えば、「仮眠の質」、「入眠導入効果」、「仮眠による回復効果」及び「仮眠環境の快適感」の４つの項目それぞれの評価情報に基づく値（以降において個別報酬とも記載する）を含む。なお、報酬は４つ個別報酬のうち少なくとも１つを含んでいればよい。また、個別報酬は、例えば、評価情報が高い評価結果を示すほど高い値に決定される。

「仮眠の質」における個別報酬は、例えば、仮眠期間におけるユーザの中途覚醒数及び睡眠効率などに基づいて算出される。中途覚醒数及び睡眠効率は、「仮眠の質」に対する第２評価情報の一例であり、例えば、センサ２００がユーザの仮眠期間における体動を計測することにより取得可能である。報酬算出部１６０は、例えば、仮眠期間の体動数が少ないと、「仮眠の質」における個別報酬が高く決定する。「仮眠の質」における個別報酬は、仮眠期間における制御内容に対する評価値を示す。

「入眠導入効果」における個別報酬は、入眠潜時などに基づいて算出される。入眠までの時間は、「入眠導入効果」に対する第１評価情報の一例であり、例えば、センサ２００がユーザの体動を計測することで取得可能である。例えば、体動数又は体動の大きさが所定以下となった場合に、ユーザが仮眠を開始した（つまり、入眠期間が開始した）と判定されてもよい。「入眠導入効果」における個別報酬は、仮眠導入期間における制御内容に対する評価値を示す。

「仮眠による回復効果」における個別報酬は、起床後のユーザの体調（例えば、行動指標及び主観指標）などに基づいて算出される。起床後のユーザの体調は、「仮眠による回復効果」に対する第３評価情報の一例であり、例えば、センサ２００が起床後のユーザの行動を計測することで取得可能である。例えば、評価情報は、図２Ａに示す行動指標情報の１つを含んでもよい。評価情報は、例えば、タイプスピードなどを含んでもよい。第３評価情報は、仮眠前後におけるユーザの行動指標情報の差分（例えば、タイプスピードの差分）であってもよい。「仮眠による回復効果」は、リラックス期間、入眠導入期間、及び、仮眠期間における制御内容に対する評価値を示す。

「入眠環境の快適性」における個別報酬は、入眠環境の快適性に基づいて算出される。快適性は、「入眠環境の快適性」に対する第１評価情報の一例であり、例えばユーザが入力装置３００を操作することで取得可能である。「入眠環境の快適性」は、仮眠導入期間における制御内容に対する評価値を示す。

なお、評価情報は、仮眠導入期間におけるユーザの体動に基づく第１評価情報と、仮眠導入期間の後の仮眠期間におけるユーザの体動に基づく第２評価情報と、仮眠導入期間の前及び仮眠期間の後におけるユーザの行動指標情報の差分に基づく第３評価情報とを含む。

なお、上記４つの項目のそれぞれにおける評価情報は、センサ２００及び入力装置３００のいずれかから取得されればよい。

［２．環境制御装置の動作］
次に、以上のように構成された環境制御装置１００の動作について図７～図９Ｄを参照しながら説明する。図７は、本実施の形態に係る環境制御装置１００の処理を示すフローチャートである。この処理は、例えば、予め定められた時間間隔で周期的に実行される。また、例えば、この処理は、予め定められたタイムスケジュールに従って実行されてもよいし、ユーザからの指示に基づいて実行されてもよい。

まず、第１取得部１１０は、ユーザの行動を示す行動指標情報を含む入力情報を取得する（Ｓ１１０）。ステップＳ１１０は、第１取得ステップの一例である。決定部１２０は、行動価値関数に基づいて、制御内容を決定する（Ｓ１２０）。決定部１２０は、入力情報から仮眠のための制御内容であって、光を出力する機器を含む環境制御機器４００を制御する制御内容を決定する。決定部１２０は、行動価値関数に基づいて、入力情報に対して報酬が最も高くなる制御内容を決定する。ステップＳ１２０は、決定ステップの一例である。制御部１３０は、決定された制御内容に基づいて、環境制御機器４００を制御する（Ｓ１３０）。これにより、決定された制御内容に基づいて、ユーザが仮眠する仮眠室の環境制御が実行される。ステップＳ１３０は、制御ステップの一例である。

その後、第２取得部１５０は、決定ステップで決定された制御内容に対するユーザの仮眠における評価を示す評価情報を取得する（Ｓ１４０）。第２取得部１５０は、例えば、センサ２００及び入力装置３００のいずれかから、例えば、図５に示す４つの項目の評価情報を取得する。例えば、入力装置３００がディスプレイを有する場合、第２取得部１５０は、グラフィカルユーザーインターフェース（ＧＵＩ）を介して、仮眠に対するユーザの評価を示す値を取得する。なお、ＧＵＩは、仮眠の評価を示す値を入力するスライダーを含んでもよいし、数値が直接入力されるテキストボックスを含んでもよいし、数値増加／減少ボタンを含んでもよいし、これらの組合せを含んでもよい。ステップＳ１４０は、第２取得ステップの一例である。

続いて、報酬算出部１６０は、評価情報に基づいて、ステップＳ１２０で決定した制御内容に対する報酬を算出する（Ｓ１５０）。

そして、更新部１８０は、報酬を用いて機械学習によって行動価値関数を更新する（Ｓ１６０）。ステップＳ１６０は、更新ステップの一例である。

なお、評価情報の取得は、制御内容の決定のたびに行われなくてもよい。つまり、ステップＳ１４０はスキップされてもよい。この場合、更新部１８０は、予め定められた値（例えば０）を報酬として用いて、行動価値関数を更新してもよい。

なお、ステップＳ１４０の処理は、ステップＳ１２０で決定された制御内容で環境制御機器４００を制御中に、つまり環境制御中に取得されてもよい。更新部１８０は、ステップＳ１２０で決定された制御内容で環境制御中に第２取得部１５０が取得した評価情報に基づいて、当該環境制御中に行動価値関数を更新してもよい。この場合、再度ステップＳ１２０に戻り、決定部１２０は、環境制御中に更新された行動価値関数に従って、入力情報に対する制御内容を環境制御中に決定しなおしてもよい。

環境制御中に取得される評価情報は、例えば、「入眠導入効果」に対する評価を示す情報を含み、例えば、センサ２００が入眠導入期間中に検出したユーザの体動に関する情報を含む。

ここで、報酬算出部１６０における、評価情報から報酬を算出する処理について、図８～図９Ｄを参照しながら説明する。図８は、本実施の形態に係る環境制御装置１００における報酬を算出する処理を示すフローチャートである。具体的には、図７に示すステップＳ１５０を詳細に説明する図である。

図８に示すように、報酬算出部１６０は、仮眠の質に対する個別報酬Ｆａを決定し（Ｓ２１０）、入眠導入効果に対する個別報酬Ｆｂを決定し（Ｓ２２０）、仮眠による回復効果に対する個別報酬Ｆｃを決定し（Ｓ２３０）、入眠環境の快適性に対する個別報酬Ｆｄを決定する（Ｓ２４０）。そして、報酬算出部１６０は、ステップＳ２１０～Ｓ２４０で決定した個別報酬Ｆａ～Ｆｄに基づいて、制御内容に対する報酬Ｆを決定する（Ｓ２５０）。このとき、報酬算出部１６０は、個別報酬Ｆａ～Ｆｄを重み付け加算することで報酬Ｆを算出してもよい。例えば、報酬算出部１６０は、式２に基づいて報酬Ｆを算出してもよい。

Ｆ＝ｗ１×Ｆａ＋ｗ２×Ｆｂ＋ｗ３×Ｆｃ＋ｗ４×Ｆｄ・・・（式２）

ｗ１～ｗ４は、報酬条件設定部１７０が設定した項目それぞれの重みであり、報酬条件の一例である。つまり、報酬条件設定部１７０は、報酬算出部１６０が重み付け加算するときの重みｗ１～ｗ４を設定してもよい。

続いて、ステップＳ２１０～Ｓ２４０の処理について、図９Ａ～図９Ｄを参照しながら説明する。図９Ａ～図９Ｄは、評価情報に基づいて各項目それぞれの個別報酬を決定する処理を示す。

図９Ａは、本実施の形態に係る環境制御装置１００における仮眠の質に対する個別報酬Ｆａを算出する処理を示すフローチャートである。図９Ａは、図８に示すステップＳ２１０における処理の詳細を示す。

図９Ａに示すように、報酬算出部１６０は、評価情報（例えば、第２評価情報）に基づいて、仮眠の質が高いか否かを判定する（Ｓ２１１）。報酬算出部１６０は、例えば、仮眠期間におけるユーザの体動数が所定数以下である、又は、体動の大きさの所定以下であると仮眠の質が高いと判定する。

報酬算出部１６０は、仮眠の質が高いと判定する（Ｓ２１１でＹｅｓ）と、個別報酬Ｆａを第１の報酬値とする（Ｓ２１２）。また、報酬算出部１６０は、仮眠の質が高くないと判定する（Ｓ２１１でＮｏ）と、個別報酬Ｆａを第１の報酬値より小さい第２の報酬値とする（Ｓ２１３）。

図９Ｂは、本実施の形態に係る環境制御装置１００における入眠までの時間に対する個別報酬Ｆｂを算出する処理を示すフローチャートである。図９Ｂは、図８に示すステップＳ２２０における処理の詳細を示す。

図９Ｂに示すように、報酬算出部１６０は、評価情報（例えば、第１評価情報）に基づいて、入眠までの時間が短いか否かを判定する（Ｓ２２１）。報酬算出部１６０は、例えば、入眠までの時間が所定時間より短いと入眠までの時間が短いと判定する。所定時間は、予め設定された値であってもよいし、ユーザにより設定された値であってもよいし、当該ユーザにおいて過去に計測された入眠までの時間に応じて設定された値であってもよい。所定時間は、例えば、５～３０分である。報酬算出部１６０は、入眠までの時間が短いと判定する（Ｓ２２１でＹｅｓ）と、個別報酬Ｆｂを第３の報酬値とする（Ｓ２２２）。また、報酬算出部１６０は、入眠までの時間が短くないと判定する（Ｓ２２１でＮｏ）と、個別報酬Ｆｂを第３の報酬値より小さい第４の報酬値とする（Ｓ２２３）。なお、入眠までの時間とは、図３に示すリラックス期間が終了してからユーザが実際に入眠するまでの期間であってもよいし、環境制御システム１０が仮眠のための環境制御を開始してからユーザが実際に入眠するまでの期間であってもよい。

図９Ｃは、本実施の形態に係る環境制御装置１００における回復効果に対する個別報酬Ｆｃを算出する処理を示すフローチャートである。図９Ｃは、図８に示すステップＳ２３０における処理の詳細を示す。

図９Ｃに示すように、報酬算出部１６０は、評価情報（例えば、第３評価情報）に基づいて、仮眠に対する回復効果が高いか否かを判定する（Ｓ２３１）。報酬算出部１６０は、例えば、仮眠前後における行動指標情報の比較により、上記の判定を行う。例えば、行動指標情報がタイプスピードである場合を例に説明すると、報酬算出部１６０は、仮眠後のタイプスピードが仮眠前のタイプスピードに比べて速い場合、回復効果が高いと判定する。報酬算出部１６０は、回復効果が高いと判定する（Ｓ２３１でＹｅｓ）と、個別報酬Ｆｃを第５の報酬値とする（Ｓ２３２）。また、報酬算出部１６０は、回復効果が高くないと判定する（Ｓ２３１でＮｏ）と、個別報酬Ｆｃを第５の報酬値より小さい第６の報酬値とする（Ｓ２３３）。

図９Ｄは、本実施の形態に係る環境制御装置１００における快適性に対する個別報酬Ｆｄを算出する処理を示すフローチャートである。図９Ｄは、図８に示すステップＳ２４０における処理の詳細を示す。

図９Ｄに示すように、報酬算出部１６０は、評価情報（例えば、第１評価情報）に基づいて、快適感が高いか否かを判定する（Ｓ２４１）。報酬算出部１６０は、例えば、ユーザの入力装置３００への入力に基づいて、快適感が高いか否かを判定する。報酬算出部１６０は、ユーザが快適感を高いと判定したこと、及び、快適の度合が所定度合以上であることを示す評価情報を取得すると、快適感が高いと判定する。報酬算出部１６０は、快適感が高いと判定する（Ｓ２４１でＹｅｓ）と、個別報酬Ｆｄを第７の報酬値とする（Ｓ２４２）。また、報酬算出部１６０は、快適感が高くないと判定する（Ｓ２４１でＮｏ）と、個別報酬Ｆｄを第７の報酬値より小さい第８の報酬値とする（Ｓ２４３）。

なお、第２の報酬値、第４の報酬値、第６の報酬値、及び、第８の報酬値の少なくとも１つは、負の値であってもよい。

なお、図９Ａ～図９Ｄは２つの報酬値のいずれかを選択する処理である例について説明したが、報酬値は段階的に決定されてもよい。図９Ａの場合を例に説明すると、体動数及び体動の大きさに応じて、複数の報酬値が設定されていてもよい。この場合、体動数が少ないほど及び体動が小さいほど、報酬値が大きく設定される。

［３．効果など］
以上のように、本実施の形態に係る環境制御システム１０は、ユーザの行動を示す行動指標情報を含む入力情報を取得する第１取得部１１０と、行動価値関数（制御内容決定ルールの一例）に従って、入力情報から、仮眠のための制御内容であって、光を出力する機器を含む環境制御機器４００の制御内容を決定する決定部１２０と、決定された制御内容に基づいて環境制御機器４００を制御する制御部１３０と、制御内容に対するユーザの評価を示す評価情報を取得する第２取得部１５０と、評価情報に基づく値を報酬として用いる機械学習によって行動価値関数を更新する更新部１８０とを備える。

これにより、環境制御システム１０は、行動指標情報及び評価情報に関連付けて学習した行動価値関数に基づいて制御内容を決定することができる。よって、環境制御システム１０によれば、仮眠効果が高い仮眠支援を実行することができる。また、制御部１３０は、決定部１２０が決定した制御内容で環境制御機器４００の制御を実行するので、ユーザが環境制御機器４００を操作する手間を低減することができる。

また、制御内容決定ルールは、制御内容の価値を定める価値関数を含み、更新部１８０は、当該価値関数を更新する。

これにより、環境制御システム１０は、行動価値関数を更新することによりユーザに適した制御内容決定ルールを構築することができる。その結果、環境制御システム１０は、ユーザに適した快眠支援を実現することができる。

また、環境制御機器４００は、さらに光を出力する機器以外の機器であって、仮眠のための環境を制御可能な他の機器を含み、決定部１２０は、他の機器を含む環境制御機器４００を制御する制御内容を決定する。

これにより、環境制御システム１０は、光を出力する機器及びそれ以外の機器のそれぞれを用いて、環境制御を行うことができる。よって、環境制御システム１０は、仮眠効果がより高い仮眠支援を実行することができる。

また、環境制御システム１０は、さらに、評価情報に基づいて報酬を算出する報酬算出部１６０と、報酬算出部１６０における報酬の算出における条件を設定する報酬条件設定部１７０とを備える。

これにより、報酬算出部１６０及び報酬条件設定部１７０により適切に報酬が算出される。また、例えば、報酬条件設定部１７０がユーザそれぞれに対応した条件を設定することで、報酬算出部１６０は、ユーザそれぞれに適した行動価値関数を学習するための報酬を効果的に算出することができる。

また、制御内容は、仮眠導入期間における第１制御内容と、前記仮眠導入期間の後の仮眠期間における第２制御内容とを含む。また、評価情報は、仮眠導入期間におけるユーザの体動に基づく第１評価情報と、仮眠期間におけるユーザの体動に基づく第２評価情報と、仮眠前後におけるユーザの行動指標情報の差分に基づく第３評価情報とを含む。そして、報酬算出部１６０は、個別報酬Ｆａ～Ｆｄを重み付け加算することで報酬を算出し、報酬条件設定部１７０は、条件として、重み付け加算するときの重みｗを設定する。なお、個別報酬Ｆｂ及び個別報酬Ｆｄは第１評価情報に基づく値の一例であり、個別報酬Ｆａは第２評価情報に基づく値の一例であり、個別報酬Ｆｃは第３評価情報に基づく値の一例である。

これにより、報酬算出部１６０は、第１評価情報～第３評価情報を用いて報酬を算出するので、より精度よく報酬を算出することができる。また、例えば、報酬条件設定部１７０がユーザごと又は季節ごとなどに応じて適した重みｗを設定することで、さらに精度よく報酬を算出することができる。

また、環境制御システム１０は、さらに、決定部１２０が決定した制御内容を入力情報と対応づけずに格納する記憶部１９０を備える。

これにより、決定部１２０は、記憶部１９０に格納されている制御内容（例えば、前回の制御内容）を読み出すことで、入力情報が取得できていない場合であっても制御内容を決定することができる。つまり、環境制御システム１０は、入力情報が取得できない場合であっても、決定部１２０が決定した制御内容を用いて環境制御を行うことができる。

また、環境制御システム１０は、さらに、入力情報、制御内容、及び、評価情報に基づく情報の少なくとも１つをユーザに出力する表示部１４０（出力部の一例）を備える。

これにより、環境制御システム１０は、入力情報、制御内容、及び、評価情報に基づく情報の少なくとも１つをユーザに知らせることができる。例えば、環境制御を開始する前にユーザに制御内容を出力することで、ユーザは制御内容を確認した後、仮眠を行うことができる。例えば、ユーザは、環境制御システム１０が提示した制御内容に対して、環境制御が開始される前に変更を行うことができるので、ユーザの主観を含めた制御内容で環境制御を行うことができる。

また、更新部１８０は、制御内容で環境制御機器４００を制御中に第２取得部１５０が取得した評価情報に基づいて、制御内容決定ルールを更新する。決定部１２０は、さらに、環境制御機器４００を制御中に更新された制御内容決定ルールに従って入力情報に対する制御内容を制御中に決定しなおす。

これにより、環境制御システム１０は、環境制御中のユーザの状態に応じて制御内容決定ルールを更新し、制御内容を変更することができる。例えば、仮眠導入期間中にユーザが入眠できないような状態（例えば、仮眠導入期間において、体動数が多い状態が継続しているなど）の場合に、当該状態に応じて入眠導入期間中の制御内容を変更することができる。すなわち、環境制御システム１０は、環境制御中に学習することで、そのときのユーザの状態に対してより適切な制御内容を決定することができるので、さらにユーザに適した快眠支援を実現することができる。

また、環境制御システム１０は、さらに、ユーザの行動を検出するセンサ２００（検出部の一例）を備える。そして、第１取得部１１０は、センサ２００が検出した行動に基づく情報を行動指標情報として取得する。

これにより、環境制御システム１０は、外部から行動指標情報を取得しなくても、センサ２００が検出した行動指標情報に基づいてユーザに対して仮眠支援を行うことができる。

また、環境制御システム１０は、さらに、ユーザから仮眠の評価に対する操作を受け付ける入力装置３００（入力部の一例）を備える。そして、第２取得部１５０は、入力装置３００が取得したユーザの操作に基づく情報を評価情報として取得する。

これにより、環境制御システム１０は、外部から評価情報を取得しなくても、入力装置３００が取得したユーザの操作に基づく情報に基づいて行動価値関数の更新を行うことができる。

以上のように、本実施の形態に係る環境制御システム１０の環境制御方法は、ユーザの行動を示す行動指標情報を含む入力情報を取得する第１取得ステップ（Ｓ１１０）と、制御内容決定ルールに従って、入力情報から、ユーザを仮眠させるための制御内容であって、光を出力する機器を含む環境制御機器４００の制御内容を決定する決定ステップ（Ｓ１２０）と、決定された制御内容に基づいて環境制御機器４００を制御する制御ステップ（Ｓ１３０）と、制御内容に対するユーザの評価を示す評価情報を取得する第２取得ステップ（Ｓ１４０）と、評価情報に基づく値を報酬として用いる機械学習によって制御内容決定ルールを更新する更新ステップ（Ｓ１６０）とを含む。

これにより、上記環境制御システム１０と同様の効果を奏する。

（実施の形態１の変形例１）
本変形例では、環境制御システムの他の構成について、図１０を参照しながら説明する。図１０は、本変形例に係る環境制御システム１０ａの構成を示すブロック図である。環境制御システム１０ａは、実施の形態１の環境制御システム１０と比べて、環境制御装置１００ｃの構成が異なる。

図１０に示すように、環境制御システム１０ａは、環境制御装置１００ｃと、環境制御機器４００とを備える。環境制御システム１０ａは、実施の形態１の環境制御装置１００に加えて、さらにセンサ２００及び入力装置３００を備えている。この場合には、センサ２００は、環境制御装置１００ｃの一部である検出部として機能する。また、入力装置３００は、環境制御装置１００ｃの一部である入力部として機能する。

本変形例では、例えば、ユーザが椅子に着座して作業を行っており、着座したまま仮眠に就く場合、又は、マッサージチェアで仮眠に就く場合などを想定している。この場合、センサ２００及び入力装置３００を含む環境制御装置１００ｃが椅子に備えられていることで、利便性が向上する。例えば、環境制御装置１００ｃが椅子に備えられていることで、ユーザが仮眠時に当該椅子に着座したまま任意の場所に移動した場合であっても、環境制御装置１００ｃは、適切に制御内容を決定することができる。なお、環境制御装置１００ｃは椅子に備えられていることに限定されない。また、環境制御装置１００ｃは、さらに環境制御機器４００を備える構成であってもよい。

（実施の形態１の変形例２）
以下、本変形例に係る環境制御システムについて、図１１及び図１２を参照しながら説明する。なお、環境制御システムの構成は、実施の形態１の環境制御システム１０と同様であるため、説明を省略する。

実施の形態１では、制御内容決定ルールは、行動価値関数により表される例を説明したが、入力情報から複数の制御内容のそれぞれの価値を推定するためのニューラルネットワークで表されてもよい。ニューラルネットワークの詳細について、図１１を参照しながら説明する。

図１１は、本実施の形態に係る環境制御装置におけるニューラルネットワークの一例を示す概念図である。

図１１に示すように、このニューラルネットワークは、多階層の人工ニューラルネットワークであり、入力情報が示す身体状態ｓにおける複数の制御内容ａｉ（ｉ＝１～ｎ）の価値Ｑａｉを推定するための数学モデルである。

図１２は、本変形例における複数の制御内容の具体例を示す図である。ここでは、環境制御機器４００が照明機器である場合について説明する。

図１２に示すように、複数の制御内容ａ１～ａｎは、照明機器の複数の制御内容を含む複数の制御内容セットである。例えば、制御内容ａ１～ａｎは、図３及び図４に示す１４個のパラメータの設定条件である。例えば、制御内容ａ１は、仮眠導入期間が「５分」、照明機器の明るさの最大値が「３．５％」、照明機器の明るさの最小値が「０．１％」、照明機器の明るさの最大値の変化目標値が「２％」であることを含む。このような複数の制御内容ａ１～ａｎのそれぞれの身体状態ｓにおける価値がニューラルネットワークによって推定される。

以下、このような環境制御システムにおける動作について説明する。

第１取得部１１０は、入力情報を取得する。

決定部１２０は、ニューラルネットワークに基づいて、入力情報から各制御内容の価値を推定し、推定した価値を推定した価値に基づいて仮眠のための制御内容を決定する。例えば、決定部１２０は、複数の制御内容の中から最も高い価値を有する制御内容を選択する。

制御部１３０は、決定された制御内容に基づいて、環境制御を実行する。

そして、第２取得部１５０は、評価情報を取得する。

更新部１８０は、入力情報及び評価情報に基づいて、複数の制御内容の価値を更新する。このとき、評価情報に基づく値が強化学習における報酬として用いられる。

さらに、更新部１８０は、更新された価値に基づいてニューラルネットワークのパラメータ（例えば重みｗ）を更新する。つまり、更新部１８０は、更新された各制御内容の価値を教師信号として入力することにより、複数階層のニューラルネットワークのパラメータを学習する。更新部１８０は、複数の制御内容の価値に基づいた強化学習により、ユーザに適応した制御内容の決定を学習する。

このような、複数の制御内容の価値を更新し、更新された価値に基づいてニューラルネットワークのパラメータを更新する処理が内部的に繰り返されることにより、いわゆる深層強化学習が行われる。なお、深層強化学習については、特に限定される必要はなく、従来技術が用いられてもよい。したがって、深層強化学習の詳細な説明については省略する。

（実施の形態２）
本実施の形態では、環境制御システムの他の構成について、図１３を参照しながら説明する。図１３は、本実施の形態に係る環境制御システム１０ｂの構成を示すブロック図である。

図１３に示すように、本実施の形態に係る環境制御システム１０ｂは、複数の個別環境制御システム１０ｃと、複数の個別環境制御システム１０ｃのそれぞれ通信可能に接続されたサーバ装置５００とを備える。

複数の個別環境制御システム１０ｃのそれぞれは、例えば、実施の形態１の環境制御システム１０と同様の構成であるが、図１３では第１取得部１１０及び記憶部１９０以外の構成を省略している。環境制御システム１０ｂが備える複数の個別環境制御システム１０ｃの数は、特に限定されない。

サーバ装置５００は、複数の個別環境制御システム１０ｃのそれぞれから、第１取得部１１０が取得した入力情報、及び、記憶部１９０に記憶された学習結果（例えば、制御内容、報酬、及び、更新された行動価値関数）の少なくとも１つを取得し、集中管理する。サーバ装置５００は、取得した情報を記憶部５１０に格納する。これにより、複数の個別環境制御システム１０ｃのそれぞれの学習結果等を共有することができる。

なお、複数の個別環境制御システム１０ｃのそれぞれが備える複数の環境制御装置１００のうちの少なくとも１つの環境制御装置１００がサーバ装置として機能してもよい。つまり、環境制御システム１０ｂは、個別環境制御システム１０ｃとは別にサーバ装置５００を備えていなくてもよい。この場合、複数の個別環境制御システム１０ｃのそれぞれは、互いに通信可能に接続されており、入力情報、評価情報及び学習結果の少なくとも一つを相互に通信する。そして、更新部１８０は、他の個別環境制御システム１０ｃから取得した入力情報、及び、学習結果の少なくとも一つに基づいて、行動価値関数を更新する。

以上のように、本実施の形態に係る環境制御システム１０ｂは、第１取得部１１０、決定部１２０、制御部１３０、第２取得部１５０、及び、更新部１８０を有する個別環境制御システム１０ｃを複数備える。複数の個別環境制御システム１０ｃのそれぞれは、互いに通信可能に接続されており、入力情報及び学習結果の少なくとも一つを相互に通信する。そして、更新部１８０は、他の個別環境制御システム１０ｃから取得した入力情報及び学習結果の少なくとも一つに基づいて、制御内容決定ルールを更新する。

これにより、更新部１８０は、他の個別環境制御システム１０ｃが取得した入力情報等に基づいて、自装置の行動価値関数を更新することができる。よって、自装置における学習の精度が向上し、より適切な行動価値関数を得ることができる。

また、環境制御システム１０ｂは、複数の個別環境制御システム１０ｃと、複数の個別環境制御システム１０ｃのそれぞれと通信可能に接続されたサーバ装置５００とを備える。

これにより、入力情報、評価情報、及び、学習結果の少なくとも１つを集中管理することができる。また、サーバ装置５００が学習部を備えている場合、複数の個別環境制御システム１０ｃのそれぞれから取得した入力情報及び評価情報等に基づいて、機械学習によって行動価値関数を更新することが可能となる。それゆえ、学習の精度が向上し、さらに適切な行動価値関数を得ることができる。なお、この場合、サーバ装置５００は、環境制御装置１００より高速で処理が行えるプロセッサ等を備えているとよい。

（他の実施の形態）
以上、本発明の１つまたは複数の態様に係る環境制御システム及び環境制御方法について、実施の形態及び変形例（以降において、実施の形態等とも記載する）に基づいて説明したが、本発明は、この実施の形態等に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の１つまたは複数の態様の範囲内に含まれてもよい。

例えば、上記実施の形態等において、決定部は、１つの制御内容を決定する例について説明したが、これに限定されない。環境制御システムが２以上の環境制御機器を備える場合、決定部は、２以上の環境制御機器を１つの制御内容で制御してもよいし、２以上の環境制御機器それぞれに決定した制御内容で制御してもよい。例えば、環境制御システムが２以上の環境制御機器として、２以上の照明器具を備える場合、２以上の照明器具を１つの制御内容で制御してもよいし、互いに異なる制御内容で制御してもよい。

また、上記実施の形態等では、入力情報に基づいて決定された仮眠導入期間の後に、仮眠期間に移行する例を示したが、これに限定されない。制御部は、例えば、行動指標情報（例えば、体動）からユーザが仮眠導入期間中に眠ったと判定した場合、仮眠導入期間中に仮眠期間に移行し、仮眠期間における制御内容で環境制御機器を制御してもよい。

また、上記実施の形態等では、評価情報は、行動指標情報に基づいて決定される例について説明したが、これに限定されない。評価情報は、行動指標情報に加え、さらに生理指標情報に基づいて決定されてもよい。具体的には、第１評価情報は、仮眠導入期間におけるユーザの体動及び生理指標情報に基づいて生成されてもよい。また、第２評価情報は、仮眠期間におけるユーザの体動及び生理指標情報に基づいて生成されてもよい。また、第３評価情報は、仮眠導入期間の前及び仮眠期間の後における、ユーザの行動指標情報の差分及び生理指標情報の差分に基づいて生成されてもよい。なお、生理指標情報とは、ユーザの脳波、自律神経、及び、呼吸に係る指標であり、心拍数、瞬目、瞳孔変動、皮膚温度、呼吸数、及び、血流などの情報が含まれる。生理指標情報は、ユーザの身体に取り付けられた電極、生体センサ、及び、カメラなどのセンサを用いて取得される。

また、上記実施の形態等では、第１取得部は、センサから直接入力情報を取得する例について説明したが、これに限定されない。例えば、第１取得部は、センサの出力信号を取得し、取得した出力信号を処理することにより入力情報を取得してもよい。第１取得部が出力信号を処理することにより入力情報を取得することは、センサから入力情報を取得することに含まれる。なお、第１取得部が、入力装置から入力情報を取得する場合も同様である。

また、上記実施の形態等では、第２取得部は、入力装置から直接評価情報を取得する例について説明したが、これに限定されない。例えば、第２取得部は、入力装置の出力信号を取得し、取得した出力信号を処理することにより評価情報を取得してもよい。第２取得部が出力信号を処理することにより評価情報を取得することは、入力装置から評価情報を取得することに含まれる。なお、第２取得部が、センサから評価情報を取得する場合も同様である。

また、上記実施の形態等における環境制御システムが備える装置間の通信方法については特に限定されるものではない。装置間で無線通信が行われる場合、無線通信の方式（通信規格）は、例えば、ＺｉｇＢｅｅ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又は、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などの近距離無線通信である。あるいは、無線通信の方式（通信規格）は、インターネットなどの広域通信ネットワークを介した通信でもよい。また、装置間においては、無線通信に代えて、有線通信が行われてもよい。有線通信は、具体的には、電力線搬送通信（ＰＬＣ：ＰｏｗｅｒＬｉｎｅＣｏｍｍｕｎｉｃａｔｉｏｎ）又は有線ＬＡＮを用いた通信などである。

また、上記実施の形態等では、環境制御システムが備える各装置は、単一の装置で実現されてもよいし、互いに接続された複数の装置で実現されてもよい。例えば、環境制御装置は、クラウドコンピューティングによって実現されてもよい。

また、上記実施の形態等における環境制御システムが備える構成要素の一部又は全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。例えば、環境制御装置は、第１取得部と、決定部と、制御部と、第２取得部と、学習部とを有するシステムＬＳＩから構成されてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などを含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

また、ここでは、システムＬＳＩとしたが、集積度の違いにより、ＩＣ、ＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、あるいはＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

また、本発明の一態様は、このような環境制御システムだけではなく、環境制御システムに含まれる特徴的な構成部をステップとする環境制御方法であってもよい。また、本発明の一態様は、環境制御方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本発明の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。

また、上記実施の形態等において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態等の環境制御システムなどを実現するソフトウェアは、次のようなプログラムである。

すなわち、このプログラムは、コンピュータに、ユーザの行動を示す行動指標情報を含む入力情報を取得する第１取得ステップと、制御内容決定ルールに従って、入力情報から、仮眠のための制御内容であって、光を出力する機器を含む環境制御機器を制御する制御内容を決定する決定ステップと、決定された制御内容に基づいて環境制御機器を制御することで環境制御を実行する制御ステップと、制御内容に対するユーザの仮眠における評価を示す評価情報を取得する第２取得ステップと、評価情報に基づく値を報酬として用いる機械学習によって制御内容決定ルールを更新する更新ステップとを含む環境制御方法を実行させる。

１０、１０ａ、１０ｂ環境制御システム
１０ｃ個別環境制御システム
１００、１００ｃ環境制御装置
１１０第１取得部
１２０決定部
１３０制御部
１４０表示部（出力部）
１５０第２取得部
１６０報酬算出部
１７０報酬条件設定部
１８０更新部
１９０記憶部
２００センサ（検出部）
３００入力装置（入力部）
４００環境制御機器
５００サーバ装置

Claims

ユーザの行動を示す行動指標情報を含む入力情報を取得する第１取得部と、
制御内容決定ルールに従って、前記入力情報から、前記ユーザを仮眠させるための制御内容であって、光を出力する機器を含む環境制御機器の制御内容を決定する決定部と、
決定された前記制御内容に基づいて前記環境制御機器を制御する制御部と、
前記制御内容に対する前記ユーザの評価を示す評価情報を取得する第２取得部と、
前記評価情報に基づく値を報酬として用いる機械学習によって前記制御内容決定ルールを更新する更新部とを備え、
仮眠は、仮眠導入期間、及び、前記仮眠導入期間の後の仮眠期間を有し、
前記決定部は、前記行動指標情報に基づいて、前記仮眠導入期間における前記環境制御機器の前記制御内容を決定し、
前記制御内容は、前記環境制御機器からの前記光を第１の明るさとする状態と、前記光を前記第１の明るさより暗い第２の明るさとする状態とを繰り返すゆらぎのパラメータを含む
環境制御システム。
前記制御内容決定ルールは、前記制御内容の価値を定める価値関数を含み、
前記更新部は、前記価値関数を更新する
請求項１に記載の環境制御システム。
前記環境制御機器は、さらに前記光を出力する機器以外の機器であって、前記仮眠のための環境を制御可能な他の機器を含み、
前記決定部は、前記他の機器を含む前記環境制御機器の前記制御内容を決定する
請求項１又は２に記載の環境制御システム。
さらに、
前記評価情報に基づいて前記報酬を算出する報酬算出部と、
前記報酬算出部における前記報酬の算出における条件を設定する報酬条件設定部とを備える
請求項１～３のいずれか１項に記載の環境制御システム。
前記制御内容は、前記仮眠導入期間における第１制御内容と、前記仮眠期間における第２制御内容とを含み、
前記評価情報は、前記仮眠導入期間における前記ユーザの体動に基づく第１評価情報と、前記仮眠期間における前記ユーザの体動に基づく第２評価情報と、前記仮眠導入期間の前及び前記仮眠期間の後における前記ユーザの前記行動指標情報の差分に基づく第３評価情報とを含み、
前記報酬算出部は、前記第１評価情報に基づく値、前記第２評価情報に基づく値、及び、前記第３評価情報に基づく値を重み付け加算することで前記報酬を算出し、
前記報酬条件設定部は、前記条件として、重み付け加算するときの重みを設定する
請求項４に記載の環境制御システム。
さらに、前記決定部が決定した前記制御内容を前記入力情報と対応づけずに格納する記憶部を備える
請求項１～５のいずれか１項に記載の環境制御システム。
さらに、前記入力情報、前記制御内容、及び、前記評価情報に基づく情報の少なくとも１つを出力する出力部を備える
請求項１～６のいずれか１項に記載の環境制御システム。
前記更新部は、前記制御内容で前記環境制御機器を制御中に前記第２取得部が取得した前記評価情報に基づいて、前記制御内容決定ルールを更新し、
前記決定部は、さらに、前記環境制御機器を制御中に更新された前記制御内容決定ルールに従って前記入力情報に対する制御内容を前記制御中に決定しなおす
請求項１～７のいずれか１項に記載の環境制御システム。
さらに、前記ユーザの行動を検出する検出部を備え、
前記第１取得部は、前記検出部が検出した前記行動に基づく情報を前記行動指標情報として取得する
請求項１～８のいずれか１項に記載の環境制御システム。
さらに、前記ユーザから仮眠の評価に対する操作を受け付ける入力部を備え、
前記第２取得部は、前記入力部が受け付けた前記操作に基づく情報を前記評価情報として取得する
請求項１～９のいずれか１項に記載の環境制御システム。
前記第１取得部、前記決定部、前記制御部、前記第２取得部、及び、前記更新部を有する個別環境制御システムを複数備え、
複数の個別環境制御システムのそれぞれは、互いに通信可能に接続されており、前記入力情報及び学習結果の少なくとも一つを相互に通信し、
前記更新部は、他の個別環境制御システムから取得した前記入力情報及び前記学習結果の少なくとも一つに基づいて、前記制御内容決定ルールを更新する
請求項１～９のいずれか１項に記載の環境制御システム。
前記複数の個別環境制御システムと、
前記複数の個別環境制御システムのそれぞれと通信可能に接続されたサーバ装置とを備える
請求項１１に記載の環境制御システム。
環境制御システムが実行する環境制御方法であって、
ユーザの行動を示す行動指標情報を含む入力情報を取得する第１取得ステップと、
制御内容決定ルールに従って、前記入力情報から、前記ユーザを仮眠させるための制御内容であって、光を出力する機器を含む環境制御機器の制御内容を決定する決定ステップと、
決定された前記制御内容に基づいて前記環境制御機器を制御する制御ステップと、
前記制御内容に対する前記ユーザの評価を示す評価情報を取得する第２取得ステップと、
前記評価情報に基づく値を報酬として用いる機械学習によって前記制御内容決定ルールを更新する更新ステップとを含み、
仮眠は、仮眠導入期間、及び、前記仮眠導入期間の後の仮眠期間を有し、
前記決定ステップにおいては、前記行動指標情報に基づいて、前記仮眠導入期間における前記環境制御機器の前記制御内容を決定し、
前記制御内容は、前記環境制御機器からの前記光を第１の明るさとする状態と、前記光を前記第１の明るさより暗い第２の明るさとする状態とを繰り返すゆらぎのパラメータを含む
環境制御方法。