以下、実施の形態に係る環境制御システム、及び、環境制御方法について、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置、接続形態、ステップ、及び、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略又は簡略化される場合がある。
また、本明細書において、数値、および、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する表現である。
(実施の形態1)
以下、本実施の形態に係る環境制御システム10について、図1~図9Dを参照しながら説明する。環境制御システム10は、ユーザが仮眠をとる場合に、仮眠するときの環境制御を行う仮眠支援システムである。なお、仮眠とは、短時間の睡眠であり、例えば、作業の途中で当該作業を中断して行われる睡眠である。作業は、例えば、業務、執務、勉強、又は、読書などの頭を使う知的作業であってもよいし、車の運転、機械の操作、物品の制作などの手足を使う作業であってもよい。仮眠は、業務の休憩時間等に行われる睡眠であってもよく、例えば、昼寝である。また、夜勤等の警備員等が業務の途中でとる睡眠も仮眠に含まれる。仮眠とは、1~2時間以内の睡眠であり、例えば、30分程度の睡眠である。また、仮眠は、日中に活動している人が夜にとる長時間の睡眠(以降において、本睡眠とも記載する)より浅い睡眠である。
また、以下の説明では、業務としてオフィスでパソコンを用いて仕事をしているユーザが、当該オフィスに設置された仮眠室で仮眠をとる場合を例として説明する。
[1.環境制御システムの構成]
まず、環境制御システム10の全体構成について説明する。図1は、本実施の形態に係る環境制御システム10の構成を示すブロック図である。本実施の形態に係る環境制御システム10は、環境制御装置100と、センサ200と、入力装置300と、環境制御機器400とを備える。
環境制御装置100は、ユーザの行動を示す行動指標情報を含む入力情報を取得し、取得した入力情報に合わせてユーザが仮眠をとるための仮眠室における環境制御機器400の制御内容を決定し、その制御内容を当該環境制御機器400に出力し、実行させる。この環境制御装置100の詳細については後述する。制御内容には、少なくとも光に関する制御条件が含まれる。また、制御内容には、さらに映像、音、香り、振動、温湿度、及び、気流の少なくとも1つに関する制御条件が含まれていてもよい。
センサ200は、ユーザの行動を検出する。また、センサ200は、検出したユーザの行動に基づく情報を行動指標情報とし、当該行動指標情報を含む入力情報を環境制御装置100の第1取得部110に出力する。センサ200は、当該行動指標情報を含む入力情報を第1取得部110に出力する。センサ200は、ユーザを撮像する撮像装置であってもよいし、ユーザが活動している環境の照度を計測する照度センサであってもよいし、ユーザが座る椅子に設けられた圧力センサであってもよいし、温度センサであってもよい。撮像装置は、可視光帯域に感度を有するイメージセンサであるが、赤外線イメージセンサ又は熱画像センサであってもよい。撮像装置が撮像する画像は、例えば動画であるが静止画であってもよい。また、センサ200は、ユーザの行動を検出可能な他のセンサであってもよいし、それらの組み合わせであってもよい。なお、センサ200は、検出装置の一例である。以下では、センサ200が撮像装置であり、ユーザを撮像した画像からユーザのタイプスピードを計測しているとする。
センサ200は、オフィス及び仮眠室のそれぞれでユーザをセンシングできるように設けられる。センサ200は、例えば、オフィス及び仮眠室のそれぞれに配置されていてもよい。センサ200は、仮眠前の作業中のユーザをセンシングしたセンシング結果を行動指標情報として第1取得部110に出力する。
また、センサ200は、仮眠中のユーザ及び仮眠後の作業中のユーザをセンシングしたセンシング結果を評価情報として第2取得部150に出力してもよい。つまり、センサ200は、入力情報に加えて評価情報を出力してもよい。なお、評価情報は、仮眠における評価を示す情報である。
入力装置300は、ユーザから評価情報を取得し、取得した評価情報を第2取得部150に出力する。入力装置300は、例えば、仮眠後のユーザから取得した情報を評価情報として第2取得部150に出力してもよい。入力装置300は、例えば、スマートフォン及びタブレットコンピュータであり、タッチディスプレイを介して仮眠に対する評価情報の入力を受ける。なお、入力装置300は、ユーザが着用可能なウェアラブルデバイス(例えば、スマートウォッチ)であってもよい。また、入力装置300は、例えば、マイクロフォンであってもよい。この場合、入力装置300は、ユーザから音声入力を受ける。また、入力装置300は、例えば、機械式のプッシュボタン、キーボード、又はマウスなどであってもよい。
入力装置300は、さらに、仮眠前のユーザから取得した情報を入力情報として第1取得部110に出力してもよい。つまり、入力装置300は、評価情報に加えて入力情報を出力してもよい。また、入力装置300は、ユーザから仮眠環境の制御を開始する操作を取得してもよい。
なお、環境制御システム10が備えるセンサ200及び入力装置300の数は特に限定されない。
環境制御機器400は、仮眠を支援するための機器である。例えば、環境制御機器400は、仮眠室内の環境を制御する。環境制御機器400は、光を出力する機器(例えば、照明機器)、つまり光によりユーザに刺激を与える機器を含む。なお、環境制御機器400は、さらに照明機器以外の機器であって、仮眠のための環境を制御可能な他の機器を含んでもよい。環境制御機器400は、光以外に、さらに、映像、音、香り、振動、温湿度、気流、及び、触感などによりユーザに刺激を与える機器を含んでもよい。例えば、環境制御機器400は、さらに、エアコン、空気清浄機、換気扇、扇風機又は床暖房などを含んでいてもよい。また、例えば、環境制御機器400は、窓を開閉可能に覆う遮光設備(例えばブラインド及びカーテンなど)の開閉機器を含んでもよい。また、例えば、環境制御機器400は、映像機器、音響機器又は映像音響機器を含んでもよい。また、例えば、環境制御機器400は、芳香器を含んでもよい。また、例えば、環境制御機器400は、マッサージ器を含んでもよい。本実施の形態では、環境制御機器400が照明機器である場合について説明する。
[1-1.環境制御装置の構成]
次に、環境制御装置100の詳細な構成について説明する。図1に示すように、環境制御装置100は、第1取得部110と、決定部120と、制御部130と、表示部140と、第2取得部150と、報酬算出部160と、報酬条件設定部170と、更新部180と、記憶部190とを備える。また、環境制御装置100では、報酬算出部160と、報酬条件設定部170と、更新部180と、記憶部190とで学習部100bが構成され、第1取得部110と、決定部120と、表示部140と、第2取得部150と、学習部100bとで学習器100a(エージェント)が構成される。学習部100bは、制御内容を入力情報及び評価情報に関連付けて学習する。
環境制御装置100は、例えば、プロセッサ及びメモリを含んで構成される。例えば、メモリに格納されたソフトウェアプログラムをプロセッサが実行したときに、当該プロセッサが、第1取得部110と、決定部120と、制御部130と、表示部140と、第2取得部150と、報酬算出部160と、報酬条件設定部170と、更新部180として機能する。また、環境制御装置100は、第1取得部110、決定部120、制御部130、表示部140、第2取得部150、報酬算出部160、報酬条件設定部170、及び、更新部180に対応する専用の1以上の電子回路として実現されてもよい。
第1取得部110は、ユーザの行動を示す行動指標情報を含む入力情報を取得する。第1取得部110は、センサ200から入力情報を取得する。なお、第1取得部110は、入力装置300から入力情報を取得してもよい。
決定部120は、制御内容決定ルールに従って、入力情報からユーザを仮眠させるための制御内容であって、光を出力する機器を含む環境制御機器400を制御する制御内容を決定する。制御内容決定ルールは、記憶部190に記憶されている。
制御内容決定ルールは、例えば、制御内容の価値を決定する行動価値関数で表される。決定部120は、例えば、行動価値関数を用いて、入力情報から報酬が最も高くなる制御内容(例えば、入眠効果に対する最大限の報酬が得られる制御内容)を当該入力情報に対する制御内容であると決定する。報酬が最も高くなる制御内容は、ユーザそれぞれで異なる場合がある。そのため、決定部120は、ユーザに対応する制御内容決定ルールに従って、制御内容に対する当該ユーザの報酬を算出してもよい。なお、行動価値関数は、価値関数の一例である。
なお、決定部120は、環境制御機器400が他の機器(例えば、照明機器以外の機器)を有する場合、他の機器を含む環境制御機器400の制御内容を決定する。
制御部130は、決定部120で決定された制御内容に基づいて環境制御機器400を制御する。具体的には、制御部130は、制御内容に対応する制御信号を環境制御機器400に出力する。
表示部140は、決定部120で決定した各種情報を表示する装置である。表示部140は、例えば、入力情報、制御内容、及び、評価結果に基づく情報の少なくとも1つを画像として出力する。画像は、写真、動画、イラスト、文字等を含む。表示部140は、液晶ディスプレイ等である。表示部140は、出力部の一例である。
なお、環境制御装置100は、出力部として表示部140に替えて、又は、表示部140とともに、音声を出力する装置を有していてもよい。また、環境制御装置100は、プロジェクタなどの対象物(例えば、スクリーン)に情報を表示する装置を表示部140として備えていてもよい。
第2取得部150は、入力装置300から制御内容に対するユーザの仮眠における評価を示す評価情報を取得する。評価情報は、決定部120が決定した制御内容に基づいて環境制御機器400を制御した結果に対する評価を示す情報を含み、例えば、環境制御後に入力装置300を介してユーザから入力された情報を含む。例えば、第2取得部150は、ユーザによって入力された仮眠の質、入眠導入効果、回復効果、及び、快適感の少なくとも1つを示す値を入力装置300から取得する。また、例えば、第2取得部150は、入力装置300から音声信号を受信し、音声認識により所定のキーワードの発言を検出することにより評価情報を取得してもよい。快適感を例に説明すると、所定のキーワードは、仮眠に対するユーザの快適性等を示す予め定められたキーワードである。例えば、所定のキーワードは、「快適」あるいは「不快」などである。
報酬算出部160は、第2取得部150が取得した評価情報に基づいて報酬を算出する。評価情報は、1以上の項目情報を含み、報酬算出部160は、1以上の項目情報ごとに個別報酬を算出し、算出した1以上の個別報酬を演算することで、制御内容に対する報酬を算出する。報酬の詳細については、図6を用いて後述する。なお、演算とは、例えば、重み付け加算であるが、これに限定されない。また、報酬を算出する処理については、図7~図9Dを用いて後述する。
報酬条件設定部170は、報酬算出部160における報酬の算出における条件を設定する。報酬条件設定部170は、例えば、1以上の個別報酬を重み付け加算するときの重みを設定する。条件は、予め記憶部190に記憶されていてもよいし、入力装置300を介してユーザにより設定されてもよい。また、報酬条件設定部170は、ユーザが仮眠するときの天気、季節及び時間帯の少なくとも1つに応じて、条件(例えば、重み)を変更してもよい。天気、季節及び時間帯が、例えば、第1取得部110が取得した入力情報に含まれている場合、報酬条件設定部170は、第1取得部110から天気、季節及び時間帯に関する情報を取得してもよい。また、報酬条件設定部170は、環境制御装置100が備える、現在時刻を計測する汎用のタイマIC(タイマ回路)、又は、リアルタイムクロックICなどから季節及び時間帯に関する情報を取得してもよい。なお、重みに固定の値を用いる場合、及び、重み付けを行わない場合には、報酬条件設定部170は、設けられなくてもよい。
更新部180は、第2取得部150が取得した評価情報に基づく値を報酬として用いる機械学習によって制御内容決定ルールを更新する。更新部180は、決定部120が決定した制御内容に対する報酬であって報酬算出部160が算出した報酬に基づいた強化学習により、ユーザに適応した制御内容(すなわち、当該ユーザにおける報酬が最も多く得られる制御内容)の決定を学習する。本実施の形態では、更新部180は、行動価値関数を更新することで、制御内容決定ルールを更新する。
強化学習の代表的な手法としては、Q学習やTD学習が知られている。以下、Q学習を例に説明する。Q学習は、入力情報が示すユーザの身体状態sの下で、制御内容aを選択する価値Q(s、a)を学習する方法であって、ある身体状態sのとき、価値Q(s、a)の最も高い制御内容aを最適な制御内容として選択する。学習器100aは、ある身体状態sの下で様々な制御内容aを選択し、そのときの制御内容aに対して報酬が与えられる。それにより、学習器100aは、よりよい制御内容の選択、すなわち正しい価値Q(s、a)を学習していく。このような価値Q(s、a)の更新式は、例えば、式1により表すことができる。
ここで、stは、時刻tにおける身体状態sの状態を表し、atは、時刻tにおける制御内容を表す。制御内容atにより、身体状態はst+1に変化する。rt+1は、その身体状態の変化により得られる報酬を表している。また、maxの付いた項は、身体状態st+1の下で、そのときに分かっている最もQ値の高い制御内容at+1を選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。
図1を再び参照して、記憶部190は、決定部120が決定した制御内容を格納する。記憶部190は、入力情報及び制御内容のうち、制御内容のみを格納する。記憶部190は、例えば、決定部120が決定した制御内容を当該制御内容に対応する入力情報と対応付けずに格納する。なお、記憶部190は、さらに上記の制御内容決定ルール等を格納する。制御内容決定ルールは、例えば、学習された結果である学習結果の一例である。
[1-2.入力情報等の説明]
次に、決定部120で用いられる入力情報及び決定部120で決定される制御内容等について説明する。
まず、センサ200及び入力装置300の少なくとも一方から出力される入力情報について、図2Aを参照しながら説明する。図2Aは、本実施の形態に係る環境制御装置100に入力される入力情報の一例である。具体的には、第1取得部110が取得する入力情報の一例である。
図2Aに示すように、入力情報は、ユーザの行動を示す「行動指標情報」と、ユーザの心身の状態における自己評価の結果を示す「主観指標情報」と、ユーザのスケジュールを示す「スケジュール情報」と、ユーザの過去の仮眠の履歴を示す「利用履歴情報」と、現在の日時及びユーザがいる空間の情報を示す「環境情報」と、ユーザの属性を示す「ユーザ情報」とを含む。
「行動指標情報」には、ユーザがキーボードを操作するタイプスピード、前日又は過去の本睡眠の睡眠時間及び当該本睡眠の質、起床及び就寝時刻、マウスクリック数、離席頻度(トイレ及び給湯室など)、会話数及び会話の状態(例えば、議論しているか否か、ゆっくり話しているなど会話のスピード、及び、発言数など)、休憩時間、薬の摂取履歴(睡眠作用あるか否か(例えば、睡眠薬であるか否か)、及び、覚醒作用があるか否か(例えば、カフェインを含むか否か))、前日及び当日を含む飲食履歴(食べたもの、食べた量、飲酒、及び、飲食時刻を含む)などが含まれる。「行動指標情報」は、例えば、センサ200及び入力装置300の少なくとも一方から取得される。
入力情報に少なくとも「行動指標情報」が含まれることで、決定部120は、ユーザの疲労度等に応じて制御内容を決定することができる。決定部120は、例えば、「行動指標情報」からユーザの疲労度が非常に高く、眠気が高いと判定すると、仮眠導入期間を短く設定し、かつ仮眠期間を長く設定することができる。言い換えると、行動価値関数は、例えば、ユーザの疲労度が非常に高く、眠気が高い場合、仮眠導入期間が短く、かつ仮眠期間が長い制御内容の価値が高くなるように学習される。
「主観指標情報」には、ユーザによる心身の状態及び程度などが含まれる。「主観指標情報」には、眠気、やる気、体調、身体疲労の度合い、ストレス度合い、集中力、パフォーマンス、緊張又はリラックス度合い、イライラ度合い、怒り又は悲しみの度合いなどが含まれる。「主観指標情報」は、例えば、入力装置300から取得される。
入力情報にさらに「主観指標情報」が含まれることで、決定部120は、ユーザ自身が感じている心身の状態(例えば、疲労度)に応じて、制御内容を決定することができる。
「スケジュール情報」には、利用日、利用日前日、及び、利用日翌日のユーザの活動予定(会議など)、作業状態(取り込み中、離席中、打ち合わせ中など)などが含まれる。「スケジュール情報」は、入力装置300から取得される。例えば、入力装置300は、スケジュールを管理するサーバから「スケジュール情報」を取得する。
入力情報にさらに「スケジュール情報」が含まれることで、決定部120は、ユーザの利用日のスケジュール内容から仮眠を長くとることができない場合に、仮眠導入期間及び仮眠期間ともに短くした制御内容を決定することができる。
「利用履歴情報」には、ユーザの過去の利用時間、時刻、曜日、及び、タイミング(例えば、仮眠をとりやすいタイミング)などの利用履歴、並びに、入力情報、出力情報、及び、報酬などのデータなどが含まれる。「利用履歴情報」は、例えば、入力装置300から取得される。例えば、入力装置300がサーバ装置から「利用履歴情報」を取得してもよい。また、「利用履歴情報」は、環境制御装置100が備える記憶部に格納されていてもよい。
入力情報にさらに「利用履歴情報」が含まれることで、決定部120は、報酬が高かった過去の制御内容等を参照して、制御内容を決定することができる。
「環境情報」には、天気(日射量)、受光量(光環境情報)、季節、時間帯、環境温度、湿度、におい、音環境情報、CO2濃度などが含まれる。環境情報とは、区画された空間内の環境の情報である。具体的には、「環境情報」には、例えば、ユーザが作業するオフィス内及び仮眠室の温度、湿度又は気流などに関する情報が含まれてもよい。「環境情報」は、例えば、センサ200及び入力装置300の少なくとも一方から取得される。
入力情報にさらに「環境情報」が含まれることで、決定部120は、例えば冬季にはエアコンを暖房設定にするように制御内容を決定することができる。
「ユーザ情報」には、性別、年齢、人種、出身地、職種、体質(例えば、光過敏など)、病歴(例えば、不眠症など)が含まれる。「ユーザ情報」は、例えば、入力装置300から得される。入力装置300は、例えば、ユーザからの操作を受け付けることで、「ユーザ情報」を取得してもよい。また、「ユーザ情報」は、環境制御装置100が備える記憶部に格納されていてもよい。
入力情報にさらに「ユーザ情報」が含まれることで、決定部120は、よりユーザに適した制御内容を決定することができる。
次に、制御内容を決定する決定部120について、図2Bを参照しながら説明する。図2Bは、本実施の形態に係る環境制御装置100が出力する出力情報の一例である。
図2Bに示すように、決定部120が決定する制御内容は、環境制御する時間を示す環境制御トータル時間、仮眠の各フェーズ(リラックス期間、仮眠導入期間、及び、仮眠期間など)の時間、光のゆらぎのパラメータ(例えば、周期、明るさのMAX及びMIN、光色など)、及び、仮眠室までの通路及び休憩室の光制御(リフレッシュor仮眠に応じた光制御)の少なくとも1つが含まれる。
また、決定部120は、入力情報に基づいて決定した制御内容を、表示部140を介してユーザに提示してもよい。決定部120は、入力情報にユーザの行動指標情報以外の他の情報(例えば、スケジュール情報)が含まれている場合、当該他の情報と当該行動指標情報とに基づいて、当該ユーザに適した1以上の制御内容を提示してもよい。例えば、決定部120は、ユーザが眠気の強い人である、又は、ユーザが眠気の強い状態であるとき、ゆらぎの期間を短く、覚醒を長くする制御内容をお勧めとして提示してもよい。決定部120は、例えば、価値が所定の値より高い1以上の制御内容を提示してもよい。決定部120がユーザに提示する制御内容の提示態様は、特に限定されない。例えば、文字であってもよいし、グラフ(図3及び図4を参照)であってもよいし、音声であってもよい。
また、決定部120は、第1取得部110が入力情報を取得できていない場合に、環境制御を開始する操作を取得すると、その旨を表示部140に表示させてもよい。この場合、決定部120は、記憶部190に格納されている制御内容を表示部140に表示させてもよい。このとき、決定部120は、制御内容を複数表示することで、ユーザによる制御内容の選択をより適切に行わせることができる。
なお、仮眠の各フェーズとは、仮眠環境制御実行中の期間であり、リラックス期間、仮眠導入期間、及び、仮眠期間の3つの期間を含む。リラックス期間は、入眠に臨む前にユーザがリラックスする期間、又は、リラックスに適した環境制御を行う期間である。仮眠導入期間は、ユーザが眠りに就こうとしている期間、又は、眠りに就かせるのに適した環境制御を行う期間である。仮眠導入期間では、ユーザはまだ眠っていない。仮眠期間は、ユーザが眠っている期間、又は、眠りに適した環境制御を行う期間である。
決定部120は、上記3つの期間の少なくとも1つの期間における制御内容を決定する。決定部120は、例えば、仮眠導入期間における第1制御内容と仮眠導入期間の後の仮眠期間における第2制御内容とを含む制御内容を決定してもよい。また、決定部120は、上記3つの期間のそれぞれにおいて制御内容を決定してもよい。決定部120は、例えば、3つの期間のうち少なくとも1つの期間を、他の期間と異なる制御内容に決定してよい。言い換えると、決定部120は、例えば、3つの期間のうち少なくとも1つの期間において、他の期間と異なる環境制御を行わせてもよい。決定部120は、例えば、ユーザが就寝の際、照明が点灯していないと不安で眠ることができない場合、仮眠導入期間では眠りに就かせるために照明を点灯状態にしておき、ユーザが眠りに就いてからは光が視覚刺激となって眠りを妨げないようにするために消灯することを含む制御内容を決定してもよい。
ここで、制御内容について、図3~図5を参照しながらより詳細に説明する。図3は、本実施の形態に係る環境制御装置100が決定する制御内容の一例を説明するための第1図である。図4は、本実施の形態に係る環境制御装置100が決定する制御内容の一例を説明するための第2図である。なお、図3及び図4では、リラックス期間、仮眠導入期間、及び、仮眠期間のうち、主に仮眠導入期間の制御内容について説明する。また、図3及び図4では、明るさにおける制御内容について説明する。
図3に示すように、制御内容は、仮眠導入期間全体の長さ、明るさの最大値及び最小値、明るさを上げる上昇期間、明るさの最大値の維持期間、明るさを下げる下降期間、明るさの最小値の維持期間、周期、明るさを上げるときの変化の仕方(例えば、傾き)を示す上昇カーブ、及び、明るさを下げるときの変化の仕方(例えば、傾き)を示す下降カーブを含む。なお、最大値及び最小値は、明るさを周期的に変化させるときの明るさの最大値及び最小値を意味する。
また、最大値、最小値、各種期間、及び、各種カーブの少なくとも1つは、時間経過とともに変化してもよい。図4では、最大値が時間経過とともに変化する例を示している。
図4に示すように、制御内容のパラメータは、さらに、最大値の変化を開始する変化開始時間、最大値の変化を終了する変化終了期間、最大値の変化の仕方を示す変化カーブ、及び、変化後の最大値を示す変化目標値を含む。決定部120は、最大値から変化目標値に変化させる場合、いきなり変化目標値に変化させるわけではなく、最大値から徐々に変化目標値に変化させるように制御内容を決定してもよい。決定部120は、例えば、第1最大値から第1最大値より暗い第2最大値に変化させる場合、第1最大値と第2最大値との間の第3最大値の明るさを最大値とするような周期を含むように制御内容を決定する。
決定部120は、例えば、行動価値関数を用いて、入力情報に対する制御内容の価値が最も高くなるように、上記の14個のパラメータを決定する。
なお、図3及び図4では、仮眠導入期間において、周期的に明るさを変化させる制御内容を例として示しているが、周期的に変化させることに限定されない。制御内容は、例えば、仮眠導入期間において、明るさを一定に維持することであってもよいし、時間経過とともに明るさが減衰することであってもよい。また、上記では、制御内容は、14個のパラメータを有する例を示したが、これに限定されない。制御内容のパラメータは、ユーザに応じて適宜決定されてもよい。
図5は、本実施の形態に係る環境制御装置100が決定する制御内容の一例を説明するための第3図である。図5は、図3及び図4に示す仮眠導入期間における制御内容が色の制御である場合に用いられるxy色度座標を示す。
決定部120は、例えば、図5に示す2つの点のうちの一方の点aを色度の最大値とし、他方の点bを色度の最小値として、図3に示す各種期間及びカーブを制御内容として決定する。なお、xy色度座標以外の色座標が用いられてもよい。
次に、行動価値関数を更新するための報酬について、図6を参照しながら説明する。図6は、本実施の形態に係る環境制御装置100に入力される報酬の一例である。
図6に示すように、報酬は、例えば、「仮眠の質」、「入眠導入効果」、「仮眠による回復効果」及び「仮眠環境の快適感」の4つの項目それぞれの評価情報に基づく値(以降において個別報酬とも記載する)を含む。なお、報酬は4つ個別報酬のうち少なくとも1つを含んでいればよい。また、個別報酬は、例えば、評価情報が高い評価結果を示すほど高い値に決定される。
「仮眠の質」における個別報酬は、例えば、仮眠期間におけるユーザの中途覚醒数及び睡眠効率などに基づいて算出される。中途覚醒数及び睡眠効率は、「仮眠の質」に対する第2評価情報の一例であり、例えば、センサ200がユーザの仮眠期間における体動を計測することにより取得可能である。報酬算出部160は、例えば、仮眠期間の体動数が少ないと、「仮眠の質」における個別報酬が高く決定する。「仮眠の質」における個別報酬は、仮眠期間における制御内容に対する評価値を示す。
「入眠導入効果」における個別報酬は、入眠潜時などに基づいて算出される。入眠までの時間は、「入眠導入効果」に対する第1評価情報の一例であり、例えば、センサ200がユーザの体動を計測することで取得可能である。例えば、体動数又は体動の大きさが所定以下となった場合に、ユーザが仮眠を開始した(つまり、入眠期間が開始した)と判定されてもよい。「入眠導入効果」における個別報酬は、仮眠導入期間における制御内容に対する評価値を示す。
「仮眠による回復効果」における個別報酬は、起床後のユーザの体調(例えば、行動指標及び主観指標)などに基づいて算出される。起床後のユーザの体調は、「仮眠による回復効果」に対する第3評価情報の一例であり、例えば、センサ200が起床後のユーザの行動を計測することで取得可能である。例えば、評価情報は、図2Aに示す行動指標情報の1つを含んでもよい。評価情報は、例えば、タイプスピードなどを含んでもよい。第3評価情報は、仮眠前後におけるユーザの行動指標情報の差分(例えば、タイプスピードの差分)であってもよい。「仮眠による回復効果」は、リラックス期間、入眠導入期間、及び、仮眠期間における制御内容に対する評価値を示す。
「入眠環境の快適性」における個別報酬は、入眠環境の快適性に基づいて算出される。快適性は、「入眠環境の快適性」に対する第1評価情報の一例であり、例えばユーザが入力装置300を操作することで取得可能である。「入眠環境の快適性」は、仮眠導入期間における制御内容に対する評価値を示す。
なお、評価情報は、仮眠導入期間におけるユーザの体動に基づく第1評価情報と、仮眠導入期間の後の仮眠期間におけるユーザの体動に基づく第2評価情報と、仮眠導入期間の前及び仮眠期間の後におけるユーザの行動指標情報の差分に基づく第3評価情報とを含む。
なお、上記4つの項目のそれぞれにおける評価情報は、センサ200及び入力装置300のいずれかから取得されればよい。
[2.環境制御装置の動作]
次に、以上のように構成された環境制御装置100の動作について図7~図9Dを参照しながら説明する。図7は、本実施の形態に係る環境制御装置100の処理を示すフローチャートである。この処理は、例えば、予め定められた時間間隔で周期的に実行される。また、例えば、この処理は、予め定められたタイムスケジュールに従って実行されてもよいし、ユーザからの指示に基づいて実行されてもよい。
まず、第1取得部110は、ユーザの行動を示す行動指標情報を含む入力情報を取得する(S110)。ステップS110は、第1取得ステップの一例である。決定部120は、行動価値関数に基づいて、制御内容を決定する(S120)。決定部120は、入力情報から仮眠のための制御内容であって、光を出力する機器を含む環境制御機器400を制御する制御内容を決定する。決定部120は、行動価値関数に基づいて、入力情報に対して報酬が最も高くなる制御内容を決定する。ステップS120は、決定ステップの一例である。制御部130は、決定された制御内容に基づいて、環境制御機器400を制御する(S130)。これにより、決定された制御内容に基づいて、ユーザが仮眠する仮眠室の環境制御が実行される。ステップS130は、制御ステップの一例である。
その後、第2取得部150は、決定ステップで決定された制御内容に対するユーザの仮眠における評価を示す評価情報を取得する(S140)。第2取得部150は、例えば、センサ200及び入力装置300のいずれかから、例えば、図5に示す4つの項目の評価情報を取得する。例えば、入力装置300がディスプレイを有する場合、第2取得部150は、グラフィカルユーザーインターフェース(GUI)を介して、仮眠に対するユーザの評価を示す値を取得する。なお、GUIは、仮眠の評価を示す値を入力するスライダーを含んでもよいし、数値が直接入力されるテキストボックスを含んでもよいし、数値増加/減少ボタンを含んでもよいし、これらの組合せを含んでもよい。ステップS140は、第2取得ステップの一例である。
続いて、報酬算出部160は、評価情報に基づいて、ステップS120で決定した制御内容に対する報酬を算出する(S150)。
そして、更新部180は、報酬を用いて機械学習によって行動価値関数を更新する(S160)。ステップS160は、更新ステップの一例である。
なお、評価情報の取得は、制御内容の決定のたびに行われなくてもよい。つまり、ステップS140はスキップされてもよい。この場合、更新部180は、予め定められた値(例えば0)を報酬として用いて、行動価値関数を更新してもよい。
なお、ステップS140の処理は、ステップS120で決定された制御内容で環境制御機器400を制御中に、つまり環境制御中に取得されてもよい。更新部180は、ステップS120で決定された制御内容で環境制御中に第2取得部150が取得した評価情報に基づいて、当該環境制御中に行動価値関数を更新してもよい。この場合、再度ステップS120に戻り、決定部120は、環境制御中に更新された行動価値関数に従って、入力情報に対する制御内容を環境制御中に決定しなおしてもよい。
環境制御中に取得される評価情報は、例えば、「入眠導入効果」に対する評価を示す情報を含み、例えば、センサ200が入眠導入期間中に検出したユーザの体動に関する情報を含む。
ここで、報酬算出部160における、評価情報から報酬を算出する処理について、図8~図9Dを参照しながら説明する。図8は、本実施の形態に係る環境制御装置100における報酬を算出する処理を示すフローチャートである。具体的には、図7に示すステップS150を詳細に説明する図である。
図8に示すように、報酬算出部160は、仮眠の質に対する個別報酬Faを決定し(S210)、入眠導入効果に対する個別報酬Fbを決定し(S220)、仮眠による回復効果に対する個別報酬Fcを決定し(S230)、入眠環境の快適性に対する個別報酬Fdを決定する(S240)。そして、報酬算出部160は、ステップS210~S240で決定した個別報酬Fa~Fdに基づいて、制御内容に対する報酬Fを決定する(S250)。このとき、報酬算出部160は、個別報酬Fa~Fdを重み付け加算することで報酬Fを算出してもよい。例えば、報酬算出部160は、式2に基づいて報酬Fを算出してもよい。
F=w1×Fa+w2×Fb+w3×Fc+w4×Fd ・・・(式2)
w1~w4は、報酬条件設定部170が設定した項目それぞれの重みであり、報酬条件の一例である。つまり、報酬条件設定部170は、報酬算出部160が重み付け加算するときの重みw1~w4を設定してもよい。
続いて、ステップS210~S240の処理について、図9A~図9Dを参照しながら説明する。図9A~図9Dは、評価情報に基づいて各項目それぞれの個別報酬を決定する処理を示す。
図9Aは、本実施の形態に係る環境制御装置100における仮眠の質に対する個別報酬Faを算出する処理を示すフローチャートである。図9Aは、図8に示すステップS210における処理の詳細を示す。
図9Aに示すように、報酬算出部160は、評価情報(例えば、第2評価情報)に基づいて、仮眠の質が高いか否かを判定する(S211)。報酬算出部160は、例えば、仮眠期間におけるユーザの体動数が所定数以下である、又は、体動の大きさの所定以下であると仮眠の質が高いと判定する。
報酬算出部160は、仮眠の質が高いと判定する(S211でYes)と、個別報酬Faを第1の報酬値とする(S212)。また、報酬算出部160は、仮眠の質が高くないと判定する(S211でNo)と、個別報酬Faを第1の報酬値より小さい第2の報酬値とする(S213)。
図9Bは、本実施の形態に係る環境制御装置100における入眠までの時間に対する個別報酬Fbを算出する処理を示すフローチャートである。図9Bは、図8に示すステップS220における処理の詳細を示す。
図9Bに示すように、報酬算出部160は、評価情報(例えば、第1評価情報)に基づいて、入眠までの時間が短いか否かを判定する(S221)。報酬算出部160は、例えば、入眠までの時間が所定時間より短いと入眠までの時間が短いと判定する。所定時間は、予め設定された値であってもよいし、ユーザにより設定された値であってもよいし、当該ユーザにおいて過去に計測された入眠までの時間に応じて設定された値であってもよい。所定時間は、例えば、5~30分である。報酬算出部160は、入眠までの時間が短いと判定する(S221でYes)と、個別報酬Fbを第3の報酬値とする(S222)。また、報酬算出部160は、入眠までの時間が短くないと判定する(S221でNo)と、個別報酬Fbを第3の報酬値より小さい第4の報酬値とする(S223)。なお、入眠までの時間とは、図3に示すリラックス期間が終了してからユーザが実際に入眠するまでの期間であってもよいし、環境制御システム10が仮眠のための環境制御を開始してからユーザが実際に入眠するまでの期間であってもよい。
図9Cは、本実施の形態に係る環境制御装置100における回復効果に対する個別報酬Fcを算出する処理を示すフローチャートである。図9Cは、図8に示すステップS230における処理の詳細を示す。
図9Cに示すように、報酬算出部160は、評価情報(例えば、第3評価情報)に基づいて、仮眠に対する回復効果が高いか否かを判定する(S231)。報酬算出部160は、例えば、仮眠前後における行動指標情報の比較により、上記の判定を行う。例えば、行動指標情報がタイプスピードである場合を例に説明すると、報酬算出部160は、仮眠後のタイプスピードが仮眠前のタイプスピードに比べて速い場合、回復効果が高いと判定する。報酬算出部160は、回復効果が高いと判定する(S231でYes)と、個別報酬Fcを第5の報酬値とする(S232)。また、報酬算出部160は、回復効果が高くないと判定する(S231でNo)と、個別報酬Fcを第5の報酬値より小さい第6の報酬値とする(S233)。
図9Dは、本実施の形態に係る環境制御装置100における快適性に対する個別報酬Fdを算出する処理を示すフローチャートである。図9Dは、図8に示すステップS240における処理の詳細を示す。
図9Dに示すように、報酬算出部160は、評価情報(例えば、第1評価情報)に基づいて、快適感が高いか否かを判定する(S241)。報酬算出部160は、例えば、ユーザの入力装置300への入力に基づいて、快適感が高いか否かを判定する。報酬算出部160は、ユーザが快適感を高いと判定したこと、及び、快適の度合が所定度合以上であることを示す評価情報を取得すると、快適感が高いと判定する。報酬算出部160は、快適感が高いと判定する(S241でYes)と、個別報酬Fdを第7の報酬値とする(S242)。また、報酬算出部160は、快適感が高くないと判定する(S241でNo)と、個別報酬Fdを第7の報酬値より小さい第8の報酬値とする(S243)。
なお、第2の報酬値、第4の報酬値、第6の報酬値、及び、第8の報酬値の少なくとも1つは、負の値であってもよい。
なお、図9A~図9Dは2つの報酬値のいずれかを選択する処理である例について説明したが、報酬値は段階的に決定されてもよい。図9Aの場合を例に説明すると、体動数及び体動の大きさに応じて、複数の報酬値が設定されていてもよい。この場合、体動数が少ないほど及び体動が小さいほど、報酬値が大きく設定される。
[3.効果など]
以上のように、本実施の形態に係る環境制御システム10は、ユーザの行動を示す行動指標情報を含む入力情報を取得する第1取得部110と、行動価値関数(制御内容決定ルールの一例)に従って、入力情報から、仮眠のための制御内容であって、光を出力する機器を含む環境制御機器400の制御内容を決定する決定部120と、決定された制御内容に基づいて環境制御機器400を制御する制御部130と、制御内容に対するユーザの評価を示す評価情報を取得する第2取得部150と、評価情報に基づく値を報酬として用いる機械学習によって行動価値関数を更新する更新部180とを備える。
これにより、環境制御システム10は、行動指標情報及び評価情報に関連付けて学習した行動価値関数に基づいて制御内容を決定することができる。よって、環境制御システム10によれば、仮眠効果が高い仮眠支援を実行することができる。また、制御部130は、決定部120が決定した制御内容で環境制御機器400の制御を実行するので、ユーザが環境制御機器400を操作する手間を低減することができる。
また、制御内容決定ルールは、制御内容の価値を定める価値関数を含み、更新部180は、当該価値関数を更新する。
これにより、環境制御システム10は、行動価値関数を更新することによりユーザに適した制御内容決定ルールを構築することができる。その結果、環境制御システム10は、ユーザに適した快眠支援を実現することができる。
また、環境制御機器400は、さらに光を出力する機器以外の機器であって、仮眠のための環境を制御可能な他の機器を含み、決定部120は、他の機器を含む環境制御機器400を制御する制御内容を決定する。
これにより、環境制御システム10は、光を出力する機器及びそれ以外の機器のそれぞれを用いて、環境制御を行うことができる。よって、環境制御システム10は、仮眠効果がより高い仮眠支援を実行することができる。
また、環境制御システム10は、さらに、評価情報に基づいて報酬を算出する報酬算出部160と、報酬算出部160における報酬の算出における条件を設定する報酬条件設定部170とを備える。
これにより、報酬算出部160及び報酬条件設定部170により適切に報酬が算出される。また、例えば、報酬条件設定部170がユーザそれぞれに対応した条件を設定することで、報酬算出部160は、ユーザそれぞれに適した行動価値関数を学習するための報酬を効果的に算出することができる。
また、制御内容は、仮眠導入期間における第1制御内容と、前記仮眠導入期間の後の仮眠期間における第2制御内容とを含む。また、評価情報は、仮眠導入期間におけるユーザの体動に基づく第1評価情報と、仮眠期間におけるユーザの体動に基づく第2評価情報と、仮眠前後におけるユーザの行動指標情報の差分に基づく第3評価情報とを含む。そして、報酬算出部160は、個別報酬Fa~Fdを重み付け加算することで報酬を算出し、報酬条件設定部170は、条件として、重み付け加算するときの重みwを設定する。なお、個別報酬Fb及び個別報酬Fdは第1評価情報に基づく値の一例であり、個別報酬Faは第2評価情報に基づく値の一例であり、個別報酬Fcは第3評価情報に基づく値の一例である。
これにより、報酬算出部160は、第1評価情報~第3評価情報を用いて報酬を算出するので、より精度よく報酬を算出することができる。また、例えば、報酬条件設定部170がユーザごと又は季節ごとなどに応じて適した重みwを設定することで、さらに精度よく報酬を算出することができる。
また、環境制御システム10は、さらに、決定部120が決定した制御内容を入力情報と対応づけずに格納する記憶部190を備える。
これにより、決定部120は、記憶部190に格納されている制御内容(例えば、前回の制御内容)を読み出すことで、入力情報が取得できていない場合であっても制御内容を決定することができる。つまり、環境制御システム10は、入力情報が取得できない場合であっても、決定部120が決定した制御内容を用いて環境制御を行うことができる。
また、環境制御システム10は、さらに、入力情報、制御内容、及び、評価情報に基づく情報の少なくとも1つをユーザに出力する表示部140(出力部の一例)を備える。
これにより、環境制御システム10は、入力情報、制御内容、及び、評価情報に基づく情報の少なくとも1つをユーザに知らせることができる。例えば、環境制御を開始する前にユーザに制御内容を出力することで、ユーザは制御内容を確認した後、仮眠を行うことができる。例えば、ユーザは、環境制御システム10が提示した制御内容に対して、環境制御が開始される前に変更を行うことができるので、ユーザの主観を含めた制御内容で環境制御を行うことができる。
また、更新部180は、制御内容で環境制御機器400を制御中に第2取得部150が取得した評価情報に基づいて、制御内容決定ルールを更新する。決定部120は、さらに、環境制御機器400を制御中に更新された制御内容決定ルールに従って入力情報に対する制御内容を制御中に決定しなおす。
これにより、環境制御システム10は、環境制御中のユーザの状態に応じて制御内容決定ルールを更新し、制御内容を変更することができる。例えば、仮眠導入期間中にユーザが入眠できないような状態(例えば、仮眠導入期間において、体動数が多い状態が継続しているなど)の場合に、当該状態に応じて入眠導入期間中の制御内容を変更することができる。すなわち、環境制御システム10は、環境制御中に学習することで、そのときのユーザの状態に対してより適切な制御内容を決定することができるので、さらにユーザに適した快眠支援を実現することができる。
また、環境制御システム10は、さらに、ユーザの行動を検出するセンサ200(検出部の一例)を備える。そして、第1取得部110は、センサ200が検出した行動に基づく情報を行動指標情報として取得する。
これにより、環境制御システム10は、外部から行動指標情報を取得しなくても、センサ200が検出した行動指標情報に基づいてユーザに対して仮眠支援を行うことができる。
また、環境制御システム10は、さらに、ユーザから仮眠の評価に対する操作を受け付ける入力装置300(入力部の一例)を備える。そして、第2取得部150は、入力装置300が取得したユーザの操作に基づく情報を評価情報として取得する。
これにより、環境制御システム10は、外部から評価情報を取得しなくても、入力装置300が取得したユーザの操作に基づく情報に基づいて行動価値関数の更新を行うことができる。
以上のように、本実施の形態に係る環境制御システム10の環境制御方法は、ユーザの行動を示す行動指標情報を含む入力情報を取得する第1取得ステップ(S110)と、制御内容決定ルールに従って、入力情報から、ユーザを仮眠させるための制御内容であって、光を出力する機器を含む環境制御機器400の制御内容を決定する決定ステップ(S120)と、決定された制御内容に基づいて環境制御機器400を制御する制御ステップ(S130)と、制御内容に対するユーザの評価を示す評価情報を取得する第2取得ステップ(S140)と、評価情報に基づく値を報酬として用いる機械学習によって制御内容決定ルールを更新する更新ステップ(S160)とを含む。
これにより、上記環境制御システム10と同様の効果を奏する。
(実施の形態1の変形例1)
本変形例では、環境制御システムの他の構成について、図10を参照しながら説明する。図10は、本変形例に係る環境制御システム10aの構成を示すブロック図である。環境制御システム10aは、実施の形態1の環境制御システム10と比べて、環境制御装置100cの構成が異なる。
図10に示すように、環境制御システム10aは、環境制御装置100cと、環境制御機器400とを備える。環境制御システム10aは、実施の形態1の環境制御装置100に加えて、さらにセンサ200及び入力装置300を備えている。この場合には、センサ200は、環境制御装置100cの一部である検出部として機能する。また、入力装置300は、環境制御装置100cの一部である入力部として機能する。
本変形例では、例えば、ユーザが椅子に着座して作業を行っており、着座したまま仮眠に就く場合、又は、マッサージチェアで仮眠に就く場合などを想定している。この場合、センサ200及び入力装置300を含む環境制御装置100cが椅子に備えられていることで、利便性が向上する。例えば、環境制御装置100cが椅子に備えられていることで、ユーザが仮眠時に当該椅子に着座したまま任意の場所に移動した場合であっても、環境制御装置100cは、適切に制御内容を決定することができる。なお、環境制御装置100cは椅子に備えられていることに限定されない。また、環境制御装置100cは、さらに環境制御機器400を備える構成であってもよい。
(実施の形態1の変形例2)
以下、本変形例に係る環境制御システムについて、図11及び図12を参照しながら説明する。なお、環境制御システムの構成は、実施の形態1の環境制御システム10と同様であるため、説明を省略する。
実施の形態1では、制御内容決定ルールは、行動価値関数により表される例を説明したが、入力情報から複数の制御内容のそれぞれの価値を推定するためのニューラルネットワークで表されてもよい。ニューラルネットワークの詳細について、図11を参照しながら説明する。
図11は、本実施の形態に係る環境制御装置におけるニューラルネットワークの一例を示す概念図である。
図11に示すように、このニューラルネットワークは、多階層の人工ニューラルネットワークであり、入力情報が示す身体状態sにおける複数の制御内容ai(i=1~n)の価値Qaiを推定するための数学モデルである。
図12は、本変形例における複数の制御内容の具体例を示す図である。ここでは、環境制御機器400が照明機器である場合について説明する。
図12に示すように、複数の制御内容a1~anは、照明機器の複数の制御内容を含む複数の制御内容セットである。例えば、制御内容a1~anは、図3及び図4に示す14個のパラメータの設定条件である。例えば、制御内容a1は、仮眠導入期間が「5分」、照明機器の明るさの最大値が「3.5%」、照明機器の明るさの最小値が「0.1%」、照明機器の明るさの最大値の変化目標値が「2%」であることを含む。このような複数の制御内容a1~anのそれぞれの身体状態sにおける価値がニューラルネットワークによって推定される。
以下、このような環境制御システムにおける動作について説明する。
第1取得部110は、入力情報を取得する。
決定部120は、ニューラルネットワークに基づいて、入力情報から各制御内容の価値を推定し、推定した価値を推定した価値に基づいて仮眠のための制御内容を決定する。例えば、決定部120は、複数の制御内容の中から最も高い価値を有する制御内容を選択する。
制御部130は、決定された制御内容に基づいて、環境制御を実行する。
そして、第2取得部150は、評価情報を取得する。
更新部180は、入力情報及び評価情報に基づいて、複数の制御内容の価値を更新する。このとき、評価情報に基づく値が強化学習における報酬として用いられる。
さらに、更新部180は、更新された価値に基づいてニューラルネットワークのパラメータ(例えば重みw)を更新する。つまり、更新部180は、更新された各制御内容の価値を教師信号として入力することにより、複数階層のニューラルネットワークのパラメータを学習する。更新部180は、複数の制御内容の価値に基づいた強化学習により、ユーザに適応した制御内容の決定を学習する。
このような、複数の制御内容の価値を更新し、更新された価値に基づいてニューラルネットワークのパラメータを更新する処理が内部的に繰り返されることにより、いわゆる深層強化学習が行われる。なお、深層強化学習については、特に限定される必要はなく、従来技術が用いられてもよい。したがって、深層強化学習の詳細な説明については省略する。
(実施の形態2)
本実施の形態では、環境制御システムの他の構成について、図13を参照しながら説明する。図13は、本実施の形態に係る環境制御システム10bの構成を示すブロック図である。
図13に示すように、本実施の形態に係る環境制御システム10bは、複数の個別環境制御システム10cと、複数の個別環境制御システム10cのそれぞれ通信可能に接続されたサーバ装置500とを備える。
複数の個別環境制御システム10cのそれぞれは、例えば、実施の形態1の環境制御システム10と同様の構成であるが、図13では第1取得部110及び記憶部190以外の構成を省略している。環境制御システム10bが備える複数の個別環境制御システム10cの数は、特に限定されない。
サーバ装置500は、複数の個別環境制御システム10cのそれぞれから、第1取得部110が取得した入力情報、及び、記憶部190に記憶された学習結果(例えば、制御内容、報酬、及び、更新された行動価値関数)の少なくとも1つを取得し、集中管理する。サーバ装置500は、取得した情報を記憶部510に格納する。これにより、複数の個別環境制御システム10cのそれぞれの学習結果等を共有することができる。
なお、複数の個別環境制御システム10cのそれぞれが備える複数の環境制御装置100のうちの少なくとも1つの環境制御装置100がサーバ装置として機能してもよい。つまり、環境制御システム10bは、個別環境制御システム10cとは別にサーバ装置500を備えていなくてもよい。この場合、複数の個別環境制御システム10cのそれぞれは、互いに通信可能に接続されており、入力情報、評価情報及び学習結果の少なくとも一つを相互に通信する。そして、更新部180は、他の個別環境制御システム10cから取得した入力情報、及び、学習結果の少なくとも一つに基づいて、行動価値関数を更新する。
以上のように、本実施の形態に係る環境制御システム10bは、第1取得部110、決定部120、制御部130、第2取得部150、及び、更新部180を有する個別環境制御システム10cを複数備える。複数の個別環境制御システム10cのそれぞれは、互いに通信可能に接続されており、入力情報及び学習結果の少なくとも一つを相互に通信する。そして、更新部180は、他の個別環境制御システム10cから取得した入力情報及び学習結果の少なくとも一つに基づいて、制御内容決定ルールを更新する。
これにより、更新部180は、他の個別環境制御システム10cが取得した入力情報等に基づいて、自装置の行動価値関数を更新することができる。よって、自装置における学習の精度が向上し、より適切な行動価値関数を得ることができる。
また、環境制御システム10bは、複数の個別環境制御システム10cと、複数の個別環境制御システム10cのそれぞれと通信可能に接続されたサーバ装置500とを備える。
これにより、入力情報、評価情報、及び、学習結果の少なくとも1つを集中管理することができる。また、サーバ装置500が学習部を備えている場合、複数の個別環境制御システム10cのそれぞれから取得した入力情報及び評価情報等に基づいて、機械学習によって行動価値関数を更新することが可能となる。それゆえ、学習の精度が向上し、さらに適切な行動価値関数を得ることができる。なお、この場合、サーバ装置500は、環境制御装置100より高速で処理が行えるプロセッサ等を備えているとよい。
(他の実施の形態)
以上、本発明の1つまたは複数の態様に係る環境制御システム及び環境制御方法について、実施の形態及び変形例(以降において、実施の形態等とも記載する)に基づいて説明したが、本発明は、この実施の形態等に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の1つまたは複数の態様の範囲内に含まれてもよい。
例えば、上記実施の形態等において、決定部は、1つの制御内容を決定する例について説明したが、これに限定されない。環境制御システムが2以上の環境制御機器を備える場合、決定部は、2以上の環境制御機器を1つの制御内容で制御してもよいし、2以上の環境制御機器それぞれに決定した制御内容で制御してもよい。例えば、環境制御システムが2以上の環境制御機器として、2以上の照明器具を備える場合、2以上の照明器具を1つの制御内容で制御してもよいし、互いに異なる制御内容で制御してもよい。
また、上記実施の形態等では、入力情報に基づいて決定された仮眠導入期間の後に、仮眠期間に移行する例を示したが、これに限定されない。制御部は、例えば、行動指標情報(例えば、体動)からユーザが仮眠導入期間中に眠ったと判定した場合、仮眠導入期間中に仮眠期間に移行し、仮眠期間における制御内容で環境制御機器を制御してもよい。
また、上記実施の形態等では、評価情報は、行動指標情報に基づいて決定される例について説明したが、これに限定されない。評価情報は、行動指標情報に加え、さらに生理指標情報に基づいて決定されてもよい。具体的には、第1評価情報は、仮眠導入期間におけるユーザの体動及び生理指標情報に基づいて生成されてもよい。また、第2評価情報は、仮眠期間におけるユーザの体動及び生理指標情報に基づいて生成されてもよい。また、第3評価情報は、仮眠導入期間の前及び仮眠期間の後における、ユーザの行動指標情報の差分及び生理指標情報の差分に基づいて生成されてもよい。なお、生理指標情報とは、ユーザの脳波、自律神経、及び、呼吸に係る指標であり、心拍数、瞬目、瞳孔変動、皮膚温度、呼吸数、及び、血流などの情報が含まれる。生理指標情報は、ユーザの身体に取り付けられた電極、生体センサ、及び、カメラなどのセンサを用いて取得される。
また、上記実施の形態等では、第1取得部は、センサから直接入力情報を取得する例について説明したが、これに限定されない。例えば、第1取得部は、センサの出力信号を取得し、取得した出力信号を処理することにより入力情報を取得してもよい。第1取得部が出力信号を処理することにより入力情報を取得することは、センサから入力情報を取得することに含まれる。なお、第1取得部が、入力装置から入力情報を取得する場合も同様である。
また、上記実施の形態等では、第2取得部は、入力装置から直接評価情報を取得する例について説明したが、これに限定されない。例えば、第2取得部は、入力装置の出力信号を取得し、取得した出力信号を処理することにより評価情報を取得してもよい。第2取得部が出力信号を処理することにより評価情報を取得することは、入力装置から評価情報を取得することに含まれる。なお、第2取得部が、センサから評価情報を取得する場合も同様である。
また、上記実施の形態等における環境制御システムが備える装置間の通信方法については特に限定されるものではない。装置間で無線通信が行われる場合、無線通信の方式(通信規格)は、例えば、ZigBee(登録商標)、Bluetooth(登録商標)、又は、無線LAN(Local Area Network)などの近距離無線通信である。あるいは、無線通信の方式(通信規格)は、インターネットなどの広域通信ネットワークを介した通信でもよい。また、装置間においては、無線通信に代えて、有線通信が行われてもよい。有線通信は、具体的には、電力線搬送通信(PLC:Power Line Communication)又は有線LANを用いた通信などである。
また、上記実施の形態等では、環境制御システムが備える各装置は、単一の装置で実現されてもよいし、互いに接続された複数の装置で実現されてもよい。例えば、環境制御装置は、クラウドコンピューティングによって実現されてもよい。
また、上記実施の形態等における環境制御システムが備える構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。例えば、環境制御装置は、第1取得部と、決定部と、制御部と、第2取得部と、学習部とを有するシステムLSIから構成されてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
また、ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable GateArray)、あるいはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
また、本発明の一態様は、このような環境制御システムだけではなく、環境制御システムに含まれる特徴的な構成部をステップとする環境制御方法であってもよい。また、本発明の一態様は、環境制御方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本発明の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。
また、上記実施の形態等において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態等の環境制御システムなどを実現するソフトウェアは、次のようなプログラムである。
すなわち、このプログラムは、コンピュータに、ユーザの行動を示す行動指標情報を含む入力情報を取得する第1取得ステップと、制御内容決定ルールに従って、入力情報から、仮眠のための制御内容であって、光を出力する機器を含む環境制御機器を制御する制御内容を決定する決定ステップと、決定された制御内容に基づいて環境制御機器を制御することで環境制御を実行する制御ステップと、制御内容に対するユーザの仮眠における評価を示す評価情報を取得する第2取得ステップと、評価情報に基づく値を報酬として用いる機械学習によって制御内容決定ルールを更新する更新ステップとを含む環境制御方法を実行させる。