JP2022079175A

JP2022079175A - 情報処理装置、情報処理プログラム及び情報処理システム

Info

Publication number: JP2022079175A
Application number: JP2020190185A
Authority: JP
Inventors: 隆之堀; Takayuki Hori; 容範金; Yohan Kin; 裕真鈴木; Yuma Suzuki; 麟太郎金田; Rintaro Kaneda; 宏暢小林; Hironobu Kobayashi; 正雄田口; Masao Taguchi; 肇河野; Hajime Kono; 崇行山口; Takayuki Yamaguchi; 宏典稲澤; Hironori Inazawa
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2022-05-26
Anticipated expiration: 2040-11-16
Also published as: JP7080294B2

Abstract

【課題】集団の快適さを考慮した空調制御を可能とする。【解決手段】本願に係る情報処理装置は、複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された個々の人物にとっての空間の快適さに基づいて、空間に所在する複数の人物にとっての空調に対する集団の報酬を示す値を決定する決定部と、空調機器による空調を制御する空調制御情報を出力する空調制御モデルを、空調機器により空調が行われた際の空調制御情報と集団の報酬を示す値とに基づいて強化学習する学習部と、を備える。【選択図】図１０

Description

本発明は、情報処理装置、情報処理プログラム及び情報処理システムに関する。

従来、人物にとって快適な空間を提供するための技術が知られている。例えば、空間の環境因子（温度と湿度）の値の複数の組み合わせに対して、同一空間に居る複数のユーザが快適に感じる確率の平均に基づいて作成された確率合成マップにしたがってエアコンを制御する技術が知られている。

国際公開第２０１４／０８７６５０号公報

しかしながら、上記の従来技術では、確率合成マップは単なる平均値にしたがった指標にすぎないため、必ずしも個々人の快適さを考慮した空調制御ができるとは限らない。

実施形態に係る情報処理装置は、複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された前記個々の人物にとっての前記空間の快適さに基づいて、前記空間に所在する前記複数の人物にとっての前記空調に対する集団の報酬を示す値を決定する決定部と、前記空調機器による空調を制御する空調制御情報を出力する空調制御モデルを、前記空調機器により前記空調が行われた際の前記空調制御情報と前記集団の報酬を示す値とに基づいて強化学習する学習部と、を備える。

図１は、実施形態に係る情報処理システムの構成例を示す図である。図２は、実施形態に係る情報処理装置の構成例を示す図である。図３は、実施形態に係る個々の報酬を決定するための表である。図４は、実施形態に係る情報処理手順を示す図である。図５は、実施形態に係る情報処理手順を示す図である。図６は、実施形態に係る情報処理手順を示す図である。図７は、実施形態に係る情報処理手順を示す図である。図８は、実施形態に係る情報処理手順を示す図である。図９は、実施形態に係る情報処理手順を示す図である。図１０は、実施形態に係る情報処理手順を示す図である。図１１は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理装置、情報処理プログラム及び情報処理システムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理プログラム及び情報処理システムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

（実施形態）
〔１．はじめに〕
従来、人の暑さ寒さに関する温熱環境における快適さに基づいて空調制御する技術が知られている。例えば、空間の快適さを評価する指標として、人体の熱収支に影響する６つの要素からなるＰＭＶ（Predicted Mean Vote）が知られている。ＰＭＶは、温度［℃］、湿度［％］、（熱）放射［℃］、気流［m/s］の４つの環境要素と、着衣量［clo］、代謝量（活動量）［met］の２つの人的要素から算出される。ここで、温度、湿度、放射、気流の４つの環境要素は、空間に対するセンシングによって得ることができる。一方、着衣量、代謝量（活動量）の２つの人的要素は、外気温などから推定される推定値が用いられるのが一般的であった。そのため、従来の手法に基づいて算出されたＰＭＶ値は、必ずしも実際に人が感じている空間の快適さを反映しているとは限らなかった。すなわち、従来は、空間の快適さを精度よく推定できるとは限らなかった。

そこで、本願発明に係る発明者らは、機械学習モデルを用いて、ＲＧＢカメラ、赤外線カメラおよび環境センサによって検出された空間のセンサ情報から空間の快適さを推定する技術（以下、提案技術ともいう）を提案している。具体的には、提案技術は、空間を撮像した画像に含まれる人物が撮像された領域（以下、人物領域ともいう）に関する情報に基づいて空間の快適さを推定する。例えば、提案技術は、個々の人物の姿勢を推定する姿勢推定処理に基づいて特定された人物領域に関する情報に基づいて空間の快適さを推定する。このように、提案技術は、姿勢推定処理を用いることにより、画像の中から人物領域を精緻に特定することができるので、推定対象となる人物の着衣量や代謝量（活動量）に関する情報を精度よく推定することができる。また、提案技術は、着衣量や代謝量（活動量）といった２つの人的要素を精度よく推定することができるため、空間の快適さの推定精度を向上させることができる。

また、従来、複数の人物が所在する空間の空調制御では、利用者のリモコン操作等による任意の温度設定がなされていた。このような任意の温度設定は、集団の総意を得ておらず、集団にとって快適な空調制御が実現されるとは限らなかった。

これに対し、実施形態に係る情報処理装置１００は、複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された個々の人物にとっての空間の快適さに基づいて、空間に所在する複数の人物にとっての空調に対する集団の報酬を示す値を決定する。また、情報処理装置１００は、空調機器による空調を制御する空調制御情報を出力する空調制御モデルを、空調機器により空調が行われた際の空調制御情報と集団の報酬を示す値とに基づいて強化学習する。

このように、情報処理装置１００は、個々の人物にとっての空間の快適さを精度よく推定することができるので、個々の人物が集まった集団にとっての空間の快適さを反映する指標としての空調に対する集団の報酬を精度よく算出することができる。また、情報処理装置１００は、精度の高い集団の報酬に基づいて、空調機器による空調を制御する空調制御情報を出力する空調制御モデルを強化学習することができるので、精度の高い空調制御モデルを生成することができる。これにより、情報処理装置１００は、個々の人物にとっての空間の快適さに基づく集団にとって最適な快適さを実現する空調制御を適切に行うことが可能となる。したがって、情報処理装置１００は、集団の快適さを考慮した空調制御を可能とすることができる。

なお、人物領域は、情報処理装置１００が推定対象の人物を特定可能な領域であれば、任意の領域であってよい。例えば、人物領域は、人物を示す領域に加えて、その人物の周囲の空間を示す領域を含んでもよい。例えば、人物領域は、人物が撮像された領域に加えて、その人物の周囲の空間が撮像された領域を含んでもよい。例えば、人物領域は、人物の周囲に存在する家具等を示す領域を含んでもよい。なお、以下では、空間に所在する人物のことを「利用者」と記載する場合がある。

〔２．情報処理システムの構成〕
まず、図１を用いて、実施形態に係る情報処理システムの構成について説明する。図１は、実施形態に係る情報処理システムの構成例を示す図である。情報処理システム１には、空調装置１０と、センサ装置２０と、情報処理装置１００とが含まれてよい。空調装置１０と、センサ装置２０と、情報処理装置１００とは所定のネットワークＮを介して、有線または無線により通信可能に接続されてよい。なお、情報処理システム１には、任意の数の空調装置１０と任意の数のセンサ装置２０と任意の数の情報処理装置１００とが含まれてもよい。

空調装置１０は、空間の空気の温度や湿度などを調整する装置である。例えば、空調装置１０は、情報処理装置１００による空調制御の対象となる各空間に設置された空調機器（例えば、エアコン）であってよい。また、空調装置１０は、ＩｏＴ（Internet of Things）技術により、他の装置と通信可能であってよい。空調装置１０は、情報処理装置１００の制御に従って制御対象となる空間の空調を調整することができる。具体的には、空調装置１０は、空間に設置された空調機器による空調を制御する空調制御情報を情報処理装置１００から受信することができる。例えば、空調装置１０は、空調制御情報として、冷房設定による空調を行うことを示す冷房情報または暖房設定による空調を行うことを示す暖房情報を受信してよい。また、空調装置１０は、空調制御情報として、空間の設定温度を示す温度情報および空間の設定湿度を示す湿度情報を受信してよい。続いて、空調装置１０は、情報処理装置１００から受信した空調制御情報に従って、空間の空調を行う。例えば、空調装置１０は、冷房情報（暖房情報）を受信すると、空間の温度や湿度を冷房設定（暖房設定）によって調整してよい。また、空調装置１０は、温度情報を受信すると、空間の温度が設定温度や設定湿度に保たれるように調整してよい。また、空調装置１０は、湿度情報を受信すると、空間の湿度が設定湿度に保たれるように調整してよい。なお、以下では、空調装置１０のことを「空調機器」と記載する場合がある。

なお、図１に示すように、空調装置１０が設置された空間に応じて、空調装置１０を空調装置１０－１～１０－２のように区別して説明する場合がある。例えば、空調装置１０－１は、会議室Ｒ１に設置されている空調装置１０であってよい。また、例えば、空調装置１０－２は、会議室Ｒ２に設置されている空調装置１０であってよい。また、以下では、空調装置１０－１～１０－２について、特に区別なく説明する場合には、空調装置１０と記載する。

センサ装置２０は、空間の物理的な状態や空間に存在する利用者の物理的な状態を検知する装置である。センサ装置２０は、空間の物理的な状態や空間に存在する利用者の物理的な状態を示す情報をセンサ情報として取得してよい。例えば、センサ装置２０は、画像センサであってよい。例えば、センサ装置２０は、ＲＧＢカメラであってよい。すなわち、センサ装置２０は、例えば、空間に存在する利用者を被写体として含むＲＧＢ画像をセンサ情報として取得してよい。また、例えば、センサ装置２０は、赤外線カメラであってよい。すなわち、センサ装置２０は、例えば、空間に存在する利用者を被写体として含むサーマル画像をセンサ情報として取得してよい。また、センサ装置２０は、環境センサであってよい。例えば、センサ装置２０は、ＵＳＢ型の環境センサであってよい。すなわち、センサ装置２０は、例えば、空間の温度や湿度などの環境に関する情報（以下、環境情報ともいう）をセンサ情報として取得してよい。また、センサ装置２０は、取得したセンサ情報を情報処理装置１００に送信する。なお、以下では、利用者のことを「人物」と記載する場合がある。また、センサ装置２０が取得する環境情報は、後述する快適さの判定において利用可能な情報であればよく、上記の例に限定されない。例えば、センサ装置２０は、環境情報として気圧や照度などの任意の情報を取得してよい。

なお、図１に示すように、センサ装置２０が設置された空間に応じて、センサ装置２０をセンサ装置２０－１～２０－２のように区別して説明する場合がある。例えば、センサ装置２０－１は、会議室Ｒ１に設置されているセンサ装置２０である。また、例えば、センサ装置２０－２は、会議室Ｒ２に設置されているセンサ装置２０である。また、以下では、センサ装置２０－１～２０－２について、特に区別なく説明する場合には、センサ装置２０と記載する。

情報処理装置１００は、複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された個々の人物にとっての空間の快適さに基づいて、空間に所在する複数の人物にとっての空調に対する集団の報酬を示す値を決定する。また、情報処理装置１００は、空調機器による空調を制御する空調制御情報を出力する空調制御モデルを、空調機器により空調が行われた際の空調制御情報と集団の報酬を示す値とに基づいて強化学習する。

〔３．情報処理装置の構成〕
次に、図２を用いて、実施形態に係る情報処理装置１００の構成について説明する。図２は、実施形態に係る情報処理装置１００の構成例を示す図である。情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有してよい。なお、情報処理装置１００は、情報処理装置１００の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示させるための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークと有線または無線で接続され、例えば、空調装置１０やセンサ装置２０との間で情報の送受信を行う。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

記憶部１２０は、センサ装置２０によって検出されたセンサ情報を記憶してよい。例えば、記憶部１２０は、利用者が所在する空間を撮像したＲＧＢ画像およびサーマル画像と空間を識別する識別情報とを対応付けて記憶してよい。また、記憶部１２０は、利用者が所在する空間の温度および湿度に関する情報と空間を識別する識別情報とを対応付けて記憶してよい。

また、記憶部１２０は、各種の学習モデルに関する情報を記憶してよい。例えば、記憶部１２０は、快適さ推定モデルに関する情報を記憶してよい。また、記憶部１２０は、空調制御モデルに関する情報を記憶してよい。例えば、記憶部１２０は、各種の学習モデルの接続係数に関する情報を記憶してよい。

（制御部１３０）
制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

制御部１３０は、取得部１３１と、推定部１３２と、空調制御部１３３と、決定部１３４と、学習部１３５とを機能部として有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部１３０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、各機能部は、制御部１３０の機能を示したものであり、必ずしも物理的に区別されるものでなくともよい。

（取得部１３１）
取得部１３１は、人物が所在する空間の物理的な状態や空間に所在する人物の物理的な状態を示すセンサ情報をセンサ装置２０から取得してよい。具体的には、取得部１３１は、センサ情報の一例として、複数の人物が所在する空間に設置されたＲＧＢカメラから複数の人物が所在する空間を撮像したＲＧＢ画像を取得してよい。続いて、取得部１３１は、ＲＧＢ画像を取得すると、取得したＲＧＢ画像と空間を識別する識別情報とを対応付けて記憶部１２０に格納してよい。例えば、取得部１３１は、空調機器による空調が行われる前（以下、「空調前」と記載する場合がある）の空間を撮像したＲＧＢ画像と空調前の空間を識別する識別情報とを対応付けて記憶部１２０に格納してよい。また、取得部１３１は、空調機器による空調が行われた後（以下、「空調後」と記載する場合がある）の空間を撮像したＲＧＢ画像と空調後の空間を識別する識別情報とを対応付けて記憶部１２０に格納してよい。すなわち、取得部１３１は、空調の前後においてそれぞれ取得されたＲＧＢ画像を区別して記憶部１２０に格納してよい。

また、取得部１３１は、センサ情報の一例として、複数の人物が所在する空間に設置された赤外線カメラから複数の人物が所在する空間を撮像したサーマル画像を取得してよい。サーマル画像は、例えば、空間の温度分布を示す画像であってよい。続いて、取得部１３１は、サーマル画像を取得すると、取得したサーマル画像と空間を識別する識別情報とを対応付けて記憶部１２０に格納してよい。例えば、取得部１３１は、空調前の空間を撮像したサーマル画像と空調前の空間を識別する識別情報とを対応付けて記憶部１２０に格納してよい。また、取得部１３１は、空調後の空間を撮像したサーマル画像と空調後の空間を識別する識別情報とを対応付けて記憶部１２０に格納してよい。すなわち、取得部１３１は、空調の前後においてそれぞれ取得されたサーマル画像を区別して記憶部１２０に格納してよい。

また、取得部１３１は、センサ情報の一例として、複数の人物が所在する空間に設置された環境センサから複数の人物が所在する空間の環境情報を取得してよい。具体的には、例えば、取得部１３１は、複数の人物が所在する空間に設置されたセンサ装置２０から複数の人物が所在する空間の温度および湿度に関する情報を環境情報として取得してよい。続いて、取得部１３１は、取得した環境情報と空間を識別する識別情報とを対応付けて記憶部１２０に格納してよい。例えば、取得部１３１は、空調前の環境情報と空調前の空間を識別する識別情報とを対応付けて記憶部１２０に格納してよい。また、取得部１３１は、空調後の空間の環境情報と空調後の空間を識別する識別情報とを対応付けて記憶部１２０に格納してよい。すなわち、取得部１３１は、空調の前後においてそれぞれ取得された環境情報を区別して記憶部１２０に格納してよい。

また、取得部１３１は、各種の機械学習モデル（以下、「学習モデル」と記載する場合がある）に関する情報を外部の情報処理装置から取得してよい。具体的には、取得部１３１は、学習モデルの一例として、ＲＧＢ画像が入力情報として入力された場合に、ＲＧＢ画像の特徴を示す特徴ベクトルＶ１を出力情報として出力する学習モデルＭ１を取得してよい。例えば、取得部１３１は、ＩｍａｇｅＮｅｔ等の画像データベースに登録されている多数の（例えば、１０００万枚を超える）画像から画像に写っている物体名（クラス）を推定するよう学習された学習モデルＭ１を取得してよい。例えば、取得部１３１は、畳み込みニューラルネットワークである学習モデルＭ１を取得してよい。例えば、取得部１３１は、Ｒｅｓｎｅｔ５０である学習モデルＭ１を取得してよい。例えば、取得部１３１は、ＲＧＢ画像が入力情報として入力された場合に、ＲＧＢ画像の特徴を示す２０４８次元の特徴ベクトルＶ１を出力情報として出力する機械学習モデルＭ１を取得してよい。続いて、取得部１３１は、学習モデルＭ１を取得すると、学習モデルＭ１に関する情報と学習モデルＭ１を識別する識別情報「Ｍ１」とを対応付けて記憶部１２０に格納してよい。

また、取得部１３１は、学習モデルの一例として、サーマル画像が入力情報として入力された場合に、サーマル画像の特徴を示す特徴ベクトルＶ２を出力情報として出力する学習モデルＭ２を取得してよい。例えば、取得部１３１は、ＩｍａｇｅＮｅｔ等の画像データベースに登録されている多数の（例えば、１０００万枚を超える）サーマル画像からサーマル画像に写っている物体名（クラス）を推定するよう学習された学習モデルＭ２を取得してよい。例えば、取得部１３１は、畳み込みニューラルネットワークである学習モデルＭ２を取得してよい。例えば、取得部１３１は、Ｒｅｓｎｅｔ５０である学習モデルＭ２を取得してよい。例えば、取得部１３１は、サーマル画像が入力情報として入力された場合に、サーマル画像の特徴を示す２０４８次元の特徴ベクトルＶ２を出力情報として出力する機械学習モデルＭ２を取得してよい。続いて、取得部１３１は、学習モデルＭ２を取得すると、学習モデルＭ２に関する情報と学習モデルＭ２を識別する識別情報「Ｍ２」とを対応付けて記憶部１２０に格納してよい。

また、取得部１３１は、学習モデルの一例として、環境情報が入力情報として入力された場合に、環境情報の特徴を示す特徴ベクトルＶ３を出力情報として出力する学習モデルＭ３を取得してよい。具体的には、例えば、取得部１３１は、環境情報として空間の温度および湿度に関する情報が入力情報として入力された場合に、空間の温度および湿度に関する情報の特徴を示す特徴ベクトルＶ３を出力情報として出力する学習モデルＭ３を取得してよい。例えば、取得部１３１は、環境情報から環境情報の特徴を示す特徴ベクトルを推定するよう学習された学習モデルＭ３を取得してよい。例えば、取得部１３１は、ニューラルネットワークである学習モデルＭ３を取得してよい。例えば、取得部１３１は、環境情報が入力情報として入力された場合に、環境情報の特徴を示す２０４８次元の特徴ベクトルＶ３を出力情報として出力する機械学習モデルＭ３を取得してよい。続いて、取得部１３１は、学習モデルＭ３を取得すると、学習モデルＭ３に関する情報と学習モデルＭ３を識別する識別情報「Ｍ３」とを対応付けて記憶部１２０に格納してよい。

また、取得部１３１は、学習モデルの一例として、空間に所在する個々の人物の特徴を示す特徴ベクトルＶ４が入力情報として入力された場合に、個々の人物にとっての空間の快適さを出力情報として出力する快適さ推定モデルＭ４を取得してよい。例えば、取得部１３１は、特徴ベクトルＶ４が入力情報として入力された場合に、快適さを示す各カテゴリに特徴ベクトルＶ４が分類される確率を出力情報として出力するよう学習された快適さ推定モデルＭ４を取得してよい。例えば、取得部１３１は、特徴ベクトルＶ４が入力情報として入力された場合に、「寒い」カテゴリに分類される確率と「暑い」カテゴリに分類される確率と「普通」カテゴリに分類される確率を出力情報として出力する快適さ推定モデルＭ４を取得してよい。

なお、快適さを示すカテゴリは、任意の分類であってよく、上記の例に限定されない。例えば、快適さの分類は、「涼しい」、「暖かい」など他の分類を含んでよい。また、取得部１３１は、特徴ベクトルＶ４が入力情報として入力された場合に、特徴ベクトルＶ４が分類される快適さのカテゴリのラベルを出力情報として出力するよう学習された快適さ推定モデルＭ４を取得してよい。例えば、取得部１３１は、特徴ベクトルＶ４が入力情報として入力された場合に、快適さを示す各カテゴリに特徴ベクトルＶ４が分類される確率が最も高いカテゴリのラベルを出力情報として出力するよう学習された快適さ推定モデルＭ４を取得してよい。続いて、取得部１３１は、快適さ推定モデルＭ４を取得すると、快適さ推定モデルＭ４に関する情報と快適さ推定モデルＭ４を識別する識別情報「Ｍ４」とを対応付けて記憶部１２０に格納してよい。

また、取得部１３１は、ＲＧＢ画像が入力情報として入力された場合に、ＲＧＢ画像の特徴を示す特徴ベクトルを出力情報として出力する学習モデルＭ５を取得してよい。例えば、取得部１３１は、上述した学習モデルＭ１と同様の学習モデルＭ５を取得してよい。続いて、取得部１３１は、学習モデルＭ５を取得すると、学習モデルＭ５に関する情報と学習モデルＭ５を識別する識別情報「Ｍ５」とを対応付けて記憶部１２０に格納してよい。

また、取得部１３１は、サーマル画像が入力情報として入力された場合に、サーマル画像の特徴を示す特徴ベクトルを出力情報として出力する学習モデルＭ６を取得してよい。例えば、取得部１３１は、上述した学習モデルＭ２と同様の学習モデルＭ６を取得してよい。続いて、取得部１３１は、学習モデルＭ６を取得すると、学習モデルＭ６に関する情報と学習モデルＭ６を識別する識別情報「Ｍ６」とを対応付けて記憶部１２０に格納してよい。

（推定部１３２）
推定部１３２は、空間を撮像した画像に含まれる人物が撮像された領域（以下、人物領域ともいう）に関する情報に基づいて空間の快適さを推定する。例えば、推定部１３２は、個々の人物の姿勢を推定する姿勢推定処理に基づいて特定された人物領域に関する情報に基づいて空間の快適さを推定してよい。具体的は、例えば、推定部１３２は、複数の人物が所在する空間を撮像した空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された人物領域であって、個々の人物の姿勢を推定する姿勢推定処理に基づいて特定された人物領域に関する情報に基づいて、個々の人物にとっての空間の快適さを推定してよい。例えば、推定部１３２は、空調前の複数の人物が所在する空間を撮像した画像のうち個々の人物が撮像された領域である人物領域に関する情報に基づいて、空調前の個々の人物にとっての空間の快適さを推定してよい。また、推定部１３２は、空調後の複数の人物が所在する空間を撮像した画像のうち個々の人物が撮像された領域である人物領域に関する情報に基づいて、空調後の個々の人物にとっての空間の快適さを推定してよい。

ここで、姿勢推定処理は、動画や静止画から人物の姿勢を推定し、人物領域を特定する処理であってよい。姿勢推定処理は、任意の公知技術により実現されてよい。例えば、姿勢推定処理は、姿勢推定（Pose Estimation）の技術（以下、姿勢推定技術ともいう）を用いた画像の処理により実現されてよい。例えば、姿勢推定処理は、姿勢推定モデルと呼ばれる深層学習モデルを用いて、動画や静止画から人物や動物の姿勢（骨格）を推定する姿勢推定技術により実現されてよい。なお、１枚の画像に複数の人物が写っている場合には、姿勢推定処理により、複数の人物について特徴点を検出して、複数の人物の姿勢を推定してもよい。すなわち、情報処理装置１００は、複数の人物について、それぞれの人物が所在する空間の快適さをそれぞれ推定してもよい。

例えば、姿勢推定モデルの一例として、画像に含まれる人物の身体の特徴を示す特徴点（キーポイントともいう）を推定し、特徴点を結んだ人物の姿勢を検出するものがある。例えば、姿勢推定モデルの一例として、画像に含まれる人物の身体の特徴点として、人物の身体の関節の位置を示す関節点を推定し、関節点を連結して生成される人物の身体の骨格を示す骨格モデルを人物の姿勢として検出するものがある。このように、姿勢推定技術を用いると、画像中の人物の身体の関節点や骨格モデルを推定することができるので、画像中の人物の身体の部位を精緻に推定することができる。例えば、特徴点を検出するタイプの姿勢推定モデルの中には、画像中の人物の身体の３０種類の部位を推定可能なものがある。具体的には、特徴点を検出するタイプの姿勢推定モデルを用いると、画像中の人物の身体の部位として、頭、目（右、左）、耳（右、左）、鼻、首、肩（右、中央、左）、肘（右、左）、背骨、手首（右、左）、手（右、左）、親指（右、左）、手先（右、左）、腰（右、中央、左）、膝（右、左）、足首（右、左）、足（右、左）を特定することができる。

また、姿勢推定モデルの一例として、ＤｅｎｓｅＰｏｓｅ（参考ＵＲＬ：http://openaccess.thecvf.com/content_cvpr_2018/html/Guler_DensePose_Dense_Human_CVPR_2018_paper.html）が知られている。ＤｅｎｓｅＰｏｓｅは、２次元の画像中の人物の人物領域を検出し、検出した人物領域に対応する３次元身体表面モデルを生成する技術である。より具体的には、ＤｅｎｓｅＰｏｓｅは、ＲＧＢ画像を入力として、ＲＧＢ画像中の人物の３次元表面のＵＶ座標を推定する技術である。ＤｅｎｓｅＰｏｓｅを用いると、２次元の画像に写る人物領域から３次元身体表面のＵＶ座標を推定することができるので、２次元の画像に写る人物領域の各人体パーツ（人物の身体の部位）を精緻に推定することができる。ＤｅｎｓｅＰｏｓｅを用いると、画像中の人物の身体の２４種類の部位を推定することができる。具体的には、ＤｅｎｓｅＰｏｓｅを用いると、ＲＧＢ画像から、画像中の人物の身体の部位として、頭（左、右）、首、胴体、腕（左、右／上、前／前、後）、脚（左、右／太もも、ふくらはぎ／前、後）、手（左、右）、足（左、右）を特定することができる。

より具体的には、推定部１３２は、複数の人物が所在する空間を撮像した画像の一例として、複数の人物が所在する空間を撮像したＲＧＢ画像のうち個々の人物が撮像された領域である人物領域に関する情報に基づいて、個々の人物にとっての空間の快適さを推定してよい。例えば、推定部１３２は、人物領域に関する情報の一例として、複数の人物が所在する空間を撮像したＲＧＢ画像のうち個々の人物が撮像された領域である人物領域であって、個々の人物の姿勢を推定する姿勢推定処理に基づいて特定された人物領域の特徴を示す特徴ベクトルＶ１を生成してよい。そして、推定部１３２は、生成した特徴ベクトルＶ１に基づいて、個々の人物にとっての空間の快適さを推定してよい。例えば、推定部１３２は、特徴ベクトルＶ１に基づいて、空間に所在する個々の人物の特徴を示す特徴ベクトルＶ４を生成してよい。続いて、推定部１３２は、特徴ベクトルＶ４から個々の人物にとっての空間の快適さを推定してよい。

例えば、推定部１３２は、記憶部１２０を参照して、複数の人物が所在する空間を撮像したＲＧＢ画像と学習モデルＭ１に関する情報を取得してよい。続いて、推定部１３２は、ＲＧＢ画像を取得すると、姿勢推定処理に基づいてＲＧＢ画像のうち個々の人物が撮像された領域である人物領域を特定してよい。続いて、推定部１３２は、人物領域を特定すると、学習モデルＭ１を用いて、人物領域から、人物領域の特徴を示す特徴ベクトルＶ１を生成してよい。推定部１３２は、ＲＧＢ画像に複数の人物が写っている場合は、ＲＧＢ画像のうち複数の人物それぞれが撮像された領域である人物領域それぞれを特定してよい。続いて、推定部１３２は、複数の人物領域それぞれについて、学習モデルＭ１を用いて、複数の人物領域それぞれの特徴を示す特徴ベクトルを生成してよい。

また、推定部１３２は、複数の人物が所在する空間を撮像した画像の一例として、複数の人物が所在する空間を撮像したサーマル画像のうち個々の人物が撮像された領域である人物領域であって、個々の人物の姿勢を推定する姿勢推定処理に基づいて特定された人物領域に関する情報に基づいて、個々の人物にとっての空間の快適さを推定してよい。例えば、推定部１３２は、人物領域に関する情報の一例として、複数の人物が所在する空間を撮像したサーマル画像のうち個々の人物が撮像された領域である人物領域であって、個々の人物の姿勢を推定する姿勢推定処理に基づいて特定された人物領域の特徴を示す特徴ベクトルＶ２を生成してよい。そして、推定部１３２は、生成した特徴ベクトルＶ２に基づいて、個々の人物にとっての空間の快適さを推定してよい。例えば、推定部１３２は、特徴ベクトルＶ２に基づいて、空間に所在する個々の人物の特徴を示す特徴ベクトルＶ４を生成してよい。続いて、推定部１３２は、特徴ベクトルＶ４から個々の人物にとっての空間の快適さを推定してよい。

例えば、推定部１３２は、記憶部１２０を参照して、複数の人物が所在する空間を撮像したサーマル画像を取得してよい。続いて、推定部１３２は、サーマル画像を取得すると、姿勢推定処理に基づいてサーマル画像のうち個々の人物が撮像された領域である人物領域を特定してよい。より具体的には、推定部１３２は、同じ空間を撮影したＲＧＢ画像とサーマル画像とを重ね合わせて、ＲＧＢ画像に対する姿勢推定処理に基づいて特定された人物領域と重複するサーマル画像の領域をサーマル画像の人物領域として特定してよい。続いて、推定部１３２は、サーマル画像の人物領域を特定すると、学習モデルＭ２を用いて、サーマル画像の人物領域から、サーマル画像の人物領域の特徴を示す特徴ベクトルＶ２を生成してよい。また、推定部１３２は、サーマル画像に複数の人物が写っている場合は、ＲＧＢ画像とサーマル画像とを重ね合わせることにより、サーマル画像のうち複数の人物それぞれが撮像された領域である人物領域それぞれを特定してよい。続いて、推定部１３２は、複数の人物領域それぞれについて、学習モデルＭ２を用いて、複数の人物領域それぞれの特徴を示す特徴ベクトルを生成してよい。

また、推定部１３２は、複数の人物が所在する空間の環境情報の特徴を示す特徴ベクトルＶ３を生成してよい。例えば、推定部１３２は、記憶部１２０を参照して、複数の人物が所在する空間の環境情報を取得してよい。続いて、推定部１３２は、環境情報を取得すると、学習モデルＭ３を用いて、環境情報から、環境情報の特徴を示す特徴ベクトルＶ３を生成してよい。そして、推定部１３２は、生成した特徴ベクトルＶ３に基づいて、個々の人物にとっての空間の快適さを推定する。例えば、推定部１３２は、特徴ベクトルＶ３に基づいて、空間に所在する個々の人物の特徴を示す特徴ベクトルＶ４を生成してよい。続いて、推定部１３２は、特徴ベクトルＶ４から個々の人物にとっての空間の快適さを推定してよい。

より具体的には、推定部１３２は、特徴ベクトルＶ１～Ｖ３を生成すると、生成した特徴ベクトルＶ１～Ｖ３に基づいて、特徴ベクトルＶ１～Ｖ３の特徴を示す特徴マップＭＰ１を生成してよい。続いて、推定部１３２は、特徴マップＭＰ１を生成すると、特徴マップＭＰ１に対する最大値プーリングにより、特徴マップＭＰ１から特徴マップＭＰ１の特徴を示す特徴ベクトルＶ４を生成してよい。例えば、推定部１３２は、最大値プーリングにより、特徴マップＭＰ１の特徴を示す２０４８次元の特徴ベクトルＶ４を生成してよい。このようにして、推定部１３２は、空間に所在する個々の人物の特徴を示す特徴ベクトルＶ４を生成してよい。続いて、推定部１３２は、特徴ベクトルＶ４を生成すると、快適さ推定モデルＭ４を用いて、特徴ベクトルＶ４から個々の人物にとっての空間の快適さを推定してよい。

例えば、推定部１３２は、特徴ベクトルＶ４を快適さ推定モデルＭ４の入力情報として入力してよい。続いて、推定部１３２は、空間に所在する個々の人物にとっての快適さを快適さ推定モデルＭ４の出力情報として出力してよい。例えば、推定部１３２は、特徴ベクトルＶ４が快適さ推定モデルＭ４の入力情報として入力された場合に、快適さを示す３つのカテゴリのうち特徴ベクトルＶ４が分類される確率が最も高いカテゴリのラベルを出力情報として出力してよい。例えば、推定部１３２は、特徴ベクトルＶ４が入力情報として入力された場合に、空間の温度が低いことを示す「寒い」カテゴリと、空間の温度が高いことを示す「暑い」カテゴリと、空間の温度がちょうどよいことを示す「普通」カテゴリのうち、特徴ベクトルＶ４が分類される確率が最も高いカテゴリのラベルを出力情報として出力してよい。

（空調制御部１３３）
空調制御部１３３は、空調制御モデルＭ７を用いて空調を制御する。空調制御部１３３は、学習部１３５によって強化学習された空調制御モデルＭ７を用いて空調を制御する。具体的には、空調制御部１３３は、複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された個々の人物にとっての空間の快適さに基づいて決定された空間に所在する複数の人物にとっての空調に対する集団の報酬を示す値と空調機器により空調が行われた際の空調制御情報とに基づいて強化学習された空調機器による空調を制御する空調制御情報を出力する空調制御モデルＭ７を用いて空調を制御する。

より具体的には、空調制御部１３３は、空調制御モデルＭ７の入力情報として空間を撮像した画像に関する情報が空調制御モデルＭ７に入力された場合に、空調制御モデルＭ７の出力情報として空調制御モデルＭ７から出力される空調制御情報に基づいて空調を制御する。例えば、空調制御部１３３は、空間を撮像した画像に関する情報の一例として、空間を撮像したＲＧＢ画像に関する情報が空調制御モデルＭ７に入力された場合に、空調制御モデルＭ７の出力情報として空調制御モデルＭ７から出力される空調制御情報に基づいて空調を制御する。例えば、空調制御部１３３は、ＲＧＢ画像に関する情報の一例として、複数の人物が所在する空間を撮像したＲＧＢ画像の特徴を示す特徴ベクトルＶ５を生成してよい。例えば、空調制御部１３３は、記憶部１２０を参照して、複数の人物が所在する空間を撮像したＲＧＢ画像と学習モデルＭ５に関する情報を取得してよい。続いて、空調制御部１３３は、ＲＧＢ画像を取得すると、学習モデルＭ５を用いて、ＲＧＢ画像から、ＲＧＢ画像の特徴を示す特徴ベクトルＶ５を生成してよい。そして、空調制御部１３３は、生成した特徴ベクトルＶ５に基づいて、複数の人物が所在する空間の特徴を示す特徴ベクトルＶ７を生成してよい。続いて、空調制御部１３３は、空調制御モデルＭ７を用いて、特徴ベクトルＶ７から複数の人物が所在する空間に設置された空調機器による空調を制御する空調制御情報を推定してよい。

また、空調制御部１３３は、空間を撮像した画像に関する情報の一例として、空間を撮像したサーマル画像に関する情報が空調制御モデルＭ７に入力された場合に、空調制御モデルＭ７の出力情報として空調制御モデルＭ７から出力される空調制御情報に基づいて空調を制御する。例えば、空調制御部１３３は、サーマル画像に関する情報の一例として、複数の人物が所在する空間を撮像したサーマル画像の特徴を示す特徴ベクトルＶ６を生成してよい。例えば、空調制御部１３３は、記憶部１２０を参照して、複数の人物が所在する空間を撮像したサーマル画像と学習モデルＭ６に関する情報を取得してよい。続いて、空調制御部１３３は、サーマル画像を取得すると、学習モデルＭ６を用いて、サーマル画像から、サーマル画像の特徴を示す特徴ベクトルＶ６を生成してよい。そして、空調制御部１３３は、生成した特徴ベクトルＶ６に基づいて、複数の人物が所在する空間の特徴を示す特徴ベクトルＶ７を生成してよい。続いて、空調制御部１３３は、空調制御モデルＭ７を用いて、特徴ベクトルＶ７から複数の人物が所在する空間に設置された空調機器による空調を制御する空調制御情報を推定してよい。

また、空調制御部１３３は、複数の人物が所在する空間の温度および湿度に関する情報が空調制御モデルＭ７に入力された場合に、空調制御モデルＭ７の出力情報として空調制御モデルＭ７から出力される空調制御情報に基づいて空調を制御する。例えば、空調制御部１３３は、空間の温度および湿度に関する情報の一例として、複数の人物が所在する空間の温度および湿度に関する情報の特徴を示す特徴ベクトルＶ３を生成してよい。例えば、空調制御部１３３は、記憶部１２０を参照して、複数の人物が所在する空間の温度および湿度に関する情報と学習モデルＭ３に関する情報を取得してよい。続いて、空調制御部１３３は、温度および湿度に関する情報を取得すると、学習モデルＭ３を用いて、温度および湿度に関する情報から、温度および湿度に関する情報の特徴を示す特徴ベクトルＶ３を生成してよい。そして、空調制御部１３３は、生成した特徴ベクトルＶ３に基づいて、複数の人物が所在する空間の特徴を示す特徴ベクトルＶ７を生成してよい。続いて、空調制御部１３３は、空調制御モデルＭ７を用いて、特徴ベクトルＶ７から複数の人物が所在する空間に設置された空調機器による空調を制御する空調制御情報を推定してよい。

より具体的には、空調制御部１３３は、特徴ベクトルＶ３、Ｖ５～Ｖ６を生成すると、生成した特徴ベクトルＶ３、Ｖ５～Ｖ６に基づいて、特徴ベクトルＶ３、Ｖ５～Ｖ６の特徴を示す特徴ベクトルＶ７を生成してよい。例えば、空調制御部１３３は、生成した特徴ベクトルＶ３、Ｖ５～Ｖ６に基づいて、特徴ベクトルＶ３、Ｖ５～Ｖ６の特徴を示す特徴マップＭＰ２を生成してよい。続いて、空調制御部１３３は、特徴マップＭＰ２を生成すると、特徴マップＭＰ２に対する最大値プーリングにより、特徴マップＭＰ２から特徴マップＭＰ２の特徴を示す特徴ベクトルＶ７を生成してよい。例えば、空調制御部１３３は、最大値プーリングにより、特徴マップＭＰ２の特徴を示す２０４８次元の特徴ベクトルＶ７を生成してよい。このようにして、空調制御部１３３は、複数の人物が所在する空間の特徴を示す特徴ベクトルＶ７を生成してよい。続いて、空調制御部１３３は、特徴ベクトルＶ７を生成すると、空調制御モデルＭ７を用いて、特徴ベクトルＶ７から複数の人物が所在する空間に設置された空調機器による空調を制御する空調制御情報を推定してよい。より具体的には、空調制御部１３３は、特徴ベクトルＶ７を空調制御モデルＭ７の入力情報として入力してよい。続いて、空調制御部１３３は、複数の人物が所在する空間に設置された空調機器による空調を制御する空調制御情報を空調制御モデルＭ７の出力情報として出力してよい。

続いて、空調制御部１３３は、空調制御モデルＭ７から出力された空調制御情報に基づいて、空間の空調を制御してよい。具体的には、空調制御部１３３は、空調制御モデルＭ７から出力された空調制御情報を空調制御の対象となる空間に設置された空調装置１０に送信してよい。このように、空調制御部１３３は、空調制御モデルＭ７を用いて、空間の空調を制御してよい。

（決定部１３４）
決定部１３４は、推定部１３２により推定された空間の快適さに基づいて、空調に対する報酬を示す値を決定する。例えば、決定部１３４は、空間に所在する複数の人物にとっての空調に対する集団の報酬を示す値を決定してよい。具体的には、例えば、決定部１３４は、複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された個々の人物にとっての空間の快適さに基づいて、空間に所在する複数の人物にとっての空調に対する集団の報酬を示す値を決定してよい。例えば、決定部１３４は、空調機器による空調前の個々の人物にとっての空間の快適さと、空調機器による空調後の個々の人物にとっての空間の快適さとの比較に基づいて、集団の報酬を示す値を決定してよい。具体的には、例えば、決定部１３４は、空調前の個々の人物にとっての空間の快適さと、空調後の個々の人物にとっての空間の快適さとの比較に基づいて、個々の人物にとっての空調に対する個々の報酬を示す値を決定してよい。続いて、決定部１３４は、個々の報酬を示す値に基づいて、集団の報酬を示す値を決定してよい。この点について、図３を用いて詳しく説明する。図３は、一実施形態に係る決定部１３４により決定される個々の報酬の一例を示す表である。

図３において、空調制御前の状態とは、空調機器が、空調制御部１３３の空調制御情報に従って、複数の人物が所在する空間の空調を行う前の状態を示す。一方、空調制御後の状態とは、空調機器が、空調制御部１３３の空調制御情報に従って、複数の人物が所在する空間の空調を行った後の状態を示す。

また、図３において、個々の人物にとって空間の快適さが「快適」な状態であるとは、推定部１３２によって推定された快適さのカテゴリが「普通」カテゴリであることを示す。また、図３において、個々の人物にとって空間の快適さが「不快」な状態であるとは、推定部１３２によって出力された快適さのカテゴリが「寒い」カテゴリまたは「暑い」カテゴリのうちいずれかであることを示す。

図３に示す例では、決定部１３４は、個々の人物にとって、空調前の空間の快適さが「快適」な状態であって、空調後の空間の快適さが「快適」な状態である場合には、空調機器による空調に対する個々の報酬を示す値を正の報酬である「＋１」に決定してよい。一方、決定部１３４は、個々の人物にとって、空調前の空間の快適さが「不快」な状態であって、空調後の空間の快適さが「快適」な状態である場合には、空調機器による空調に対する個々の報酬を示す値を正の報酬である「＋３」に決定してよい。このように、決定部１３４は、空調後の個々の人物にとっての空間の快適さが個々の人物にとって快適な状態を示す場合には、正の報酬として個々の報酬を示す値を決定してよい。また、決定部１３４は、決定部１３４は、空調後の個々の人物にとっての空間の快適さが個々の人物にとって快適な状態を示す場合において、空調前の個々の人物にとっての空間の快適さが個々の人物にとって不快な状態を示す場合に、空調前の個々の人物にとっての空間の快適さが個々の人物にとって快適な状態を示す場合に決定される個々の報酬を示す値よりも価値の高い正の報酬として個々の報酬を示す値を決定してよい。例えば、図３では、数字の大小関係により報酬の価値の高さが示されている。すなわち、図３の例では、報酬の価値として、「＋１」よりも「＋３」の方が価値が高い。なお、報酬の価値が高いほど、実行した空調制御が個々の人物にとって快適さをより向上させる制御であったと解釈されてよい。

また、決定部１３４は、個々の人物にとって、空調前の空間の快適さが「快適」な状態であって、空調後の空間の快適さが「不快」な状態である場合には、空調機器による空調に対する個々の報酬を示す値を負の報酬である「－３」に決定してよい。一方、決定部１３４は、個々の人物にとって、空調前の空間の快適さが「不快」な状態であって、空調後の空間の快適さが「不快」な状態である場合には、空調機器による空調に対する個々の報酬を示す値を負の報酬である「－１」に決定してよい。このように、決定部１３４は、空調後の個々の人物にとっての空間の快適さが個々の人物にとって不快な状態を示す場合には、負の報酬として個々の報酬を示す値を決定してよい。また、決定部１３４は、空調後の個々の人物にとっての空間の快適さが個々の人物にとって不快な状態を示す場合において、空調前の個々の人物にとっての空間の快適さが個々の人物にとって快適な状態を示す場合に、空調前の個々の人物にとっての空間の快適さが個々の人物にとって不快な状態を示す場合に決定される個々の報酬を示す値よりも価値の低い負の報酬として個々の報酬を示す値を決定してよい。例えば、図３では、報酬の価値として、「－１」よりも「－３」の方が価値が低い。なお、報酬の価値が低いほど、実行した空調制御が個々の人物にとっての快適さが向上しにくい制御であったと解釈されてよい。

続いて、決定部１３４は、個々の報酬を示す値を決定すると、決定した個々の報酬を示す値に基づいて、空間に所在する複数の人物にとっての空調機器による空調に対する集団の報酬を示す値を決定してよい。例えば、決定部１３４は、空間に所在する複数の人物全員についての個々の報酬を示す値を所定条件に基づいて計算することで、集団の報酬を示す値を決定してよい。例えば、決定部１３４は、複数の人物全員についての個々の報酬を示す値を加算または乗算することで集団の報酬を示す値を決定してよい。例えば、決定部１３４は、複数の人物全員についての個々の報酬を示す値を加算した値を複数の人物の人数で除すことで正規化した値を集団の報酬を示す値として決定してもよい。なお、決定部１３４は、空調に対する集団全体としての報酬を示す値を決定することができれば、上記の例に限られず任意の演算式によって集団の報酬を示す値を決定してよい。

ここで、集団の報酬の価値の高さは、集団の報酬を示す値の大小によって示されてよい。すなわち、集団の報酬を示す値が大きいほど、集団の報酬の価値が高いことを示してよい。言い換えれば、集団の報酬を示す値が大きいほど、実行した空調制御が空間に所在する複数の人物全体にとってより快適さを向上させる制御であったと解釈されてよい。また、集団の報酬を示す値が小さいほど、集団の報酬の価値が低いことを示してよい。言い換えれば、集団の報酬を示す値が小さいほど、実行した空調制御が空間に所在する複数の人物全体にとって快適さが向上しにくい制御であったと解釈されてよい。

（学習部１３５）
学習部１３５は、空調機器による空調を制御する空調制御情報を出力する空調制御モデルＭ７を、空調機器により空調が行われた際の空調制御情報と集団の報酬を示す値とに基づいて強化学習する。例えば、学習部１３５は、集団全体の快適さを考慮した空調制御を実行可能なように空調制御モデルＭ７を強化学習してよい。例えば、学習部１３５は、集団の報酬の価値が最も高くなる空調制御情報を出力するように空調制御モデルＭ７を強化学習してよい。具体的には、例えば、学習部１３５は、集団の報酬を示す値が最大となる空調制御情報を出力するように空調制御モデルＭ７を強化学習してよい。学習部１３５は、空調制御モデルＭ７を強化学習すると、強化学習済みの空調制御モデルＭ７に関する情報と空調制御モデルＭ７を識別する識別情報「Ｍ７」とを対応付けて記憶部１２０に格納してよい。なお、空調機器は、図１に示す空調装置１０に相当する。

〔４．情報処理のフロー〕
次に、図４～図１０を用いて、実施形態に係る情報処理の手順について説明する。図４～図１０は、実施形態に係る情報処理手順を示すフローチャートである。

まず、図４を用いて、実施形態に係る情報処理の手順について説明する。図４では、センサ装置２０が複数の人物が所在する空間の環境に関するモニタリングを行う（ステップＳ１１）。具体的には、センサ装置２０は、複数の人物が所在する空間の物理的な状態や空間に所在する人物の物理的な状態を示すセンサ情報を取得してよい。続いて、センサ装置２０は、取得したセンサ情報を情報処理装置１００に送信してよい。

取得部１３１は、複数の人物が所在する空間の物理的な状態や空間に所在する人物の物理的な状態を示すセンサ情報をセンサ装置２０から取得してよい。例えば、取得部１３１は、センサ情報の一例として、空間に所在する人物を被写体として含むＲＧＢ画像をＲＧＢカメラから取得してよい。また、取得部１３１は、センサ情報の一例として、空間に所在する人物を被写体として含むサーマル画像を赤外線カメラから取得してよい。また、取得部１３１は、センサ情報の一例として、空間の温度や湿度に関する環境情報を環境センサから取得してよい。

続いて、推定部１３２は、取得部１３１によってセンサ情報が取得されると、快適さ推定モデルＭ４を用いて、空間に所在する個々の人物にとっての空間の快適さを推定する（ステップＳ１２）。具体的には、推定部１３２は、ＲＧＢ画像のうち個々の人物が撮像された領域である人物領域であって姿勢推定処理に基づいて特定された人物領域の特徴を示す特徴ベクトルＶ１、サーマル画像のうち個々の人物が撮像された領域である人物領域であって姿勢推定処理に基づいて特定された人物領域の特徴を示す特徴ベクトルＶ２、および空間の温度および湿度に関する情報の特徴を示す特徴ベクトルＶ３に基づいて生成された特徴ベクトルＶ４を入力情報として快適さ推定モデルＭ４に入力してよい。続いて、推定部１３２は、空間に所在する個々の人物にとっての快適さを快適さ推定モデルＭ４の出力情報として出力してよい。

続いて、推定部１３２は、空間に所在する個々の人物にとっての快適さを快適さ推定モデルＭ４の出力情報として出力すると、出力したデータを保存する（ステップＳ１３）。具体的には、推定部１３２は、快適さ推定モデルＭ４の出力情報として出力したデータを一つ前の空間に所在する個々の人物にとっての快適さとして記憶部１２０に保存してよい。

次に、図５を用いて、実施形態に係る情報処理の手順について説明する。図５では、図４に続いて、空調制御部１３３が、空調制御モデルＭ７を用いて、空間に設置された空調機器による空調を制御する空調制御情報を推定する（ステップＳ２１）。具体的には、空調制御部１３３は、取得部１３１によって取得されたセンサ情報を空調制御モデルＭ７の入力情報として入力してよい。より具体的には、空調制御部１３３は、取得部１３１によって取得されたセンサ情報の特徴を示す特徴ベクトルＶ７を空調制御モデルＭ７の入力情報として入力してよい。例えば、空調制御部１３３は、ＲＧＢ画像の特徴を示す特徴ベクトルＶ５、サーマル画像の特徴を示す特徴ベクトルＶ６、および、空間の温度および湿度に関する環境情報の特徴を示す特徴ベクトルＶ３に基づいて生成された特徴ベクトルＶ７を入力情報として空調制御モデルＭ７に入力してよい。続いて、空調制御部１３３は、空間に設置された空調機器による空調を制御する空調制御情報を空調制御モデルＭ７の出力情報として出力してよい。

次に、図６を用いて、実施形態に係る情報処理の手順について説明する。図６では、図５に続いて、空調装置１０が、情報処理装置１００から出力された空調制御情報に基づいて、空間の空調を調整する（ステップＳ３１）。具体的には、空調装置１０は、情報処理装置１００から空調制御情報を取得してよい。続いて、空調装置１０は、空調制御情報を取得すると、空間に対して、取得した空調制御情報に基づく空調を行う。例えば、空調装置１０は、空調制御情報に含まれる冷暖房設定に従って空間の空調を行う。また、空調装置１０は、空調制御情報に含まれる設定温度になるよう空間の温度を調整してよい。また、空調装置１０は、空調制御情報に含まれる設定湿度になるよう空間の湿度を調整してよい。

また、空調装置１０によって空間の空調が調整された結果、空間の環境が変化する（ステップＳ３２）。具体的には、空間の温度は、空調装置１０による空調前の温度から設定温度に変化してよい。また、空間の湿度は、空調装置１０による空調前の湿度から設定湿度に変化してよい。

また、センサ装置２０は、複数の人物が所在する空間の空調後の環境に関するモニタリングを行う（ステップＳ３３）。具体的には、センサ装置２０は、複数の人物が所在する空調後の空間の物理的な状態や空調後の空間に所在する人物の物理的な状態を示すセンサ情報を取得してよい。続いて、センサ装置２０は、取得したセンサ情報を情報処理装置１００に送信してよい。

次に、図７を用いて、実施形態に係る情報処理の手順について説明する。図７では、図６に続いて、取得部１３１は、複数の人物が所在する空調後の空間の物理的な状態や空調後の空間に所在する人物の物理的な状態を示すセンサ情報をセンサ装置２０から取得してよい。例えば、取得部１３１は、センサ情報の一例として、空調後の空間に所在する人物を被写体として含むＲＧＢ画像をＲＧＢカメラから取得してよい。また、取得部１３１は、センサ情報の一例として、空調後の空間に所在する人物を被写体として含むサーマル画像を赤外線カメラから取得してよい。また、取得部１３１は、センサ情報の一例として、空調後の空間の温度や湿度に関する環境情報を環境センサから取得してよい。

続いて、推定部１３２は、取得部１３１によってセンサ情報が取得されると、快適さ推定モデルＭ４を用いて、空調後の空間に所在する個々の人物にとっての空間の快適さを推定する（ステップＳ４１）。具体的には、推定部１３２は、空調後の空間に所在する個々の人物の特徴を示す特徴ベクトルＶ４´を快適さ推定モデルＭ４の入力情報として入力してよい。より具体的には、推定部１３２は、ＲＧＢ画像のうち個々の人物が撮像された領域である人物領域の特徴を示す特徴ベクトルＶ１´、サーマル画像のうち個々の人物が撮像された領域である人物領域の特徴を示す特徴ベクトルＶ２´、および、空調後の空間の温度および湿度に関する情報の特徴を示す特徴ベクトルＶ３´に基づいて生成された特徴ベクトルＶ４´を入力情報として快適さ推定モデルＭ４に入力してよい。続いて、推定部１３２は、空調後の空間に所在する個々の人物にとっての快適さを快適さ推定モデルＭ４の出力情報として出力してよい。

次に、図８を用いて、実施形態に係る情報処理の手順について説明する。図８では、図７に続いて、決定部１３４が、記憶部１２０に保存された一つ前の空間に所在する個々の人物にとっての快適さと、快適さ推定モデルＭ４の出力情報として出力された空調後の空間に所在する個々の人物にとっての快適さとの比較に基づいて、個々の人物にとっての空調機器による空調に対する個々の報酬を示す値を決定してよい。続いて、決定部１３４は、個々の報酬を示す値を決定すると、空間に所在する複数の人物全員についての個々の報酬を示す値を加算することで、空間に所在する複数の人物にとっての空調機器による空調に対する集団の報酬（全体の報酬ともいう）を示す値を決定する（ステップＳ５１）。

次に、図９を用いて、実施形態に係る情報処理の手順について説明する。図９では、図８に続いて、推定部１３２は、空調後の空間に所在する個々の人物にとっての快適さを快適さ推定モデルＭ４の出力情報として出力すると、出力したデータを保存する（ステップＳ６１）。具体的には、推定部１３２は、快適さ推定モデルＭ４の出力情報として出力したデータを一つ前の個々の人物にとっての快適さとして記憶部１２０に保存してよい。

次に、図１０を用いて、実施形態に係る情報処理の手順について説明する。図１０では、図９に続いて、学習部１３５が、空調機器による空調に対する集団の報酬（全体の報酬ともいう）を示す値と、空調機器による空調を示す空調制御情報とに基づいて、空調制御モデルＭ７を強化学習する（ステップＳ７１）。

〔５．効果〕
上述してきたように、実施形態に係る情報処理装置１００は、決定部１３４と学習部１３５を備える。決定部１３４は、複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された個々の人物にとっての空間の快適さに基づいて、空間に所在する複数の人物にとっての空調に対する集団の報酬を示す値を決定する。学習部１３５は、空調機器による空調を制御する空調制御情報を出力する空調制御モデルを、空調機器により空調が行われた際の空調制御情報と集団の報酬を示す値とに基づいて強化学習する。

このように、情報処理装置１００は、個々の人物にとっての空間の快適さを精度よく推定することができるので、個々の人物が集まった集団にとっての空間の快適さを反映する指標としての空調に対する集団の報酬を精度よく算出することができる。また、情報処理装置１００は、精度の高い集団の報酬に基づいて、空調機器による空調を制御する空調制御情報を出力する空調制御モデルを強化学習することができるので、精度の高い空調制御モデルを生成することができる。また、これにより、情報処理装置１００は、個々の人物にとっての空間の快適さに基づく集団の快適さを実現する空調制御を適切に行うことが可能となる。したがって、情報処理装置１００は、集団の快適さを考慮した空調制御を可能とすることができる。

また、決定部１３４は、空調機器による空調前の個々の人物にとっての空間の快適さと、空調機器による空調後の個々の人物にとっての空間の快適さとの比較に基づいて、集団の報酬を示す値を決定する。具体的には、決定部１３４は、空調前の個々の人物にとっての空間の快適さと、空調後の個々の人物にとっての空間の快適さとの比較に基づいて、個々の人物にとっての空調に対する個々の報酬を示す値を決定する。続いて、決定部１３４は、個々の報酬を示す値に基づいて、集団の報酬を示す値を決定する。例えば、決定部１３４は、複数の人物全員についての個々の報酬を示す値を所定条件に基づいて加算することで、集団の報酬を示す値を決定する。

これにより、情報処理装置１００は、個々の人物にとっての空調前後の快適さの変化に基づいて、集団の報酬を決定することができるため、空調による集団全体の快適さの変化を評価することができる。すなわち、一実施形態に係る情報処理装置１００によれば、集団の快適さを考慮した空調制御を可能とすることができる。

また、決定部１３４は、空調後の個々の人物にとっての空間の快適さが個々の人物にとって快適な状態を示す場合には、正の報酬として個々の報酬を示す値を決定する。

これにより、情報処理装置１００は、個々の人物にとって空間を快適な状態に変化させる空調制御に対して正の報酬を付与するため、集団にとって空間を快適な状態に変化させる空調制御を出力するよう空調制御モデルを強化学習させることができる。したがって、情報処理装置１００は、集団にとって空間を快適な状態に変化させる空調制御を可能とすることができる。

また、決定部１３４は、空調後の個々の人物にとっての空間の快適さが個々の人物にとって快適な状態を示す場合において、空調前の個々の人物にとっての空間の快適さが個々の人物にとって不快な状態を示す場合に、空調前の個々の人物にとっての空間の快適さが個々の人物にとって快適な状態を示す場合に決定される個々の報酬を示す値よりも価値の高い正の報酬として個々の報酬を示す値を決定する。

これにより、情報処理装置１００は、個々の人物にとって空間が不快な状態から快適な状態に変化させる空調制御に対してより大きな正の報酬を付与するため、集団にとって空間を不快な状態から快適な状態に変化させる空調制御をより出力するよう空調制御モデルを強化学習させることができる。したがって、情報処理装置１００は、集団にとって空間を不快な状態から快適な状態に変化させる空調制御を可能とすることができる。

また、決定部１３４は、空調後の個々の人物にとっての空間の快適さが個々の人物にとって不快な状態を示す場合には、負の報酬として個々の報酬を示す値を決定する。

これにより、情報処理装置１００は、個々の人物にとって空間を不快な状態に変化させる空調制御に対して負の報酬を付与するため、集団にとって空間を不快な状態に変化させる空調制御を出力しないよう空調制御モデルを強化学習させることができる。したがって、情報処理装置１００は、集団にとって空間を不快な状態に変化させない空調制御を可能とすることができる。

また、決定部１３４は、空調後の個々の人物にとっての空間の快適さが個々の人物にとって不快な状態を示す場合において、空調前の個々の人物にとっての空間の快適さが個々の人物にとって快適な状態を示す場合に、空調前の個々の人物にとっての空間の快適さが個々の人物にとって不快な状態を示す場合に決定される個々の報酬を示す値よりも価値の低い負の報酬として個々の報酬を示す値を決定する。

これにより、情報処理装置１００は、個々の人物にとって空間が快適な状態から不快な状態に変化させる空調制御に対してより大きな負の報酬を付与するため、集団にとって空間を快適な状態から不快な状態に変化させる空調制御をより出力しないよう空調制御モデルを強化学習させることができる。したがって、情報処理装置１００は、集団にとって空間を快適な状態から不快な状態に変化させない空調制御を可能とすることができる。

また、情報処理装置１００は、推定部１３２をさらに備える。推定部１３２は、空間を撮像した画像に含まれる情報のうち個々の人物が撮像された領域である人物領域であって、個々の人物の姿勢を推定する姿勢推定処理に基づいて特定された人物領域に関する情報に基づいて、個々の人物にとっての空間の快適さを推定する。また、推定部１３２は、空間を撮像した画像として、赤外線カメラで空間を撮像したサーマル画像またはＲＧＢカメラで空間を撮像したＲＧＢ画像のうち少なくともいずれか一方に含まれる情報のうち人物領域に関する情報に基づいて、個々の人物にとっての空間の快適さを推定する。また、推定部１３２は、空間の温度および湿度に関する情報に基づいて、個々の人物にとっての空間の快適さを推定する。

このように、情報処理装置１００は、姿勢推定技術を用いることにより、画像の中から個々の人物が撮像された領域である人物領域をより精緻に特定することができる。これにより、情報処理装置１００は、画像の中から推定対象である個々の人物の人物領域を精緻に特定したうえで、精緻に特定された人物領域の特徴に基づいて、推定対象となる個々の人物にとっての空間の快適さを推定することができる。すなわち、情報処理装置１００は、個々の人物にとっての空間の快適さの推定精度を向上させることができる。したがって、情報処理装置１００は、集団の快適さを精度よく考慮した空調制御を可能とすることができる。

また、情報処理装置１００は、空調制御部１３３をさらに備える。空調制御部１３３は、空調制御モデルを用いて空調を制御する。具体的には、空調制御部１３３は、空調制御モデルの入力情報として空間を撮像した画像に関する情報が空調制御モデルに入力された場合に、空調制御モデルの出力情報として空調制御モデルから出力される空調制御情報に基づいて空調を制御する。より具体的には、空調制御部１３３は、空間を撮像した画像に関する情報として、赤外線カメラで空間を撮像したサーマル画像またはＲＧＢカメラで空間を撮像したＲＧＢ画像のうち少なくともいずれか一方に関する情報が空調制御モデルに入力された場合に、空調制御モデルの出力情報として空調制御モデルから出力される空調制御情報に基づいて空調を制御する。また、空調制御部１３３は、空調制御モデルの入力情報として空間の温度および湿度に関する情報が空調制御モデルに入力された場合に、空調制御モデルの出力情報として空調制御モデルから出力される空調制御情報に基づいて空調を制御する。

これにより、情報処理装置１００は、集団の快適さを考慮した空調制御を学習した空調制御モデルを用いて、空間の空調を制御することができるので、集団の快適さを考慮した空調制御を可能とすることができる。

また、空調制御部１３３は、複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された個々の人物にとっての空間の快適さに基づいて決定された空間に所在する複数の人物にとっての空調に対する集団の報酬を示す値と空調機器により空調が行われた際の空調制御情報とに基づいて強化学習された空調機器による空調を制御する空調制御情報を出力する空調制御モデルを用いて空調を制御する。

これにより、情報処理装置１００は、個々の人物にとっての空間の快適さに基づく集団の快適さを考慮した空調制御を学習した空調制御モデルを用いて、空間の空調を制御することができるので、集団の快適さを考慮した空調制御を可能とすることができる。

〔６．ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置１００は、例えば図１１に示すような構成のコンピュータ１０００によって実現される。図１１は、情報処理装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定の通信網を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定の通信網を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

〔７．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、上述した実施形態では、情報処理装置１００が空調制御部１３３と決定部１３４と学習部１３５を備える例について説明したが、空調制御部１３３と決定部１３４と学習部１３５をそれぞれ別々の装置が備えてもよい。例えば、空調制御部１３３を備える装置と、決定部１３４および学習部１３５を備える装置とが別々の装置であってよい。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、学習部は、学習手段や学習回路に読み替えることができる。

１情報処理システム
１０空調装置
２０センサ装置
１００情報処理装置
１１０通信部
１２０記憶部
１３０制御部
１３１取得部
１３２推定部
１３３空調制御部
１３４決定部
１３５学習部

Claims

複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された前記個々の人物にとっての前記空間の快適さに基づいて、前記空間に所在する前記複数の人物にとっての前記空調に対する集団の報酬を示す値を決定する決定部と、
前記空調機器による空調を制御する空調制御情報を出力する空調制御モデルを、前記空調機器により前記空調が行われた際の前記空調制御情報と前記集団の報酬を示す値とに基づいて強化学習する学習部と、
を備える情報処理装置。
前記決定部は、
前記空調機器による空調前の前記個々の人物にとっての前記空間の快適さと、前記空調機器による空調後の前記個々の人物にとっての前記空間の快適さとの比較に基づいて、前記集団の報酬を示す値を決定する、
請求項１に記載の情報処理装置。
前記決定部は、
前記空調前の前記個々の人物にとっての前記空間の快適さと、前記空調後の前記個々の人物にとっての前記空間の快適さとの比較に基づいて、前記個々の人物にとっての前記空調に対する個々の報酬を示す値を決定する、
請求項２に記載の情報処理装置。
前記決定部は、
前記個々の報酬を示す値に基づいて、前記集団の報酬を示す値を決定する、
請求項３に記載の情報処理装置。
前記決定部は、
前記複数の人物全員についての前記個々の報酬を示す値を所定条件に基づいて加算することで、前記集団の報酬を示す値を決定する、
請求項３に記載の情報処理装置。
前記決定部は、
前記空調後の前記個々の人物にとっての前記空間の快適さが前記個々の人物にとって快適な状態を示す場合には、正の報酬として前記個々の報酬を示す値を決定する、
請求項２～５のいずれか１項に記載の情報処理装置。
前記決定部は、
前記空調後の前記個々の人物にとっての前記空間の快適さが前記個々の人物にとって快適な状態を示す場合において、前記空調前の前記個々の人物にとっての前記空間の快適さが前記個々の人物にとって不快な状態を示す場合に、前記空調前の前記個々の人物にとっての前記空間の快適さが前記個々の人物にとって快適な状態を示す場合に決定される前記個々の報酬を示す値よりも価値の高い正の報酬として前記個々の報酬を示す値を決定する、
請求項６に記載の情報処理装置。
前記決定部は、
前記空調後の前記個々の人物にとっての前記空間の快適さが前記個々の人物にとって不快な状態を示す場合には、負の報酬として前記個々の報酬を示す値を決定する、
請求項２～５のいずれか１項に記載の情報処理装置。
前記決定部は、
前記空調後の前記個々の人物にとっての前記空間の快適さが前記個々の人物にとって不快な状態を示す場合において、前記空調前の前記個々の人物にとっての前記空間の快適さが前記個々の人物にとって快適な状態を示す場合に、前記空調前の前記個々の人物にとっての前記空間の快適さが前記個々の人物にとって不快な状態を示す場合に決定される前記個々の報酬を示す値よりも価値の低い負の報酬として前記個々の報酬を示す値を決定する、
請求項８に記載の情報処理装置。
前記空間を撮像した画像に含まれる情報のうち個々の人物が撮像された領域である人物領域であって、個々の人物の姿勢を推定する姿勢推定処理に基づいて特定された人物領域に関する情報に基づいて、前記個々の人物にとっての前記空間の快適さを推定する推定部、
をさらに備える請求項１～９のいずれか１項に記載の情報処理装置。
前記推定部は、
前記空間を撮像した画像として、赤外線カメラで前記空間を撮像したサーマル画像またはＲＧＢカメラで前記空間を撮像したＲＧＢ画像のうち少なくともいずれか一方に含まれる情報のうち前記人物領域に関する情報に基づいて、前記個々の人物にとっての前記空間の快適さを推定する、
請求項１０に記載の情報処理装置。
前記推定部は、
前記空間の温度および湿度に関する情報に基づいて、前記個々の人物にとっての前記空間の快適さを推定する、
請求項１０または１１に記載の情報処理装置。
前記空調制御モデルを用いて空調を制御する空調制御部、
をさらに備える請求項１～１２のいずれか１項に記載の情報処理装置。
前記空調制御部は、
前記空調制御モデルの入力情報として空間を撮像した画像に関する情報が前記空調制御モデルに入力された場合に、前記空調制御モデルの出力情報として前記空調制御モデルから出力される空調制御情報に基づいて空調を制御する、
請求項１３に記載の情報処理装置。
前記空調制御部は、
前記空間を撮像した画像に関する情報として、赤外線カメラで前記空間を撮像したサーマル画像またはＲＧＢカメラで前記空間を撮像したＲＧＢ画像のうち少なくともいずれか一方に関する情報が前記空調制御モデルに入力された場合に、前記空調制御モデルの出力情報として前記空調制御モデルから出力される前記空調制御情報に基づいて空調を制御する、
請求項１４に記載の情報処理装置。
前記空調制御部は、
前記空調制御モデルの入力情報として前記空間の温度および湿度に関する情報が前記空調制御モデルに入力された場合に、前記空調制御モデルの出力情報として前記空調制御モデルから出力される前記空調制御情報に基づいて空調を制御する、
請求項１３～１５のいずれか１項に記載の情報処理装置。
複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された前記個々の人物にとっての前記空間の快適さに基づいて、前記空間に所在する前記複数の人物にとっての前記空調に対する集団の報酬を示す値を決定する決定手順と、
前記空調機器による空調を制御する空調制御情報を出力する空調制御モデルを、前記空調機器により前記空調が行われた際の前記空調制御情報と前記集団の報酬を示す値とに基づいて強化学習する学習手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
情報処理装置と、空調装置とを含む情報処理システムであって、
前記情報処理装置は、
複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された前記個々の人物にとっての前記空間の快適さに基づいて、前記空間に所在する前記複数の人物にとっての前記空調に対する集団の報酬を示す値を決定する決定部と、
前記空調機器による空調を制御する空調制御情報を出力する空調制御モデルを、前記空調機器により前記空調が行われた際の前記空調制御情報と前記集団の報酬を示す値とに基づいて強化学習する学習部と、
を備え、
前記空調装置は、
前記学習部によって強化学習された空調制御モデルから出力された前記空調制御情報に従って空調を行う、
情報処理システム。
複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された前記個々の人物にとっての前記空間の快適さに基づいて決定された前記空間に所在する前記複数の人物にとっての前記空調に対する集団の報酬を示す値と前記空調機器により前記空調が行われた際の空調制御情報とに基づいて強化学習された前記空調機器による空調を制御する空調制御情報を出力する空調制御モデルを用いて空調を制御する空調制御部と、
を備える情報処理装置。
複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された前記個々の人物にとっての前記空間の快適さに基づいて決定された前記空間に所在する前記複数の人物にとっての前記空調に対する集団の報酬を示す値と前記空調機器により前記空調が行われた際の空調制御情報とに基づいて強化学習された前記空調機器による空調を制御する空調制御情報を出力する空調制御モデルを用いて空調を制御する空調制御手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
情報処理装置と、空調装置とを含む情報処理システムであって、
前記情報処理装置は、
複数の人物が所在し空調機器により空調が行われる空間を撮像した画像に含まれる情報のうち、個々の人物が撮像された領域である人物領域に関する情報に基づいて推定された前記個々の人物にとっての前記空間の快適さに基づいて決定された前記空間に所在する前記複数の人物にとっての前記空調に対する集団の報酬を示す値と前記空調機器により前記空調が行われた際の空調制御情報とに基づいて強化学習された前記空調機器による空調を制御する空調制御情報を出力する空調制御モデルを用いて空調を制御する空調制御部と、
を備え、
前記空調装置は、
前記空調制御部から出力された前記空調制御情報に従って空調を行う、
情報処理システム。