CN112400179A

CN112400179A - 行动优化装置、方法以及程序

Info

Publication number: CN112400179A
Application number: CN201980043774.3A
Authority: CN
Inventors: 松浦伸彦; 儿玉翠; 秦崇洋; 中村元纪; 社家一平
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-07-27
Filing date: 2019-07-16
Publication date: 2021-02-23
Also published as: US20210140670A1; EP3832556A1; US11808473B2; JP7014299B2; JPWO2020022123A1; WO2020022123A1; EP3832556A4; EP3832556B1

Abstract

提供优化用于对对象空间内的环境进行控制的行动的可靠性高的技术。一种行动优化装置，对用于控制环境的行动进行优化，其取得与环境的状态相关的环境数据，对于取得的环境数据进行时空间插补，基于被进行了时空间插补后的环境数据，使环境再现模型进行学习以在输入了环境的状态和用于控制该环境的行动时输出行动后的环境的状态的正确值，此外，使搜索模型进行学习以在输入了从环境再现模型输出的环境的状态时输出接着应该采取的行动，使用这些学习完毕的环境再现模型以及搜索模型，预测与第一环境的状态以及第一行动对应的第二环境的状态，搜索对于第二环境的状态应该采取的第二行动，并输出搜索的结果。

Description

行动优化装置、方法以及程序

技术领域

本发明的一个方式涉及优化用于对对象空间内的环境进行控制的行动的行动优化装置、方法以及程序。

背景技术

在办公楼等建筑物或设施的管理中，提出了对如下操作进行优化(以下汇总称为“控制”或者“用于控制环境的行动”)的技术，该操作是对于以空调机器为代表的机器或设备的操作状态或保洁人员的配置进行的操作。例如，已知以掌握/削减空调机器等的消耗能量作为目的的建筑能源管理系统(BEMS：Building Energy Management System)(参考非专利文献1)、或者根据厕所的利用人数使保洁人员数适当的保洁优化系统(参考非专利文献2)。在这些技术中，利用了活用各种数据的各种各样的反馈型的优化系统。

此外另一方面，已知对特定的空间中的人的流动或数目(以下称为“人流”)进行测量、并考虑基于该测量结果的预测值来对机器的运转进行控制的前馈型的优化系统(参考专利文献1)。在专利文献1的技术中，预先对已知与对象空间具有相关关系的相邻空间的人流比进行测量，通过将该人流比与从相邻空间得到的人流量相乘来算出对象空间的预测人流量，与该预测人流量相应地设定消耗能量的上限。

现有技术文献

专利文献

专利文献1:日本特开2011-231946号公报

非专利文献

非专利文献1:朝妻智裕著，“兼顾建筑的舒适性与节能并支援安全/安心的智能BEMS(ビルの快適性と省エネを両立させ安全·安心を支えるスマートBEMS)”，东芝评论(東芝レビュー)Vol.68，No.12(2013)，26-29页

非专利文献2:锅山彻(鍋山徹)著，“与IoT的新的商业的可能性和地域相关的调查研究(IoTの新たなビジネスの可能性と地域に関する調査研究)”，日经研月报(日経研月報)2017.5，74-83页

发明内容

发明要解决的课题

但是，在非专利文献1以及非专利文献2所记载的技术中，使用了反馈型系统，因此例如检测出设施内的室温已变得过冷或污迹已变得显眼等非最佳状态并进行控制的优化，所以直到返回最佳状态的延时成为问题。

另一方面，在专利文献1所记载的技术中，使用了考虑作为引起非最佳状态的原因之一的人流的预测值的前馈型的优化系统。但是，专利文献1的系统不过是单纯地追随于短期的人流的增减，无法考虑是人流持续多还是人流会立即减少等中长期的人流的增减来进行控制的优化。此外，由于并不估算控制变更所带来的效果而单纯地调整消耗能量的上限，因此无法考虑在从代表点远离的地方由于人密集而发生热积存造成利用者的舒适性受损、或者由于来自近邻的冷暖气的流入流出而发生预测误差造成节能性受损等、追随于对象空间内存在的相互作用的控制。此外，也不容易用于空调控制以外的优化问题。

本发明着眼于上述情况而做出，其目的在于，提供考虑预测的效果来对用于控制对象空间内的环境的行动进行优化的可靠性高的行动优化技术。

用于解决课题的手段

为了解决上述课题，本发明的第一方式是一种行动优化装置，优化用于对对象空间内的环境进行控制的行动，具备：环境数据取得单元，取得与上述对象空间内的环境的状态相关的环境数据；环境数据插补单元，对于上述取得的环境数据依照预先设定的算法进行时空间插补；环境再现模型学习单元，基于被进行了上述时空间插补后的环境数据，使环境再现模型进行学习以在输入了环境的状态和用于控制该环境的行动时输出上述行动后的环境的状态的正确值；搜索模型学习单元，使搜索模型进行学习以在输入了从上述环境再现模型输出的环境的状态时输出接着应该采取的行动；环境再现单元，使用上述环境再现模型，预测与第一环境的状态以及第一行动对应的第二环境的状态；行动搜索单元，使用上述搜索模型，搜索对于上述第二环境的状态应该采取的第二行动；以及输出单元，输出上述行动搜索单元的搜索的结果。

本发明的第二方式是在上述第一方式中，上述行动搜索单元将被搜索出的上述第二行动对于上述环境再现单元输出，上述环境再现单元使用上述环境再现模型，还预测与上述第二环境的状态以及从上述行动搜索单元输出的上述第二行动对应的第三环境的状态，上述行动搜索单元使用上述搜索模型，还搜索对于上述第三环境的状态应该采取的第三行动。

本发明的第三方式是在上述第一方式中，上述环境再现单元基于预先设定的报酬函数，还输出与上述第二环境的状态对应的报酬，上述搜索模型学习单元基于从上述环境再现单元输出的报酬来更新上述搜索模型的学习结果。

本发明的第四方式是在上述第一方式中，还具备：环境预测单元，基于上述环境数据，使用预先设定的时间序列分析方法进行未来预测，生成环境预测数据，上述行动搜索单元对于上述搜索模型使用上述环境预测数据，搜索应该采取的行动。

本发明的第五方式是在上述第一方式中，还具备：环境扩展单元，对于上述环境数据进行基于随机数的数据扩展，上述环境再现模型学习单元使用被施以上述数据扩展后的环境数据，使上述环境再现模型进行学习。

本发明的第六方式是在上述第一方式中，还具备：方针数据取得单元，取得用于指定上述环境再现模型学习单元、上述搜索模型学习单元、上述环境再现单元或者上述行动搜索单元在处理中应该使用的信息的方针数据。

本发明的第七方式是在上述第一方式中，上述行动搜索单元搜索对于控制对象组的以组为单位的行动、或者用于实现特定的功能的对于1个或多个控制对象的一系列行动，来作为上述第二行动，该控制对象组是基于特定的基准预先对多个控制对象进行分组而得到的组。

发明效果

根据本发明的第一方式，基于被进行了时空间插补后的对象空间内的环境数据，对环境的状态及对于该状态的行动与其后的环境的状态的对应关系，使用由与其分别对应的3个种类的数据构成的教师数据使环境再现模型进行学习，基于该学习完毕的环境再现模型，根据环境的状态和行动来预测环境的状态的变化。此外，使搜索模型进行学习以在输入了环境的状态时输出接着应该采取的行动，使用该学习完毕的搜索模型，能够搜索对于通过上述环境再现模型预测的环境的状态应该采取的行动。

这样，对于取得的环境数据进行时空间插补，因此不限定于过去的特定的时刻的数据，而能够使用任意的期间的数据来使环境再现模型进行学习，通过使用那样的环境再现模型，能够得到可靠性更高的预测结果，能够使用该预测结果进行可靠性更高的搜索。此外，能够使用代表点以外的环境数据，因此能够将热积存等局部的环境条件也纳入考虑来进行行动的搜索。另外，热积存一般是指温度比周围高的局部的空间。此外，通过使用包含多种多样的信息的环境数据，例如能够不限定于空调控制，而进行适合于多种多样的条件的学习或者行动搜索。此外，为了环境预测和行动搜索而使用2个种类的学习机，因此能够各自单独地进行验证或调整，能够进一步提高预测的可靠性。

根据本发明的第二方式，在上述第一方式中，使用环境再现模型预测的环境的状态、以及对于该环境的状态使用搜索模型搜索出的行动被再次向环境再现模型输入，并预测新的环境的状态。并且，该新的环境的状态被再次向行动搜索模型输入，进一步搜索新的行动。由此，使用了环境再现模型的预测结果和使用了搜索模型的搜索结果连锁地发挥作用，即使选择了教师数据中不存在的环境的状态与行动的对，也能够持续搜索，作为一系列搜索结果得到对于与多个时刻对应的环境的状态应该采取的行动。

根据本发明的第三方式，在上述第一方式中，基于预先设定的报酬函数，求出与第一环境的状态以及根据对于该状态的第一行动预测的第二环境的状态对应的报酬，基于求出的报酬进行搜索模型的更新。由此，在像无法唯一地准备教师数据的复杂的优化问题中，也能够学习搜索模型，能够搜索并输出恰当的行动。

根据本发明的第四方式，在上述第一方式中，使用基于环境数据通过时间序列分析来预测的数据，进行用于控制环境的行动的搜索。由此，即使在无法充分取得与环境信息相关的预测值的状况下，也能够基于可靠性高的预测数据进行行动的搜索。

根据本发明的第五方式，在上述第一方式中，对于取得的环境数据进行基于随机数的数据扩展，使用被施以数据扩展后的环境数据，进行环境再现模型的学习。通过数据扩展，能够增加表面上的数据的量，因此能够缩短为了收集对环境再现模型的学习而言充分的量的环境数据所需的时间。

根据本发明的第六方式，在上述第一方式中，取得与环境再现模型的学习、搜索模型的学习、或者使用这些模型进行评估时所需的各种各样的信息相关的方针数据。由此，能够与控制的对象或环境条件等相应地单独设定学习或评估的方法，进行更灵活的处理。

根据本发明的第七方式，在上述第一方式中，搜索对于控制对象组的以组为单位的行动、或者用于实现特定的功能的一系列行动，来作为上述第二行动。由此，能够实现与控制对象、控制目的、控制环境等相应的更灵活的处理。

即，根据本发明的各方式，能够提供考虑预测的效果来优化用于对对象空间内的环境进行控制的行动的可靠性高的行动优化技术。

附图说明

图1是表示包含本发明的一个实施方式所涉及的行动优化装置的系统的整体结构的第一例的图。

图2是表示图1所示的行动优化装置的硬件结构的框图。

图3是表示图1所示的行动优化装置的软件结构的框图。

图4是表示图1所示的行动优化装置所进行的环境数据取得的处理过程和处理内容的一例的流程图。

图5A是作为环境数据的一例表示人流数据的图。

图5B是作为环境数据的一例表示温度数据的图。

图5C是作为环境数据的一例表示BEMS数据的图。

图6是表示图1所示的行动优化装置所进行的环境数据的预测的处理过程和处理内容的一例的流程图。

图7是表示图1所示的行动优化装置所进行的环境数据的时空间插补的处理过程和处理内容的一例的流程图。

图8是表示作为图7所示的时空间插补处理的对象的环境数据的一例的图。

图9是表示用于指定图1所示的行动优化装置的操作方针的GUI画面的第一例的图。

图10是表示图1所示的行动优化装置所进行的方针管理的处理过程和处理内容的一例的流程图。

图11是表示包含针对图1所示的行动优化装置的操作指定的信息的方针数据的一例的图。

图12是表示图1所示的行动优化装置所进行的环境再现模型的学习处理的过程和处理内容的一例的流程图。

图13是表示图1所示的行动优化装置所进行的数据扩展处理的过程和处理内容的一例的流程图。

图14是表示图1所示的行动优化装置使用环境再现模型所进行的评估处理的过程和处理内容的一例的流程图。

图15是表示用于指定图1所示的行动优化装置的搜索操作的GUI画面的一例的图。

图16是表示图1所示的行动优化装置所进行的搜索模型的学习处理的过程和处理内容的一例的流程图。

图17是表示图1所示的行动优化装置使用搜索模型所进行的评估处理的过程和处理内容的一例的流程图。

图18是表示图1所示的行动优化装置的输出单元所进行的输出的处理过程和处理内容的一例的流程图。

图19是表示图1所示的行动优化装置的搜索结果的一例的图。

图20是表示包含本发明的一个实施方式所涉及的行动优化装置的系统的整体结构的第二例的图。

图21是表示用于指定图20所示的行动优化装置的操作方针的GUI画面的第二例的图。

具体实施方式

以下，参考附图说明本发明所涉及的实施方式。

[一个实施方式]

(实施例1)

(结构)

(1)系统

图1是表示包含本发明的一个实施方式所涉及的行动优化装置1的系统的整体结构的第一例的图。在该例中，对行动优化装置1而言，作为用于对对象空间内的环境进行控制的行动，被设想为对空调的控制进行优化。该系统包含：行动优化装置1、与该行动优化装置1经由网络NW或线缆等间接地或者直接地连接的1个以上的外部传感器Ss1、Ss2、...、Ssn或者对它们进行统辖的统辖装置SI(以后将其汇总称为“传感器系统SS”)、以及空调系统AS或保洁系统CS等存在于设施内外的设施管理系统MS。

网络NW例如由以互联网为代表的IP(互联网协议(Internet Protocol))网、以及用于接入该IP网的多个接入网构成。作为接入网，除了使用了光纤的有线网之外，例如基于3G或者4G等标准进行操作的移动电话网、或无线LAN(局域网(Local Area Network))等也被使用。

外部传感器Ss1、Ss2、...、Ssn例如是人流传感器、温度传感器、湿度传感器、红外线传感器等取得与对象空间内的环境相关的各种各样的信息的传感器，输出人流、温度、湿度、物体的有无等各种各样的数据。统辖装置SI例如能够统辖地对外部传感器Ss1、Ss2、...、Ssn的操作进行控制，统辖地对由外部传感器Ss1、Ss2、...、Ssn输出的数据进行收集并发送。

一个实施方式所涉及的行动优化装置1能够经由网络NW或信号线缆等，从传感器系统SS或设施管理系统MS接收各种各样的信息作为环境数据，此外，对于设施管理系统MS发送控制信号。

(2)行动优化装置

(2-1)硬件结构

图2是表示图1所示的实施方式所涉及的行动优化装置1的硬件结构的一例的框图。行动优化装置1例如由个人计算机或者服务器装置构成，具有CPU(中央处理单元(Central Processing Unit))或MPU(微处理单元(Micro Processing Unit))等硬件处理器20A，对于该硬件处理器20A，经由总线40连接了输入输出接口单元10、程序存储器20B和数据存储器30。

输入输出接口单元10例如具有有线或者无线接口，具有如下功能：接收从上述传感器系统SS或者设施管理系统MS发送的环境数据，并且向设施管理系统MS发送从行动优化装置1输出的控制信号。输入输出接口单元10此外还能够在与未图示的显示设备或输入设备之间进行信息的发送接收。作为有线接口，例如使用有线LAN，此外作为无线接口，例如使用无线LAN或蓝牙(Bluetooth)(注册商标)等采用了小功率无线数据通信标准的接口。

输入输出接口单元10此外包含GUI(图形用户界面(Graphical UserInterface))，例如，能够从未图示的输入设备取入由用户或操作员输入的方针指示或者搜索指示。

程序存储器20B例如将HDD(硬盘驱动器(Hard Disk Drive))或者SSD(固态驱动器(Solid State Drive))等能够随时写入以及读出的非易失性存储器与ROM等非易失性存储器组合使用来作为存储介质，为了执行实施方式所涉及的各种控制处理而储存着所需的程序。

数据存储器30例如将HDD或者SSD等能够随时写入以及读出的非易失性存储器与RAM(随机存取存储器(Random Access Memory))等易失性存储器组合使用来作为存储介质，用于存储在进行各种处理的过程中取得以及制成的各种数据。

(2-2)软件结构

图3是将图1所示的实施方式所涉及的行动优化装置1的软件结构与图2所示的硬件结构进行关联来表示的框图。行动优化装置1具备输入输出接口单元10、控制处理单元20和数据存储器30。

数据存储器30的存储区域具备环境数据存储单元31、方针数据存储单元32、模型数据存储单元33和搜索结果存储单元34。

环境数据存储单元31存储从传感器系统SS以及设施管理系统MS取得的环境数据。环境数据是与作为对象的空间内的环境相关的数据，能够不仅包含表现环境的状态的数据，而且包含表现对于环境的控制的数据。例如，在环境数据中，也可以不仅包含人流、温度、湿度、污迹或灰尘的存在、空气中的粒子的飞散量等由各种各样的传感器传感得到的信息，而且包含空调机器的设定温度或运转模式、由保洁系统CS管理的保洁调度等多种多样的信息。

方针数据存储单元32存储由用户等经由GUI输入的包含与行动优化装置1中的各种各样的处理相关的指示信息的方针数据。方针数据例如包含用于指定在学习中使用的数据或学习方法的信息。

模型数据存储单元33存储行动优化装置1在各种各样的处理中使用的模型数据。各个模型数据以二进制形式等能够恰当地执行的形式被保存，还能够包含表现模型名称的元数据。

搜索结果存储单元34存储通过行动优化装置1的行动搜索处理而得到的搜索结果。

其中，上述存储单元31～34不是必须的结构，也可以设为行动优化装置1直接从传感器系统SS或设施管理系统MS随时取得所需的数据。或者，上述存储单元31～34也可以不是内置于行动优化装置1，例如也可以被设置于在云上配置的数据库服务器等外部的存储装置。在该情况下，行动优化装置1通过经由网络NW接入上述云的数据库服务器，来取得所需的数据。

控制处理单元20由上述硬件处理器20A和上述程序存储器20B构成，具备GUI管理单元21、方针管理单元22、环境数据取得单元23、环境数据插补单元24、环境预测单元25、环境扩展单元26、环境再现单元27、行动搜索单元28和发送控制单元29，作为基于软件的处理功能单元。它们的处理功能均通过使上述硬件处理器20A执行上述程序存储器20B所储存的程序而实现。控制处理单元20此外也可以通过包含ASIC(专用集成电路(ApplicationSpecific Integrated Circuit))或FPGA(现场可编程门阵列(field-programmable gatearray))等集成电路的其他多种多样的形式实现。

GUI管理单元21提供供用户或操作员等输入与行动优化装置1的处理相关的指示的GUI。例如，GUI管理单元21使未图示的显示装置显示GUI，获取经由GUI输入的用户的指示。在该实施方式中，GUI管理单元21能够经由GUI获取用于指定在学习中使用的数据或学习方法的信息，并将它们向方针管理单元22或者行动搜索单元28输出。

方针管理单元22作为方针数据取得单元发挥作用，基于从GUI管理单元21获取的信息生成方针数据，并将生成的方针数据向方针数据存储单元32储存。方针管理单元22通过对方针数据进行管理，具有对经由GUI输入的各种各样的指示与模型的关系进行整理的作用。

环境数据取得单元23进行如下处理：取得由传感器系统SS或者设施管理系统MS发送的包含与作为控制对象的空间的环境相关的信息的环境数据，将取得的环境数据向环境数据存储单元31储存。环境数据例如包含由人流传感器取得的人流数据、或由温度传感器取得的温度数据等。

环境数据插补单元24进行对于取得的环境数据以预先设定的方法进行时空间插补的处理。环境数据插补单元24例如每1小时读出相当于过去1小时的量的环境数据，对于读出的环境数据进行时间插补以及空间插补。

在此，时间插补是指对于取得的数据的点求出(推测)在时间上处于中间的点的数据的处理，例如是指如下处理：在取得的环境数据是10分钟间隔的数据的情况下，求出1分钟间隔的数据。同样，空间插补是指对于取得的数据的点求出(推测)在空间上处于中间的点的数据的处理，例如是指如下处理：根据在传感器被设置的位置处取得的实测值，求出与传感器未被设置的位置对应的值。以下，将时间插补以及空间插补汇总称为“时空间插补”。

环境预测单元25进行如下处理：基于取得的环境数据，使用预先设定的时间序列分析方法进行未来预测，生成环境预测数据。

环境扩展单元26进行如下处理：对于取得的环境数据，进行基于随机数的数据扩展。在此，数据扩展意味着对于输入侧施加微小的噪音或掩蔽(mask)，或者对输入侧和输出侧这双方施加公共的仿射变换等处理，通过与随机数相应地实施这样的处理，其目的在于提高预测处理的健壮(Robust)性。

环境再现单元27具有学习阶段和评估阶段这样的两个操作阶段。环境再现单元27在学习阶段中，作为环境再现模型学习单元发挥作用，进行如下处理：使环境再现模型进行学习以在输入了环境的状态和用于控制该环境的行动时输出该行动后的环境的状态的正确值(以下将环境再现单元27中使用的模型称为“环境再现模型”)。另一方面，在评估阶段中，环境再现单元27进行如下处理：使用学习完毕的环境再现模型，基于环境的状态以及对于该状态的行动，预测其后的环境的状态。

行动搜索单元28也具有学习阶段和评估阶段这样的两个操作阶段。行动搜索单元28在学习阶段中，作为搜索模型学习单元发挥作用，进行如下处理：使搜索模型进行学习以在输入了环境的状态时输出接着应该采取的行动(以下将行动搜索单元28中使用的模型数据称为“搜索模型”)。另一方面，在评估阶段中，行动搜索单元28进行如下处理(搜索处理)：使用学习完毕的搜索模型，基于环境的状态，搜索对于该状态应该采取的更恰当的行动。例如，行动搜索单元28进行如下处理：针对指定的时间期间，对于各时刻t的状态s预测(评估)向最佳的下一状态s’迁移的行动a，输出优化后的行动的调度。

发送控制单元29作为输出单元发挥作用，进行如下处理：将行动搜索单元28在评估阶段中输出的搜索结果，对于设施管理系统MS等发送(输出)。

(操作)

接着，说明如上构成的行动优化装置1的各部所进行的信息处理操作。

(1)环境数据的取得

图4是表示行动优化装置1所进行的环境数据取得的处理过程和处理内容的一例的流程图。

行动优化装置1首先在步骤S301中，在环境数据取得单元23的控制下，取得从传感器系统SS或者设施管理系统MS发送的环境数据。在一个实施方式中，环境数据至少包含人流数据，此外能够包含从传感器系统SS或设施管理系统MS取得的各种各样的数据。

传感器系统SS或者设施管理系统MS发送环境数据的定时可以是多种多样的。例如，传感器系统SS或者设施管理系统MS也可以设为以特定的采样周期取得数据，进行积蓄，并按每一定时间(例如1小时)将该积蓄的数据向行动优化装置1直接发送。或者也可以是，行动优化装置1按每一定时间或者与来自用户的指示的输入相应地向传感器系统SS或者设施管理系统MS发送数据发送请求，传感器系统SS或者设施管理系统MS响应于该数据发送请求，对于行动优化装置1发送最新的环境数据或者积蓄的数据。或者也可以是，从传感器系统SS或者设施管理系统MS发送的环境数据例如经由网络NW被积蓄至未图示的数据库服务器，行动优化装置1按每一定时间或者与来自用户的指示的输入相应地从数据库服务器读出所需的数据。

行动优化装置1在步骤S302中，将取得的环境数据向环境数据存储单元31保存。

图5A～5C是表示环境数据的例子的图。

图5A作为环境数据的一例表示人流数据。在一个实施方式中，人流数据由表现传感器测量了人流的时刻的“时刻”、表现传感器被设置的地点的“标识符”、以及传感器所测量的“人数”的字段构成。作为测量人流的传感器，例如能够使用激光传感器、红外线传感器、相机等多种多样的传感器。人流数据的各字段项不限定于图5A所示，例如，作为人数也能够设为每单位时间的任意测量区划(例如1秒间隔的1平方米的网格)中存在的人数，能够采用多种多样的字段项。

图5B作为环境数据的一例表示温度数据。在一个实施方式中，温度数据由表现传感器测量了温度的时刻的“时刻”、表现传感器被设置的地点的“标识符”、以及传感器所测量的“温度”的字段构成。作为测量温度的传感器，例如能够使用热电偶、测温电阻体、热敏电阻等多种多样的传感器。温度数据的各字段项不限定于图5B所示，能够采用多种多样的字段项，例如也可以新设置表现温度精度的字段。

图5C作为环境数据的一例表示BEMS数据。在一个实施方式中，BEMS数据主要表现能够从设施管理系统MS取得的与空调控制相关的数据，由表现该记录被写入管理系统中的时刻的“时刻”、表现对应于多个空调机器之中的哪一个的“标识符”、表现将空调开启还是关闭的“空调”、以及表现从空调吹出的空气的温度的“设定温度”的字段构成。当然，各字段项不限定于此，例如也可以新设置表现从空调供应的送风量的供气字段。

另外，环境数据也能够包含与图示的字段名和值不同的、未图示的表现人流或温度等数据名称的元数据。此外，针对BEMS数据那样具有多个字段的数据，例如也可以如由测量时刻、标识符、空调构成的空调数据、以及由测量时刻、标识符，设定温度构成的空调设定温度数据那样，进行分割并以更精细的粒度进行数据管理。

(2)环境数据的预测

图6是表示行动优化装置1使用预先设定的时间序列分析方法进行环境数据的预测的处理过程和处理内容的一例的流程图。在一个实施方式中，环境预测单元25使用作为时间序列分析方法之一的自回归移动平均(ARMA：Autoregressive Moving Average)模型(例如参考：冲本龙义(沖本竜義)著，“经济/金融数据的计量时间序列分析(経済·ファイナンスデータの計量時系列分析)”，株式会社朝仓书店(株式会社朝倉書店)，2017年9月10日第12次印刷发行)，进行环境数据的今后1日期间的预测。环境预测单元25也可以设为按每个特定的时间间隔自动地启动，也可以设为与来自用户或者操作员的指示的输入相应地启动。在一个实施方式中，环境预测单元25按每1日自动地启动并进行如下处理。

行动优化装置1首先在步骤S501中，在环境预测单元25的控制下，判定从上次启动时针对环境数据存储单元31中保存的环境数据是否存在新数据。在步骤S501中评定为不存在新数据的情况下，结束处理。另一方面，在步骤S501中判定为存在新数据的情况下，向步骤S502转移。

在步骤S502中，行动优化装置1在环境预测单元25的控制下，读入新数据和处理所需的数据。在一个实施方式中，环境预测单元25读入新数据，以及在新数据比ARMA模型的次数参数少的情况下读入不足的量的数据。

在步骤S503中，行动优化装置1在环境预测单元25的控制下，按照预先设定的预测式进行未来预测。在一个实施方式中，环境预测单元25使用ARMA模型作为预先设定的预测式，进行ARMA模型的权重参数的估计，使用确定的该模型，从而进行今后1日期间的预测。在ARMA模型中，在将预测值设为v_t，将过去的实测值设为(v_t-1，v_t-2，...，v₀)，此外将误差设为(ε_t-1，ε_t-2，...，ε₀)时，利用将

[数1]

与由p个过去值的加权和来表现的自回归模型(AR：Autoregressive)和由q个误差的加权和来表现的移动平均模型(MA：Moving Average)结合而成的模型进行预测。另外，

θ_i是表现权重的参数，p、q是表现次数的参数。

其中，p、q利用通过如下方式预先估计的值，上述方式为：使用全部实测值(v_t-1，...，v₀)根据描绘偏自相关的图表而表现的周期选择恰当的值，或者通过使赤池信息量基准(AIC：Akaike′s Information Criterion)或贝叶斯信息量基准(BIC：BaysianInformation Criterion)最小化的最大似然估计而自动算出。此外，在预先知晓最佳的值的情况下也可以向设定文件写入，并参考该设定文件内的值。此外，

θ_i通过使用在预测时给定的(v_t-1，...，v_t-p)和(ε_t-1，...，ε_t-q)利用使误差最小化的最大似然估计来自动算出。

在步骤S504中，行动优化装置1在环境预测单元25的控制下，将该预测结果作为环境数据向环境数据存储单元31保存。此时，也可以将表现其是预测值的标志也一起保存，在以后的处理中通过参考标志值来切换使用预测值和实测值中的哪一个。在此，“实测值”是传感器系统SS或设施管理系统MS所观测的实测值(必然是过去时刻)，相对于此，“预测值”是指环境预测单元25或者未图示的外部装置基于实测值预测的值(必然是未来时刻)。在该实施方式中设为，在某时刻，在仅有预测值的情况下使用预测值，在有预测值和实测值这双方的情况下使用实测值。

另外，预测处理不限定于上述的例子，例如，也可以使用ARMA模型以外的预测方法。例如，针对预测方法，还能够使用季节自回归积分移动平均模型(SARIMA：SeasonalAutoregressive Integrated Moving Average)等其他时间序列分析方法，或者使用利用了具有相关性的其他种类数据的多重回归分析等回归分析方法，或者使用长短期存储单元(LSTM：Long-Short Term Memory)等深度学习方法。此外，也可以通过设定文件分别单独地指定要应用的环境数据名称和方法。

通过这样设置环境预测单元25，即使在从外部装置无法取得预测值(例如，预测人流或预测天气)的环境中，也能够使用如上取得的预测数据实施各处理。

(3)环境数据的时空间插补

图7是表示行动优化装置1对于取得的环境数据进行时空间插补的处理过程和处理内容的一例的流程图。在一个实施方式中，环境数据插补单元24进行这些处理。

图8表示插补对象数据的一例。在一个实施方式中，环境数据插补单元24根据图8所示的10分钟间隔且与传感器设置地点对应的特定位置(以后称为“观测点”)的数据(以后称为“点数据”)，进行向1分钟间隔的对象区域内全部点的数据(以后称为“区域数据”)的插补。另外，区域数据也可以是针对在2维上追加高度而成的3维的点进行插补而得到的数据。此外，环境数据插补单元24也可以设为按每个特定的时间间隔自动地启动，也可以设为与来自用户或者操作员的指示的输入相应地启动。在一个实施方式中，环境数据插补单元24按每1小时自动地启动并进行如下处理。

行动优化装置1首先在步骤S601中，在环境数据插补单元24的控制下，判定从上次启动时针对环境数据存储单元31中保存的环境数据是否存在新数据。在图8的例子中，环境数据插补单元24针对上次启动时刻t₀以后的时刻(t₁₀，t₂₀，...，t₆₀)，判定从观测点(x₁，...，x_n)得到的值(v_10，1，...，v_60，n)是否在环境数据存储单元31内作为环境数据已存在。在步骤S601中评定为不存在新数据的情况下，环境数据插补单元24结束处理。另一方面，在步骤S601中判定为存在新数据的情况下，向步骤S602转移。

在步骤S602中，行动优化装置1在环境数据插补单元24的控制下，读入新数据和处理所需的数据。

接着，在步骤S603中，行动优化装置1在环境数据插补单元24的控制下，对于读入的数据，按照预先设定的插补式进行时空间插补。

更详细而言，环境数据插补单元24在步骤S602中也追加地读入时刻t₀的值，在步骤S603中，对于观测点x_i的10分钟间隔的值集合：

[数2]

首先应用线性插补法，算出1分钟间隔的值集合：

[数3]

例如，满足t_j＜t_k≤t_j+10的时刻t_k的值v_k，i的插补式如下：

[数4]

对于全部时刻间{(t₀，t₁₀)，(t₁₀，t₂₀)，...，(t₅₀，t₆₀)}如上计算，进而应用于全部观测点，从而进行时间插补。

接着，对某时刻t的n个观测点的值集合：

[数5]

应用反距离加权法(IDW：Inverse Distance Weighting)(例如参考：HansWackernagel原著，地球统计学研究委员会译编，青木谦治监译，“地球统计学”，森北出版株式会社，2011年8月18日第一版第三次印刷发行)，算出包含m个未观测点的值集合：

[数6]

例如，将未观测点设为u时的插补式如下：

[数7]

对于全部m个未观测点如上计算。

上式利用以距离的倒数为权重的加权平均来求出未观测点的值，p是调节附近点的影响度的参数。参数p通过基于在插补时给定的x_i、v_t，i利用使误差最小化的最大似然估计来自动算出。此外，在预先知晓最佳的值的情况下也可以向设定文件写入，并参考该设定文件内的值。

在步骤S604中，行动优化装置1在环境数据插补单元24的控制下，将通过以上的处理得到的被进行了时空间插补后的结果作为环境数据的区域数据向环境数据存储单元31保存。

另外，针对时空间插补的方法，也可以指定在时间插补中使用样条插补或者在空间插补中使用克里金(kriging)等别的方法，也可以通过设定文件等单独地指定要应用的环境数据名称和方法。此外，时间插补中的插补间隔、空间插补中的作为插补对象的未观测点的数目和位置、或时间插补和空间插补的处理顺序等，也可以通过设定文件等任意地设定。

另外，环境预测单元25以及环境数据插补单元24也可以不是按每一定时间，而是在每次检测出向环境数据存储单元31保存时进行各处理。此外，环境预测单元25与环境数据插补单元24的启动顺序是任意的，也可以构成为：环境数据插补单元24对于环境预测单元25的结果进行插补，或者环境预测单元使用环境数据插补单元24的结果进行预测。

(4)方针信息的取得

接着，针对经由GUI输入的方针信息的取得进行说明。

图9作为由行动优化装置1的GUI管理单元21提供的用于输入与各种各样的处理相关的指示(方针)的GUI的一例，表示未图示的显示单元等上显示的方针输入画面210。GUI管理单元21能够经由这样的方针输入画面210，取入由用户或者操作员使用键盘、鼠标、触摸面板等输入设备(未图示)输入的方针指示。方针输入画面210具有用于输入状态、行动、报酬函数、再现方法、搜索方法的文本框211～215、以及用于结束输入的发送按钮216，但不限定于此。

行动栏212是用于输入搜索处理中的控制对象的栏。在本实施方式中，“空调”表现开启/关闭这样的空调的运转状况，设想对若干个中的一个的控制进行优化，但不限定于此。例如，在行动栏212中，也可以构成为设定如设定温度等别的行动，或者设定被设置在相同对象空间内的多个空调各自的运转状况。

此外，在行动栏212中，也可以构成为设定将控制对象以若干个单位分组或者将决定的动作过程预先注册等虚拟的行动。由此，例如，也可以将多个空调根据属于利用者多的重点区划和并非如此的通常区划中的哪一个来分组，设定“重点空调组”和“通常空调组”等以组为单位的虚拟行动。另外，分组的方法不限于此，例如也能够以易于受到外部空气或日照影响的区划、具备厨房等热源的区划、举办事件的区划等各种各样的单位设定虚拟行动。

进而，也可以设定包含用于实现特定的功能的一系列操作的虚拟行动。例如，在空调停止时有逐渐减小风量等在制造时决定的动作过程的情况下，能够设定进行依照该动作过程的操作的“空调停止”这样的虚拟行动。作为这样的虚拟行动的其他例，还能够设定“启动准备”、“除湿模式”、“气流控制”等动作过程，其中“启动准备”进行在空调运转前使热源工作并对蓄热层的水量或水温进行调整等跨具有依赖关系的多个机器的操作，“除湿模式”进行通过降低供应温度并减弱供应风量从而提高除湿效果的操作，“气流控制”进行利用循环器或气帘等执行器或者通过换气量或供应风量的调整来变更室内压力平衡从而产生气流的操作。其中，不限定于这些具体例，能够根据使用目的或使用环境等采用多种多样的动作过程作为虚拟行动。此外，虚拟行动也可以涉及对于单一的控制对象的操作，也可以涉及对于相同种类的多个控制对象的操作，也可以涉及对于不同种类的多个控制对象的操作。

状态栏211是用于输入在使行动变化时受到影响的环境数据的名称的栏。在图中，例示为利用人流、温度、湿度、外部空气，但输入数据不限定于此，例如也可以包含日照量。

再现方法栏213是用于输入环境再现单元27用于预测行动与状态的关系的方法的栏。在图中，例示了使用在短期的天气预报等中使用的深度学习的卷积LSTM(Convolutional LSTM)(例如参考：Xingjian Shi，et al.，Convolutional LSTM network:A Machine Learning Approach for Precipitation Nowcasting.NIPS，2015)这样的方法。此外，设为使用该方法输入行动a和状态s且输出1小时后的下一状态s’的模型已经作为模型数据被定义/保存。其中，不限定于此，也可以采用输出经过任意时间后(例如10分钟后或1日后等)的下一状态s’、或者使用多重回归分析等别的方法、或者与数值流体力学模拟器等物理模拟器协作等方法。

搜索方法栏214是用于输入行动搜索单元28用于进行搜索的方法的栏。在图中，例示了使用深度强化学习中的深度Q-Network(Deep Q-Network)这样的方法，但不限定于此，也可以使用动态计划法或TD学习等别的强化学习方法(例如参考：Csaba Szepesvari著，小山田创哲译者代表/编辑，前田新一/小山雅典监译，“速学教科学习--基础理论和算法(速習教科学習－－基礎理論とアルゴリズム)”，共立出版株式会社，2017年9月25日初版第1次印刷发行)。

另外，再现方法栏213以及搜索方法栏214例示了预先对应的模型或者模拟器被作为模型数据注册，且输入该模型的名称，但不限定于此，例如也可以直接描述程序。

报酬函数栏215是用于输入针对行动搜索单元28依照搜索方法栏214的方法决定的行动的评估式的栏。在图中指定为：在学习的1个循环结束的情况下返回1个循环的总消耗能量减少量作为报酬r，在此外的情况下返回该时刻的能量削减量(reward1)与外部空气和温度之差的负值(reward2)之和作为报酬r。在后者的情况下，在某时刻t，reward1如果消耗能量削减越高则示出越高的值，从节能性的观点出发期待降低功率的峰(peak)值的效果，reward2如果外部空气与室温之差越低则示出越高的值，从舒适性的观点出发期待防止热休克或者冷休克的效果。另外不限于此，在报酬函数的评估式中，例如也可以根据温度和湿度的值算出舒适指数，或者考虑由于人流引起的发热量。

进而，在报酬函数的评估式中，也可以考虑对公知的有助于节能的操作较高地评估。作为那样的有助于节能的操作的例子能够举出：通过空调的间歇运转或未使用区划的间隔剔除运转来进行的削峰/错峰；通过比业务定时稍早停止热源而仅以保持冷热水进行空调运转的热源事先停止；在室外比室内为更舒适的温度时的自然换气活用；对设定温度进行调整以减小冷热水的出入口温度差并且能够得到充分的空调效果的空调功能的剩余削减；相反通过使冷热水的出入口温度差变大从而削减空调所利用的水或空气的量的大温度差化；在由于室内外的温度差引起的压力差大时通过开口单元附近的气帘启动而防止外部空气流入等。其中，不限定于此，能够考虑与使用目的或使用环境等相应的多种多样的操作。此外，也可以进一步对它们进行组合，并以与重要度相应的加权和的形式进行指定。

另外，报酬函数栏215直接描述了程序，但不限定于此，也可以预先将评估式作为模型数据注册，并描述该名称。

在图9中，如果发送按钮216被按压，则作为输入完成，GUI管理单元21将上述的内容向方针管理单元22输出。

(5)方针数据的生成

图10是表示行动优化装置1生成方针数据的处理过程和处理内容的一例的流程图。在一个实施方式中，方针管理单元22获取由GUI管理单元21输出的方针信息，并基于方针信息生成方针数据。

在步骤S901中，行动优化装置1在方针管理单元22的控制下，将从GUI管理单元21输出的方针信息作为参量获取，从参量之中取出行动、状态、报酬函数、再现方法、搜索方法字段。

在步骤S902中，行动优化装置1在方针管理单元22的控制下，对从参量取出的信息进行汇总并作为方针数据向方针数据存储单元32保存。

在步骤S903中，行动优化装置1在方针管理单元22的控制下，对于环境再现单元27输出学习指示并结束处理。学习指示也可以包含方针数据，也可以包含表示方针数据被新保存至方针数据存储单元32的通知。

图11是表示方针管理单元22所生成的方针数据的一例的图。在一个实施方式中，方针数据由唯一地识别各方针的“标识符”、表现对象空间的控制的“行动”、表现在使行动变化时受到影响的环境数据的名称的“状态”、表现行动搜索单元28在学习阶段中使用的评估式的“报酬函数”、表现环境再现单元27所使用的模型的“再现方法”、以及表现行动搜索单元28所使用的模型的“搜索方法”的字段构成。另外，针对报酬函数、再现方法、搜索方法，也可以描述将程序转换为可执行的状态之后的对象(以后称为“二进制”)，或者描述模型数据的名称。此外，也可以将二进制作为模型数据向数据存储器30保存，并使用其名称或者标识符。

以后，对于方针数据的各描述内容，将给定时刻t时的与行动字段对应的环境数据的值称为行动a，与状态字段对应的环境数据的值称为状态s，在状态s下从若干个设想的多个行动a之中选择一个并实施而时刻前进一个时的状态称为下一状态s’，进而，报酬函数字段的内容称为报酬函数R，向报酬函数R输入时刻t的行动a、状态s、下一状态s’而得到的值称为报酬r。

例如，在行动栏中描述了空调的情况下，提取被作为环境数据保存的空调数据的空调字段，作为各时刻t的行动a利用。另外，例如也可以以″(BEMS数据，空调)″那样的形式，单独地设定数据名称和字段名。此外在存在多个空调的情况下，各时刻的行动无法仅通过空调字段而唯一地求出，因此自动地将标识符字段也作为对象包含，将标识符字段与空调字段的对作为行动a进行读入。另外，例如也可以像″(BEMS数据，[空调，标识符])″那样将字段名设为显式。

针对再现方法、搜索方法以及报酬函数，也可以在描述了二进制的情况下对其进行评估并作为模型数据向数据存储器30保存，利用该标识符或者名称进行覆写。另外，方针管理单元22不限于以来自GUI管理单元21的信息作为启动触发，例如也可以新设置从设施管理系统MS受理包含所需的参数的请求的功能单元，以该请求作为触发进行上述方针数据的生成处理。

(6)环境再现模型的学习

图12是行动优化装置1根据过去数据针对在改变用于控制对象空间内的环境的行动时环境怎样变化进行学习的处理过程和处理内容的一例的流程图。在一个实施方式中，行动优化装置1在环境再现单元27的控制下，接受来自方针管理单元22的学习指示并开始环境再现模型的学习(学习阶段)。在学习阶段中，环境再现单元27作为环境再现模型学习单元发挥作用，从方针管理单元22或者方针数据存储单元32将方针信息作为参量取得，使用整个期间的数据，进行环境再现模型的学习，该环境再现模型用于预测在时刻t的状态s下实施了行动a时的下一状态s’。也可以设为：如果进行了设施布局变更，则其每次都进行学习。

首先在步骤S1101中，行动优化装置1在环境再现单元27的控制下，从由方针管理单元22输出的参量之中取出方针数据。

在步骤S1102中，行动优化装置1在环境再现单元27的控制下，读入与再现方法字段记载内容对应的环境再现模型。

在步骤S1103中，行动优化装置1在环境再现单元27的控制下，从整个期间之中随机选择其中一个时刻，将其设为时刻t。

在步骤S1104中，行动优化装置1在环境再现单元27的控制下，将时刻t时的行动a、状态s、下一状态s’的读入请求发送至环境扩展单元26，并得到该数据。其中，该步骤是任意的，也可以设为环境再现单元27从数据存储器30直接读入时刻t时的行动a、状态s、下一状态s’。针对环境扩展单元26的处理在后面叙述。

在步骤S1105中，行动优化装置1在环境再现单元27的控制下，向读入的环境再现模型输入状态s和行动a，算出被输出的作为预测值的状态fs与作为正确值的下一状态s’的差分，使用误差反向传播法等公知技术(例如参考：C.M.比绍普著，元田浩等监译，“模式识别和机器学习上(パターン認識と機械学習上)”，圆善出版株式会社，平成28年7月30日第七次印刷发行)更新环境再现模型的各参数。

在步骤S1106中，行动优化装置1在环境再现单元27的控制下，判定上述参数更新的差分是否为预先决定的阈值以下。在判定为不是阈值以下的情况下，环境再现单元27返回步骤S1103，反复进行步骤S1103～S1105的处理。在步骤S1106中，如果判定为参数更新的差分成为阈值以下，则向步骤S1107转移。

在步骤S1107中，行动优化装置1在环境再现单元27的控制下，将参数更新后的环境再现模型作为模型数据向模型数据存储单元33保存，结束处理。

另外，也可以设为：在由GUI管理单元21提供的方针输入画面210中新设置开始时刻栏和结束时刻栏，受理用户对其的输入并向方针管理单元22输出，进而方针管理单元将该输入值传递给环境再现单元27，从而使用指定期间的数据进行学习。

通过使用了由环境数据插补单元24插补后的区域数据的上述学习，能够估算由于考虑了对象空间内存在的相互作用的控制变更带来的影响。

(7)数据的扩展处理

如上述那样，环境再现单元27在学习处理中，能够使用被施以扩展处理后的数据。

图13是表示行动优化装置1所进行的数据扩展的处理过程和处理内容的一例的流程图。在一个实施方式中，由行动优化装置1的环境扩展单元26进行数据扩展处理。该处理是在环境再现单元27所进行的学习阶段中能够使用的任意的处理。

在步骤S1201中，行动优化装置1在环境扩展单元26的控制下，从参量取出时刻t。

在步骤S1202中，行动优化装置1在环境扩展单元26的控制下，读入被指定的时刻t的行动a、状态s、下一状态s’。

在步骤S1203中，行动优化装置1在环境扩展单元26的控制下，在不破坏在环境再现模型中作为输入的行动a和状态s(以后合称为“输入侧”)以及作为输出的下一状态s’(以后称为“输出侧”)的关系的范围内，进行基于随机数的数据扩展处理。

在步骤S1204中，行动优化装置1在环境扩展单元26的控制下，将施以数据扩展后的[状态s，下一状态s’，行动a]作为处理结果返还至调用源(在此为环境再现单元27)。

另外，环境扩展单元26不限定于与来自环境再现单元27的请求相应地启动，例如也可以像环境预测单元25或环境再现单元27那样，按每一定时间或者检测出向数据存储器30保存而启动，将进行了数据扩展处理后的扩展数据作为环境数据向环境数据存储单元31保存。此时，也可以对环境数据赋予扩展标志，参考标志值来切换使用扩展数据和非扩展数据中的哪一个。

在一个实施方式中，预先通过设定文件，能够单独地设定要应用的环境数据名称和数据扩展方法，依照该设定文件的内容进行数据扩展。

此外，例如在指定了多个空调作为行动的情况下，也可以在设定文件中描述由预先定义的各空调所负责的设施内的空间范围(以下称为“空调区域”)的位置和大小构成的区域信息的列表，基于该设定文件判定区域数据的各点的数据属于哪个空调区域从而对数据进行分割，以分割后的数据单位进行数据扩展。

通过以上，例如在对于输入侧的温度数据附加噪音的情况下，能够实现允许温度数据的实测值的波动的健壮性高的再现模型的学习。此外，在以区域单位对输入侧和输出侧这双方施加了公共的掩蔽处理的情况下，能够实现考虑了或者隔离了区域间的相互作用的学习。在进行了仅使1处区域留下的掩蔽处理的情况下，通过仅使用本区域的数据推进各区域的学习，能够实现隔离了区域间的关系的预测，例如即使在仅能够观测到多个空调的控制定时一致的数据的情况下，也能够进行在单独地控制空调的情况下的预测。此外，在进行了使多处区域留下的掩蔽处理的情况下，通过不仅使用本区域而且使用其他区域的数据推进各区域的学习，能够进行考虑了区域间的关系的预测，例如能够考虑冷暖气的流入或热积存容易释放等区域特性。由于利用随机数推进上述混合存在的学习，因此能够以较少的数据量实现针对多种多样的变化(variation)的自然的预测。

(8)使用了环境再现模型的评估

图14是表示行动优化装置1使用学习完毕的环境再现模型预测(在此也称为“评估”)在指定时刻t的状态s下实施了行动a时的下一状态s’的处理过程和处理内容的一例的流程图。在一个实施方式中，行动优化装置1在环境再现单元27的控制下，接受来自行动搜索单元28的评估指示并开始评估处理(评估阶段)。

在步骤S1301中，行动优化装置1在环境再现单元27的控制下，从行动搜索单元28接受与评估指示一起被发送的信息作为参量，从参量之中取出方针数据、时刻t、期间tr、行动a。

在步骤S1302中，行动优化装置1在环境再现单元27的控制下，判定所取出的行动a是否为空。在判定为行动不为空的情况下，向步骤S1303转移。另一方面，在步骤S1302中判定为行动a为空的情况下，向步骤S1304转移，将来自行动搜索单元28的上述评估指示判定为初始状态取得指令，将时刻t的状态s作为下一状态s’，将报酬r作为0，向步骤S1308转移。

在步骤S1303中，行动优化装置1在环境再现单元27的控制下，基于所取出的方针数据，读入学习完毕的环境再现模型和报酬函数R。

接下来，在步骤S1305中，行动优化装置1在环境再现单元27的控制下，读入时刻t的状态s，但在上次处理中预测的下一状态s’留在存储器上的情况下将其作为状态s利用。

在步骤S1306中，行动优化装置1在环境再现单元27的控制下，向环境再现模型输入状态s和行动a，将输出的预测状态fs作为下一状态s’。

在步骤S1307中，行动优化装置1在环境再现单元27的控制下，向报酬函数R输入状态s、下一状态s’、行动a并取得报酬r。

在步骤S1308中，行动优化装置1在环境再现单元27的控制下，向请求源(在此为行动搜索单元28)输出下一状态s’和报酬r，作为处理的结束动作过程。

在步骤S1309中，行动优化装置1在环境再现单元27的控制下，将下一状态s’保存在存储器上，以使在接着进行时刻t+1的预测的情况下，能够使用预测值而不是实测值作为时刻t的状态s来进行处理。其中，在时刻t超过了期间tr的情况下，不进行时刻t+1的预测请求因此不保存。

另外，在针对向请求源输出的下一状态s’，预先知晓不会由于行动a的变更而受到影响的字段s_i的情况下，也可以预先在设定文件中描述方针数据标识符与状态字段s_i的对，基于该设定文件，不是利用环境再现模型中算出的值，而是利用数据存储器30上存在的时刻t的下一状态s’中包含的s_i的值将该字段s_i覆写并返还。此外，在学习阶段中，也可以从环境再现模型的输出删除该s_i字段之后进行学习。

(9)搜索指示的取得

接着，针对经由GUI输入的搜索指示的取得进行说明。

图15作为由行动优化装置1的GUI管理单元21提供的用于输入与行动搜索相关的指示的GUI的一例，表示未图示的显示单元等上显示的搜索指示的输入画面220。GUI管理单元21能够经由这样的搜索指示输入画面220，取入由用户或者操作员使用键盘、鼠标、触摸面板等输入设备(未图示)输入的搜索指示。搜索指示输入画面220具有用于输入开始时刻、结束时刻、方针数据、发送目的地的文本框221～224、用于输入类型的单选按钮225、以及用于结束输入的发送按钮226，但不限定于此。

开始时刻栏221和结束时刻栏222是用于输入使用哪个期间的数据的栏。

方针数据栏223是用于输入方针管理单元所输出的方针数据的标识符的栏。

类型栏225是用于选择对于行动搜索单元28发送学习指示和评估指示中的哪一个的栏。

发送目的地栏224在类型栏225为评估指示时需要追加地输入，是用于输入发送由评估阶段输出的搜索结果的目的地的栏。在本实施例中，设想为设施管理系统MS具备利用HTTP通信受理搜索结果的API，并输入该API的URL，但不限于此，例如也可以描述基于特定协议的通信方法。

如果发送按钮226被按压并输入完成，则GUI管理单元21将上述的内容向行动搜索单元28输出。此时，学习阶段和评估阶段中的某一个根据类型栏225的输入值被自动地选择。

(10)搜索模型的学习

图16是表示行动优化装置1学习在行动搜索中使用的搜索模型的处理过程和处理内容的一例的流程图。在一个实施方式中，行动优化装置1在行动搜索单元28的控制下，接受来自GUI管理单元21的学习指示并开始搜索模型的学习(学习阶段)。在学习阶段中，行动搜索单元28作为搜索模型学习单元发挥作用，将从GUI管理单元21发送的信息作为参量取得，使用指定期间的数据，进行搜索模型的学习，该搜索模型对于各时刻t的状态s预测向最佳的下一状态s’迁移的行动a。

在步骤S1501中，行动优化装置1在行动搜索单元28的控制下，从参量之中取出方针数据、开始时刻、结束时刻。

在步骤S1502中，行动优化装置1在行动搜索单元28的控制下，读入与取出的方针数据的搜索方法字段记载内容对应的搜索模型。

在步骤S1503中，行动优化装置1在行动搜索单元28的控制下，还随机选择开始时刻与结束时刻之间的其中一日，将该日的00：00作为时刻t。

在步骤S1504中，行动优化装置1在行动搜索单元28的控制下，将时刻t以及空的行动a和由开始时刻和结束时刻构成的期间tr向环境再现单元27输出，取得初始状态s。另外，时刻也可以不是00：00，例如在不需要夜间的优化的情况下也可以指定设施的营业开始时(09：00等)。

在步骤S1505中，行动优化装置1在行动搜索单元28的控制下，向搜索模型输入状态s，取得接着应该进行的行动a。在取得行动a时，也可以不仅从多个候选之中选出搜索模型所选择的最好候选，还为了推进未知的搜索而以一定的概率选出随机的候选。

接下来，在步骤S1506中，行动优化装置1在行动搜索单元28的控制下，向环境再现单元27输出时刻t、行动a、期间tr，取得下一状态s’、报酬r。

在步骤S1507中，行动优化装置1在行动搜索单元28的控制下，使用由时刻t、状态s、下一状态s’、报酬r、行动a构成的结果，使用误差反向传播法等公知技术更新搜索模型的各参数(例如参考：C.M.比绍普著，元田浩等监译，“模式识别和机器学习上”，圆善出版株式会社，平成28年7月30日第七次印刷发行)。另外，也可以不是每次更新参数，而是通过临时地将该结果保存在存储器上，从而使用多个结果以批处理方式进行参数更新，或者使用连续的时刻t₁和t₂的结果，求出预读报酬r’＝r₁+r₂，作为时刻t₁、状态s₁、下一状态s₂’、报酬r’来进行参数更新。

在步骤S1508中，行动优化装置1在行动搜索单元28的控制下，判定时刻t是否超过了结束时刻。在判定为时刻t未超过结束时刻的情况下，向步骤S1509转移，使时刻t前进一个，在将下一状态s’代入状态s的基础上，反复进行步骤S1505～步骤S1507的处理。

另一方面，在步骤S1508中，在判定为时刻t超过了结束时刻的情况下，向步骤S1510转移。

在步骤S1510中，行动优化装置1在行动搜索单元28的控制下，判定参数更新差分是否为预先决定的阈值以下。在步骤S1510中判定为参数更新差分不是阈值以下的情况下，作为尚有学习的余地，向步骤S1503转移，基于其他日的数据反复进行学习。在步骤S1510中判定为参数更新差分是阈值以下的情况下，向步骤S1511转移。

在步骤S1511中，行动优化装置1在行动搜索单元28的控制下，将进行了参数更新后的搜索模型作为模型数据向模型数据存储单元33保存，结束处理。

这样，行动优化装置1在行动搜索单元28的控制下，在学习阶段中一边与环境再现单元27进行交互一边进行搜索模型的学习。

(11)使用了搜索模型的评估

图17是表示行动优化装置1使用学习完毕的搜索模型进行行动搜索的处理过程和处理内容的一例的流程图。在一个实施方式中，行动优化装置1在行动搜索单元28的控制下，接受由GUI管理单元21输出的评估指示并开始评估处理(评估阶段)。例如，行动搜索单元28能够构成为：按每1日进行评估处理，并生成相当于其后1日的量的搜索结果。

在评估阶段中，基本上与学习阶段以同样的过程进行处理，但如下各点不同：一边从开始时刻到结束时刻为止连续地使时刻t前进，一边对于状态s评估向最佳的下一状态s’迁移的行动a；不进行搜索模型的更新；以及将处理结束前取得的行动a的列表作为搜索结果保存。另外，搜索结果也能够包含在生成时使用的方针数据的标识符等元数据。

在步骤S1601中，行动优化装置1在行动搜索单元28的控制下，从参量之中取出方针数据、开始时刻、结束时刻、发送目的地。

在步骤S1602中，行动优化装置1在行动搜索单元28的控制下，读入与所取出的方针数据的搜索方法字段记载内容对应的学习完毕的搜索模型。

在步骤S1603中，行动优化装置1在行动搜索单元28的控制下，进而将开始时刻设为时刻t。

在步骤S1604中，行动优化装置1在行动搜索单元28的控制下，将时刻t以及空的行动a和由开始时刻和结束时刻构成的期间tr向环境再现单元27输出，取得初始状态s。

在步骤S1605中，行动优化装置1在行动搜索单元28的控制下，向搜索模型输入状态s，取得接着应该进行的行动a。

在步骤S1606中，行动优化装置1在行动搜索单元28的控制下，其后向环境再现单元27输出时刻t、行动a、期间tr，取得下一状态s’、报酬r。

在步骤S1607中，行动优化装置1在行动搜索单元28的控制下，判定时刻t是否超过了结束时刻。在判定为时刻t未超过结束时刻的情况下，向步骤S1608转移，使时刻t前进一个，在将下一状态s’代入状态s的基础上，反复进行步骤S1605～步骤S1606的处理。另一方面，在步骤S1607中判定为时刻t超过了结束时刻的情况下，向步骤S1609转移。

在步骤S1609中，行动优化装置1在行动搜索单元28的控制下，将取得的行动a的列表作为搜索结果向搜索结果存储单元34保存。

在步骤S1610中，行动优化装置1在行动搜索单元28的控制下，向发送控制单元29输出从参量取出的发送目的地、以及搜索结果或者应该发送搜索结果的意思的通知。

这样，行动搜索单元28在评估阶段中，也一边与环境再现单元27进行交互一边进行搜索处理。

另外，针对行动搜索单元28的学习阶段以及评估阶段，不限于基于来自GUI管理单元21的信息而启动，例如也可以构成为按每一定时间或者由行动搜索单元28自身检测向数据存储器30保存等事件并进行对应的处理。此时，能够将方针数据、开始时刻、结束时刻、发送目的地等所需的参数、启动阶段、该事件的集合事先描述在设定文件中。

(12)搜索结果的输出

图18是表示行动优化装置1对于设施管理系统MS发送搜索结果的处理过程和处理内容的一例的流程图。在一个实施方式中，行动优化装置1在发送控制单元29的控制下，执行该处理。

在步骤S1701中，行动优化装置1在发送控制单元29的控制下，将从行动搜索单元28的评估阶段输出的信息作为参量，从参量取出发送目的地以及搜索结果。

在步骤S1702中，行动优化装置1在发送控制单元29的控制下，进行对于指定的发送目的地发送搜索结果的处理。

其中，搜索结果的输出不限定于该过程，也可以以相应于来自设施管理系统MS的搜索结果取得请求的形式启动，或者在GUI管理单元21中新设置该指令发送画面，通过经由该画面的用户指示来启动。

图19是表示输出的搜索结果的一例的图。搜索结果由表现使控制变化的定时的“时刻”、以及表现针对若干个控制分别使其怎样变化的“行动”的字段构成。其中，搜索结果的各字段项不限定于此，例如，也可以不是仅摘录变化定时而是输出全部时刻，或者与控制的数目相应地增减具有与标识符对应的名称的字段。

另外，如上述那样，在该实施方式中设为：在某时刻，在仅能够取得基于实测值被预测的预测值的情况下使用预测值，在能够取得预测值和实测值这双方的情况下使用实测值，但作为使用预测值的情形，例如能够举出以下情形。

·行动搜索单元28在评估阶段中，进行未来期间的行动优化的情况(例如，算出相当于从该时刻起1日的量的搜索结果的情况)。

·环境再现单元27在评估阶段中，已知现有的预测值比自身预测的精度更高的情况(例如，从气象局取得了预测外部气温的情况)。另外，在后者的情况下，由于不使用环境再现模型的输出侧的外部气温，因此在环境再现单元27中，在通过设定文件从环境再现模型的输出删除外部气温数据的基础上，执行学习阶段和评估阶段的各个阶段。

(实施例2)

图20是表示包含本发明的一个实施方式所涉及的行动优化装置1的系统的整体结构的第二例的图。在该例中，对行动优化装置1而言，作为用于控制对象空间内的环境的行动，被设想为使用垃圾传感器对对象区域内的污迹状况进行检测，并对对象区域内的保洁进行优化。与图1所示的系统相比，传感器系统SS不仅具备传感器Ss1、...、Ssn，还具备吸尘器(或者吸尘器所具备的传感器)Sm1、空气清洁器(或者空气清洁器所具备的传感器)Sm2、相机Sm3，来作为追加的传感器。通过这些追加的传感器，例如，取得由红外线传感器对吸尘器所吸入的垃圾的量进行测量而得到的数据、空气清洁器的灰尘传感器的值、根据相机的图像对污迹部分进行检测而得到的数据等包含表现污迹的信息的环境数据。

图21是作为在实施例2的系统中行动优化装置1的GUI管理单元21能够提供GUI的一例而表示保洁优化的方针输入画面250的图。方针输入画面250具有用于输入状态、行动、报酬函数、再现方法、搜索方法的文本框251～255、以及用于结束输入的发送按钮256，但不限定于此。

方针输入画面250与图9所示的方针输入画面210相比，输入内容发生变化，例示了分别如下的输入：在行动栏252中输入打扫状态(也就是说在该时间进行打扫)作为控制，在状态栏251中输入污迹和人流，在报酬函数栏255中，在学习的1个循环结束的情况下返还1日的总污迹去除量，此外在实施了打扫的情况下与人流量相应地返还+1或者-1(在不进行打扫的情况下返还0)。此外，例示了如下的输入：在再现方法栏253中利用多重回归作为再现模型，在搜索方法栏254中利用动态计划法作为搜索模型。其中，输入不限于此，例如，也可以在行动栏252指定表现应该以何种程度重点地打扫的打扫强度，或者在状态栏251追加地板的材质，或者在报酬栏255追加使打扫所需的时间最小化那样的项目。

在实施例2所涉及的系统中，行动优化装置1所具备的其他的结构以及各自的操作与实施例1同样，因此省略详细的说明。

(效果)

如以上所详述的那样，在本发明的一个实施方式中，行动优化装置1从传感器系统SS或者设施管理系统MS取得与作为控制对象的空间相关的环境数据，对于取得的环境数据进行时空间插补。此时，基于被进行了空间插补后的环境数据，由环境再现单元27使环境再现模型进行学习以在输入了环境的状态和用于控制该环境的行动时输出该行动后的环境的状态的正确值，基于学习完毕的环境再现模型，进行环境的变化(在时刻t的状态s下实施了行动a时的下一状态s’)的预测。此外，另一方面，由行动搜索单元28一边与环境再现单元27进行交互，一边进行搜索模型的学习，该搜索模型对于各时刻t的状态s预测向最佳的下一状态s’迁移的行动a，由行动搜索单元28还是一边与环境再现单元27进行交互，一边基于学习完毕搜索模型，取得针对各状态应该采取的恰当的行动的列表并输出。

从而，根据一个实施方式，在基于实际取得的环境数据事先预测了未来的环境数据的变化的基础上，由环境再现单元27以及行动搜索单元28进行学习以及评估，因此能够通过可靠性高的前馈控制实现应该采取的行动的优化。由此，在办公楼等建筑物或设施的管理中，针对空调或保洁等任意的管理对象能够得到恰当的控制调度，能够实现适时地对应于空间内的环境的变化的高效的管理运用。

此外，对于取得的环境数据，由环境数据插补单元24进行时空间插补，因此能够进行将局部的环境条件的变化也纳入考虑的依据作为对象空间整体的控制效果的学习以及评估。由此，热积存等由于环境条件的不均匀性而引起的问题得到消除。此外，也考虑来自相邻空间的影响，因此能够实现还考虑到对象空间内存在的相互作用的精度更高的行动搜索。

进而，设置环境预测单元25，根据取得的环境数据进行未来预测，能够得到环境预测数据。由此，即使在无法从外部装置等取得预测值(例如预测人流、预测天气)的环境中，也能够使用环境预测数据实施以行动搜索为代表的各处理。

通过GUI管理单元21，能够容易地设定行动优化的方针、学习阶段的启动定时、评估阶段的启动定时以及对象期间等，因此能够进行与建筑或设备的状况相应的灵活控制。此外，经由GUI输入的各种各样的指示由方针管理单元22作为方针数据来管理，被指定的参数(再现方法、环境再现模型、报酬函数等)与模型数据的关系被恰当整理。

进而，通过环境扩展单元26，能够增加表面上的数据，因此能够缩短为了取得对环境再现单元27或者行动搜索单元28开始学习前而言充分的量的环境数据所需的时间。此外，通过使用了随机数的数据扩展，预测处理的健壮性得以提高，因此能够提高被施以扩展处理后的环境数据的可靠性。

进而，作为行动优化装置1的搜索处理中的控制对象，不仅能够设定空调的开启/关闭等切换控制，还能够设定设定温度等详细设定或多个空调各自的运转状况等多种多样的对象，能够实现与目的或环境相应的灵活控制。此外，也能够将对于控制对象组的以组为单位的行动设为搜索处理的对象，其中该控制对象组是通过将控制对象预先分组而得到的组。由此，例如通过利用者多的区划和利用者少的区划、利用者的移动量多的区划和利用者的移动量少的区划、易于受到外部空气或日照的影响的区划和难以受到外部空气或日照的影响的区划、具备厨房等热源的区划和不具备厨房等热源的区划、举办事件的区划和不举办事件的区划、提供饮食的区划和不提供饮食的区划等基于任意的基准的分组，能够进行考虑了实际的环境的恰当的控制。此外，进而也能够将包含用于实现特定的功能的一系列操作的虚拟行动设为搜索处理的对象。这样，例如在有空调机器中的“启动准备”或“除湿模式”等在制造时预先设定的动作过程或操作模式的情况下，通过将那样的一系列操作汇总并作为虚拟行动对待，能够进行更高效的控制。

此外，进而也能够在报酬函数中对公知的有助于节能的操作较高地评估。由此，能够进行积极地活用了有助于节能的操作的、恰当的行动的搜索以及控制。

[其他实施方式]

另外，本发明不限定于上述实施方式。例如，在一个实施方式中，说明了取得环境数据的实测值，进行时空间插补，并在各种各样的处理中使用，但也可以根据需要，将过去得到的预测值作为环境数据的一部分使用。由此，即使在由于传感器的故障或通信错误而在一定期间未能得到数据的情况下，也能够适宜地补充数据并在处理中使用。此外，数据的插补或预测不限定于以上说明的技术，能够使用各种各样的技术。

在上述实施方式中，记载了由GUI管理单元21提供用于输入指示的GUI，但其不是必须的结构，也可以以其他任意的形式取得方针数据。例如，也可以在数据存储器30中预先储存表示初始设定的数据集，将该数据集作为方针数据读出。或者，也可以采用CUI(字符用户界面(Character User Interface))，供用户通过键盘输入来输入指示。

此外如上述那样，环境再现单元27或者行动搜索单元28所进行的学习也可以在任意的定时开始，也可以设为能够与状况或控制对象相应地由用户等随时变更定时。

在上述实施方式中，说明了行动搜索单元28对于被给定的环境的状态搜索向最佳的下一状态迁移的行动，但不一定必须限定于此。例如，作为行动搜索单元28的搜索结果，不一定要求仅输出最佳的行动，也可以包含次优的行动、或者如果暂时或片面地看则可能被评估为不是最佳的行动。行动搜索单元28在学习或者评估时，能够对于多种多样的环境的状态输出多种多样的行动。此外，行动搜索单元28在学习或者评估时，能够采用作为最佳条件的搜索或者最佳搜索而已知的多种多样的技术。

针对其他的实测值的种类或方针数据的内容等，也能够在不脱离本发明的要旨的范围内进行各种各样的变形来实施。

总之，本发明不限定于上述实施方式本身，在实施阶段中能够在不脱离该要旨的范围内对结构元素进行变形来进行具体化。此外，通过上述实施方式所公开的多个结构元素的适宜组合，能够形成各种各样的发明。例如，也可以从实施方式所示的全部结构元素删除一些结构元素。进而，也可以对跨不同的实施方式的结构元素适宜地进行组合。

(备注)

上述各实施方式的一部分或者全部除了权利要求书以外还能够如以下的备注所示记载，但不限于此。

[C1]

一种行动优化装置，优化用于对对象空间内的环境进行控制的行动，具备：

环境数据取得单元，取得与所述对象空间内的环境的状态相关的环境数据；

环境数据插补单元，对于所述取得的环境数据依照预先设定的算法进行时空间插补；

环境再现模型学习单元，基于被进行了所述时空间插补后的环境数据，使环境再现模型进行学习以在输入了环境的状态和用于控制该环境的行动时输出所述行动后的环境的状态的正确值；

搜索模型学习单元，使搜索模型进行学习以在输入了从所述环境再现模型输出的环境的状态时输出接着应该采取的行动；

环境再现单元，使用所述环境再现模型，预测与第一环境的状态以及第一行动对应的第二环境的状态；

行动搜索单元，使用所述搜索模型，搜索对于所述第二环境的状态应该采取的第二行动；以及

输出单元，输出所述行动搜索单元的搜索的结果。

[C2]

如上述C1所述的行动优化装置，

所述行动搜索单元将搜索出的所述第二行动对于所述环境再现单元输出，

所述环境再现单元使用所述环境再现模型，还预测与所述第二环境的状态以及从所述行动搜索单元输出的所述第二行动对应的第三环境的状态，

所述行动搜索单元使用所述搜索模型，还搜索对于所述第三环境的状态应该采取的第三行动。

[C3]

如上述C1所述的行动优化装置，

所述环境再现单元基于预先设定的报酬函数，还输出与所述第二环境的状态对应的报酬，

所述搜索模型学习单元基于从所述环境再现单元输出的报酬，更新所述搜索模型的学习结果。

[C4]

如上述C1所述的行动优化装置，还具备：

环境预测单元，基于所述环境数据，使用预先设定的时间序列分析方法进行未来预测，生成环境预测数据，

所述行动搜索单元对于所述搜索模型使用所述环境预测数据，搜索应该采取的行动。

[C5]

如上述C1所述的行动优化装置，还具备：

环境扩展单元，对于所述环境数据进行基于随机数的数据扩展，

所述环境再现模型学习单元使用被施以所述数据扩展后的环境数据，使所述环境再现模型进行学习。

[C6]

如上述C1所述的行动优化装置，还具备：

方针数据取得单元，取得用于指定所述环境再现模型学习单元、所述搜索模型学习单元、所述环境再现单元或者所述行动搜索单元在处理中应该使用的信息的方针数据。

[C7]

如上述C1所述的行动优化装置，

所述行动搜索单元搜索对于控制对象组的以组为单位的行动、或者用于实现特定的功能的对于1个或多个控制对象的一系列行动，来作为所述第二行动，所述控制对象组是基于特定的基准预先对多个控制对象进行分组而得到的组。

[C8]

一种行动优化方法，是优化用于对对象空间内的环境进行控制的行动的行动优化装置所执行的行动优化方法，具有如下过程：

取得与所述对象空间内的环境的状态相关的环境数据；

对于所述取得的环境数据依照预先设定的算法进行时空间插补；

基于被进行了所述时空间插补后的环境数据，使环境再现模型进行学习以在输入了环境的状态和用于控制该环境的行动时输出所述行动后的环境的状态的正确值；

使搜索模型进行学习以在输入了从所述环境再现模型输出的环境的状态时输出接着应该采取的行动；

使用所述环境再现模型，预测与第一环境的状态以及第一行动对应的第二环境的状态；

使用所述搜索模型，搜索对于所述第二环境的状态应该采取的第二行动；以及

输出搜索的结果。

[C9]

一种使处理器执行如上述C1至C7中任一项所述的装置的各部所进行的处理的程序。

标号说明：

1......行动优化装置

10......输入输出接口单元

20......控制处理单元

20A......硬件处理器

20B......程序存储器

21......GUI管理单元

22......方针管理单元

23......环境数据取得单元

24......环境数据插补单元

25......环境预测单元

26......环境扩展单元

27......环境再现单元

28......行动搜索单元

29......发送控制单元

30......数据存储器

31......环境数据存储单元

32......方针数据存储单元

33......模型数据存储单元

34......搜索结果存储单元

210......方针输入画面

220......搜索指示输入画面

250......方针输入画面

Claims

1.一种行动优化装置，具备处理器以及与该处理器连接的存储器，所述行动优化装置优化用于对对象空间内的环境进行控制的行动，

所述处理器构成为：

取得与所述对象空间内的环境的状态相关的环境数据，

对于所取得的所述环境数据依照预先设定的算法进行时空间插补，

基于被进行了所述时空间插补后的环境数据，使环境再现模型进行学习以在输入了环境的状态和用于控制该环境的行动时输出所述行动后的环境的状态的正确值，使学习完毕的环境再现模型存储至所述存储器，

使搜索模型进行学习以在输入了从所述环境再现模型输出的环境的状态时输出接着应该采取的行动，使学习完毕的搜索模型存储至所述存储器，

读出所述存储器中存储的所述学习完毕的环境再现模型，使用所读出的所述学习完毕的环境再现模型，预测与第一环境的状态以及第一行动对应的第二环境的状态，

读出所述存储器中存储的所述学习完毕的搜索模型，使用所读出的所述学习完毕的搜索模型，搜索对于所述第二环境的状态应该采取的第二行动，

输出所述搜索的结果。

2.如权利要求1所述的行动优化装置，

所述处理器还构成为：

基于搜索出的所述第二行动，使用所述学习完毕的环境再现模型，进一步预测与所述第二环境的状态和所述第二行动对应的第三环境的状态，

使用所述学习完毕的搜索模型，进一步搜索对于所述第三环境的状态应该采取的第三行动。

3.如权利要求1所述的行动优化装置，

所述处理器还构成为：

在使用所述学习完毕的环境再现模型来预测与第一环境的状态以及第一行动对应的第二环境的状态时，基于预先设定的报酬函数，进一步输出与所述第二环境的状态对应的报酬，

在使用所述学习完毕的搜索模型来搜索对于所述第二环境的状态应该采取的第二行动时，基于所述报酬来更新所述搜索模型的学习结果。

4.如权利要求1所述的行动优化装置，

所述处理器还构成为：

基于所述环境数据，使用预先设定的时间序列分析方法进行未来预测，生成环境预测数据，

对于所述搜索模型使用所述环境预测数据来搜索应该采取的行动。

5.如权利要求1所述的行动优化装置，

所述处理器还构成为：

对于所述环境数据进行基于随机数的数据扩展，

使用被施以所述数据扩展后的环境数据，使所述环境再现模型进行学习。

6.如权利要求1所述的行动优化装置，

所述处理器还构成为：

取得用于指定所述环境再现模型的学习、所述搜索模型的学习、所述第二环境的状态的预测以及所述第二行动的搜索之中的至少一个的处理中应该使用的信息的方针数据。

7.如权利要求1所述的行动优化装置，

所述处理器还构成为：

搜索对于控制对象组的以组为单位的行动、或者用于实现特定的功能的对于1个或多个控制对象的一系列行动，来作为所述第二行动，所述控制对象组是基于特定的基准预先对多个控制对象进行分组而得到的组。

8.一种行动优化方法，是具备处理器以及与该处理器连接的存储器的行动优化装置优化用于对对象空间内的环境进行控制的行动的行动优化方法，包括：

取得与所述对象空间内的环境的状态相关的环境数据；

对于所取得的所述环境数据依照预先设定的算法进行时空间插补；

基于被进行了所述时空间插补后的环境数据，使环境再现模型进行学习以在输入了环境的状态和用于控制该环境的行动时输出所述行动后的环境的状态的正确值，使学习完毕的环境再现模型存储至所述存储器；

使搜索模型进行学习以在输入了从所述环境再现模型输出的环境的状态时输出接着应该采取的行动，使学习完毕的搜索模型存储至所述存储器；

读出所述存储器中存储的所述学习完毕的环境再现模型，使用所读出的所述学习完毕的环境再现模型，预测与第一环境的状态以及第一行动对应的第二环境的状态；

读出所述存储器中存储的所述学习完毕的搜索模型，使用所读出的所述学习完毕的搜索模型，搜索对于所述第二环境的状态应该采取的第二行动；以及

输出搜索的结果。

9.一种非临时的有形的计算机可读存储介质，存储了用于优化对对象空间内的环境进行控制的行动的程序，所述程序具备用于使处理器执行如下处理的指令：

取得与所述对象空间内的环境的状态相关的环境数据；

输出搜索的结果。