CN112749785A

CN112749785A - 信息处理装置、信息处理方法以及程序

Info

Publication number: CN112749785A
Application number: CN202011146544.0A
Authority: CN
Inventors: 釜谷幸男; 伊藤秀将; 花井克之; 汤浅真由美; 苏鸣镝
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2019-10-29
Filing date: 2020-10-23
Publication date: 2021-05-04
Also published as: US20210125067A1; JP7242508B2; JP2021071791A

Abstract

本发明提供一种能够制作社会基础设施的变更方案的信息处理装置、信息处理方法以及程序。信息处理装置具有定义部、判定部以及强化学习部。定义部将属性与节点和边缘建立对应而进行定义，基于表示系统的结构的图结构的数据，定义与表示图结构的数据的模型相关的卷积函数。评价部对模型输入系统的状态，针对使模型按每个时间步长产生可设想的结构变化后的一个以上的变更后模型的体系，按每个时间步长求出策略函数与状态价值函数，并基于策略函数评价系统的结构变化。强化学习部通过使用将所述结构变化应用于系统的情况下所产生的成本即回报值、状态价值函数、模型来进行强化学习，从而使系统的结构变化优化。

Description

信息处理装置、信息处理方法以及程序

技术领域

本发明的实施方式涉及信息处理装置、信息处理方法以及程序。

背景技术

近年来，作为社会基础设施系统的重大课题，可列举老化问题。例如，在电力系统方面，世界性变电站设备的老化日益严重，制定设备投资计划很重要。针对这样的设备投资计划问题，各领域的专家进行了解决方案开发。关于适用于社会基础设施系统的计划制定方式，有时需要满足大规模性、多样性、变动性的必要条件。然而，在现有技术中，存在无法处理构成变更的问题。

现有技术文献

专利文献

专利文献1：日本特开2007－80260号公报

非专利文献

非专利文献1：永田真幸、竹原有纱，考虑了供给可靠度制约的通电设备更新的平均化辅助工具－原型的开发－，研究报告R08001，财团法人电力中央研究所，平成21年2月

发明内容

发明要解决的课题

本发明要解决的课题在于，提供一种能够制作社会基础设施的变更方案的信息处理装置、信息处理方法以及程序。

用来解决课题的手段

实施方式的信息处理装置具有定义部、判定部、以及强化学习部。定义部将属性与节点和边缘建立对应而进行定义，基于表示系统的结构的图结构的数据，定义与表示所述图结构的数据的模型相关的卷积函数。评价部对所述模型输入所述系统的状态，针对使所述模型按每个时间步长产生可设想的结构变化后的一个以上的变更后模型的体系，按每个所述时间步长求出作为所述结构变化的概率分布而给出的策略函数与强化学习所需的状态价值函数，并基于所述策略函数来评价所述系统的结构变化。强化学习部通过使用将所述结构变化应用于所述系统的情况下所产生的成本即回报值、所述状态价值函数、以及所述模型来进行强化学习，从而使所述系统的结构变化优化。

附图说明

图1是表示评价用电力系统系统模型的例子的图。

图2是表示实际系统的结构例的图。

图3是表示假定节点AN的种类的定义的一个例子的图。

图4是用于说明在图3的构成中在节点AN(B1)与AN(B2)之间追加设备T1^＊的例子的图。

图5是表示根据图4的图结构的数据生成的神经网络的图。

图6是神经网络生成装置的框图。

图7是表示根据图结构的数据生成神经网络的情形的图。

图8是用于对神经网络生成装置决定系数α_i，j的方法进行说明的图。

图9是表示实施方式的信息处理装置的构成例的框图。

图10是表示实施方式的卷积处理与注意力处理的映射例的图。

图11是用于说明实施方式的元图((Meta-Graph))结构序列管理功能部所进行的变更的选择管理例的图。

图12是表示第一实施方式的信息处理装置所进行的学习方法例中的信息的流程的图。

图13是用于说明第二实施方式的候选节点处理功能的例子的图。

图14是用于说明使用了候选节点的并行价值推断的图。

图15是用于说明第三实施方式的设备变更计划方案(推论)计算的流程的图。

图16是用于说明并行推论处理的图。

图17是表示推论整体的功能构成例的图。

图18是表示电力系统的设备变更计划中的设备的废弃、新设、更换各自的成本例的图。

图19是表示电力系统的设备变更计划问题的学习曲线的图。

图20是表示每个学习步长(step)的熵评价的图。

图21是表示已生成的计划方案之中累计成本成为最小的具体的计划方案的图。

图22是表示在显示装置上显示的图像例的图。

附图标记说明

100…神经网络生成装置，1…信息处理装置，11…管理功能部，12…图卷积神经网络(Graph Convolution Neural Network)，13…强化学习部，14…操作部，15…图像处理部，16…提示部，111…元图结构序列管理功能部，112…卷积函数管理功能部，113…神经网络管理功能部，2…环境，3…显示装置，S…系统的状态，S’…系统的新状态，A…行动

具体实施方式

以下，参照附图对实施方式的信息处理装置、信息处理方法以及程序进行说明。以下，在下面的说明中，作为信息处理装置所处理的处理，以设备变更计划为例进行说明。另外，本实施方式不限于面向社会基础设施系统的设备变更计划问题。

首先，对电力系统系统例进行说明。

图1是表示评价用电力系统系统模型的例子的图。如图1那样，评价用电力系统系统模型包括交流电源V＿0～V＿3、变压器T＿0～T＿8、以及总线B1～B14。总线是指连接电力的供给源、需求方的“部位”那样的概念。

在这里的设备变更中，对于总线B4与总线B7之间的变压器T＿0、总线B4与总线B9之间的变压器T＿1、总线B5与总线B6之间的变压器T＿2、总线B7与总线B8之间的变压器T＿3、总线B7与总线B9之间的变压器T＿4、总线B4与总线B7之间的变压器T＿5、总线B4与总线B9之间的变压器T＿6、总线B5与总线B6之间的变压器T＿7、总线B7与总线B9之间的变压器T8，设想选择“追加”、“废弃”、“维持”这三个选项中的一个。由于对于各变压器有三个选项，因此变压器为n(n为1以上的整数)个情况下的组合为3ⁿ种。在考虑这样的设备变更的情况下，需要考虑变压器设备的运营成本(维持成本)、设置成本、由系统宕机等带来的风险成本。

实施方式中，为了进行设备变更，首先用图结构表现实际系统。

图2是表示实际系统的结构例的图。图示的结构例包括总线1～总线4。在总线1与总线2之间设有将220[kV]变压为110[kV]的变压器。在总线2上连接有60[MW]的需求方。总线2与总线3之间由70[km]的电力线连接。在总线3上连接有发电机和70[MW]的需求方。总线2与总线4之间由40[km]的电力线连接，总线3与总线4之间由50[km]的电力线连接。在总线4上连接有发电机和10[MW]的需求方。

在图2那样的构成中，若将总线考虑为实际节点、将变压器考虑为种类“T”的实际边缘、将电力线考虑为种类“L”的实际边缘，则能够如图3那样表示。图3是表示假定节点AN的种类的定义的一个例子的图。附图标记g1表示图结构的数据的内容的一个例子，附图标记g2意性地表示将实际节点RN与实际边缘RE转换为假定节点AN的情形。在附图标记g1中，RN(Bx)(x为1至4的整数)表示实际节点，RE(Ly)(y为1至3的整数)与RE(T1)表示实际边缘。

在实施方式中，将附图标记g1的图结构的数据如附图标记g2那样转换为假定节点元图(附图标记g3)。另外，关于从图结构的数据向假定节点元图的转换方法，之后进行叙述。在附图标记g2中，AN(Bx)、AN(T1)以及AN(Ly)表示实际节点。另外，在以下的说明中，将附图标记g2那样的图称作元图。

接下来，在图3的构成中，对在节点AN(B1)与AN(B2)之间追加设备T1^＊的例子进行说明。图4是用于说明在图3的构成中在节点AN(B1)与AN(B2)之间追加设备T1^＊的例子的图。另外，追加的设备T1^＊与设备T1为相同种类。附图标记g5表示所追加的设备T1^＊。

当用神经网络结构表示图4的元图时，能够如图5那样表示。图5是表示根据图4的图结构的数据生成的神经网络的图。附图标记g11表示未追加设备T1^＊的系统的神经网络，附图标记g12表示与所追加的设备T1^＊相关的神经网络。这样，在实施方式中，将与所追加的设备对应的卷积函数追加到网络。设备的删除由于是追加的逆行动，因此删除元节点的对应的节点及其连接链路。另外，由于所追加的设备T1^＊与T1为相同种类，因此设备T1^＊的卷积函数与T1的卷积函数相同。W_L ⁽¹⁾与W_B ⁽¹⁾是第一中间层的传播矩阵，W_L ⁽²⁾与W_B ⁽²⁾是第二中间层的传播矩阵。传播矩阵W_L是从节点L的假定节点起的传播矩阵。传播矩阵W_B是从节点B的假定节点起的传播矩阵。另外，例如，B4’表示第一中间层的假定节点，B4”表示第二中间层的假定节点。

这样，设备的变更相当于与设备相当的卷积函数的变更(局部处理)。设备的增设相当于卷积函数的追加。设备的废弃相当于卷积函数的删除。

接下来，对神经网络生成装置100的构成例进行说明。

图6是神经网络生成装置100的框图。神经网络生成装置100例如具备数据取得部101、存储部102、网络处理部103、以及输出部104。

数据取得部101例如从外部装置取得图结构的数据，并存储于存储部102。数据取得部101代替从外部装置取得图结构的数据，可以取得(读出)预先存储于存储部102的图结构的数据，也可以取得由使用者使用输入设备输入的图结构的数据。

存储部102例如通过RAM(Random Access Memory，随机存取存储器)、HDD、闪存等实现。存储部102所存储的图结构的数据例如是将图结构表现为实际节点RN与实际边缘RE各自的记录的数据。另外，也可以对图结构的数据赋予作为各个实际节点RN的初始状态的特征量。另外，作为实际节点RN的初始状态的特征量也可以作为与图结构的数据不同的数据集来进行准备。

网络处理部103例如具备实际节点·实际边缘邻接关系提取部1031、假定节点元图化部1032、以及元图卷积部1033。

实际节点·实际边缘邻接关系提取部1031参照图结构的数据，提取处于邻接关系(连接关系)的实际节点RN与实际边缘RE。例如实际节点·实际边缘邻接关系提取部1031针对各个实际节点RN以及实际边缘RE，网罗性地提取处于邻接关系(连接关系)的实际节点RN或者实际边缘RE，并将它们以对应的形式存储于存储部102。

假定节点元图化部1032生成将假定节点AN的状态以层状相连的神经网络，以连接由实际节点·实际边缘邻接关系提取部1031提取的实际节点RN与实际边缘RE。此时，假定节点元图化部1032遵循基于上述图注意力网络的规则，以按照上述神经网络的目的方式决定传播矩阵W以及系数α_i，j。

元图卷积部1033例如将假定节点AN中的作为实际节点RN的初始值的特征量输入神经网络，导出各层的假定节点AN的状态(特征量)。通过重复执行该步长，输出部104将假定节点AN的特征量向外部输出。

假定节点特征量存储部1034存储作为实际节点RN的初始值的特征量。假定节点特征量存储部1034存储由元图卷积部1033导出的特征量。

接下来，对根据图结构的数据生成神经网络的方法进行说明。

图7是表示根据图结构的数据生成神经网络的情形的图。在图7中，附图标记g7表示图结构。附图标记g8表示神经网络。另外，神经网络生成装置100生成神经网络。

如图示那样，神经网络生成装置100不仅设定实际节点RN，还设定包含实际边缘RE在内的假定节点AN，生成使假定节点AN的第k-1层的特征量传播到处于连接关系的其他假定节点AN以及该假定节点AN自身的第k层的特征量的神经网络。k为1以上的自然数，k＝0的层例如是指输入层。

神经网络生成装置100例如基于下式(1)来决定第一中间层的特征量。另外，式(1)相当于假定节点(RN1)的第一中间层的特征量h₁#的计算方法。

作为一个例子，α_1，12是表示假定节点(RN1)与假定节点(RE12)之间的传播程度的系数。假定节点(RN1)的第二中间层的特征量h₁##由下式(2)表示。第三中间层以后也依次以相同的规则决定特征量。

【式1】

h₁#＝α_1，1·W·h₁+α_1，12·W·h₁₂+α_1，13·W·h₁₃+α_1，14·W·h₁₄…(1)

【式2】

h₁##＝α_1，1·W·h₁#+α_1，12·W·h₁₂#+α_1，13·W·h₁₃#+α_1，14·W·h₁₄#…(2)

神经网络生成装置100例如根据基于图注意力网络的规则来决定系数α_i，j。图8是用于说明神经网络生成装置100决定系数α_i，j的方法的图。神经网络生成装置100将结合传播源的假定节点RNi的特征量h_i乘以传播矩阵W而得的矢量Wh_i与传播目的地的假定节点RNj的特征量hj乘以传播矩阵W而得的矢量Whj而得的矢量(Wh_i，Whj)输入单独的神经网络a(注意力)，将输出层的矢量输入sigmoid函数、ReLU、softmax函数等激活函数中进行归一化，并相加，由此导出系数α_i，j。单独的神经网络a针对成为分析对象的现象预先求出参数等。

神经网络生成装置100遵循上述的规则，以按照神经网络的目的方式决定神经网络的参数(W，α_i，j)。神经网络的目的是指，在将假定节点AN设为当前的状态的情况下输出将来的状态、或输出用于评价状态的指标、或者将当前的状态分类。

接下来，对信息处理装置1的构成例进行说明。

图9是表示实施方式的信息处理装置1的构成例的框图。如图9那样，信息处理装置1具备管理功能部11、图卷积神经网络12、强化学习部13、操作部14、图像处理部15、以及提示部16。管理功能部11具备元图结构序列管理功能部111、卷积函数管理功能部112以及神经网络管理功能部113。另外，在信息处理装置1上连接有环境2与显示装置3。

环境2例如是模拟器、服务器装置、数据库、个人计算机等。环境2从信息处理装置1输入作为行动的变更方案。环境算出编入了该变更的状态，计算回报并返回至信息处理装置1。

显示装置3例如是液晶显示装置。显示装置3显示信息处理装置1所输出的图像。

信息处理装置1具备上述神经网络生成装置100的功能，进行图神经网络的构建、以及基于机器学习的更新。例如，也可以使管理功能部11具备神经网络生成装置100的功能。另外，图神经网络也可以预先生成。信息处理装置1实施基于从环境2取得的变更方案的神经网络变更，推测价值函数(Value)值，进行基于从环境反馈的回报的TD(TemporalDifference，时序差分)计算等强化学习处理。信息处理装置1基于强化学习后的结果，更新卷积函数等系数参数。另外，卷积网络也可以是将与各设备对应的卷积函数连接而构成的多层神经网络。另外，各卷积函数根据需要也可以包含注意力处理。另外，模型并不局限于神经网络，例如也可以是支持向量机等。

元图结构序列管理功能部111取得反映了设备变更的变更信息信号，作为来自环境2的“状态信号”的一部分。元图结构序列管理功能部111在取得了变更信息信号时，定义与对应的新系统构成对应的元图结构，并制定对应的神经网络结构。此时，元图结构序列管理功能部111制定高效地处理变更方案所需的价值函数、策略函数的评价值推断计算的神经网络结构。另外，元图结构序列管理功能部111从卷积函数管理功能部112中参照与变更部位对应的卷积函数，从卷积函数集合构成相当于实际的系统构成的元图。然后，元图结构序列管理功能部111进行相当于设备变更的元图结构的变更(与行动对应地进行图结构更新、“候选节点”设定等)。元图结构序列管理功能部111将属性与节点和边缘建立对应而进行定义、管理。另外，元图结构序列管理功能部111具备上述神经网络生成装置100的功能的一部分。另外，元图结构序列管理功能部111是“定义部”的一个例子。

卷积函数管理功能部112具备与设备种类对应的卷积函数的定义功能和卷积函数的参数更新功能。卷积函数管理功能部112管理与部分元图结构对应的卷积模块或者注意力模块。卷积函数管理功能部112基于表示系统的结构的图结构的数据，定义与表示所述图结构的数据的模型相关的卷积函数。另外，部分元图结构是与各设备种类节点或者边缘对应的单独的卷积函数的库(library)功能。卷积函数管理功能部112在学习过程中，更新各个卷积函数的参数。另外，卷积函数管理功能部112具备上述神经网络生成装置100的功能的一部分。另外，卷积函数管理功能部112是“定义部”的一个例子。

神经网络管理功能部113取得与元图结构序列管理功能部111制定的神经网络结构以及卷积函数管理功能部112管理的部分元图结构对应的卷积模块或者注意力模块。神经网络管理功能部113具备将元图转换为多层神经网络的功能、强化学习所需的函数的神经网络的输出函数定义功能以及上述卷积函数或神经网络的参数集的更新功能。另外，强化学习所需的函数例如是回报函数、策略函数等。另外，输出函数定义例如是指以卷积函数的输出作为输入的全连接·多层神经网络等。另外，全连接是指，各输入与其他所有输入连接的方式。另外，神经网络管理功能部113具备上述神经网络生成装置100的功能的一部分。另外，神经网络管理功能部113是“评价部”的一个例子。

图卷积神经网络12例如存储由多种卷积构成的注意力型图卷积网络作为深层神经网络。

强化学习部13使用图卷积神经网络12所构建的图卷积神经网络与环境所输出的状态、回报来进行强化学习。强化学习部13基于强化学习后的结果变更参数，将变更后的参数输出至卷积函数管理功能部112。另外，关于强化学习方法之后进行叙述。

操作部14是键盘、鼠标、设于显示装置3上的触摸面板传感器等。操作部14检测使用者的操作，并将检测出的操作结果输出至图像处理部15。

图像处理部15根据操作结果，生成与评价环境相关的图像和与评价结果相关的图像，将所生成的图像即与评价环境相关的图像和与评价结果相关的图像输出至提示部16。关于与评价环境相关的图像和与评价结果相关的图像之后进行叙述。

提示部16将图像处理部15输出的图像输出至环境2与显示装置3。

接下来，基于设备的注意力、卷积模型，对设备的变更计划序列的定式化进行说明。图10是表示本实施方式的卷积处理与注意力处理的映射例的图。

首先，用图结构表示实际系统(S1)。接着，根据图结构设定边缘种类、函数属性(S2)。接下来，用元图进行表示(S3)。接下来，进行网络映射(S4)。

附图标记g20是网络映射的例子。附图标记g21是边缘卷积模块。附图标记g22是图注意力模块。附图标记g23是时间序列识别模块。附图标记g24是状态价值函数V(s)推断模块。附图标记g25是行动概率p(a|s)计算模块。

这里，设备变更计划问题能够被定义为强化学习的问题。即，设备变更计划问题通过将图结构与各节点、边缘(设备)的参数设为状态，将设备的追加、删除设为行动、将所得的收益、费用设为回报，能够定义为强化学习问题。

对元图结构序列管理功能部111所进行的变更的选择管理例进行说明。图11是用于说明元图结构序列管理功能部111所进行的变更的选择管理例的图。

这里，作为初始(t＝0)状态，考虑附图标记g31那样的4节点的图结构。

从该状态起，作为下一时刻t＝1的变更候选，如中段的附图标记g41、g42、…、g4n那样，考虑n(n为1以上的整数)个选项。

按照这些选项的每个，派生下一时刻t＝2的选项。附图标记g51、g52、…表示来自附图标记g43的图结构的选项例。

这样，选择序列表现为反映了变更的元图的序列、换句话说是节点变更的序列。在实施方式中，作为从这样的序列之中提取适合于策略的序列的手段，使用强化学习。

在实施方式中，这样，由信息处理装置1构成的图神经网络始终与环境侧的系统构成对应。而且，信息处理装置1作为环境侧的评价结果，通过新状态S、基于其而求得的回报值、由神经网络侧推断的价值函数以及策略函数来推进强化学习。

(第一实施方式)

对信息处理装置1所进行的学习方法例进行说明。这里，作为学习方式，对使用A3C(Asynchronous Advantage Actor－Critic，异步优势Actor－Critic算法)的例子进行说明，但学习方式并不限定于此。另外，在实施方式中，作为从选择序列之中提取适合于回报的序列的手段，使用强化学习。另外，强化学习例如也可以是深层强化学习。

图12是表示本实施方式的信息处理装置1所进行的学习方法例中的信息的流程的图。在图12中，环境2具备外部环境DB(数据库)21以及系统环境22。系统环境22具备物理模型·模拟器221、回报计算部222、以及输出部223。另外，设备种类通过卷积函数来表示。而且，系统的图结构由卷积函数组的图结构来表示。

外部环境DB21储存的数据为外部环境数据等。环境数据例如是设备节点的规格、电力系统等中的需求数据、与图结构相关的信息等，是不受环境状态、行动的影响且对动作的决定产生影响的参数。

物理模型·模拟器221例如具备潮流模拟器、流量(Traffic)模拟器、物理模型、函数、方程式、仿真器、实机等。物理模型·模拟器221根据需要取得外部环境DB21储存的数据，使用所取得的数据与物理模型进行模拟。物理模型·模拟器221将模拟结果(S，A，S’)输出至回报计算部222。S为系统的状态(Last State)，A为所提取的行动，S’为系统的新状态。

回报计算部222使用从物理模型·模拟器221取得的模拟结果(S，A，S’)来计算回报值R。另外，关于回报值R的计算方法之后进行叙述。另外，回报值R例如为{(R₁，a₁)，...，(R_T，a_T)}。这里，T是设备计划研究期间。另外，a_p(p为1至T的整数)为各节点，例如a₁为第一个节点，a_p为第p个节点。

输出部223将系统的新状态S’作为系统的状态S，将系统的状态S与回报值R输出至信息处理装置1。

管理功能部11的神经网络管理功能部113将环境2输出的系统的状态S输入图卷积神经网络12所存储的神经网络，求出策略函数π(·|S，θ)与状态价值函数V(S，w)。这里，w是与节点所具有的属性维数对应的加权系数矩阵(也称作卷积项)。神经网络管理功能部113使用下式(3)来决定下一步中的行动(设备变更)A。

【式3】

A～π(·|S，θ)…(3)

神经网络管理功能部113将所决定的下一步中的行动(设备变更)A输出至环境2。即，策略函数π(·|S，θ)被输入研究对象的系统的状态S而输出行动(动作)。另外，神经网络管理功能部113将求出的状态价值函数V(S，w)输出至强化学习部13。另外，选择行动的策略函数π(·|S，θ)作为元图结构变更的行动候选的概率分布而给出。

这样，神经网络管理功能部113对神经网络输入系统的状态，针对使神经网络按每个时间步长产生可设想的结构变化后的一个以上的变更后模型的体系，按每个时间步长求出策略函数与强化学习所需的状态价值函数，并基于策略函数评价系统的结构变化。另外，神经网络管理功能部113也可以对系统的结构变化的计划或者设备变更计划进行评价。

强化学习部13被输入管理功能部11所输出的状态价值函数V(S，w)、以及环境2所输出的回报值R。强化学习部13使用所输入的状态价值函数V(S，w)与回报值R，通过例如A3C等机器学习方法进行强化机器学习而对行动(动作)的序列重复相当于设备计划研究期间(T)的次数。强化学习部13将进行强化机器学习的结果获得的参数＜ΔW＞π、＜Δθ＞π输出至管理功能部11。

卷积函数管理功能部112基于强化学习部13输出的参数，更新卷积函数的参数。

神经网络管理功能部113将更新后的参数＜ΔW＞π、＜Δθ＞π反映在神经网络中，并对反映了参数的神经网络进行评价。

另外，在下一个行动的选择中，管理功能部11可以使用上述候选节点(参照图4、图5)，也可以不使用。

接下来，对回报函数的例子进行说明。

回报函数的第一例为(偏置)－(设备设置、废弃、运营、维护成本)。

回报函数的第一例也可以为，按每个设备将成本模型化(函数)，通过从偏置中减去而定义为正的回报值。另外，偏置是指，为了使回报函数值成为正值而被适当设定为一定的正值的参数。

回报函数的第二例为(偏置)－(风险成本)。根据设备构成有时不满足物理系统条件。不满足条件的情况是指，例如连结条件不成立、流程失衡、不满足输出条件等。在产生这样大的风险的情况下，也可以施加负的较大的回报(风险)。

回报函数的第三例也可以为回报函数的第一例～第三例的组合。

这样，在本实施方式中，能够如第一例～第三例那样进行各种回报函数的设计。

(第二实施方式)

在本实施方式中，对使用候选节点选择下一个行动的例子进行说明。

元图结构序列管理功能部111也可以使用候选节点处理功能。在本实施方式中，对作为下一个行动(动作)候选而将具有设备节点追加的可能性的函数候选地连接到元图上，并行地执行针对多个行动候选的价值推断的方法进行说明。另外，信息处理装置1的构成与第一实施方式相同。

作为注意力型的神经网络的特征，即使追加节点，通过将与该节点对应的已学习卷积函数追加到神经网络中，也能够不进行再学习而有效地分析·评价追加的效果。该理由是因为，基于图注意力网络的图结构神经网络的构成要素被表现为卷积函数，整体被表现为该函数组的图连接。即，在使用候选节点的情况下，能够分解为表现系统整体的神经网络和构成所追加的节点的卷积函数来进行管理。

图13是用于说明本实施方式的候选节点处理功能的例子的图。附图标记g101是步长t中的元图，附图标记g102是步长t中的神经网络。附图标记g111是步长t+1中的元图，附图标记g102是步长t+1中的神经网络。

管理功能部11为了评价作为变更候选追加的可能性，如图13的附图标记g111那样，使用单向的连接候选地连接到元图上。由此，管理功能部11将候选节点作为单向连接的卷积函数进行处理。

管理功能部11为评价追加了节点T1^＊的情况下的价值，如附图标记g112那样，通过从节点B1、B2向T1^＊的单向连接而结合，并行地执行与T1、T1^＊节点相关联的价值计算(策略函数、状态价值函数)。另外，附图标记g1121是T1的回报差分，附图标记g1122是T1^＊追加的回报差分。附图标记g112的二维行动的回报值的推断能够并行地执行。

由此，在本实施方式中，作为节点(T1，T1^＊)的组合，能够同时评价{(有，有)、(有，无)、(无，有)、(无，无)}这四个组合。其结果，根据本实施方式，由于能够并行地评价，因此能够高速地执行运算。

图14是用于说明使用了候选节点的并行价值推断的图。附图标记g151是步长t中的状态S的元图。附图标记g161是步长t+1中的行动A₁所涉及的状态S1(有，无)的元图。附图标记g162是步长t+1中的行动A₂所涉及的状态S2(有，有)的元图。附图标记g163是步长t+1中的行动A₃所涉及的状态S3(无，有)的元图。附图标记g164是步长t+1中的行动A₄所涉及的状态S4(无，无)的元图。附图标记g171是将候选节点T1^＊虚拟地连接于状态S的元图。

另外，在图14中，假设在步长t中处于状态S的系统中，对B1、B2间的节点选择增设、维持中的行动。管理功能部11基于在该条件下哪个选项可获得较高的回报来决定选项。

这里，在四个组合中，S4(无，无)的情形为，系统上B1、B2间为非连结，作为系统不成立。在该情况下，管理功能部11产生较大的风险成本(惩罚(penalty))。另外，在该情况下，管理功能部11针对状态S1至S4，分别基于来自神经网络的价值函数值与策略函数并行地执行强化学习。

(第三实施方式)

在本实施方式中，对进行对计划序列方案进行采样的处理的并行处理的例子进行说明。另外，信息处理装置1的构成与第一实施方式相同。

图15是用于说明本实施方式的设备变更计划方案(推论)计算的流程的图。图15例示了使用由A3C学习功能获得的策略函数制作与学习不同的外部环境数据的情况下的设备变更计划(变更序列)方案的主要的计算处理与信号的流程。

信息处理装置1使用所获得的每个设备的卷积函数对计划方案进行采样。然后，信息处理装置1例如按累计分数的顺序输出计划方案。累计分数的顺序例如为成本低廉的顺序等。

在外部环境DB21中，例如储存有电力系统中的需求数据、与设备规格相关的数据、或者与系统的图结构等学习数据不同的外部环境数据集等。

通过使用已学习卷积函数(已学习参数：θπ)构成的图神经网络来构成策略函数。

将系统的状态S作为输入，使用下式(4)来决定下一步中的行动(设备节点变更)。

【式4】

A～π(·|S，θπ)…(4)

管理功能部11根据式(4)，基于与状态相应的策略函数(各行动的每个的概率分布)提取策略。管理功能部11将所提取的动作A输入系统环境并计算新状态S’以及伴随于此的回报值R。新状态S’作为用于决定下一步的输入而使用。在回报研究期间累计。管理功能部11将该操作重复执行相当于研究期间的步长量，求出各累计回报分数(G)。

图16是用于说明并行推论处理的图。

通过研究期间的一系列的变更计划序列相当于一个设备变更计划。求出与该计划对应的累计回报分数。这样求出的计划方案及其分数的组合的集合成为计划方案候选集合。

首先，管理功能部11以情节(episode)为单位，从通过学习获得的策略函数中对计划(动作序列{at}t)进行采样，求出分数。

接下来，管理功能部11例如用argmax函数进行选择，提取各试行(测试)结果的G值中的与最大的测试对应的计划{A1，...，AT}。管理功能部11还能够进一步提取上位的计划。

根据本实施方式，能够并行处理对一个个计划序列方案进行采样的处理(在图16中为N次)。

另外，为了并行地处理策略函数，需要输出层中的标准化。在标准化中，例如使用下式(5)。

【式5】

在式(5)中，preference函数是针对对象的输出节点，系数θ与矢量x的积π(s_t，a，θ)。

这里，对处理多维的行动(action)的情况进行说明。

若行动空间为二维空间，则能够考虑用a＝(a₁，a₂)作为两个空间的直积，能够如下式(6)那样表示。另外，a₁为第一个节点，a₂为第二个节点。

【式6】

h(s_t，a，θ)＝h(s_t，a₁，θ)+h(s_t，a₂，θ)…(6)

即，preference函数只要针对单独的空间计算并相加即可。这样，若成为原始的系统的状态s_t相同，则各个preference函数能够并行地计算。

图17是表示推论整体的功能构成例的图。另外，计算处理的流程是上述的图15。

设备节点更新策略模型g201是已学习的策略函数，表示在上述的过程中已学习的每一步的行动选择概率分布。

课题设定功能g202是初始的系统构成、各节点参数初始化、外部环境数据、测试数据、成本模型等课题定义、设定功能。

课题定式化功能g203是将上述的由课题设定功能定义的课题、以及作为更新策略模型使用的已学习策略函数与强化学习的定式化建立对应的功能。包含研究期间(情节)、策略(累计成本最小化、平均化)、动作空间、环境状态空间、评价分数函数定式化(定义)等。

变更序列样本提取·累计分数评价功能g204在所定义的环境、代理(agent)的环境中从已学习策略函数生成所需数量的动作序列并作为样本。

最佳累计分数计划·显示功能g205从样本集合中选择最佳分数的样本、或者按分数顺序排列样本来进行提示。

功能设定UIg206是进行各功能部的设定的用户接口。

接下来，对设备变更计划方案的具体的计算事例进行说明。

这里，对针对以下那样的课题应用了实施方式的方法的例子进行说明。作为评价用电力系统系统模型，使用了图1所示的IEEE Case 14(Electrical Engineering，U.ofWashington)。

课题为在一系列的30步的设备更新序列中搜索累计成本最小的计划方案。初始状态如图1那样在总线间配备共9台相同规格的变压器(T＿x)。条件如图1中那样，对于总线B5-B6间、B4-B9间、B7-B9间、B4-B7间的变压器，能够按每个步长对一个节点选择“追加”、“废弃”、“保持原样”这三个动作中的一个动作。即，3×3×3×3＝81种行动空间。

关于考虑的成本，按照变压器的每个设备节点课征设置成本、课征与时间经过和负载电力值相应的成本、若设备变更而导致环境的成立条件变得困难则课征较大的惩罚值作为成本。另外，环境的成立条件例如是指功率流平衡等。

课题的要点如下。

I.系统系统模型；IEEE Case14

II.课题；以在计划期间(30次更新机会)成为最小成本的方式制定IEEE Case14变压器的新设、删除的设备变更计划。

III.条件；

III－1；初始状态：在总线间配备有相同规格的变压器(V＿x)。

III－2；各变压器设备的运营成本设为以下三种成本(设置成本、维持成本、风险成本)的(加权)和。

·设置成本；暂时性成本

·维持成本；与时间经过和负载电力值相应的成本

·风险成本；万一系统宕机的情况下的受损成本(较大)

IV.强化学习的回报；(回报)＝(回报偏置)－(运营成本)

·强化学习的动作定期地针对各变压器中的一个变压器，从设备战略选项(增设、废弃、什么都不做)中选择一个

V.需求负载曲线为Y年的数据

VI.发电机、线路的规格为IEEE模型

VII.评价(推论)；制定与Y年的次年的电力需求数据对应的设备变更计划

图18是表示电力系统的设备变更计划中的设备的废弃、新设、更换各自的成本例的图。也可以像这样将各成本进一步分类，按每种成本设定成本系数。例如，变压器追加成本为暂时性成本，成本系数为0.1。另外，变压器撤去成本为暂时性成本，成本系数为0.01。这样的成本的分类、成本系数的设定是预先设定的。成本的分类、设定例如也可以由系统的设计者基于过去实际进行的作业来设定。在实施方式中，像这样将每个设备的设置成本、运营·维护成本作为函数而编入。

针对上述课题，将进行了A3C学习的结果的学习曲线示于图19。图19是表示电力系统的设备变更计划问题的学习曲线的图。在图19中，横轴为学习更新步数，纵轴相当于上述累计回报值。另外，附图标记g301是平均值的学习曲线。附图标记g302是中央值的学习曲线。附图标记g303是比较用的随机的计划的平均值。附图标记g304是比较用的随机的计划的中央值。图19基于按每个学习步长更新的策略函数生成设备变更计划作为样本，示出了该样本集合的累计回报值的平均值与中央值。如图19那样，可知通过学习能够获得分数更高的战略。

图20是表示每个学习步长的熵评价的图。另外，图10所示的熵是与相同的系统构成中的随机策略的相互熵。在图20中，横轴是学习更新步数，纵轴是熵的平均值。在学习进行步数超过10万次之后，熵的平均值收敛在－0.05至－0.09左右的范围内。

另外，虽然通过学习曲线能够掌握作为学习过程的进展，但实际的设备变更计划方案需要用由该学习过程获得的策略函数生成。为此，能够设定如下选择基准：计算1000个计划方案及其各个方案的累计回报值，从其序列之中提取作为选择策略能够实现累计回报值的最小值的计划方案、或者从最小值累计回报值中提取上位三件等。

另外，信息处理装置1在基于策略制作计划方案时，基于策略函数，产生研究期间量的计划变更方案，与累计回报值相关联地进行管理(例如Plan_k：{At～π(·|S_t)}_t→G_k)。

图21是表示所生成的计划方案中累计成本成为最小的具体的计划方案的图。各行为单独的设备节点，各列表示变更定时(例如，每一周)。在图21中，另外，“朝右的箭头”表示什么都不做，“撤去”表示设备的废弃或者撤去，“新设”表示设备的追加。

在图21中，示出了从初始状态0至29更新机会(29周)为止的一系列的每个设备的行动序列。作为初始状态，表示有9个设备的节点随着序列前进而删除、追加这样的变更序列。如图21所示的例子那样，通过也提示每个定时的系统整体的成本，使得使用者容易理解该累计值比其他计划方案的累计值小的情况。

图22是表示在显示装置3上显示的图像例的图。

附图标记g401的图像是用元图表示评价对象系统的图像例。附图标记g402的图像是对应实际系统的电路图的图像。附图标记g403的图像是用神经网络结构表示评价对象系统的图像例。附图标记g404的图像是表示累计成本中的成本低廉的上位三位的计划的图像例。附图标记g405的图像是表示累计最小成本为第一位的具体的设备变更计划图像例(例如，图21)。

这样，在实施方式中，从样本计划集合中提取满足条件且分数好的样本(成本低廉的样本)。另外，提取的件数也可以如图22那样选择上位多件来进行显示。另外，作为计划方案，按每个样本对设备变更方案进行序列显示。

这样，信息处理装置1使系统的元图显示、计划方案显示于显示装置3(图1)上。信息处理装置1也可以从样本计划集合中提取满足条件且分数好的样本，选择上位多件来进行显示。信息处理装置1也可以按每个样本序列显示设备变更方案作为计划方案。信息处理装置1根据使用者操作操作部14的操作结果来显示从问题设定到环境的设定、学习函数的设定、基于学习的策略函数的获得、使用了所获得的策略函数的推论、即设备变更计划方案的制定这些状况。另外，所显示的图像也可以是图、表等的图像。

使用者通过确认所显示的计划方案、成本等的图像或图(graph)等，能够采用与环境、状况相应的最佳的计划方案。

接下来，对平均化、参数变更等的提取过滤器进行说明。信息处理装置1在最佳计划提取中，也可以使用平均化、参数变更等的提取过滤器。

第一提取例是从该集合M中，由满足平均化的设定水平的方案作为计划方案。第二提取例是变更成本函数的系数而制作计划方案。在第二提取例中，例如，进行系数依赖性的评价等。第三提取例改变各设备的初始状态而制作计划方案。在第三提取例中，例如进行初始状态依赖性(研究期间初始的经年履历等)评价。

根据以上说明的至少一个的实施方式，通过具有卷积函数管理功能部、元图结构序列管理功能部、神经网络管理功能部以及强化学习部，能够制作社会基础设施的变更方案。

另外，根据以上说明的至少一个的实施方式，使用在系统中连接有候选节点的神经网络，利用并行处理来评价所连接的节点与候选节点的组合，从而能够进行更高速的处理。

另外，根据以上说明的至少一个的实施方式，由于在显示装置3提示分数好的计划方案，因此使用者容易研究计划方案。

另外，神经网络生成装置100、信息处理装置1的功能部例如通过CPU(CentralProcessing Unit，中央处理器)等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或者全部可以通过LSI(Large Scale Integration，大规模集成电路)、ASIC(Application Specific Integrated Circuit，应用型专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、GPU(Graphics Processing Unit，图形处理器)等硬件(电路部；包括电路系统(circuitry))来实现，也可以通过软件与硬件的协作来实现。程序可以预先储存于HDD(Hard Disk Drive，硬盘驱动器)、闪存等存储装置，也可以通过储存于DVD、CD－ROM等能够装卸的存储介质并将存储介质安装于驱动装置来安装。

虽然对本发明的几个实施方式进行了说明，但这些实施方式是作为例子而提出的，并不意图限定发明的范围。这些实施方式能够由其他各种方式来实施，在不脱离发明的主旨的范围内，能够进行各种省略、替换、变更。这些实施方式、其变形包含在发明的范围、主旨内，同样包含在权利要求书所记载的发明及其等效的范围内。

Claims

1.一种信息处理装置，具备：

定义部，将属性与节点和边缘建立对应而进行定义，基于表示系统的结构的图结构的数据，定义与表示所述图结构的数据的模型相关的卷积函数；

评价部，对所述模型输入所述系统的状态，针对使所述模型按每个时间步长产生可设想的结构变化后的一个以上的变更后模型的体系，按每个所述时间步长求出作为所述结构变化的概率分布而给出的策略函数与强化学习所需的状态价值函数，并基于所述策略函数评价所述系统的结构变化；以及

强化学习部，通过使用在将所述结构变化应用于所述系统的情况下所产生的成本即回报值、所述状态价值函数、以及所述模型来进行强化学习，从而使所述系统的结构变化优化。

2.如权利要求1所述的信息处理装置，

所述定义部定义与所述系统所具有的设备的设备种类相应的卷积函数。

3.如权利要求1所述的信息处理装置，

所述强化学习部将进行所述强化学习的结果获得的所述卷积函数的系数即参数输出至所述定义部，

所述定义部基于所述强化学习部输出的所述参数，更新所述卷积函数的参数，

所述评价部将更新后的所述参数反映在所述模型中，并对反映了所述参数的所述模型进行评价。

4.如权利要求1所述的信息处理装置，

所述定义部在所述系统中将所述结构变化的候选作为候选节点编入所述图结构，将所述候选节点构成为单向连接的所述卷积函数，

所述评价部使用所述单向连接的所述卷积函数构成所述模型。

5.如权利要求4所述的信息处理装置，

所述评价部使用在所述图结构中连接有所述候选节点的所述模型，通过并行处理对连接有所述候选节点的节点与所述候选节点的每个组合的所述模型进行评价。

6.如权利要求1所述的信息处理装置，

所述信息处理装置还具备提示部，该提示部将所述评价部所评价的所述系统的结构变化和与所述系统的结构变化相关的成本一起提示。

7.一种信息处理方法，使计算机执行如下步骤：

将属性与节点和边缘建立对应而进行定义，基于表示系统的结构的图结构的数据，定义与表示所述图结构的数据的模型相关的卷积函数；

对所述模型输入所述系统的状态，针对使所述模型按每个时间步长产生可设想的结构变化后的一个以上的变更后模型的体系，按每个所述时间步长求出作为所述结构变化的概率分布而给出的策略函数与强化学习所需的状态价值函数，并基于所述策略函数评价所述系统的结构变化；

通过使用在将所述结构变化应用于所述系统的情况下所产生的成本即回报值、所述状态价值函数、以及所述模型来进行强化学习，从而使所述系统的结构变化优化。

8.一种程序，使计算机执行如下步骤：