JP7187961B2 - Reinforcement learning program, reinforcement learning method, and reinforcement learning device - Google Patents

Reinforcement learning program, reinforcement learning method, and reinforcement learning device Download PDF

Info

Publication number
JP7187961B2
JP7187961B2 JP2018193537A JP2018193537A JP7187961B2 JP 7187961 B2 JP7187961 B2 JP 7187961B2 JP 2018193537 A JP2018193537 A JP 2018193537A JP 2018193537 A JP2018193537 A JP 2018193537A JP 7187961 B2 JP7187961 B2 JP 7187961B2
Authority
JP
Japan
Prior art keywords
generator
reinforcement learning
regions
effectiveness
learning device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018193537A
Other languages
Japanese (ja)
Other versions
JP2020061909A (en
Inventor
利雄 伊東
亮 落谷
仁史 屋並
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018193537A priority Critical patent/JP7187961B2/en
Publication of JP2020061909A publication Critical patent/JP2020061909A/en
Application granted granted Critical
Publication of JP7187961B2 publication Critical patent/JP7187961B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Control Of Eletrric Generators (AREA)

Description

本発明は、強化学習プログラム、強化学習方法、および強化学習装置に関する。 The present invention relates to a reinforcement learning program, a reinforcement learning method, and a reinforcement learning device.

従来、自然エネルギーを利用する1以上の発電機を含む発電システムを、強化学習により制御することがある。強化学習では、例えば、発電機に関する状態値が取りうる領域ごとに、発電機に対する指令値の有効性を示す有効値を対応付けて表すテーブルが利用される。テーブルは、例えば、Qテーブルである。強化学習では、例えば、指令値についての有効値を推定する学習が繰り返し行われ、テーブルが更新される。 Conventionally, a power generation system including one or more power generators using natural energy may be controlled by reinforcement learning. Reinforcement learning uses, for example, a table that associates an effective value indicating the effectiveness of a command value for a generator with each possible state value of the generator. The table is, for example, a Q table. In reinforcement learning, for example, learning for estimating effective values for command values is repeatedly performed, and the table is updated.

特表2016-517104号公報Japanese translation of PCT publication No. 2016-517104

しかしながら、従来技術では、強化学習における処理量の増大化を招くことがある。例えば、発電機に関する状態値が取りうる領域の数が増加するほど、指令値についての有効値を推定する学習が行われる回数が増加してしまい、強化学習における処理量の増大化を招く。 However, the conventional technology may lead to an increase in the amount of processing in reinforcement learning. For example, as the number of regions that the state value of the generator can take increases, the number of times learning for estimating the effective value of the command value increases, resulting in an increase in the amount of processing in reinforcement learning.

1つの側面では、本発明は、強化学習における処理量の低減化を図ることを目的とする。 In one aspect, an object of the present invention is to reduce the amount of processing in reinforcement learning.

1つの実施態様によれば、発電機に関する状態値が取りうる複数の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を利用して学習を行い、需要電力が所定の閾値以下である場合、観測した前記発電機に関する出力電圧を含む状態値を参照し、前記発電機に関する状態値についての特性関数に基づいて、前記複数の領域のうち連続する2以上の領域を結合した領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を生成し、生成した前記結合した領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う強化学習プログラム、強化学習方法、および強化学習装置が提案される。 According to one embodiment, learning is performed using effectiveness information indicating the effectiveness of each command value for the generator in each of a plurality of areas that the state value related to the generator can take, and the power demand is If it is equal to or less than a predetermined threshold , referring to the state value including the observed output voltage of the generator, based on a characteristic function of the state value of the generator, two or more consecutive regions among the plurality of regions and generate validity information indicating the effectiveness of each command value for the generator in the area where the A reinforcement learning program, a reinforcement learning method, and a reinforcement learning device that perform learning using effectiveness information for each area are proposed.

一態様によれば、強化学習における処理量の低減化を図ることが可能になる。 According to one aspect, it is possible to reduce the amount of processing in reinforcement learning.

図1は、実施の形態にかかる強化学習方法の一実施例を示す説明図である。FIG. 1 is an explanatory diagram of an example of a reinforcement learning method according to an embodiment. 図2は、発電システム200の一例を示す説明図である。FIG. 2 is an explanatory diagram showing an example of the power generation system 200. As shown in FIG. 図3は、強化学習装置100のハードウェア構成例を示すブロック図である。FIG. 3 is a block diagram showing a hardware configuration example of the reinforcement learning device 100. As shown in FIG. 図4は、強化学習装置100の機能的構成例を示すブロック図である。FIG. 4 is a block diagram showing a functional configuration example of the reinforcement learning device 100. As shown in FIG. 図5は、風力発電機を含む発電システム200の具体的構成例を示す説明図である。FIG. 5 is an explanatory diagram showing a specific configuration example of a power generation system 200 including a wind power generator. 図6は、ストール制御の風力発電機の状態値が取りうる通常区間と粗分割区間を示す説明図である。FIG. 6 is an explanatory diagram showing normal intervals and roughly divided intervals that the state values of the wind power generator under stall control can take. 図7は、ピッチ制御の風力発電機の状態値が取りうる通常区間と粗分割区間を示す説明図である。FIG. 7 is an explanatory diagram showing normal intervals and roughly divided intervals that the state values of the pitch-controlled wind power generator can take. 図8は、通常テーブル801と粗分割テーブル802とを実現する一例を示す説明図である。FIG. 8 is an explanatory diagram showing an example of realizing the normal table 801 and the rough division table 802. As shown in FIG. 図9は、通常テーブル801の記憶内容の一例を示す説明図である。FIG. 9 is an explanatory diagram showing an example of the contents stored in the normal table 801. As shown in FIG. 図10は、特性関数を作成する一例を示す説明図である。FIG. 10 is an explanatory diagram showing an example of creating a characteristic function. 図11は、利用するテーブルを粗分割テーブル802に切り替える一例を示す説明図である。FIG. 11 is an explanatory diagram showing an example of switching the table to be used to the rough division table 802. As shown in FIG. 図12は、利用するテーブルを通常テーブル801に切り替える一例を示す説明図である。FIG. 12 is an explanatory diagram showing an example of switching the table to be used to the normal table 801. As shown in FIG. 図13は、有効値を更新する一例を示す説明図である。FIG. 13 is an explanatory diagram of an example of updating valid values. 図14は、火力発電機を含む発電システム200の具体的構成例を示す説明図である。FIG. 14 is an explanatory diagram showing a specific configuration example of a power generation system 200 including a thermal power generator. 図15は、火力発電機に関する通常テーブル801の記憶内容の一例を示す説明図である。FIG. 15 is an explanatory diagram showing an example of the contents of the normal table 801 regarding thermal power generators. 図16は、全体処理手順の一例を示すフローチャートである。FIG. 16 is a flow chart showing an example of the overall processing procedure. 図17は、切替判定処理手順の一例を示すフローチャートである。FIG. 17 is a flowchart illustrating an example of a switching determination processing procedure; 図18は、値設定処理手順の一例を示すフローチャートである。FIG. 18 is a flowchart illustrating an example of a value setting procedure. 図19は、ストール制御の風力発電機についての特性関数作成処理手順の一例を示すフローチャートである。FIG. 19 is a flow chart showing an example of a characteristic function creation processing procedure for a stall control wind power generator. 図20は、ピッチ制御の風力発電機についての特性関数作成処理手順の一例を示すフローチャートである。FIG. 20 is a flowchart showing an example of a characteristic function creation processing procedure for a pitch-controlled wind power generator.

以下に、図面を参照して、本発明にかかる強化学習プログラム、強化学習方法、および強化学習装置の実施の形態を詳細に説明する。 Hereinafter, embodiments of a reinforcement learning program, a reinforcement learning method, and a reinforcement learning apparatus according to the present invention will be described in detail with reference to the drawings.

(実施の形態にかかる強化学習方法の一実施例)
図1は、実施の形態にかかる強化学習方法の一実施例を示す説明図である。強化学習装置100は、1以上の発電機を含む発電システムに強化学習を適用し、1以上の発電機を含む発電システムを制御するコンピュータである。発電機は、例えば、風力発電機、または、火力発電機などである。
(One Example of Reinforcement Learning Method According to Embodiment)
FIG. 1 is an explanatory diagram of an example of a reinforcement learning method according to an embodiment. The reinforcement learning device 100 is a computer that applies reinforcement learning to a power generation system including one or more generators and controls the power generation system including one or more generators. The power generator is, for example, a wind power generator or a thermal power generator.

強化学習では、例えば、1以上の発電機に関する状態値の組み合わせが取りうる複数の領域のそれぞれの領域における、1以上の発電機に対する指令値の組み合わせごとの有効性を示す有効値を対応付けて表すテーブルが利用される。テーブルは、例えば、Qテーブルである。強化学習では、例えば、発電機に関する状態値を観測し、発電機に対する指令値を決定し、決定した指令値を発電機に入力し、観測した状態値を含む領域における、入力した指令値の有効性を示す有効値を推定する学習が繰り返し行われ、テーブルが更新される。強化学習は、例えば、Q学習やSARSAなどにより実現される。 In reinforcement learning, for example, an effective value indicating the effectiveness of each combination of command values for one or more generators in each of a plurality of regions that can be taken by a combination of state values for one or more generators is associated. A table is used that represents The table is, for example, a Q table. In reinforcement learning, for example, the state value of a generator is observed, the command value for the generator is determined, the determined command value is input to the generator, and the validity of the input command value in the region containing the observed state value is determined. Learning for estimating effective values that indicate sex is repeatedly performed, and the table is updated. Reinforcement learning is implemented by, for example, Q-learning, SARSA, or the like.

ここで、強化学習における処理量の増大化を招いてしまう場合が考えられる。例えば、1以上の発電機に関する状態値の組み合わせが取りうる領域の数が増加するほど、学習が行われる回数が増加してしまい、強化学習における処理量の増大化を招く。具体的には、状態値を細かく分割して領域を設定すると、領域の数が増加してしまう。また、具体的には、発電機の数が増加すると、領域の数が増加してしまう。このため、強化学習における処理量の低減化を図ることが望まれる。 Here, it is conceivable that an increase in the amount of processing in reinforcement learning may be caused. For example, as the number of regions that can be taken by combinations of state values relating to one or more generators increases, the number of times learning is performed increases, leading to an increase in the amount of processing in reinforcement learning. Specifically, if the state values are finely divided and the regions are set, the number of regions increases. Also, specifically, when the number of generators increases, the number of regions increases. Therefore, it is desired to reduce the amount of processing in reinforcement learning.

これに対し、領域の数を減少させ、強化学習における処理量の低減化を図ることが考えられる。例えば、状態値を粗く分割して領域を設定し、領域の数を減少させ、強化学習における処理量の低減化を図ることが考えられる。しかしながら、常時、粗く分割された領域を用いると、どのような状態値の場合にどのような指令値を出力することが好ましいかを詳細に検証することができず、発電システムに対して適切な制御を行うことができないことがある。適切な制御は、例えば、所定の閾値を超えない範囲で、発電システムの発電量の最大化を図る制御である。 On the other hand, it is conceivable to reduce the number of regions and reduce the amount of processing in reinforcement learning. For example, it is conceivable to set regions by roughly dividing the state values, reduce the number of regions, and reduce the amount of processing in reinforcement learning. However, if a roughly divided region is always used, it is not possible to verify in detail what kind of command value should be output under what kind of state value. You may not be able to exercise control. Appropriate control is, for example, control that maximizes the power generation amount of the power generation system within a range that does not exceed a predetermined threshold.

したがって、領域の数を動的に変更することにより、強化学習における処理量の低減化を図ることが考えられる。例えば、何らかのタイミングで、2以上の領域を結合し、領域の数を減少させることが考えられる。しかしながら、2以上の領域を結合した領域における、1以上の発電機に対する指令値の組み合わせごとの有効性を示す有効値を、どのように設定することが好ましいかが分からなければ、発電システムに対して適切な制御を行うことが難しくなる。 Therefore, it is conceivable to reduce the amount of processing in reinforcement learning by dynamically changing the number of regions. For example, at some timing, two or more regions may be combined to reduce the number of regions. However, if it is not known how to preferably set the effective value indicating the effectiveness of each combination of command values for one or more generators in a region combining two or more regions, the power generation system It becomes difficult to perform appropriate control by

そこで、本実施の形態では、強化学習において、1以上の発電機に関する状態値の組み合わせが取りうる領域の数を動的に変更可能にし、領域の数を動的に変更したことに応じて適切と判断される有効値を設定し直すことができる強化学習方法について説明する。かかる強化学習方法によれば、強化学習における処理量の低減化を図ることができる。 Therefore, in this embodiment, in reinforcement learning, the number of regions that can be taken by a combination of state values related to one or more generators can be dynamically changed, and an appropriate A reinforcement learning method capable of resetting effective values determined to be will be described. According to this reinforcement learning method, it is possible to reduce the amount of processing in reinforcement learning.

図1の例では、発電システムに含まれる発電機は1つである。発電機に関する状態値は、例えば、発電機からの出力電力、および、発電機に対する自然エネルギーの供給量に関する環境値などである。環境値は、例えば、風速や燃料使用量などである。発電機に対する指令値は、例えば、発電機の電源のONとOFFとを切り替える指令値である。発電機に対する指令値は、例えば、発電機における自然エネルギーの利用効率を変更する指令値である。 In the example of FIG. 1, there is one generator included in the power generation system. The state values related to the generator are, for example, the output power from the generator and the environment value related to the amount of natural energy supplied to the generator. Environmental values are, for example, wind speed and fuel consumption. The command value for the generator is, for example, a command value for switching ON and OFF of the power supply of the generator. The command value for the generator is, for example, a command value that changes the utilization efficiency of natural energy in the generator.

図1において、強化学習装置100は、発電機に関する状態値が取りうる複数の領域のそれぞれの領域における発電機に対する指令値ごとの有効性を示す有効性情報を利用して学習を行う。領域は、例えば、区間または区間の組み合わせである。有効性情報は、例えば、Qテーブルのレコードである。有効値は、例えば、Q値である。強化学習装置100は、例えば、区間A1に有効値G1を対応付けた有効性情報と、区間A2に有効値G2を対応付けた有効性情報と、区間A3に有効値G3を対応付けた有効性情報とを含むQテーブルを利用して学習を行う。強化学習装置100は、学習を行った結果、Qテーブルを更新する。 In FIG. 1, the reinforcement learning device 100 performs learning using effectiveness information indicating the effectiveness of each command value for the generator in each of a plurality of areas in which the state value of the generator can take. A region is, for example, an interval or a combination of intervals. Validity information is, for example, a record of the Q table. A valid value is, for example, the Q value. For example, the reinforcement learning device 100 stores validity information in which the effective value G1 is associated with the section A1, validity information in which the effective value G2 is associated with the section A2, and validity information in which the effective value G3 is associated with the section A3. Learning is performed using a Q-table containing information. The reinforcement learning device 100 updates the Q table as a result of learning.

強化学習装置100は、複数の領域のうち連続する2以上の領域を結合した領域における発電機に対する指令値ごとの有効性を示す有効性情報を生成する。強化学習装置100は、例えば、観測した発電機に関する状態値を参照し、発電機に関する状態値についての特性関数に基づいて、結合した領域についての有効性情報を生成する。強化学習装置100は、具体的には、区間A2と区間A3とを結合した区間Aaにおける、指令値の有効性を示す有効値Gaを算出し、区間Aaに有効値Gaを対応付けた有効性情報を生成する。そして、強化学習装置100は、区間A2に有効値G2を対応付けた有効性情報と、区間A3に有効値G3を対応付けた有効性情報とを、区間Aaに有効値Gaを対応付けた有効性情報に置き換えて、Qテーブルを更新する。 The reinforcement learning device 100 generates effectiveness information indicating the effectiveness of each command value for the generator in a region obtained by combining two or more consecutive regions among a plurality of regions. For example, the reinforcement learning device 100 refers to the observed state values of the generators and generates effectiveness information of the combined regions based on the characteristic function of the state values of the generators. Specifically, the reinforcement learning device 100 calculates an effective value Ga that indicates the effectiveness of the command value in the section Aa that combines the sections A2 and A3, and calculates the validity that the effective value Ga is associated with the section Aa. Generate information. Then, the reinforcement learning device 100 sets the validity information in which the effective value G2 is associated with the section A2, the validity information in which the effective value G3 is associated with the section A3, and the validity information in which the effective value Ga is associated with the section Aa. The Q table is updated by replacing it with the quality information.

強化学習装置100は、結合した領域についての有効性情報、および、複数の領域のうち2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う。強化学習装置100は、例えば、区間A1に有効値G1を対応付けた有効性情報、および、区間A2と区間A3とを結合した区間Aaに有効値Gaを対応付けた有効性情報を含むQテーブルを利用して学習を行う。強化学習装置100は、学習を行った結果、Qテーブルを更新する。 The reinforcement learning device 100 performs learning using effectiveness information about the combined regions and effectiveness information about each region other than two or more regions among the plurality of regions. The reinforcement learning device 100 includes, for example, a Q table containing validity information in which the effective value G1 is associated with the section A1, and effectiveness information in which the section Aa, which is a combination of the sections A2 and A3, is associated with the effective value Ga. use to learn. The reinforcement learning device 100 updates the Q table as a result of learning.

これにより、強化学習装置100は、2以上の領域を結合し、有効性情報を対応付けておく領域の数を動的に減少させることができる。このため、強化学習装置100は、学習を行って更新する対象である有効性情報の数を減少させ、強化学習にかかる処理量の低減化を図ることができる。また、強化学習装置100は、有効性情報を生成する際、有効値を0で初期化したり、有効値をランダムに設定したりはせずに、特性関数に基づいて有効値を設定することができる。このため、強化学習装置100は、生成する有効性情報が、発電機に対する指令値ごとの有効性を精度よく示すようにすることができ、発電システムに対して適切な制御を行いやすくすることができる。 As a result, the reinforcement learning device 100 can combine two or more regions and dynamically reduce the number of regions associated with effectiveness information. Therefore, the reinforcement learning device 100 can reduce the number of pieces of effectiveness information to be updated by learning, and reduce the amount of processing required for reinforcement learning. Further, when generating validity information, the reinforcement learning device 100 can set the valid value based on the characteristic function without initializing the valid value to 0 or setting the valid value randomly. can. For this reason, the reinforcement learning device 100 can make the generated effectiveness information accurately indicate the effectiveness of each command value for the power generator, thereby facilitating appropriate control of the power generation system. can.

ここでは、何らかのタイミングで、2以上の領域のそれぞれの領域についての有効性情報を、2以上の領域を結合した領域についての有効性情報に置き換えて、有効性情報を対応付けておく領域の数を動的に減少させる場合について説明したが、これに限らない。例えば、何らかのタイミングで、2以上の領域を結合した領域についての有効性情報を、2以上の領域のそれぞれの領域についての有効性情報に置き換えて、領域の数を動的に増加させる場合があってもよい。これにより、強化学習装置100は、どのような状態値の場合にどのような指令値を出力することが好ましいかを細分化して実行することができる。2以上の領域を結合した領域についての有効性情報を、2以上の領域のそれぞれの領域についての有効性情報に置き換える場合については、具体的には、図12を用いて後述する。 Here, at some timing, the validity information about each of the two or more regions is replaced with the validity information about the combined region of the two or more regions, and the number of regions with which the validity information is associated Although the case where is dynamically decreased has been described, the present invention is not limited to this. For example, at some point in time, validity information about a combined area of two or more areas may be replaced with validity information about each of the two or more areas to dynamically increase the number of areas. may As a result, the reinforcement learning device 100 can subdivide which command value should be output for which state value. A case of replacing validity information about a combined area of two or more areas with validity information about each of the two or more areas will be specifically described later with reference to FIG. 12 .

ここでは、発電システムに含まれる発電機が1つである場合について説明したが、これに限らない。例えば、発電システムに含まれる発電機が複数ある場合があってもよい。この場合、例えば、強化学習装置100は、発電機の状態値の組み合わせが取りうる複数の領域のうち連続する2以上の領域を結合した領域についての有効性情報を生成する。そして、強化学習装置100は、2以上の領域のそれぞれの領域についての有効性情報を、結合した領域についての有効性情報に置き換え、有効性情報を対応付けておく領域の数を動的に減少させる。これにより、強化学習装置100は、強化学習にかかる処理量の低減化を図ることができる。発電システムに含まれる発電機が複数ある場合については、図11および図12を用いて後述する。 Although the case where the number of generators included in the power generation system is one has been described here, the present invention is not limited to this. For example, there may be multiple generators included in the power generation system. In this case, for example, the reinforcement learning device 100 generates effectiveness information about a region obtained by combining two or more continuous regions among a plurality of regions that can be taken by combinations of state values of generators. Then, the reinforcement learning device 100 replaces the effectiveness information about each of the two or more areas with the effectiveness information about the combined area, and dynamically reduces the number of areas with which the effectiveness information is associated. Let As a result, the reinforcement learning device 100 can reduce the amount of processing required for reinforcement learning. A case where there are a plurality of generators included in the power generation system will be described later with reference to FIGS. 11 and 12. FIG.

ここでは、発電システムに含まれる発電機の種類を特定せずに、強化学習装置100について説明した。これに対し、例えば、発電システムに含まれる発電機が、風力発電機である場合があってもよい。発電システムに含まれる発電機が、風力発電機である場合については、具体的には、図11および図12を用いて後述する。また、例えば、発電システムに含まれる発電機が、火力発電機である場合があってもよい。発電システムに含まれる発電機が、火力発電機である場合については、具体的には、図15を用いて後述する。また、例えば、発電システムが、風力発電機と火力発電機との両方を含む場合があってもよい。 Here, the reinforcement learning device 100 has been described without specifying the type of generator included in the power generation system. On the other hand, for example, the generators included in the power generation system may be wind power generators. A case where the power generator included in the power generation system is a wind power generator will be specifically described later with reference to FIGS. 11 and 12. FIG. Further, for example, the power generator included in the power generation system may be a thermal power generator. A case where the power generator included in the power generation system is a thermal power generator will be specifically described later using FIG. 15 . Also, for example, the power generation system may include both wind power generators and thermal power generators.

ここでは、2以上の領域を結合した領域についての有効性情報を生成するタイミングを限定せずに、強化学習装置100について説明した。これに対し、例えば、強化学習装置100が、観測した需要電力が閾値以下である場合に、結合した領域についての有効性情報を生成する場合があってもよい。また、例えば、強化学習装置100が、観測した需要電力が閾値を超える場合に、結合した領域についての有効性情報を生成する場合があってもよい。 Here, the reinforcement learning device 100 has been described without limiting the timing of generating validity information for a region obtained by combining two or more regions. On the other hand, for example, when the observed power demand is equal to or less than the threshold, the reinforcement learning device 100 may generate effectiveness information about the combined region. Further, for example, the reinforcement learning device 100 may generate effectiveness information about the combined region when the observed power demand exceeds the threshold.

(発電システム200の一例)
次に、図2を用いて、図1に示した強化学習装置100を適用した、発電システム200の一例について説明する。
(Example of power generation system 200)
Next, an example of a power generation system 200 to which the reinforcement learning device 100 shown in FIG. 1 is applied will be described using FIG.

図2は、発電システム200の一例を示す説明図である。図2において、発電システム200は、強化学習装置100と、1以上の発電機201とを含む。 FIG. 2 is an explanatory diagram showing an example of the power generation system 200. As shown in FIG. In FIG. 2 , a power generation system 200 includes a reinforcement learning device 100 and one or more generators 201 .

発電システム200において、強化学習装置100と1以上の発電機201は、有線または無線のネットワーク210を介して接続される。ネットワーク210は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどである。 In the power generation system 200 , the reinforcement learning device 100 and one or more power generators 201 are connected via a wired or wireless network 210 . The network 210 is, for example, a LAN (Local Area Network), a WAN (Wide Area Network), the Internet, or the like.

発電機201は、例えば、風力エネルギーを利用し、風車を用いて発電を行う機械である。発電機201は、例えば、風車から伝達される風車トルクを用いて発電を行う。発電機201は、発電機201に関する状態値を観測する計測機が設けられる。計測機は、例えば、センサ装置を有する。センサ装置は、加速度センサ、地磁気センサ、光センサ、振動センサ、電力センサ、電圧センサ、および、電流センサなどの少なくともいずれかを有してもよい。発電機201は、例えば、火力エネルギーを利用し、タービンを用いて発電を行う機械であってもよい。 The power generator 201 is, for example, a machine that uses wind energy to generate power using a wind turbine. The generator 201 generates power using, for example, wind turbine torque transmitted from the wind turbine. The generator 201 is provided with a measuring device that observes state values relating to the generator 201 . The measuring machine has, for example, a sensor device. The sensor device may have at least one of an acceleration sensor, a geomagnetic sensor, an optical sensor, a vibration sensor, a power sensor, a voltage sensor, a current sensor, and the like. The power generator 201 may be, for example, a machine that uses thermal energy to generate power using a turbine.

強化学習装置100は、発電システム200に強化学習を適用し、発電システム200を制御する。強化学習装置100は、例えば、発電システム200に含まれる1以上の発電機201に対する指令値を制御する。強化学習装置100は、具体的には、発電機201に設けられた計測機から、発電機201に関する状態値を取得する。強化学習装置100は、取得した状態値と、有効性情報を含むテーブルとに基づいて、発電機201に対する指令値を決定して出力する。強化学習装置100は、指令値を出力した結果に応じて、テーブルを更新する。強化学習装置100は、例えば、サーバ、PC(Personal Computer)、マイコン、PLC(Programmable Logic Controller)などである。 The reinforcement learning device 100 applies reinforcement learning to the power generation system 200 and controls the power generation system 200 . The reinforcement learning device 100 controls command values for one or more generators 201 included in the power generation system 200, for example. Specifically, the reinforcement learning device 100 acquires a state value related to the generator 201 from a measuring device provided in the generator 201 . Reinforcement learning device 100 determines and outputs a command value for generator 201 based on the acquired state value and a table containing validity information. Reinforcement learning device 100 updates the table according to the result of outputting the command value. The reinforcement learning device 100 is, for example, a server, a PC (Personal Computer), a microcomputer, a PLC (Programmable Logic Controller), or the like.

(強化学習装置100のハードウェア構成例)
次に、図3を用いて、強化学習装置100のハードウェア構成例について説明する。
(Hardware configuration example of reinforcement learning device 100)
Next, a hardware configuration example of the reinforcement learning device 100 will be described with reference to FIG.

図3は、強化学習装置100のハードウェア構成例を示すブロック図である。図3において、強化学習装置100は、CPU(Central Processing Unit)301と、メモリ302と、ネットワークI/F(Interface)303と、記録媒体I/F304と、記録媒体305とを有する。また、各構成部は、バス300によってそれぞれ接続される。 FIG. 3 is a block diagram showing a hardware configuration example of the reinforcement learning device 100. As shown in FIG. In FIG. 3 , the reinforcement learning device 100 has a CPU (Central Processing Unit) 301 , a memory 302 , a network I/F (Interface) 303 , a recording medium I/F 304 and a recording medium 305 . Also, each component is connected by a bus 300 .

ここで、CPU301は、強化学習装置100の全体の制御を司る。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることで、コーディングされている処理をCPU301に実行させる。 Here, the CPU 301 controls the entire reinforcement learning device 100 . The memory 302 has, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), a flash ROM, and the like. Specifically, for example, a flash ROM or ROM stores various programs, and a RAM is used as a work area for the CPU 301 . A program stored in the memory 302 is loaded into the CPU 301 to cause the CPU 301 to execute coded processing.

ネットワークI/F303は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータに接続される。他のコンピュータは、例えば、発電機201である。そして、ネットワークI/F303は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークI/F303には、例えば、モデムやLANアダプタなどを採用することができる。 Network I/F 303 is connected to network 210 through a communication line, and is connected to other computers via network 210 . Another computer is, for example, the generator 201 . A network I/F 303 serves as an internal interface with the network 210 and controls input/output of data from other computers. For the network I/F 303, for example, a modem, LAN adapter, etc. can be adopted.

記録媒体I/F304は、CPU301の制御にしたがって記録媒体305に対するデータのリード/ライトを制御する。記録媒体I/F304は、例えば、ディスクドライブ、SSD(Solid State Drive)、USB(Universal Serial Bus)ポートなどである。記録媒体305は、記録媒体I/F304の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体305は、例えば、ディスク、半導体メモリ、USBメモリなどである。記録媒体305は、強化学習装置100から着脱可能であってもよい。 A recording medium I/F 304 controls reading/writing of data from/to the recording medium 305 under the control of the CPU 301 . The recording medium I/F 304 is, for example, a disk drive, an SSD (Solid State Drive), a USB (Universal Serial Bus) port, or the like. A recording medium 305 is a nonvolatile memory that stores data written under control of the recording medium I/F 304 . The recording medium 305 is, for example, a disk, a semiconductor memory, a USB memory, or the like. The recording medium 305 may be removable from the reinforcement learning device 100 .

強化学習装置100は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、強化学習装置100は、記録媒体I/F304や記録媒体305を複数有していてもよい。また、強化学習装置100は、記録媒体I/F304や記録媒体305を有していなくてもよい。 The reinforcement learning device 100 may have, for example, a keyboard, mouse, display, printer, scanner, microphone, speaker, etc., in addition to the components described above. Also, the reinforcement learning device 100 may have a plurality of recording medium I/Fs 304 and recording media 305 . Also, the reinforcement learning device 100 may not have the recording medium I/F 304 and the recording medium 305 .

(強化学習装置100の機能的構成例)
次に、図4を用いて、強化学習装置100の機能的構成例について説明する。
(Example of functional configuration of reinforcement learning device 100)
Next, a functional configuration example of the reinforcement learning device 100 will be described with reference to FIG.

図4は、強化学習装置100の機能的構成例を示すブロック図である。強化学習装置100は、記憶部400と、取得部401と、切替部402と、学習部403と、出力部404とを含む。 FIG. 4 is a block diagram showing a functional configuration example of the reinforcement learning device 100. As shown in FIG. Reinforcement learning device 100 includes storage unit 400 , acquisition unit 401 , switching unit 402 , learning unit 403 , and output unit 404 .

記憶部400は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域によって実現される。以下では、記憶部400が、強化学習装置100に含まれる場合について説明するが、これに限らない。例えば、記憶部400が、強化学習装置100とは異なる装置に含まれ、記憶部400の記憶内容が強化学習装置100から参照可能である場合があってもよい。 The storage unit 400 is implemented by, for example, a storage area such as the memory 302 or recording medium 305 shown in FIG. Although a case where the storage unit 400 is included in the reinforcement learning device 100 will be described below, the present invention is not limited to this. For example, the storage unit 400 may be included in a device different from the reinforcement learning device 100 and the storage contents of the storage unit 400 may be referenced from the reinforcement learning device 100 .

取得部401~出力部404は、制御部の一例として機能する。取得部401~出力部404は、具体的には、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶されたプログラムをCPU301に実行させることにより、または、ネットワークI/F303により、その機能を実現する。各機能部の処理結果は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶される。 Acquisition unit 401 to output unit 404 function as an example of a control unit. Specifically, for example, the acquisition unit 401 to the output unit 404 cause the CPU 301 to execute a program stored in a storage area such as the memory 302 or the recording medium 305 shown in FIG. to realize its function. The processing result of each functional unit is stored in a storage area such as the memory 302 or recording medium 305 shown in FIG. 3, for example.

記憶部400は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部400は、発電システム200に関する状態値を記憶する。発電システム200に関する状態値は、例えば、発電システム200に含まれる1以上の発電機201のそれぞれの発電機201に関する状態値、および、発電システム200全体に関する状態値を含む。発電機201は、例えば、風力発電機または火力発電機などである。発電機201に関する状態値は、例えば、ストール制御の風力発電機に関する出力ワット値および風速と、ピッチ制御の風力発電機に関する出力ワット値および風速とである。発電機201に関する状態値は、例えば、火力発電機に関する出力ワット値および燃料使用量である。また、発電システム200全体に関する状態値は、例えば、発電システム200全体における需要電力である。 The storage unit 400 stores various information that is referred to or updated in the processing of each functional unit. The storage unit 400 stores state values regarding the power generation system 200 . The state values regarding the power generation system 200 include, for example, a state value regarding each power generator 201 of the one or more power generators 201 included in the power generation system 200 and a state value regarding the power generation system 200 as a whole. The power generator 201 is, for example, a wind power generator or a thermal power generator. The state values for the generator 201 are, for example, the output wattage value and wind speed for the stall controlled wind generator and the output wattage value and wind speed for the pitch controlled wind generator. State values for generator 201 are, for example, output wattage and fuel usage for thermal generators. Moreover, the state value related to the power generation system 200 as a whole is, for example, the power demand in the power generation system 200 as a whole.

記憶部400は、発電システム200に含まれる1以上の発電機201のそれぞれの発電機201に対する指令値を記憶する。発電機201に対する指令値は、発電機201における自然エネルギーの利用効率を変更する指令値である。指令値は、例えば、発電機201の電源をONとOFFとで切り替えさせる指令値である。指令値は、例えば、風力発電機の受風性能を変更する指令値である。指令値は、例えば、ピッチ制御の風力発電機のピッチ角をどの程度変更するかを示す指令値である。ピッチ角をどの程度変更するかを示す指令値は、具体的には、-ΔΘと±0と+ΔΘとである。指令値は、例えば、火力発電機の発電機に設けられた燃料供給孔の大きさをどの程度変更するかを示す指令値である。指令値は、例えば、火力発電機の燃料使用量をどの程度変更するかを示す指令値である。 Storage unit 400 stores a command value for each of one or more generators 201 included in power generation system 200 . The command value for the generator 201 is a command value for changing the utilization efficiency of natural energy in the generator 201 . The command value is, for example, a command value for switching the power of the generator 201 between ON and OFF. The command value is, for example, a command value that changes the wind reception performance of the wind power generator. The command value is, for example, a command value indicating how much the pitch angle of the pitch-controlled wind power generator is to be changed. Specifically, the command values indicating how much the pitch angle should be changed are -ΔΘ, ±0 and +ΔΘ. The command value is, for example, a command value indicating how much the size of the fuel supply hole provided in the generator of the thermal power generator should be changed. The command value is, for example, a command value indicating how much the amount of fuel used by the thermal power generator should be changed.

記憶部400は、1以上の発電機201に関する状態値の組み合わせが取りうる複数の領域のそれぞれの領域における、1以上の発電機201に対する指令値の組み合わせごとの有効性を示す有効性情報を記憶する。状態値の組み合わせは、1つの状態値であってもよい。また、記憶部400は、複数の領域のうち2以上の領域を結合した領域における、1以上の発電機201に対する指令値の組み合わせごとの有効性を示す有効性情報を記憶する。記憶部400は、例えば、複数の領域のそれぞれの領域に、指令値の組み合わせごとの有効性を示す有効値を対応付けた有効性情報をレコードとして含むテーブルを記憶する。有効値は、例えば、発電機における報酬の増加に寄与する度合いを示す。報酬は、例えば、発電量である。また、記憶部400は、例えば、複数の領域のそれぞれの領域についての有効性情報のうち、2以上の領域のそれぞれの領域についての有効性情報を、2以上の領域を結合した領域についての有効性情報に置き換えたテーブルを記憶する。 The storage unit 400 stores effectiveness information indicating the effectiveness of each combination of command values for the one or more generators 201 in each of a plurality of areas where combinations of state values relating to the one or more generators 201 can take. do. A combination of state values may be one state value. The storage unit 400 also stores effectiveness information indicating the effectiveness of each combination of command values for the one or more generators 201 in a region obtained by combining two or more regions out of a plurality of regions. The storage unit 400 stores, for example, a table containing, as a record, validity information in which each of a plurality of regions is associated with a valid value indicating the validity of each combination of command values. The effective value indicates, for example, the extent to which it contributes to increasing the reward in the generator. The reward is, for example, the amount of power generation. Further, the storage unit 400 stores, for example, the validity information for each of two or more regions among the validity information for each of the plurality of regions, and the validity information for a region obtained by combining the two or more regions. Store the table replaced with sexual information.

記憶部400は、発電機201についての特性関数を記憶する。特性関数は、発電機201に関する状態値の変化を示す。特性関数は、例えば、風速と風力発電機からの出力電力との関係を示す。特性関数は、例えば、火力発電機の燃料使用量と火力発電機からの出力電力との関係を示す。記憶部400は、例えば、特性関数を近似する近似曲線を記憶する。記憶部400は、例えば、風力発電機の受風性能ごとに異なる特性関数を記憶する。記憶部400は、具体的には、風力発電機のピッチ角ごとに異なる特性関数を記憶する。 The storage unit 400 stores characteristic functions for the generator 201 . The characteristic function indicates changes in state values for generator 201 . A characteristic function indicates, for example, the relationship between wind speed and power output from a wind power generator. The characteristic function indicates, for example, the relationship between the amount of fuel used by the thermal power generator and the power output from the thermal power generator. The storage unit 400 stores, for example, an approximate curve that approximates the characteristic function. The storage unit 400 stores, for example, different characteristic functions for each wind reception performance of the wind power generator. Specifically, the storage unit 400 stores a different characteristic function for each pitch angle of the wind power generator.

記憶部400は、例えば、強化学習アルゴリズム、および、行動選択アルゴリズムによる処理手順を記憶する。強化学習アルゴリズムは、例えば、Q学習アルゴリズムである。強化学習アルゴリズムは、Q学習アルゴリズム以外であってもよい。行動選択アルゴリズムは、例えば、ε-greedyアルゴリズムである。 The storage unit 400 stores, for example, a processing procedure by a reinforcement learning algorithm and an action selection algorithm. A reinforcement learning algorithm is, for example, a Q-learning algorithm. Reinforcement learning algorithms may be other than Q-learning algorithms. The action selection algorithm is, for example, the ε-greedy algorithm.

取得部401は、各機能部の処理に用いられる各種情報を記憶部400から取得し、各機能部に出力する。取得部401は、各機能部の処理に用いられる各種情報を、強化学習装置100とは異なる装置から取得し、各機能部に出力してもよい。取得部401は、例えば、発電システム200に関する状態値を取得する。取得部401は、発電機201に設けられた計測機から、発電機201に関する状態値を取得する。取得部401は、具体的には、電気会社のコンピュータから発電システム200における需要電力を取得する。 Acquisition unit 401 acquires various types of information used for processing of each functional unit from storage unit 400 and outputs the information to each functional unit. The acquisition unit 401 may acquire various types of information used in the processing of each functional unit from a device different from the reinforcement learning device 100 and output the information to each functional unit. The acquisition unit 401 acquires, for example, state values regarding the power generation system 200 . Acquisition unit 401 acquires a state value related to generator 201 from a measuring device provided in generator 201 . Specifically, the acquisition unit 401 acquires the power demand in the power generation system 200 from the computer of the electric company.

取得部401は、例えば、特性関数を表す情報を取得してもよい。取得部401は、例えば、特性関数に関する閾値を取得し、特性関数を表す情報を生成してもよい。特性関数に関する閾値は、少なくとも定格風速と最大出力とである。特性関数に関する閾値は、さらに、カットイン風速とカットアウト風速とであってもよい。取得部401は、様々な風速における発電機201からの出力電力を取得し、特性関数を表す情報を生成してもよい。 The acquisition unit 401 may acquire information representing a characteristic function, for example. The obtaining unit 401 may obtain, for example, a threshold for the characteristic function and generate information representing the characteristic function. The thresholds for the characteristic function are at least rated wind speed and maximum power. The thresholds for the characteristic function may also be cut-in wind speed and cut-out wind speed. The acquisition unit 401 may acquire output power from the generator 201 at various wind speeds and generate information representing a characteristic function.

切替部402は、強化学習における学習に利用する有効性情報を切り替える。切替部402は、例えば、複数の領域のそれぞれの領域についての有効性情報を、学習に利用する有効性情報に設定する。切替部402は、例えば、複数の領域のそれぞれの領域についての有効性情報のうち、2以上の領域のそれぞれの領域についての有効性情報を、2以上の領域を結合した領域についての有効性情報に置き換え、学習に利用する有効性情報に設定する。 The switching unit 402 switches effectiveness information to be used for learning in reinforcement learning. The switching unit 402 sets, for example, effectiveness information for each of the plurality of areas as effectiveness information to be used for learning. For example, the switching unit 402 converts the validity information for each of two or more regions from the validity information for each region of the plurality of regions to the validity information for a region obtained by combining the two or more regions. and set it as the validity information used for learning.

具体的には、2以上の領域のそれぞれの領域についての有効性情報を、学習に利用する有効性情報に設定している場合がある。この場合、切替部402は、取得した発電機201に関する状態値を参照し、特性関数に基づいて、2以上の領域を結合した領域についての有効性情報を生成する。また、切替部402は、2以上の領域のそれぞれの領域についての有効性情報に基づいて、2以上の領域を結合した領域についての有効性情報を生成してもよい。そして、切替部402は、学習に利用する有効性情報のうち、2以上の領域のそれぞれの領域についての有効性情報を、生成した有効性情報に置き換える。 Specifically, in some cases, effectiveness information for each of two or more areas is set as effectiveness information to be used for learning. In this case, the switching unit 402 refers to the obtained state value of the generator 201 and generates effectiveness information for a region obtained by combining two or more regions based on the characteristic function. Moreover, the switching unit 402 may generate validity information for a region obtained by combining two or more regions based on validity information for each region of the two or more regions. Then, the switching unit 402 replaces the validity information for each of the two or more regions among the validity information used for learning with the generated validity information.

具体的には、2以上の領域を結合した領域についての有効性情報を、学習に利用する有効性情報に設定している場合がある。この場合、切替部402は、取得した発電機201に関する状態値を参照し、特性関数に基づいて、2以上の領域のそれぞれの領域についての有効性情報を生成する。また、切替部402は、2以上の領域を結合した領域についての有効性情報に基づいて、2以上の領域のそれぞれの領域についての有効性情報を生成してもよい。そして、切替部402は、学習に利用する有効性情報のうち、2以上の領域を結合した領域についての有効性情報を、生成した有効性情報に置き換える。 Specifically, in some cases, effectiveness information about a region obtained by combining two or more regions is set as effectiveness information to be used for learning. In this case, the switching unit 402 refers to the obtained state value of the generator 201 and generates effectiveness information for each of the two or more regions based on the characteristic function. Moreover, the switching unit 402 may generate validity information for each of the two or more regions based on validity information for a region obtained by combining two or more regions. Then, the switching unit 402 replaces the validity information about the region obtained by combining two or more regions among the validity information used for learning with the generated validity information.

切替部402は、具体的には、特性関数に基づいて、取得した風速に対応する出力電力を特定し、特定した出力電力に基づいて、結合した領域についての有効性情報を生成する。また、切替部402は、具体的には、発電機201の受風性能ごとに異なる複数の特性関数のうち、取得した風速および出力電力に対応する特性関数に基づいて、結合した領域についての有効性情報を生成する。 Specifically, the switching unit 402 identifies the output power corresponding to the acquired wind speed based on the characteristic function, and generates effectiveness information about the combined region based on the identified output power. In addition, specifically, the switching unit 402 selects an effective Generate sexual information.

切替部402は、具体的には、取得した需要電力が閾値以下である場合に、結合した領域についての有効性情報を生成する。切替部402は、より具体的には、取得した需要電力が閾値以下である場合に、出力電力についての複数の領域のうち、相対的に大きい出力電力についての2以上の領域を結合した領域についての有効性情報を生成する。 Specifically, the switching unit 402 generates effectiveness information about the combined regions when the acquired power demand is equal to or less than the threshold. More specifically, when the acquired power demand is equal to or less than a threshold, the switching unit 402 selects a region obtained by combining two or more regions of relatively large output power among a plurality of regions of output power. generate validity information for

切替部402は、具体的には、取得した需要電力が閾値を超える場合に、結合した領域についての有効性情報を生成する。切替部402は、より具体的には、取得した需要電力が閾値を超える場合に、出力電力についての複数の領域のうち、相対的に小さい出力電力についての2以上の領域を結合した領域についての有効性情報を生成する。 Specifically, the switching unit 402 generates effectiveness information about the combined regions when the acquired power demand exceeds the threshold. More specifically, when the acquired power demand exceeds the threshold, the switching unit 402 selects a region obtained by combining two or more regions of relatively small output power among a plurality of regions of output power. Generate validity information.

学習部403は、切替部402が設定した有効性情報を利用して学習を行い、少なくともいずれかの有効性情報を更新する。学習部403は、例えば、複数の領域のそれぞれの領域についての有効性情報を利用して学習を行う。学習部403は、例えば、複数の領域のそれぞれの領域についての有効性情報のうち、2以上の領域のそれぞれの領域についての有効性情報を、2以上の領域を結合した領域についての有効性情報に置き換えて学習を行う。 The learning unit 403 performs learning using the validity information set by the switching unit 402, and updates at least one of the validity information. The learning unit 403 performs learning using, for example, effectiveness information for each of the plurality of regions. For example, the learning unit 403 acquires effectiveness information about each of two or more areas from among the effectiveness information about each of the plurality of areas, and the effectiveness information about an area obtained by combining the two or more areas. Learn by replacing with

出力部404は、各機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークI/F303による外部装置への送信、または、メモリ302や記録媒体305などの記憶領域への記憶である。これにより、出力部404は、各機能部の処理結果を利用者に通知可能にし、強化学習装置100の管理や運用、例えば、強化学習装置100の設定値の更新などを支援することができ、強化学習装置100の利便性の向上を図ることができる。 The output unit 404 outputs the processing result of each functional unit. The output format is, for example, display on a display, print output to a printer, transmission to an external device via the network I/F 303, or storage in a storage area such as the memory 302 or recording medium 305. As a result, the output unit 404 can notify the user of the processing results of each function unit, and can support management and operation of the reinforcement learning device 100, for example, updating of setting values of the reinforcement learning device 100. The convenience of the reinforcement learning device 100 can be improved.

(風力発電機を含む発電システム200についての強化学習装置100の動作例)
次に、図5~図13を用いて、風力発電機を含む発電システム200についての強化学習装置100の動作例について説明する。まず、図5の説明に移行し、風力発電機を含む発電システム200の具体的構成例について説明する。
(Example of operation of reinforcement learning device 100 for power generation system 200 including wind power generators)
Next, an operation example of the reinforcement learning device 100 for the power generation system 200 including the wind power generator will be described with reference to FIGS. 5 to 13. FIG. First, moving to the description of FIG. 5, a specific configuration example of the power generation system 200 including the wind power generator will be described.

図5は、風力発電機を含む発電システム200の具体的構成例を示す説明図である。図5の例では、発電システム200は、強化学習装置100と、ストール制御の風力発電機i(i=1,・・・,n)と、ピッチ制御の風力発電機i(i=1,・・・,m)とを含む。ストール制御の風力発電機iは、指令値ai(i=1,・・・,n)を強化学習装置100から受信する。ピッチ制御の風力発電機iは、指令値bi(i=1,・・・,m)を強化学習装置100から受信する。 FIG. 5 is an explanatory diagram showing a specific configuration example of a power generation system 200 including a wind power generator. In the example of FIG. 5, the power generation system 200 includes the reinforcement learning device 100, a stall control wind power generator i (i=1, . . . , n), and a pitch control wind power generator i (i=1, . , m). A stall-controlled wind power generator i receives a command value ai (i=1, . . . , n) from the reinforcement learning device 100 . The pitch-controlled wind power generator i receives command values bi (i=1, . . . , m) from the reinforcement learning device 100 .

発電システム200は、ストール制御の風力発電機iについての風速計si(i=1,・・・,n)と、ピッチ制御の風力発電機iについての風速計pi(i=1,・・・,m)とを含む。風速計siは、風速値Fsi(tj)を、強化学習装置100に送信する。tjは、時刻である。風速計piは、風速値Fpi(tj)を、強化学習装置100に送信する。発電システム200は、ストール制御の風力発電機iについての電力計と、ピッチ制御の風力発電機iについての電力計とを含む。ストール制御の風力発電機iについての電力計は、出力ワット値Psi(tj)を、強化学習装置100に送信する。ピッチ制御の風力発電機iについての電力計は、出力ワット値Ppi(tj)を、強化学習装置100に送信する。 The power generation system 200 includes an anemometer si (i=1, . . . , n) for the stall control wind power generator i and an anemometer pi (i=1, . , m). The anemometer si transmits the wind speed value F si (t j ) to the reinforcement learning device 100 . t j is the time. The anemometer pi transmits the wind speed value F pi (t j ) to the reinforcement learning device 100 . The power generation system 200 includes a power meter for the stall-controlled wind power generator i and a power meter for the pitch-controlled wind power generator i. The power meter for the stall-controlled wind turbine i sends the output wattage value P si (t j ) to the reinforcement learning device 100 . The power meter for pitch-controlled wind turbine i sends the output wattage value P pi (t j ) to the reinforcement learning device 100 .

強化学習装置100は、テーブル生成部501と、区間切替部502と、値設定部503と、行動決定部504と、状態計算部505と、報酬計算部506と、テーブル更新部507とを含む。強化学習装置100は、発電システム200全体に関する需要電力ワット値P’(tj)を超えない範囲で、ストール制御の風力発電機iについての出力ワット値Psi(tj)と、ピッチ制御の風力発電機iについての出力ワット値Ppi(tj)との合計の増大化を図る。 Reinforcement learning device 100 includes table generator 501 , interval switcher 502 , value setter 503 , action determiner 504 , state calculator 505 , reward calculator 506 , and table updater 507 . The reinforcement learning device 100 calculates the output watt value P si (t j ) for the stall control wind power generator i and the pitch control An attempt is made to increase the sum with the output wattage value P pi (t j ) for the wind power generator i.

テーブル生成部501は、図6および図7に後述する通常分割手法により分割された複数の通常区間についての有効性情報を記憶する通常テーブルを作成する。テーブル生成部501は、いずれの2以上の通常区間を結合すると、複数の通常区間が、図6および図7に後述する粗分割手法により分割された複数の粗分割区間に変換されるかを設定する。 The table generation unit 501 creates a normal table that stores effectiveness information about a plurality of normal sections divided by the normal division method described later with reference to FIGS. 6 and 7 . The table generation unit 501 sets whether any two or more normal sections are combined to convert a plurality of normal sections into a plurality of coarsely divided sections divided by a coarse division method described later with reference to FIGS. do.

区間切替部502は、風速値Fsi(tj)と、風速値Fpi(tj)と、出力ワット値Psi(tj)と、出力ワット値Ppi(tj)と、需要電力ワット値P’(tj)とを受信する。区間切替部502は、受信した各種情報に基づいて、利用するテーブルを、通常テーブルと、複数の粗分割区間についての有効性情報を記憶する粗分割テーブルとで切り替える。区間切替部502は、閾値α>需要電力ワット値P’(tj)であれば、粗分割テーブルを、利用するテーブルに設定する。区間切替部502は、閾値α≦需要電力ワット値P’(tj)であれば、通常テーブルを、利用するテーブルに設定する。 Section switching unit 502 selects wind speed value F si (t j ), wind speed value F pi (t j ), output watt value P si (t j ), output watt value P pi (t j ), power demand Watt values P'(t j ) are received. The section switching unit 502 switches the table to be used between a normal table and a coarse division table storing effectiveness information for a plurality of coarsely divided sections based on the received various information. If threshold value α>power demand watt value P′(t j ), section switching unit 502 sets the rough division table as the table to be used. If threshold value α≦power demand watt value P′(t j ), section switching unit 502 sets the normal table as the table to be used.

値設定部503は、切り替えた結果に基づいて、テーブルに有効値を設定する。値設定部503は、2以上の領域を結合した場合、結合した領域に対応するレコードに有効値を設定する。値設定部503は、2以上の領域を分離した場合、分離した領域ごとに対応するレコードに有効値を設定する。値設定部503は、有効値を設定したテーブルを出力する。 A value setting unit 503 sets valid values in the table based on the switching result. When two or more areas are combined, the value setting unit 503 sets a valid value to the record corresponding to the combined areas. When two or more areas are separated, the value setting unit 503 sets a valid value to the record corresponding to each separated area. A value setting unit 503 outputs a table in which valid values are set.

行動決定部504は、テーブルを利用して、ストール制御の風力発電機iに対する指令値aiを選択し、ストール制御の風力発電機iに送信し、ピッチ制御の風力発電機iに対する指令値biを選択し、ピッチ制御の風力発電機iに送信する。行動決定部504は、例えば、テーブルにおいて最も大きい有効値が対応付けられた、指令値aiと指令値biとの組み合わせを選択する。行動決定部504は、具体的には、ε-greedyアルゴリズムを用いて、εの確率で指令値をランダムに選択し、1-εの確率で現在の発電システム200の状態において最も大きい有効値が対応付けられた指令値aiと指令値biとの組み合わせを選択する。 The action determination unit 504 uses the table to select the command value ai for the wind power generator i for stall control, transmits it to the wind power generator i for stall control, and sets the command value bi for the wind power generator i for pitch control. Select and send to pitch controlled wind generator i. The action determination unit 504 selects, for example, the combination of the command value ai and the command value bi associated with the largest effective value in the table. Specifically, the action determining unit 504 uses the ε-greedy algorithm to randomly select a command value with a probability of ε, and selects the command value with a probability of 1−ε in the current state of the power generation system 200. A combination of the associated command value ai and command value bi is selected.

状態計算部505は、風速値Fsi(tj)と、風速値Fpi(tj)と、出力ワット値Psi(tj)と、出力ワット値Ppi(tj)と、需要電力ワット値P’(tj)とに基づいて、発電システム200の状態を特定する。状態計算部505は、特定した状態に対応するテーブルのレコードを示す状態結果を出力する。報酬計算部506は、出力ワット値Psi(tj)と、出力ワット値Ppi(tj)と、需要電力ワット値P’(tj)とに基づいて、報酬値を算出する。テーブル更新部507は、状態結果が示すレコードにおける有効値を、算出した報酬値に基づいて更新する。 State calculation unit 505 calculates wind speed value F si (t j ), wind speed value F pi (t j ), output watt value P si (t j ), output watt value P pi (t j ), power demand The state of the power generation system 200 is identified based on the watt value P'(t j ). The state calculator 505 outputs a state result indicating the record of the table corresponding to the specified state. Remuneration calculation unit 506 calculates a remuneration value based on output watt value P si (t j ), output watt value P pi (t j ), and power demand watt value P′(t j ). The table updating unit 507 updates the effective value in the record indicated by the state result based on the calculated reward value.

次に、図6~図13の説明に移行し、テーブル生成部501と、区間切替部502と、値設定部503と、行動決定部504と、状態計算部505と、報酬計算部506と、テーブル更新部507との、各部分の動作について具体的に説明する。まず、図6および図7の説明に移行し、テーブル生成部501において設定される粗分割区間について具体的に説明する。 6 to 13, a table generation unit 501, a section switching unit 502, a value setting unit 503, an action determination unit 504, a state calculation unit 505, a reward calculation unit 506, The operation of each part with the table updating unit 507 will be specifically described. First, moving to the description of FIGS. 6 and 7, the coarsely divided sections set in the table generation unit 501 will be specifically described.

図6は、ストール制御の風力発電機の状態値が取りうる通常区間と粗分割区間を示す説明図である。例えば、図6のグラフ601に示すように、均一に分割する通常分割手法により、出力電力および風速についての全体区間が複数の通常区間に分割される。例えば、出力電力の全体区間は通常区間1,2,・・・,npsiに分割される。風速の全体区間は通常区間1,2,・・・,nfsiに分割される。そして、例えば、図6のグラフ602に示すように、出力電力が大きい方にある2つの領域が結合する対象に設定され、出力電力および風速についての全体区間が複数の粗分割区間に分割される。例えば、出力電力の全体区間は粗分割区間1,2,・・・,npsi-1に分割される。風速の全体区間は粗分割区間1,2,・・・,nfsi-1に分割される。次に、図7の説明に移行する。 FIG. 6 is an explanatory diagram showing normal intervals and roughly divided intervals that the state values of the wind power generator under stall control can take. For example, as shown in graph 601 of FIG. 6, the uniform division normal division method divides the entire interval for output power and wind speed into a plurality of normal intervals. For example, the overall interval of output power is usually divided into intervals 1, 2, . . . , npsi. The overall wind speed interval is divided into normal intervals 1, 2, . . . , nfsi. Then, for example, as shown in a graph 602 in FIG. 6, the two regions with the larger output power are set as objects to be combined, and the entire interval regarding the output power and the wind speed is divided into a plurality of coarsely divided intervals. . For example, the entire interval of output power is divided into coarse division intervals 1, 2, . . . , npsi-1. The entire wind speed interval is divided into coarse division intervals 1, 2, . . . , nfsi-1. Next, the description of FIG. 7 will be described.

図7は、ピッチ制御の風力発電機の状態値が取りうる通常区間と粗分割区間を示す説明図である。例えば、図7のグラフ701に示すように、均一に分割する通常分割手法により、出力電力および風速についての全体区間が、複数の通常区間に分割される。例えば、出力電力の全体区間は通常区間1,2,・・・,nppiに分割される。風速の全体区間は通常区間1,2,・・・,nfpiに分割される。そして、例えば、図7のグラフ702に示すように、出力電力が大きい方にある2つの領域が結合する対象に設定され、出力電力および風速についての全体区間が複数の粗分割区間に分割される。例えば、出力電力の全体区間は粗分割区間1,2,・・・,nppi-1に分割される。風速の全体区間は粗分割区間1,2,・・・,nfpi-1に分割される。 FIG. 7 is an explanatory diagram showing normal intervals and roughly divided intervals that the state values of the pitch-controlled wind power generator can take. For example, as shown in a graph 701 of FIG. 7, the uniform division normal division method divides the entire interval for output power and wind speed into a plurality of normal intervals. For example, the entire interval of output power is usually divided into intervals 1, 2, . . . , nppi. The entire wind speed interval is divided into normal intervals 1, 2, . . . , nfpi. Then, for example, as shown in a graph 702 in FIG. 7, the two regions with the larger output power are set as objects to be combined, and the entire interval regarding the output power and the wind speed is divided into a plurality of coarsely divided intervals. . For example, the entire interval of the output power is divided into coarse division intervals 1, 2, . . . , nppi-1. The entire wind speed interval is divided into coarse division intervals 1, 2, . . . , nfpi-1.

次に、図8の説明に移行し、テーブル生成部501において作成される通常区間についての通常テーブル801と、通常テーブル801から切り替えられる粗分割区間についての粗分割テーブル802とを実現する一例について具体的に説明する。 Next, moving on to the description of FIG. 8, a specific example of realizing a normal table 801 for normal sections created by the table generation unit 501 and a rough division table 802 for rough division sections switched from the normal table 801 will be described. explained in detail.

図8は、通常テーブル801と粗分割テーブル802とを実現する一例を示す説明図である。図8において、強化学習装置100は、通常テーブル801のレコードを、粗分割テーブル802のレコードとして流用することにより、通常テーブル801と粗分割テーブル802とを相互に変換可能に実現する。 FIG. 8 is an explanatory diagram showing an example of realizing the normal table 801 and the rough division table 802. As shown in FIG. In FIG. 8, the reinforcement learning device 100 uses the records of the normal table 801 as the records of the rough division table 802, so that the normal table 801 and the rough division table 802 can be mutually converted.

強化学習装置100は、例えば、通常テーブル801を作成する。強化学習装置100は、通常テーブル801を粗分割テーブル802に変換する場合、結合する2以上の通常区間の一方の通常区間に対応するレコードを、結合した粗分割区間に対応するレコードとして流用する。そして、強化学習装置100は、他方の通常区間のレコードに設定された有効性情報を削除する。強化学習装置100は、例えば、通常区間npsi-1と通常区間npsiとを結合する場合、通常区間npsi-1に対応するレコードを粗分割区間npsi-1に対応するレコードとして流用する。強化学習装置100は、例えば、区間npsiに対応するレコードに設定された有効性情報を削除する。 The reinforcement learning device 100 creates a normal table 801, for example. When converting the normal table 801 into the coarse division table 802, the reinforcement learning device 100 diverts a record corresponding to one normal section of two or more combined normal sections as a record corresponding to the combined coarse division section. Then, the reinforcement learning device 100 deletes the validity information set in the record of the other normal section. For example, when combining the normal section npsi-1 and the normal section npsi, the reinforcement learning device 100 uses the record corresponding to the normal section npsi-1 as the record corresponding to the coarsely divided section npsi-1. The reinforcement learning device 100 deletes, for example, validity information set in the record corresponding to the section npsi.

また、強化学習装置100は、粗分割テーブル802を通常テーブル801に変換する場合、結合した区間に対応するレコードを、結合した区間から分割される2以上の区間の一方の区間に対応するレコードとして流用する。そして、強化学習装置100は、他方の区間のレコードに有効性情報を再び設定する。強化学習装置100は、例えば、粗分割区間npsi-1を、通常区間npsi-1と通常区間npsiとに分割する場合、粗分割区間npsi-1に対応するレコードを、通常区間npsi-1に対応するレコードとして流用する。強化学習装置100は、例えば、通常区間npsiに対応するレコードに有効性情報を再び設定する。 Further, when converting the coarsely divided table 802 into the normal table 801, the reinforcement learning device 100 converts the record corresponding to the combined section into a record corresponding to one of two or more sections divided from the combined section. Divert. Then, the reinforcement learning device 100 sets validity information again in the record of the other section. For example, when dividing a roughly divided section npsi-1 into a normal section npsi-1 and a normal section npsi, the reinforcement learning device 100 assigns a record corresponding to the roughly divided section npsi-1 to the normal section npsi-1. It is diverted as a record to be used. The reinforcement learning device 100, for example, resets validity information to the record corresponding to the normal section npsi.

次に、図9を用いて、テーブル生成部501において作成される通常テーブル801の記憶内容の一例について説明する。通常テーブル801は、例えば、図3に示した強化学習装置100のメモリ302や記録媒体305などの記憶領域により実現される。以下の通常テーブル801の説明は、強化学習手法としてQ学習を利用する場合に対応し、異なる強化学習手法を利用する場合には記憶内容が異なってもよい。 Next, an example of the contents stored in the normal table 801 created by the table generation unit 501 will be described with reference to FIG. The normal table 801 is realized, for example, by a storage area such as the memory 302 or the recording medium 305 of the reinforcement learning device 100 shown in FIG. The description of the normal table 801 below corresponds to the case of using Q-learning as the reinforcement learning method, and the stored contents may differ when using different reinforcement learning methods.

図9は、通常テーブル801の記憶内容の一例を示す説明図である。図9に示すように、通常テーブル801は、状態値と指令値と有効値とのフィールドを有する。通常テーブル801は、各フィールドに情報を設定することにより、有効性情報をレコードとして記憶する。 FIG. 9 is an explanatory diagram showing an example of the contents stored in the normal table 801. As shown in FIG. As shown in FIG. 9, the normal table 801 has fields for status value, command value, and effective value. The normal table 801 stores validity information as a record by setting information in each field.

状態値のフィールドには、発電システム200に関する状態値が取りうる区間が設定される。発電システム200に関する状態値は、風力発電機に関する状態値、および、発電システム200全体に関する状態値を含む。図9の例では、風力発電機に関する状態値は、ストール制御の風力発電機に関する出力ワット値および風速値と、ピッチ制御の風力発電機に関する出力ワット値および風速値とである。また、発電システム200全体に関する状態値は、発電システム200全体における需要電力ワット値である。 In the state value field, an interval in which the state value of the power generation system 200 can be set is set. The state values for the power generation system 200 include state values for the wind power generator and state values for the power generation system 200 as a whole. In the example of FIG. 9, the state values for the wind generator are the output watts and wind speed values for the stall controlled wind generator and the output watts and wind speed values for the pitch controlled wind generator. Moreover, the state value related to the power generation system 200 as a whole is the power demand watt value in the power generation system 200 as a whole.

指令値のフィールドには、風力発電機に対する指令値が設定される。図9の例では、風力発電機に対する指令値は、ストール制御の風力発電機の電源をONとOFFとで切り替えさせる指令値である。また、風力発電機に対する指令値は、ピッチ制御の風力発電機のピッチ角をどの程度変更するかを示す指令値である。ピッチ角をどの程度変更するかを示す指令値は、具体的には、-ΔΘと±0と+ΔΘとである。有効値のフィールドには、それぞれの状態値がいずれかの区間に含まれる場合における、風力発電機ごとの指令値の組み合わせの有効性を示す有効値が設定される。 A command value for the wind power generator is set in the command value field. In the example of FIG. 9, the command value for the wind power generator is a command value for switching the power supply of the wind power generator for stall control between ON and OFF. The command value for the wind power generator is a command value indicating how much the pitch angle of the pitch-controlled wind power generator is to be changed. Specifically, the command values indicating how much the pitch angle should be changed are -ΔΘ, ±0 and +ΔΘ. The effective value field is set with effective values indicating the effectiveness of combinations of command values for each wind power generator when each state value is included in one of the sections.

次に、図10の説明に移行し、区間切替部502が、通常テーブル801を粗分割テーブル802に変換する場合、または、粗分割テーブル802を通常テーブル801に変換する場合に用いられる、風力発電機に関する特性関数を作成する一例について説明する。風力発電機に関する特性関数は、強化学習装置100に予め入力されてもよい。 Next, moving to the description of FIG. 10, the section switching unit 502 converts the normal table 801 into the rough division table 802, or converts the rough division table 802 into the normal table 801. An example of creating a characteristic function for an aircraft will be described. A characteristic function related to the wind power generator may be input to the reinforcement learning device 100 in advance.

図10は、特性関数を作成する一例を示す説明図である。図10において、強化学習装置100は、風力発電機に関する特性関数を作成する。強化学習装置100は、例えば、様々な風速におけるストール制御の風力発電機からの出力ワット値を取得する。また、強化学習装置100は、定格風速と最大出力とカットイン風速とカットアウト風速とを取得する。 FIG. 10 is an explanatory diagram showing an example of creating a characteristic function. In FIG. 10, the reinforcement learning device 100 creates a characteristic function regarding the wind power generator. The reinforcement learning device 100 acquires, for example, output watt values from stall-controlled wind turbines at various wind speeds. The reinforcement learning device 100 also acquires the rated wind speed, maximum output, cut-in wind speed, and cut-out wind speed.

次に、強化学習装置100は、定格風速と最大出力とカットイン風速とカットアウト風速と様々な風速における出力ワット値とに基づいて、ストール制御の風力発電機についての特性関数が示す特性曲線を近似する近似曲線fi(t)を求める。強化学習装置100は、例えば、風速0からカットイン風速までは、y=0の形状で近似曲線fi(t)の一部を求める。 Next, the reinforcement learning device 100 draws a characteristic curve indicated by the characteristic function for the stall control wind power generator based on the rated wind speed, maximum output, cut-in wind speed, cut-out wind speed, and output watt values at various wind speeds. An approximation curve f i (t) is obtained. For example, the reinforcement learning device 100 obtains a part of the approximated curve f i (t) with a shape of y=0 from the wind speed of 0 to the cut-in wind speed.

強化学習装置100は、例えば、カットイン風速から定格風速までは、様々な風速における出力ワット値に基づいて、y=a*x^3の形状で近似曲線fi(t)の一部を求める。強化学習装置100は、例えば、定格風速以降では、様々な風速における出力ワット値に基づいて、y=b*x^2の形状で近似曲線fi(t)の一部を求める。これにより、強化学習装置100は、図10のグラフ1000に示すような近似曲線fi(t)を求める。 For example, from the cut-in wind speed to the rated wind speed, the reinforcement learning device 100 obtains a part of the approximated curve f i (t) in the shape of y=a*x^3 based on the output watt values at various wind speeds. . For example, after the rated wind speed, the reinforcement learning device 100 obtains a part of the approximated curve f i (t) in the form of y=b*x^2 based on output watt values at various wind speeds. As a result, the reinforcement learning device 100 obtains the approximated curve f i (t) as shown in the graph 1000 of FIG. 10 .

また、強化学習装置100は、例えば、ピッチ角Θ=0,ΔΘ,2ΔΘ,・・・,kΔΘにおける、様々な風速におけるピッチ制御の風力発電機からの出力ワット値を取得する。また、強化学習装置100は、定格風速と最大出力とカットイン風速とカットアウト風速とを取得する。 The reinforcement learning device 100 also acquires the output watt values from the pitch-controlled wind generator at various wind speeds, for example, at pitch angles Θ=0, ΔΘ, 2ΔΘ, . . . , kΔΘ. The reinforcement learning device 100 also acquires the rated wind speed, maximum output, cut-in wind speed, and cut-out wind speed.

次に、強化学習装置100は、定格風速と最大出力とカットイン風速とカットアウト風速と様々な風速における出力ワット値とに基づいて、ピッチ制御の風力発電機についての特性関数が示す特性曲線を近似する近似曲線fi(t)を求める。強化学習装置100は、例えば、風速0からカットイン風速までは、y=0の形状で近似曲線fi(t)の一部を求める。 Next, the reinforcement learning device 100 draws a characteristic curve indicated by the characteristic function for the pitch-controlled wind power generator based on the rated wind speed, maximum output, cut-in wind speed, cut-out wind speed, and output watt values at various wind speeds. An approximation curve f i (t) is obtained. For example, the reinforcement learning device 100 obtains a part of the approximated curve f i (t) with a shape of y=0 from the wind speed of 0 to the cut-in wind speed.

強化学習装置100は、例えば、カットイン風速から定格風速までは、様々な風速における出力ワット値に基づいて、y=a*x^3の形状で近似曲線fi(t)の一部を求める。強化学習装置100は、例えば、定格風速以降では、様々な風速における出力ワット値に基づいて、y=b*x^2の形状で近似曲線fi(t)の一部を求める。これにより、強化学習装置100は、ピッチ角Θ=0,ΔΘ,2ΔΘ,・・・,kΔΘにおける、図10のグラフ1000に示すような近似曲線fi(t)を求める。 For example, from the cut-in wind speed to the rated wind speed, the reinforcement learning device 100 obtains a part of the approximated curve f i (t) in the shape of y=a*x^3 based on the output watt values at various wind speeds. . For example, after the rated wind speed, the reinforcement learning device 100 obtains a part of the approximated curve f i (t) in the form of y=b*x^2 based on output watt values at various wind speeds. As a result, the reinforcement learning device 100 obtains approximate curves f i (t) as shown in the graph 1000 of FIG. 10 at the pitch angles Θ=0, ΔΘ, 2ΔΘ, . . . , kΔΘ.

次に、図11の説明に移行し、区間切替部502が、予め作成された特定関数の近似曲線fi(t)に基づいて、通常テーブル801を粗分割テーブル802に変換し、利用するテーブルを粗分割テーブル802に切り替える一例について説明する。 Next, referring to FIG. 11, the section switching unit 502 converts the normal table 801 into a rough division table 802 based on the approximated curve f i (t) of the specific function created in advance, and the table to be used is to the rough division table 802 will be described.

図11は、利用するテーブルを粗分割テーブル802に切り替える一例を示す説明図である。図11において、強化学習装置100は、閾値α>需要電力ワット値P’(tj)であるため、粗分割テーブル802を利用するテーブルに設定する。図11の例では、通常区間nps1-1と通常区間nps1とを結合した粗分割区間npsi-1に対応する、●1101で示すフィールドに有効値を設定する場合について説明する。 FIG. 11 is an explanatory diagram showing an example of switching the table to be used to the rough division table 802. As shown in FIG. In FIG. 11, the reinforcement learning device 100 sets the coarse division table 802 as a table to be used because the threshold α>power demand watt value P′(t j ). In the example of FIG. 11, a case will be described in which a valid value is set in the field indicated by ● 1101, which corresponds to the roughly divided section npsi-1 obtained by combining the normal section nps1-1 and the normal section nps1.

強化学習装置100は、例えば、粗分割区間nps1-1に対応するレコードを特定する。強化学習装置100は、特定したレコードに設定されたストール制御の風力発電機iに関する風速値Fs1,・・・,Fsnを取得する。また、強化学習装置100は、特定したレコードに設定されたピッチ制御の風力発電機iからの出力ワット値Pp1,・・・,Ppmを取得する。また、強化学習装置100は、特定したレコードに設定されたピッチ制御の風力発電機iに関する風速値Fp1,・・・,Fpmを取得する。また、強化学習装置100は、特定したレコードに設定された発電システム200全体に関する需要電力ワット値P’を取得する。 Reinforcement learning device 100 identifies, for example, a record corresponding to coarsely divided section nps1-1. The reinforcement learning device 100 acquires the wind speed values F s1 , . The reinforcement learning device 100 also acquires the output watt values P p1 , . The reinforcement learning device 100 also acquires the wind speed values F p1 , . In addition, the reinforcement learning device 100 acquires the power demand watt value P' for the entire power generation system 200 set in the specified record.

強化学習装置100は、ストール制御の風力発電機iに対して、観測した風速Fsiと近似曲線fi(t)とに基づいて、電源をONにした時の予測出力電力P’si=fi(Fsi)を算出する。また、強化学習装置100は、ストール制御の風力発電機iに対して、電源をOFFにした時の予測出力電力P’si=0を決定する。 Reinforcement learning device 100 predicts output power P' si = f Calculate i (F si ). In addition, the reinforcement learning device 100 determines the predicted output power P' si =0 when the power supply is turned off for the stall-controlled wind power generator i.

また、強化学習装置100は、ピッチ制御の風力発電機iに対して、観測した風速Fpiと出力ワット値Ppiと近似曲線fi,Θ(t)とに基づいて、fi,Θ(Fpi)≒Ppiになるピッチ角Θを決定する。次に、強化学習装置100は、決定したピッチ角Θに対して-ΔΘ、±0、+ΔΘをした場合における予測出力電力P’pi=fi,Θ-ΔΘ(Fpi)、fi,Θ(Fpi)、fi,Θ+ΔΘ(Fpi)を算出する。 Further, the reinforcement learning device 100 calculates f i , Θ ( Determine the pitch angle Θ such that F pi )≈P pi . Next, the reinforcement learning device 100 calculates predicted output power P' pi =f i, Θ - ΔΘ (F pi ), f i, Θ when −ΔΘ, ±0, and +ΔΘ are applied to the determined pitch angle Θ. (F pi ), calculate f i, Θ + ΔΘ(F pi ).

強化学習装置100は、予測出力電力P’si=fi(Fsi)と、予測出力電力P’pi=fi,Θ-ΔΘ(Fpi)、fi,Θ(Fpi)、fi,Θ+ΔΘ(Fpi)とに基づいて、予測出力電力テーブル1100を作成する。強化学習装置100は、●1101で示すフィールドに対応する、ストール制御の風力発電機に対する指令値a1,・・・,anと、ピッチ制御の風力発電機に対する指令値b1,・・・,bmとを取得する。そして、強化学習装置100は、作成した予測出力電力テーブル1100から、取得した指令値に対応する予測出力電力P’siと、予測出力電力P’piとを取得し、下記式(1)を用いて、発電システム200全体における予測出力電力P~を算出する。 Reinforcement learning device 100 calculates predicted output power P′ si =f i (F si ), predicted output power P′ pi =f i, Θ ΔΘ(F pi ), f i, Θ(F pi ), f i , Θ + ΔΘ(F pi ) to create a predicted output power table 1100 . The reinforcement learning device 100 generates command values a1, . . . , an for the stall control wind power generator and command values b1, . to get Then, the reinforcement learning device 100 acquires the predicted output power P' si and the predicted output power P' pi corresponding to the obtained command value from the created predicted output power table 1100, and uses the following formula (1): Then, the predicted output power P˜ of the power generation system 200 as a whole is calculated.

Figure 0007187961000001
Figure 0007187961000001

そして、強化学習装置100は、取得した需要電力ワット値P’と、算出した予測出力電力P~との差分値P”に基づいて、有効値Q=r(P”)を算出して、●1101で示すフィールドに設定する。r(P”)は、下記式(2)~下記式(5)により定義される。具体的には、P”を下記式(2)により定義し、δ>0を設定するとき、P”>δの場合には下記式(3)によりr(P”)を定義し、-δ≦P”≦δの場合には下記式(4)によりr(P”)を定義し、P”<-δの場合には下記式(5)によりr(P”)を定義する。 Then, the reinforcement learning device 100 calculates the effective value Q=r(P") based on the difference value P" between the acquired power demand watt value P' and the calculated predicted output power P~, The field indicated by 1101 is set. r(P″) is defined by the following equations (2) to (5). Specifically, when P″ is defined by the following equation (2) and δ>0 is set, P″ > δ, r (P") is defined by the following formula (3), and when -δ ≤ P" ≤ δ, r (P") is defined by the following formula (4), and P" < In the case of −δ, r(P″) is defined by the following equation (5).

Figure 0007187961000002
Figure 0007187961000002

Figure 0007187961000003
Figure 0007187961000003

Figure 0007187961000004
Figure 0007187961000004

Figure 0007187961000005
Figure 0007187961000005

強化学習装置100は、他のフィールドにも同様に有効値を設定する。これにより、強化学習装置100は、出力ワット値の合計が需要電力ワット値に近づくほど、有効値が大きくなるように、有効値を算出することができる。このため、強化学習装置100は、有効値を参照して、発電システム200を適切に制御しやすくすることができる。また、強化学習装置100は、学習を行って更新する対象である有効性情報の数を減少させ、強化学習にかかる処理量の低減化を図ることができる。 The reinforcement learning device 100 similarly sets valid values for other fields. Thereby, the reinforcement learning device 100 can calculate the effective value such that the effective value increases as the total output watt value approaches the power demand watt value. For this reason, the reinforcement learning device 100 can refer to the effective value to facilitate appropriate control of the power generation system 200 . In addition, the reinforcement learning device 100 can reduce the number of pieces of effectiveness information to be updated by learning, thereby reducing the amount of processing required for reinforcement learning.

次に、図12の説明に移行し、区間切替部502が、予め作成された特定関数の近似曲線fi(t)に基づいて、粗分割テーブル802を通常テーブル801に変換し、利用するテーブルを通常テーブル801に切り替える一例について説明する。 12, the section switching unit 502 converts the rough division table 802 into the normal table 801 based on the approximated curve f i (t) of the specific function created in advance, and converts the table to be used. to the normal table 801 will be described.

図12は、利用するテーブルを通常テーブル801に切り替える一例を示す説明図である。図12において、強化学習装置100は、閾値α≦需要電力ワット値P’(tj)であるため、通常テーブル801を利用するテーブルに設定する。図12の例では、粗分割区間npsi-1から分割した通常区間nps1-1に対応する、●1201で示すフィールドに有効値を設定する場合について説明する。 FIG. 12 is an explanatory diagram showing an example of switching the table to be used to the normal table 801. As shown in FIG. In FIG. 12, the reinforcement learning apparatus 100 sets the table to be used in the normal table 801 because the threshold value α≦power demand watt value P′(t j ). In the example of FIG. 12, a case will be described in which a valid value is set in the field indicated by ● 1201 corresponding to the normal section nps1-1 divided from the coarsely divided section npsi-1.

強化学習装置100は、例えば、粗分割区間npsi-1に対応するレコードを特定する。次に、強化学習装置100は、特定したレコードに設定されたストール制御の風力発電機iに関する風速値Fs1,・・・,Fsnを取得する。また、強化学習装置100は、特定したレコードに設定されたピッチ制御の風力発電機iからの出力ワット値Pp1,・・・,Ppmを取得する。また、強化学習装置100は、特定したレコードに設定されたピッチ制御の風力発電機iに関する風速値Fp1,・・・,Fpmを取得する。また、強化学習装置100は、特定したレコードに設定された発電システム200全体に関する需要電力ワット値P’を取得する。 Reinforcement learning device 100 identifies, for example, a record corresponding to coarsely divided section npsi-1. Next, the reinforcement learning device 100 acquires the wind speed values F s1 , . The reinforcement learning device 100 also acquires the output watt values P p1 , . The reinforcement learning device 100 also acquires the wind speed values F p1 , . In addition, the reinforcement learning device 100 acquires the power demand watt value P' for the entire power generation system 200 set in the specified record.

強化学習装置100は、ストール制御の風力発電機iに対して、観測した風速Fsiと近似曲線fi(t)とに基づいて、電源をONにした時の予測出力電力P’si=fi(Fsi)を算出する。また、強化学習装置100は、ストール制御の風力発電機iに対して、電源をOFFにした時の予測出力電力P’si=0を決定する。 Reinforcement learning device 100 predicts output power P' si = f Calculate i (F si ). In addition, the reinforcement learning device 100 determines the predicted output power P' si =0 when the power supply is turned off for the stall-controlled wind power generator i.

また、強化学習装置100は、ピッチ制御の風力発電機iに対して、観測した風速Fpiと出力ワット値Ppiと近似曲線fi,Θ(t)とに基づいて、fi,Θ(Fpi)≒Ppiになるピッチ角Θを決定する。次に、強化学習装置100は、決定したピッチ角Θに対して-ΔΘ、±0、+ΔΘをした場合における予測出力電力P’pi=fi,Θ-ΔΘ(Fpi)、fi,Θ(Fpi)、fi,Θ+ΔΘ(Fpi)を算出する。 Further, the reinforcement learning device 100 calculates f i , Θ ( Determine the pitch angle Θ such that F pi )≈P pi . Next, the reinforcement learning device 100 calculates predicted output power P' pi =f i, Θ - ΔΘ (F pi ), f i, Θ when −ΔΘ, ±0, and +ΔΘ are applied to the determined pitch angle Θ. (F pi ), calculate f i, Θ + ΔΘ(F pi ).

強化学習装置100は、予測出力電力P’si=fi(Fsi)と、予測出力電力P’pi=fi,Θ-ΔΘ(Fpi)、fi,Θ(Fpi)、fi,Θ+ΔΘ(Fpi)とに基づいて、予測出力電力テーブル1200を作成する。強化学習装置100は、●1201で示すフィールドに対応する、ストール制御の風力発電機に対する指令値a1,・・・,anと、ピッチ制御の風力発電機に対する指令値b1,・・・,bmとを取得する。そして、強化学習装置100は、作成した予測出力電力テーブル1200から、取得した指令値に対応する予測出力電力P’siと、予測出力電力P’piとを取得し、上記式(1)を用いて、発電システム200全体における予測出力電力P~を算出する。 Reinforcement learning device 100 calculates predicted output power P′ si =f i (F si ), predicted output power P′ pi =f i, Θ ΔΘ(F pi ), f i, Θ(F pi ), f i , Θ + ΔΘ(F pi ) to create a predicted output power table 1200 . The reinforcement learning device 100 generates command values a1, . . . , an for the stall control wind power generator and command values b1, . to get Reinforcement learning device 100 acquires predicted output power P′ si and predicted output power P′ pi corresponding to the obtained command value from predicted output power table 1200 created above, and uses the above equation (1). Then, the predicted output power P˜ of the power generation system 200 as a whole is calculated.

そして、強化学習装置100は、取得した需要電力ワット値P’と、算出した予測出力電力P~との差分値P”に基づいて、有効値Q=r(P”)を算出して、●1201で示すフィールドに設定する。r(P”)は、具体的には、上記式(2)~上記式(5)により定義される。 Then, the reinforcement learning device 100 calculates the effective value Q=r(P") based on the difference value P" between the acquired power demand watt value P' and the calculated predicted output power P~, The field indicated by 1201 is set. Specifically, r(P″) is defined by the above formulas (2) to (5).

強化学習装置100は、通常区間nps1-1に対応する他のフィールド、および、通常区間npsiに対応するフィールドにも同様に有効値を設定する。これにより、強化学習装置100は、出力ワット値の合計が需要電力ワット値に近づくほど、有効値が大きくなるように、有効値を算出することができる。このため、強化学習装置100は、有効値を参照して、発電システム200を適切に制御しやすくすることができる。また、強化学習装置100は、学習を行って更新する対象である有効性情報の数を増加させ、どのような状態値の場合にどのような指令値を出力することが好ましいかを細分化し実行することができる。 Reinforcement learning apparatus 100 similarly sets valid values to other fields corresponding to the normal section nps1-1 and fields corresponding to the normal section npsi. Thereby, the reinforcement learning device 100 can calculate the effective value such that the effective value increases as the total output watt value approaches the power demand watt value. For this reason, the reinforcement learning device 100 can refer to the effective value to facilitate appropriate control of the power generation system 200 . In addition, the reinforcement learning device 100 increases the number of effectiveness information items to be updated by learning, and subdivides what kind of command value should be output for what kind of state value. can do.

以上では、強化学習装置100は、近似曲線fi(t)や近似曲線fi,Θ(t)に基づいて、有効値を算出した。ここで、現在の風速をFsi,Fpiとして、次の時刻で観測される風速をFsi+ΔFsi,Fpi+ΔFpiとする。この場合、次の時刻で観測される出力電力はfi(Fsi+ΔFsi)、fi,Θ-ΔΘ(Fpi+ΔFpi)、fi,Θ(Fpi+ΔFpi)、fi,Θ+ΔΘ(Fpi+ΔFpi)となる。さらに、近似曲線は連続関数であるため、次の時刻で観測される出力電力はfi(Fsi)+ΔPsi、fi,Θ-ΔΘ(Fpi)+ΔPpi、fi,Θ(Fpi)+ΔPpi、fi,Θ+ΔΘ(Fpi)+ΔPpiとなる。 As described above, the reinforcement learning device 100 has calculated effective values based on the approximated curve f i (t) and the approximated curve f i, Θ(t). Here, the current wind velocities are F si and F pi , and the wind velocities observed at the next time are F si +ΔF si and F pi +ΔF pi . In this case, the output powers observed at the following times are f i (F si +ΔF si ), f i, Θ - ΔΘ (F pi + ΔF pi ), f i, Θ (F pi + ΔF pi ), f i, Θ + ΔΘ(F pi +ΔF pi ). Furthermore, since the approximation curve is a continuous function, the output powers observed at the following times are f i (F si ) + ΔP si , f i, Θ - ΔΘ (F pi ) + ΔP pi , f i, Θ (F pi ) + ΔP pi , f i, Θ + ΔΘ(F pi ) + ΔP pi .

また、次の時刻での需要電力をP’+ΔP’とすれば、次の時刻での需要電力と出力電力との差P”nと、現在求めた需要電力と出力電力の差P”について、下記式(6)が成立する。また、報酬関数は連続関数であるため、下記式(7)が成立する。 Also, if the demand power at the next time is P'+ΔP', the difference P″ n between the demand power and the output power at the next time and the difference P″ between the demand power and the output power obtained at present are: The following formula (6) is established. Also, since the reward function is a continuous function, the following formula (7) holds.

Figure 0007187961000006
Figure 0007187961000006

Figure 0007187961000007
Figure 0007187961000007

ここで、ΔFsi→0、ΔFpi→0、ΔP→0であれば、P”n→P”、r(P”n)→r(P”)が成立する。したがって、風速が安定し、かつ、需要電力の変化が小さい場合には、P”n≒P”、r(P”n)≒r(P”)が成立する。このため、強化学習装置100が、ε-greedyアルゴリズムにより、最も大きい有効値r(P”)の指令値の組み合わせを選択すれば、下記式(8)により、出力電力の合計を需要電力に近づけることができると判断される。 If ΔF si →0, ΔF pi →0, and ΔP→0, then P″ n →P″ and r(P″ n )→r(P″) hold. Therefore, when the wind speed is stable and the change in power demand is small, P″ n≈P” and r(P″n ) ≈r(P″) are established. Therefore, if the reinforcement learning device 100 selects the command value combination with the largest effective value r(P″) by the ε-greedy algorithm, the total output power is brought closer to the demand power by the following equation (8). judged to be possible.

Figure 0007187961000008
Figure 0007187961000008

このように、強化学習装置100は、特性関数に基づいて有効値を算出することで、制御対象となる風力発電機に対し、実際の需用電力に応じた出力電力となるようにすることができる。このため、強化学習装置100は、有効値を0で初期化したり、有効値をランダムに設定したりする場合に比べて、適切な指令値を選択しやすくすることができる。 In this way, the reinforcement learning device 100 calculates the effective value based on the characteristic function, so that the wind power generator to be controlled can output power corresponding to the actual power demand. can. Therefore, the reinforcement learning device 100 can make it easier to select an appropriate command value than when initializing the valid value to 0 or setting the valid value randomly.

その後、強化学習装置100は、一定時間ごとに、ε-greedyアルゴリズムを用いて、指令値aiと指令値biとの組み合わせを行動として選択して出力する。強化学習装置100は、例えば、時刻tjにおいて、風速値Fsi(tj)と、風速値Fpi(tj)と、出力ワット値Psi(tj)と、出力ワット値Ppi(tj)と、需要電力ワット値P’(tj)とを、状態値として取得する。 After that, the reinforcement learning device 100 selects and outputs a combination of the command value ai and the command value bi as an action at regular time intervals using the ε-greedy algorithm. For example, at time tj , the reinforcement learning device 100 has a wind speed value F si (t j ), a wind speed value F pi (t j ), an output watt value P si (t j ), an output watt value P pi ( t j ) and the power demand watt value P′(t j ) are obtained as state values.

強化学習装置100は、風速値Fsi(tj)の属する区間Fsi~(tj)と、風速値Fpi(tj)の属する区間Fpi~(tj)とを特定する。強化学習装置100は、出力ワット値Psi(tj)の属する区間Psi~(tj)と、出力ワット値Ppi(tj)の属する区間Ppi~(tj)とを特定する。強化学習装置100は、需要電力ワット値P’(tj)の属する区間P’~(tj)を特定する。 The reinforcement learning device 100 identifies the interval F si ∼(t j ) to which the wind speed value F si (t j ) belongs and the interval F pi ∼(t j ) to which the wind speed value F pi (t j ) belongs. Reinforcement learning device 100 identifies section P si ~(t j ) to which output watt value P si (t j ) belongs and section P pi ~(t j ) to which output watt value P pi (t j ) belongs . Reinforcement learning device 100 identifies a section P'-(t j ) to which power demand watt value P'(t j ) belongs.

そして、強化学習装置100は、εの確率で、指令値aiと指令値biとの組み合わせをランダムに選択して出力する。強化学習装置100は、1-εの確率で、利用するテーブルとして設定された通常テーブル801または粗分割テーブル802のうち、取得した状態値が属する区間の組み合わせに対応するレコードを特定する。強化学習装置100は、特定したレコードにおいて、最も大きい有効値が対応付けられた指令値aiと指令値biとの組み合わせを選択して出力する。 Then, the reinforcement learning device 100 randomly selects and outputs a combination of the command value ai and the command value bi with a probability of ε. Reinforcement learning device 100 identifies, with a probability of 1-ε, a record corresponding to a combination of sections to which the acquired state values belong, from normal table 801 or coarse partition table 802 set as a table to be used. Reinforcement learning device 100 selects and outputs a combination of command value ai and command value bi associated with the largest effective value in the identified record.

また、強化学習装置100は、時刻tj-1で出力した指令値aiと指令値biとの組み合わせについて、時刻tjにおいて報酬値を算出する。強化学習装置100は、例えば、下記式(9)~下記式(12)により、報酬値r(tj)を算出する。具体的には、P”(tj)を下記式(9)により定義する。そして、P”(tj)>δの場合には下記式(10)によりr(tj)を定義し、-δ≦P”(tj)≦δの場合には下記式(11)によりr(tj)を定義し、P”(tj)<-δの場合には下記式(12)によりr(tj)を定義する。 Further, the reinforcement learning device 100 calculates a reward value at time tj for the combination of the command value ai and the command value bi output at time tj-1 . The reinforcement learning device 100 calculates the reward value r(t j ) by, for example, the following equations (9) to (12). Specifically, P″(t j ) is defined by the following equation (9). When P″(t j )>δ, r(t j ) is defined by the following equation (10), When −δ≦P″(t j )≦δ, r(t j ) is defined by the following formula (11), and when P″(t j )<−δ, r is defined by the following formula (12). Define (t j ).

Figure 0007187961000009
Figure 0007187961000009

Figure 0007187961000010
Figure 0007187961000010

Figure 0007187961000011
Figure 0007187961000011

Figure 0007187961000012
Figure 0007187961000012

次に、図13を用いて、情報処理装置が、指令値aiと指令値biとの組み合わせを出力したことに応じて算出した報酬値に基づいて、有効値を更新する場合について説明する。図13の例では、情報処理装置は、例えば、時刻tj+1において、時刻tjにおいて出力した指令値aiと指令値biとの組み合わせについて算出した報酬値に基づいて、有効値を更新する場合について説明する。 Next, with reference to FIG. 13, a case will be described in which the information processing apparatus updates the valid value based on the reward value calculated in response to outputting the combination of the command value ai and the command value bi. In the example of FIG. 13, the information processing device updates the effective value at time tj+1 , for example, based on the reward value calculated for the combination of the command value ai and the command value bi output at time tj . A case will be described.

図13は、有効値を更新する一例を示す説明図である。図13において、強化学習装置100は、時刻tjにおいて取得した状態値が属する区間の組み合わせに対応するレコードに対応付けられた、●1301で示すフィールドに設定された有効値Qを更新する。強化学習装置100は、例えば、下記式(13)および下記式(14)を用いて、時刻tj+1において算出した報酬値に基づいて、有効値Q’を算出し、●1301で示すフィールドに設定された有効値Qを更新する。 FIG. 13 is an explanatory diagram of an example of updating valid values. In FIG. 13, the reinforcement learning device 100 updates the valid value Q set in the field indicated by ● 1301 associated with the record corresponding to the combination of the sections to which the state values acquired at time t j belong. Reinforcement learning device 100, for example, using the following formula (13) and the following formula (14), based on the reward value calculated at time tj+1 , calculates the effective value Q', the field indicated by ● 1301 Update the valid value Q set to

強化学習装置100は、時刻tj+1において取得した状態値が属する区間の組み合わせに対応するレコードが、粗分割区間に対応するレコード、または、結合されうる通常区間に対応するレコードであれば、下記式(13)を用いて有効値Q’を算出する。また、強化学習装置100は、時刻tj+1において取得した状態値が属する区間の組み合わせに対応するレコードが、粗分割区間に対応するレコード、または、結合されうる通常区間に対応するレコードでなければ、下記式(14)を用いて有効値Q’を算出する。 If the record corresponding to the combination of the sections to which the state values acquired at time t j+1 belong is the record corresponding to the coarsely divided section or the record corresponding to the normal section that can be combined, the reinforcement learning device 100 An effective value Q' is calculated using the following formula (13). In addition, the reinforcement learning device 100 ensures that the record corresponding to the combination of sections to which the state value acquired at time t j+1 belongs is a record corresponding to a coarsely divided section or a record corresponding to a normal section that can be combined. For example, the effective value Q' is calculated using the following equation (14).

Figure 0007187961000013
Figure 0007187961000013

Figure 0007187961000014
Figure 0007187961000014

図13の例では、強化学習装置100は、時刻tj+1において取得した状態値が属する区間の組み合わせに対応するレコードが、粗分割区間に対応するレコード、または、結合されうる通常区間に対応するレコードではないと判定する。強化学習装置100は、フィールド1311の状態値、フィールド1312の有効値をmax関数に代入した値、および、有効値Qに基づいて、上記式(14)を用いて有効値Q’を算出する。 In the example of FIG. 13, the reinforcement learning device 100 determines that the record corresponding to the combination of sections to which the state value acquired at time t j+1 belongs corresponds to the record corresponding to the coarsely divided section or to the normal section that can be combined. It is determined that it is not a record that Reinforcement learning device 100 calculates effective value Q′ using the above equation (14) based on effective value Q and the state value of field 1311, the value obtained by substituting the effective value of field 1312 into the max function.

一方で、強化学習装置100が、時刻tj+1において取得した状態値が属する区間の組み合わせに対応するレコードが、粗分割区間に対応するレコード、または、結合されうる通常区間に対応するレコードであると判定する場合がある。この場合、強化学習装置100は、フィールド1310の状態値、フィールド1320の状態値、および、有効値Qに基づいて、上記式(13)を用いて有効値Q’を算出する。これにより、強化学習装置100は、有効性情報を更新し、発電システム200に対して適切な制御を行いやすくすることができる。 On the other hand, the record corresponding to the combination of the sections to which the state value acquired by the reinforcement learning device 100 at time t j+1 belongs is the record corresponding to the coarsely divided section or the record corresponding to the normal section that can be combined. It may be determined that there is In this case, the reinforcement learning device 100 calculates the effective value Q′ based on the state value of the field 1310, the state value of the field 1320, and the effective value Q using the above equation (13). As a result, the reinforcement learning device 100 can update the effectiveness information and facilitate appropriate control of the power generation system 200 .

(火力発電機を含む発電システム200についての強化学習装置100の動作例)
次に、図14および図15を用いて、火力発電機を含む発電システム200についての強化学習装置100の動作例について説明する。まず、図14の説明に移行し、火力発電機を含む発電システム200の具体的構成例について説明する。
(Example of operation of reinforcement learning device 100 for power generation system 200 including a thermal power generator)
Next, an operation example of the reinforcement learning device 100 for a power generation system 200 including a thermal power generator will be described with reference to FIGS. 14 and 15. FIG. First, moving to the description of FIG. 14, a specific configuration example of a power generation system 200 including a thermal power generator will be described.

図14は、火力発電機を含む発電システム200の具体的構成例を示す説明図である。図14の例では、発電システム200は、強化学習装置100と、燃料制御の火力発電機i(i=1,・・・,m)とを含む。燃料制御の火力発電機iは、指令値bi(i=1,・・・,m)を強化学習装置100から受信する。 FIG. 14 is an explanatory diagram showing a specific configuration example of a power generation system 200 including a thermal power generator. In the example of FIG. 14 , the power generation system 200 includes a reinforcement learning device 100 and a fuel-controlled thermal power generator i (i=1, . . . , m). A fuel-controlled thermal power generator i receives a command value bi (i=1, . . . , m) from the reinforcement learning device 100 .

発電システム200は、燃料制御の火力発電機iについての燃料計pi(i=1,・・・,m)とを含む。燃料計piは、燃料使用量Fpi(tj)を、強化学習装置100に送信する。発電システム200は、燃料制御の火力発電機iについての電力計とを含む。燃料制御の火力発電機iについての電力計は、出力ワット値Ppiを、強化学習装置100に送信する。 The power generation system 200 includes a fuel gauge pi (i=1, . . . , m) for a fuel controlled thermal power generator i. The fuel gauge pi transmits the fuel consumption F pi (t j ) to the reinforcement learning device 100 . Power generation system 200 includes a power meter for fuel controlled thermal generator i. The power meter for fuel-controlled thermal generator i sends the output wattage value P pi to the reinforcement learning device 100 .

強化学習装置100は、テーブル生成部501と、区間切替部502と、値設定部503と、行動決定部504と、状態計算部505と、報酬計算部506と、テーブル更新部507とを含む。ここで、火力発電機を含む発電システム200についての強化学習装置100が有する各部分の動作は、風力発電機を含む発電システム200についての強化学習装置100が有する各部分の動作と同様であるため、説明を省略する。ここで、図15の説明に移行し、火力発電機を含む発電システム200における、通常テーブル801の記憶内容の一例について説明する。 Reinforcement learning device 100 includes table generator 501 , interval switcher 502 , value setter 503 , action determiner 504 , state calculator 505 , reward calculator 506 , and table updater 507 . Here, the operation of each part of the reinforcement learning device 100 for the power generation system 200 including the thermal power generator is the same as the operation of each part of the reinforcement learning device 100 for the power generation system 200 including the wind power generator. , the description is omitted. Now, moving to the description of FIG. 15, an example of the contents stored in the normal table 801 in the power generation system 200 including the thermal power generator will be described.

図15は、火力発電機に関する通常テーブル801の記憶内容の一例を示す説明図である。図15に示すように、通常テーブル801は、状態値と指令値と有効値とのフィールドを有する。通常テーブル801は、各フィールドに情報を設定することにより、有効性情報をレコードとして記憶する。 FIG. 15 is an explanatory diagram showing an example of the contents of the normal table 801 regarding thermal power generators. As shown in FIG. 15, the normal table 801 has fields for status value, command value, and valid value. The normal table 801 stores validity information as a record by setting information in each field.

状態値のフィールドには、発電システム200に関する状態値が取りうる区間が設定される。発電システム200に関する状態値は、火力発電機に関する状態値、および、発電システム200全体に関する状態値を含む。図15の例では、火力発電機に関する状態値は、燃料制御の火力発電機に関する出力ワット値および燃料使用量とである。また、発電システム200全体に関する状態値は、発電システム200全体における需要電力である。 In the state value field, an interval in which the state value of the power generation system 200 can be set is set. The state values related to power generation system 200 include a state value related to the thermal power generator and a state value related to power generation system 200 as a whole. In the example of FIG. 15, the state values for the thermal generator are the output wattage value and the fuel usage for the fuel controlled thermal generator. Moreover, the state value related to the power generation system 200 as a whole is the power demand in the power generation system 200 as a whole.

指令値のフィールドには、火力発電機に対する指令値が設定される。図15の例では、火力発電機に対する指令値は、燃料制御の火力発電機の燃料使用量をどの程度変更するかを示す指令値である。燃料使用量をどの程度変更するかを示す指令値は、具体的には、-Xと±0と+Xとである。有効値のフィールドには、それぞれの状態値がいずれかの区間に含まれる場合における、火力発電機ごとの指令値の組み合わせの有効性を示す有効値が設定される。 A command value for the thermal power generator is set in the command value field. In the example of FIG. 15, the command value for the thermal power generator is a command value indicating how much the amount of fuel used by the thermal power generator under fuel control is to be changed. Specifically, the command values indicating how much the fuel consumption is to be changed are -X, ±0 and +X. The effective value field is set with effective values indicating the effectiveness of a combination of command values for each thermal power generator when each state value is included in one of the sections.

(全体処理手順)
次に、図16を用いて、強化学習装置100が実行する、全体処理手順の一例について説明する。全体処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
(Overall processing procedure)
Next, an example of an overall processing procedure executed by the reinforcement learning device 100 will be described with reference to FIG. 16 . The overall processing is realized by, for example, the CPU 301, storage areas such as the memory 302 and the recording medium 305, and the network I/F 303 shown in FIG.

図16は、全体処理手順の一例を示すフローチャートである。図16において、強化学習装置100は、複数の通常区間についてのテーブルを作成し、粗分割区間になりうる2以上の通常区間を設定する(ステップS1601)。 FIG. 16 is a flow chart showing an example of the overall processing procedure. In FIG. 16, the reinforcement learning device 100 creates a table for a plurality of normal intervals, and sets two or more normal intervals that can be roughly divided intervals (step S1601).

次に、強化学習装置100は、図17に後述する切替判定処理を実行し、利用するテーブルを設定する(ステップS1602)。そして、強化学習装置100は、図18に後述する値設定処理を実行し、設定したテーブルに対して有効値を設定する(ステップS1603)。 Next, the reinforcement learning device 100 executes switching determination processing, which will be described later with reference to FIG. 17, and sets a table to be used (step S1602). Then, the reinforcement learning device 100 executes the value setting process described later with reference to FIG. 18, and sets valid values in the set table (step S1603).

次に、強化学習装置100は、風力発電機からの出力ワット値と、風速値と、需要電力ワット値とに基づいて、風力発電機の状態を特定する(ステップS1604)。そして、強化学習装置100は、風力発電機からの出力ワット値と需要電力ワット値とに基づいて、風力発電機からの報酬を算出する(ステップS1605)。 Next, the reinforcement learning device 100 identifies the state of the wind power generator based on the output watt value, wind speed value, and power demand watt value from the wind power generator (step S1604). Then, the reinforcement learning device 100 calculates a reward from the wind power generator based on the output watt value and the power demand watt value from the wind power generator (step S1605).

次に、強化学習装置100は、設定したテーブルを利用して、風力発電機に対する指令値を決定して出力する(ステップS1606)。そして、強化学習装置100は、算出した報酬に基づいて、設定したテーブルに記憶された有効値を更新する(ステップS1607)。その後、強化学習装置100は、ステップS1602の処理に戻る。 Next, the reinforcement learning device 100 uses the set table to determine and output a command value for the wind power generator (step S1606). Then, the reinforcement learning device 100 updates the effective value stored in the set table based on the calculated reward (step S1607). After that, the reinforcement learning device 100 returns to the process of step S1602.

(切替判定処理手順)
次に、図17を用いて、強化学習装置100が実行する、切替判定処理手順の一例について説明する。切替判定処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
(Switching determination processing procedure)
Next, an example of a switching determination processing procedure executed by the reinforcement learning device 100 will be described with reference to FIG. 17 . The switching determination process is realized by, for example, the CPU 301, storage areas such as the memory 302 and the recording medium 305, and the network I/F 303 shown in FIG.

図17は、切替判定処理手順の一例を示すフローチャートである。図17において、強化学習装置100は、閾値αを設定する(ステップS1701)。次に、強化学習装置100は、需要電力ワット値P’(tj)に対し、α>P’(tj)であるか否かを判定する(ステップS1702)。 FIG. 17 is a flowchart illustrating an example of a switching determination processing procedure; In FIG. 17, the reinforcement learning device 100 sets a threshold α (step S1701). Next, the reinforcement learning device 100 determines whether or not α>P'(t j ) for the power demand watt value P'(t j ) (step S1702).

ここで、α>P’(tj)である場合(ステップS1702:Yes)、強化学習装置100は、ステップS1707の処理に移行する。一方で、α>P’(tj)ではない場合(ステップS1702:No)、強化学習装置100は、ステップS1703の処理に移行する。 If α>P′(t j ) (step S1702: Yes), the reinforcement learning device 100 proceeds to step S1707. On the other hand, if α>P'(t j ) is not satisfied (step S1702: No), the reinforcement learning device 100 proceeds to the process of step S1703.

ステップS1703では、強化学習装置100は、通常区間についての通常テーブル801を利用すると決定する(ステップS1703)。次に、強化学習装置100は、直前まで通常区間についての通常テーブル801を利用していたか否かを判定する(ステップS1704)。 At step S1703, the reinforcement learning device 100 determines to use the normal table 801 for the normal section (step S1703). Next, the reinforcement learning device 100 determines whether or not the normal table 801 for the normal section was used until immediately before (step S1704).

ここで、通常区間についての通常テーブル801を利用している場合(ステップS1704:Yes)、強化学習装置100は、ステップS1706の処理に移行する。一方で、通常区間についての通常テーブル801を利用していない場合(ステップS1704:No)、強化学習装置100は、ステップS1705の処理に移行する。 Here, if the normal table 801 for the normal section is used (step S1704: Yes), the reinforcement learning device 100 proceeds to the process of step S1706. On the other hand, if the normal table 801 for the normal section is not used (step S1704: No), the reinforcement learning device 100 proceeds to the process of step S1705.

ステップS1705では、強化学習装置100は、通常区間についての通常テーブル801を作成し、利用するテーブルに設定する(ステップS1705)。そして、強化学習装置100は、切替判定処理を終了する。 At step S1705, the reinforcement learning device 100 creates the normal table 801 for the normal section and sets it as the table to be used (step S1705). Then, the reinforcement learning device 100 ends the switching determination process.

ステップS1706では、強化学習装置100は、直前まで利用していたテーブルをそのまま、利用するテーブルに設定する(ステップS1706)。そして、強化学習装置100は、切替判定処理を終了する。 At step S1706, the reinforcement learning apparatus 100 sets the table that was used immediately before as the table to be used (step S1706). Then, the reinforcement learning device 100 ends the switching determination process.

ステップS1707では、強化学習装置100は、粗分割区間についての粗分割テーブル802を利用すると決定する(ステップS1707)。次に、強化学習装置100は、直前まで粗分割区間についての粗分割テーブル802を利用していたか否かを判定する(ステップS1708)。 At step S1707, the reinforcement learning device 100 determines to use the coarse division table 802 for the coarse division section (step S1707). Next, the reinforcement learning device 100 determines whether or not the coarse division table 802 for the coarse division section was used until immediately before (step S1708).

ここで、粗分割区間についての粗分割テーブル802を利用している場合(ステップS1708:Yes)、強化学習装置100は、ステップS1706の処理に移行する。一方で、粗分割区間についての粗分割テーブル802を利用していない場合(ステップS1708:No)、強化学習装置100は、ステップS1709の処理に移行する。 Here, if the coarse division table 802 for the coarse division section is used (step S1708: Yes), the reinforcement learning device 100 proceeds to the process of step S1706. On the other hand, if the coarse division table 802 for the coarse division section is not used (step S1708: No), the reinforcement learning device 100 proceeds to the process of step S1709.

ステップS1709では、強化学習装置100は、粗分割区間についての粗分割テーブル802を作成し、利用するテーブルに設定する(ステップS1709)。そして、強化学習装置100は、切替判定処理を終了する。 In step S1709, the reinforcement learning device 100 creates a coarse division table 802 for the coarse division section and sets it as a table to be used (step S1709). Then, the reinforcement learning device 100 ends the switching determination process.

(値設定処理手順)
次に、図18を用いて、強化学習装置100が実行する、値設定処理手順の一例について説明する。値設定処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
(Value setting processing procedure)
Next, an example of the value setting processing procedure executed by the reinforcement learning device 100 will be described with reference to FIG. 18 . The value setting process is realized by, for example, the CPU 301, storage areas such as the memory 302 and the recording medium 305, and the network I/F 303 shown in FIG.

図18は、値設定処理手順の一例を示すフローチャートである。図18において、強化学習装置100は、利用するテーブルから、粗分割区間を分割する通常区間、または、通常区間を結合する粗分割区間に対応するレコードを特定する(ステップS1801)。 FIG. 18 is a flowchart illustrating an example of a value setting procedure. In FIG. 18, the reinforcement learning device 100 identifies, from the table to be used, a record corresponding to a normal section into which coarsely divided sections are divided or a coarsely divided section into which normal sections are combined (step S1801).

次に、強化学習装置100は、特定したレコードに設定されたストール制御の風力発電機i(i=1,・・・,n)に関する風速値Fs1,・・・,Fsnを取得する(ステップS1802)。そして、強化学習装置100は、特定したレコードに設定されたピッチ制御の風力発電機i(i=1,・・・,m)からの出力ワット値Pp1,・・・,Ppmを取得する(ステップS1803)。 Next, the reinforcement learning device 100 acquires the wind speed values F s1 , . . . , F sn for the stall control wind power generator i (i=1, . step S1802). Then, the reinforcement learning device 100 acquires the output watt values P p1 , . . . , P pm from the pitch-controlled wind power generator i (i=1, . (Step S1803).

次に、強化学習装置100は、特定したレコードに設定されたピッチ制御の風力発電機i(i=1,・・・,m)に関する風速値Fp1,・・・,Fpmを取得する(ステップS1804)。そして、強化学習装置100は、特定したレコードに設定された発電システム200全体に関する需要電力ワット値P’を取得する(ステップS1805)。 Next, the reinforcement learning device 100 acquires the wind speed values F p1 , . step S1804). Then, the reinforcement learning device 100 acquires the power demand watt value P' for the entire power generation system 200 set in the specified record (step S1805).

次に、強化学習装置100は、ストール制御の風力発電機i(i=1,・・・,n)に対して、観測した風速Fsiと近似曲線fi(t)とに基づいて、電源をONにした時の予測出力電力fi(Fsi)を算出する(ステップS1806)。そして、強化学習装置100は、ピッチ制御の風力発電機i(i=1,・・・,m)に対して、観測した風速Fpiと出力ワット値Ppiと近似曲線fi,Θ(t)とに基づいて、fi,Θ(Fpi)≒Ppiになるピッチ角Θを決定する(ステップS1807)。 Next, the reinforcement learning device 100 performs power supply is turned on, the predicted output power f i (F si ) is calculated (step S1806). Then, the reinforcement learning device 100 calculates the observed wind speed F pi , the output watt value P pi , and the approximation curve f i, Θ(t ), the pitch angle Θ that satisfies f i, Θ(F pi )≈P pi is determined (step S1807).

次に、強化学習装置100は、決定したピッチ角Θに対して-ΔΘ、±0、+ΔΘをした場合における予測出力電力fi,Θ-ΔΘ(Fpi)、fi,Θ(Fpi)、fi,Θ+ΔΘ(Fpi)を算出する(ステップS1808)。そして、強化学習装置100は、予測出力電力fi(Fsi)と、予測出力電力fi,Θ-ΔΘ(Fpi)、fi,Θ(Fpi)、fi,Θ+ΔΘ(Fpi)とに基づいて、予測出力電力テーブルを作成する(ステップS1809)。 Next, the reinforcement learning device 100 obtains predicted output powers f i, Θ - ΔΘ (F pi ) and f i, Θ (F pi ) when −ΔΘ, ±0, and +ΔΘ are applied to the determined pitch angle Θ. , f i, Θ + ΔΘ(F pi ) are calculated (step S1808). Then, the reinforcement learning device 100 calculates the predicted output power f i (F si ), the predicted output power f i, Θ ΔΘ (F pi ), f i, Θ (F pi ), f i, Θ + ΔΘ (F pi ), a predicted output power table is created (step S1809).

次に、強化学習装置100は、特定したレコードにあるフィールドごとに、ストール制御の風力発電機に対する指令値a1,・・・,anと、ピッチ制御の風力発電機に対する指令値b1,・・・,bmとを取得する(ステップS1810)。そして、強化学習装置100は、特定したレコードにあるフィールドごとに、取得した指令値と作成した予測出力電力テーブルとに基づいて、発電システム200全体における予測出力電力P~を算出する(ステップS1811)。 Next, the reinforcement learning device 100 calculates command values a1, . . . , an for the stall control wind power generators and command values b1, . , bm are acquired (step S1810). Then, the reinforcement learning device 100 calculates the predicted output power P∼ of the entire power generation system 200 based on the obtained command value and the prepared predicted output power table for each field in the specified record (step S1811). .

次に、強化学習装置100は、特定したレコードにあるフィールドごとに、需要電力ワット値P’と算出した予測出力電力P~との差分値に基づいて、有効値を算出して設定する(ステップS1812)。そして、強化学習装置100は、値設定処理を終了する。 Next, the reinforcement learning device 100 calculates and sets an effective value based on the difference value between the demand power watt value P′ and the calculated predicted output power P~ for each field in the specified record (step S1812). Then, the reinforcement learning device 100 ends the value setting process.

(特性関数作成処理手順)
次に、図19および図20を用いて、強化学習装置100が実行する、特性関数作成処理手順の一例について説明する。特性関数作成処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
(Characteristic function creation processing procedure)
Next, an example of a characteristic function creation processing procedure executed by the reinforcement learning device 100 will be described with reference to FIGS. 19 and 20. FIG. The characteristic function creation process is realized by, for example, the CPU 301, storage areas such as the memory 302 and the recording medium 305, and the network I/F 303 shown in FIG.

図19は、ストール制御の風力発電機についての特性関数作成処理手順の一例を示すフローチャートである。図19において、強化学習装置100は、様々な風速におけるストール制御の風力発電機からの出力ワット値を観測する(ステップS1901)。 FIG. 19 is a flow chart showing an example of a characteristic function creation processing procedure for a stall control wind power generator. In FIG. 19, the reinforcement learning device 100 observes output watt values from stall-controlled wind power generators at various wind speeds (step S1901).

次に、強化学習装置100は、様々な風速における出力ワット値に基づいて、ストール制御の風力発電機についての特性関数が示す特性曲線を近似する近似曲線fi(t)を求める(ステップS1902)。そして、強化学習装置100は、ストール制御の風力発電機についての特性関数作成処理を終了する。 Next, the reinforcement learning device 100 obtains an approximation curve f i (t) that approximates the characteristic curve indicated by the characteristic function of the stall control wind power generator based on the output watt values at various wind speeds (step S1902). . Then, the reinforcement learning device 100 ends the characteristic function creation process for the stall control wind power generator.

図20は、ピッチ制御の風力発電機についての特性関数作成処理手順の一例を示すフローチャートである。図20において、強化学習装置100は、ピッチ制御の風力発電機における最大ピッチ角MΘを取得する(ステップS2001)。 FIG. 20 is a flowchart showing an example of a characteristic function creation processing procedure for a pitch-controlled wind power generator. In FIG. 20, the reinforcement learning device 100 acquires the maximum pitch angle MΘ in the pitch-controlled wind power generator (step S2001).

次に、強化学習装置100は、ピッチ制御の風力発電機に対してピッチ角Θ=0を設定する(ステップS2002)。そして、強化学習装置100は、Θ<MΘであるか否かを判定する(ステップS2003)。 Next, the reinforcement learning device 100 sets the pitch angle Θ=0 for the pitch-controlled wind power generator (step S2002). Then, the reinforcement learning device 100 determines whether or not Θ<MΘ (step S2003).

ここで、Θ<MΘである場合(ステップS2003:Yes)、強化学習装置100は、ステップS2004の処理に移行する。一方で、Θ<MΘではない場合(ステップS2003:No)、強化学習装置100は、ピッチ制御の風力発電機についての特性関数作成処理を終了する。 Here, if Θ<MΘ (step S2003: Yes), the reinforcement learning device 100 proceeds to the process of step S2004. On the other hand, if Θ<MΘ is not true (step S2003: No), the reinforcement learning device 100 terminates the characteristic function creation process for the pitch-controlled wind power generator.

ステップS2004では、強化学習装置100は、様々な風速におけるピッチ制御の風力発電機からの出力ワット値を観測する(ステップS2004)。次に、強化学習装置100は、様々な風速における出力ワット値に基づいて、ピッチ制御の風力発電機についての特性関数が示す特性曲線を近似する近似曲線fi,Θ(t)を求める(ステップS2005)。 In step S2004, the reinforcement learning apparatus 100 observes output watt values from the pitch-controlled wind power generator at various wind speeds (step S2004). Next, the reinforcement learning device 100 obtains an approximation curve f i, Θ(t) that approximates the characteristic curve indicated by the characteristic function of the pitch-controlled wind power generator based on the output watt values at various wind speeds (step S2005).

そして、強化学習装置100は、ピッチ角Θ=Θ+ΔΘに設定する(ステップS2006)。その後、強化学習装置100は、ステップS2003の処理に戻る。 Then, the reinforcement learning device 100 sets the pitch angle Θ=Θ+ΔΘ (step S2006). After that, the reinforcement learning device 100 returns to the process of step S2003.

ここで、強化学習装置100は、上述した各種フローチャートのうち一部ステップの処理の順序を入れ替えて実行してもよい。また、強化学習装置100は、上述した各種フローチャートのうち一部ステップの処理を省略してもよい。 Here, the reinforcement learning device 100 may change the order of the processing of some steps in the various flowcharts described above. Further, the reinforcement learning device 100 may omit the processing of some steps in the various flowcharts described above.

以上説明したように、強化学習装置100によれば、発電機201に関する状態値が取りうる複数の領域のそれぞれの領域における発電機201に対する指令値ごとの有効性を示す有効性情報を利用して学習を行うことができる。強化学習装置100によれば、観測した発電機201に関する状態値を参照し、特性関数に基づいて、複数の領域のうち連続する2以上の領域を結合した領域における発電機201に対する指令値ごとの有効性を示す有効性情報を生成することができる。強化学習装置100によれば、生成した結合した領域についての有効性情報、および、複数の領域のうち2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行うことができる。これにより、強化学習装置100は、学習を行って更新する対象である有効性情報の数を減少させ、強化学習にかかる処理量の低減化を図ることができる。 As described above, according to the reinforcement learning device 100, the effectiveness information indicating the effectiveness of each command value for the generator 201 in each of the plurality of regions where the state value of the generator 201 can take is used. can learn. According to the reinforcement learning device 100, with reference to the observed state value of the generator 201, based on the characteristic function, for each command value for the generator 201 in a region combining two or more consecutive regions among a plurality of regions Validity information can be generated that indicates validity. According to the reinforcement learning device 100, learning can be performed using the validity information about the generated combined regions and the validity information about each region other than two or more regions among the plurality of regions. . As a result, the reinforcement learning device 100 can reduce the number of pieces of effectiveness information to be updated through learning, thereby reducing the amount of processing required for reinforcement learning.

強化学習装置100によれば、観測した発電機201に関する状態値を参照し、特性関数に基づいて、2以上の領域のそれぞれの領域における発電機201に対する指令値ごとの有効性を示す有効性情報を生成することができる。強化学習装置100によれば、生成した2以上の領域のそれぞれの領域についての有効性情報、および、複数の領域のうち2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行うことができる。これにより、強化学習装置100は、どのような状態値の場合にどのような指令値を出力することが好ましいかを細分化して実行することができる。 According to the reinforcement learning device 100, the observed state value of the generator 201 is referred to, and based on the characteristic function, effectiveness information indicating the effectiveness of each command value for the generator 201 in each of two or more regions. can be generated. According to the reinforcement learning device 100, learning is performed using the validity information for each of the generated two or more regions and the validity information for each region other than the two or more regions among the plurality of regions. It can be performed. As a result, the reinforcement learning device 100 can subdivide which command value should be output for which state value.

強化学習装置100によれば、発電機201の状態値の組み合わせが取りうる複数の領域のそれぞれの領域における、発電機201の指令値の組み合わせごとの有効性を示す有効性情報を利用して学習を行うことができる。強化学習装置100によれば、観測した発電機201の状態値を参照し、特性関数に基づいて、複数の領域のうち連続する2以上の領域を結合した領域における、発電機201の指令値の組み合わせごとの有効性を示す有効性情報を生成することができる。強化学習装置100によれば、生成した結合した領域についての有効性情報、および、複数の領域のうち2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行うことができる。これにより、強化学習装置100は、発電機201が複数ある場合に適用することができる。 According to the reinforcement learning device 100, learning is performed using effectiveness information indicating the effectiveness of each combination of the command values of the generator 201 in each of a plurality of regions that can be taken by the combination of the state values of the generator 201. It can be performed. According to the reinforcement learning device 100, the observed state value of the generator 201 is referred to, and based on the characteristic function, the command value of the generator 201 in a region obtained by combining two or more consecutive regions among a plurality of regions. Efficacy information can be generated that indicates the efficacy of each combination. According to the reinforcement learning device 100, learning can be performed using the validity information about the generated combined regions and the validity information about each region other than two or more regions among the plurality of regions. . Thereby, the reinforcement learning device 100 can be applied when there are a plurality of generators 201 .

強化学習装置100によれば、風力発電機についての有効性情報を生成することができる。これにより、強化学習装置100は、風力発電機を含む発電システム200に適用することができる。 The reinforcement learning device 100 can generate effectiveness information about the wind power generator. Thereby, the reinforcement learning device 100 can be applied to the power generation system 200 including the wind power generator.

強化学習装置100によれば、特性関数に基づいて、観測した風速に対応する出力電力を特定し、特定した出力電力に基づいて、結合した領域についての有効性情報を生成することができる。これにより、強化学習装置100は、ストール制御の風力発電機についての有効性情報を生成することができる。 According to the reinforcement learning device 100, it is possible to identify the output power corresponding to the observed wind speed based on the characteristic function, and to generate effectiveness information about the combined region based on the identified output power. Thereby, the reinforcement learning device 100 can generate effectiveness information about the stall control wind power generator.

強化学習装置100によれば、発電機201の受風性能ごとに異なる複数の特性関数のうち、観測した風速および出力電力に対応する特性関数に基づいて、結合した領域についての有効性情報を生成することができる。これにより、強化学習装置100は、ピッチ制御の風力発電機についての有効性情報を生成することができる。 According to the reinforcement learning device 100, among the plurality of characteristic functions that differ for each wind performance of the generator 201, based on the characteristic function corresponding to the observed wind speed and output power, generate effectiveness information about the combined area. can do. Thereby, the reinforcement learning device 100 can generate effectiveness information about the pitch-controlled wind power generator.

強化学習装置100によれば、火力発電機についての有効性情報を生成することができる。これにより、強化学習装置100は、火力発電機を含む発電システム200に適用することができる。 The reinforcement learning device 100 can generate effectiveness information about a thermal power generator. Thereby, the reinforcement learning device 100 can be applied to a power generation system 200 including a thermal power generator.

強化学習装置100によれば、観測した需要電力が閾値以下である場合に、結合した領域についての有効性情報を生成することができる。これにより、強化学習装置100は、比較的大きな出力電力の領域については詳細に検証しなくてもよい場合に、学習を行って更新する対象である有効性情報の数を減少させることができる。ここで、強化学習装置100は、比較的大きな出力電力の領域について結合すれば、発電システムに対する制御に与える悪影響を抑制することができる。 According to the reinforcement learning device 100, when the observed power demand is equal to or less than the threshold, it is possible to generate effectiveness information about the combined regions. As a result, reinforcement learning apparatus 100 can reduce the number of pieces of effectiveness information to be updated through learning when it is not necessary to perform detailed verification for regions with relatively high output power. Here, the reinforcement learning device 100 can suppress adverse effects on the control of the power generation system by combining regions of relatively large output power.

強化学習装置100によれば、観測した需要電力が閾値を超える場合に、結合した領域についての有効性情報を生成することができる。これにより、強化学習装置100は、比較的小さな出力電力の領域については詳細に検証しなくてもよい場合に、学習を行って更新する対象である有効性情報の数を減少させることができる。ここで、強化学習装置100は、比較的小さな出力電力の領域について結合すれば、発電システムに対する制御に与える悪影響を抑制することができる。 According to the reinforcement learning device 100, when the observed power demand exceeds the threshold, effectiveness information about the combined regions can be generated. As a result, the reinforcement learning apparatus 100 can reduce the number of pieces of effectiveness information to be updated by performing learning when it is not necessary to verify in detail a region of relatively low output power. Here, the reinforcement learning device 100 can suppress adverse effects on the control of the power generation system by combining regions of relatively small output power.

強化学習装置100によれば、2以上の領域のそれぞれの領域についての有効性情報に基づいて、2以上の領域を結合した領域についての有効性情報を生成することができる。これにより、強化学習装置100は、特性関数が不明であっても、学習を行って更新する対象である有効性情報の数を減少させ、強化学習にかかる処理量の低減化を図ることができる。 According to the reinforcement learning device 100, effectiveness information for a combined area of two or more areas can be generated based on effectiveness information for each of the two or more areas. As a result, even if the characteristic function is unknown, the reinforcement learning device 100 can reduce the number of pieces of effectiveness information to be updated by learning, thereby reducing the amount of processing required for reinforcement learning. .

なお、本実施の形態で説明した強化学習方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本実施の形態で説明した強化学習プログラムは、ハードディスク、フレキシブルディスク、CD-ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本実施の形態で説明した強化学習プログラムは、インターネット等のネットワークを介して配布してもよい。 The reinforcement learning method described in this embodiment can be realized by executing a prepared program on a computer such as a personal computer or a workstation. The reinforcement learning program described in the present embodiment is recorded on a computer-readable recording medium such as a hard disk, flexible disk, CD-ROM, MO, DVD, etc., and executed by being read from the recording medium by a computer. Also, the reinforcement learning program described in the present embodiment may be distributed via a network such as the Internet.

上述した実施の形態に関し、さらに以下の付記を開示する。 Further, the following additional remarks are disclosed with respect to the above-described embodiment.

(付記1)コンピュータに、
発電機に関する状態値が取りうる複数の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を利用して学習を行い、
観測した前記発電機に関する状態値を参照し、前記発電機に関する状態値についての特性関数に基づいて、前記複数の領域のうち連続する2以上の領域を結合した領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を生成し、
生成した前記結合した領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う、
処理を実行させることを特徴とする強化学習プログラム。
(Appendix 1) to the computer,
Learning using effectiveness information indicating the effectiveness of each command value for the generator in each of a plurality of regions that the state value related to the generator can take,
By referring to the observed state value of the generator, and based on the characteristic function of the state value of the generator, each command value for the generator in a region combining two or more consecutive regions among the plurality of regions generate validity information indicating the validity of
learning using validity information about the generated combined regions and validity information about each region other than the two or more regions among the plurality of regions;
A reinforcement learning program characterized by executing processing.

(付記2)前記コンピュータに、
観測した前記発電機に関する状態値を参照し、前記発電機に関する状態値についての特性関数に基づいて、前記2以上の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を生成し、
生成した前記2以上の領域のそれぞれの領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う、
処理を実行させることを特徴とする付記1に記載の強化学習プログラム。
(Appendix 2) In the computer,
Effectiveness indicating the effectiveness of each command value for the generator in each of the two or more regions, with reference to the observed state value of the generator and based on a characteristic function of the state value of the generator generate information,
learning using validity information for each of the generated two or more regions and validity information for each region other than the two or more regions among the plurality of regions;
The reinforcement learning program according to Supplementary Note 1, characterized by causing a process to be executed.

(付記3)前記コンピュータに、
前記発電機が複数ある場合、前記発電機の状態値の組み合わせが取りうる複数の領域のそれぞれの領域における、前記発電機の指令値の組み合わせごとの有効性を示す有効性情報を利用して学習を行い、
観測した前記発電機の状態値を参照し、前記特性関数に基づいて、前記複数の領域のうち連続する2以上の領域を結合した領域における、前記発電機の指令値の組み合わせごとの有効性を示す有効性情報を生成し、
生成した前記結合した領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う、
処理を実行させることを特徴とする付記1または2に記載の強化学習プログラム。
(Appendix 3) In the computer,
When there are a plurality of generators, learning using effectiveness information indicating the effectiveness of each combination of command values of the generators in each of a plurality of regions that can be taken by the combination of the state values of the generators. and
Referring to the observed state values of the generator, and based on the characteristic function, the effectiveness of each combination of command values of the generator in a region obtained by combining two or more consecutive regions among the plurality of regions. generate validity information indicating
learning using validity information about the generated combined regions and validity information about each region other than the two or more regions among the plurality of regions;
3. The reinforcement learning program according to appendix 1 or 2, characterized by causing a process to be executed.

(付記4)前記発電機は、風力発電機であり、
前記発電機に関する状態値は、風速、および、出力電力である、ことを特徴とする付記1~3のいずれか一つに記載の強化学習プログラム。
(Appendix 4) The generator is a wind power generator,
4. The reinforcement learning program according to any one of appendices 1 to 3, wherein the state values relating to the generator are wind speed and output power.

(付記5)前記特性関数は、風速と前記発電機からの出力電力との関係を示し、
前記結合した領域についての有効性情報を生成する処理は、前記特性関数に基づいて、観測した風速に対応する出力電力を特定し、特定した前記出力電力に基づいて、前記結合した領域についての有効性情報を生成する、ことを特徴とする付記4に記載の強化学習プログラム。
(Appendix 5) The characteristic function indicates the relationship between the wind speed and the output power from the generator,
The process of generating effectiveness information for the combined region includes identifying output power corresponding to the observed wind speed based on the characteristic function, and determining effectiveness for the combined region based on the identified output power. The reinforcement learning program according to appendix 4, which generates sex information.

(付記6)前記発電機は、受風性能を変更可能であり、
前記指令値は、受風性能を制御する指令値であり、
前記特性関数は、風速と前記発電機からの出力電力との関係を示し、
前記結合した領域についての有効性情報を生成する処理は、前記発電機の受風性能ごとに異なる複数の前記特性関数のうち、観測した風速および出力電力に対応する前記特性関数に基づいて、前記結合した領域についての有効性情報を生成する、ことを特徴とする付記4に記載の強化学習プログラム。
(Additional remark 6) The generator can change the wind reception performance,
The command value is a command value for controlling wind reception performance,
The characteristic function indicates the relationship between wind speed and power output from the generator,
The process of generating effectiveness information for the combined region includes, from among the plurality of characteristic functions that differ for each wind reception performance of the generator, based on the characteristic function corresponding to the observed wind speed and output power, 5. The reinforcement learning program of Claim 4, wherein the program generates efficacy information for bound regions.

(付記7)前記発電機は、火力発電機であり、
前記発電機に関する状態値は、燃料使用量、および、出力電力である、ことを特徴とする付記1~3のいずれか一つに記載の強化学習プログラム。
(Appendix 7) The generator is a thermal power generator,
4. The reinforcement learning program according to any one of Appendices 1 to 3, wherein the state values relating to the generator are fuel consumption and output power.

(付記8)前記結合した領域についての有効性情報を生成する処理は、観測した需要電力が閾値以下である場合に、前記結合した領域についての有効性情報を生成する、ことを特徴とする付記1~7のいずれか一つに記載の強化学習プログラム。 (Supplementary note 8) A supplementary note characterized in that the process of generating validity information about the combined area generates the validity information about the combined area when the observed power demand is equal to or less than a threshold. The reinforcement learning program according to any one of 1 to 7.

(付記9)前記結合した領域についての有効性情報を生成する処理は、観測した需要電力が閾値を超える場合に、前記結合した領域についての有効性情報を生成する、ことを特徴とする付記1~7のいずれか一つに記載の強化学習プログラム。 (Supplementary note 9) Supplementary note 1 characterized in that the process of generating validity information about the combined area generates the validity information about the combined area when the observed power demand exceeds a threshold. 8. The reinforcement learning program according to any one of 7.

(付記10)コンピュータが、
発電機に関する状態値が取りうる複数の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を利用して学習を行い、
観測した前記発電機に関する状態値を参照し、前記発電機に関する状態値についての特性関数に基づいて、前記複数の領域のうち連続する2以上の領域を結合した領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を生成し、
生成した前記結合した領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う、
処理を実行することを特徴とする強化学習方法。
(Appendix 10) The computer
Learning using effectiveness information indicating the effectiveness of each command value for the generator in each of a plurality of regions that the state value related to the generator can take,
By referring to the observed state value of the generator, and based on the characteristic function of the state value of the generator, each command value for the generator in a region combining two or more consecutive regions among the plurality of regions generate validity information indicating the validity of
learning using validity information about the generated combined regions and validity information about each region other than the two or more regions among the plurality of regions;
A reinforcement learning method characterized by executing a process.

(付記11)発電機に関する状態値が取りうる複数の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を利用して学習を行い、
観測した前記発電機に関する状態値を参照し、前記発電機に関する状態値についての特性関数に基づいて、前記複数の領域のうち連続する2以上の領域を結合した領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を生成し、
生成した前記結合した領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う、
制御部を有することを特徴とする強化学習装置。
(Appendix 11) learning using effectiveness information indicating the effectiveness of each command value for the generator in each of a plurality of areas that the state value related to the generator can take,
By referring to the observed state value of the generator, and based on the characteristic function of the state value of the generator, each command value for the generator in a region combining two or more consecutive regions among the plurality of regions generate validity information indicating the validity of
learning using validity information about the generated combined regions and validity information about each region other than the two or more regions among the plurality of regions;
A reinforcement learning device comprising a control unit.

(付記12)コンピュータに、
発電機に関する状態値が取りうる複数の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を利用して学習を行い、
前記複数の領域のうち連続する2以上の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報に基づいて、前記2以上の領域を結合した領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を生成し、
生成した前記結合した領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う、
処理を実行させることを特徴とする強化学習プログラム。
(Appendix 12) to the computer,
Learning using effectiveness information indicating the effectiveness of each command value for the generator in each of a plurality of regions that the state value related to the generator can take,
Based on the effectiveness information indicating the effectiveness of each command value for the generator in each of two or more consecutive areas among the plurality of areas, for the generator in the area combining the two or more areas Generate effectiveness information that indicates the effectiveness of each command value,
learning using validity information about the generated combined regions and validity information about each region other than the two or more regions among the plurality of regions;
A reinforcement learning program characterized by executing processing.

(付記13)コンピュータが、
発電機に関する状態値が取りうる複数の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を利用して学習を行い、
前記複数の領域のうち連続する2以上の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報に基づいて、前記2以上の領域を結合した領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を生成し、
生成した前記結合した領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う、
処理を実行することを特徴とする強化学習方法。
(Appendix 13) The computer
Learning using effectiveness information indicating the effectiveness of each command value for the generator in each of a plurality of regions that the state value related to the generator can take,
Based on the effectiveness information indicating the effectiveness of each command value for the generator in each of two or more consecutive areas among the plurality of areas, for the generator in the area combining the two or more areas Generate effectiveness information that indicates the effectiveness of each command value,
learning using validity information about the generated combined regions and validity information about each region other than the two or more regions among the plurality of regions;
A reinforcement learning method characterized by executing a process.

(付記14)発電機に関する状態値が取りうる複数の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を利用して学習を行い、
前記複数の領域のうち連続する2以上の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報に基づいて、前記2以上の領域を結合した領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を生成し、
生成した前記結合した領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う、
制御部を有することを特徴とする強化学習装置。
(Appendix 14) learning using effectiveness information indicating the effectiveness of each command value for the generator in each of a plurality of areas that the state value related to the generator can take,
Based on the effectiveness information indicating the effectiveness of each command value for the generator in each of two or more consecutive areas among the plurality of areas, for the generator in the area combining the two or more areas Generate effectiveness information that indicates the effectiveness of each command value,
learning using validity information about the generated combined regions and validity information about each region other than the two or more regions among the plurality of regions;
A reinforcement learning device comprising a control unit.

100 強化学習装置
200 発電システム
201 発電機
210 ネットワーク
300 バス
301 CPU
302 メモリ
303 ネットワークI/F
304 記録媒体I/F
305 記録媒体
400 記憶部
401 取得部
402 切替部
403 学習部
404 出力部
501 テーブル生成部
502 区間切替部
503 値設定部
504 行動決定部
505 状態計算部
506 報酬計算部
507 テーブル更新部
601,602,701,702,1000 グラフ
801 通常テーブル
802 粗分割テーブル
1100,1200 予測出力電力テーブル
1310~1312,1320 フィールド
100 Reinforcement Learning Device 200 Power Generation System 201 Generator 210 Network 300 Bus 301 CPU
302 memory 303 network I/F
304 recording medium I/F
305 recording medium 400 storage unit 401 acquisition unit 402 switching unit 403 learning unit 404 output unit 501 table generation unit 502 section switching unit 503 value setting unit 504 action determination unit 505 state calculation unit 506 reward calculation unit 507 table update unit 601, 602, 701, 702, 1000 graph 801 normal table 802 rough division table 1100, 1200 predicted output power table 1310 to 1312, 1320 field

Claims (9)

コンピュータに、
発電機に関する状態値が取りうる複数の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を利用して学習を行い、
需要電力が所定の閾値以下である場合、観測した前記発電機に関する出力電圧を含む状態値を参照し、前記発電機に関する状態値についての特性関数に基づいて、前記複数の領域のうち連続する2以上の領域を結合した領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を生成し、
生成した前記結合した領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う、
処理を実行させることを特徴とする強化学習プログラム。
to the computer,
Learning using effectiveness information indicating the effectiveness of each command value for the generator in each of a plurality of regions that the state value related to the generator can take,
If the power demand is less than or equal to a predetermined threshold, the state value including the observed output voltage of the generator is referred to, and based on a characteristic function of the state value of the generator, two consecutive regions out of the plurality of regions are selected. Generating effectiveness information indicating the effectiveness of each command value for the generator in an area obtained by combining the above areas,
learning using validity information about the generated combined regions and validity information about each region other than the two or more regions among the plurality of regions;
A reinforcement learning program characterized by executing processing.
前記コンピュータに、
需要電力が所定の閾値を超える場合、観測した前記発電機に関する出力電圧を含む状態値を参照し、前記発電機に関する状態値についての特性関数に基づいて、前記2以上の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を生成し、
生成した前記2以上の領域のそれぞれの領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う、
処理を実行させることを特徴とする請求項1に記載の強化学習プログラム。
to the computer;
When the demand power exceeds a predetermined threshold, referring to the state value including the observed output voltage for the generator, based on the characteristic function for the state value for the generator, in each of the two or more regions generating validity information indicating the validity of each command value for the generator;
learning using validity information for each of the generated two or more regions and validity information for each region other than the two or more regions among the plurality of regions;
2. The reinforcement learning program according to claim 1, causing a process to be executed.
前記コンピュータに、
前記発電機が複数ある場合、前記発電機の状態値の組み合わせが取りうる複数の領域のそれぞれの領域における、前記発電機の指令値の組み合わせごとの有効性を示す有効性情報を利用して学習を行い、
観測した前記発電機の状態値を参照し、前記特性関数に基づいて、前記複数の領域のうち連続する2以上の領域を結合した領域における、前記発電機の指令値の組み合わせごとの有効性を示す有効性情報を生成し、
生成した前記結合した領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う、
処理を実行させることを特徴とする請求項1または2に記載の強化学習プログラム。
to the computer;
When there are a plurality of generators, learning using effectiveness information indicating the effectiveness of each combination of command values of the generators in each of a plurality of regions that can be taken by the combination of the state values of the generators. and
Referring to the observed state values of the generator, and based on the characteristic function, the effectiveness of each combination of command values of the generator in a region obtained by combining two or more consecutive regions among the plurality of regions. generate validity information indicating
learning using validity information about the generated combined regions and validity information about each region other than the two or more regions among the plurality of regions;
3. The reinforcement learning program according to claim 1, causing a process to be executed.
前記発電機は、風力発電機であり、
前記発電機に関する状態値は、風速、および、出力電力である、ことを特徴とする請求項1~3のいずれか一つに記載の強化学習プログラム。
The generator is a wind power generator,
4. The reinforcement learning program according to any one of claims 1 to 3, wherein the state values relating to the generator are wind speed and output power.
前記特性関数は、風速と前記発電機からの出力電力との関係を示し、
前記結合した領域についての有効性情報を生成する処理は、前記特性関数に基づいて、観測した風速に対応する出力電力を特定し、特定した前記出力電力に基づいて、前記結合した領域についての有効性情報を生成する、ことを特徴とする請求項4に記載の強化学習プログラム。
The characteristic function indicates the relationship between wind speed and power output from the generator,
The process of generating effectiveness information for the combined region includes identifying output power corresponding to the observed wind speed based on the characteristic function, and determining effectiveness for the combined region based on the identified output power. 5. The reinforcement learning program according to claim 4, wherein sexual information is generated.
前記発電機は、受風性能を変更可能であり、
前記指令値は、受風性能を制御する指令値であり、
前記特性関数は、風速と前記発電機からの出力電力との関係を示し、
前記結合した領域についての有効性情報を生成する処理は、前記発電機の受風性能ごとに異なる複数の前記特性関数のうち、観測した風速および出力電力に対応する前記特性関数に基づいて、前記結合した領域についての有効性情報を生成する、ことを特徴とする請求項4に記載の強化学習プログラム。
The generator can change the wind reception performance,
The command value is a command value for controlling wind reception performance,
The characteristic function indicates the relationship between wind speed and power output from the generator,
The process of generating effectiveness information for the combined region includes, from among the plurality of characteristic functions that differ for each wind reception performance of the generator, based on the characteristic function corresponding to the observed wind speed and output power, 5. The reinforcement learning program according to claim 4, wherein the program generates efficacy information about the connected regions.
前記発電機は、火力発電機であり、
前記発電機に関する状態値は、燃料使用量、および、出力電力である、ことを特徴とする請求項1~3のいずれか一つに記載の強化学習プログラム。
The generator is a thermal power generator,
4. The reinforcement learning program according to any one of claims 1 to 3, wherein the state values relating to the generator are fuel consumption and output power.
コンピュータが、the computer
発電機に関する状態値が取りうる複数の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を利用して学習を行い、Learning using effectiveness information indicating the effectiveness of each command value for the generator in each of a plurality of regions that the state value related to the generator can take,
需要電力が所定の閾値以下である場合、観測した前記発電機に関する出力電圧を含む状態値を参照し、前記発電機に関する状態値についての特性関数に基づいて、前記複数の領域のうち連続する2以上の領域を結合した領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を生成し、If the power demand is less than or equal to a predetermined threshold, the state value including the observed output voltage of the generator is referred to, and based on a characteristic function of the state value of the generator, two consecutive regions out of the plurality of regions are selected. Generating effectiveness information indicating the effectiveness of each command value for the generator in an area obtained by combining the above areas,
生成した前記結合した領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う、learning using validity information about the generated combined regions and validity information about each region other than the two or more regions among the plurality of regions;
処理を実行することを特徴とする強化学習方法。A reinforcement learning method characterized by executing a process.
発電機に関する状態値が取りうる複数の領域のそれぞれの領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を利用して学習を行い、Learning using effectiveness information indicating the effectiveness of each command value for the generator in each of a plurality of regions that the state value related to the generator can take,
需要電力が所定の閾値以下である場合、観測した前記発電機に関する状態値を参照し、前記発電機に関する出力電圧を含む状態値についての特性関数に基づいて、前記複数の領域のうち連続する2以上の領域を結合した領域における前記発電機に対する指令値ごとの有効性を示す有効性情報を生成し、If the demand power is equal to or less than a predetermined threshold, the observed state value of the generator is referred to, and based on a characteristic function of the state value including the output voltage of the generator, two consecutive regions out of the plurality of regions are selected. Generating effectiveness information indicating the effectiveness of each command value for the generator in an area obtained by combining the above areas,
生成した前記結合した領域についての有効性情報、および、前記複数の領域のうち前記2以上の領域以外のそれぞれの領域についての有効性情報を利用して学習を行う、learning using validity information about the generated combined regions and validity information about each region other than the two or more regions among the plurality of regions;
制御部を有することを特徴とする強化学習装置。A reinforcement learning device comprising a control unit.
JP2018193537A 2018-10-12 2018-10-12 Reinforcement learning program, reinforcement learning method, and reinforcement learning device Active JP7187961B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018193537A JP7187961B2 (en) 2018-10-12 2018-10-12 Reinforcement learning program, reinforcement learning method, and reinforcement learning device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018193537A JP7187961B2 (en) 2018-10-12 2018-10-12 Reinforcement learning program, reinforcement learning method, and reinforcement learning device

Publications (2)

Publication Number Publication Date
JP2020061909A JP2020061909A (en) 2020-04-16
JP7187961B2 true JP7187961B2 (en) 2022-12-13

Family

ID=70220451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018193537A Active JP7187961B2 (en) 2018-10-12 2018-10-12 Reinforcement learning program, reinforcement learning method, and reinforcement learning device

Country Status (1)

Country Link
JP (1) JP7187961B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272646A (en) 2006-03-31 2007-10-18 Hitachi Ltd Controller for plant
JP2013084175A (en) 2011-10-12 2013-05-09 Sony Corp Information processing apparatus, information processing method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272646A (en) 2006-03-31 2007-10-18 Hitachi Ltd Controller for plant
JP2013084175A (en) 2011-10-12 2013-05-09 Sony Corp Information processing apparatus, information processing method, and program

Also Published As

Publication number Publication date
JP2020061909A (en) 2020-04-16

Similar Documents

Publication Publication Date Title
CN101592130B (en) Method for wind turbine placement in wind power plant
Catalão et al. Scheduling of head-dependent cascaded hydro systems: Mixed-integer quadratic programming approach
EP2469676A1 (en) Demand-prediction device, program, and recording medium
Aghaei et al. Mixed integer programming of generalized hydro-thermal self-scheduling of generating units
JP2009225613A (en) Device and method for predicting power demand
US20120191387A1 (en) Information processing device, power consumption calculating system and program product
JP2008245374A (en) Generator output amount determination system, method and program
CN110356007A (en) A kind of extensive 3D printing model slice cloud platform based on IPv6 network
JP2005163608A (en) Output estimation method in wind power generation
JP7187961B2 (en) Reinforcement learning program, reinforcement learning method, and reinforcement learning device
JP6582755B2 (en) Method, system, and program for optimizing operation plan of heat source equipment network
JP6607264B2 (en) Optimal scheduling and real-time control method for x management system
JP2015222530A (en) Power generation prediction device, power generation prediction method and program
JP2005287252A (en) Method, device, and program for preparing optimum procurement plan for system operator
JP2020154934A (en) Power consumption prediction program, power consumption prediction method, and power consumption prediction device
KR101983806B1 (en) Method for providing transmission loss factor of reference point, modeling method of system data of the reference point and apparatus thereof
JP6751006B2 (en) Operation plan preparation device, operation plan preparation method and program
JP6670403B2 (en) Power system evaluation method and evaluation device
JP7493921B2 (en) Operation plan creation device and program
KR102148777B1 (en) Statistical overpower penalty calculation system for generic thermal margin analysis model
Filik et al. Solving unit commitment problem using modified subgradient method combined with simulated annealing algorithm
Nguyen-Hong et al. Stochastic unit commitment considering Markov process of wind power forecast
Duerden et al. Genetic algorithm based modification of production schedule for variance minimisation of energy consumption
CN116191562A (en) Wind power base optimal scheduling method and device
KR101500037B1 (en) Apparatus and method for the allocation of the output forecast error of wind power generator and capacity estimation of energy storage system using low-pass filter

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221114

R150 Certificate of patent or registration of utility model

Ref document number: 7187961

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150