JP7314330B2 - Training method, apparatus, equipment and storage medium for power grid system dispatching model - Google Patents

Training method, apparatus, equipment and storage medium for power grid system dispatching model Download PDF

Info

Publication number
JP7314330B2
JP7314330B2 JP2022003836A JP2022003836A JP7314330B2 JP 7314330 B2 JP7314330 B2 JP 7314330B2 JP 2022003836 A JP2022003836 A JP 2022003836A JP 2022003836 A JP2022003836 A JP 2022003836A JP 7314330 B2 JP7314330 B2 JP 7314330B2
Authority
JP
Japan
Prior art keywords
state information
execution state
degree
model
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022003836A
Other languages
Japanese (ja)
Other versions
JP2022050615A (en
Inventor
ゼン,ホンシェン
ゾウ,ボ
リ,ケジャオ
ワン,ファン
チン,ヨンフェン
ヘ,ジンゾウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022050615A publication Critical patent/JP2022050615A/en
Application granted granted Critical
Publication of JP7314330B2 publication Critical patent/JP7314330B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Description

本出願は、コンピュータ技術の分野に関し、特に自然言語処理、深層学習技術などの人工知能分野に関し、具体的には送電網システムディスパッチングモデルのトレーニング方法、装置、機器及び記憶媒体に関する。 TECHNICAL FIELD The present application relates to the field of computer technology, in particular to the field of artificial intelligence such as natural language processing and deep learning technology, and specifically to a training method, device, apparatus and storage medium for power grid system dispatching model.

電気エネルギーは現代化の重要なシンボルの1つであり、人々の日常生活に深く関わっている。送電網システムは配電の中核となる力であり、信頼できる電力を工業と消費者に提供することによって重要な経済的と社会的役割を果たす。突発事件、自然災害と人為的災害などの不確定要素の影響を受けて、送電網システムには大量の監視員と送電網システムの専門家が必要とされ、分野の知識と歴史経験と併せて、異なる突発シーンへの介入とメンテナンスを行う。 Electric energy is one of the important symbols of modernization and is deeply involved in people's daily life. The grid system is the core force of electricity distribution, playing an important economic and social role by providing reliable electricity to industries and consumers. Affected by unpredictable factors such as sudden events, natural disasters and man-made disasters, the power grid system requires a large number of supervisors and power grid system experts who, along with field knowledge and historical experience, can intervene and maintain different emergency scenes.

以上からわかるように、どのように送電網システムディスパッチングの自動化の程度を高めるかは、早急に解決すべき問題である。 From the above, how to increase the degree of automation of grid system dispatching is an urgent problem.

本出願は、送電網システムディスパッチングモデルのトレーニング方法、装置、機器及び記憶媒体を提供する。 The present application provides a training method, apparatus, apparatus and storage medium for a power grid system dispatching model.

本開示の一態様によれば、トレーニングデータセットと第1の初期ディスパッチングモデルを取得するステップであって、前記トレーニングデータセットには送電網システムの履歴実行状態情報が含まれるステップと、前記第1の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成するステップであって、各前記第1のサブディスパッチングモデルが前記第1の初期ディスパッチングモデルのネットワーク構造と同じであるステップと、前記履歴実行状態情報を各前記第1のサブディスパッチングモデルに入力して、各前記第1のサブディスパッチングモデルによって出力された前記履歴実行状態情報と各候補動作との第1のマッチ度を取得するステップと、前記複数の第1のサブディスパッチングモデルのそれぞれに対応する第1のマッチ度に基づいて、前記第1の初期ディスパッチングモデルを修正して、第2の初期ディスパッチングモデルを生成するステップと、前記第2の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する前記操作に戻って実行し、前記第2の初期ディスパッチングモデルによって決定された前記履歴実行状態情報及び各候補動作の第2のマッチ度と、前記第1の初期ディスパッチングモデルによって決定された前記履歴実行状態情報及び各候補動の第3のマッチ度との差が、予め設定された範囲内になると、前記第2の初期ディスパッチングモデルが送電網システムディスパッチングモデルであると決定するステップと、を含む送電網システムディスパッチングモデルのトレーニング方法を提供する。 According to one aspect of the present disclosure, obtaining a training data set and a first initial dispatching model, wherein the training data set includes historical execution state information of a power grid system; generating a plurality of first sub-dispatching models based on the first initial dispatching model, each of the first sub-dispatching models being the same as the network structure of the first initial dispatching model; and applying the historical execution state information to each of the first sub-dispatching models. obtaining a first degree of matching between the historical execution state information output by each of the first sub-dispatching models and each candidate operation by inputting; modifying the first initial dispatching model to generate a second initial dispatching model based on the first degree of matching corresponding to each of the plurality of first sub-dispatching models; and executing back to the operation of generating a plurality of first sub-dispatching models based on the second initial dispatching model. and determining that the second initial dispatching model is a grid system dispatching model when a difference between a second matching degree of each candidate action and the historical execution state information determined by the second initial dispatching model and a third matching degree of the historical execution state information and each candidate action determined by the first initial dispatching model falls within a preset range.

本出願の別の態様によれば、送電網システムディスパッチングモデルのトレーニング装置を提供する。 According to another aspect of the present application, an apparatus for training a power grid system dispatching model is provided.

第1の取得モジュールは、トレーニングデータセットと第1の初期ディスパッチングモデルを取得し、前記トレーニングデータセットには送電網システムの履歴実行状態情報が含まれ、生成モジュールは、前記第1の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成し、各前記第1のサブディスパッチングモデルが前記第1の初期ディスパッチングモデルのネットワーク構造と同じであり、第2の取得モジュールは、前記履歴実行状態情報を各前記第1のサブディスパッチングモデルに入力して、各前記第1のサブディスパッチングモデルによって出力された前記履歴実行状態情報と各候補動作との第1のマッチ度を取得し、第1のトレーニングモデルは、前記複数の第1のサブディスパッチングモデルのそれぞれに対応する第1のマッチ度に基づいて、前記第1の初期ディスパッチングモデルを修正して、第2の初期ディスパッチングモデルを生成し、前記第2の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する前記操作に戻って実行し、前記第2の初期ディスパッチングモデルによって決定された前記履歴実行状態情報及び各候補動作の第2のマッチ度と、前記第1の初期ディスパッチングモデルによって決定された前記履歴実行状態情報及び各候補動の第3のマッチ度との差が、予め設定された範囲内になると、前記第2の初期ディスパッチングモデルが送電網システムディスパッチングモデルであると決定する。 A first obtaining module obtains a training data set and a first initial dispatching model, wherein the training data set includes historical running state information of a power grid system, a generating module generates a plurality of first sub-dispatching models based on the first initial dispatching model, each said first sub-dispatching model being the same as the network structure of said first initial dispatching model, and a second obtaining module obtains said historical running state information to each said first sub-dispatching model. to obtain a first degree of matching between the historical execution state information output by each of the first sub-dispatching models and each candidate action, the first training model modifying the first initial dispatching model to generate a second initial dispatching model based on a first degree of matching corresponding to each of the plurality of first sub-dispatching models; and generating a plurality of first sub-dispatching models based on the second initial dispatching model. and determining that the second initial dispatching model is a grid system dispatching model when a difference between a second matching degree of the historical execution state information and each candidate action determined by the second initial dispatching model and a third matching degree of the historical execution state information and each candidate action determined by the first initial dispatching model is within a preset range.

本出願の別の態様によれば、コンピュータ機器を提供し、前記コンピュータ機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが上記実施例に記載の方法を実行させる。 According to another aspect of the present application, a computer apparatus is provided, said computer apparatus including at least one processor and a memory communicatively coupled to said at least one processor, said memory storing instructions executable by said at least one processor, said instructions, when executed by said at least one processor, causing said at least one processor to perform the methods described in the above examples.

本出願の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記実施例に記載された方法を実行させる。 According to another aspect of the present application, there is provided a non-transitory computer-readable storage medium having computer instructions stored thereon, the computer instructions causing the computer to perform the methods described in the above embodiments.

本出願の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、上記実施例に記載された方法を実現する。 According to another aspect of the present application, there is provided a computer program which, when executed by a processor, implements the methods described in the above examples.

なお、この部分に記載されている内容は、本出願の実施例の肝心または重要な特徴を特定することを意図しておらず、本出願の範囲を限定することも意図していないことを理解されたい。本出願の他の特徴は、以下の説明を通して容易に理解される。 It should be understood that the description in this section is not intended to identify key or critical features of the embodiments of the application, nor is it intended to limit the scope of the application. Other features of the present application will be readily understood through the following description.

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本出願の実施例によって提供される送電網システムディスパッチングモデルのトレーニング方法のフローチャートである。 本出願の実施例によって提供される別の送電網システムディスパッチングモデルのトレーニング方法のフローチャートである。 本出願の実施例によって提供される別の送電網システムディスパッチングモデルのトレーニング方法のフローチャートである。 本出願の実施例によって提供される別の送電網システムディスパッチングモデルのトレーニング方法のフローチャートである。 本出願の実施例によって提供される送電網システムに対応するモデルを使用して実行動作を決定する概略図である。 本出願の実施例によって提供される別の送電網システムディスパッチングモデルのトレーニング方法のフローチャートである。 本出願の実施例によって提供される第1の初期ディスパッチングモデルの入力出力の概略図である。 本出願の実施例によって提供される別の送電網システムディスパッチングモデルのトレーニング方法のフローチャートである。 本出願の実施例によって提供される送電網システムディスパッチングモデルのトレーニングプロセスの概略図である。 本出願の実施例によって提供される送電網システムディスパッチングモデルのトレーニング装置の概略構成図である。 本出願の実施例の送電網システムディスパッチングモデルのトレーニング方法を実現するためのコンピュータ機器のブロック図である。
The drawings are used for better understanding of the present technical solution and do not limit the present disclosure.
1 is a flow chart of a method for training a power grid system dispatching model provided by an embodiment of the present application; 4 is a flowchart of another power grid system dispatching model training method provided by an embodiment of the present application; 4 is a flowchart of another power grid system dispatching model training method provided by an embodiment of the present application; 4 is a flowchart of another power grid system dispatching model training method provided by an embodiment of the present application; 1 is a schematic diagram of determining execution actions using a model corresponding to a power grid system provided by an embodiment of the present application; FIG. 4 is a flowchart of another power grid system dispatching model training method provided by an embodiment of the present application; 1 is a schematic diagram of the input and output of a first initial dispatching model provided by an embodiment of the present application; FIG. 4 is a flowchart of another power grid system dispatching model training method provided by an embodiment of the present application; 1 is a schematic diagram of a power grid system dispatching model training process provided by an embodiment of the present application; FIG. 1 is a schematic structural diagram of a power grid system dispatching model training device provided by an embodiment of the present application; FIG. 1 is a block diagram of computer equipment for implementing a method for training a power grid system dispatching model of an embodiment of the present application; FIG.

以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。 Illustrative embodiments of the present application are described below in conjunction with the drawings, and various details of the embodiments of the present application are included therein for ease of understanding and should be considered as exemplary only. Accordingly, those skilled in the art should appreciate that various changes and modifications can be made to the examples described herein without departing from the scope and spirit of the present application. Similarly, for the sake of clarity and brevity, the following description omits descriptions of well-known functions and constructions.

以下、図面を参照して、本出願の実施例の送電網システムディスパッチングモデルのトレーニング方法、装置、コンピュータ機器及び記憶媒体を説明する。 Hereinafter, the training method, apparatus, computer equipment and storage medium of the power grid system dispatching model of the embodiments of the present application will be described with reference to the drawings.

人工知能はコンピュータで人間のある思惟過程と知能行為(学習、推理、思考、計画など)をシミュレートすることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術は一般にセンサ、専用人工知能チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術および深層学習、ビッグデータ処理技術、ナレッジグラフなどのいくつかの方向を含む。 Artificial intelligence is a discipline that studies the use of computers to simulate certain human thinking processes and intelligent actions (learning, reasoning, thinking, planning, etc.), and includes hardware-level technology and software-level technology. Artificial intelligence hardware technology generally includes sensors, dedicated artificial intelligence chips, cloud computing, distributed storage, big data processing and other technologies. Artificial intelligence software technology mainly includes computer vision technology, speech recognition technology, natural language processing technology and deep learning, big data processing technology, knowledge graph and other directions.

NLP(Natural Language Processing、自然言語処理)はコンピュータ科学の分野と人工知能の分野の重要な方向であり、NLP研究の内容はテキスト分類、情報抽出、自動要約、スマート質問応答、話題の薦め、機械翻訳、キーワード認識、ナレッジベース構築、深層テキスト表示、命名エンティティ認識、テキスト生成、テキスト分析(語法、構文、文法など)、音声認識と合成などのようなブランチ分野を含むが、これに限定されない。 NLP (Natural Language Processing) is an important direction in the field of computer science and the field of artificial intelligence, and the content of NLP research includes, but is not limited to, branch areas such as text classification, information extraction, automatic summarization, smart question answering, topic recommendation, machine translation, keyword recognition, knowledge base construction, deep text display, named entity recognition, text generation, text analysis (grammar, syntax, grammar, etc.), speech recognition and synthesis, etc. not.

深層学習は機械学習の分野において新しい研究方向である。深層学習はサンプルデータの内的な規則と表示レベルを学習するものであり、これらの学習プロセスで取得された情報は文字、画像、音声などのデータの解釈に大いに役立つ。その最終的な目標は機械が人間のように分析学習能力を持ち、文字、画像、音声などのデータを認識できるようにすることである。 Deep learning is a new research direction in the field of machine learning. Deep learning learns the internal rules and display levels of sample data, and the information obtained in these learning processes greatly aids in the interpretation of data such as text, images, and sounds. The ultimate goal is to enable machines to have the ability to analyze and learn like humans and to recognize data such as text, images, and sounds.

コンピュータビジョンは、マシンがどのように「見る」かを研究する科学であり、人間の目の代わりにカメラやコンピュータを使って目標を認識したり、追跡したり、計測したりするマシンビジョン指し、さらにコンピュータでグラフィックス処理を行って、人間の目でより容易に観察できる画像や機器検出に適合する画像とする。 Computer vision is the science that studies how machines "see" and refers to machine vision that uses cameras and computers instead of the human eye to recognize, track, and measure targets, and then perform graphics processing on computers to make images more readily observable by the human eye and suitable for machine detection.

図1は本出願の実施例によって提供される送電網システムディスパッチングモデルのトレーニング方法のフローチャートである。 FIG. 1 is a flow chart of a method for training a power grid system dispatching model provided by an embodiment of the present application.

図1に示すように、当該送電網システムディスパッチングモデルのトレーニング方法は、以下のステップ101~105を含む。 As shown in FIG. 1, the training method for the grid system dispatching model includes the following steps 101-105.

ステップ101、トレーニングデータセットと第1の初期ディスパッチングモデルを取得し、トレーニングデータセットには送電網システムの履歴実行状態情報が含まれる。 Step 101, obtaining a training data set and a first initial dispatching model, the training data set including historical running state information of the power grid system.

本出願では、送電網システムの履歴実行状態情報を取得することができ、これによってトレーニングデータセットを取得する。履歴実行状態は、ある時刻の実行状態情報であってもよく、ある時間帯内の実行状態情報であってもよく、複数の時間帯内の実行状態情報などであってもよい。 In the present application, historical running state information of the power grid system can be obtained, thereby obtaining a training data set. The historical execution state may be execution state information at a certain time, execution state information within a certain time period, or execution state information within a plurality of time periods.

本出願の実行状態情報は、発電所の有効電力、無効電力及び電圧と、負荷の有効電力、無効電力及び電圧と、電線の始点及び終点の有効電力、無効電力、電圧及び電流と、限界電流と、変電所の位相構造と、母線オンオフ状態と、時間情報と、を含むことができるが、これらに限定されない。時間情報は月、週、何時間目などの情報を含むことができる。 The running state information of the present application can include, but is not limited to, the active power, reactive power and voltage of the power plant, the active power, reactive power and voltage of the load, the active power, reactive power, voltage and current of the start and end points of the line, the limiting current, the phase structure of the substation, the bus on-off status, and the time information. The time information can include information such as month, week, hour.

トレーニングデータセットを取得する時、初期ディスパッチングモデルを取得してよく、区分を容易にするために、第1の初期ディスパッチングモデルと呼んでも良い。ここでの第1の初期ディスパッチングモデルは初期のネットワークモデルであってもよく、初期ネットワークモデルをプリトレーニングして得られてたものであってもよい。 When obtaining the training data set, an initial dispatching model may be obtained, which may be referred to as the first initial dispatching model for ease of partitioning. The first initial dispatching model here may be an initial network model, or may have been obtained by pre-training the initial network model.

ステップ102、第1の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する。 Step 102, generate a plurality of first sub-dispatching models based on the first initial dispatching model.

本出願では、第1の初期ディスパッチングモデルに基づいて、複数のサブモデルを生成することができ、区分を容易にするために、ここで第1のサブディスパッチングモデルと呼び、各第1のサブディスパッチングモデルは第1の初期ディスパッチングモデルのネットワーク構造と同じである。 In this application, based on the first initial dispatching model, multiple sub-models can be generated, and for ease of partitioning, referred to herein as the first sub-dispatching model, each first sub-dispatching model having the same network structure as the first initial dispatching model.

複数の第1のサブディスパッチングモデルを生成する時、第1の初期ディスパッチングモデルのパラメータに対して異なるガウスノイズ摂動を行って、例えば、第1の初期ディスパッチングモデルのパラメータにノイズを加えることにより、複数の第1のサブディスパッチングモデルを生成することができる。 When generating the plurality of first sub-dispatching models, different Gaussian noise perturbations may be performed on the parameters of the first initial dispatching model to generate the plurality of first sub-dispatching models, for example, by adding noise to the parameters of the first initial dispatching model.

ステップ103、履歴実行状態情報を各第1のサブディスパッチングモデルに入力して、各第1のサブディスパッチングモデルによって出力された履歴実行状態情報と各候補動作との第1のマッチ度を取得する。 Step 103, input the historical running state information into each first sub-dispatching model to obtain a first matching degree between the historical running state information output by each first sub-dispatching model and each candidate operation.

本出願では、履歴実行状態情報を各第1のサブディスパッチングモデルに入力することができて、第1のサブディスパッチングモデルを使用して履歴実行状態情報を処理して、履歴実行状態情報と各候補動作とのマッチ度を取得し、区分を容易にするために、ここで第1のマッチ度と呼ぶ。 In the present application, historical execution state information can be input to each first sub-dispatching model, and the first sub-dispatching model is used to process the historical execution state information to obtain a degree of match between the historical execution state information and each candidate action, referred to herein as a first degree of match for ease of partitioning.

候補動作は複数あってもよく、動作は、送電網システムをディスパッチングするための動作として理解することができる。例えば、動作は、発電所の電力調整、母線オンオフの切り替え、及び変電所の位相構造の変化などの3種類を含むことができる。 There may be multiple candidate actions, and actions can be understood as actions for dispatching the power grid system. For example, operations may include three types of operations: power plant power regulation, bus on/off switching, and substation topological structure change.

本出願の第1のマッチ度は、送電網システムが履歴実行状態情報において各候補動作を実行する時の実行安定度を測定することができ、送電網システムが履歴実行状態情報において予測される各候補動作の点数として理解することができ、第1のマッチ度が高いほど、履歴実行状態情報において対応する動作を実行するには送電網システムの実行安定性が良いことが示される。 The first matching degree of the present application can measure the execution stability when the power grid system executes each candidate action in the historical execution state information, and can be understood as the score of each candidate action predicted by the power grid system in the historical execution state information, the higher the first matching degree, the better the execution stability of the power grid system to execute the corresponding action in the historical execution state information.

例えば、第1のサブディスパッチングモデルは200であり、候補動作は100であり、ある時刻の実行状態情報を各第1のサブディスパッチングモデルに入力してもよく、各第1のサブディスパッチングモデルは当該実行状態情報と各候補動作との第1のマッチ度を出力することができる。 For example, the first sub-dispatching model is 200 and the candidate actions are 100. The execution state information at a certain time may be input to each first sub-dispatching model, and each first sub-dispatching model may output a first degree of matching between the execution state information and each candidate action.

履歴実行状態情報がある時間帯内の実行状態情報である場合、履歴実行状態情報と各候補動作の第1のマッチ度とは、当該時間帯内に抽出された各時刻の実行状態情報と各候補動作の第1のマッチ度を含む。 When the history execution state information is execution state information within a certain time period, the history execution state information and the first degree of matching between each candidate action include execution state information at each time extracted within the time period and the first degree of matching between each candidate action.

第1のサブディスパッチングモデルの処理を容易するために、本出願では、履歴実行状態情報に対して正規化前処理を行ってもよく、例えば、時間情報に対して離散化や埋め込み表示などを行うことができる。 To facilitate the processing of the first sub-dispatching model, the present application may perform normalization pre-processing on the historical execution state information, such as discretization and embedded display on the temporal information.

ステップ104、複数の第1のサブディスパッチングモデルのそれぞれに対応する第1のマッチ度に基づいて、第1の初期ディスパッチングモデルを修正して、第2の初期ディスパッチングモデルを生成する。 Step 104, modify the first initial dispatching model to generate a second initial dispatching model based on a first matching degree corresponding to each of the plurality of first sub-dispatching models.

各第1のサブディスパッチングモデルによって出力された実行状態情報と各候補動作とのマッチ度を取得した後、複数の第1のサブディスパッチングモデルのそれぞれに対応する第1のマッチ度に基づいて、第1の初期ディスパッチングモデルを修正して、第2の初期ディスパッチングモデルを生成する。 After obtaining the matching degree between the execution state information output by each first sub-dispatching model and each candidate operation, the first initial dispatching model is modified to generate a second initial dispatching model based on the first matching degree corresponding to each of the plurality of first sub-dispatching models.

修正する時、各第1のサブディスパッチングモデルの出力に基づいて、送電網システムが当該履歴実行状態情報にある場合に実行された動作を決定することができ、当該動作と履歴実行状態情報との第1のマッチ度に基づいて、パラメータの調整値を決定することができ、パラメータの調整値に基づいて第1の初期ディスパッチングモデルパラメータを修正することにより、第2の初期ディスパッチングモデルを生成することができる。 When modifying, based on the output of each first sub-dispatching model, an operation performed when the power grid system is in the historical running state information can be determined; based on a first degree of matching between the operation and the historical running state information, a parameter adjustment value can be determined; and a second initial dispatching model can be generated by modifying the first initial dispatching model parameter based on the parameter adjustment value.

ステップ105、第2の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する操作に戻って実行し、第2の初期ディスパッチングモデルによって決定された履歴実行状態情報及び各候補動作の第2のマッチ度と、第1の初期ディスパッチングモデルによって決定された履歴実行状態情報及び各候補動作の第3のマッチ度との差が、予め設定された範囲内になると、第2の初期ディスパッチングモデルが送電網システムディスパッチングモデルであると決定する。 Step 105, performing back to the operation of generating a plurality of first sub-dispatching models based on the second initial dispatching model, when the difference between the historical execution state information and the second matching degree of each candidate operation determined by the second initial dispatching model and the historical execution state information and the third matching degree of each candidate operation determined by the first initial dispatching model is within a preset range, the second initial dispatching model is the power grid system dispatching model. Decide there is.

第2の初期ディスパッチングモデルを取得した後、第2の初期ディスパッチングモデルに基づいて、複数の第2のサブディスパッチングモデルを生成することができ、第2のサブディスパッチングモデルは第2の初期ディスパッチングモデルのネットワークの構造と同じである。その後、履歴実行状態情報を各第2のサブディスパッチングモデルに入力して、履歴実行状態情報と各候補動作とのマッチ度を取得し、複数の第2のサブディスパッチングモデルのそれぞれに対応するマッチ度に基づいて、第2の初期ディスパッチングモデルを修正し、第2の初期ディスパッチングモデルが収束すると、送電網システムディスパッチングモデルを生成する。 After obtaining the second initial dispatching model, a plurality of second sub-dispatching models can be generated based on the second initial dispatching model, and the second sub-dispatching model is the same as the structure of the network of the second initial dispatching model. Then, the historical execution state information is input to each second sub-dispatching model to obtain the degree of matching between the historical execution state information and each candidate operation, the second initial dispatching model is modified based on the corresponding degree of matching for each of the plurality of second sub-dispatching models, and the second initial dispatching model converges to generate a power grid system dispatching model.

ここでの収束は、第2の初期ディスパッチングモデルによって決定された履歴実行状態情報及び各候補動作の第2のマッチ度と、第1の初期ディスパッチングモデルによって決定された履歴実行状態情報及び各候補動作の第3のマッチ度との差は、予め設定された範囲内にあってもよい。つまり、現在の初期ディスパッチングモデルによって決定された履歴実行状態情報及び各候補動作のマッチ度と、前の初期ディスパッチングモデルによって決定された履歴実行状態情報及び各候補動作のマッチ度との差は、予め設定された範囲内にある。 The convergence here is that the difference between the historical execution state information and the second matching degree of each candidate action determined by the second initial dispatching model and the historical execution state information and the third matching degree of each candidate action determined by the first initial dispatching model may be within a preset range. That is, the difference between the historical execution state information and the matching degree of each candidate action determined by the current initial dispatching model and the historical execution state information and the matching degree of each candidate action determined by the previous initial dispatching model is within a preset range.

ここでの第2のマッチ度と第3のマッチ度との差は、各候補動作に対応する第2のマッチ度及び第3のマッチ度の差分を合計したものであってもよく、すべての候補動作の第2のマッチ度の合計とすべての動作の第3のマッチ度の合計との差分であってもよい。 The difference between the second matching degree and the third matching degree here may be the sum of the differences between the second matching degree and the third matching degree corresponding to each candidate action, or the difference between the sum of the second matching degrees of all candidate actions and the sum of the third matching degrees of all actions.

モデルトレーニングの速度を向上させるために、本出願では、第1の初期ディスパッチングモデルに対して並行トレーニングしてもよい、例えば、第1の初期ディスパッチングモデルは500万パラメータを含み、CPU1000プラス(Central Processing Unit、中央プロセッサ)上で同時に500万パラメータの第1の初期ディスパッチングモデルに対して進化学習することができる。 In order to improve the speed of model training, the present application may train in parallel against the first initial dispatching model, for example, the first initial dispatching model contains 5 million parameters, and evolutionary learning can be performed against the first initial dispatching model of 5 million parameters simultaneously on CPU 1000 Plus (Central Processing Unit).

本出願の実施例では、第1の初期ディスパッチングモデルに基づいて、そのネットワーク結果と同じの複数の第1のサブディスパッチングモデルを生成し、履歴実行状態情報を各第1のサブディスパッチングモデルに入力して、各第1のサブディスパッチングモデルによって出力された履歴実行状態情報と各候補動作との第1のマッチ度を取得し、複数の第1のサブディスパッチングモデルのそれぞれに対応する第1のマッチ度に基づいて、第1の初期ディスパッチングモデルを修正して、第2の初期ディスパッチングモデルを生成し、第2の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する操作に戻って実行し、第2の初期ディスパッチングモデルによって出力されたマッチ度が収束条件を満たすと、送電網システムディスパッチングモデルが得られる。以上により、第1の初期ディスパッチングモデルに対して大規模な進化的学習を行うことにより、送電網システムディスパッチングモデルを得ることができ、送電網システムディスパッチングモデルを使用して送電網システムをディスパッチングすることで、送電網システムディスパッチングの自動化の程度を向上させることができる。 In an embodiment of the present application, based on a first initial dispatching model, generate a plurality of first sub-dispatching models that are the same as the network result, input historical execution state information into each first sub-dispatching model, obtain a first matching degree between the historical execution state information output by each first sub-dispatching model and each candidate operation, and generate a first initial dispatching model based on the first matching degree corresponding to each of the plurality of first sub-dispatching models. Modify, generate a second initial dispatching model, and perform back to the operation of generating a plurality of first sub-dispatching models based on the second initial dispatching model, and if the degree of match output by the second initial dispatching model satisfies the convergence condition, a power grid system dispatching model is obtained. As described above, a power grid system dispatching model can be obtained by performing extensive evolutionary learning on the first initial dispatching model, and the power grid system dispatching model can be used to dispatch the power grid system, thereby improving the degree of automation of the power grid system dispatching.

モデルの精度を向上させるために、本出願の一実施例では、履歴実行状態情報は複数の時間帯内の実行状態情報を含むことができ、各時間帯内の実行状態情報と、対応する第1のサブディスパッチングモデルとを相互作用させることができ、相互作用の結果に基づいて、モデルトレーニングを行う。以下、図2と合わせて説明し、図2は本出願の実施例によって提供される別の送電網システムディスパッチングモデルのトレーニング方法のフローチャートである。 To improve the accuracy of the model, in one embodiment of the present application, the historical execution state information may include execution state information within multiple time periods, the execution state information within each time period may be interacted with the corresponding first sub-dispatching model, and model training may be performed based on the results of the interaction. Hereinafter, it will be described in conjunction with FIG. 2, which is a flow chart of another power grid system dispatching model training method provided by an embodiment of the present application.

図2に示すように、当該送電網システムディスパッチングモデルのトレーニング方法は以下のステップ201~208を含む。 As shown in FIG. 2, the training method for the grid system dispatching model includes the following steps 201-208.

ステップ201、トレーニングデータセットと第1の初期ディスパッチングモデルを取得し、トレーニングデータセットには送電網システムの履歴実行状態情報が含まれる。 Step 201, obtaining a training data set and a first initial dispatching model, the training data set including historical running state information of the power grid system.

ステップ202、第1の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する。 Step 202, generate a plurality of first sub-dispatching models based on the first initial dispatching model.

本出願では、ステップ201~ステップ202は上記ステップ101~ステップ102と同様であるため、ここで説明を省略する。 In the present application, Steps 201 and 202 are the same as Steps 101 and 102 above, so the description is omitted here.

ステップ203、各時間帯内の実行状態情報を第1の初期ディスパッチングモデルに入力して、各時間帯内の実行状態情報と各候補動作との第3のマッチ度を取得する。 Step 203, inputting the running state information in each time period into the first initial dispatching model to obtain a third matching degree between the running state information in each time period and each candidate operation.

本出願では、履歴実行状態情報は複数の時間帯内の実行状態情報を含むことができ、例えば、ある月1日内の送電網システムの実行状態情報、2日内の送電網システム的実行状態情報、3日内の送電網システムの実行状態情報等など、複数の期間の実行状態情報などを含む。 In the present application, the historical execution state information may include execution state information within multiple time periods, such as the execution state information of the power grid system within the first day of a month, the power grid system execution state information within two days, the execution state information of the power grid system within three days, etc.

本出願では、各時間帯内の実行状態情報を第1の初期ディスパッチングモデルに入力することができて、各時間帯内の実行状態情報と各候補動作との第3のマッチ度を取得する。ここで各時間帯内の実行状態情報と各候補動作との第3のマッチ度は、当該時間帯内のある時刻の実行状態情報と各候補動作との第3のマッチ度であってもよく、複数の時刻の実行状態情報のそれぞれと各候補動作との第3のマッチ度などであってもよい。 In the present application, the running state information within each time period can be input into the first initial dispatching model to obtain a third degree of matching between the running state information within each time period and each candidate operation. Here, the third degree of matching between the execution state information in each time period and each candidate action may be the third degree of matching between the execution state information at a certain time in the time period and each candidate action, or may be the third degree of matching between each piece of execution state information at a plurality of times and each candidate action.

ステップ204、各時間帯の第1の初期ディスパッチングモデルに対応する第3のマッチ度に基づいて、各時間帯の第1の初期ディスパッチングモデルに対応する第1の報酬値を取得する。 Step 204, obtain a first reward value corresponding to the first initial dispatching model for each time period according to the third matching degree corresponding to the first initial dispatching model for each time period.

本出願では、各時間帯の第1の初期ディスパッチングモデルに対応する複数の第3のマッチ度における最大の第3のマッチ度を、各時間帯の第1の初期ディスパッチングモデルに対応する報酬値とすることができ、区分を容易にするために、第1の報酬値と呼ぶことができる。または、第1の初期ディスパッチングモデルによって出力された各時間帯内の実行状態情報と各候補動作との第3のマッチ度の合計を、各時間帯の第1の初期ディスパッチングモデルに対応する第1の報酬値とすることができる。 In this application, the largest third matching degree among the plurality of third matching degrees corresponding to the first initial dispatching model for each time period may be the reward value corresponding to the first initial dispatching model for each time period, and may be referred to as the first reward value for ease of segmentation. Alternatively, the sum of the third degree of matching between the execution state information in each time period and each candidate action output by the first initial dispatching model can be set as the first reward value corresponding to the first initial dispatching model in each time period.

ステップ205、各時間帯内の実行状態情報を対応する第1のサブディスパッチングモデルに入力して、各時間帯内の実行状態情報と各候補動作との第1のマッチ度を取得する。 Step 205, inputting the running state information within each time period into the corresponding first sub-dispatching model to obtain a first matching degree between the running state information within each time period and each candidate operation.

本出願では、各時間帯内の実行状態情報を対応する第1のサブディスパッチングモデルに入力することができて、対応する第1のサブディスパッチングモデルによって出力された各時間帯の実行状態情報と各候補動作との第1のマッチ度を取得する。 In the present application, the execution state information in each time period can be input to the corresponding first sub-dispatching model to obtain a first degree of matching between the execution state information of each time period output by the corresponding first sub-dispatching model and each candidate operation.

つまり、各第1のサブディスパッチングモデルの実行状態情報を入力する時間帯は異る。 In other words, the time period for inputting the execution state information of each first sub-dispatching model is different.

本出願では、時間帯と各第1のサブディスパッチングモデルとの対応関係は、必要に応じて設定してもよく、またはランダムに決定してもよい。例えば、時間帯の前後の順序を決定して、各時間帯の実行状態情報を、それぞれ番号の小さい順に第1のサブディスパッチングモデルに入力してもよい。 In the present application, the correspondence between the time period and each first sub-dispatching model may be set as required or determined randomly. For example, the order before and after the time period may be determined, and the execution state information for each time period may be input to the first sub-dispatching model in ascending order of number.

また、1つの時間帯の実行状態情報をランダムに選択し、それぞれ第1のサブディスパッチングモデルに入力する。 Execution state information for one time period is randomly selected and input to the first sub-dispatching model.

ステップ206、各時間帯に対応する第1のサブディスパッチングモデルに対応する第1のマッチ度に基づいて、各時間帯に対応する第1のサブディスパッチングモデルに対応する第2の報酬値を取得する。 Step 206, obtain a second reward value corresponding to the first sub-dispatching model corresponding to each time period according to the first matching degree corresponding to the first sub-dispatching model corresponding to each time period.

本出願では、ステップ206は上記ステップ204と同様であるため、ここで説明を省略する。 In the present application, step 206 is similar to step 204 above, and therefore will not be described here.

ステップ207、複数の時間帯のそれぞれに対応する第1の報酬値と第2の報酬値に基づいて、第1の初期ディスパッチングモデルを修正して、第2の初期ディスパッチングモデルを生成する。 Step 207, modify the first initial dispatching model to generate a second initial dispatching model according to the first reward value and the second reward value corresponding to each of the plurality of time periods.

各時間帯に対して、第2のサブディスパッチングモデルに対応する第2の報酬値から第1のサブディスパッチングモデルに対応する第1の報酬値を引いて、各時間帯内の第2のサブディスパッチングモデルが正規化された後の報酬値を得ることができる。つまり、同じ時間帯内の第1のサブディスパッチングモデルに対応する報酬値と第1の初期ディスパッチングモデルに対応する報酬値との差を、第1のサブディスパッチングモデルが正規化された後の報酬値とすることができる。 For each time slot, the first reward value corresponding to the first sub-dispatching model may be subtracted from the second reward value corresponding to the second sub-dispatching model to obtain a reward value after normalization of the second sub-dispatching model within each time slot. That is, the difference between the reward value corresponding to the first sub-dispatching model and the reward value corresponding to the first initial dispatching model within the same time slot can be the reward value after the first sub-dispatching model is normalized.

各第1のサブディスパッチングモデルに対応する正規化された後の報酬値を取得した後、複数の第1のサブディスパッチングモデルのそれぞれに対応する正規化された後の報酬値に対して加算などの統合
を行うことができ、統合して得られた報酬値に基づいてネットワークパラメータの調整値を決定し、調整値を使用して第1の初期ディスパッチングモデルのパラメータを調整し、第2の初期ディスパッチングモデルを生成する。
After obtaining the normalized reward value corresponding to each first sub-dispatching model, integration such as addition may be performed on the normalized reward value corresponding to each of the plurality of first sub-dispatching models, determining network parameter adjustment values based on the integrated reward values, and using the adjustment values to adjust the parameters of the first initial dispatching model to generate a second initial dispatching model.

本出願では、複数の第1のサブディスパッチングモデルのそれぞれに対応する正規化された後の報酬値に基づいて、第1の初期ネットワークモデルのネットワークパラメータの進化方向を決定することができ、これによって第1の初期ディスパッチングモデルを修正し、第2の初期ディスパッチングモデルを生成する。 In the present application, the evolution direction of the network parameters of the first initial network model can be determined based on the normalized reward values corresponding to each of the plurality of first sub-dispatching models, thereby modifying the first initial dispatching model and generating a second initial dispatching model.

ステップ208、第2の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する操作に戻って実行し、第2の初期ディスパッチングモデルによって決定された履歴実行状態情報及び各候補動作の第2のマッチ度と、第1の初期ディスパッチングモデルによって決定された履歴実行状態情報及び各候補動作の第3のマッチ度との差が、予め設定された範囲内になると、第2の初期ディスパッチングモデルが送電網システムディスパッチングモデルであると決定する。 Step 208, performing back to the operation of generating a plurality of first sub-dispatching models based on the second initial dispatching model, when the difference between the historical execution state information and the second matching degree of each candidate operation determined by the second initial dispatching model and the historical execution state information and the third matching degree of each candidate operation determined by the first initial dispatching model is within a preset range, the second initial dispatching model is the power grid system dispatching model. Decide there is.

本出願では、ステップ208は上記ステップ105と同様であるため、ここで説明を省略する。 In the present application, step 208 is similar to step 105 above, and therefore will not be described here.

本出願の実施例では、履歴状態情報は複数の時間帯内の実行状態情報を含むことができ、各時間帯内の実行状態情報を第1の初期ディスパッチングモデルに入力して、各時間帯内の実行状態情報と各候補動作との第3のマッチ度を取得することができ、各時間帯の第1の初期ディスパッチングに対応する第3のマッチ度に基づいて、各時間帯の第1の初期ディスパッチングに対応する第1の報酬値を決定し、各時間帯内の実行状態情報を対応する第1のサブディスパッチングモデルに入力して、各時間帯内の実行状態情報と各候補動作との第1のマッチ度を取得し、各時間帯に対応する第1のサブディスパッチングモデルに対応する第1のマッチ度に基づいて、各時間帯に対応する第1のサブディスパッチングモデルに対応する第2の報酬値を決定し、複数の時間それぞれに対応する第1の報酬値と第2の報酬値に基づいて、第1の初期ディスパッチングモデルを修正し、第2の初期ディスパッチングモデルを生成して引き続きトレーニングし、最後に送電網システムディスパッチングモデルを生成する。以上により、各第1のサブディスパッチングモデルのそれぞれと、異なる時間帯内の送電網システムとを相互作用させることで、第1の初期ディスパッチングモデルをトレーニングして、モデルの精度を向上させる。 In an embodiment of the present application, the historical state information may include execution state information within a plurality of time periods, the execution state information within each time period may be input into a first initial dispatching model to obtain a third degree of matching between the execution state information within each time period and each candidate action, determining a first reward value corresponding to the first initial dispatching of each time period based on the third degree of matching corresponding to the first initial dispatching of each time period; Inputting the execution state information into a corresponding first sub-dispatching model to obtain a first degree of matching between the execution state information and each candidate action within each time period, determining a second reward value corresponding to the first sub-dispatching model corresponding to each time period based on the first matching degree corresponding to the first sub-dispatching model corresponding to each time period, and obtaining a first initial dispatching model based on the first reward value and the second reward value corresponding to each of a plurality of times. , generate a second initial dispatching model to continue training, and finally generate a grid system dispatching model. Thus, each of the first sub-dispatching models interacts with the power grid system in different time periods to train the first initial dispatching model and improve the accuracy of the model.

本出願の一実施例では、図3に示す方式によって第1の報酬値を取得することができる。図3は本出願の実施例によって提供される別の送電網システムディスパッチングモデルのトレーニング方法のフローチャートである。 In one embodiment of the present application, the first reward value can be obtained according to the scheme shown in FIG. FIG. 3 is a flowchart of another grid system dispatching model training method provided by an embodiment of the present application.

図3に示すように、上記各時間帯の第1の初期ディスパッチングモデルに対応する第1の報酬値を取得するステップは以下のステップ301~304を含む。 As shown in FIG. 3, the step of obtaining a first reward value corresponding to the first initial dispatching model for each time period includes steps 301-304 as follows.

ステップ301、各時間帯内の実行状態情報から、複数の時刻の実行状態情報を抽出する。 Step 301, extracting execution state information at a plurality of times from the execution state information within each time period.

本出願では、各時間帯の実行状態情報から、複数の時刻の実行状態情報を抽出することができる。例えば、ある日の送電網システムの実行状態情報から、1000個の時刻の実行状態情報を抽出することができる。 In the present application, it is possible to extract execution state information for a plurality of times from execution state information for each time period. For example, it is possible to extract 1000 times of execution state information from the execution state information of the power grid system on a certain day.

ステップ302、各時刻の実行状態情報を第1の初期ディスパッチングモデルに入力して、各時刻の実行状態情報と各候補動作との第3のマッチ度を取得する。 Step 302, inputting the execution state information of each time into the first initial dispatching model to obtain a third matching degree between the execution state information of each time and each candidate operation.

複数の時刻の実行状態情報を取得した後、各時刻の実行状態情報を、第1の初期ディスパッチングモデルに入力することができて、各時刻の実行状態情報と各候補動作との第3のマッチ度を取得することができる。つまり、各時刻の実行状態情報を第1の初期ディスパッチングモデルに入力し、各時刻の実行状態情報における各候補動作の点数を取得することができる。 After obtaining the execution state information of a plurality of times, the execution state information of each time can be input to the first initial dispatching model, and a third degree of matching between the execution state information of each time and each candidate operation can be obtained. That is, it is possible to input the execution state information at each time into the first initial dispatching model and obtain the score of each candidate action in the execution state information at each time.

ステップ303、各第3のマッチ度に基づいて、各候補動作から第1のターゲット動作を抽出する。 Step 303, extract a first target action from each candidate action according to each third matching degree.

各時刻の実行状態情報に対して、各時刻の実行状態情報と各候補動作との第3のマッチ度に基づいて、各候補動作から第1のターゲット動作を抽出することができる。それにより、各時刻の実行状態情報に基づいて、対応する第1のターゲット動作を取得することができる。 For execution state information at each time, a first target action can be extracted from each candidate action based on a third degree of matching between the execution state information at each time and each candidate action. Accordingly, the corresponding first target action can be acquired based on the execution state information at each time.

本出願では、複数の候補動作から第3のマッチ度の最も高い候補動作を、第1のターゲット動作として抽出することができる。 In the present application, a candidate motion with the third highest degree of matching can be extracted as the first target motion from the plurality of candidate motions.

ステップ304、複数の時刻の実行状態情報のそれぞれと第1のターゲット動作との第3のマッチ度に基づいて、第1の報酬値を決定する。 Step 304, determine a first reward value based on a third degree of matching between each of the execution state information at the plurality of times and the first target action.

各時刻の実行状態情報と各候補動作との第3のマッチ度に基づいて、第1のターゲット動作を抽出した後、複数の時刻の実行状態情報のそれぞれと第1のターゲット動作との第1のマッチ度に基づいて、第1の報酬値を決定することができる。 After extracting the first target action based on the third degree of matching between the execution state information at each time and each candidate action, a first reward value can be determined based on the first degree of matching between each of the execution state information at a plurality of times and the first target action.

例えば、すべての第1のターゲット動作に対応する第1のマッチ度の合計を、第1の報酬値とすることができる。つまり、ある時間帯内の各時刻の実行状態情報に対して、第1の初期ディスパッチングモデルの出力に基づいて、送電網システムによって実行された動作を決定することができ、当該時間帯内に毎回決定された動作に対応する第3のマッチ度の合計を、第1の報酬値とする。 For example, a sum of first degrees of matching corresponding to all first target actions may be the first reward value. That is, for the execution state information at each time within a certain time slot, the action performed by the power grid system can be determined based on the output of the first initial dispatching model, and the sum of the third matching degrees corresponding to the actions determined each time within the time slot is taken as the first reward value.

または、ある時間帯内の各時刻の実行状態情報に対して、取得された第1のターゲット動作に基づいて、送電網システムに対応するモデルに実行させるように制御してもよく、実行状態に基づいて、第1のターゲット動作の点数を決定し、当該時間帯内のすべての時刻のそれぞれに対応する第1のターゲット動作の点数の合計を、第1の報酬値とする。 Alternatively, the model corresponding to the power grid system may be controlled to be executed based on the acquired first target action for the execution state information at each time point within a certain time period. Based on the execution state, the score of the first target action is determined, and the sum of the points of the first target actions corresponding to all times within the time period is set as the first reward value.

なお、第2の報酬値を取得する時、図3と同様な方式を採用して取得してもよいので、ここで説明を省略する。 It should be noted that when obtaining the second reward value, the same method as in FIG. 3 may be used to obtain it, so the description is omitted here.

本出願の実施例では、各時間帯内の第1の初期ディスパッチングモデルに対応する第1の報酬値を取得する時、各時間帯内の実行状態情報から、複数の時刻の実行状態情報を抽出し、各時刻の実行状態情報を第1の初期ディスパッチングモデルに入力して、各時刻の実行状態情報と各候補動作との第3のマッチ度を取得し、候補動作から第1のターゲット動作を抽出し、複数の時刻の実行状態情報のそれぞれと第1のターゲット動作との第3のマッチ度に基づいて、第1の報酬値を決定する。以上により、時間帯内の複数の時刻の累計に決定された第1のターゲット動作に対応するマッチ度に基づいて、第1の報酬値を決定することができる。 In an embodiment of the present application, when obtaining a first reward value corresponding to a first initial dispatching model in each time period, the execution state information at a plurality of times is extracted from the execution state information in each time period, the execution state information at each time is input to the first initial dispatching model, a third degree of matching between the execution state information at each time and each candidate action is obtained, a first target action is extracted from the candidate action, and a first target action is extracted from each of the execution state information at a plurality of times and the first target action. A first reward value is determined based on the third degree of match. As described above, it is possible to determine the first reward value based on the degree of matching corresponding to the first target action determined by accumulating a plurality of times within the time period.

上記実施例では、第3のマッチ度に基づいて第1のターゲット動作を直接抽出してもよい、本出願の一実施例では、送電網システムに対応するモデルの実行状態、決定されたマッチ度に基づいて、第1のターゲット動作を抽出してもい。以下図4と併せて説明し、図4は本出願の実施例によって提供される別の送電網システムディスパッチングモデルのトレーニング方法のフローチャートである。 In the above example, the first target action may be extracted directly based on the third matching degree, and in one embodiment of the present application, the first target action may be extracted based on the execution state of the model corresponding to the power grid system, the determined matching degree. 4, which is a flowchart of another power grid system dispatching model training method provided by an embodiment of the present application.

図4に示すように、上記各第3のマッチ度に基づいて、複数の候補動作から第1のターゲット動作を抽出するステップは以下のステップ401~403を含む。 As shown in FIG. 4, the step of extracting a first target motion from a plurality of candidate motions based on the respective third matching degrees includes steps 401-403 below.

ステップ401、各第3のマッチ度に基づいて、各候補動作から複数の参照動作を抽出する。 Step 401, extracting a plurality of reference motions from each candidate motion according to each third matching degree.

本出願では、各時刻の実行状態情報に対して、各時刻の実行状態情報が各候補動作それぞれに対応する第3のマッチ度に基づいて、複数の候補動作から複数の動作を抽出することができ、ここで参照動作と呼ぶ。 In the present application, a plurality of motions can be extracted from a plurality of candidate motions based on a third degree of matching in which the execution state information of each time corresponds to each candidate motion, respectively, for the execution state information of each time, and are referred to herein as reference motions.

ステップ402、各参照動作に基づいて、送電網システムに対応するモデルに実行させるように制御して、モデルの実行状態に基づいて、各時刻の実行状態情報と各参照動作との第1の参照マッチ度を決定する。 Step 402, according to each reference action, control the model corresponding to the power grid system to execute, and determine a first reference matching degree between the execution state information at each time and each reference action according to the execution state of the model.

本出願では、各時刻の実行状態情報を送電網システムに対応するモデルに入力してもよく、各参照動作に基づいて、モデルに実行させるように制御して、モデルの実行状態に基づいて、各時刻の実行状態情報と各参照動作とのマッチ度を決定する。区分を容易にするために、第1の参照マッチ度と呼び、送電網システムに対応するモデルは、専門家の知識に基づいて予め構築された送電網システムのシミュレーションモデルであってもよい。 In the present application, the execution state information at each time may be input to the model corresponding to the power grid system, and based on each reference operation, the model is controlled to be executed, and the degree of matching between the execution state information at each time and each reference operation is determined based on the execution state of the model. For ease of segmentation, the model corresponding to the grid system, called the first degree of reference match, may be a pre-built simulation model of the grid system based on expert knowledge.

理解を容易にするために、ある時刻の実行状態情報を1つのシーンとして見なしてもよく、各実行シーンに対して、各参照動作に基づいて、送電網システムに対応するモデルに実行させるように制御することができ、以上により、モデルの実行状態に基づいて、各シーンと各参照動作との第1参照度を決定することができる。 For ease of understanding, the execution state information at a certain time may be regarded as one scene, and for each execution scene, based on each reference action, it is possible to control the model corresponding to the power grid system to execute, and thus, based on the execution state of the model, the first reference degree of each scene and each reference action can be determined.

実際の応用では、送電網システムに対応するモデルに基づいて、実行する動作を選択してもよい。図5に示すように、送電網システムの母線が過負荷であるか否かという場合を例として挙げると、送電網システムの母線に過負荷があるか否かを判断する。送電網システムには、母線が過負荷である状況が存在する場合、各候補動作に基づいて、送電網システムに対応するモデルに実行させるように制御することができ、モデル実行結果に基づいて、点数(つまり、マッチ度)が最も高い動作を選択して実行でき、その後に次の状態に入る。送電網システムには母線が過負荷である状況がない場合、動作せずに、直接次の状態に入る。 In practical applications, the actions to be performed may be selected based on a model corresponding to the power grid system. As shown in FIG. 5, taking the case of whether the bus of the power grid system is overloaded or not, it is determined whether the bus of the power grid system is overloaded. If there is a situation in which the power grid system is overloaded, the power grid system can be controlled to execute a model corresponding to the power grid system according to each candidate operation, and based on the model execution result, the operation with the highest score (i.e., matching degree) can be selected and executed, and then enter the next state. If the grid system does not have a bus overload situation, it will enter the next state directly without action.

ステップ403、各第1の参照マッチ度に基づいて、複数の参照動作から第1のターゲット動作を抽出する。 Step 403, extract a first target action from the plurality of reference actions according to each first reference matching degree.

各時刻の実行状態情報と各参照動作との第1の参照マッチ度を決定した後、複数の参照動作から第1の参照マッチ度が最も高い動作を、第1のターゲット動作とする。 After determining the first reference matching degree between the execution state information at each time and each reference action, the action having the highest first reference matching degree among the plurality of reference actions is set as the first target action.

本出願の実施例では、第1のターゲット動作を抽出する時、第1の初期ディスパッチングモデルによって決定された第3のマッチ度に基づいて、各候補動作から複数の参照動作を抽出して、送電網システムに対応するモデルに基づいて、複数の参照動作から第1のターゲット動作を抽出することができる。以上により、第1の初期ディスパッチングモデルと送電網システムに対応するモデルに基づいて、各時刻の実行状態情報に対応する第1のターゲット動作を決定し、これによって第1のターゲット動作を決定する精度を向上させる。 In an embodiment of the present application, when extracting the first target action, a plurality of reference actions may be extracted from each candidate action based on a third degree of matching determined by the first initial dispatching model, and a first target action may be extracted from the plurality of reference actions based on a model corresponding to the power grid system. As described above, the first target operation corresponding to the execution state information at each time is determined based on the first initial dispatching model and the model corresponding to the power grid system, thereby improving the accuracy of determining the first target operation.

本出願の一実施例では、図6に示す方法により、トレーニングして第1の初期ディスパッチングモデルを得ることができる。図6は本出願の実施例によって提供される別の送電網システムディスパッチングモデルのトレーニング方法のフローチャートである。 In one embodiment of the present application, the method shown in FIG. 6 can be trained to obtain a first initial dispatching model. FIG. 6 is a flowchart of another grid system dispatching model training method provided by an embodiment of the present application.

図6に示すように、トレーニングデータセットと第1の初期ディスパッチングモデルを取得する前に、当該方法は、以下のステップ601~603をさらに含む。 As shown in FIG. 6, before obtaining the training data set and the first initial dispatching model, the method further includes the following steps 601-603.

ステップ601、各候補動作に基づいて、送電網システムに対応するモデルに実行させるように制御して、各時刻の実行状態情報と各候補動作との第2の参照マッチ度を決定する。 Step 601, based on each candidate action, control the model corresponding to the power grid system to execute, and determine a second reference matching degree between the execution state information at each time and each candidate action.

本出願では、トレーニングデータセットとして、複数の時刻の実行状態を予め取得することができる。複数の時刻の実行状態情報を取得した後、各候補動作に基づいて、送電網システムに対応するモデルに実行させるように制御し、モデルの実行状態に基づいて、各時刻の実行状態情報と各候補動作との第2の参照マッチ度を決定することができる。 In the present application, the execution state at multiple times can be obtained in advance as a training data set. After obtaining the execution state information at a plurality of times, the model corresponding to the power grid system is controlled to execute based on each candidate operation, and a second reference match degree between the execution state information at each time and each candidate operation can be determined based on the execution state of the model.

ステップ602、各時刻の実行状態情報を初期ネットワークモデルに入力して、各時刻の実行状態情報と各候補動作との第4のマッチ度を取得する。 Step 602, inputting the execution state information of each time into the initial network model to obtain a fourth degree of matching between the execution state information of each time and each candidate operation.

本出願では、各時刻の実行状態情報を初期ネットワークモデルに入力し、初期ネットワークモデルを使用して各時刻の実行状態情報を処理して、各時刻の実行状態情報と各候補動作との第4のマッチ度を取得することができる。つまり、各候補動作が各時刻の実行状態情報における点数を取得することができる。 In the present application, the execution state information at each time can be input into the initial network model, and the initial network model can be used to process the execution state information at each time to obtain a fourth degree of matching between the execution state information at each time and each candidate operation. That is, each candidate action can obtain a score in the execution state information at each time.

候補動作の数量がNであると仮定すると、図7に示すように、ある時刻の実行状態情報をモデルに入力して、モデルは動作1の点数から動作Nの点数までを入力することができ、ここでの点数は当該時刻の実行状態情報と動作とのマッチ度を予測することができる。 Assuming that the number of candidate actions is N, as shown in FIG. 7, execution state information at a certain time is input to the model, and the model can input scores from action 1 to action N, and the scores here can predict the degree of matching between the execution state information and actions at that time.

ステップ603、各時刻の実行状態情報において、各第4のマッチ度と対応する第2の参照マッチ度との相違に基づいて、初期ネットワークモデルを修正し、修正された初期ネットワークモデルによって決定された各時刻の実行状態情報及び各候補動作の第4のマッチ度と、第2の参照マッチ度との差分が予め設定された範囲内になると、修正された初期ネットワークモデルが第1の初期ディスパッチングモデルであると決定する。 Step 603, modify the initial network model according to the difference between each fourth matching degree and the corresponding second reference matching degree in the execution state information at each time, and determine that the modified initial network model is the first initial dispatching model when the difference between the execution state information at each time determined by the modified initial network model and the fourth matching degree of each candidate operation and the second reference matching degree is within a preset range.

本出願では、各時刻の実行状態情報において、各第4のマッチ度と対応する第2の参照マッチ度との相違に基づいて、初期ネットワークモデルを修正し、修正された初期ネットワークモデルによって決定された各時刻の実行状態情報及び各候補動作の第4のマッチ度と、第2の参照マッチ度との差分が予め設定された範囲内になると、修正された初期ネットワークモデルを使用して引き続きトレーニングし、修正された初期ネットワークモデルが第1の初期ディスパッチングモデルである決定することができる。 In the present application, the initial network model is modified based on the difference between each fourth matching degree and the corresponding second reference matching degree in the running state information at each time, and when the difference between the running state information at each time determined by the modified initial network model and the fourth matching degree of each candidate operation and the second reference matching degree is within a preset range, continue training using the modified initial network model, and determine that the modified initial network model is the first initial dispatching model. .

ここで、各時刻の実行状態情報と各候補動作との第4のマッチ度と第2の参照マッチ度との差が予め設定された範囲内にあることは、各候補動作に対応する第4のマッチ度と第2の参照マッチ度との差がいずれも予め設定された範囲内にあることであってもよく、すべての候補動作に対応する第4のマッチ度の合計と、すべての候補動作に対応する第2の参照マッチ度の合計との差分が、予め設定された範囲内にあることであってもよい。 Here, the fact that the difference between the fourth matching degree and the second reference matching degree between the execution state information at each time and each candidate action is within a preset range may be that the difference between the fourth matching degree corresponding to each candidate action and the second reference matching degree is both within a preset range, and the difference between the sum of the fourth matching degrees corresponding to all candidate actions and the sum of the second reference matching degrees corresponding to all candidate actions is within a preset range. It can be something.

本出願では、第1の初期ディスパッチングモデルをトレーニングする時、深層学習の方式を採用してトレーニングしてもよい。 In the present application, when training the first initial dispatching model, a deep learning method may be adopted for training.

本出願の実施例では、トレーニングデータセットと第1の初期ディスパッチングモデルを取得する前に、各候補動作に基づいて、送電網システムに対応するモデルに実行させるように制御することができて、各時刻の実行状態情報と各候補動作との第2の参照マッチ度を決定し、各時刻の実行状態情報を初期ネットワークモデルに入力して、各時刻の実行状態情報と各候補動作との第4のマッチ度を取得し、各時刻の実行状態情報において、各候補動作に対応する第4のマッチ度と参照マッチ度との相違に基づいて、初期ネットワークモデルをトレーニングして、第1の初期ディスパッチングモデルを生成する。以上により、専門家の知識に基づいて構築されたシミュレーションモデルで得られた参照マッチ度を用いることで、トレーニングして得られた第1の初期ディスパッチングモデルに専門家の知識を融合させ、トレーニングして第1の初期ディスパッチングモデルを得る上で引き続きトレーニングして送電網システムディスパッチングモデルを得って、送電網システムディスパッチングモデルのトレーニング速度を向上させるだけではなく、モデルの精度も向上させる。 In an embodiment of the present application, before obtaining the training data set and the first initial dispatching model, the model corresponding to the power grid system can be controlled to execute according to each candidate operation, determine a second reference matching degree between the execution state information at each time and each candidate operation, input the execution state information at each time into the initial network model, obtain a fourth matching degree between the execution state information at each time and each candidate operation, and obtain a fourth matching degree between the execution state information at each time and each candidate operation; An initial network model is trained to generate a first initial dispatching model based on the difference between the 4 degree of match and the reference degree of match. Thus, by using the reference matching degree obtained by the simulation model built on the basis of the expert's knowledge, the expert's knowledge is combined with the first initial dispatching model obtained by training, and the training is continued to obtain the first initial dispatching model, followed by training to obtain the power grid system dispatching model, not only improving the training speed of the power grid system dispatching model, but also improving the accuracy of the model.

実際の応用では、一般的な送電網システムの位相構造が比較的複雑であるため、送電網システムのディスパッチング可能な動作の数は極めて大きい。本出願の一実施例では、上記初期ネットワークモデルをトレーニングして第1の初期ディスパッチングモデルを得る過程で、各時刻の実行状態情報と各候補動作との第2の参照マッチ度を決定する前に、候補動作として大量の動作から実行頻度の高い動作を選別することができる。以下、図8と併せて説明し、図8は本出願の実施例によって提供される別の送電網システムディスパッチングモデルのトレーニング方法のフローチャートである。 In practical applications, due to the relatively complex topological structure of a typical power grid system, the number of dispatchable operations of the power grid system is very large. In one embodiment of the present application, during the process of training the initial network model to obtain the first initial dispatching model, prior to determining the second degree of reference match between the execution state information at each time and each candidate operation, operations with high execution frequency can be selected as candidate operations from a large number of operations. Hereinafter, it will be described in conjunction with FIG. 8, which is a flow chart of another grid system dispatching model training method provided by an embodiment of the present application.

図8に示すように、各時刻の実行状態情報と各候補動作との第2の参照マッチ度を決定する前に、以下のステップ801~803をさらに含む。 As shown in FIG. 8, the following steps 801-803 are further included before determining the second degree of reference match between the execution state information at each time and each candidate operation.

ステップ801、各動作に基づいて、送電網システムに対応するモデルに実行させるように制御して、各時刻の実行状態情報と各動作との第3の参照マッチ度を決定する。 Step 801: Based on each action, control the model corresponding to the power grid system to execute, and determine a third reference matching degree between the execution state information at each time and each action.

本出願では、ステップ801は上記ステップ601と同様であるため、ここで説明を省略する。 In the present application, step 801 is the same as step 601 above, so the description is omitted here.

ステップ802、各第3の参照マッチ度に基づいて、各時刻の実行状態情報との第3の参照マッチ度が最も高い動作を決定する。 Step 802, based on each third degree of reference matching, determine the operation with the highest degree of third reference matching with the execution state information at each time.

本出願では、各時刻の実行状態情報と各動作との第3の参照マッチ度に基づいて、各時刻の実行状態情報との第3の参照マッチ度が最も高い動作を決定することができる。 In the present application, based on the third degree of reference match between the execution state information at each time and each action, the action having the highest third degree of reference match with the execution state information at each time can be determined.

ステップ803、各時刻の実行状態情報との第3の参照マッチ度が最も高い動作に基づいて、各動作の第3の参照マッチ度の最も高い回数を決定する。 Step 803: Determine the number of times of the highest third reference match for each action based on the action with the highest third reference match with the execution state information at each time.

各時刻の実行状態情報との第3の参照マッチ度が最も高い動作を決定した後、各時刻の実行状態情報との第3の参照マッチ度が最も高い動作に基づいて、各動作の第3の参照マッチ度の最も高い回数を決定することができる。 After determining the operation with the highest third reference matching degree with the execution state information at each time, based on the operation with the highest third reference matching degree with the execution state information at each time, the number of times of the highest third reference matching degree of each operation can be determined.

1つの時刻の実行状態情報をシーンとして見なす場合、各シーンにおいて決定された第3の参照マッチ度の最も高いに基づいて、各動作の第3の参照マッチ度の最も高い回数を決定することができる。 When the execution state information of one time is regarded as a scene, the highest third reference match count for each action can be determined based on the highest third reference match determined in each scene.

ステップ804、各動作の第3の参照マッチ度の最も高い回数に基づいて、各動作から複数の候補動作を抽出する。 Step 804, extract a plurality of candidate motions from each motion based on the highest number of third reference matching degrees of each motion.

本出願では、第3の参照マッチ度の最も高い回数が閾値より大きい動作を候補動作としてもよい。 In the present application, a motion with the highest third reference matching degree count greater than a threshold may be a candidate motion.

本出願の実施例では、各時刻の実行状態情報と各候補動作との第2の参照マッチ度を決定する前に、各動作に基づいて、送電網システムに対応するモデルに実行させるように制御することができて、各時刻の実行状態情報と各動作との第3の参照マッチ度を決定し、各時刻の実行状態情報において、各動作に対応する第3の参照マッチ度に基づいて、各動作から複数の候補動作を選別する。以上により、専門家の知識に基づいて構築されたシミュレーションモデルを使用することで、大量の動作から実行される回数の高い動作を選別して候補動作としてもよい。 In an embodiment of the present application, before determining a second degree of reference match between the execution state information at each time and each candidate operation, the model corresponding to the power grid system can be controlled to execute based on each operation, determine a third degree of reference match between the execution state information at each time and each operation, and select a plurality of candidate operations from each operation based on the third degree of reference match corresponding to each operation in the execution state information at each time. As described above, by using a simulation model constructed based on the knowledge of an expert, motions that are frequently executed may be selected from a large number of motions and used as candidate motions.

図9は本出願の実施例によって提供される送電網システムディスパッチングモデルのトレーニングプロセスの概略図である。 FIG. 9 is a schematic diagram of a power grid system dispatching model training process provided by an embodiment of the present application.

図9に示すように、1つのニューラルネットワークモデルに対してノイズ摂動を行うことができ、ノイズがあるn+1のサブモデルが得られ、 As shown in FIG. 9, one neural network model can be subjected to noise perturbation, resulting in n+1 sub-models with noise,

Figure 0007314330000001
Figure 0007314330000001

各サブモデルに対して、対応する時間帯内の実行状態情報をサブモデルに入力して、サブモデルに対応する正規化された後の報酬値を得ることができる。例えば、 For each sub-model, the running state information within the corresponding time period can be input into the sub-model to obtain the normalized reward value corresponding to the sub-model. for example,

Figure 0007314330000002
Figure 0007314330000002

は初期ディスパッチングモデルに対応する第2の報酬値を表示する。残りのサブモデルに対応する正規化された後の報酬値は同様でるため、ここで説明を省略する。 denotes the second reward value corresponding to the initial dispatching model. The normalized reward values corresponding to the rest of the sub-models are similar and are omitted here.

n+1サブモデルのそれぞれに対応する正規化された報酬値を取得した後、n+1の正規化された後の報酬値に基づいて、新しい初期ディスパッチングモデルを生成することができる。 After obtaining the normalized reward values corresponding to each of the n+1 submodels, a new initial dispatching model can be generated based on the n+1 normalized reward values.

本出願の一実施例では、送電網システムディスパッチングモデルを取得した後、送電網システムディスパッチングモデルを使用して、送電網システムディスパッチングを行うことができる。 In one embodiment of the present application, after obtaining the grid system dispatching model, the grid system dispatching model may be used to perform grid system dispatching.

本出願では、送電網システムの現在実行状態情報を取得することができ、現在実行状態情報を送電網システムディスパッチングモデルに入力して、送電網システムディスパッチングモデルによって出力された現在実行状態情報と各候補動作とのマッチ度を取得する。 In the present application, the current running state information of the power grid system can be obtained, and the current running state information is input to the power grid system dispatching model to obtain the degree of matching between the current running state information output by the power grid system dispatching model and each candidate operation.

現在実行状態情報と各候補動作とのマッチ度を取得した後、現在実行状態情報と各候補動作とのマッチ度に基づいて、各候補動作から第2のターゲット動作を抽出することができる。例えば、マッチ度の最も高い候補動作を第2のターゲット動作として直接選択しても良く、または、各候補動作から複数の動作を選択して、選択された各動作に基づいて、送電網システムに対応するモデルに実行させるように制御して、選択された各動作と現在実行状態情報とのマッチ度を決定し、マッチ度が最も高い動作を、第2のターゲット動作として選択する。第2のターゲット動作を決定した後、第2のターゲット動作に基づいて、送電網システムをディスパッチングすることができる。 After obtaining the degree of matching between the current execution state information and each candidate action, a second target action can be extracted from each candidate action based on the degree of matching between the current execution state information and each candidate action. For example, the candidate operation with the highest degree of matching may be directly selected as the second target operation, or a plurality of operations may be selected from each candidate operation, and based on each selected operation, the model corresponding to the power grid system may be controlled to be executed, the degree of matching between each selected operation and the current execution state information may be determined, and the operation with the highest matching degree may be selected as the second target operation. After determining the second target behavior, the power grid system can be dispatched based on the second target behavior.

例えば、候補動作は100であり、送電網システムディスパッチングモデルによって出力されたマッチ度に基づいて、その中から上位20個のマッチ度の高い動作を抽出することができて、送電網システムに対応するモデルが得たマッチ度に基づいて、その中から現在実行状態情報とのマッチ度が最も高い動作を抽出して、送電網システムディスパッチングを行う。 For example, the number of candidate operations is 100, and based on the matching degree output by the power grid system dispatching model, the top 20 operations with the highest matching degree can be extracted, and based on the matching degree obtained by the model corresponding to the power grid system, the operation with the highest matching degree with the current execution state information is extracted from among them, and the power grid system dispatching is performed.

本出願の実施例では、第2の初期ディスパッチングモデルが送電網システムディスパッチングモデルであると決定した後、送電網システムの現在実行状態情報を送電網システムディスパッチングモデルに入力して、現在実行状態情報と各候補動作とのマッチ度を取得することができ、取得された各候補動作に対応するマッチ度に基づいて、送電網システムディスパッチングのための動作を決定する。以上により、送電網システムディスパッチングモデルを使用して、現在実行状態情報を決定して、送電網システムディスパッチングの動作を行い、送電網システムディスパッチングの自動化の程度を向上させる。 In an embodiment of the present application, after determining that the second initial dispatching model is a grid system dispatching model, the current running state information of the power grid system may be input into the grid system dispatching model to obtain a degree of match between the current running state information and each candidate action, and based on the obtained degree of match corresponding to each candidate action, determine an action for grid system dispatching. From the above, the grid system dispatching model is used to determine the current running state information, perform the grid system dispatching operation, and improve the automation degree of the grid system dispatching.

上記実施例を実現するために、本出願の実施例は送電網システムディスパッチングモデルのトレーニング装置をさらに提供する。図10は本出願の実施例によって提供される送電網システムディスパッチングモデルのトレーニング装置の概略構成図である。 To implement the above embodiments, the embodiments of the present application further provide a training device for power grid system dispatching model. FIG. 10 is a schematic structural diagram of a training device for power grid system dispatching model provided by an embodiment of the present application.

図10に示すように、当該送電網システムディスパッチングモデルのトレーニング装置1000は、トレーニングデータセットと第1の初期ディスパッチングモデルを取得する第1の取得モジュール1010であって、前記トレーニングデータセットには送電網システムの履歴実行状態情報が含まれる第1の取得モジュール1010と、前記第1の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する生成モジュール1020であって、各前記第1のサブディスパッチングモデルが前記第1の初期ディスパッチングモデルのネットワーク構造と同じである生成モジュール1020と、前記履歴実行状態情報を各前記第1のサブディスパッチングモデルに入力して、各前記第1のサブディスパッチングモデルによって出力された前記履歴実行状態情報と各候補動作との第1のマッチ度を取得する第2の取得モジュール1030と、前記複数の第1のサブディスパッチングモデルのそれぞれに対応する第1のマッチ度に基づいて、前記第1の初期ディスパッチングモデルを修正して、第2の初期ディスパッチングモデルを生成し、前記第2の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する前記操作に戻って実行し、前記第2の初期ディスパッチングモデルによって決定された前記履歴実行状態情報及び各候補動作の第2のマッチ度と、前記第1の初期ディスパッチングモデルによって決定された前記履歴実行状態情報及び各候補動の第3のマッチ度との差が、予め設定された範囲内になると、前記第2の初期ディスパッチングモデルが送電網システムディスパッチングモデルであると決定する第1のトレーニングモデル1040と、を含む。 As shown in FIG. 10 , the power grid system dispatching model training device 1000 includes a first acquisition module 1010 for acquiring a training data set and a first initial dispatching model, wherein the training data set includes historical running state information of the power grid system, and a generation module 1020 for generating a plurality of first sub-dispatching models based on the first initial dispatching model, each first sub-dispatching model. a generation module 1020 whose processing model is the same as the network structure of the first initial dispatching model; a second acquisition module 1030 that inputs the historical execution state information to each of the first sub-dispatching models to acquire a first degree of matching between the history execution state information output by each of the first sub-dispatching models and each candidate action; modifying the dispatching model to generate a second initial dispatching model; returning to the operation of generating a plurality of first sub-dispatching models based on the second initial dispatching model; , a first training model 1040 that determines that the second initial dispatching model is a grid system dispatching model.

本出願の実施例の1つの可能な実現形態では、前記履歴状態情報は複数の時間帯内の実行状態情報を含み、前記第2の取得モジュール1030は、各時間帯内の実行状態情報を対応する第1のサブディスパッチングモデルに入力して、各時間帯内の実行状態情報と前記各候補動作との第1のマッチ度を取得する。 In one possible implementation of an embodiment of the present application, the historical state information includes execution state information within multiple time periods, and the second obtaining module 1030 inputs the execution state information within each time period into a corresponding first sub-dispatching model to obtain a first degree of matching between the execution state information within each time period and each of the candidate operations.

前記第1のトレーニングモジュール1040は、各時間帯内の実行状態情報を前記第1の初期ディスパッチングモデルに入力して、各時間帯内の実行状態情報と各候補動作との第3のマッチ度を取得する第1の取得ユニットと各時間帯の前記第1の初期ディスパッチングモデルに対応する第3のマッチ度に基づいて、各時間帯の前記第1の初期ディスパッチングモデルに対応する第1の報酬値を取得する第2の取得ユニットと、各時間帯の前記対応する第1のサブディスパッチングモデルに対応する第1のマッチ度に基づいて、各時間帯の前記対応する第1のサブディスパッチングモデルに対応する第2の報酬値を取得する前記第2の取得ユニットと前記複数の時間帯のそれぞれに対応する第1の報酬値と第2の報酬値に基づいて、前記第1の初期ディスパッチングモデルを修正して、前記第2の初期ディスパッチングモデルを生成するトレーニングユニットと、を含む。 The first training module 1040 includes: a first acquisition unit that inputs execution state information in each time period to the first initial dispatching model to obtain a third matching degree between the execution state information in each time period and each candidate action; a second acquisition unit that obtains a first reward value corresponding to the first initial dispatching model in each time period based on the third matching degree corresponding to the first initial dispatching model in each time period; the second obtaining unit obtaining a second reward value corresponding to the corresponding first sub-dispatching model for each time period based on a first degree of matching corresponding to the corresponding first sub-dispatching model; and a training unit modifying the first initial dispatching model to generate the second initial dispatching model based on the first reward value and the second reward value corresponding to each of the plurality of time periods.

本出願の実施例の1つの可能な実現形態では、前記第1の取得ユニットは、各時間帯内の実行状態情報から、複数の時刻の実行状態情報を抽出し、各時刻の実行状態情報を前記第1の初期ディスパッチングモデルに入力して、各時刻の実行状態情報と各候補動作との第3のマッチ度を取得する。 In one possible implementation of an embodiment of the present application, the first obtaining unit extracts execution state information at multiple times from the execution state information within each time period, inputs the execution state information at each time into the first initial dispatching model, and obtains a third degree of matching between the execution state information at each time and each candidate operation.

前記第2の取得ユニットは、さらに、各前記第3のマッチ度に基づいて、前記各候補動作から第1のターゲット動作を抽出し、前記複数の時刻の実行状態情報のそれぞれと第1のターゲット動作との第3のマッチ度に基づいて、前記第1の報酬値を決定する。 The second obtaining unit further extracts a first target action from each of the candidate actions based on each of the third degrees of matching, and determines the first reward value based on a third degree of matching between each of the execution state information at the plurality of times and the first target action.

本出願の実施例の1つの可能な実現形態では、前記第2の取得ユニットは、さらに、各前記第3のマッチ度に基づいて、前記各候補動作から複数の参照動作を抽出し、各前記参照動作に基づいて、前記送電網システムに対応するモデルに実行させるように制御して、前記モデルの実行状態に基づいて、前記各時刻の実行状態情報と各前記参照動作との第1の参照マッチ度を決定し、各前記第1の参照マッチ度に基づいて、前記複数の参照動作から前記第1のターゲット動作を抽出する。 In one possible implementation of an embodiment of the present application, the second obtaining unit further extracts a plurality of reference actions from each of the candidate actions based on each of the third matching degrees, controls a model corresponding to the power grid system to execute based on each of the reference actions, determines a first reference match degree between the execution state information at each time and each of the reference actions based on the execution state of the model, and determines, based on each of the first reference match degrees, among the plurality of reference actions. extracting the first target motion;

本出願の実施例の1つの可能な実現形態では、当該装置は、各候補動作に基づいて、前記送電網システムに対応するモデルに実行させるように制御して、各時刻の実行状態情報と各前記候補動作との第2の参照マッチ度を決定する第1の決定モジュールと、前記各時刻の実行状態情報を初期ネットワークモデルに入力して、前記各時刻の実行状態情報と各前記候補動作との第4のマッチ度を取得する第3の取得モジュールと、前記各時刻の実行状態情報において、各前記第4のマッチ度と対応する前記第2の参照マッチ度との相違に基づいて、前記初期ネットワークモデルを修正し、修正された初期ネットワークモデルによって決定された前記各時刻の実行状態情報及び各候補動作の第4のマッチ度と、第2の参照マッチ度との差分が予め設定された範囲内になると、前記修正された初期ネットワークモデルが前記第1の初期ディスパッチングモデルであると決定する第2のトレーニングモジュールと、をさらに含むことができる。 In one possible implementation of an embodiment of the present application, the apparatus controls a model corresponding to the power grid system to execute, based on each candidate action, to determine a second degree of reference match between the execution state information of each time and each of the candidate actions, a third obtaining module to input the execution state information of each time into an initial network model to obtain a fourth degree of match between the execution state information of each time and each of the candidate actions, in the execution state information of each time: a second training module for modifying the initial network model based on a difference between each of the fourth matching degrees and the corresponding second reference matching degrees, and determining that the modified initial network model is the first initial dispatching model when the difference between the execution state information at each time determined by the modified initial network model and the fourth matching degree of each candidate action and the second reference matching degrees is within a preset range.

本出願の実施例の1つの可能な実現形態では、前記第1の決定モジュールはさらに、各動作に基づいて、前記送電網システムに対応するモデルに実行させるように制御して、各時刻の実行状態情報と各前記動作との第3の参照マッチ度を決定する。 In one possible implementation of an embodiment of the present application, the first determination module further controls a model corresponding to the power grid system to execute, based on each action, to determine a third degree of reference match between each time execution state information and each said action.

当該装置は、各前記第3の参照マッチ度に基づいて、前記各時刻の実行状態情報との第3の参照マッチ度が最も高い動作を決定する第2の決定モジュールと、前記各時刻の実行状態情報との第3の参照マッチ度が最も高い動作に基づいて、第3の参照マッチ度が最も高い各前記動作の回数を決定する第3の決定モジュールと、第3の参照マッチ度が最も高い各前記動作の回数に基づいて、各動作から複数の候補動作を抽出する第1の抽出モジュールと、をさらに含むことができる。 The apparatus comprises: a second determination module that determines an action having the highest third reference match degree with the execution state information at each time based on each of the third reference match degrees; a third determination module that determines the number of times each of the actions with the highest third reference match degree based on the action with the highest third reference match degree with the execution state information at each time; 1 extraction module.

本出願の実施例の1つの可能な実現形態では、当該装置は、前記送電網システムの現在実行状態情報を取得する第4の取得モジュールと、前記現在実行状態情報を前記送電網システムディスパッチングモデルに入力して、前記現在実行状態情報と各前記候補動作とのマッチ度を取得する第5の取得モジュールと、前記現在実行状態情報と各前記候補動作とのマッチ度に基づいて、前記各候補動作から第2のターゲット動作を抽出する第2の抽出モジュールと、前記第2のターゲット動作に基づいて、前記送電網システムをディスパッチングするディスパッチングモジュールと、をさらに含むことができる。 In one possible implementation of an embodiment of the present application, the apparatus comprises: a fourth obtaining module for obtaining current running state information of the power grid system; a fifth obtaining module for inputting the current running state information to the power grid system dispatching model to obtain a degree of match between the current running state information and each of the candidate actions; a second extraction module for extracting a second target action from each of the candidate actions based on a degree of match between the current running state information and each of the candidate actions; a dispatching module for dispatching the power grid system based on:

なお、前記送電網システムディスパッチングモデルのトレーニング方法の実施例に対する説明は、当該実施例の送電網システムディスパッチングモデルのトレーニング装置にも適用されるため、ここで説明を省略する。 In addition, the description of the embodiment of the training method of the power grid system dispatching model is also applicable to the training apparatus of the power grid system dispatching model of the embodiment, so the description is omitted here.

本出願の実施例では、第1の初期ディスパッチングモデルに基づいて、そのネットワーク結果と同じの複数の第1のサブディスパッチングモデルを生成し、履歴実行状態情報を各第1のサブディスパッチングモデルに入力して、各第1のサブディスパッチングモデルによって出力された履歴実行状態情報と各候補動作との第1のマッチ度を取得し、複数の第1のサブディスパッチングモデルのそれぞれに対応する第1のマッチ度に基づいて、第1の初期ディスパッチングモデルを修正して、第2の初期ディスパッチングモデルを生成し、第2の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する操作に戻って実行し、第2の初期ディスパッチングモデルによって出力されたマッチ度が収束条件を満たすと、送電網システムディスパッチングモデルが得られる。以上により、第1の初期ディスパッチングモデルに対して大規模な進化的学習を行うことにより、送電網システムディスパッチングモデルを得ることができる、送電網システムディスパッチングモデルを使用して送電網システムをディスパッチングすることで、送電網システムディスパッチングの自動化の程度を向上させることができる。 In an embodiment of the present application, based on a first initial dispatching model, generate a plurality of first sub-dispatching models that are the same as the network result, input historical execution state information into each first sub-dispatching model, obtain a first matching degree between the historical execution state information output by each first sub-dispatching model and each candidate operation, and generate a first initial dispatching model based on the first matching degree corresponding to each of the plurality of first sub-dispatching models. Modify, generate a second initial dispatching model, and perform back to the operation of generating a plurality of first sub-dispatching models based on the second initial dispatching model, and if the degree of match output by the second initial dispatching model satisfies the convergence condition, a power grid system dispatching model is obtained. From the above, a grid system dispatching model can be obtained by performing extensive evolutionary learning on the first initial dispatching model, and dispatching the grid system using the grid system dispatching model can improve the degree of automation of the grid system dispatching.

本出願の実施例によれば、本出願は、コンピュータ機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。 According to embodiments of the present application, the present application further provides a computer apparatus, a readable storage medium, and a computer program product.

図11は、本出願の実施例を実行するための例示的な電子コンピュータ機器1100の概略ブロック図を示す。コンピュータ機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。コンピュータ機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブル機器、及び他の同様のコンピューティング機器などの様々な形態のモバイル機器を表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。 FIG. 11 shows a schematic block diagram of an exemplary electronic computing device 1100 for implementing embodiments of the present application. Computer equipment is intended to represent various forms of digital computers such as laptop computers, desktop computers, workstations, personal digital assistants, servers, blade servers, mainframe computers, and other suitable computers. Computing devices can also represent various forms of mobile devices such as personal digital assistants, mobile phones, smart phones, wearable devices, and other similar computing devices. The components, their connections and relationships, and their functionality illustrated herein are merely examples and are not intended to limit the description and/or required implementation of the application herein.

図11に示すように、機器1100は、ROM(Read-Only Memory、読み取り専用メモリ)1102に記憶されたコンピュータプログラムまたは記憶ユニット1108からRAM(Random Access Memory、ランダムアクセス/メモリ)1103にロードされたコンピュータプログラムに従って、様々な適切な動作および処理を実行する計算ユニット1101を含む。RAM 1103には、機器1100の動作に必要な各種プログラムやデータも記憶されてもよい。計算ユニット1101、ROM 1102、およびRAM 1103は、バス1104を介して互いに接続されている。パスには、I/O(Input/Output、入力/出力)インタフェース1105も接続されている。 As shown in FIG. 11, the device 1100 includes a computing unit 1101 that performs various suitable operations and processes in accordance with computer programs stored in read-only memory (ROM) 1102 or computer programs loaded from storage unit 1108 into random access memory (RAM) 1103. Various programs and data necessary for the operation of the device 1100 may also be stored in the RAM 1103 . Computing unit 1101 , ROM 1102 and RAM 1103 are connected to each other via bus 1104 . An I/O (Input/Output) interface 1105 is also connected to the path.

機器1100の複数のコンポーネントはI/Oインタフェース1105に接続され、キーボード、マウスなどの入力ユニット1106、各タイプのディスプレイ、スピーカなどの出力ユニット1107、磁気ディスク、光ディスクなどの記憶ユニット1108、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1109を含む。通信ユニット1109は、機器1100が、インターネットなどのコンピュータネットワークと/または各種の電信ネットワークを介して他の機器と情報/データを交換することを可能にする。 Several components of the device 1100 are connected to the I/O interface 1105, including an input unit 1106 such as a keyboard, mouse, etc., an output unit 1107 such as each type of display, speakers, etc., a storage unit 1108 such as a magnetic disk, an optical disk, etc., and a communication unit 1109 such as a network card, modem, wireless communication transceiver. Communications unit 1109 enables device 1100 to exchange information/data with other devices via computer networks such as the Internet and/or various telegraph networks.

計算ユニット1101は、処理および計算能力を有する様々な汎用と/または専用の処理コンポーネントであってもよい。計算ユニット1101のいくつかの例は、CPU(Central Processing Unit、中央処理ユニット)、GPU(Graphic Processing Units、グラフィック処理ユニット)(GPU)、各種の専用のAI(Artificial Intelligence、人工知能)計算チップ、各種のマシン実行学習モデルアルゴリズムの計算ユニット、DSP(Digital Signal Processor、デジタル信号プロセッサ)、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1101は、上記に記載された各方法および処理、例えば、送電網システムディスパッチングモデルのトレーニング方法を実行する。例えば、いくつかの実施例では、送電網システムディスパッチングモデルのトレーニング方法を、記憶ユニット1108などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM 1102および/または通信ユニット1109を介して機器1100にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM 1103にロードされ、計算ユニット1101によって実行される場合、上記に記載された送電網システムディスパッチングモデルのトレーニング方法の1つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット1101は送電網システムディスパッチングモデルのトレーニング方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。 Computing unit 1101 may be various general purpose and/or special purpose processing components having processing and computing capabilities. Some examples of computational unit 1101 include a CPU (Central Processing Unit), a GPU (Graphic Processing Unit) (GPU), various dedicated AI (Artificial Intelligence) computational chips, various machine-executed learning model algorithm computational units, a DSP (Digital Sign al Processor, digital signal processor), and any suitable processor, controller, microcontroller, or the like. The computing unit 1101 performs each of the methods and processes described above, eg, the method of training the grid system dispatching model. For example, in some embodiments a method for training a power grid system dispatching model may be implemented as a computer software program tangibly contained in a machine-readable medium, such as storage unit 1108 . In some embodiments, some or all of the computer programs may be loaded and/or installed on device 1100 via ROM 1102 and/or communication unit 1109 . When the computer program is loaded into RAM 1103 and executed by computing unit 1101, one or more steps of the method for training a grid system dispatching model described above may be performed. Alternatively, in other embodiments, computing unit 1101 may be configured in any other suitable manner (eg, via firmware) to perform the grid system dispatching model training method.

本明細書で上記記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、FPGA(Field Programmable Gate Array、フィールドプログラマブルゲートアレイ)、ASIC(Application-Specific Integrated Circuit、特定用途向け集積回路)、ASSP(Application Specific Standard Product、特定用途向け標準製品)、SOC(System On Chip、システムオンチップ)、CPLD(Complex Programmable Logic Device、コンプレックス・プログラマブル・ロジック・機器)、コンピュータハードウェア、ファームウェア、ソフトウェア、と/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。 Various embodiments of the systems and techniques described herein above include digital electronic circuit systems, integrated circuit systems, FPGAs (Field Programmable Gate Arrays), ASICs (Application-Specific Integrated Circuits), ASSPs (Application Specific Integrated Circuits). Application Specific Standard Product), SOC (System On Chip), CPLD (Complex Programmable Logic Device), computer hardware, firmware, software, and/or combinations thereof. These various embodiments may include being embodied in one or more computer programs, which may be executed and/or interpreted in a programmable system including at least one programmable processor, which may be an application-specific or general-purpose programmable processor, capable of receiving data and instructions from a storage system, at least one input device, and at least one output device, and transmitting data and instructions to the storage system, at least one input device, and at least one output device. I can.

本出願の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図によって規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。 Program code to implement the methods of the present application may be written in any combination of one or more programming languages. These program codes may be provided to a processor or controller of a general purpose computer, special purpose computer, or other programmable data processing apparatus such that when executed by the processor or controller, perform the functions/acts specified by the flowcharts and/or block diagrams. The program code may execute entirely on a machine, partially on a machine, as a standalone software package, partially on a machine, and partially on a remote machine, or entirely on a remote machine or server.

本出願の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、または機器によって使用されるために、又は命令実行システム、装置、または機器と組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又は機器、または上記内容のいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory、消去可能プログラマブルリードオンリーメモリ)又はフラッシュメモリ、光ファイバ、CD-ROM(Compact Disc Read-Only Memory、ポータブルコンパクトディスクリードオンリーメモリ)光学記憶装置、磁気記憶装置、または上記内容のいずれかの適切な組み合わせを含む。 In the context of this application, a machine-readable medium may be a tangible medium capable of containing or storing a program for use by or in conjunction with an instruction execution system, apparatus, or apparatus. A machine-readable medium may be a machine-readable signal medium or a machine-readable storage medium. Machine-readable media can include, but are not limited to, electronic, magnetic, optical, electromagnetic, infrared, or semiconductor systems, devices or equipment, or any suitable combination of any of the foregoing. More specific examples of machine-readable storage media are electrical connections based on one or more lines, portable computer disks, hard disks, RAM, ROM, EPROM (Electrically Programmable Read-Only-Memory) or flash memory, optical fiber, CD-ROM (Compact Disc Read-Only Memory). memory) including optical storage, magnetic storage, or any suitable combination of any of the foregoing.

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(Cathode-Ray Tube、陰極線管)又はLCD(Liquid Crystal Display、液晶ディスプレイ)モニタ)、及びキーボードとポインティング機器(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティング機器によって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力または、触覚入力とを含む)でユーザからの入力を受信することができる。 The systems and techniques described herein can be implemented on a computer to provide interaction with a user, the computer having a display device (e.g., a cathode-ray tube (CRT) or liquid crystal display (LCD) monitor) for displaying information to the user, and a keyboard and pointing device (e.g., a mouse or trackball), the user interacting with the keyboard and Input can be provided to the computer by the pointing device. Other types of devices can also provide interaction with a user, for example, the feedback provided to the user can be any form of sensing feedback (e.g., visual, auditory, or tactile feedback) and can receive input from the user in any form (including acoustic, speech, or tactile input).

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザを介してここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実行することができる。いずれかの形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、LAN(Local Area Network、ローカルエリアネットワーク)、WAN(Wide Area Network、広域ネットワーク)、インターネット、ブロックチェーンネットワークを含む。 The systems and techniques described herein can be executed on a computing system that includes back-end components (e.g., a data server), or a computing system that includes middleware components (e.g., an application server), or a computing system that includes front-end components (e.g., a user computer having a graphical user interface or web browser through which a user can interact with embodiments of the systems and techniques described herein), or any combination of such back-end components, middleware components, and front-end components. I can. The components of the system can be interconnected by any form or medium of digital data communication (eg, a communication network). Examples of communication networks include LANs (Local Area Networks), WANs (Wide Area Networks), the Internet, blockchain networks.

コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であって、従来の物理ホストとVPSサービス(Virtual Private Server,仮想専用サーバ)に存在する管理が難しく、業務拡張性が弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、またはブロックチェーンと組合わせたサーバであってもよい。 The computer system can include clients and servers. A client and server are generally remote from each other and typically interact through a communication network. The relationship of client and server is created by computer programs running on corresponding computers and having a client-server relationship to each other. The server may be a cloud server, also called a cloud computing server or cloud host, which is one host product in the cloud computing service system, and solves the defects of the conventional physical host and VPS service (Virtual Private Server), which are difficult to manage and weak in business extensibility. The server may be a server of a distributed system, or a server combined with a blockchain.

本出願の実施例によれば、本出願はコンピュータプログラムをさらに提供し、コンピュータプログラムの命令はプロセッサによって実行される場合、本出願の上記実施例によって提供される送電網システムディスパッチングモデルのトレーニング方法を実行する。 According to an embodiment of the present application, the present application further provides a computer program, the instructions of the computer program, when executed by a processor, perform the power grid system dispatching model training method provided by the above-described embodiment of the present application.

上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができると理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。 It should be appreciated that steps may be reordered, added, or deleted using the various forms of flow shown above. For example, each step described in the present disclosure may be performed in parallel, sequentially, or in a different order, but is not limited herein as long as the desired results of the technical solutions disclosed in the present application can be achieved.

上記具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。 The above specific embodiments do not limit the protection scope of this application. Those skilled in the art can make various modifications, combinations, subcombinations, and substitutions depending on design requirements and other factors. Any modification, equivalent replacement, improvement, etc. made within the spirit and principle of this application shall all fall within the protection scope of this application.

Claims (17)

送電網システムディスパッチングモデルのトレーニング方法であって、
トレーニングデータセットと第1の初期ディスパッチングモデルを取得するステップであって、前記トレーニングデータセットには送電網システムの履歴実行状態情報が含まれるステップと、
前記第1の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成するステップであって、各前記第1のサブディスパッチングモデルが前記第1の初期ディスパッチングモデルのネットワーク構造と同じであるステップと、
前記履歴実行状態情報を各前記第1のサブディスパッチングモデルに入力して、各前記第1のサブディスパッチングモデルによって出力された前記履歴実行状態情報と各候補動作との第1のマッチ度を取得するステップと、
前記複数の第1のサブディスパッチングモデルのそれぞれに対応する第1のマッチ度に基づいて、前記第1の初期ディスパッチングモデルを修正して、第2の初期ディスパッチングモデルを生成するステップと、
前記第2の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する前記ステップに戻って実行し、前記第2の初期ディスパッチングモデルによって決定された前記履歴実行状態情報及び各候補動作の第2のマッチ度と、前記第1の初期ディスパッチングモデルによって決定された前記履歴実行状態情報及び各候補動の第3のマッチ度との差が、予め設定された範囲内になると、前記第2の初期ディスパッチングモデルが送電網システムディスパッチングモデルであると決定するステップと、を含む、
ことを特徴とする送電網システムディスパッチングモデルのトレーニング方法。
A method of training a power grid system dispatching model, comprising:
obtaining a training data set and a first initial dispatching model, the training data set including historical running state information of a power grid system;
generating a plurality of first sub-dispatching models based on said first initial dispatching model, each said first sub-dispatching model being the same as the network structure of said first initial dispatching model;
inputting the historical execution state information to each of the first sub-dispatching models to obtain a first degree of matching between the historical execution state information output by each of the first sub-dispatching models and each candidate action;
modifying the first initial dispatching model to generate a second initial dispatching model based on a first degree of match corresponding to each of the plurality of first sub-dispatching models;
returning to the step of generating a plurality of first sub-dispatching models based on the second initial dispatching model, wherein when a difference between a second degree of matching of each candidate action and the historical execution state information determined by the second initial dispatching model and a third degree of matching of the historical execution state information and each candidate action determined by the first initial dispatching model falls within a preset range, the second initial dispatching model is adapted to the power grid system dispatching model; determining to be a model;
A training method for a power grid system dispatching model, characterized by:
前記履歴実行状態情報は複数の時間帯内の実行状態情報を含み、各前記第1のサブディスパッチングモデルによって出力された前記履歴実行状態情報と各候補動作との第1のマッチ度を取得するステップは、
各時間帯内の実行状態情報を対応する第1のサブディスパッチングモデルに入力して、各時間帯内の実行状態情報と前記各候補動作との第1のマッチ度を取得するステップを含み、
前記複数の第1のサブディスパッチングモデルのそれぞれに対応する第1のマッチ度に基づいて、前記第1の初期ディスパッチングモデルを修正して、第2の初期ディスパッチングモデルを生成するステップは、
各時間帯内の実行状態情報を前記第1の初期ディスパッチングモデルに入力して、各時間帯内の実行状態情報と各候補動作との第3のマッチ度を取得するステップと、
各時間帯の前記第1の初期ディスパッチングモデルに対応する第3のマッチ度に基づいて、各時間帯の前記第1の初期ディスパッチングモデルに対応する第1の報酬値を取得するステップと、
各時間帯の前記対応する第1のサブディスパッチングモデルに対応する第1のマッチ度に基づいて、各時間帯の前記対応する第1のサブディスパッチングモデルに対応する第2の報酬値を取得するステップと、
前記複数の時間帯のそれぞれに対応する第1の報酬値と第2の報酬値に基づいて、前記第1の初期ディスパッチングモデルを修正して、前記第2の初期ディスパッチングモデルを生成するステップと、を含む、
ことを特徴とする請求項1に記載の方法。
wherein the historical execution state information includes execution state information within a plurality of time periods, and obtaining a first degree of matching between the historical execution state information output by each of the first sub-dispatching models and each candidate action;
inputting the execution state information within each time slot into a corresponding first sub-dispatching model to obtain a first degree of matching between the execution state information within each time slot and each of the candidate actions;
modifying the first initial dispatching model to generate a second initial dispatching model based on a first degree of match corresponding to each of the plurality of first sub-dispatching models;
inputting execution state information within each time period into the first initial dispatching model to obtain a third degree of matching between the execution state information within each time period and each candidate action;
obtaining a first reward value corresponding to the first initial dispatching model for each time slot based on a third degree of match corresponding to the first initial dispatching model for each time slot;
obtaining a second reward value corresponding to the corresponding first sub-dispatching model for each time slot based on a first degree of match corresponding to the corresponding first sub-dispatching model for each time slot;
modifying the first initial dispatching model to generate the second initial dispatching model based on a first reward value and a second reward value corresponding to each of the plurality of time slots;
2. The method of claim 1, wherein:
各時間帯内の実行状態情報を前記第1の初期ディスパッチングモデルに入力して、各時間帯内の実行状態情報と各候補動作との第3のマッチ度を取得するステップは、
各時間帯内の実行状態情報から、複数の時刻の実行状態情報を抽出するステップと、
各時刻の実行状態情報を前記第1の初期ディスパッチングモデルに入力して、各時刻の実行状態情報と各候補動作との第3のマッチ度を取得するステップと、を含み、
各時間帯の前記第1の初期ディスパッチングモデルに対応する第3のマッチ度に基づいて、各時間帯の前記第1の初期ディスパッチングモデルに対応する第1の報酬値を取得するステップは、
各前記第3のマッチ度に基づいて、前記各候補動作から第1のターゲット動作を抽出するステップと、
前記複数の時刻の実行状態情報のそれぞれと第1のターゲット動作との第3のマッチ度に基づいて、前記第1の報酬値を決定するステップと、含む、
ことを特徴とする請求項2に記載の方法。
The step of inputting execution state information within each time period into the first initial dispatching model to obtain a third degree of matching between the execution state information within each time period and each candidate action,
a step of extracting execution state information at a plurality of times from the execution state information within each time period;
inputting the execution state information at each time into the first initial dispatching model to obtain a third degree of matching between the execution state information at each time and each candidate action;
obtaining a first reward value corresponding to the first initial dispatching model for each time period based on a third degree of match corresponding to the first initial dispatching model for each time period,
extracting a first target action from each of said candidate actions based on each said third degree of matching;
determining the first reward value based on a third degree of matching between each of the plurality of times of execution state information and a first target action;
3. The method of claim 2, wherein:
各前記第3のマッチ度に基づいて、複数の候補動作から第1のターゲット動作を抽出するステップは、
各前記第3のマッチ度に基づいて、前記各候補動作から複数の参照動作を抽出するステップと、
各前記参照動作に基づいて、前記送電網システムに対応するモデルに実行させるように制御して、前記モデルの実行状態に基づいて、前記各時刻の実行状態情報と各前記参照動作との第1の参照マッチ度を決定するステップと、
各前記第1の参照マッチ度に基づいて、前記複数の参照動作から前記第1のターゲット動作を抽出するステップと、を含む、
ことを特徴とする請求項3に記載の方法。
extracting a first target action from a plurality of candidate actions based on each said third degree of matching;
extracting a plurality of reference motions from each of the candidate motions based on each of the third degrees of matching;
a step of controlling a model corresponding to the power grid system to be executed based on each of the reference actions, and determining a first reference matching degree between the execution state information at each time and each of the reference actions based on the execution state of the model;
extracting the first target action from the plurality of reference actions based on each of the first reference match degrees;
4. The method of claim 3, wherein:
トレーニングデータセットと第1の初期ディスパッチングモデルを取得するステップの前、
各候補動作に基づいて、前記送電網システムに対応するモデルに実行させるように制御して、各時刻の実行状態情報と各前記候補動作との第2の参照マッチ度を決定するステップと、
前記各時刻の実行状態情報を初期ネットワークモデルに入力して、前記各時刻の実行状態情報と各前記候補動作との第4のマッチ度を取得するステップと、
前記各時刻の実行状態情報において、各前記第4のマッチ度と対応する前記第2の参照マッチ度との相違に基づいて、前記初期ネットワークモデルを修正し、修正された初期ネットワークモデルによって決定された前記各時刻の実行状態情報及び各候補動作の第4のマッチ度と、第2の参照マッチ度との差分が予め設定された範囲内になると、前記修正された初期ネットワークモデルが前記第1の初期ディスパッチングモデルであると決定するステップと、をさらに含む、
ことを特徴とする請求項1に記載の方法。
Before the step of obtaining the training dataset and the first initial dispatching model,
Based on each candidate action, controlling a model corresponding to the power grid system to execute, and determining a second reference match degree between the execution state information at each time and each of the candidate actions;
inputting the execution state information at each time into an initial network model to obtain a fourth degree of matching between the execution state information at each time and each of the candidate actions;
modifying the initial network model based on the difference between each fourth matching degree and the corresponding second reference matching degree in the execution state information at each time, and determining that the modified initial network model is the first initial dispatching model when the difference between the execution state information at each time and the fourth matching degree of each candidate action determined by the modified initial network model and the second reference matching degree is within a preset range;
2. The method of claim 1, wherein:
各時刻の実行状態情報と各前記候補動作との第2の参照マッチ度を決定するステップの前、
各動作に基づいて、前記送電網システムに対応するモデルに実行させるように制御して、各時刻の実行状態情報と各前記動作との第3の参照マッチ度を決定するステップと、
各前記第3の参照マッチ度に基づいて、前記各時刻の実行状態情報との第3の参照マッチ度が最も高い動作を決定するステップと、
前記各時刻の実行状態情報との第3の参照マッチ度が最も高い動作に基づいて、第3の参照マッチ度が最も高い各前記動作の回数を決定するステップと、
第3の参照マッチ度が最も高い各前記動作の回数に基づいて、各動作から複数の候補動作を抽出するステップと、をさらに含む、
ことを特徴とする請求項5に記載の方法。
before the step of determining a second degree of reference match between execution state information at each time and each said candidate action;
controlling a model corresponding to the power grid system to execute based on each action to determine a third reference match degree between the execution state information at each time and each of the actions;
determining an operation having the highest third degree of reference match with the execution state information at each time based on each degree of third reference match;
determining the number of times each of the actions with the highest third degree of reference matching is performed based on the action with the highest third degree of reference matching with the execution state information at each time;
extracting a plurality of candidate actions from each action based on the number of times of each said action with the highest third degree of reference match;
6. The method of claim 5, wherein:
前記第2の初期ディスパッチングモデルが送電網システムディスパッチングモデルであると決定するステップの後、
前記送電網システムの現在実行状態情報を取得するステップと、
前記現在実行状態情報を前記送電網システムディスパッチングモデルに入力して、前記現在実行状態情報と各前記候補動作とのマッチ度を取得するステップと、
前記現在実行状態情報と各前記候補動作とのマッチ度に基づいて、前記各候補動作から第2のターゲット動作を抽出するステップと、
前記第2のターゲット動作に基づいて、前記送電網システムをディスパッチングするステップと、をさらに含む、
ことを特徴とする請求項1~6のいずれか一項に記載の方法。
After determining that the second initial dispatching model is a grid system dispatching model,
obtaining current running state information of the power grid system;
inputting the current running state information into the power grid system dispatching model to obtain a degree of match between the current running state information and each of the candidate actions;
extracting a second target action from each of the candidate actions based on the degree of matching between the current execution state information and each of the candidate actions;
dispatching the power grid system based on the second target action;
The method according to any one of claims 1 to 6, characterized in that:
送電網システムディスパッチングモデルのトレーニング装置であって、
トレーニングデータセットと第1の初期ディスパッチングモデルを取得する第1の取得モジュールであって、前記トレーニングデータセットには送電網システムの履歴実行状態情報が含まれる第1の取得モジュールと、
前記第1の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する生成モジュールであって、各前記第1のサブディスパッチングモデルが前記第1の初期ディスパッチングモデルのネットワーク構造と同じである生成モジュールと、
前記履歴実行状態情報を各前記第1のサブディスパッチングモデルに入力して、各前記第1のサブディスパッチングモデルによって出力された前記履歴実行状態情報と各候補動作との第1のマッチ度を取得する第2の取得モジュールと、
前記複数の第1のサブディスパッチングモデルのそれぞれに対応する第1のマッチ度に基づいて、前記第1の初期ディスパッチングモデルを修正して、第2の初期ディスパッチングモデルを生成し、前記第2の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する前記生成モジュールの操作に戻って実行し、前記第2の初期ディスパッチングモデルによって決定された前記履歴実行状態情報及び各候補動作の第2のマッチ度と、前記第1の初期ディスパッチングモデルによって決定された前記履歴実行状態情報及び各候補動の第3のマッチ度との差が、予め設定された範囲内になると、前記第2の初期ディスパッチングモデルが送電網システムディスパッチングモデルであると決定する第1のトレーニングモジュールと、を含む、
ことを特徴とする送電網システムディスパッチングモデルのトレーニング装置。
A power grid system dispatching model training device comprising:
a first acquisition module for acquiring a training data set and a first initial dispatching model, wherein the training data set includes historical running state information of a power grid system;
a generation module for generating a plurality of first sub-dispatching models based on the first initial dispatching model, each of the first sub-dispatching models having the same network structure as the first initial dispatching model;
a second obtaining module for inputting the historical execution state information to each of the first sub-dispatching models to obtain a first degree of matching between the historical execution state information output by each of the first sub-dispatching models and each candidate action;
前記複数の第1のサブディスパッチングモデルのそれぞれに対応する第1のマッチ度に基づいて、前記第1の初期ディスパッチングモデルを修正して、第2の初期ディスパッチングモデルを生成し、前記第2の初期ディスパッチングモデルに基づいて、複数の第1のサブディスパッチングモデルを生成する前記生成モジュールの操作に戻って実行し、前記第2の初期ディスパッチングモデルによって決定された前記履歴実行状態情報及び各候補動作の第2のマッチ度と、前記第1の初期ディスパッチングモデルによって決定された前記履歴実行状態情報及び各候補動の第3のマッチ度との差が、予め設定された範囲内になると、前記第2の初期ディスパッチングモデルが送電網システムディスパッチングモデルであると決定する第1のトレーニングモジュールと、を含む、
A power grid system dispatching model training device characterized by:
前記履歴実行状態情報は複数の時間帯内の実行状態情報を含み、前記第2の取得モジュールは、
各時間帯内の実行状態情報を対応する第1のサブディスパッチングモデルに入力して、各時間帯内の実行状態情報と前記各候補動作との第1のマッチ度を取得し、
前記第1のトレーニングモジュールは、
各時間帯内の実行状態情報を前記第1の初期ディスパッチングモデルに入力して、各時間帯内の実行状態情報と各候補動作との第3のマッチ度を取得する第1の取得ユニットと、
各時間帯の前記第1の初期ディスパッチングモデルに対応する第3のマッチ度に基づいて、各時間帯の前記第1の初期ディスパッチングモデルに対応する第1の報酬値を取得し、さらに、各時間帯の前記対応する第1のサブディスパッチングモデルに対応する第1のマッチ度に基づいて、各時間帯の前記対応する第1のサブディスパッチングモデルに対応する第2の報酬値を取得する第2の取得ユニット
前記複数の時間帯のそれぞれに対応する第1の報酬値と第2の報酬値に基づいて、前記第1の初期ディスパッチングモデルを修正して、前記第2の初期ディスパッチングモデルを生成するトレーニングユニットと、を含む、
ことを特徴とする請求項8に記載の装置。
The historical execution state information includes execution state information within a plurality of time periods, and the second acquisition module comprises:
inputting the execution state information within each time slot into a corresponding first sub-dispatching model to obtain a first matching degree between the execution state information within each time slot and each of the candidate actions;
The first training module comprises:
a first obtaining unit for inputting execution state information within each time period into the first initial dispatching model to obtain a third degree of matching between the execution state information within each time period and each candidate action;
a second obtaining unit for obtaining a first reward value corresponding to the first initial dispatching model for each time period based on a third matching degree corresponding to the first initial dispatching model for each time period, and further obtaining a second reward value corresponding to the corresponding first sub dispatching model for each time period based on the first matching degree corresponding to the corresponding first sub dispatching model for each time period;
a training unit that modifies the first initial dispatching model to generate the second initial dispatching model based on a first reward value and a second reward value corresponding to each of the plurality of time slots;
9. Apparatus according to claim 8, characterized in that:
前記第1の取得ユニットは、
各時間帯内の実行状態情報から、複数の時刻の実行状態情報を抽出し、
各時刻の実行状態情報を前記第1の初期ディスパッチングモデルに入力して、各時刻の実行状態情報と各候補動作との第3のマッチ度を取得し、
前記第2の取得ユニットは、さらに、
各前記第3のマッチ度に基づいて、前記各候補動作から第1のターゲット動作を抽出し、
前記複数の時刻の実行状態情報のそれぞれと第1のターゲット動作との第3のマッチ度に基づいて、前記第1の報酬値を決定する、
ことを特徴とする請求項9に記載の装置。
The first acquisition unit comprises:
Extract execution state information for multiple times from the execution state information within each time period,
inputting the execution state information at each time into the first initial dispatching model to obtain a third degree of matching between the execution state information at each time and each candidate action;
The second acquisition unit further comprises:
extracting a first target action from each of the candidate actions based on each of the third degrees of matching;
determining the first reward value based on a third degree of matching between each of the execution state information at the plurality of times and the first target action;
10. Apparatus according to claim 9, characterized in that:
前記第2の取得ユニットは、さらに、
各前記第3のマッチ度に基づいて、前記各候補動作から複数の参照動作を抽出し、
各前記参照動作に基づいて、前記送電網システムに対応するモデルに実行させるように制御して、前記モデルの実行状態に基づいて、前記各時刻の実行状態情報と各前記参照動作との第1の参照マッチ度を決定し、
各前記第1の参照マッチ度に基づいて、前記複数の参照動作から前記第1のターゲット動作を抽出する、
ことを特徴とする請求項10に記載の装置。
The second acquisition unit further comprises:
extracting a plurality of reference motions from each of the candidate motions based on each of the third matching degrees;
controlling a model corresponding to the power grid system to be executed based on each of the reference actions, determining a first reference matching degree between the execution state information at each time and each of the reference actions based on the execution state of the model;
extracting the first target action from the plurality of reference actions based on each of the first reference matching degrees;
11. Apparatus according to claim 10, characterized in that:
各候補動作に基づいて、前記送電網システムに対応するモデルに実行させるように制御して、各時刻の実行状態情報と各前記候補動作との第2の参照マッチ度を決定する第1の決定モジュールと、
前記各時刻の実行状態情報を初期ネットワークモデルに入力して、前記各時刻の実行状態情報と各前記候補動作との第4のマッチ度を取得する第3の取得モジュールと、
前記各時刻の実行状態情報において、各前記第4のマッチ度と対応する前記第2の参照マッチ度との相違に基づいて、前記初期ネットワークモデルを修正し、修正された初期ネットワークモデルによって決定された前記各時刻の実行状態情報及び各候補動作の第4のマッチ度と、第2の参照マッチ度との差分が予め設定された範囲内になると、前記修正された初期ネットワークモデルが前記第1の初期ディスパッチングモデルであると決定する第2のトレーニングモジュールと、をさらに含む、
ことを特徴とする請求項8に記載の装置。
a first determination module for controlling a model corresponding to the power grid system to execute based on each candidate action to determine a second reference match degree between execution state information at each time and each of the candidate actions;
a third acquisition module that inputs the execution state information at each time into an initial network model to acquire a fourth degree of matching between the execution state information at each time and each of the candidate actions;
In the execution status information of each time, based on the difference between the fourth match between each time and the degree of reference matching in correspondence, each time the above -time network model is corrected and the modified initial network model is determined by the modified initial network model, and the degree of matching degree of the second reference match between each time each time and each candidate operation. When it is within the set in advance, it includes the second training module that determines that the modified initial network model is the first initial dispatching model.
9. Apparatus according to claim 8, characterized in that:
前記第1の決定モジュールは、さらに、各動作に基づいて、前記送電網システムに対応するモデルに実行させるように制御して、各時刻の実行状態情報と各前記動作との第3の参照マッチ度を決定し、
前記装置は、
各前記第3の参照マッチ度に基づいて、前記各時刻の実行状態情報との第3の参照マッチ度が最も高い動作を決定する第2の決定モジュールと、
前記各時刻の実行状態情報との第3の参照マッチ度が最も高い動作に基づいて、第3の参照マッチ度が最も高い各前記動作の回数を決定する第3の決定モジュールと、
第3の参照マッチ度が最も高い各前記動作の回数に基づいて、各動作から複数の候補動作を抽出する第1の抽出モジュールと、をさらに含む、
ことを特徴とする請求項12に記載の装置。
The first determination module further controls a model corresponding to the power grid system to execute, based on each action, to determine a third reference match degree between the execution state information at each time and each of the actions;
The device comprises:
a second determination module that determines an operation having the highest third degree of reference match with the execution state information at each time based on each degree of third reference match;
a third determination module for determining the number of times each of the actions having the highest third reference matching degree with the execution state information at each time based on the action having the highest third reference matching degree;
a first extraction module for extracting a plurality of candidate actions from each action based on the number of times each said action with the highest third degree of reference match;
13. Apparatus according to claim 12, characterized in that:
前記送電網システムの現在実行状態情報を取得する第4の取得モジュールと、
前記現在実行状態情報を前記送電網システムディスパッチングモデルに入力して、前記現在実行状態情報と各前記候補動作とのマッチ度を取得する第5の取得モジュールと、
前記現在実行状態情報と各前記候補動作とのマッチ度に基づいて、前記各候補動作から第2のターゲット動作を抽出する第2の抽出モジュールと、
前記第2のターゲット動作に基づいて、前記送電網システムをディスパッチングするディスパッチングモジュールと、をさらに含む、
ことを特徴とする請求項8~13のいずれか一項に記載の装置。
a fourth acquisition module for acquiring current running state information of the power grid system;
a fifth acquisition module for inputting the current running state information into the power grid system dispatching model to acquire a degree of match between the current running state information and each of the candidate actions;
a second extraction module for extracting a second target action from each of the candidate actions based on the degree of matching between the current execution state information and each of the candidate actions;
a dispatching module that dispatches the power grid system based on the second target action;
A device according to any one of claims 8 to 13, characterized in that:
コンピュータ機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を含み、
前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1~7のいずれか一項に記載の方法を実行させる、
コンピュータ機器。
a computer device,
at least one processor;
a memory communicatively coupled to the at least one processor;
Instructions executable by the at least one processor are stored in the memory, and the instructions, when executed by the at least one processor, cause the at least one processor to perform the method according to any one of claims 1 to 7,
computer equipment.
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1~7のいずれか一項に記載の方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。
A non-transitory computer-readable storage medium having computer instructions stored thereon,
The computer instructions cause the computer to perform the method of any one of claims 1-7,
A non-transitory computer-readable storage medium.
コンピュータプログラムであって、
前記コンピュータプログラムはプロセッサによって実行される場合、請求項1~7のいずれかに記載の方法を実現する
コンピュータプログラム。
A computer program,
The computer program, when executed by a processor, implements the method of any of claims 1-7 ,
computer program.
JP2022003836A 2021-06-30 2022-01-13 Training method, apparatus, equipment and storage medium for power grid system dispatching model Active JP7314330B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110735962.1 2021-06-30
CN202110735962.1A CN113554280B (en) 2021-06-30 2021-06-30 Training method, device, equipment and storage medium of power grid system scheduling model

Publications (2)

Publication Number Publication Date
JP2022050615A JP2022050615A (en) 2022-03-30
JP7314330B2 true JP7314330B2 (en) 2023-07-25

Family

ID=78131131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022003836A Active JP7314330B2 (en) 2021-06-30 2022-01-13 Training method, apparatus, equipment and storage medium for power grid system dispatching model

Country Status (3)

Country Link
US (1) US20220231504A1 (en)
JP (1) JP7314330B2 (en)
CN (1) CN113554280B (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115529324B (en) * 2022-08-16 2023-12-15 无锡市恒通电器有限公司 Data forwarding method of intelligent Internet of things ammeter in Internet of things communication scene

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018200043A (en) 2017-05-25 2018-12-20 株式会社日立製作所 Adaptive electric power generation management
JP2020102204A (en) 2018-12-20 2020-07-02 三星ディスプレイ株式會社Samsung Display Co.,Ltd. System and method for hostile learning for noise label
US20210004723A1 (en) 2018-03-29 2021-01-07 Nec Corporation Learning device, learning method, and learning program

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9569696B1 (en) * 2015-08-12 2017-02-14 Yahoo! Inc. Media content analysis system and method
CN111598211B (en) * 2020-04-13 2023-07-04 北京百度网讯科技有限公司 Elevator dispatching model training method and device, electronic equipment and storage medium
CN112182126A (en) * 2020-09-18 2021-01-05 北京三快在线科技有限公司 Model training method and device for determining matching degree, electronic equipment and readable storage medium
CN112791394B (en) * 2021-02-02 2022-09-30 腾讯科技(深圳)有限公司 Game model training method and device, electronic equipment and storage medium
CN113033801A (en) * 2021-03-04 2021-06-25 北京百度网讯科技有限公司 Pre-training method and device of neural network model, electronic equipment and medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018200043A (en) 2017-05-25 2018-12-20 株式会社日立製作所 Adaptive electric power generation management
US20210004723A1 (en) 2018-03-29 2021-01-07 Nec Corporation Learning device, learning method, and learning program
JP2020102204A (en) 2018-12-20 2020-07-02 三星ディスプレイ株式會社Samsung Display Co.,Ltd. System and method for hostile learning for noise label

Also Published As

Publication number Publication date
US20220231504A1 (en) 2022-07-21
CN113554280B (en) 2023-06-16
CN113554280A (en) 2021-10-26
JP2022050615A (en) 2022-03-30

Similar Documents

Publication Publication Date Title
US20220335711A1 (en) Method for generating pre-trained model, electronic device and storage medium
CN112507040B (en) Training method and device for multivariate relation generation model, electronic equipment and medium
JP7297038B2 (en) Neural network model pre-training method, device, electronic device and medium
JP7414907B2 (en) Pre-trained model determination method, determination device, electronic equipment, and storage medium
CN112560985B (en) Neural network searching method and device and electronic equipment
KR20220064940A (en) Method and apparatus for generating speech, electronic device and storage medium
CN112632288A (en) Power dispatching system and method based on knowledge graph
CN113963110B (en) Texture map generation method and device, electronic equipment and storage medium
JP2022173453A (en) Deep learning model training method, natural language processing method and apparatus, electronic device, storage medium, and computer program
CN115114439B (en) Method and device for multi-task model reasoning and multi-task information processing
JP7314330B2 (en) Training method, apparatus, equipment and storage medium for power grid system dispatching model
CN115309877A (en) Dialog generation method, dialog model training method and device
CN115083434A (en) Emotion recognition method and device, computer equipment and storage medium
CN113657467A (en) Model pre-training method and device, electronic equipment and storage medium
CN114186681A (en) Method, apparatus and computer program product for generating model clusters
CN113360617B (en) Abnormality recognition method, apparatus, device, and storage medium
CN115470798A (en) Training method of intention recognition model, intention recognition method, device and equipment
CN114819095A (en) Method and device for generating business data processing model and electronic equipment
CN113657468A (en) Pre-training model generation method and device, electronic equipment and storage medium
CN114416941A (en) Generation method and device of dialogue knowledge point determination model fusing knowledge graph
CN114220163A (en) Human body posture estimation method and device, electronic equipment and storage medium
CN113657466A (en) Pre-training model generation method and device, electronic equipment and storage medium
CN113112311A (en) Method for training causal inference model, information prompting method and device
CN112530415A (en) Negative reply recognition model acquisition and negative reply recognition method and device
CN115131709B (en) Video category prediction method, training method and device for video category prediction model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230712

R150 Certificate of patent or registration of utility model

Ref document number: 7314330

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150