JP2014179064A - Control measure determination device, control measure determination method, control measure determination program and control system - Google Patents
Control measure determination device, control measure determination method, control measure determination program and control system Download PDFInfo
- Publication number
- JP2014179064A JP2014179064A JP2013235415A JP2013235415A JP2014179064A JP 2014179064 A JP2014179064 A JP 2014179064A JP 2013235415 A JP2013235415 A JP 2013235415A JP 2013235415 A JP2013235415 A JP 2013235415A JP 2014179064 A JP2014179064 A JP 2014179064A
- Authority
- JP
- Japan
- Prior art keywords
- function
- convex hull
- linear
- dual
- approximate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 24
- 230000006870 function Effects 0.000 claims abstract description 177
- 238000012886 linear function Methods 0.000 claims abstract description 120
- 230000009977 dual effect Effects 0.000 claims abstract description 97
- 230000009466 transformation Effects 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000009471 action Effects 0.000 claims description 54
- 230000007613 environmental effect Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000011217 control strategy Methods 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 53
- 239000000284 extract Substances 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 description 17
- 230000002452 interceptive effect Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 235000012054 meals Nutrition 0.000 description 7
- 238000013138 pruning Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
Description
本発明は、対話システム、自立移動ロボットや車両等におけるノイズ等の不確定性を含む環境センシング情報に基づいて制御方策を決定する制御方策決定装置及びそれを含む制御システム、制御方策決定方法に関するものである。 The present invention relates to an interactive system, a control policy determination device that determines a control policy based on environmental sensing information including uncertainty such as noise in autonomous mobile robots and vehicles, a control system including the control policy, and a control policy determination method It is.
従来より、部分観測可能マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)に基づいて、システムの最適な制御方策を決定する価値関数を強化学習の枠組みによって自動的に獲得する技術が知られている。 Conventionally, a technology for automatically acquiring a value function for determining an optimal control strategy of a system based on a partially observable Markov Decision Process (POMDP) by a reinforcement learning framework has been known. .
状態数とアクション(行動)とが有限(離散的)である場合、POMDPの価値関数は、信念空間上の区分線形な関数で表されることが知られている。信念空間は、次元が状態数と等しいユークリッド空間の中で、各座標値が正でかつそれらの和が1となるような超平面として与えられる。信念空間上の点の各座標値は、対応する状態をシステムが取る確率となっている。また、各線形関数には、アクションの1つが対応する。 When the number of states and actions (behavior) are finite (discrete), it is known that the value function of POMDP is represented by a piecewise linear function in the belief space. The belief space is given as a hyperplane in which each coordinate value is positive and the sum thereof is 1 in the Euclidean space whose dimension is equal to the number of states. Each coordinate value of a point on the belief space is a probability that the system takes a corresponding state. Each linear function corresponds to one of the actions.
この区分線形な価値関数は、複数の線形関数が決定する下半空間の上界として与えられる。これらの線形関数の数は、制御方策を決定するために先読みするステップ数に関して指数関数的に増加する。そのような多くの線形関数の中から、上界を与える線形関数を決定するには、膨大な計算量を要する。従って、このPOMDPの定式そのままでは、現実的な問題へ適用することが困難である。 This piecewise linear value function is given as the upper bound of the lower half space determined by a plurality of linear functions. The number of these linear functions increases exponentially with respect to the number of steps read ahead to determine the control strategy. In order to determine the linear function that gives the upper bound from such many linear functions, a huge amount of calculation is required. Therefore, it is difficult to apply this POMDP formula as it is to a practical problem.
そのため、近似的に価値関数を計算する方法が提案されてきた。特に、PBVI(Point-Based Value Iteration)という方法は、実装が容易であり、よく利用されている。また、PBVIの様々な拡張がなされている(例えば、非特許文献1)。 Therefore, methods for calculating the value function approximately have been proposed. In particular, a method called PBVI (Point-Based Value Iteration) is easy to implement and is often used. In addition, various extensions of PBVI have been made (for example, Non-Patent Document 1).
しかしながら、PBVIによる方法は、純粋なPOMDPに比べて、大きく計算量が削減されてはいるが、以下のような課題がある。すなわち、PBVIによる方法は、近似に用いる点の決め方によって近似精度が大きく影響するところ、理論的にどのような点を選択するべきか、明確な基準がないという課題がある。そのため、近似の精度を上げるためには多くの点を採用する必要があり、結果として、依然として大きな計算リソースを必要とする。通常、この点の数は、状態数に対して指数関数的に増大するため、やはり実用的な問題への適用する際に大きな制約がある。 However, the PBVI method has the following problems, although the calculation amount is greatly reduced as compared with pure POMDP. In other words, the PBVI method has a problem that there is no clear standard for what point should be selected theoretically because the approximation accuracy greatly depends on how the points used for approximation are determined. For this reason, in order to increase the accuracy of approximation, it is necessary to adopt many points, and as a result, still large computational resources are required. Usually, the number of points increases exponentially with respect to the number of states, so that there are still significant restrictions when applied to practical problems.
本発明は、上記の問題に鑑みてなされたものであり、部分観測可能マルコフ決定過程(POMDP)によりシステム制御をモデル化し、その価値関数を強化学習によって自動獲得するための計算コストを削減し、このようなシステム制御モデルを実用的な問題へ適用可能にすることを目的とする。 The present invention has been made in view of the above-described problem, modeled system control by a partially observable Markov decision process (POMDP), and reduced the calculation cost for automatically acquiring the value function by reinforcement learning, The purpose is to make such a system control model applicable to practical problems.
上記の課題を解決するために、本発明の制御方策決定装置は、不確定性を含む環境センシング情報に基づいて制御方策を決定する制御方策決定装置であって、前記環境センシング情報に基づいて、信念空間上の価値関数の線形要素を与える線形関数の候補集合を生成する線形関数生成部と、前記信念空間上の前記候補集合を双対空間上の複数の点に変換する双対変換部と、前記複数の点の凸包を近似する近似凸包を計算する凸包近似計算部と、前記近似凸包の頂点のメンバーシップ関数を決定するメンバーシップ決定部と、前記近似凸包の上辺を抽出する凸包上辺抽出部と、前記上辺に属する頂点を前記信念空間上の線形関数に逆変換する逆双対変換部と、前記逆変換によって得られた線形関数に基づいて、バックアップステップ数に応じて線形関数を更新する線形関数更新部とを備え、前記双対変換部は、さらに前記バックアップステップ数に応じて更新された線形関数を前記候補集合として、双対空間上の複数の点に変換し、前記制御方策決定装置は、さらに、前記バックアップステップ数の線形関数の更新の後に前記逆変換によって得られた線形関数に基づいて、近似価値関数の複数の線形要素を求める価値関数決定部と、前記近似価値関数の複数の線形要素の各々に対して、前記メンバーシップ関数に従って行動を割り当てる方策決定部とを備えた構成を有している。 In order to solve the above problems, the control policy determination device of the present invention is a control policy determination device that determines a control policy based on environmental sensing information including uncertainty, and based on the environmental sensing information, A linear function generation unit that generates a linear function candidate set that gives a linear element of a value function on a belief space; a dual conversion unit that converts the candidate set on the belief space into a plurality of points on a dual space; and A convex hull approximation calculation unit that calculates an approximate convex hull that approximates the convex hull of a plurality of points, a membership determination unit that determines a membership function of a vertex of the approximate convex hull, and an upper side of the approximate convex hull Based on a convex hull upper side extraction unit, an inverse dual transformation unit that inversely transforms vertices belonging to the upper side into a linear function on the belief space, and a linear function obtained by the inverse transformation, according to the number of backup steps A linear function update unit that updates a shape function, and the dual conversion unit further converts the linear function updated according to the number of backup steps into a plurality of points on a dual space as the candidate set, The control policy determining device further includes a value function determining unit for obtaining a plurality of linear elements of the approximate value function based on the linear function obtained by the inverse transformation after the update of the linear function of the number of backup steps, and the approximation And a policy determining unit that assigns an action to each of a plurality of linear elements of the value function according to the membership function.
この構成により、信念空間上の候補集合が双対空間に写像された上で、その凸包を近似する近似凸包の上辺の頂点及びそのメンバーシップ関数が求められるので、バックアップステップ数(価値反復区間)が大きくなった場合にも、近似価値関数を高速に計算して、候補集合の要素に行動を割り当てることができる。 With this configuration, the candidate set in the belief space is mapped to the dual space, and the vertex of the approximate convex hull that approximates the convex hull and its membership function are obtained, so the number of backup steps (value iteration interval) ) Becomes large, the approximate value function can be calculated at high speed and actions can be assigned to the elements of the candidate set.
上記の制御方策決定装置において、前記メンバーシップ決定部は、前記双対空間上の複数の点に適用した場合に正しいメンバーシップが得られるメンバーシップ関数を、前記近似凸包の頂点のメンバーシップ関数として決定してよい。 In the control policy determination apparatus, the membership determination unit may use a membership function that obtains a correct membership when applied to a plurality of points on the dual space as a membership function of a vertex of the approximate convex hull. You may decide.
この構成により、近似凸包が双対空間上の複数の点の凸包に一致する場合に、正しいメンバーシップに帰着するという条件を満たすメンバーシップ関数を得ることができる。 With this configuration, when the approximate convex hull matches the convex hull of a plurality of points on the dual space, it is possible to obtain a membership function that satisfies the condition of reducing to a correct membership.
上記の制御方策決定装置において、前記メンバーシップ決定部は、前記双対空間上の複数の点を前記近似凸包に変換する行列でもって、前記双対空間上の複数の点のメンバーシップ関数を変換したものを、前記近似凸包の頂点のメンバーシップ関数として決定してよい。 In the control policy determination apparatus, the membership determination unit converts a membership function of a plurality of points on the dual space with a matrix that converts the plurality of points on the dual space to the approximate convex hull. May be determined as a membership function of the vertices of the approximate convex hull.
上記の制御方策決定装置において、前記線形関数更新部は、各バックアップステップにおける前記線形関数の更新を観測値ごとに行ってよい。 In the control policy determining apparatus, the linear function update unit may update the linear function for each observation value in each backup step.
本発明の制御システムは、上記の制御方策決定装置と、前記環境センシング情報を入力する環境センシング情報入力部と、前記制御方策決定装置にて割り当てられた行動を実行するための制御コマンドを出力する出力部とを備え構成を有している。 The control system of the present invention outputs the control policy determining device, the environment sensing information input unit for inputting the environment sensing information, and a control command for executing an action assigned by the control policy determining device. And an output unit.
この構成によっても、信念空間上の候補集合が双対空間に写像された上で、その凸包を近似する近似凸包の上辺の頂点及びそのメンバーシップ関数が求められるので、価値反復区間(バックアップステップ数)が大きくなった場合にも、近似価値関数を高速に計算して、候補集合の要素に行動を割り当てることができる。 Even with this configuration, the candidate set in the belief space is mapped to the dual space, and the vertex of the approximate convex hull that approximates the convex hull and its membership function are obtained, so the value iteration interval (backup step) Even when the number is large, the approximate value function can be calculated at high speed and actions can be assigned to the elements of the candidate set.
本発明の制御方策決定方法は、不確定性を含む環境センシング情報に基づいて制御方策を獲得する制御方策決定方法であって、前記環境センシング情報を入力する環境センシング情報入力ステップと、前記環境センシング情報に基づいて、信念空間上の価値関数の線形要素を与える線形関数の候補集合を生成する線形関数生成ステップと、前記信念空間上の前記候補集合を双対空間上の複数の点に変換する双対変換ステップと、前記複数の点の凸包を近似する近似凸包を計算する近似凸包計算ステップと、前記近似凸包の頂点のメンバーシップ関数を決定するメンバーシップ決定ステップと、前記近似凸包の上辺を抽出する凸包上辺抽出ステップと、前記上辺に属する頂点を前記信念空間上の線形関数に逆変換する逆双対変換ステップと、前記逆変換によって得られた線形関数に基づいて、バックアップステップ数に応じて線形関数を更新する線形関数更新ステップとを含み、前記双対変換ステップは、さらに前記バックアップステップ数に応じて更新された線形関数を前記候補集合として、双対空間上の複数の点に変換し、前記制御方策決定方法は、さらに、前記バックアップステップ数の線形関数の更新の後に前記逆変換によって得られた線形関数に基づいて、近似価値関数の複数の線形要素を求める価値関数決定ステップと、前記近似価値関数の複数の線形要素の各々に対して、前記メンバーシップ関数に従って行動を割り当てる方策決定ステップとを含む構成を有している。 The control policy determination method of the present invention is a control policy determination method for acquiring a control policy based on environmental sensing information including uncertainty, the environmental sensing information input step for inputting the environmental sensing information, and the environmental sensing A linear function generation step for generating a linear function candidate set that gives a linear element of a value function on the belief space based on the information; and a dual function that converts the candidate set on the belief space into a plurality of points on the dual space. A conversion step; an approximate convex hull calculation step for calculating an approximate convex hull approximating the convex hull of the plurality of points; a membership determination step for determining a membership function of a vertex of the approximate convex hull; and the approximate convex hull A convex hull upper side extracting step for extracting the upper side of the vertices, an inverse dual transformation step for inversely transforming vertices belonging to the upper side to linear functions on the belief space, A linear function updating step that updates a linear function according to the number of backup steps based on a linear function obtained by inverse transformation, and the dual transformation step further includes a linear function updated according to the number of backup steps Is converted into a plurality of points on the dual space as the candidate set, and the control policy determination method is further based on the linear function obtained by the inverse transformation after the update of the linear function of the number of backup steps. A value function determining step for obtaining a plurality of linear elements of the approximate value function, and a policy determining step for assigning an action to each of the plurality of linear elements of the approximate value function according to the membership function Yes.
この構成によっても、信念空間上の候補集合が双対空間に写像された上で、その凸包を近似する近似凸包の上辺の頂点及びそのメンバーシップ関数が求められるので、価値反復区間(バックアップステップ数)が大きくなった場合にも、近似価値関数を高速に計算して、候補集合の要素に行動を割り当てることができる。 Even with this configuration, the candidate set in the belief space is mapped to the dual space, and the vertex of the approximate convex hull that approximates the convex hull and its membership function are obtained, so the value iteration interval (backup step) Even when the number is large, the approximate value function can be calculated at high speed and actions can be assigned to the elements of the candidate set.
本発明のさらに別の態様は、コンピュータを上記の制御方策決定装置として機能させるための制御方策決定プログラムである。 Yet another aspect of the present invention is a control policy determination program for causing a computer to function as the control policy determination device.
本発明によれば、POMDPにおける価値反復計算を高速に近似実行することが可能となり、音声認識誤りに対して頑健な音声対話システムにおける対話制御や実世界での自立ロボットや車両制御など状態数が大きな現実の問題へPOMDPの枠組みを適用することが可能となる。 According to the present invention, it is possible to perform approximate calculation of value iteration in POMDP at high speed, and the number of states such as dialog control in a voice dialog system that is robust against voice recognition errors, real-world independent robots and vehicle control, etc. It is possible to apply the POMDP framework to large real problems.
まず、本発明によって上記のようなPOMDPにおける価値関数の学習における課題を解決する原理の概要を説明する。 First, the outline of the principle for solving the problem in learning of the value function in POMDP as described above according to the present invention will be described.
本発明の一態様では、まず、信念空間上の線形関数の集合を別のユークリッド空間(以下、「双対空間」という。)上の点に対応させる。つまり、信念空間上の線形関数の集合を双対空間における点の集合として扱う。双対空間の次元は状態数に等しい。 In one embodiment of the present invention, first, a set of linear functions on a belief space is made to correspond to a point on another Euclidean space (hereinafter referred to as “dual space”). That is, a set of linear functions in belief space is treated as a set of points in dual space. The dimension of the dual space is equal to the number of states.
次に、双対空間における点の集合に関する凸包を求める。さらに、信念空間上での価値関数の上下関係から定まる双対空間における上下関係に関して、先に求めた凸包の上半面を求める。この上半面上にある点が対応する信念空間上の線形関数が、価値関数の一部となる。よって、双対空間における凸包の上半面上の点を信念空間上の線形関数へ逆変換することで、所望の価値関数を得ることができる。 Next, a convex hull for a set of points in the dual space is obtained. Furthermore, the upper half of the convex hull obtained previously is obtained for the vertical relationship in the dual space determined from the vertical relationship of the value function in the belief space. A linear function in the belief space corresponding to the points on the upper half becomes a part of the value function. Therefore, a desired value function can be obtained by inversely transforming a point on the upper half of the convex hull in the dual space into a linear function in the belief space.
一般に、高次元空間における凸包を厳密に求めるための計算量は次元数と共に指数関数的に増加する。この課題を解決するために、本発明の一態様では、凸包を求める問題を、点集合を全て含む凸集合の中で体積が最小となるものを求める最小化問題という連続的な問題へと緩和する。そして、本発明の一態様では、この最小化問題の近似解を高速に構成する。この近似解を求める際に、実際の凸包よりも頂点の数を小さくすることもでき、その場合には、より計算量を小さくすることが可能である。 In general, the amount of calculation for accurately obtaining a convex hull in a high-dimensional space increases exponentially with the number of dimensions. In order to solve this problem, in one aspect of the present invention, the problem of obtaining a convex hull is changed to a continuous problem called a minimization problem of obtaining a minimum volume among convex sets including all point sets. ease. In one aspect of the present invention, the approximate solution of the minimization problem is configured at high speed. When obtaining this approximate solution, the number of vertices can be made smaller than the actual convex hull, and in that case, the amount of calculation can be made smaller.
近似的に求められた凸包(近似凸包)の頂点は、一般に、信念空間の線形関数から双対空間に写像された点とは一致しないので、その頂点を信念空間へ逆変換したときに、どのアクションに対応するものとすればよいかが課題となる。そこで、本発明の一態様では、これらの各頂点への信念空間における線形関数から写像された点集合の各点のメンバーシップ関数を定義する。なお、このような写像は1つとは限らないが、その1つを適切な基準で選択する。本発明の一態様において、ある近似凸包の頂点に対応するアクションは、信念空間における線形関数から写像された点集合を同じアクションを持つ部分集合へ分割し、各部分集合の点と対応する頂点へのメンバーシップ関数を足し上げ、その和が最大となる部分集合のアクションとして定義する。 The vertex of the convex hull obtained by approximation (approximate convex hull) generally does not match the point mapped to the dual space from the linear function of the belief space, so when the vertex is converted back to the belief space, What action should be taken is a problem. Therefore, in one aspect of the present invention, the membership function of each point of the point set mapped from the linear function in the belief space to each vertex is defined. Note that the number of such maps is not limited to one, but one is selected based on an appropriate criterion. In one aspect of the present invention, the action corresponding to a vertex of a certain approximate convex hull divides a point set mapped from a linear function in the belief space into subsets having the same action, and the vertex corresponding to the point of each subset Add the membership function to, and define it as the subset action that maximizes the sum.
このように近似凸包の各頂点についてアクションを決め、逆変換によって信念空間へ戻し、それらの下半空間の上界を求めることで、価値反復によるPOMDPの近似価値関数を構成することができる。 In this way, by determining the action for each vertex of the approximate convex hull, returning it to the belief space by inverse transformation, and determining the upper bound of those lower half spaces, it is possible to construct an approximate value function of POMDP by value iteration.
以下、本発明の実施の形態のシステム制御装置について、図面を参照しながら説明する。なお、以下に説明する実施の形態は、本発明を実施する場合の一例を示すものであって、本発明を以下に説明する具体的構成に限定するものではない。本発明の実施にあたっては、実施の形態に応じた具体的構成が適宜採用されてよい。 Hereinafter, a system control apparatus according to an embodiment of the present invention will be described with reference to the drawings. The embodiment described below shows an example when the present invention is implemented, and the present invention is not limited to the specific configuration described below. In carrying out the present invention, a specific configuration according to the embodiment may be adopted as appropriate.
以下では簡単のために、状態数が2つである場合について説明する。但し、本発明の実施の形態の数式などは、状態が離散的で有限である限り、任意の状態数Nの場合にもそのまま適用できる。また、本実施の形態における図も、説明を簡単にするため2状態の場合について説明するが、同様に状態が離散的で有限である限り、任意の状態数について、それらを高次元空間へ拡張したものを考えることが可能である。 Hereinafter, for the sake of simplicity, a case where the number of states is two will be described. However, the mathematical formulas and the like of the embodiment of the present invention can be applied to any number of states N as long as the states are discrete and finite. Also, in the figure in this embodiment, the case of two states will be described for the sake of simplicity. Similarly, as long as the states are discrete and finite, they can be extended to a high-dimensional space for any number of states. It is possible to think about what you did.
本発明の実施の形態を説明する上で、具体的な問題設定は必ずしも必要ではないが、理解を助けるために、例として次のような対話システムの制御を考える。この対話システムにおいて、ユーザは、「食事をしたい」か「買物をしたい」かのどちらかの意図を持っているものとし、そのユーザ意図を音声対話によって判別するものとする。 In describing the embodiment of the present invention, specific problem setting is not necessarily required, but in order to help understanding, the following control of the interactive system is considered as an example. In this interactive system, it is assumed that the user has an intention of “I want to eat” or “I want to shop”, and the user's intention is determined by voice dialogue.
以下、これらのユーザ意図を「状態」と呼び、「食事をしたい」という状態をx1、「買物したい」という状態をx2と表す。対話システムからユーザへの意図の問合せに対して、ユーザは、音声によって「食事」あるいは「買物」と発話して応答するものとする。これらの応答を観測量と呼び、「食事」という観測をo1、「買物」という観測をo2と表す。なお、一般には、M個の離散的な観測値が得られる。また、状態xにおいて、観測量oは、確率p(o|x)に従って得られるものと仮定する。この確率p(o|x)を知覚モデルと呼ぶ。 Hereinafter, these user intentions are referred to as “state”, the state of “I want to eat” is expressed as x 1 , and the state of “I want to shop” is expressed as x 2 . It is assumed that the user responds to the inquiry about the intention from the interactive system by speaking “meal” or “shopping” by voice. These responses are called observations, and the observation of “meal” is represented as o 1 , and the observation of “shopping” is represented as o 2 . In general, M discrete observation values are obtained. In the state x, it is assumed that the observation amount o is obtained according to the probability p (o | x). This probability p (o | x) is called a perceptual model.
図1は、本実施の形態の対話システムの構成を示すブロック図である。図1に示すように、対話システム100は、音声入力部10、音声認識部20、制御方策決定装置30、及び出力部40を備えている。音声入力部10、音声認識部20、及び出力部40は、制御方策決定装置30に対して環境センシング情報を入力し、制御方策決定装置30が決定した方策に応じた出力を行う環境Eである。制御方策決定装置30の以下に説明する各機能は、演算処理部、メモリ、記憶装置、入力部、出力部等を備えたコンピュータが、所定のプログラムを実行することで実現される。 FIG. 1 is a block diagram showing the configuration of the interactive system according to the present embodiment. As shown in FIG. 1, the dialogue system 100 includes a voice input unit 10, a voice recognition unit 20, a control policy determination device 30, and an output unit 40. The voice input unit 10, the voice recognition unit 20, and the output unit 40 are environments E that input environment sensing information to the control policy determination device 30 and perform output in accordance with the policy determined by the control policy determination device 30. . Each function described below of the control policy determination device 30 is realized by a computer including an arithmetic processing unit, a memory, a storage device, an input unit, an output unit, and the like executing a predetermined program.
音声入力部10は、音声の入力を受けて、それを音声信号に変換する。音声認識部20は、音声入力部10で生成された音声信号に対して、音声認識処理を行って音声内容を認識し、認識結果を環境センシング情報として制御方策決定装置30に入力する。音声入力部10及び音声認識部20からなる構成は、環境をセンシングして、環境センシング情報を制御方策決定装置30に与えるものであり、本発明の「環境センシング情報入力部」に相当する。 The voice input unit 10 receives voice input and converts it into a voice signal. The speech recognition unit 20 performs speech recognition processing on the speech signal generated by the speech input unit 10 to recognize speech content, and inputs the recognition result to the control policy determination device 30 as environment sensing information. The configuration including the voice input unit 10 and the voice recognition unit 20 senses the environment and supplies the environmental sensing information to the control policy determination device 30, and corresponds to the “environmental sensing information input unit” of the present invention.
制御方策決定装置30は、音声認識部20にて認識された音声内容に基づいて、制御方策を決定する。出力部40は、制御演算部30で決定された制御方策に基づいて、その方策を実行するための制御コマンドを制御対象に対して出力する。制御方策決定装置30は、信念計算部310、システムモデル部320、環境モデル部330、価値関数計算部340、及び方策決定部350を備えている。信念計算部310は、初期信念生成部311、及び信念更新部312を備えている。システムモデル部320は、行動モデル部321、知覚モデル部322、及び方策モデル部323からなる。環境モデル部330は報酬関数モデル部331を備えている。 The control strategy determination device 30 determines a control strategy based on the voice content recognized by the voice recognition unit 20. Based on the control strategy determined by the control calculation section 30, the output section 40 outputs a control command for executing the strategy to the controlled object. The control policy determination device 30 includes a belief calculation unit 310, a system model unit 320, an environment model unit 330, a value function calculation unit 340, and a policy determination unit 350. The belief calculation unit 310 includes an initial belief generation unit 311 and a belief update unit 312. The system model unit 320 includes a behavior model unit 321, a perceptual model unit 322, and a policy model unit 323. The environment model unit 330 includes a reward function model unit 331.
信念計算部311は、初期信念を生成するとともに、信念を更新する。システムモデル部320は行動モデル、知覚モデル、及び方策モデルが記憶されている。環境モデル部330には、報酬関数モデルが記憶されている。価値関数計算部340は、価値関数を算出する。方策決定部350は、価値関数計算部340で算出された価値関数を用いて、方策モデルに従って制御方策を決定する。 The belief calculation unit 311 generates an initial belief and updates the belief. The system model unit 320 stores an action model, a perceptual model, and a policy model. The environment model unit 330 stores a reward function model. The value function calculation unit 340 calculates a value function. The policy determination unit 350 uses the value function calculated by the value function calculation unit 340 to determine a control policy according to the policy model.
本実施の形態の対話システム100において、音声認識部20は、発話を音声認識し、「食事」あるいは「買物」と認識する。一般に、音声認識では誤認識により、ユーザが「食事」と発話したとしても、「買物」と認識されてしまうことが問題となる。つまり、音声認識の結果はユーザの状態を特定するものではなく、ユーザの状態を反映したある確率的現象を観測したものにすぎないとみなすことができる。これが制御方策決定装置30において確率的な知覚モデルp(o|x)を扱う理由である。なお、知覚モデルは、知覚モデル部322に記憶されている。 In the interactive system 100 according to the present embodiment, the voice recognition unit 20 recognizes a speech as voice and recognizes it as “meal” or “shopping”. In general, in speech recognition, even if the user speaks “meal” due to misrecognition, it is problematic that the user is recognized as “shopping”. In other words, the result of speech recognition does not specify the user's state, but can be regarded as merely observing a certain stochastic phenomenon reflecting the user's state. This is the reason for handling the probabilistic perceptual model p (o | x) in the control strategy determination device 30. Note that the perceptual model is stored in the perceptual model unit 322.
この知覚モデルの確率的な性質により、たとえシステムが観測を行ったとしても、ユーザの状態は確率的にしか把握できないことになる。そこで、状態がx1である確率をp1=p(x1)、状態がx2である確率をp2=p(x2)とおき、これらの確率の組b=(p1,p2)を信念と呼ぶ。但し、p1+p2=1である。可能なp1,p2の値全体を信念空間とよぶ。すなわち、本システムの場合、(p1,p2)という[0,1]×[0,1]の正方領域内のp1+p2=1を満たす直線上が信念空間となる。 Due to the probabilistic nature of this perceptual model, the user's state can only be grasped probabilistically even if the system observes it. Therefore, the probability that the state is x 1 is p 1 = p (x 1 ), the probability that the state is x 2 is p 2 = p (x 2 ), and a set of these probabilities b = (p 1 , p 2 ) is called belief. However, p 1 + p 2 = 1. The entire possible values of p 1 and p 2 are called belief space. That is, in the case of this system, the belief space is a straight line that satisfies p 1 + p 2 = 1 in a square area of [0, 1] × [0, 1] (p 1 , p 2 ).
このように、システムの状態は、x1かあるいはx2か確定的に定められない代わりに、信念bによって、拡張された意味でシステムの状態が与えられると考えることができる。従来の状態空間がx1とx2の2状態で与えられるのは、信念空間が(1,0)と(0,1)のみからなる場合とみなすことができる。その意味で、以下、信念も状態と呼ぶことがある。 Thus, it can be considered that the state of the system is given in an expanded sense by the belief b, instead of being definitively determined as x 1 or x 2 . The conventional state space given in two states x 1 and x 2 can be regarded as a case in which the belief space consists of only (1, 0) and (0, 1). In that sense, beliefs are sometimes referred to as states below.
対話システム100は、信念の値に応じて、「食事に関する情報を提示する」か、あるいは、「買物に関する情報を提示する」か、あるいは、ユーザに対してもう一度「聞き直す」かの処理を実行することができるものとする。以下、これらのシステムの処理を特に「行動」と呼び、「食事に関する情報を提示する」という行動をu1、「買物に関する情報を提示する」という行動をu2、「聞き直す」という行動をu3と表す。なお、一般には、L個の離散的な行動をとることができる。方策決定部350は、これらのいずれの行動をとるかを決定する。 The dialogue system 100 executes a process of “presenting information about meals”, “presenting information about shopping”, or “re-listening” to the user again according to the value of the belief. Shall be able to. Hereinafter, the processing of these systems will be referred to as “behavior” in particular, the action of “presenting information on meals” is u 1 , the action of “presenting information on shopping” is u 2 , and the action of “listening” is called. expressed as u 3. In general, L discrete actions can be taken. The policy determining unit 350 determines which of these actions is taken.
一般に、行動は「聞き直す」という行動のように、「状態に関する観測を行う行動」と、行動u1、u2のように「最終決定を行う行動」という2つの大きな行動のカテゴリへ分類することができる。「最終決定を行う行動」カテゴリに属する行動が選択された場合、そこでシステム制御の問題は一旦、完了となる。システム制御の問題は、「状態に関する観測を行う行動」カテゴリに属する行動が選択されている限り、「最終決定を行う行動」カテゴリに属する行動が選択されるまで継続する。 In general, actions are classified into two large action categories, such as "behavior that observes the state", such as "rehearse" action, and "behavior that makes final decisions" such as actions u 1 and u 2. be able to. When an action belonging to the “behavior for final decision” category is selected, the problem of system control is once completed. The problem of system control continues as long as an action belonging to the “behavior performing state observation” category is selected until an action belonging to the “behavior performing final decision” category is selected.
以下、状態xにおいて、行動uを実行したときに、状態はx´へ確率p(x´|x,u)に従って遷移するものと仮定する。この確率p(x´|x,u)を行動モデルと呼ぶ。この行動モデルが、行動モデル部321に記憶されている。以下、「最終決定を行う行動」カテゴリに属する行動u*が選択された場合は、任意の状態x、x´について、p(x´|x,u*)=0であるとする。なお、この場合には、厳密にはpは確率とは解釈できないが、便宜的にそのように定義する。 Hereinafter, it is assumed that when the action u is executed in the state x, the state transitions to x ′ according to the probability p (x ′ | x, u). This probability p (x ′ | x, u) is called an action model. This behavior model is stored in the behavior model unit 321. Hereinafter, when an action u * belonging to the “behavior for final decision” category is selected, it is assumed that p (x ′ | x, u * ) = 0 for any state x, x ′. In this case, strictly speaking, p cannot be interpreted as a probability, but is defined as such for convenience.
また、状態xにおいて、行動uを実行したとき、システムは報酬r(x,u)を受け取るものとする。この報酬モデルr(x,u)が環境モデル部330の報酬関数モデル部331に記憶されている。信念がbである状態からTステップ先の将来までに受け取る報酬の和の期待値の最大値をその状態の価値関数と呼び、Vr(b)と表す。また、その価値関数を得るために、信念がbであるときに取るべき行動を最適方策と呼び、πT(b)と表す。 In the state x, when the action u is executed, the system receives a reward r (x, u). The reward model r (x, u) is stored in the reward function model unit 331 of the environment model unit 330. The maximum expected value of the sum of rewards received from the state where the belief is b to the future T steps ahead is called the value function of that state, and is expressed as V r (b). In addition, in order to obtain the value function, an action to be taken when the belief is b is called an optimal policy, and is expressed as π T (b).
但し、報酬の和の期待値を計算する際に、一般には、将来得られる報酬については、割引率γ(0<γ≦1)をバックアップステップ数だけ冪乗した重み付けをして(すなわち、τステップ後に得られる報酬に関しては、γτを乗じて)、期待値を取る。この最適方策πT(b)は、方策モデルとして方策モデル部323に記憶されている。 However, when calculating the expected value of the sum of rewards, in general, the reward obtained in the future is weighted by multiplying the discount rate γ (0 <γ ≦ 1) by the number of backup steps (ie, τ regarding remuneration obtained after step, by multiplying the gamma tau), takes the expectation. This optimal policy π T (b) is stored in the policy model unit 323 as a policy model.
以上のように、状態が観測によって確率的にしか推定されない状況で、現在得られている信念の値に基づいてその時点での最適なシステムの行動を選択すること、すなわち、最適な方策を決定することが、POMDPを対話システム制御へ適用する際の基本的な問題設定である。 As described above, in the situation where the state is estimated only probabilistically by observation, the optimal system action at that time is selected based on the current belief value, that is, the optimal policy is determined. This is the basic problem setting when applying POMDP to interactive system control.
このような問題設定において、最適な方策は各状態xiにおける価値関数を最大化するものとして決定される。従って、その価値関数を求めることができれば、POMDPによる対話制御ができる。システム制御部の価値関数計算部340は、この価値関数を求める。以下では、本実施の形態の価値関数計算部340が、価値反復手法による価値関数を求める方法を説明する。 In such a problem setting, the optimal strategy is determined as maximizing the value function in each state x i . Therefore, if the value function can be obtained, dialogue control by POMDP can be performed. The value function calculation unit 340 of the system control unit obtains this value function. Below, the value function calculation part 340 of this Embodiment demonstrates the method of calculating | requiring the value function by a value iteration method.
図2は、価値関数計算部340の構成を示すブロック図である。価値関数計算部340は、初期線形関数生成部1、双対変換部2、双対価値反復処理部3、逆双対変換部4、価値関数決定部5、及び線形関数更新部6を備えている。双対価値反復処理部3は、ラベル付凸包近似計算部31及び枝刈り部35からなる。ラベル付凸包近似計算部31は、ConvexNMF計算部33からなる凸包近似計算部32と、メンバーシップ決定部34とからなる。 FIG. 2 is a block diagram showing the configuration of the value function calculation unit 340. The value function calculation unit 340 includes an initial linear function generation unit 1, a dual conversion unit 2, a dual value iteration processing unit 3, an inverse dual conversion unit 4, a value function determination unit 5, and a linear function update unit 6. The dual value iterative processing unit 3 includes a labeled convex hull approximation calculating unit 31 and a pruning unit 35. The labeled convex hull approximation calculation unit 31 includes a convex hull approximation calculation unit 32 including a ConvexNMF calculation unit 33 and a membership determination unit 34.
まず、本実施の形態のように、状態数が離散的で有限である場合、POMDPの価値関数は、信念空間上の区分線形関数として表現されることが理論的に示される(非特許文献1参照)。また、この区分線形関数は一般に下に凸であることも理論的に示すことができる。価値関数計算部340は、この区分線形関数が下に凸であるという性質を利用して価値関数を計算する。以下、具体的に説明する。 First, it is theoretically shown that when the number of states is discrete and finite as in the present embodiment, the value function of POMDP is expressed as a piecewise linear function in a belief space (Non-patent Document 1). reference). It can also be theoretically shown that this piecewise linear function is generally convex downward. The value function calculation unit 340 calculates the value function using the property that this piecewise linear function is convex downward. This will be specifically described below.
各区分を与える線形関数(以下、「線形要素」ともいう。)を式(1)のようにおく。なお、以下では、一般的に状態数をN、観測値数をM、行動数をLとする。本実施の形態では、N=2、M=2、L=3である。
(初期線形関数生成処理)
初期線形関数生成部1は、まず、バックアップステップ数をT=1として、このときの価値関数の線形要素を与える線形関数の組を初期化する線形関数を計算する。具体的には、初期線形関数生成部1は、各行動ul(l=1,2,・・・,L)について、各状態xnのときに得られる報酬関数γから式(2)を計算する。
First, the initial linear function generation unit 1 sets the number of backup steps as T = 1, and calculates a linear function that initializes a set of linear functions that give linear elements of the value function at this time. Specifically, the initial linear function generation unit 1 calculates Equation (2) from the reward function γ obtained in each state x n for each action u l (l = 1, 2,..., L). calculate.
初期線形関数生成部1は、このようにして得られる初期線形関数の組によって、式(3)により価値関数の線形要素となる候補集合Γ(1)を取得する。
ここで、価値関数V1(b)は、この候補集合Γ(1)から式(4)によって与えられる。
図4に示すように、候補集合Γ(1)の全ての要素が価値関数V1(b)の線形要素となる訳ではない。実際には、そのごく一部が寄与するのみである。図4の左のグラフの実線で示した要素のみが価値関数V1(b)の線形要素となる。図4の右のグラフでは、この価値関数V1(b)の線形要素として貢献する要素のみを示している。このように、候補集合Γ(1)から価値関数V1(b)の線形要素とならない要素を排除することを枝刈りと呼ぶ。 As shown in FIG. 4, not all elements of the candidate set Γ (1) are linear elements of the value function V 1 (b). In fact, only a small part contributes. Only elements indicated by solid lines in the left graph of FIG. 4 are linear elements of the value function V 1 (b). The right graph of FIG. 4 shows only elements that contribute as linear elements of the value function V 1 (b). In this manner, eliminating elements that are not linear elements of the value function V 1 (b ) from the candidate set Γ (1) is called pruning.
図5は、図3の例において、バックアップステップ数T=2となった場合の候補集合Γ(1)を示すグラフであり、図6は、図3の例において、バックアップステップ数T=3となった場合の候補集合Γ(1)を示すグラフである。図5及び図6に例示するように、一般にこの枝刈り処理は、バックアップステップ数(価値反復区間ともいう。)の増加に対して候補集合の要素数が指数関数的に増加することから、計算量が極めて多くなり、計算負荷が増大し、計算時間も長くなる。このことがPOMDPにおける価値反復による価値関数の計算方法の問題となっている。 FIG. 5 is a graph showing the candidate set Γ (1) when the number of backup steps T = 2 in the example of FIG. 3, and FIG. 6 shows the number of backup steps T = 3 in the example of FIG. It is a graph which shows candidate set Γ (1) in the case of becoming. As illustrated in FIGS. 5 and 6, in general, this pruning process is performed because the number of elements in the candidate set increases exponentially with an increase in the number of backup steps (also referred to as a value iteration interval). The amount becomes extremely large, the calculation load increases, and the calculation time also increases. This is a problem of the calculation method of the value function by value iteration in POMDP.
そこで、本実施の形態では、その枝刈りの問題を解決するために、厳密に候補集合Γ(1)から価値関数V1(b)の線形要素となるものを選ぶのではなく、価値関数V1(b)の線形要素を近似する線形関数を計算する。 Therefore, in the present embodiment, in order to solve the pruning problem, the value function V 1 is not strictly selected from the candidate set Γ (1) but becomes a linear element of the value function V 1 (b). 1 Calculate a linear function approximating the linear element of (b).
(双対変換)
このために、まず、双対変換部2は、候補集合Γ(1)の要素
For this purpose, first, the dual transformation unit 2 uses the elements of the candidate set Γ (1) .
図7は、双対変換の例を示すグラフである。図7の例において、線形関数101〜106は、双対空間の点201〜206にそれぞれ写像されている。なお、ここで示した双対変換は、例の1つに過ぎず、ここで説明したものに限定されない。また、候補集合Γ(1)の要素を双対空間へ写像した点からなる集合をΓ´(1)と表すことにする。 FIG. 7 is a graph showing an example of dual transformation. In the example of FIG. 7, the linear functions 101 to 106 are mapped to the points 201 to 206 in the dual space, respectively. The dual transformation shown here is only one example, and is not limited to the one described here. In addition, a set composed of points obtained by mapping the elements of the candidate set Γ (1) to the dual space is represented as Γ ′ (1) .
(凸包と価値関数)
信念空間上の線形関数の上下関係は、双対空間においても保存する。すなわち、図8に示すように、価値関数が下に凸な区分線形関数で与えられるという性質により、価値関数を与える線形要素は、双対空間へ写像した候補集合の点集合Γ´(1)に対する凸包の上辺となる。従って、候補集合Γ(1)から価値関数の線形要素を求める問題は、双対空間の点集合Γ´(1)に対する凸包の上辺を求める問題に帰着する。
(Convex hull and value function)
The hierarchical relationship of linear functions in belief space is preserved even in dual space. That is, as shown in FIG. 8, due to the property that the value function is given by a downwardly convex piecewise linear function, the linear element giving the value function corresponds to the point set Γ ′ (1) of the candidate set mapped to the dual space. The upper side of the convex hull. Therefore, the problem of obtaining the linear element of the value function from the candidate set Γ (1) results in the problem of obtaining the upper side of the convex hull for the point set Γ ′ (1) in the dual space.
状態数N=2である場合には、双対空間は2次元であり、その場合凸包を求めるアルゴリズムは本質的にソートの問題となり、それは高速な処理アルゴリズムが知られている。例えば、Kirkpatrick−Seidelのクイック凸包アルゴリズムが利用できる。よって、双対空間へ問題を写像することで、高速に価値関数を計算することができることになる。つまり、この処理により状態数N=2である場合には、POMDPの価値反復による価値関数計算の困難を解決できる。 When the number of states N = 2, the dual space is two-dimensional, in which case the algorithm for obtaining the convex hull is essentially a sorting problem, and a fast processing algorithm is known. For example, the Kirkpatrick-Seidel quick convex hull algorithm can be used. Therefore, the value function can be calculated at high speed by mapping the problem to the dual space. In other words, when the number of states N = 2 by this process, it is possible to solve the difficulty of value function calculation due to POMDP value iteration.
しかし、状態数N=3以上の空間では、これまで知られている最善のアルゴリズムを用いても、凸包を求めるための計算量は次元数に関して指数関数的に増加することが知られている。そのため、双対空間における凸包計算問題へ写像しただけでは、POMDPの価値反復による価値関数計算の困難を簡単には解決することはできない。 However, in a space where the number of states is N = 3 or more, it is known that the amount of calculation for obtaining the convex hull increases exponentially with respect to the number of dimensions even if the best algorithm known so far is used. . Therefore, simply mapping to the convex hull calculation problem in the dual space cannot easily solve the difficulty of the value function calculation due to the POMDP value iteration.
さらに考慮すべきことは、空間の次元Nが高くなるに連れて、凸包の頂点数は点集合Γ´(1)の点の数に比例して増大するということである。つまり、価値関数は非常に多くの区分に細分化されたものになるということである。厳密にはそうであったとしても、逆に隣り合った区分での違いは小さくなり、滑らかな関数へ変わっていく。実用的には、そのような滑らかな関数よりも、それを良く近似する少ない区分での区分線形関数で近似するほうが望ましい。 A further consideration is that as the dimension N of the space increases, the number of vertices of the convex hull increases in proportion to the number of points in the point set Γ ′ (1) . In other words, the value function is subdivided into many categories. Strictly speaking, even if it is exactly the same, the difference between adjacent segments becomes smaller, and it becomes a smooth function. Practically, it is desirable to approximate with a piecewise linear function with a small number of sections that approximate it better than such a smooth function.
(NMFによる凸包の近似計算)
以上のような理由により、本実施の形態では価値関数計算部340の双対価値反復処理部3が凸包近似計算部32を備えている。凸包近似計算部32は、凸包を厳密に求めるのではなく、非負値行列因子分解(Non-negative Matrix Factorization:NMF)によって、それをよく近似するポリトープを求める。以下、このようなポリトープを簡単のため「近似凸包」という。このように近似凸包を考えるということは、離散的な点集合Γ´(1)に対してその凸包と求めるという離散組合せ問題を、連続なN次元空間全体の中で、点集合Γ´(1)の凸包を良く近似するポリトープを計算するという問題へと緩和することを意味する。
(Approximate calculation of convex hull by NMF)
For the reasons described above, in the present embodiment, the dual value iteration processing unit 3 of the value function calculation unit 340 includes the convex hull approximation calculation unit 32. The convex hull approximation calculation unit 32 does not calculate the convex hull exactly, but calculates a polytope that closely approximates it by non-negative matrix factorization (NMF). Hereinafter, such a polytope is referred to as an “approximate convex hull” for simplicity. Considering the approximate convex hull in this way means that the discrete combination problem of finding the convex hull for the discrete point set Γ ′ (1) is the point set Γ ′ in the entire continuous N-dimensional space. This means that the problem of computing a polytope that closely approximates the convex hull in (1) is alleviated.
いま、点集合Γ´(1)の要素数が|Γ´(1)|個あるとして、それらを並べたN×|Γ´(1)|行列を式(5)のようにおく。
いま、この求めるポリトープの頂点をwk (1)(k=1,2,・・・,K)とおく。これらはN次元ベクトルであり、このポリトープが点集合Γ´(1)を包含するという条件は、式(6)及び式(7)で与えられる。
ここで、hr (1)は、K次元ベクトルであり、式(8)が成り立つ。
さらに、このポリトープの頂点数が実際の凸包の頂点数と等しいときに、凸包と一致するようにするために、ポリトープの頂点wk (1)が、点集合Γ´(1)の要素によって表されるということを要請する。すなわち、式(11)及び式(12)の通りとする。
この問題を解くアルゴリズムは、例えば非特許文献2に与えられている。この文献にある方法によれば、実際には式(15)、式(16)の問題を解く際に、まずある2次元空間への射影を取り、その2次元空間内で凸包を求め、それを元の空間へ戻すという操作を繰り返す。この手法によれば点集合Γ´(1)のサイズ|Γ´(1)|が増加しても高速に計算することが可能である。 An algorithm for solving this problem is given in Non-Patent Document 2, for example. According to the method in this document, when actually solving the problems of the equations (15) and (16), first, a projection to a certain two-dimensional space is taken, and a convex hull is obtained in the two-dimensional space, The operation of returning it to the original space is repeated. According to this method, even if the size | Γ ′ (1) | of the point set Γ ′ (1) increases, it can be calculated at high speed.
式(15)、式(16)を解くことによって、近似凸包の頂点W(1)=V(1)G(1)が求まる。図9は、近似凸包の計算例を示すグラフである。図9の例では、K=5としている。図中、破線はもとの凸包であり、実線はそれを近似した近似凸包である。 By solving the equations (15) and (16), the vertex W (1) = V (1) G (1) of the approximate convex hull is obtained. FIG. 9 is a graph showing an example of calculating the approximate convex hull. In the example of FIG. 9, K = 5. In the figure, the broken line is the original convex hull, and the solid line is an approximate convex hull approximating it.
(メンバーシップ関数の定義)
候補集合Γ(1)の各要素φには、それぞれある行動uが割り当てられている。要素φがどの行動uに割り当てられているかをメンバーシップという。これを一般化し、要素φの行動ulへの寄与の割合をαl(φ)∈[0,1]で表し、α(φ)=(α1(φ),α2(φ),・・・αL(φ))をメンバーシップ関数と呼ぶ。
(Membership function definition)
A certain action u is assigned to each element φ of the candidate set Γ (1) . To which action u the element φ is assigned is called membership. Generalizing this, the ratio of the contribution of the element φ to the action u l is expressed as α l (φ) ∈ [0, 1], and α (φ) = (α 1 (φ), α 2 (φ),.・ ・ Α L (φ)) is called the membership function.
メンバーシップ決定部34は、近似凸包の頂点wk (1)のメンバーシップを決定する。双対集合Γ´(1)の要素φ´のメンバーシップは、対応する候補集合Γ(1)の要素φのメンバーシップによって与えられる。すなわち、候補集合Γ(1)の要素φが行動ulに対応する場合、要素φ´(1)のメンバーシップは、式(17)により与えられる。
点集合Γ´(1)上の制限を外して近似を行ったことで、得られた近似凸包の頂点wk (1)のメンバーシップが非自明となる。そこで、メンバーシップ決定部34は、頂点wk (1)が点集合Γ´(1)の各要素とどのように結びついているかという重みで足しあげることで頂点wk (1)のメンバーシップを決定する。換言すれば、近似凸包の頂点wk (1)のメンバーシップ関数は、それを点集合Γ´(1)の各要素に適用した場合に正しいメンバーシップが得られる関数である。このようにしてメンバーシップを決定することで、近似凸包が厳密に点集合Γ´(1)の凸包に一致する場合には、正しいメンバーシップに帰着するものと期待できる。 By removing the restriction on the point set Γ ′ (1) and performing the approximation, the membership of the vertex w k (1) of the obtained approximate convex hull becomes non-trivial. Therefore, the membership determination unit 34 adds the membership of the vertex w k (1) by adding the weight of how the vertex w k (1) is associated with each element of the point set Γ ′ (1). decide. In other words, the membership function of the vertex w k (1) of the approximate convex hull is a function that obtains correct membership when it is applied to each element of the point set Γ ′ (1) . By determining membership in this way, it can be expected that if the approximate convex hull exactly matches the convex hull of the point set Γ ′ (1) , it will result in correct membership.
具体的には、メンバーシップ決定部34は、頂点wk (1)に対するメンバーシップ関数を下式(18)によって求める。
頂点wk (1)に対応する行動
(近似凸包の上辺)
上記のようにしてラベル付凸包近似計算部31で、近似凸包の頂点wk (1)とそのメンバーシップが求まると、枝刈り部35の凸包上辺抽出部36は、近似凸包からその上辺を取り出すことで、近似価値関数に対応する関数を取得する。
(Upper side of approximate convex hull)
When the labeled convex hull approximation calculation unit 31 determines the vertex w k (1) of the approximate convex hull and its membership as described above, the convex hull upper side extraction unit 36 of the pruning unit 35 determines from the approximate convex hull. By extracting the upper side, a function corresponding to the approximate value function is obtained.
この凸包上辺の抽出においては、N次元空間の座標
凸包の上辺の抽出においては、双対空間内のある凸包と双対空間内の先の方向余弦と平行な原点から延びる半直線と凸包との交点のうち、原点からの距離が最も大きい点のみを残し、このようにして残された点からなる集合を、双対空間における凸包の上辺として抽出できる。この双対集合Γ´(1)の凸包の上辺の頂点は、価値関数に対応する線形関数を与える。 In the extraction of the upper side of the convex hull, the point at which the distance from the origin is the largest among the intersections of a convex hull in the dual space and the half line extending from the origin parallel to the previous cosine in the dual space and the convex hull And a set of points left in this way can be extracted as the upper side of the convex hull in the dual space. The vertex of the upper side of the convex hull of this dual set Γ ′ (1) gives a linear function corresponding to the value function.
近似凸包に対しても同様に、上辺を定義し、近似凸包の頂点wk (1)(k=1,2,・・・,K)のうち、上辺に属するものを
(近似結果の逆変換と価値関数)
逆双対変換部4は、近似凸包の上辺に属する頂点
The inverse dual transform unit 4 is a vertex belonging to the upper side of the approximate convex hull.
図10は、逆双対変換の例を示すグラフである。図10の左のグラフにおいて、近似凸包の上辺に属する頂点211、212、213、214が、それぞれ図10の右のグラフの信念空間上の線形関数111、112、113、114に変換されている。 FIG. 10 is a graph showing an example of inverse dual transformation. In the left graph of FIG. 10, vertices 211, 212, 213, and 214 belonging to the upper side of the approximate convex hull are converted into linear functions 111, 112, 113, and 114 in the belief space of the right graph of FIG. Yes.
価値関数決定部5は、これらの線形関数に基づいて、式(21)によって近似価値関数
以上の処理によって、価値関数計算部340は、バックアップステップ数T=1での近似価値関数を求めることができる。なお、仮に凸包を近似ではなく、厳密に求めていた場合には、厳密な価値関数V1(b)が得られることになる。 With the above processing, the value function calculation unit 340 can obtain an approximate value function with the number of backup steps T = 1. Note that if the convex hull is obtained not strictly but approximate, a strict value function V 1 (b) is obtained.
(観測による信念更新)
以上の説明では、価値関数計算部340は、すぐに得られる報酬のみを使って価値関数を計算した。しかし、将来に得られる報酬を考慮することで、一般に、よりよい価値関数を得ることができるようになる。
(Belief update by observation)
In the above description, the value function calculation unit 340 calculates the value function using only the reward that can be obtained immediately. However, in general, a better value function can be obtained by considering the rewards obtained in the future.
このことは、「最終決定を行う行動」カテゴリに属する行動を選択する前に、「状態に関する観測を行う行動」カテゴリに属する行動を選択すること、すなわち、次の行動の前に観測を行って、信念の状態を更新することができることを意味する。この観測によって、信念の値をより正しく認識することができるため、最終的に得られる報酬の和の期待値が向上する。 This means that before selecting an action that belongs to the “behavior for final decision” category, selecting an action that belongs to the “behavior for state observation” category, ie, performing an observation before the next action. Means that the state of belief can be updated. This observation makes it possible to recognize the value of the belief more correctly, so that the expected value of the sum of the finally obtained rewards is improved.
まず、信念がb=(p1,p2,・・・,pN)であったとする。ここで行動uを実行することで、別の信念状態へ遷移するものとする。そこで更に観測を実行し、観測値oが得られたとすると、信念に関する事後分布が式(22)によって得られる。
この信念の事後分布に関する最適な行動方策は、価値関数
そこで、線形関数更新部6は、将来に得られる報酬の和の期待値を向上させるため線形関数を更新する。具体的には、線形関数更新部6は、候補集合Γ(1)の要素を式(23)によって更新する。
式(22)より、バックアップステップ数T=2での価値関数V2(b)は、式(24)で算出される。
式(24)は、以下の式(25)、式(26)のように書き直すことができる。
価値関数計算部340は、式(27)の候補集合Γ(2)の線形関数の集合から、式(28)によって価値関数V2(b)を算出する。
また、メンバーシップ決定部34は、要素
候補集合Γ(1)から近似価値関数
さらに、バックアップステップを増やすことにより、線形要素
このように、任意の価値反復区間Tについて、バックアップステップを行った価値関数VT(b)あるいはその近似関数
方策決定部350は、各線形要素に対して、行動
図11及び図12は、バックアップステップT=2、T=3における候補集合Γ(2)、Γ(3)とその双対変換の例を示すグラフである。図11の例において、線形関数121〜124は、双対空間の点221〜224にそれぞれ写像されている。 11 and 12 are graphs showing examples of candidate sets Γ (2) and Γ (3) and their dual transformations in the backup steps T = 2 and T = 3. In the example of FIG. 11, the linear functions 121 to 124 are mapped to the points 221 to 224 in the dual space, respectively.
図13及び図14は、バックアップステップT=2、T=3における近似凸包計算の例を示すグラフである。図15は、バックアップステップT=3まで行ったときの近似価値関数の例を示すグラフである。図16(a)は、近似価値関数の例を示すグラフであり、図16(b)は、厳密な価値関数の例を示すグラフである。図16(a)と図16(b)を比較して分かるように、厳密な価値関数と近似の価値関数との差は小さく、本実施の形態の計算方法が有効であることが分かる。 13 and 14 are graphs showing an example of approximate convex hull calculation in the backup steps T = 2 and T = 3. FIG. 15 is a graph showing an example of the approximate value function when the backup step T = 3. FIG. 16A is a graph showing an example of an approximate value function, and FIG. 16B is a graph showing an example of a strict value function. As can be seen by comparing FIG. 16A and FIG. 16B, the difference between the strict value function and the approximate value function is small, and it can be seen that the calculation method of the present embodiment is effective.
信念空間上の点bにおいて価値関数を与える線形関数の重み係数は、式(30)によって与えられる。
図17は、本実施の形態における価値関数と最適な行動方策の例を示すグラフである。図17に示すように、対話システム100は、価値関数に従って、信念空間が0〜3.2であれば、「食事に関する情報を提示する」という行動を実行する制御コマンドを出力し、信念空間が0.32〜8.2であれば、「聞き直す」という行動を実行し、信念空間が8.2〜1であれば、「買物に関する情報を提示する」という行動を実行する制御コマンドを出力する。 FIG. 17 is a graph showing an example of the value function and the optimum action policy in the present embodiment. As shown in FIG. 17, if the belief space is 0 to 3.2 according to the value function, the dialogue system 100 outputs a control command for executing an action “present information about meals”, and the belief space is If 0.32 to 8.2, execute the action “rehearse”, and if the belief space is 8.2 to 1, output a control command to execute the action “present information about shopping” To do.
次に、制御方策決定装置30の動作を説明する。図18は、制御方策決定装置30の動作フロー図である。価値関数計算部340は、知覚モデル部322、行動モデル部321、報酬関数モデル部331からそれぞれ知覚モデル、行動モデル、報酬関数をロードする(ステップS11)。次に、バックアップステップ数をT=1として(ステップS12)、初期線形関数生成部1が初期線形関数の組を生成する(ステップS13)。そして、Tが上限(Tmax)に達していないかを判断して(ステップS14)、達していない場合には(ステップS14にてNO)、双対変換部2が、線形関数の組を双対変換する(ステップS15)。 Next, the operation of the control policy determination device 30 will be described. FIG. 18 is an operation flow diagram of the control policy determination device 30. The value function calculator 340 loads the perceptual model, the behavior model, and the reward function from the perceptual model unit 322, the behavior model unit 321, and the reward function model unit 331, respectively (step S11). Next, the number of backup steps is set to T = 1 (step S12), and the initial linear function generation unit 1 generates a set of initial linear functions (step S13). Then, it is determined whether T has reached the upper limit (T max ) (step S14), and if not reached (NO in step S14), the dual conversion unit 2 performs dual conversion on the set of linear functions. (Step S15).
次に、凸包近似計算部32が、双対変換によって得られた複数の点の近似凸包を計算する(ステップS16)。そして、メンバーシップ決定部14は、近似凸包の頂点のメンバーシップを計算し(ステップS17)、凸包上辺抽出部36が近似凸包の上辺を抽出する(ステップS18)。近似凸包の上辺が抽出されると、逆双対変換部4は、近似凸包の上辺の頂点について逆双対変換を行う(ステップS19)。そして、価値関数決定部5は、逆双対変換によって得られた価値関数の線形要素をもって、線形関数の組を更新する(ステップS20)。 Next, the convex hull approximation calculation unit 32 calculates an approximate convex hull of a plurality of points obtained by the dual transformation (step S16). Then, the membership determination unit 14 calculates the membership of the vertex of the approximate convex hull (step S17), and the convex hull upper side extraction unit 36 extracts the upper side of the approximate convex hull (step S18). When the upper side of the approximate convex hull is extracted, the inverse dual transform unit 4 performs an inverse dual transform on the vertex of the upper side of the approximate convex hull (step S19). Then, the value function determining unit 5 updates the set of linear functions with the linear elements of the value function obtained by inverse dual transformation (step S20).
その後、バックアップステップ数Tをインクリメントし(ステップS21)、再びバックアップステップ数が上限(Tmax)を超えていないかを判断する(ステップS14)。このようにして、バックアップステップ数が上限を超えるまでステップS15〜ステップS21を繰り返し、バックアップステップ数が上限を超えると(ステップS14にてYES)、価値関数計算部340は、そのときに得られている、価値関数を与える線形関数の組を出力する(ステップS22)。このときの価値関数は、上述の近似価値関数である。方策決定部350は、この近似価値関数を用いて、最適方策を決定する。 Thereafter, the backup step number T is incremented (step S21), and it is determined again whether the backup step number exceeds the upper limit (T max ) (step S14). In this way, steps S15 to S21 are repeated until the number of backup steps exceeds the upper limit. When the number of backup steps exceeds the upper limit (YES in step S14), value function calculation unit 340 is obtained at that time. A set of linear functions giving a value function is output (step S22). The value function at this time is the above approximate value function. The policy determination unit 350 determines an optimal policy using this approximate value function.
なお上記の実施の形態では、バックアップステップ数が2以上のとき、線形要素の候補集合の更新を式(26)のように観測値すべてについて一度に行ったが、変形例として、式(25)の最大化処理を、観測値ごとに逐次的に実行してもよい。すなわち、線形要素の候補集合の更新は、観測値ごとに逐次的に実行し、その部分的に更新された線形関数組について枝刈り処理を行いながら全ての観測値に関する線形要素の候補集合の更新処理を実行してもよい。 In the above embodiment, when the number of backup steps is 2 or more, the update of the candidate set of linear elements is performed at once for all the observed values as in Expression (26). However, as a modification, Expression (25) May be sequentially executed for each observation value. In other words, the update of the candidate set of linear elements is performed sequentially for each observation value, and the candidate set of linear elements for all observation values is updated while pruning the partially updated linear function set. Processing may be executed.
この変形例における制御方策決定装置30の動作を説明する。図19は、変形例の制御方策決定装置30の動作フロー図である。価値関数計算部340は、知覚モデル部322、行動モデル部321、報酬関数モデル部331からそれぞれ知覚モデル、行動モデル、報酬関数をロードする(ステップS31)。次に、バックアップステップ数をT=1として(ステップS32)、初期線形関数生成部1が初期線形関数の組を生成する(ステップS33)。そして、双対変換部2が、初期線形関数の組を双対変換する(ステップS34)。 The operation of the control policy determination device 30 in this modification will be described. FIG. 19 is an operation flowchart of the control policy determination device 30 according to the modification. The value function calculator 340 loads the perceptual model, the behavior model, and the reward function from the perceptual model unit 322, the behavior model unit 321 and the reward function model unit 331, respectively (step S31). Next, the number of backup steps is set to T = 1 (step S32), and the initial linear function generation unit 1 generates a set of initial linear functions (step S33). Then, the dual conversion unit 2 dual converts the set of initial linear functions (step S34).
次に、凸包近似計算部32が、双対変換によって得られた複数の点の近似凸包を計算する(ステップS35)。そして、メンバーシップ決定部14は、近似凸包の頂点のメンバーシップを計算し(ステップS36)、凸包上辺抽出部36が近似凸包の上辺を抽出する(ステップS37)。近似凸包の上辺が抽出されると、逆双対変換部4は、近似凸包の上辺の頂点について逆双対変換を行う(ステップS38)。以上の処理によって、バックアップステップ数T=1の価値関数が求まる。 Next, the convex hull approximation calculation unit 32 calculates the approximate convex hull of a plurality of points obtained by the dual transformation (step S35). Then, the membership determination unit 14 calculates the membership of the vertex of the approximate convex hull (step S36), and the convex hull upper side extraction unit 36 extracts the upper side of the approximate convex hull (step S37). When the upper side of the approximate convex hull is extracted, the inverse dual transform unit 4 performs an inverse dual transform on the vertex of the upper side of the approximate convex hull (step S38). With the above processing, a value function with the number of backup steps T = 1 is obtained.
その後、バックアップステップ数Tをインクリメントし(ステップS39)、バックアップステップ数Tが上限(Tmax)を超えていないかを判断する(ステップS40)。Tが上限(Tmax)に達していない場合には(ステップS40にてNO)、観測値mを1とする(ステップS41)。そして、線形関数更新部6が、観測値mに関する線形関数組を更新する(ステップS42)。 Thereafter, the backup step number T is incremented (step S39), and it is determined whether the backup step number T exceeds the upper limit (T max ) (step S40). If T has not reached the upper limit (T max ) (NO in step S40), the observed value m is set to 1 (step S41). Then, the linear function update unit 6 updates the linear function group related to the observation value m (step S42).
次に、双対変換部2が、線形関数の組を双対変換し(ステップS43)、凸包近似計算部32が、双対変換によって得られた複数の点の近似凸包を計算し(ステップS44)、メンバーシップ決定部14が、近似凸包の頂点のメンバーシップを計算し(ステップS45)、凸包上辺抽出部36が、近似凸包の上辺を抽出し(ステップS46)、逆双対変換部4が、近似凸包の上辺の頂点について逆双対変換を行うことで(ステップS47)、価値関数を取得する。そして、観測値mをインクリメントして(ステップS48)、mが観測値数Mを超えているかを判断し(ステップS49)、超えていない場合には(ステップS49にてNO)、ステップS42に戻って、ステップS42〜S49の処理を繰り返す。 Next, the dual transformation unit 2 dual transforms the set of linear functions (step S43), and the convex hull approximation calculation unit 32 calculates an approximate convex hull of a plurality of points obtained by the dual transformation (step S44). The membership determination unit 14 calculates the membership of the vertex of the approximate convex hull (step S45), the convex hull upper side extraction unit 36 extracts the upper side of the approximate convex hull (step S46), and the inverse dual transform unit 4 However, by performing inverse dual transformation on the top vertex of the approximate convex hull (step S47), a value function is acquired. Then, the observed value m is incremented (step S48), and it is determined whether m exceeds the observed value number M (step S49). If not exceeded (NO in step S49), the process returns to step S42. Steps S42 to S49 are repeated.
インクリメントされた観測値mが観測値数Mを超えている場合(ステップS49にてYES)、すなわち、すべての観測値について線形関数組を更新して価値関数を算出した場合には、ステップS39に戻ってバックアップステップ数Tをインクリメントして、バックアップステップ数Tが上限(Tmax)を超えていないかを判断する。このようにして、バックアップステップ数が上限を超えるまでステップS39〜ステップS49を繰り返し、バックアップステップ数が上限を超えると(ステップS40にてYES)、価値関数計算部340は、そのときに得られている、価値関数を与える線形関数の組を出力する(ステップS50)。このときの価値関数は、上述の近似価値関数である。方策決定部350は、この近似価値関数を用いて、最適方策を決定する。 If the incremented observation value m exceeds the observation value number M (YES in step S49), that is, if the value function is calculated by updating the linear function group for all observation values, the process proceeds to step S39. Returning, the backup step number T is incremented, and it is determined whether the backup step number T exceeds the upper limit (T max ). In this way, steps S39 to S49 are repeated until the number of backup steps exceeds the upper limit. When the number of backup steps exceeds the upper limit (YES in step S40), the value function calculation unit 340 is obtained at that time. A set of linear functions giving a value function is output (step S50). The value function at this time is the above approximate value function. The policy determination unit 350 determines an optimal policy using this approximate value function.
以上、対話システムの制御を事例として実施形態を説明してきたが、本発明の制御方策決定装置の応用は、このような対話システムの制御に制限されるものではない。 As described above, the embodiment has been described by taking the control of the interactive system as an example, but the application of the control policy determining apparatus of the present invention is not limited to the control of the interactive system.
本発明は、価値反復計算を高速に近似実行することが可能となるという効果を有し、環境センシング情報に基づいて制御方策を決定する制御方策決定装置等として有用である。 The present invention has an effect that it is possible to perform approximate execution of a value iteration calculation at high speed, and is useful as a control policy determination device or the like that determines a control policy based on environment sensing information.
1 初期線形関数生成部
2 双対変換部
3 双対価値反復処理部
4 逆双対変換部
5 価値関数決定部
6 線形関数更新部
10 音声入力部
20 音声認識部
30 制御方策決定装置
31 ラベル付凸包近似計算部
32 凸包近似計算部
33 ConvexNMF計算部
34 メンバーシップ決定部
35 枝刈り部
36 凸包上辺抽出部
40 出力部
100 対話システム
DESCRIPTION OF SYMBOLS 1 Initial linear function production | generation part 2 Dual transformation part 3 Dual value iterative processing part 4 Inverse dual transformation part 5 Value function determination part 6 Linear function update part 10 Speech input part 20 Speech recognition part 30 Control policy decision apparatus 31 Convex hull approximation with label Calculation unit 32 Convex hull approximation calculation unit 33 ConvexNMF calculation unit 34 Membership determination unit 35 Pruning unit 36 Convex hull upper side extraction unit 40 Output unit 100 Interactive system
Claims (7)
前記環境センシング情報に基づいて、信念空間上の価値関数の線形要素を与える線形関数の候補集合を生成する線形関数生成部と、
前記信念空間上の前記候補集合を双対空間上の複数の点に変換する双対変換部と、
前記複数の点の凸包を近似する近似凸包を計算する凸包近似計算部と、
前記近似凸包の頂点のメンバーシップ関数を決定するメンバーシップ決定部と、
前記近似凸包の上辺を抽出する凸包上辺抽出部と、
前記上辺に属する頂点を前記信念空間上の線形関数に逆変換する逆双対変換部と、
前記逆変換によって得られた線形関数に基づいて、バックアップステップ数に応じて線形関数を更新する線形関数更新部と、
を備え、
前記双対変換部は、さらに前記バックアップステップ数に応じて更新された線形関数を前記候補集合として、双対空間上の複数の点に変換し、
前記制御方策決定装置は、さらに、
前記バックアップステップ数の線形関数の更新の後に前記逆変換によって得られた線形関数に基づいて、近似価値関数の複数の線形要素を求める価値関数決定部と、
前記近似価値関数の複数の線形要素の各々に対して、前記メンバーシップ関数に従って行動を割り当てる方策決定部と、
を備えたことを特徴とする制御方策決定装置。 A control policy determination device that determines a control policy based on environmental sensing information including uncertainty,
A linear function generation unit that generates a candidate set of linear functions that give linear elements of a value function in a belief space based on the environment sensing information;
A dual transform unit for transforming the candidate set on the belief space into a plurality of points on the dual space;
A convex hull approximation calculator for calculating an approximate convex hull approximating the convex hull of the plurality of points;
A membership determination unit for determining a membership function of a vertex of the approximate convex hull;
A convex hull upper side extraction unit for extracting the upper side of the approximate convex hull;
An inverse dual transformation unit that inversely transforms vertices belonging to the upper side into a linear function on the belief space;
A linear function updating unit that updates the linear function according to the number of backup steps based on the linear function obtained by the inverse transformation;
With
The dual transform unit further transforms the linear function updated according to the number of backup steps into a plurality of points on the dual space as the candidate set,
The control policy determination device further includes:
A value function determining unit for obtaining a plurality of linear elements of the approximate value function based on the linear function obtained by the inverse transformation after the update of the linear function of the number of backup steps;
A policy determining unit that assigns an action according to the membership function to each of a plurality of linear elements of the approximate value function;
A control policy decision device comprising:
前記環境センシング情報を入力する環境センシング情報入力部と、
前記制御方策決定装置にて割り当てられた行動を実行するための制御コマンドを出力する出力部と、
を備えたことを特徴とする制御システム。 A control policy determination device according to any one of claims 1 to 4,
An environmental sensing information input unit for inputting the environmental sensing information;
An output unit for outputting a control command for executing an action assigned by the control policy determination device;
A control system characterized by comprising:
前記環境センシング情報を入力する環境センシング情報入力ステップと、
前記環境センシング情報に基づいて、信念空間上の価値関数の線形要素を与える線形関数の候補集合を生成する線形関数生成ステップと、
前記信念空間上の前記候補集合を双対空間上の複数の点に変換する双対変換ステップと、
前記複数の点の凸包を近似する近似凸包を計算する近似凸包計算ステップと、
前記近似凸包の頂点のメンバーシップ関数を決定するメンバーシップ決定ステップと、
前記近似凸包の上辺を抽出する凸包上辺抽出ステップと、
前記上辺に属する頂点を前記信念空間上の線形関数に逆変換する逆双対変換ステップと、
前記逆変換によって得られた線形関数に基づいて、バックアップステップ数に応じて線形関数を更新する線形関数更新ステップと、
を含み、
前記双対変換ステップは、さらに前記バックアップステップ数に応じて更新された線形関数を前記候補集合として、双対空間上の複数の点に変換し、
前記制御方策決定方法は、さらに、
前記バックアップステップ数の線形関数の更新の後に前記逆変換によって得られた線形関数に基づいて、近似価値関数の複数の線形要素を求める価値関数決定ステップと、
前記近似価値関数の複数の線形要素の各々に対して、前記メンバーシップ関数に従って行動を割り当てる方策決定ステップと、
を含むことを特徴とする制御方策決定方法。 A control policy determination method for obtaining a control policy based on environmental sensing information including uncertainty,
Environmental sensing information input step for inputting the environmental sensing information;
Generating a linear function candidate set that gives a linear element of a value function in a belief space based on the environmental sensing information; and
A dual transformation step of transforming the candidate set on the belief space into a plurality of points on the dual space;
An approximate convex hull calculating step of calculating an approximate convex hull approximating the convex hull of the plurality of points;
A membership determination step for determining a membership function of a vertex of the approximate convex hull;
A convex hull upper side extracting step of extracting the upper side of the approximate convex hull;
An inverse dual transformation step of inversely transforming vertices belonging to the upper side to a linear function on the belief space;
A linear function updating step for updating the linear function according to the number of backup steps based on the linear function obtained by the inverse transformation;
Including
The dual transformation step further transforms a linear function updated according to the number of backup steps into a plurality of points on the dual space as the candidate set,
The control strategy determination method further includes:
A value function determining step for obtaining a plurality of linear elements of the approximate value function based on the linear function obtained by the inverse transformation after the update of the linear function of the number of backup steps;
A policy determining step of assigning an action according to the membership function to each of a plurality of linear elements of the approximate value function;
A control policy determination method comprising:
不確定性を含む環境センシング情報に基づいて制御方策を決定する制御方策決定装置であって、
前記環境センシング情報に基づいて、信念空間上の価値関数の線形要素を与える線形関数の候補集合を生成する線形関数生成部と、
前記信念空間上の前記候補集合を双対空間上の複数の点に変換する双対変換部と、
前記複数の点の凸包を近似する近似凸包を計算する凸包近似計算部と、
前記近似凸包の頂点のメンバーシップ関数を決定するメンバーシップ決定部と、
前記近似凸包の上辺を抽出する凸包上辺抽出部と、
前記上辺に属する頂点を前記信念空間上の線形関数に逆変換する逆双対変換部と、
前記逆変換によって得られた線形関数に基づいて、バックアップステップ数に応じて線形関数を更新する線形関数更新部と、
を備え、
前記双対変換部は、さらに前記バックアップステップ数に応じて更新された線形関数を前記候補集合として、双対空間上の複数の点に変換し、
前記制御方策決定装置は、さらに、
前記バックアップステップ数の線形関数の更新の後に前記逆変換によって得られた線形関数に基づいて、近似価値関数の複数の線形要素を求める価値関数決定部と、
前記近似価値関数の複数の線形要素の各々に対して、前記メンバーシップ関数に従って行動を割り当てる方策決定部と、
を備えた制御方策決定装置として機能させるための制御方策決定プログラム。 Computer
A control policy determination device that determines a control policy based on environmental sensing information including uncertainty,
A linear function generation unit that generates a candidate set of linear functions that give linear elements of a value function in a belief space based on the environment sensing information;
A dual transform unit for transforming the candidate set on the belief space into a plurality of points on the dual space;
A convex hull approximation calculator for calculating an approximate convex hull approximating the convex hull of the plurality of points;
A membership determination unit for determining a membership function of a vertex of the approximate convex hull;
A convex hull upper side extraction unit for extracting the upper side of the approximate convex hull;
An inverse dual transformation unit that inversely transforms vertices belonging to the upper side into a linear function on the belief space;
A linear function updating unit that updates the linear function according to the number of backup steps based on the linear function obtained by the inverse transformation;
With
The dual transform unit further transforms the linear function updated according to the number of backup steps into a plurality of points on the dual space as the candidate set,
The control policy determination device further includes:
A value function determining unit for obtaining a plurality of linear elements of the approximate value function based on the linear function obtained by the inverse transformation after the update of the linear function of the number of backup steps;
A policy determining unit that assigns an action according to the membership function to each of a plurality of linear elements of the approximate value function;
A control policy determination program for functioning as a control policy determination device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013235415A JP6114679B2 (en) | 2013-02-15 | 2013-11-13 | Control policy determination device, control policy determination method, control policy determination program, and control system |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013027518 | 2013-02-15 | ||
JP2013027518 | 2013-02-15 | ||
JP2013235415A JP6114679B2 (en) | 2013-02-15 | 2013-11-13 | Control policy determination device, control policy determination method, control policy determination program, and control system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014179064A true JP2014179064A (en) | 2014-09-25 |
JP6114679B2 JP6114679B2 (en) | 2017-04-12 |
Family
ID=51698904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013235415A Expired - Fee Related JP6114679B2 (en) | 2013-02-15 | 2013-11-13 | Control policy determination device, control policy determination method, control policy determination program, and control system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6114679B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016071813A (en) * | 2014-10-02 | 2016-05-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Generation apparatus, selection apparatus, generation method, selection method, and program |
CN107748566A (en) * | 2017-09-20 | 2018-03-02 | 清华大学 | A kind of underwater autonomous robot constant depth control method based on intensified learning |
-
2013
- 2013-11-13 JP JP2013235415A patent/JP6114679B2/en not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
JPN6017005399; 南 泰浩: '「部分観測マルコフ決定過程に基づく対話制御」' 日本音響学会誌 第67巻,第10号, 2011, pp.482-487, 社団法人日本音響学会 * |
JPN7017000530; Hao Zhang: '"Partially Observable Markov Decision Processes: A Geometric Technique and Analysis"' Operations Research 第58巻,第1号, 2010, pp.214-228 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016071813A (en) * | 2014-10-02 | 2016-05-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Generation apparatus, selection apparatus, generation method, selection method, and program |
CN107748566A (en) * | 2017-09-20 | 2018-03-02 | 清华大学 | A kind of underwater autonomous robot constant depth control method based on intensified learning |
CN107748566B (en) * | 2017-09-20 | 2020-04-24 | 清华大学 | Underwater autonomous robot fixed depth control method based on reinforcement learning |
Also Published As
Publication number | Publication date |
---|---|
JP6114679B2 (en) | 2017-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7462623B2 (en) | System and method for accelerating and embedding neural networks using activity sparsification | |
US11574164B2 (en) | Neural network cooperation | |
JP7196218B2 (en) | Image question answering method, device, computer device, medium and program | |
KR102219346B1 (en) | Systems and methods for performing bayesian optimization | |
US11861474B2 (en) | Dynamic placement of computation sub-graphs | |
Ferns et al. | Bisimulation metrics for continuous Markov decision processes | |
US11651214B2 (en) | Multimodal data learning method and device | |
CN110520871A (en) | Training machine learning model | |
US20170213150A1 (en) | Reinforcement learning using a partitioned input state space | |
CN110770759A (en) | Neural network system | |
WO2022105108A1 (en) | Network data classification method, apparatus, and device, and readable storage medium | |
CA2902015C (en) | Method and system for solving an optimization problem involving graph similarity | |
CN109885667A (en) | Document creation method, device, computer equipment and medium | |
CN107437111B (en) | Data processing method, medium, device and computing equipment based on neural network | |
CN110929802A (en) | Information entropy-based subdivision identification model training and image identification method and device | |
CN113806552B (en) | Information extraction method and device, electronic equipment and storage medium | |
CN116721179A (en) | Method, equipment and storage medium for generating image based on diffusion model | |
KR20210149393A (en) | Apparatus and method for training reinforcement learning model in use of combinational optimization | |
JP6114679B2 (en) | Control policy determination device, control policy determination method, control policy determination program, and control system | |
CN110222817A (en) | Convolutional neural networks compression method, system and medium based on learning automaton | |
JP7512416B2 (en) | A Cross-Transform Neural Network System for Few-Shot Similarity Determination and Classification | |
JP7438544B2 (en) | Neural network processing device, computer program, neural network manufacturing method, neural network data manufacturing method, neural network utilization device, and neural network downsizing method | |
KR20210141150A (en) | Method and apparatus for image analysis using image classification model | |
JP2021144387A (en) | Learning apparatus, learning method and computer program | |
US20240256865A1 (en) | Training neural networks using learned optimizers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170317 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6114679 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |