JP2016071813A - 生成装置、選択装置、生成方法、選択方法、およびプログラム - Google Patents
生成装置、選択装置、生成方法、選択方法、およびプログラム Download PDFInfo
- Publication number
- JP2016071813A JP2016071813A JP2014203631A JP2014203631A JP2016071813A JP 2016071813 A JP2016071813 A JP 2016071813A JP 2014203631 A JP2014203631 A JP 2014203631A JP 2014203631 A JP2014203631 A JP 2014203631A JP 2016071813 A JP2016071813 A JP 2016071813A
- Authority
- JP
- Japan
- Prior art keywords
- gain
- time point
- transition
- state
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000010187 selection method Methods 0.000 title claims description 5
- 239000013598 vector Substances 0.000 claims abstract description 280
- 230000007704 transition Effects 0.000 claims abstract description 158
- 230000009471 action Effects 0.000 claims abstract description 64
- 230000001186 cumulative effect Effects 0.000 claims abstract description 49
- 238000009826 distribution Methods 0.000 claims description 17
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 50
- 230000008569 process Effects 0.000 description 38
- 238000003860 storage Methods 0.000 description 27
- 238000012545 processing Methods 0.000 description 18
- 230000000875 corresponding effect Effects 0.000 description 16
- 230000006854 communication Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 238000012546 transfer Methods 0.000 description 7
- 244000141353 Prunus domestica Species 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013138 pruning Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 206010012289 Dementia Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Optimization (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Algebra (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
Abstract
【解決手段】アクションに応じて現在の状態から次の状態へと遷移する遷移モデルについて、累積期待利得の算出に用いる利得ベクトルを生成する生成装置であって、対象時点の次の時点以降に得られる累積期待利得の成分を次の時点の状態毎に含む次の時点の利得ベクトルを取得する取得部と、次の時点の利得ベクトルを用いて得られる累積期待利得に応じて、対象時点から次の時点への遷移に用いられる遷移パラメータの値を、遷移パラメータの取り得る範囲の中から決定する第1決定部と、決定された遷移パラメータを用いて、次の時点の利得ベクトルから、対象時点の利得ベクトルを生成する第1生成部と、を備える生成装置、生成方法、およびプログラムを提供する。
【選択図】図1
Description
特許文献1 特開2005−084834号公報
特許文献2 特開2008−186326号公報
特許文献3 特開2012−123529号公報
Claims (19)
- アクションに応じて現在の状態から次の状態へと遷移する遷移モデルについて、累積期待利得の算出に用いる利得ベクトルを生成する生成装置であって、
対象時点の次の時点以降に得られる累積期待利得の成分を前記次の時点の状態毎に含む前記次の時点の利得ベクトルを取得する取得部と、
前記次の時点の利得ベクトルを用いて得られる累積期待利得に応じて、前記対象時点から前記次の時点への遷移に用いられる遷移パラメータの値を、前記遷移パラメータの取り得る範囲の中から決定する第1決定部と、
決定された前記遷移パラメータを用いて、前記次の時点の利得ベクトルから、前記対象時点の利得ベクトルを生成する第1生成部と、
を備える生成装置。 - 前記第1決定部は、前記次の時点の利得ベクトルを用いて得られる累積期待利得が予め定められた基準以下となる前記遷移パラメータの値を決定する請求項1に記載の生成装置。
- 前記第1決定部は、前記次の時点の利得ベクトルを用いて得られる累積期待利得が最小となる前記遷移パラメータの値を決定する請求項1または2に記載の生成装置。
- 将来の時点における利得ベクトルを初期化する初期化部を備え、
当該生成装置は、前記将来の時点から遡って前記対象時点における利得ベクトルを生成する
請求項1から3のいずれか一項に記載の生成装置。 - 前記取得部は、前記次の時点の利得ベクトルを少なくとも1つ含む前記次の時点における利得ベクトルの集合を取得し、
前記第1決定部は、前記次の時点における利得ベクトルの集合に含まれる利得ベクトルのそれぞれについて前記遷移パラメータの値を決定し、
前記第1生成部は、前記次の時点における利得ベクトルの集合に含まれる利得ベクトルのそれぞれについて、決定された前記遷移パラメータを用いて前記対象時点の利得ベクトルを生成して前記対象時点の利得ベクトルの集合に加える
請求項1から4のいずれか一項に記載の生成装置。 - 前記第1決定部は、前記対象時点における各状態から前記次の時点の各状態への遷移確率を、前記遷移確率の取り得る範囲の中から決定する請求項1から5のいずれか一項に記載の生成装置。
- 前記第1決定部は、前記遷移確率の線形不等式によって表される前記遷移確率の取り得る範囲の中から、線形計画法により前記遷移確率を決定する請求項6に記載の生成装置。
- 前記第1決定部は、前記遷移確率の取り得る範囲として、前記遷移確率の基準値の定数倍までの範囲の中から前記遷移確率を決定する請求項6または7に記載の生成装置。
- 前記第1生成部が生成した前記対象時点の利得ベクトルの集合から、各状態の確率分布の範囲内で最大値を構成しない利得ベクトルを除去する除去部を更に備える請求項5に記載の生成装置。
- 前記除去部は、前記第1生成部が生成した前記対象時点の利得ベクトルの集合から、各状態の確率分布の範囲内における予め定められた選択用の確率分布において前記累積期待利得の最大値を与えない利得ベクトルを除去する請求項9に記載の生成装置。
- 前記第1生成部は、前記対象時点において行う複数のアクションのそれぞれに対応して、各状態における当該アクションに応じて前記第1決定部により決定された前記遷移パラメータによって状態遷移をする場合の即時期待利得と前記次の時点の利得ベクトルにおける遷移先の状態の累積期待利得とに基づいて、前記対象時点の利得ベクトルを生成する請求項1から10のいずれか一項に記載の生成装置。
- アクションに応じて現在の状態から次の状態へと遷移する遷移モデルにおけるアクションを選択する選択装置であって、
対象時点以降に得られる累積期待利得の成分を前記対象時点の状態毎に含む前記対象時点の利得ベクトルの集合を取得する集合取得部と、
前記対象時点において各状態にある想定確率を取得する確率取得部と、
前記利得ベクトルの集合および前記想定確率に基づいて、前記利得ベクトルの集合の中から利得ベクトルを選択する選択部と、
選択された前記利得ベクトルに対応するアクションを、選択すべきアクションとして出力する出力部と、
前記対象時点から前記次の時点への遷移に用いられる遷移パラメータの値を、前記遷移パラメータの取り得る範囲の中から決定する第2決定部と、
決定された前記遷移パラメータを用いて、前記対象時点の次の時点において各状態にある想定確率を生成する第2生成部と、
を備える選択装置。 - 前記第2決定部は、選択された利得ベクトルを用いて得られる累積期待利得が予め定められた基準以下となる前記遷移パラメータの値を決定する請求項12に記載の選択装置。
- 前記第2決定部は、選択された利得ベクトルを用いて得られる累積期待利得が最小となる前記遷移パラメータの値を決定する請求項12または13に記載の選択装置。
- 請求項1から11のいずれか一項に記載の生成装置を備え、
前記集合取得部は、前記生成装置により生成された利得ベクトルの集合を取得する請求項12から14のいずれか一項に記載の選択装置。 - アクションに応じて現在の状態から次の状態へと遷移する遷移モデルについて、累積期待利得の算出に用いる利得ベクトルを生成する生成方法であって、
対象時点の次の時点以降に得られる累積期待利得の成分を前記次の時点の状態毎に含む前記次の時点の利得ベクトルを取得する取得段階と、
前記次の時点の利得ベクトルを用いて得られる累積期待利得に応じて、前記対象時点から前記次の時点への遷移に用いられる遷移パラメータの値を、前記遷移パラメータの取り得る範囲の中から決定する決定段階と、
決定された前記遷移パラメータを用いて、前記次の時点の利得ベクトルから、前記対象時点の利得ベクトルを生成する生成段階と、
を備える生成方法。 - アクションに応じて現在の状態から次の状態へと遷移する遷移モデルにおけるアクションを選択する選択方法であって、
対象時点以降に得られる累積期待利得の成分を前記対象時点の状態毎に含む前記対象時点の利得ベクトルの集合を取得する集合取得段階と、
前記対象時点において各状態にある想定確率を取得する確率取得段階と、
前記利得ベクトルの集合および前記想定確率に基づいて、前記利得ベクトルの集合の中から利得ベクトルを選択する選択段階と、
選択された前記利得ベクトルに対応するアクションを、選択すべきアクションとして出力する出力段階と、
前記対象時点から前記次の時点への遷移に用いられる遷移パラメータの値を、前記遷移パラメータの取り得る範囲の中から決定する決定段階と、
決定された前記遷移パラメータを用いて、前記対象時点の次の時点において各状態にある想定確率を生成する生成段階と、
を備える選択方法。 - コンピュータに、請求項1から11のいずれか一項に記載の生成装置として機能させるプログラム。
- コンピュータに、請求項12から15のいずれか一項に記載の選択装置として機能させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014203631A JP6532048B2 (ja) | 2014-10-02 | 2014-10-02 | 生成装置、選択装置、生成方法、選択方法、およびプログラム |
US14/873,422 US20160098641A1 (en) | 2014-10-02 | 2015-10-02 | Generation apparatus, selection apparatus, generation method, selection method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014203631A JP6532048B2 (ja) | 2014-10-02 | 2014-10-02 | 生成装置、選択装置、生成方法、選択方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016071813A true JP2016071813A (ja) | 2016-05-09 |
JP6532048B2 JP6532048B2 (ja) | 2019-06-19 |
Family
ID=55633037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014203631A Expired - Fee Related JP6532048B2 (ja) | 2014-10-02 | 2014-10-02 | 生成装置、選択装置、生成方法、選択方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20160098641A1 (ja) |
JP (1) | JP6532048B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110016067A1 (en) * | 2008-03-12 | 2011-01-20 | Aptima, Inc. | Probabilistic decision making system and methods of use |
JP2014179064A (ja) * | 2013-02-15 | 2014-09-25 | Denso It Laboratory Inc | 制御方策決定装置、制御方策決定方法、制御方策決定プログラム、及び制御システム |
JP2015176329A (ja) * | 2014-03-14 | 2015-10-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、生成方法、情報処理方法、及び、プログラム |
-
2014
- 2014-10-02 JP JP2014203631A patent/JP6532048B2/ja not_active Expired - Fee Related
-
2015
- 2015-10-02 US US14/873,422 patent/US20160098641A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110016067A1 (en) * | 2008-03-12 | 2011-01-20 | Aptima, Inc. | Probabilistic decision making system and methods of use |
JP2014179064A (ja) * | 2013-02-15 | 2014-09-25 | Denso It Laboratory Inc | 制御方策決定装置、制御方策決定方法、制御方策決定プログラム、及び制御システム |
JP2015176329A (ja) * | 2014-03-14 | 2015-10-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、生成方法、情報処理方法、及び、プログラム |
Non-Patent Citations (1)
Title |
---|
南 泰浩: "「部分観測マルコフ決定過程に基づく対話制御」", 日本音響学会誌, vol. 第67巻,第10号, JPN6018039221, 1 October 2011 (2011-10-01), pages pp.482−487 * |
Also Published As
Publication number | Publication date |
---|---|
JP6532048B2 (ja) | 2019-06-19 |
US20160098641A1 (en) | 2016-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016071697A (ja) | 学習装置、処理装置、予測システム、学習方法、処理方法、およびプログラム | |
JP5954750B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP6103540B2 (ja) | 生成装置、生成方法、情報処理方法、及び、プログラム | |
JP2011243088A (ja) | データ処理装置、データ処理方法、及び、プログラム | |
CN114186084B (zh) | 在线多模态哈希检索方法、系统、存储介质及设备 | |
JP2013097723A (ja) | テキスト要約装置、方法及びプログラム | |
JP2013235512A (ja) | 数理計画問題を解くための装置、プログラムおよび方法 | |
JP6132288B2 (ja) | 生成装置、選択装置、生成方法、選択方法、及び、プログラム | |
JP6532048B2 (ja) | 生成装置、選択装置、生成方法、選択方法、およびプログラム | |
JP7036128B2 (ja) | 制御装置、制御方法およびプログラム | |
KR102105951B1 (ko) | 추론을 위한 제한된 볼츠만 머신 구축 방법 및 추론을 위한 제한된 볼츠만 머신을 탑재한 컴퓨터 장치 | |
JP6977733B2 (ja) | パラメータ最適化装置、パラメータ最適化方法、及びプログラム | |
CN116306947A (zh) | 一种基于蒙特卡洛树探索的多智能体决策方法 | |
JP5396977B2 (ja) | データ処理装置、データ処理方法およびプログラム | |
JP2021193471A (ja) | 計画装置、方法、およびプログラム | |
JP2010244363A (ja) | 遺伝的処理装置、遺伝的処理方法およびプログラム | |
JP2009282579A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP6548209B2 (ja) | 処理装置、処理方法、及び、プログラム | |
JP2020179438A (ja) | 計算機システム及び機械学習方法 | |
WO2022270163A1 (ja) | 計算機システム及び介入効果予測方法 | |
JP5417972B2 (ja) | 遺伝的処理装置、遺伝的処理方法、および遺伝的処理プログラム | |
JP5418052B2 (ja) | 遺伝的処理装置、遺伝的処理方法およびプログラム | |
JP5326776B2 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
JP5359622B2 (ja) | 遺伝的処理装置、遺伝的処理方法、および遺伝的処理プログラム | |
JP5417950B2 (ja) | 遺伝的処理装置、遺伝的処理方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170815 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20180808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180809 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181009 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190423 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20190424 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190514 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6532048 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |