JP2021060988A5 - - Google Patents

Download PDF

Info

Publication number
JP2021060988A5
JP2021060988A5 JP2020159841A JP2020159841A JP2021060988A5 JP 2021060988 A5 JP2021060988 A5 JP 2021060988A5 JP 2020159841 A JP2020159841 A JP 2020159841A JP 2020159841 A JP2020159841 A JP 2020159841A JP 2021060988 A5 JP2021060988 A5 JP 2021060988A5
Authority
JP
Japan
Prior art keywords
policy
function
controller
state
objective function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020159841A
Other languages
English (en)
Japanese (ja)
Other versions
JP7301034B2 (ja
JP2021060988A (ja
Filing date
Publication date
Priority claimed from US16/592,977 external-priority patent/US11650551B2/en
Application filed filed Critical
Publication of JP2021060988A publication Critical patent/JP2021060988A/ja
Publication of JP2021060988A5 publication Critical patent/JP2021060988A5/ja
Application granted granted Critical
Publication of JP7301034B2 publication Critical patent/JP7301034B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

JP2020159841A 2019-10-04 2020-09-24 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法 Active JP7301034B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/592,977 US11650551B2 (en) 2019-10-04 2019-10-04 System and method for policy optimization using quasi-Newton trust region method
US16/592,977 2019-10-04

Publications (3)

Publication Number Publication Date
JP2021060988A JP2021060988A (ja) 2021-04-15
JP2021060988A5 true JP2021060988A5 (enExample) 2023-04-06
JP7301034B2 JP7301034B2 (ja) 2023-06-30

Family

ID=75275122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020159841A Active JP7301034B2 (ja) 2019-10-04 2020-09-24 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法

Country Status (2)

Country Link
US (1) US11650551B2 (enExample)
JP (1) JP7301034B2 (enExample)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117521725A (zh) * 2016-11-04 2024-02-06 渊慧科技有限公司 加强学习系统
US11841689B2 (en) * 2018-12-27 2023-12-12 Nec Corporation Policy creation apparatus, control apparatus, policy creation method, and non-transitory computer readable medium storing policy creation program
US11992945B2 (en) * 2020-11-10 2024-05-28 Google Llc System and methods for training robot policies in the real world
JP7556276B2 (ja) * 2020-12-02 2024-09-26 富士通株式会社 量子化プログラム,量子化方法および量子化装置
CN117223011A (zh) * 2021-05-28 2023-12-12 渊慧科技有限公司 使用加权策略投影的多目标强化学习
US20220414531A1 (en) * 2021-06-25 2022-12-29 International Business Machines Corporation Mitigating adversarial attacks for simultaneous prediction and optimization of models
US12313276B2 (en) * 2022-04-21 2025-05-27 Mitsubishi Electric Research Laboratories, Inc. Time-varying reinforcement learning for robust adaptive estimator design with application to HVAC flow control
CN115042174B (zh) * 2022-06-07 2024-08-30 中国北方车辆研究所 一种分层驱动的自主无人系统类人控制架构
JP2024118220A (ja) * 2023-02-20 2024-08-30 富士通株式会社 強化学習プログラム、情報処理装置および強化学習方法
JP2024148223A (ja) * 2023-04-05 2024-10-18 富士通株式会社 強化学習プログラム、強化学習方法、および情報処理装置
CN117162086B (zh) * 2023-08-07 2024-07-05 南京云创大数据科技股份有限公司 一种用于机械臂目标寻找的训练方法、方法及训练系统
WO2025160824A1 (zh) * 2024-01-31 2025-08-07 电子科技大学(深圳)高等研究院 基于人工智能的直流-直流转换器自适应控制方法及设备
CN117674595B (zh) * 2024-01-31 2024-06-18 电子科技大学(深圳)高等研究院 基于人工智能的直流-直流转换器自适应控制方法及设备
CN118721205B (zh) * 2024-07-24 2025-01-28 华中科技大学 一种机械臂运动规划方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5150371B2 (ja) * 2008-05-30 2013-02-20 学校法人沖縄科学技術大学院大学学園 制御器、制御方法および制御プログラム
US9434389B2 (en) * 2013-11-18 2016-09-06 Mitsubishi Electric Research Laboratories, Inc. Actions prediction for hypothetical driving conditions
US10803393B2 (en) * 2016-04-04 2020-10-13 Financialsharp, Inc. System and method for performance evaluation of probability forecast
WO2019012437A1 (en) 2017-07-13 2019-01-17 Anand Deshpande SOUND DEVICE BASED ON MONITORING OF MACHINE USES AND METHOD OF OPERATING SAME

Similar Documents

Publication Publication Date Title
JP2021060988A5 (enExample)
WO2023040165A1 (zh) 一种服务器风扇转速控制方法、装置、设备及介质
JP7379833B2 (ja) 強化学習方法、強化学習プログラム、および強化学習システム
Grande et al. Sample efficient reinforcement learning with gaussian processes
JP2018037064A5 (enExample)
EP2818947A1 (en) Method for automatically setting controller bandwidth
JP2021060988A (ja) 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法
CN111830822A (zh) 配置与环境交互的系统
JP7099968B2 (ja) 演算装置
CN118508817B (zh) 一种基于深度强化学习的电机自适应控制方法及系统
KR102590612B1 (ko) 클린 이미지 없는 자체 지도 이미지 디노이징 방법 및 장치
JP6632538B2 (ja) 予測値整形システム、制御システム、予測値整形方法、制御方法、及び予測値整形プログラム
US20220358375A1 (en) Inference of machine learning models
WO2022257310A1 (zh) 估计车辆重量的方法和装置
JP2019074947A (ja) 学習装置、学習方法及び学習プログラム
CN111108738B (zh) 数据处理设备、数据分析设备、数据处理系统和用于处理数据的方法
CN114690630A (zh) 神经网络控制器与基于模型的控制器相组合的车辆控制
CN115525002A (zh) 一种数据采集控制方法、服务器、客户端及存储介质
CN115690202A (zh) 信息处理方法以及记录介质
CN118560503A (zh) 车辆、车辆自动驾驶控制方法、装置和介质
CN118493393A (zh) 一种双臂机器人的任务调整方法、装置、电子设备及存储介质
JP2021051462A (ja) 情報処理装置及びプログラム
CN117149293B (zh) 一种操作系统个性化配置方法
CN120010264A (zh) 直线模组高精度定位控制方法及系统
CN110111275A (zh) 一种信号降噪的方法、系统及计算机存储介质