JP2021060988A5 - - Google Patents

Download PDF

Info

Publication number
JP2021060988A5
JP2021060988A5 JP2020159841A JP2020159841A JP2021060988A5 JP 2021060988 A5 JP2021060988 A5 JP 2021060988A5 JP 2020159841 A JP2020159841 A JP 2020159841A JP 2020159841 A JP2020159841 A JP 2020159841A JP 2021060988 A5 JP2021060988 A5 JP 2021060988A5
Authority
JP
Japan
Prior art keywords
policy
function
controller
state
objective function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020159841A
Other languages
English (en)
Japanese (ja)
Other versions
JP7301034B2 (ja
JP2021060988A (ja
Filing date
Publication date
Priority claimed from US16/592,977 external-priority patent/US11650551B2/en
Application filed filed Critical
Publication of JP2021060988A publication Critical patent/JP2021060988A/ja
Publication of JP2021060988A5 publication Critical patent/JP2021060988A5/ja
Application granted granted Critical
Publication of JP7301034B2 publication Critical patent/JP7301034B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

JP2020159841A 2019-10-04 2020-09-24 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法 Active JP7301034B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/592,977 2019-10-04
US16/592,977 US11650551B2 (en) 2019-10-04 2019-10-04 System and method for policy optimization using quasi-Newton trust region method

Publications (3)

Publication Number Publication Date
JP2021060988A JP2021060988A (ja) 2021-04-15
JP2021060988A5 true JP2021060988A5 (enExample) 2023-04-06
JP7301034B2 JP7301034B2 (ja) 2023-06-30

Family

ID=75275122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020159841A Active JP7301034B2 (ja) 2019-10-04 2020-09-24 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法

Country Status (2)

Country Link
US (1) US11650551B2 (enExample)
JP (1) JP7301034B2 (enExample)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117521725A (zh) * 2016-11-04 2024-02-06 渊慧科技有限公司 加强学习系统
JP7201958B2 (ja) * 2018-12-27 2023-01-11 日本電気株式会社 方策作成装置、制御装置、方策作成方法、及び、方策作成プログラム
US11992945B2 (en) * 2020-11-10 2024-05-28 Google Llc System and methods for training robot policies in the real world
JP7556276B2 (ja) * 2020-12-02 2024-09-26 富士通株式会社 量子化プログラム,量子化方法および量子化装置
US20220414531A1 (en) * 2021-06-25 2022-12-29 International Business Machines Corporation Mitigating adversarial attacks for simultaneous prediction and optimization of models
US12313276B2 (en) * 2022-04-21 2025-05-27 Mitsubishi Electric Research Laboratories, Inc. Time-varying reinforcement learning for robust adaptive estimator design with application to HVAC flow control
CN115042174B (zh) * 2022-06-07 2024-08-30 中国北方车辆研究所 一种分层驱动的自主无人系统类人控制架构
JP2024118220A (ja) * 2023-02-20 2024-08-30 富士通株式会社 強化学習プログラム、情報処理装置および強化学習方法
JP2024148223A (ja) * 2023-04-05 2024-10-18 富士通株式会社 強化学習プログラム、強化学習方法、および情報処理装置
CN117162086B (zh) * 2023-08-07 2024-07-05 南京云创大数据科技股份有限公司 一种用于机械臂目标寻找的训练方法、方法及训练系统
WO2025160824A1 (zh) * 2024-01-31 2025-08-07 电子科技大学(深圳)高等研究院 基于人工智能的直流-直流转换器自适应控制方法及设备
CN117674595B (zh) * 2024-01-31 2024-06-18 电子科技大学(深圳)高等研究院 基于人工智能的直流-直流转换器自适应控制方法及设备
CN118721205B (zh) * 2024-07-24 2025-01-28 华中科技大学 一种机械臂运动规划方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5150371B2 (ja) 2008-05-30 2013-02-20 学校法人沖縄科学技術大学院大学学園 制御器、制御方法および制御プログラム
US9434389B2 (en) * 2013-11-18 2016-09-06 Mitsubishi Electric Research Laboratories, Inc. Actions prediction for hypothetical driving conditions
US10803393B2 (en) 2016-04-04 2020-10-13 Financialsharp, Inc. System and method for performance evaluation of probability forecast
WO2019012437A1 (en) 2017-07-13 2019-01-17 Anand Deshpande SOUND DEVICE BASED ON MONITORING OF MACHINE USES AND METHOD OF OPERATING SAME

Similar Documents

Publication Publication Date Title
JP2021060988A5 (enExample)
WO2023040165A1 (zh) 一种服务器风扇转速控制方法、装置、设备及介质
CN113557157B (zh) 摩擦自适应车辆控制
JP7379833B2 (ja) 強化学習方法、強化学習プログラム、および強化学習システム
JP2018037064A5 (enExample)
EP2818947A1 (en) Method for automatically setting controller bandwidth
CN111830822A (zh) 配置与环境交互的系统
JP2021060988A (ja) 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法
JP7099968B2 (ja) 演算装置
KR102590612B1 (ko) 클린 이미지 없는 자체 지도 이미지 디노이징 방법 및 장치
JP6632538B2 (ja) 予測値整形システム、制御システム、予測値整形方法、制御方法、及び予測値整形プログラム
US20220358375A1 (en) Inference of machine learning models
US11112759B2 (en) Thermal displacement correction system and computer
CN118508817B (zh) 一种基于深度强化学习的电机自适应控制方法及系统
WO2022257310A1 (zh) 估计车辆重量的方法和装置
JP2019074947A (ja) 学習装置、学習方法及び学習プログラム
CN112051731A (zh) 用于确定针对技术系统的控制策略的方法和设备
CN119148621A (zh) 一种考虑刀具磨损的五轴数控机床热误差补偿方法
CN115690202A (zh) 信息处理方法以及记录介质
CN111108738B (zh) 数据处理设备、数据分析设备、数据处理系统和用于处理数据的方法
CN118560503A (zh) 车辆、车辆自动驾驶控制方法、装置和介质
CN110111275B (zh) 一种信号降噪的方法、系统及计算机存储介质
Grisetti et al. Speeding-up rao-blackwellized SLAM
Hasan Online Parameter Estimation in Digital Twins for Real-Time Condition Monitoring
CN117149293B (zh) 一种操作系统个性化配置方法