JP7348296B2 - 目標志向的強化学習方法及びこれを遂行するための装置 - Google Patents
目標志向的強化学習方法及びこれを遂行するための装置 Download PDFInfo
- Publication number
- JP7348296B2 JP7348296B2 JP2021546353A JP2021546353A JP7348296B2 JP 7348296 B2 JP7348296 B2 JP 7348296B2 JP 2021546353 A JP2021546353 A JP 2021546353A JP 2021546353 A JP2021546353 A JP 2021546353A JP 7348296 B2 JP7348296 B2 JP 7348296B2
- Authority
- JP
- Japan
- Prior art keywords
- reinforcement learning
- goal
- data
- target data
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Description
110 特徴抽出部
120 行動モジュール
130 分類モジュール
210 入出力部
220 制御部
230 保存部
Claims (6)
- 目標志向的強化学習モデルによって遂行する強化学習方法であって、
強化学習を遂行する過程で前記強化学習の目標に関連したデータを目標データとして収集する段階と、
前記強化学習に対する補助学習として前記収集された目標データを学習する段階と、及び、
前記目標データを学習した結果を前記強化学習遂行の際に反映する段階とを含む、強化学習方法であって、
前記目標志向的強化学習モデルは、
状態データ及び目標データから特徴を抽出するための特徴抽出部と、
前記状態データから抽出された特徴に基づき、政策による行動及び価値を出力するための行動モジュールと、及び、
前記目標データから抽出された特徴に基づいて前記目標データを分類するための分類モジュールとを含む強化学習方法であって、
前記収集された目標データを学習する段階は、
前記特徴抽出部が前記目標データのバッチデータ(batch data)から特徴を抽出する段階と、
前記分類モジュールが前記目標データのバッチデータから抽出された特徴によって予測値を抽出する段階と、
前記目標志向的強化学習モデルが予測値及び前記バッチデータのラベルを用いて前記補助学習に対する損失を算出する段階と、及び、
前記目標志向的強化学習モデルが前記補助学習に対する損失を用いて前記目標データに対する視覚的表現を学習する段階とを含むことを特徴とする、強化学習方法。 - 前記目標データとして収集する段階は、
前記強化学習を遂行するエージェントが前記目標達成に成功すれば、前記目標の視覚的表現を含むイメージを前記目標データとして収集する段階と、及び、
前記目標データに目標に対応することを意味するラベリングを遂行する段階とを含むことを特徴とする、請求項1に記載の強化学習方法。 - コンピュータで請求項1項に記載の方法を実行させるためのプログラムが記録されたコンピュータ可読の記録媒体。
- コンピューティング装置によって遂行され、請求項1に記載の方法を遂行するために媒体に保存された、コンピュータプログラム。
- 目標志向的強化学習を遂行するためのコンピューティング装置であって、
データを受信し、これを演算処理した結果を出力するための入出力部と、
強化学習を遂行するためのプログラム及び前記強化学習を遂行する過程で収集される目標データを保存する保存部と、及び、
少なくとも一つのプロセッサを含み、前記プログラムを実行させることにより、前記入出力部を介して受信されたデータを用いて強化学習を遂行する制御部とを含み、
前記制御部が前記プログラムを実行することによって具現される目標志向的強化学習モデルは、
前記強化学習を遂行する過程で前記強化学習の目標に関連したデータを前記目標データとして収集し、前記強化学習に対する補助学習として前記収集された目標データを学習し、前記目標データを学習した結果を前記強化学習遂行の際に反映する、コンピューティング装置であって、
前記目標志向的強化学習モデルは、
状態データ及び目標データから特徴を抽出するための特徴抽出部と、
前記状態データから抽出された特徴に基づき、政策による行動及び価値を出力するための行動モジュールと、及び、
前記目標データから抽出された特徴に基づいて前記目標データを分類するための分類モジュールとを含むコンピューティング装置であって、
前記目標志向的強化学習モデルは、前記収集された目標データを学習するにあたり、
前記特徴抽出部が前記目標データのバッチデータ(batchdata)から特徴を抽出し、前記分類モジュールが前記目標データのバッチデータから抽出された特徴によって予測値を抽出し、前記目標志向的強化学習モデルが前記予測値及び前記バッチデータのラベルを用いて前記補助学習に対する損失を算出し、前記目標志向的強化学習モデルが前記補助学習に対する損失を用いて前記目標データに対する視覚的表現を学習することを特徴とする、コンピューティング装置。 - 前記目標志向的強化学習モデルは、前記目標データを収集するにあたり、
前記強化学習を遂行するエージェントが前記目標達成に成功すれば、前記目標の視覚的表現を含むイメージを前記目標データとして収集し、前記目標データには目標に対応することを意味するラベリングを遂行することを特徴とする、請求項5に記載のコンピューティング装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200131334A KR102345267B1 (ko) | 2020-10-12 | 2020-10-12 | 목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치 |
KR10-2020-0131334 | 2020-10-12 | ||
PCT/KR2020/017859 WO2022080582A1 (ko) | 2020-10-12 | 2020-12-08 | 목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023502804A JP2023502804A (ja) | 2023-01-26 |
JP7348296B2 true JP7348296B2 (ja) | 2023-09-20 |
Family
ID=79177477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021546353A Active JP7348296B2 (ja) | 2020-10-12 | 2020-12-08 | 目標志向的強化学習方法及びこれを遂行するための装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220398830A1 (ja) |
JP (1) | JP7348296B2 (ja) |
KR (1) | KR102345267B1 (ja) |
WO (1) | WO2022080582A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102615781B1 (ko) * | 2022-11-22 | 2023-12-19 | 국방과학연구소 | 모방학습 장치, 모방학습 방법, 및 모방학습 방법을 수행하도록 프로그램된 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체 |
CN116109525B (zh) * | 2023-04-11 | 2024-01-05 | 北京龙智数科科技服务有限公司 | 基于多维度数据增强的强化学习方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017102755A (ja) | 2015-12-02 | 2017-06-08 | 池上通信機株式会社 | 機械学習支援装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6926203B2 (ja) * | 2016-11-04 | 2021-08-25 | ディープマインド テクノロジーズ リミテッド | 補助タスクを伴う強化学習 |
CN117371492A (zh) * | 2016-11-04 | 2024-01-09 | 渊慧科技有限公司 | 一种计算机实现的方法及其系统 |
US10890916B2 (en) * | 2019-01-30 | 2021-01-12 | StradVision, Inc. | Location-specific algorithm selection for optimized autonomous driving |
-
2020
- 2020-10-12 KR KR1020200131334A patent/KR102345267B1/ko active IP Right Grant
- 2020-12-08 WO PCT/KR2020/017859 patent/WO2022080582A1/ko active Application Filing
- 2020-12-08 JP JP2021546353A patent/JP7348296B2/ja active Active
- 2020-12-08 US US17/427,957 patent/US20220398830A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017102755A (ja) | 2015-12-02 | 2017-06-08 | 池上通信機株式会社 | 機械学習支援装置 |
Non-Patent Citations (1)
Title |
---|
進藤 智則,Sexy Technology,NIKKEI Robotics 第12号 ,日本,日経BP社,2016年08月22日,第14-19頁 |
Also Published As
Publication number | Publication date |
---|---|
JP2023502804A (ja) | 2023-01-26 |
WO2022080582A1 (ko) | 2022-04-21 |
US20220398830A1 (en) | 2022-12-15 |
KR102345267B1 (ko) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112633419B (zh) | 小样本学习方法、装置、电子设备和存储介质 | |
CN111433784B (zh) | 用于检索视频时间段的方法、系统和计算机系统 | |
CN107832662B (zh) | 一种获取图片标注数据的方法和系统 | |
WO2017133188A1 (zh) | 一种特征集确定的方法及装置 | |
JP4891197B2 (ja) | 画像処理装置および画像処理方法 | |
JP7348296B2 (ja) | 目標志向的強化学習方法及びこれを遂行するための装置 | |
CN112819052B (zh) | 多模态细粒度混合方法、系统、设备和存储介质 | |
KR20220122455A (ko) | 영상 데이터에 포함된 객체 분할 방법 및 이를 수행하는 장치 | |
CN114330588A (zh) | 一种图片分类方法、图片分类模型训练方法及相关装置 | |
WO2022152104A1 (zh) | 动作识别模型的训练方法及装置、动作识别方法及装置 | |
JP6160143B2 (ja) | 画像処理装置、画像処理方法及び設備 | |
US20200342287A1 (en) | Selective performance of deterministic computations for neural networks | |
US20150278707A1 (en) | Predictive space aggregated regression | |
CN113821629A (zh) | 一种文本分类方法、评论情感分析方法及装置 | |
US20230154191A1 (en) | Apparatus and method with image segmentation | |
KR20210107278A (ko) | 컨텍스트 스타일 변환기를 이용한 영상 처리 기법 | |
CN115810152A (zh) | 基于图卷积的遥感图像变化检测方法、装置和计算机设备 | |
Ambardekar et al. | Ground truth verification tool (GTVT) for video surveillance systems | |
US20210342642A1 (en) | Machine learning training dataset optimization | |
CN116030295A (zh) | 物品识别方法、装置、电子设备及存储介质 | |
JP2023553630A (ja) | キーポイントベースの行動位置特定 | |
CN114297022A (zh) | 云环境异常检测方法、装置、电子设备和存储介质 | |
KR102675490B1 (ko) | 다수준 등장인물 주의집중을 통한 비디오 스토리 이해 방법 및 이를 수행하기 위한 컴퓨팅 장치 | |
US11955272B1 (en) | Method for generating object detector based on deep learning capable of detecting extended object class and detector generation device using the same | |
Thai et al. | Multiple Teacher Knowledge Distillation for Head Pose Estimation Without Keypoints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211124 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20211006 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230907 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7348296 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |