JP2022524006A - ディープ・フォレスト・モデルの開発および訓練 - Google Patents
ディープ・フォレスト・モデルの開発および訓練 Download PDFInfo
- Publication number
- JP2022524006A JP2022524006A JP2021552716A JP2021552716A JP2022524006A JP 2022524006 A JP2022524006 A JP 2022524006A JP 2021552716 A JP2021552716 A JP 2021552716A JP 2021552716 A JP2021552716 A JP 2021552716A JP 2022524006 A JP2022524006 A JP 2022524006A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- oob
- forest
- computer processors
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 61
- 238000011161 development Methods 0.000 title abstract description 8
- 238000007637 random forest analysis Methods 0.000 claims abstract description 43
- 238000003066 decision tree Methods 0.000 claims abstract description 23
- 238000007405 data analysis Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 8
- 238000006467 substitution reaction Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 238000010801 machine learning Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 230000006872 improvement Effects 0.000 description 12
- 230000002085 persistent effect Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000002790 cross-validation Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 239000004744 fabric Substances 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
交差検証は有効であるが課題ももたらす。第1に、gcForestの方法は、各層に複数のランダム・フォレスト学習器Nを含み、学習器ごとにk分割交差検証を必要とする。したがって、層ごとに合計でN*k個の学習器が必要である。データ・セットが大きい場合、データ・セットのサイズと共に学習器の数が増えるので性能問題が生じる場合があり、また学習器の構築は1個だけでも高価である。非常に強力な演算能力が要求されることになる。第2に、交差検証と訓練データ・セットから導出される検証データ・セットの必要性とに起因して、訓練データが十分に使用されない場合がある。gcForestの方法はデータを訓練サンプルと検証サンプルとに分割し、検証サンプルに対する精度が改善できない場合は訓練を停止する。検証サンプルを使用することで、小さいデータの問題は更に悪化する。
Claims (10)
- データ分析用のモデルの開発および訓練をするためのコンピュータ実装方法であって、
1つまたは複数のコンピュータ・プロセッサによって、データ・セットから決定木のランダム・フォレストを育成することと、
1つまたは複数のコンピュータ・プロセッサによって、前記ランダム・フォレストについてのアウト・オブ・バッグ(OOB)予測を決定することと、
1つまたは複数のコンピュータ・プロセッサによって、前記アウト・オブ・バッグ予測を前記データ・セットに付加することと、
1つまたは複数のコンピュータ・プロセッサによって、OOB予測が付加された前記データ・セットを使用して追加のランダム・フォレストを育成することと、
1つまたは複数のコンピュータ・プロセッサによって、前記追加のランダム・フォレストの出力を結合器と結合することと、
によってモデルを構築することを含む、コンピュータ実装方法。 - 各ランダム・フォレストは、数値、テキスト、オーディオ、ビデオ、画像データ、位置、音声、音楽、娯楽、医療、金融情報、乗り物、物流、および販売データから成る群から選択されるデータから育成される、請求項1に記載の方法。
- データ・セットを使用して前記決定木のランダム・フォレストを成長させることは、前記データ・セットから置換を伴って採択されたブートストラップしたサンプルを使用して各木を成長させ、決定木を成長させることを含む、請求項1に記載の方法。
- 各ランダム・フォレストのOOB精度を決定することと、前記OOB精度が有意に改善しなくなるまでランダム・フォレストを追加することと、を更に含む、請求項1に記載の方法。
- 前記結合器は、ランダム・フォレストおよび勾配ブースティング構造から成る群から選択された構造を含む、請求項1に記載の方法。
- 前記モデルは一連の層を備え、各層は単一のランダム・フォレストを備える、請求項1に記載の方法。
- データ分析用のモデルの開発および訓練をするためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は1つまたは複数のコンピュータ可読ストレージ・デバイスと前記1つまたは複数のコンピュータ可読ストレージ・デバイスに保存されたプログラム命令とを備え、前記プログラム命令は、
1つまたは複数のコンピュータ・プロセッサによって実行されると、前記プロセッサに請求項1ないし6のいずれか一項に記載の方法のステップを実行させる、プログラムされた命令を含む、コンピュータ・プログラム製品。 - データ分析用のモデルの開発および訓練をするためのコンピュータ・システムであって、
1つまたは複数のコンピュータ・プロセッサと、
1つまたは複数のコンピュータ可読ストレージ・デバイスと、
前記少なくとも1つのコンピュータ・プロセッサによって実行される、前記1つまたは複数のコンピュータ可読ストレージ・デバイスに保存されたプログラム命令と、を備え、前記プログラム命令は、
前記1つまたは複数のコンピュータ・プロセッサによって実行されると、前記コンピュータ・プロセッサに請求項1ないし6のいずれか一項に記載の方法のステップを実行させる、プログラムされた命令を含む、コンピュータ・システム。 - 1つまたは複数のコンピュータ・プロセッサによって、訓練データ・セットを受け取ることと、
前記ランダム・フォレストについてのOOB精度を決定することと、
1つまたは複数のコンピュータ・プロセッサによって、前記追加のランダム・フォレストについてのOOB精度を決定することと、
1つまたは複数のコンピュータ・プロセッサによって、前記ランダム・フォレストおよび前記追加のランダム・フォレストの前記OOB精度を比較することと、
を含む、請求項1に記載の方法。 - 1つまたは複数のコンピュータ・プロセッサによって、訓練データ・セットを受け取ることと、
1つまたは複数のコンピュータ・プロセッサによって、1個のフォレストあたりの決定された木の数およびクラス・ベクトル指定を受け取ることと、
1つまたは複数のコンピュータ・プロセッサによって、前記訓練データ・セットを使用して第1のフォレストについての前記決定された数の木を育成することと、
1つまたは複数のコンピュータ・プロセッサによって、前記第1のフォレストについての第1のアウト・オブ・バッグ(OOB)予測を決定することと、
1つまたは複数のコンピュータ・プロセッサによって、OOB予測を前記データ・セットに付加することと、
1つまたは複数のコンピュータ・プロセッサによって、前記第1のフォレストについてのOOB精度を決定することと、
1つまたは複数のコンピュータ・プロセッサによって、OOB予測を付加された前記訓練データ・セットを使用して追加のフォレストについての前記決定された数の木を育成することと、
1つまたは複数のコンピュータ・プロセッサによって、前記追加のフォレストについての追加のOOB予測を決定することと、
1つまたは複数のコンピュータ・プロセッサによって、追加のOOB予測を前記データ・セットに付加することと、
1つまたは複数のコンピュータ・プロセッサによって、前記追加のフォレストについての追加のOOB精度を決定することと、
1つまたは複数のコンピュータ・プロセッサによって、前記追加のOOB精度が改善されなくなるまでフォレストを追加することと、
1つまたは複数のコンピュータ・プロセッサによって、前記追加のフォレストの出力を結合することと、によって、各層が単一のランダム・フォレストを含む連続層のモデルを構築すること
を含む、請求項9に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/299,225 | 2019-03-12 | ||
US16/299,225 US11893499B2 (en) | 2019-03-12 | 2019-03-12 | Deep forest model development and training |
PCT/IB2020/051956 WO2020183316A1 (en) | 2019-03-12 | 2020-03-06 | Deep forest model development and training |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022524006A true JP2022524006A (ja) | 2022-04-27 |
JPWO2020183316A5 JPWO2020183316A5 (ja) | 2022-08-17 |
JP7398474B2 JP7398474B2 (ja) | 2023-12-14 |
Family
ID=72424810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021552716A Active JP7398474B2 (ja) | 2019-03-12 | 2020-03-06 | ディープ・フォレスト・モデルの開発および訓練 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11893499B2 (ja) |
JP (1) | JP7398474B2 (ja) |
CN (1) | CN113557534A (ja) |
DE (1) | DE112020000545T5 (ja) |
WO (1) | WO2020183316A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307364B (zh) * | 2020-11-25 | 2021-10-29 | 哈尔滨工业大学 | 一种面向人物表征的新闻文本发生地抽取方法 |
CN115082767A (zh) * | 2021-03-15 | 2022-09-20 | 中国移动通信集团福建有限公司 | 随机森林模型训练方法和装置 |
CN113688891B (zh) * | 2021-08-17 | 2023-09-29 | 华东师范大学 | 一种可自适应划分子森林的分布式级联森林方法 |
CN117610733A (zh) * | 2023-12-04 | 2024-02-27 | 中国地质大学(北京) | 一种基于深度森林的矿产预测方法、装置、设备及介质 |
CN117786560B (zh) * | 2024-02-28 | 2024-05-07 | 通用电梯股份有限公司 | 一种基于多粒度级联森林的电梯故障分类方法及电子设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050048547A1 (en) | 2003-07-17 | 2005-03-03 | Hongyu Zhao | Classification of disease states using mass spectrometry data |
US8306942B2 (en) | 2008-05-06 | 2012-11-06 | Lawrence Livermore National Security, Llc | Discriminant forest classification method and system |
WO2012083274A2 (en) | 2010-12-16 | 2012-06-21 | Nodality, Inc. | Methods for diagnosis, prognosis and methods of treatment |
CN103400391B (zh) | 2013-08-09 | 2016-08-10 | 北京博思廷科技有限公司 | 一种基于改进的随机森林的多目标跟踪方法及装置 |
US9700213B2 (en) | 2014-09-12 | 2017-07-11 | Mayo Foundation For Medical Education And Research | System and method for automatic polyp detection using global geometric constraints and local intensity variation patterns |
JP6239486B2 (ja) | 2014-11-05 | 2017-11-29 | 株式会社東芝 | 予測モデル作成方法 |
CN106156809A (zh) | 2015-04-24 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 用于更新分类模型的方法及装置 |
EP3370611A1 (en) | 2015-11-05 | 2018-09-12 | Swedish Adrenaline AB | Method and system for fatigue determination |
CN106778836A (zh) | 2016-11-29 | 2017-05-31 | 天津大学 | 一种基于约束条件的随机森林推荐算法 |
US20180211380A1 (en) | 2017-01-25 | 2018-07-26 | Athelas Inc. | Classifying biological samples using automated image analysis |
US10977737B2 (en) * | 2018-01-10 | 2021-04-13 | Liberty Mutual Insurance Company | Training gradient boosted decision trees with progressive maximum depth for parsimony and interpretability |
CN110310114B (zh) | 2018-03-27 | 2020-09-01 | 阿里巴巴集团控股有限公司 | 对象分类方法、装置、服务器及存储介质 |
EP3819827A4 (en) | 2018-07-04 | 2022-03-30 | Aising Ltd. | DEVICE AND METHOD FOR MACHINE LEARNING |
US20210358564A1 (en) | 2018-10-23 | 2021-11-18 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Active Transfer Learning with Deep Featurization |
-
2019
- 2019-03-12 US US16/299,225 patent/US11893499B2/en active Active
-
2020
- 2020-03-06 WO PCT/IB2020/051956 patent/WO2020183316A1/en active Application Filing
- 2020-03-06 CN CN202080018916.3A patent/CN113557534A/zh active Pending
- 2020-03-06 DE DE112020000545.3T patent/DE112020000545T5/de active Pending
- 2020-03-06 JP JP2021552716A patent/JP7398474B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP7398474B2 (ja) | 2023-12-14 |
US11893499B2 (en) | 2024-02-06 |
WO2020183316A1 (en) | 2020-09-17 |
CN113557534A (zh) | 2021-10-26 |
DE112020000545T5 (de) | 2021-10-21 |
US20200293906A1 (en) | 2020-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10614269B2 (en) | Training data update | |
JP7398474B2 (ja) | ディープ・フォレスト・モデルの開発および訓練 | |
JP2021503668A (ja) | マルチ・タスク学習を用いた特徴抽出方法、コンピュータ・システム、およびコンピュータ・プログラム製品(マルチ・タスク学習を用いた特徴抽出) | |
US11989237B2 (en) | Natural language interaction with automated machine learning systems | |
US20220358358A1 (en) | Accelerating inference of neural network models via dynamic early exits | |
US11941367B2 (en) | Question generation by intent prediction | |
US10671928B2 (en) | Adaptive analytical modeling tool | |
US11182416B2 (en) | Augmentation of a text representation model | |
US20220414331A1 (en) | Automatically generated question suggestions | |
US11514340B2 (en) | Machine learning for technical tool selection | |
US11275974B2 (en) | Random feature transformation forests for automatic feature engineering | |
US10635579B2 (en) | Optimizing tree pruning for decision trees | |
JP2023088289A (ja) | 機械学習において決定木を構築するコンピュータ実装方法、プログラム命令をその中に実装したコンピュータ可読記憶媒体を含むコンピュータプログラム製品、およびシステム(次元削減による分類木と回帰木のパフォーマンス向上) | |
US11556558B2 (en) | Insight expansion in smart data retention systems | |
US11681501B2 (en) | Artificial intelligence enabled open source project enabler and recommendation platform | |
US20190138895A1 (en) | Model matching and learning rate selection for fine tuning | |
JP7477253B2 (ja) | ドメイン固有モデル圧縮 | |
US20220092437A1 (en) | Efficient execution of a decision tree | |
JP2023545604A (ja) | ストリーミングrnnトランスデューサの精度 | |
US20220398489A1 (en) | Training machine learning models | |
US20230409873A1 (en) | Providing a hybrid neural network architecture | |
US20230335123A1 (en) | Speech-to-text voice visualization | |
TWI844931B (zh) | 利用維度減少提升分類及回歸樹表現 | |
US11966819B2 (en) | Training classifiers in machine learning | |
US20210349931A1 (en) | System for object identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220803 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220824 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7398474 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |