JP6992821B2 - 分類木生成方法、分類木生成装置および分類木生成プログラム - Google Patents
分類木生成方法、分類木生成装置および分類木生成プログラム Download PDFInfo
- Publication number
- JP6992821B2 JP6992821B2 JP2019564275A JP2019564275A JP6992821B2 JP 6992821 B2 JP6992821 B2 JP 6992821B2 JP 2019564275 A JP2019564275 A JP 2019564275A JP 2019564275 A JP2019564275 A JP 2019564275A JP 6992821 B2 JP6992821 B2 JP 6992821B2
- Authority
- JP
- Japan
- Prior art keywords
- classification
- candidates
- tree
- classification tree
- condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 161
- 238000004364 calculation method Methods 0.000 claims description 194
- 230000008569 process Effects 0.000 claims description 92
- 238000012545 processing Methods 0.000 claims description 44
- 238000010586 diagram Methods 0.000 description 25
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000013500 data storage Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 9
- 238000003066 decision tree Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(分割される前のエリアの平均情報量)-(分割された後のエリアの平均情報量)
= -1 × ( 7/12 × log(7/12) + 5/12 × log(5/12)) ≒ 0.29497
= -1 × ( 4/8 × log(4/8) + 4/8 × log(4/8)) ≒ 0.30103
(分割された後の右のエリアの平均情報量)
= -1 × ( 3/4 × log(3/4) + 1/4 × log(1/4)) ≒ 0.244219
= (分割される前のエリアの平均情報量)?(分割された後のエリアの平均情報量)
= (分割される前のエリアの平均情報量)?
( 8/12 × (分割された後の左のエリアの平均情報量)+
4/12 × (分割された後の右のエリアの平均情報量)
= 0.29497 - 0.282093 = 0.012877
そこで、本発明は、上述した課題を解決する、MPC 方式が採用されたシステムにおける分類木が用いられた予測処理の計算量を削減できる分類木生成方法、分類木生成装置および分類木生成プログラムを提供することを目的とする。
[構成の説明]
以下、本発明の実施形態を、図面を参照して説明する。図1は、本発明による分類木生成装置の第1の実施形態の構成例を示すブロック図である。
本実施形態の分類木生成装置100による分割処理の動作は、図15に示す動作と同様である。本実施形態では、ステップS004においてScore 計算部120が、InfomationGain とMPCCostUP とを基に分割候補のScore を計算する。
本実施形態の分類木生成装置100は、MPC 方式が採用されたシステムにおける分類木が用いられた予測処理の計算量を削減できる。その理由は、Score 計算部120が既に分類木で使用されている分類条件に一致している条件、または類似している条件に対応する分割候補のScore が大きくなるようにScore を計算するため、生成される分類木中に同じ分類条件、または類似する分類条件が含まれやすくなるためである。
[構成の説明]
次に、本発明の第2の実施形態を、図面を参照して説明する。図9は、本発明による分類木生成装置の第2の実施形態の構成例を示す説明図である。
以下、本実施形態の分類木生成装置200の分類木を生成する動作を図10を参照して説明する。図10は、第2の実施形態の分類木生成装置200による分類木生成処理の動作を示すフローチャートである。
・・・式(5)
本実施形態の分類木生成装置200は、第1の実施形態の分類木生成装置100に比べて最適解である分類木をより確実に生成できる。その理由は、分類木全パターン計算部220が最初に生成される可能性がある分類木候補を全て生成し、Score 計算部230が各分類木候補の木全体Score をそれぞれ計算するため、分類木候補の検討漏れが防止されるからである。
11、22 第1計算部
12、23 第2計算部
13、24 選択部
21 生成部
101 CPU
102 主記憶部
103 通信部
104 補助記憶部
105 入力部
106 出力部
107 システムバス
110、210、910 分類木学習用データ保存部
220 分類木全パターン計算部
120、230、920 Score 計算部
121、231、921 InfoGain計算部
122、232 MPCCostUP 計算部
130、930 分割点決定部
140、940 分割実行部
240 最適分類木決定部
150、250、950 分割点保存部
Claims (12)
- 分類条件をそれぞれ表す1つ以上のノードで構成された木構造で表現される予測モデルである分類木に追加される新たな分類条件を複数の分類条件の候補から選択する分類木生成装置で実行される分類木生成方法であって、
前記分類木生成装置が、
分類条件の候補に関する情報利得を計算し、
分類条件の候補と前記分類木に含まれている各分類条件との差分のうちの最小の差分の度合いを表す値を分類条件の候補に関するコストとして計算し、
前記複数の分類条件の候補のうち計算された情報利得から計算されたコストが減算された値が最大である分類条件の候補を前記新たな分類条件に選択する
ことを特徴とする分類木生成方法。 - 分類木生成装置が、
分類木に含まれている分類条件と同一の分類条件の候補に関するコストを0と計算する
請求項1記載の分類木生成方法。 - 分類木生成装置が、
分類条件の候補の内容に応じて前記分類条件の候補に関するコストを計算する
請求項1または請求項2記載の分類木生成方法。 - 分類木生成装置が、
分類木を用いて予測処理を実行するシステムを表す論理回路を生成し、
生成された論理回路に含まれるAND 回路に応じて分類条件の候補に関するコストを計算する
請求項1から請求項3のうちのいずれか1項に記載の分類木生成方法。 - 分類木生成装置が、
分類木の深さまたは前記分類木に含まれている分類条件の数に応じて計算された情報利得から減算される計算されたコストの重みを変更する
請求項1から請求項4のうちのいずれか1項に記載の分類木生成方法。 - 分類木生成装置が、
分類木を用いて予測処理を実行するシステムの演算処理能力に応じて計算された情報利得から減算される計算されたコストの重みを変更する
請求項1から請求項5のうちのいずれか1項に記載の分類木生成方法。 - 分類木生成装置が、
最小の差分の度合いが所定の閾値以下である分類条件の候補と分類木に含まれている分類条件とを前記分類条件の候補と前記分類条件とを基に生成された新たな条件にいずれも変更する
請求項1から請求項6のうちのいずれか1項に記載の分類木生成方法。 - 分類木生成装置が、
複数の分類条件の候補を基に生成される可能性がある分類条件の候補をそれぞれ表す複数のノードで構成された木構造で表現される予測モデルである分類木の候補を全て生成し、
生成された分類木の候補に含まれている分類条件の候補に関する情報利得の総和を生成された分類木の候補を構成する全ノードに渡って計算し、
生成された分類木の候補が用いられた予測処理における分類条件の候補を入力とする計算処理のコストに応じた値である分類条件の候補に関するコストの総和を生成された分類木の候補を構成する全ノードに渡って計算し、
複数の分類木の候補のうち計算された情報利得の総和から計算されたコストの総和が減算された値が最大である分類木の候補を選択する
ことを特徴とする分類木生成方法。 - 分類条件をそれぞれ表す1つ以上のノードで構成された木構造で表現される予測モデルである分類木に追加される新たな分類条件を複数の分類条件の候補から選択する分類木生成装置であって、
分類条件の候補に関する情報利得を計算する第1計算部と、
分類条件の候補と前記分類木に含まれている各分類条件との差分のうちの最小の差分の度合いを表す値を分類条件の候補に関するコストとして計算する第2計算部と、
前記複数の分類条件の候補のうち計算された情報利得から計算されたコストが減算された値が最大である分類条件の候補を前記新たな分類条件に選択する選択部とを備える
ことを特徴とする分類木生成装置。 - 複数の分類条件の候補を基に生成される可能性がある分類条件の候補をそれぞれ表す複数のノードで構成された木構造で表現される予測モデルである分類木の候補を全て生成する生成部と、
生成された分類木の候補に含まれている分類条件の候補に関する情報利得の総和を生成された分類木の候補を構成する全ノードに渡って計算する第1計算部と、
生成された分類木の候補が用いられた予測処理における分類条件の候補を入力とする計算処理のコストに応じた値である分類条件の候補に関するコストの総和を生成された分類木の候補を構成する全ノードに渡って計算する第2計算部と、
複数の分類木の候補のうち計算された情報利得の総和から計算されたコストの総和が減算された値が最大である分類木の候補を選択する選択部とを備える
ことを特徴とする分類木生成装置。 - コンピュータに、
分類条件をそれぞれ表す1つ以上のノードで構成された木構造で表現される予測モデルである分類木に追加される新たな分類条件が複数の分類条件の候補から選択される際に分類条件の候補に関する情報利得を計算する第1計算処理、
分類条件の候補と前記分類木に含まれている各分類条件との差分のうちの最小の差分の度合いを表す値を分類条件の候補に関するコストとして計算する第2計算処理、および
前記複数の分類条件の候補のうち計算された情報利得から計算されたコストが減算された値が最大である分類条件の候補を前記新たな分類条件に選択する選択処理
を実行させるための分類木生成プログラム。 - コンピュータに、
複数の分類条件の候補を基に生成される可能性がある分類条件の候補をそれぞれ表す複数のノードで構成された木構造で表現される予測モデルである分類木の候補を全て生成する生成処理、
生成された分類木の候補に含まれている分類条件の候補に関する情報利得の総和を生成された分類木の候補を構成する全ノードに渡って計算する第1計算処理、
生成された分類木の候補が用いられた予測処理における分類条件の候補を入力とする計算処理のコストに応じた値である分類条件の候補に関するコストの総和を生成された分類木の候補を構成する全ノードに渡って計算する第2計算処理、および
複数の分類木の候補のうち計算された情報利得の総和から計算されたコストの総和が減算された値が最大である分類木の候補を選択する選択処理
を実行させるための分類木生成プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/000878 WO2019138584A1 (ja) | 2018-01-15 | 2018-01-15 | 分類木生成方法、分類木生成装置および分類木生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019138584A1 JPWO2019138584A1 (ja) | 2020-12-17 |
JP6992821B2 true JP6992821B2 (ja) | 2022-01-13 |
Family
ID=67219541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019564275A Active JP6992821B2 (ja) | 2018-01-15 | 2018-01-15 | 分類木生成方法、分類木生成装置および分類木生成プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200342331A1 (ja) |
JP (1) | JP6992821B2 (ja) |
WO (1) | WO2019138584A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11381381B2 (en) * | 2019-05-31 | 2022-07-05 | Intuit Inc. | Privacy preserving oracle |
US11599435B2 (en) * | 2019-06-26 | 2023-03-07 | Vmware, Inc. | Failure analysis system for a distributed storage system |
US11750362B2 (en) * | 2019-09-17 | 2023-09-05 | Sap Se | Private decision tree evaluation using an arithmetic circuit |
US12099997B1 (en) | 2020-01-31 | 2024-09-24 | Steven Mark Hoffberg | Tokenized fungible liabilities |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208709A (ja) | 2004-01-20 | 2005-08-04 | Fuji Xerox Co Ltd | データ分類処理装置、およびデータ分類処理方法、並びにコンピュータ・プログラム |
JP2006048129A (ja) | 2004-07-30 | 2006-02-16 | Toshiba Corp | データ処理装置、データ処理方法及びデータ処理プログラム |
JP2011028519A (ja) | 2009-07-24 | 2011-02-10 | Nippon Hoso Kyokai <Nhk> | データ分類装置及びプログラム |
WO2013042788A1 (ja) | 2011-09-21 | 2013-03-28 | 日本電気株式会社 | データ分割装置、データ分割システム、データ分割方法及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140351196A1 (en) * | 2013-05-21 | 2014-11-27 | Sas Institute Inc. | Methods and systems for using clustering for splitting tree nodes in classification decision trees |
US9589185B2 (en) * | 2014-12-10 | 2017-03-07 | Abbyy Development Llc | Symbol recognition using decision forests |
US11017324B2 (en) * | 2017-05-17 | 2021-05-25 | Microsoft Technology Licensing, Llc | Tree ensemble explainability system |
-
2018
- 2018-01-15 US US16/962,117 patent/US20200342331A1/en not_active Abandoned
- 2018-01-15 JP JP2019564275A patent/JP6992821B2/ja active Active
- 2018-01-15 WO PCT/JP2018/000878 patent/WO2019138584A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208709A (ja) | 2004-01-20 | 2005-08-04 | Fuji Xerox Co Ltd | データ分類処理装置、およびデータ分類処理方法、並びにコンピュータ・プログラム |
JP2006048129A (ja) | 2004-07-30 | 2006-02-16 | Toshiba Corp | データ処理装置、データ処理方法及びデータ処理プログラム |
JP2011028519A (ja) | 2009-07-24 | 2011-02-10 | Nippon Hoso Kyokai <Nhk> | データ分類装置及びプログラム |
WO2013042788A1 (ja) | 2011-09-21 | 2013-03-28 | 日本電気株式会社 | データ分割装置、データ分割システム、データ分割方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2019138584A1 (ja) | 2020-12-17 |
WO2019138584A1 (ja) | 2019-07-18 |
US20200342331A1 (en) | 2020-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6992821B2 (ja) | 分類木生成方法、分類木生成装置および分類木生成プログラム | |
Wang et al. | Approximate dynamic programming via iterated Bellman inequalities | |
Florêncio et al. | Password Portfolios and the {Finite-Effort} User: Sustainably Managing Large Numbers of Accounts | |
Rahwan et al. | Constrained coalition formation | |
Voice et al. | On coalition formation with sparse synergies | |
CN110414567B (zh) | 数据处理方法、装置和电子设备 | |
Qi et al. | The ancestral Benders’ cutting plane algorithm with multi-term disjunctions for mixed-integer recourse decisions in stochastic programming | |
CN112787971B (zh) | 侧信道攻击模型的构建方法、密码攻击设备及计算机存储介质 | |
Guo et al. | Practical fixed-parameter algorithms for defending active directory style attack graphs | |
CA3119351C (en) | Extending finite rank deep kernel learning to forecasting over long time horizons | |
Pavlenko et al. | Criterion of cyber-physical systems sustainability | |
Gupta et al. | Ddos attack detection through digital twin technique in metaverse | |
Segredo et al. | Memetic algorithms and hyperheuristics applied to a multiobjectivised two-dimensional packing problem | |
Forlicz et al. | The Shapley value for multigraphs | |
JP2021039751A (ja) | 大規模組み合わせ最適化のための大域ビューを用いた局所探索 | |
de Oliveira et al. | Scalable fast evolutionary k-means clustering | |
Lê et al. | A novel variable ordering heuristic for BDD-based K-terminal reliability | |
Li et al. | Type-1 assembly line balancing considering uncertain task time | |
Pan et al. | Dynamic propagation rates: New dimension to viral marketing in online social networks | |
US10387588B1 (en) | Automatic combination of sub-process simulation results and heterogeneous data sources | |
JP7310884B2 (ja) | パラメータ推定装置、パラメータ推定方法、及びパラメータ推定プログラム | |
Corbier et al. | Mixed Lp estimators variety for model order reduction in control oriented system identification | |
CN114461390A (zh) | 结合多维度分析和关键路径法的评估方法及相关装置 | |
Cox et al. | Improving and extending the HV4D algorithm for calculating hypervolume exactly | |
EP3767609A1 (en) | Secret table reference system, method, secret calculating device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210817 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6992821 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |