JP5427640B2 - 決定木生成装置、決定木生成方法、及びプログラム - Google Patents
決定木生成装置、決定木生成方法、及びプログラム Download PDFInfo
- Publication number
- JP5427640B2 JP5427640B2 JP2010036290A JP2010036290A JP5427640B2 JP 5427640 B2 JP5427640 B2 JP 5427640B2 JP 2010036290 A JP2010036290 A JP 2010036290A JP 2010036290 A JP2010036290 A JP 2010036290A JP 5427640 B2 JP5427640 B2 JP 5427640B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- load
- decision tree
- data
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ノードを示す識別情報と、ノードの負荷情報とを含むノードデータを格納するノードデータ格納手段から、展開処理の対象となるノードのノードデータを取得し、当該ノードデータに基づき、負荷の高いノードを検出し、当該高負荷ノードを所定の数に分割することで負荷を所定の値よりも低くすることができるか否かを判断する負荷判定手段と、
前記負荷判定手段により、高負荷ノードがあり分割により負荷を低くすることができると判断された場合には、当該高負荷ノードが複数のノードに分散されるように、MapReduce処理におけるMap処理時に、キーを追加するための処理を行い、前記負荷判定手段により、高負荷ノードがあり分割により負荷を低くすることができないと判断された場合には、当該高負荷ノードのみに関するノード展開を行い、ノード展開の結果得られた処理対象ノードのノードデータを前記ノードデータ格納手段に格納する負荷分散処理手段と、
前記展開処理の対象ノードの中で、負荷が低いノードと、キーを追加するための処理が行われたノードと、ノード展開が行われた展開後のノードの3者を処理対象のノードとし当該処理対象のノードから、MapReduce処理により当該処理対象のノード毎に分割属性を決定し、決定した分割属性を用いて当該処理対象のノードを展開して中間木を成長させることにより、決定木を生成する決定木生成手段と
を備えることを特徴とする決定木生成装置として構成される。
実施の形態を詳細に説明する前に、実施の形態の概要を説明する。本実施の形態では、決定木生成アルゴリズムを、複数台のサーバマシンからなるクラスタ上の分散ファイルシステムと、複数回のMapReduceによって実現することを前提としている。
以下、本発明の実施の形態を詳細に説明する。まず、装置構成を説明する。
次に、決定木生成装置10の動作について説明する。
まず、決定木生成装置10により実行される決定木生成のための基本的な処理動作を、図7のフローチャートを参照して説明する。以下の処理動作は、基本的に、非特許文献1に記載された技術に基づくものである。ただし、本願での独自の処理として、図8以降で詳細に説明する本発明に係る負荷分散のための処理が加えられている。
次に、図8のフローチャートを参照して、本発明に係る負荷分散のための処理の全体の流れを説明する。以下は、概要説明であり、各処理の詳細については、概要説明の後に順次説明する。また、図8に示す処理は、図7におけるステップ3に対応する。
次に、図8のステップ20に示した負荷分散判定処理について、図9のフローチャートを参照して説明する。
次に、図9のステップ110で示した処理である教師データ分割処理について、図10のフローチャートを参照して説明する。
次に、図9のステップ140における高負荷ノード細分化処理を、図12のフローチャートを参照して説明する。
次に、図9のステップ150における高負荷ノード先行展開処理を、図15のフローチャートを参照して説明する。
次に、図8のステップ30における負荷平均化処理を、図17のフローチャートを参照して説明する。
次に、図8のステップ40におけるノード展開処理を、図19のフローチャートを参照して説明する。
11 制御部
111 決定木生成部
112 負荷分散処理部
12 分散処理部
13 教師データ格納部
14 中間木格納部
15 サブセットデータ格納部
16 ノードキュー格納部
21 CPU
22 メモリ
23 入出力装置
24 ハードディスク装置
25 通信装置
Claims (5)
- 通信ネットワークで接続された複数の情報処理装置により構成される分散データ処理システム上で、MapReduce処理を行うことにより、教師データから決定木を生成する決定木生成装置であって、
ノードを示す識別情報と、ノードの負荷情報とを含むノードデータを格納するノードデータ格納手段から、展開処理の対象となるノードのノードデータを取得し、当該ノードデータに基づき、負荷の高いノードを検出し、当該高負荷ノードを所定の数に分割することで負荷を所定の値よりも低くすることができるか否かを判断する負荷判定手段と、
前記負荷判定手段により、高負荷ノードがあり分割により負荷を低くすることができると判断された場合には、当該高負荷ノードが複数のノードに分散されるように、MapReduce処理におけるMap処理時に、キーを追加するための処理を行い、前記負荷判定手段により、高負荷ノードがあり分割により負荷を低くすることができないと判断された場合には、当該高負荷ノードのみに関するノード展開を行い、ノード展開の結果得られた処理対象ノードのノードデータを前記ノードデータ格納手段に格納する負荷分散処理手段と、
前記展開処理の対象ノードの中で、負荷が低いノードと、キーを追加するための処理が行われたノードと、ノード展開が行われた展開後のノードの3者を処理対象のノードとし当該処理対象のノードから、MapReduce処理により当該処理対象のノード毎に分割属性を決定し、決定した分割属性を用いて当該処理対象のノードを展開して中間木を成長させることにより、決定木を生成する決定木生成手段と
を備えることを特徴とする決定木生成装置。 - 前記決定木生成装置は、前記教師データを分割し、複数のサブセットデータとしてサブセットデータ格納手段に格納する教師データ分割手段を備え、
前記決定木生成手段は、当該サブセットデータ格納手段に格納された複数のサブセットデータのそれぞれを、教師データとして用いて決定木生成を行うことを特徴とする請求項1に記載の決定木生成装置。 - 前記負荷分散処理手段は、前記ノードデータ格納手段に格納されたノードデータの負荷情報に基づき、負荷に応じてノードを分類し、ノードの組の群を生成し、
前記決定木生成手段は、前記分類されたノードの組の情報を用いて、前記分散データ処理システムにおける複数の情報処理装置間での処理負荷が平均化するように、Reduce処理を各情報処理装置に割り当てる
ことを特徴とする請求項1又は2に記載の決定木生成装置。 - 通信ネットワークで接続された複数の情報処理装置により構成される分散データ処理システム上で、MapReduce処理を行うことにより、教師データから決定木を生成する決定木生成装置が実行する決定木生成方法であって、
ノードを示す識別情報と、ノードの負荷情報とを含むノードデータを格納するノードデータ格納手段から、展開処理の対象となるノードのノードデータを取得し、当該ノードデータに基づき、負荷の高いノードを検出し、当該高負荷ノードを所定の数に分割することで負荷を所定の値よりも低くすることができるか否かを判断する負荷判定ステップと、
前記負荷判定ステップにより、高負荷ノードがあり分割により負荷を低くすることができると判断された場合には、当該高負荷ノードが複数のノードに分散されるように、MapReduce処理におけるMap処理時に、キーを追加するための処理を行い、前記負荷判定ステップにより、高負荷ノードがあり分割により負荷を低くすることができないと判断された場合には、当該高負荷ノードのみに関するノード展開を行い、ノード展開の結果得られた処理対象ノードのノードデータを前記ノードデータ格納手段に格納する負荷分散処理ステップと、
前記展開処理の対象ノードの中で、負荷が低いノードと、キーを追加するための処理が行われたノードと、ノード展開が行われた展開後のノードの3者を処理対象のノードとし当該処理対象のノードから、MapReduce処理により当該処理対象のノード毎に分割属性を決定し、決定した分割属性を用いて当該処理対象のノードを展開して中間木を成長させることにより、決定木を生成する決定木生成ステップと
を備えることを特徴とする決定木生成方法。 - コンピュータを、請求項1ないし3のうちいずれか1項に記載された決定木生成装置における各手段として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010036290A JP5427640B2 (ja) | 2010-02-22 | 2010-02-22 | 決定木生成装置、決定木生成方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010036290A JP5427640B2 (ja) | 2010-02-22 | 2010-02-22 | 決定木生成装置、決定木生成方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011170774A JP2011170774A (ja) | 2011-09-01 |
JP5427640B2 true JP5427640B2 (ja) | 2014-02-26 |
Family
ID=44684806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010036290A Expired - Fee Related JP5427640B2 (ja) | 2010-02-22 | 2010-02-22 | 決定木生成装置、決定木生成方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5427640B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108713205A (zh) * | 2016-08-22 | 2018-10-26 | 甲骨文国际公司 | 用于自动映射与数据流环境一起使用的数据类型的系统和方法 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9841989B2 (en) | 2012-05-31 | 2017-12-12 | Hitachi, Ltd. | Parallel data processing system, computer, and parallel data processing method |
JP6281225B2 (ja) * | 2013-09-30 | 2018-02-21 | 日本電気株式会社 | 情報処理装置 |
WO2015151290A1 (ja) * | 2014-04-04 | 2015-10-08 | 株式会社日立製作所 | 管理計算機と計算機制御方法及び計算機システム |
JP6097910B2 (ja) * | 2016-01-21 | 2017-03-22 | 国立大学法人 東京大学 | 並列データ処理システム、計算機および並列データ処理方法 |
EP3418893B1 (en) * | 2016-02-15 | 2021-12-22 | Fujitsu Limited | Process control program, process control method, information processing device, and communication device |
JP7095458B2 (ja) * | 2018-07-27 | 2022-07-05 | 株式会社デンソー | 演算処理装置および画像処理装置 |
CN111695588B (zh) * | 2020-04-14 | 2021-03-23 | 北京迅达云成科技有限公司 | 一种基于云计算的分布式决策树学习系统 |
CN111488496B (zh) * | 2020-04-30 | 2023-07-21 | 湖北师范大学 | 一种基于滑动窗口的Tango树构建方法及系统 |
CN113689036A (zh) * | 2021-08-24 | 2021-11-23 | 成都电科智联科技有限公司 | 一种基于决策树c4.5算法的热像仪质量问题原因预测方法 |
CN116430831B (zh) * | 2023-04-26 | 2023-10-31 | 宁夏五谷丰生物科技发展有限公司 | 应用于食用油生产控制系统的数据异常监控方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10334054A (ja) * | 1997-05-29 | 1998-12-18 | Hitachi Ltd | 並列画像生成方法とそのためのデータ分割手法 |
JP2005078394A (ja) * | 2003-09-01 | 2005-03-24 | Nec Corp | 非共有型データベースクラスタシステム,データベースノードおよび動的データ再配置方法ならびにプログラム |
-
2010
- 2010-02-22 JP JP2010036290A patent/JP5427640B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108713205A (zh) * | 2016-08-22 | 2018-10-26 | 甲骨文国际公司 | 用于自动映射与数据流环境一起使用的数据类型的系统和方法 |
CN108713205B (zh) * | 2016-08-22 | 2022-11-11 | 甲骨文国际公司 | 用于自动映射与数据流环境一起使用的数据类型的系统和方法 |
US11526338B2 (en) | 2016-08-22 | 2022-12-13 | Oracle International Corporation | System and method for inferencing of data transformations through pattern decomposition |
US11537371B2 (en) | 2016-08-22 | 2022-12-27 | Oracle International Corporation | System and method for metadata-driven external interface generation of application programming interfaces |
US11537369B2 (en) | 2016-08-22 | 2022-12-27 | Oracle International Corporation | System and method for dynamic, incremental recommendations within real-time visual simulation |
Also Published As
Publication number | Publication date |
---|---|
JP2011170774A (ja) | 2011-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5427640B2 (ja) | 決定木生成装置、決定木生成方法、及びプログラム | |
JP5950285B2 (ja) | 予め決められた複数のビット幅のデータに対して操作を行う命令を使用してツリーの検索を行うための方法、並びに、当該命令を使用してツリーの検索を行うためのコンピュータ及びそのコンピュータ・プログラム | |
CN104881466B (zh) | 数据分片的处理以及垃圾文件的删除方法和装置 | |
CN102750309B (zh) | 一种基于Hadoop的并行化SVM求解方法 | |
JP2007011548A (ja) | データ集合分割プログラム、データ集合分割装置、およびデータ集合分割方法 | |
KR101617696B1 (ko) | 데이터 정규표현식의 마이닝 방법 및 장치 | |
CN106970958B (zh) | 一种流文件的查询与存储方法和装置 | |
CN107015868B (zh) | 一种通用后缀树的分布式并行构建方法 | |
CN111309976B (zh) | 一种面向收敛型图应用的GraphX数据缓存方法 | |
Patwary et al. | Window-based streaming graph partitioning algorithm | |
CN104834557B (zh) | 一种基于Hadoop的数据分析方法 | |
CN107341210B (zh) | Hadoop平台下的C-DBSCAN-K聚类算法 | |
CN105989015B (zh) | 一种数据库扩容方法和装置以及访问数据库的方法和装置 | |
US10700934B2 (en) | Communication control device, communication control method, and computer program product | |
CN103064991A (zh) | 一种海量数据聚类方法 | |
CN103810197A (zh) | 一种基于Hadoop的数据处理方法及其系统 | |
CN103761298A (zh) | 一种基于分布式架构的实体匹配方法 | |
CN109388615A (zh) | 基于Spark的任务处理方法及系统 | |
JP5600693B2 (ja) | クラスタリング装置及び方法及びプログラム | |
JP5712851B2 (ja) | データ分割装置、データ分割方法およびデータ分割プログラム | |
KR20160100224A (ko) | 오디오 핑거프린트 데이터베이스 구축 및 오디오 핑거프린트 검색 방법 및 장치 | |
CN103150372B (zh) | 基于中心索引的海量高维音频数据的聚类方法 | |
Abdolazimi et al. | Connected components of big graphs in fixed mapreduce rounds | |
CN113641705A (zh) | 一种基于计算引擎的营销处置规则引擎方法 | |
CN113641654A (zh) | 一种基于实时事件的营销处置规则引擎方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130828 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131001 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131202 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5427640 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |