JP2011170774A - 決定木生成装置、決定木生成方法、及びプログラム - Google Patents
決定木生成装置、決定木生成方法、及びプログラム Download PDFInfo
- Publication number
- JP2011170774A JP2011170774A JP2010036290A JP2010036290A JP2011170774A JP 2011170774 A JP2011170774 A JP 2011170774A JP 2010036290 A JP2010036290 A JP 2010036290A JP 2010036290 A JP2010036290 A JP 2010036290A JP 2011170774 A JP2011170774 A JP 2011170774A
- Authority
- JP
- Japan
- Prior art keywords
- node
- decision tree
- data
- processing
- load
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】通信ネットワークで接続された複数の情報処理装置により構成される分散データ処理システム上で、MapReduce処理を行うことにより、教師データから決定木を生成する決定木生成装置において、処理対象のノードを示す識別情報と、ノードの負荷情報とを含むノードデータを格納するノードデータ格納手段から、処理対象のノードデータを取得し、当該ノードデータに基づき、負荷の高いノードを検出する負荷判定手段と、前記負荷判定手段により、高負荷であると判定されたノードに含まれるデータを複数のノードに分散させる負荷分散処理手段と、前記負荷分散処理手段により分散されたノードを含む処理対象ノードから、MapReduce処理により決定木を生成する決定木生成手段とを備える。
【選択図】図5
Description
実施の形態を詳細に説明する前に、実施の形態の概要を説明する。本実施の形態では、決定木生成アルゴリズムを、複数台のサーバマシンからなるクラスタ上の分散ファイルシステムと、複数回のMapReduceによって実現することを前提としている。
以下、本発明の実施の形態を詳細に説明する。まず、装置構成を説明する。
次に、決定木生成装置10の動作について説明する。
まず、決定木生成装置10により実行される決定木生成のための基本的な処理動作を、図7のフローチャートを参照して説明する。以下の処理動作は、基本的に、非特許文献1に記載された技術に基づくものである。ただし、本願での独自の処理として、図8以降で詳細に説明する本発明に係る負荷分散のための処理が加えられている。
次に、図8のフローチャートを参照して、本発明に係る負荷分散のための処理の全体の流れを説明する。以下は、概要説明であり、各処理の詳細については、概要説明の後に順次説明する。また、図8に示す処理は、図7におけるステップ3に対応する。
次に、図8のステップ20に示した負荷分散判定処理について、図9のフローチャートを参照して説明する。
次に、図9のステップ110で示した処理である教師データ分割処理について、図10のフローチャートを参照して説明する。
次に、図9のステップ140における高負荷ノード細分化処理を、図12のフローチャートを参照して説明する。
次に、図9のステップ150における高負荷ノード先行展開処理を、図15のフローチャートを参照して説明する。
次に、図8のステップ30における負荷平均化処理を、図17のフローチャートを参照して説明する。
次に、図8のステップ40におけるノード展開処理を、図19のフローチャートを参照して説明する。
11 制御部
111 決定木生成部
112 負荷分散処理部
12 分散処理部
13 教師データ格納部
14 中間木格納部
15 サブセットデータ格納部
16 ノードキュー格納部
21 CPU
22 メモリ
23 入出力装置
24 ハードディスク装置
25 通信装置
Claims (7)
- 通信ネットワークで接続された複数の情報処理装置により構成される分散データ処理システム上で、MapReduce処理を行うことにより、教師データから決定木を生成する決定木生成装置であって、
処理対象のノードを示す識別情報と、ノードの負荷情報とを含むノードデータを格納するノードデータ格納手段から、処理対象のノードデータを取得し、当該ノードデータに基づき、負荷の高いノードを検出する負荷判定手段と、
前記負荷判定手段により、高負荷であると判定されたノードに含まれるデータを複数のノードに分散させる負荷分散処理手段と、
前記負荷分散処理手段により分散されたノードを含む処理対象ノードから、MapReduce処理により決定木を生成する決定木生成手段と
を備えることを特徴とする決定木生成装置。 - 前記負荷分散処理手段は、高負荷であると判定されたノードに含まれるデータが複数のノードに分散されるように、MapReduce処理におけるMap処理時に、キーを追加するための処理を行うことを特徴とする請求項1に記載の決定木生成装置。
- 前記負荷分散処理手段は、高負荷であると判定されたノードのみに関するノード展開を行い、ノード展開の結果得られた処理対象ノードのノードデータを前記ノードデータ格納手段に格納することを特徴とする請求項1に記載の決定木生成装置。
- 前記決定木生成装置は、前記教師データを分割し、複数のサブセットデータとしてサブセットデータ格納手段に格納する教師データ分割手段を備え、
前記決定木生成手段は、当該サブセットデータ格納手段に格納された複数のサブセットデータのそれぞれを、教師データとして用いて決定木生成を行うことを特徴とする請求項1ないし3のうちいずれか1項に記載の決定木生成装置。 - 前記負荷分散処理手段は、前記ノードデータ格納手段に格納されたノードデータの負荷情報に基づき、負荷に応じてノードを分類し、ノードの組の群を生成し、
前記決定木生成手段は、前記分類されたノードの組の情報を用いて、前記分散データ処理システムにおける複数の情報処理装置間での処理負荷が平均化するように、Reduce処理を各情報処理装置に割り当てる
ことを特徴とする請求項1ないし4のうちいずれか1項に記載の決定木生成装置。 - 通信ネットワークで接続された複数の情報処理装置により構成される分散データ処理システム上で、MapReduce処理を行うことにより、教師データから決定木を生成する決定木生成装置が実行する決定木生成方法であって、
処理対象のノードを示す識別情報と、ノードの負荷情報とを含むノードデータを格納するノードデータ格納手段から、処理対象のノードデータを取得し、当該ノードデータに基づき、負荷の高いノードを検出する負荷判定ステップと、
前記負荷判定ステップにより、高負荷であると判定されたノードに含まれるデータを複数のノードに分散させる負荷分散処理ステップと、
前記負荷分散処理ステップにより分散されたノードを含む処理対象ノードから、MapReduce処理により決定木を生成する決定木生成ステップと
を備えることを特徴とする決定木生成方法。 - コンピュータを、請求項1ないし5のうちいずれか1項に記載された決定木生成装置における各手段として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010036290A JP5427640B2 (ja) | 2010-02-22 | 2010-02-22 | 決定木生成装置、決定木生成方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010036290A JP5427640B2 (ja) | 2010-02-22 | 2010-02-22 | 決定木生成装置、決定木生成方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011170774A true JP2011170774A (ja) | 2011-09-01 |
JP5427640B2 JP5427640B2 (ja) | 2014-02-26 |
Family
ID=44684806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010036290A Expired - Fee Related JP5427640B2 (ja) | 2010-02-22 | 2010-02-22 | 決定木生成装置、決定木生成方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5427640B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013179451A1 (ja) * | 2012-05-31 | 2013-12-05 | 国立大学法人東京大学 | 並列データ処理システム、計算機および並列データ処理方法 |
JP2015069461A (ja) * | 2013-09-30 | 2015-04-13 | 日本電気株式会社 | 情報処理装置 |
WO2015151290A1 (ja) * | 2014-04-04 | 2015-10-08 | 株式会社日立製作所 | 管理計算機と計算機制御方法及び計算機システム |
JP2016119111A (ja) * | 2016-01-21 | 2016-06-30 | 国立大学法人 東京大学 | 並列データ処理システム、計算機および並列データ処理方法 |
WO2017141339A1 (ja) * | 2016-02-15 | 2017-08-24 | 富士通株式会社 | 処理制御プログラム、処理制御方法、情報処理装置、および通信装置 |
JP2020017179A (ja) * | 2018-07-27 | 2020-01-30 | 株式会社デンソー | 演算処理装置および画像処理装置 |
CN111488496A (zh) * | 2020-04-30 | 2020-08-04 | 湖北师范大学 | 一种基于滑动窗口的Tango树构建方法及系统 |
CN111695588A (zh) * | 2020-04-14 | 2020-09-22 | 北京迅达云成科技有限公司 | 一种基于云计算的分布式决策树学习系统 |
CN113689036A (zh) * | 2021-08-24 | 2021-11-23 | 成都电科智联科技有限公司 | 一种基于决策树c4.5算法的热像仪质量问题原因预测方法 |
CN116430831A (zh) * | 2023-04-26 | 2023-07-14 | 宁夏五谷丰生物科技发展有限公司 | 应用于食用油生产控制系统的数据异常监控方法及系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018039264A1 (en) * | 2016-08-22 | 2018-03-01 | Oracle International Corporation | System and method for metadata-driven external interface generation of application programming interfaces |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10334054A (ja) * | 1997-05-29 | 1998-12-18 | Hitachi Ltd | 並列画像生成方法とそのためのデータ分割手法 |
JP2005078394A (ja) * | 2003-09-01 | 2005-03-24 | Nec Corp | 非共有型データベースクラスタシステム,データベースノードおよび動的データ再配置方法ならびにプログラム |
-
2010
- 2010-02-22 JP JP2010036290A patent/JP5427640B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10334054A (ja) * | 1997-05-29 | 1998-12-18 | Hitachi Ltd | 並列画像生成方法とそのためのデータ分割手法 |
JP2005078394A (ja) * | 2003-09-01 | 2005-03-24 | Nec Corp | 非共有型データベースクラスタシステム,データベースノードおよび動的データ再配置方法ならびにプログラム |
Non-Patent Citations (1)
Title |
---|
久保田 和人: "決定木生成手法の並列化方式とその評価", 情報処理学会研究報告 VOL.2001 NO.77, JPN6013032089, JP, pages 61 - 66, ISSN: 0002688887 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013179451A1 (ja) * | 2012-05-31 | 2013-12-05 | 国立大学法人東京大学 | 並列データ処理システム、計算機および並列データ処理方法 |
JPWO2013179451A1 (ja) * | 2012-05-31 | 2016-01-14 | 国立大学法人 東京大学 | 並列データ処理システム、計算機および並列データ処理方法 |
US9841989B2 (en) | 2012-05-31 | 2017-12-12 | Hitachi, Ltd. | Parallel data processing system, computer, and parallel data processing method |
JP2015069461A (ja) * | 2013-09-30 | 2015-04-13 | 日本電気株式会社 | 情報処理装置 |
WO2015151290A1 (ja) * | 2014-04-04 | 2015-10-08 | 株式会社日立製作所 | 管理計算機と計算機制御方法及び計算機システム |
JP2016119111A (ja) * | 2016-01-21 | 2016-06-30 | 国立大学法人 東京大学 | 並列データ処理システム、計算機および並列データ処理方法 |
WO2017141339A1 (ja) * | 2016-02-15 | 2017-08-24 | 富士通株式会社 | 処理制御プログラム、処理制御方法、情報処理装置、および通信装置 |
JPWO2017141339A1 (ja) * | 2016-02-15 | 2018-09-20 | 富士通株式会社 | 処理制御プログラム、処理制御方法、情報処理装置、および通信装置 |
JP2020017179A (ja) * | 2018-07-27 | 2020-01-30 | 株式会社デンソー | 演算処理装置および画像処理装置 |
JP7095458B2 (ja) | 2018-07-27 | 2022-07-05 | 株式会社デンソー | 演算処理装置および画像処理装置 |
CN111695588A (zh) * | 2020-04-14 | 2020-09-22 | 北京迅达云成科技有限公司 | 一种基于云计算的分布式决策树学习系统 |
CN111488496A (zh) * | 2020-04-30 | 2020-08-04 | 湖北师范大学 | 一种基于滑动窗口的Tango树构建方法及系统 |
CN111488496B (zh) * | 2020-04-30 | 2023-07-21 | 湖北师范大学 | 一种基于滑动窗口的Tango树构建方法及系统 |
CN113689036A (zh) * | 2021-08-24 | 2021-11-23 | 成都电科智联科技有限公司 | 一种基于决策树c4.5算法的热像仪质量问题原因预测方法 |
CN116430831A (zh) * | 2023-04-26 | 2023-07-14 | 宁夏五谷丰生物科技发展有限公司 | 应用于食用油生产控制系统的数据异常监控方法及系统 |
CN116430831B (zh) * | 2023-04-26 | 2023-10-31 | 宁夏五谷丰生物科技发展有限公司 | 应用于食用油生产控制系统的数据异常监控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP5427640B2 (ja) | 2014-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5427640B2 (ja) | 決定木生成装置、決定木生成方法、及びプログラム | |
JP6542909B2 (ja) | ファイル操作方法及び装置 | |
JP5950285B2 (ja) | 予め決められた複数のビット幅のデータに対して操作を行う命令を使用してツリーの検索を行うための方法、並びに、当該命令を使用してツリーの検索を行うためのコンピュータ及びそのコンピュータ・プログラム | |
CN104881466B (zh) | 数据分片的处理以及垃圾文件的删除方法和装置 | |
US20140358977A1 (en) | Management of Intermediate Data Spills during the Shuffle Phase of a Map-Reduce Job | |
JP2007011548A (ja) | データ集合分割プログラム、データ集合分割装置、およびデータ集合分割方法 | |
KR101617696B1 (ko) | 데이터 정규표현식의 마이닝 방법 및 장치 | |
CN107015868B (zh) | 一种通用后缀树的分布式并行构建方法 | |
CN104834557B (zh) | 一种基于Hadoop的数据分析方法 | |
CN106970958B (zh) | 一种流文件的查询与存储方法和装置 | |
CN105989015B (zh) | 一种数据库扩容方法和装置以及访问数据库的方法和装置 | |
JP2019091257A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN106656525A (zh) | 一种数据广播系统、数据广播方法及设备 | |
Wang et al. | Research on C4. 5 algorithm improvement strategy based on MapReduce | |
US10700934B2 (en) | Communication control device, communication control method, and computer program product | |
US20190391981A1 (en) | Computer system and method for setting a stream data processing system | |
JP5600693B2 (ja) | クラスタリング装置及び方法及びプログラム | |
CN103761298A (zh) | 一种基于分布式架构的实体匹配方法 | |
KR20160100224A (ko) | 오디오 핑거프린트 데이터베이스 구축 및 오디오 핑거프린트 검색 방법 및 장치 | |
CN103150372B (zh) | 基于中心索引的海量高维音频数据的聚类方法 | |
JP2012190078A (ja) | 処理装置、分散処理システム、及び処理プログラム | |
CN110309367B (zh) | 信息分类的方法、信息处理的方法和装置 | |
JPWO2018225747A1 (ja) | 分散システム、データ管理装置、データ管理方法、及びコンピュータ読み取り可能な記録媒体 | |
JP2020052451A (ja) | 計算機システム及び業務フローのパターン生成方法 | |
CN103731500B (zh) | 基于Bigtable存储系统的数据批量插入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130828 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131001 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131202 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5427640 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |