JP2015108993A - Data processing based automatic selection system and processing distribution rule creation method in data processing based automatic selection system - Google Patents

Data processing based automatic selection system and processing distribution rule creation method in data processing based automatic selection system Download PDF

Info

Publication number
JP2015108993A
JP2015108993A JP2013251712A JP2013251712A JP2015108993A JP 2015108993 A JP2015108993 A JP 2015108993A JP 2013251712 A JP2013251712 A JP 2013251712A JP 2013251712 A JP2013251712 A JP 2013251712A JP 2015108993 A JP2015108993 A JP 2015108993A
Authority
JP
Japan
Prior art keywords
processing
data
data processing
distribution rule
infrastructure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013251712A
Other languages
Japanese (ja)
Inventor
裕也 小松
Yuya Komatsu
裕也 小松
康広 藤井
Yasuhiro Fujii
康広 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2013251712A priority Critical patent/JP2015108993A/en
Publication of JP2015108993A publication Critical patent/JP2015108993A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a processing based automatic selection system capable of making a processing time efficient by selecting a processing mode based on a measured value without depending on the capability of a user.SOLUTION: A data processing means selection system includes a function for automatic distribution to first data processing means for processing data and second processing means of which the processing method is different from that of the first data processing means. The data processing means selection system includes processing time recording means, processing distribution rule creation means and processing distribution rule application means. The processing time recording means stores a first processing time for processing data in the first data processing means and a second processing time for processing data in the second data processing means. The processing distribution rule creation means creates a processing distribution rule for distributing processing by predicting the first or second data processing means of which the processing time is shorter, from the first and second processing times. The processing distribution rule application means distributes data from a client to the first or second data processing means on the basis of the processing distribution rule.

Description

本発明はデータ処理基盤自動選択システム及びデータ処理基盤自動選択システムにおける処理振分ルール作成方法に関する。
更に詳しくは、複数のデータ処理方式、つまり処理特性が異なるデータ処理方式、例えば、複合イベント処理実行基盤装置と並列分散処理実行基盤装置のデータ処理実行基盤装置の何れか一方を選択して、所望のデータ処理を実行することが可能なデータ処理基盤自動選択システム、その処理振分ルール作成方法に関する。
The present invention relates to a data processing infrastructure automatic selection system and a processing distribution rule creation method in the data processing infrastructure automatic selection system.
More specifically, a plurality of data processing methods, that is, data processing methods having different processing characteristics, for example, selecting either one of a complex event processing execution base device and a data processing execution base device of a parallel distributed processing execution base device, and selecting a desired one The present invention relates to a data processing infrastructure automatic selection system capable of executing the above data processing and a processing distribution rule creation method thereof.

本件技術分野の背景技術として、大量データを効率よく短時間でバッチ処理する方式として、並列分散処理が知られている(非特許文献1)。
この並列分散処理とは、複数に分散されたデータ処理を複数のデータ処理サーバにおいて同時に並列的に処理する方式である。
また、高頻度で入力されるデータを効率よく処理する方式として、複合イベント処理が知られている(非特許文献2)。
複合イベント処理とは、時々刻々と発生する大量のデータを高速に処理する方式である。
As a background art of this technical field, parallel distributed processing is known as a method for batch processing large amounts of data efficiently in a short time (Non-Patent Document 1).
The parallel distributed processing is a method in which a plurality of data processes are simultaneously processed in parallel in a plurality of data processing servers.
Further, composite event processing is known as a method for efficiently processing data that is frequently input (Non-Patent Document 2).
The complex event processing is a method for processing a large amount of data generated every moment at high speed.

また、本件技術分野の背景技術として、特開2012−79240号公報(特許文献1)がある。この公報には、「複数の条件についての成立状態を検知してイベント処理を発生させる複合イベント処理装置であって、複合イベント検出条件式の変更に際し、前記変更の前後の複合イベント条件式を比較する比較部と、前記比較結果に基づいて変更箇所を特定する特定部と、前記特定された変更箇所を含む複合イベント検出条件式について変更前後の複合イベント条件式を並行して動作させる並行動作部とを備えた複合イベント処理装置」が記載されている。   Moreover, there exists Unexamined-Japanese-Patent No. 2012-79240 (patent document 1) as background art of this technical field. In this publication, “a composite event processing apparatus that detects event conditions for a plurality of conditions and generates event processing, and compares the composite event condition expressions before and after the change when the composite event detection conditional expression is changed. And a parallel operation unit that operates the composite event condition expression before and after the change for the composite event detection conditional expression including the specified change part. A composite event processing device comprising: ".

特開2012−79240号公報JP 2012-79240 A

Jeffrey Dean and Sanjay Ghemawat, “MapReduce: Simplified Data Processing on Large Clusters”,OSDI’04,2004Jeffrey Dean and Sanjay Ghemawat, “MapReduce: Simplified Data Processing on Large Clusters”, OSDI’04, 2004 Luckham and David C.,”Event Processing for Business: Organizing the Real-Time Enterprise.”Hoboken,New Jersey:John Wiley & Sons,Inc.p3.2012Luckham and David C., “Event Processing for Business: Organizing the Real-Time Enterprise.” Hoboken, New Jersey: John Wiley & Sons, Inc. p3.2012

前記非特許文献1に記載された並列分散処理に関する技術は、大量データが一括で入力される際に、データの処理を高速に行うことには適している。しかし、少量データが頻繁に入力されるような場合は、処理ごとに前処理の時間が発生し、結果として処理結果を得るまでの時間が長くなる。   The technology related to parallel and distributed processing described in Non-Patent Document 1 is suitable for processing data at high speed when a large amount of data is input in a lump. However, when a small amount of data is frequently input, a preprocessing time is generated for each process, and as a result, a time until a processing result is obtained becomes long.

一方、非特許文献2に記載された複合イベント処理に関する技術は、少量データがストリームで入力される際に、データを効率よく高速に処理を行うことには適している。しかし、大量のデータを一括で処理する際には、処理が追いつかなくなり、結果として処理結果を得るまでの時間が長くなる。   On the other hand, the technology related to complex event processing described in Non-Patent Document 2 is suitable for processing data efficiently and at high speed when a small amount of data is input as a stream. However, when a large amount of data is processed in a batch, the processing cannot catch up, and as a result, the time until the processing result is obtained becomes longer.

この2つの技術は1回に処理するデータのサイズや処理の発生頻度等により、どちらの処理時間が短くなるかが変わる。   In these two techniques, which processing time is shortened varies depending on the size of data to be processed at one time, the occurrence frequency of processing, and the like.

以上のことから、従来、一般的には、どちらの技術を使うかの判断は属人的に人手に頼っているのが現状である。しかし、この場合であっても、知識や経験のない初心者がどちらの技術を使うべきか判断するのが困難である。   Based on the above, the current situation is that, in general, the determination of which technology to use depends on the person in person. However, even in this case, it is difficult for a beginner who has no knowledge or experience to determine which technique to use.

特許文献1の複合イベント処理装置は、複合イベント処理のイベント検出ルールを動的に変更する方法が示されている。しかし、特許文献1の複合イベント処理装置は、イベント検出ルールを変更する際に複合イベント処理を停止し、この停止をもってイベント検出漏れを防ぐことを目的としている。
従って、変更するイベント検出ルールを自動で作成し、処理時間の短くなる処理方式を自動で選択すること、例えば、並列分散処理と複合イベント処理の2つのデータ処理方式を使い分けし、どちらか一方に処理を振り分け、処理時間の短くなるデータ処理方式を自動で選択することまでは考慮されていない。
The composite event processing device of Patent Document 1 shows a method for dynamically changing an event detection rule of composite event processing. However, the composite event processing device of Patent Document 1 is intended to stop composite event processing when changing an event detection rule, and prevent event detection omission by this stop.
Therefore, the event detection rule to be changed is automatically created, and the processing method that shortens the processing time is automatically selected. For example, the two data processing methods of the parallel distributed processing and the complex event processing are selectively used. It is not taken into consideration to sort the processing and automatically select a data processing method that shortens the processing time.

そこで、本発明は、利用者の能力に依存せず、実測値に基づいたデータ処理方式の選択を可能にすることができ、処理時間を効率的に短縮することができるデータ処理基盤自動選択システム、データ処理基盤自動選択システムにおける処理振分ルール作成方法を提供する。   Therefore, the present invention provides a data processing infrastructure automatic selection system that can enable selection of a data processing method based on an actual measurement value without depending on the ability of the user, and can efficiently reduce processing time. A method for creating a processing distribution rule in a data processing infrastructure automatic selection system is provided.

前記課題を達成するために、本発明は、データ処理を実行したときの時間を記録する手段と、当該記録したデータ処理の時間から未知の処理に対する処理時間を予測するモデルを作成する手段と、当該作成したモデルを利用し、未知の処理の処理時間を予測する手段と、予測した処理時間により処理を振り分けるためルールを作成し、当該ルールを基に処理を所望のデータ処理基盤装置に振り分ける手段を有する。   In order to achieve the above object, the present invention includes means for recording a time when data processing is executed, means for creating a model for predicting a processing time for an unknown process from the recorded data processing time, A means for predicting the processing time of an unknown process using the created model, and a means for creating a rule for distributing the process according to the predicted processing time, and for distributing the process to a desired data processing infrastructure device based on the rule Have

さらに、予測した処理時間と実測の処理時間の差がある程度大きくなった場合には、処理を振り分けるルールを再作成する手段を有する。   Furthermore, when a difference between the predicted processing time and the actually measured processing time becomes large to some extent, there is provided means for recreating a rule for distributing the processing.

例えば、本発明のデータ処理基盤自動選択システムは、
高頻度で入力される大量のデータを処理する第1のデータ処理基盤装置と、
大量データに対する処理を複数のデータ処理部にて並列的に処理する第2のデータ処理基盤装置と
を有するデータ処理基盤自動選択システムであって、
データ処理基盤自動選択システムは、さらに、
前記第1および第2のデータ処理基盤装置で実行したデータ処理の処理時間を記録する処理時間記録部と、
前記記録した処理時間を利用して処理時間が短くなる第1および第2のデータ処理基盤を予測し、前記データ処理を振り分ける処理振分ルールを作成するルール作成部と、
前記作成した処理振分ルールに従い、クライアント側から入力されたデータの処理を処理時間が短い方の前記第1または第2のデータ処理基盤装置に振り分けるルール適用部と、
を有することを特徴とする。
For example, the data processing infrastructure automatic selection system of the present invention is
A first data processing infrastructure device for processing a large amount of data input at a high frequency;
A data processing infrastructure automatic selection system comprising: a second data processing infrastructure device that processes a large amount of data in parallel in a plurality of data processing units;
The data processing infrastructure automatic selection system
A processing time recording unit for recording a processing time of data processing executed by the first and second data processing infrastructure devices;
A rule creation unit that predicts the first and second data processing bases in which the processing time is shortened using the recorded processing time, and creates a processing distribution rule that distributes the data processing;
In accordance with the created processing distribution rule, a rule application unit that distributes processing of data input from the client side to the first or second data processing infrastructure device having a shorter processing time;
It is characterized by having.

本発明のデータ処理基盤自動選択システムにおいて、
前記第1のデータ処理基盤装置は、前記入力データを複合イベント処理するサーバからなり、前記第2のデータ処理基盤装置は、前記入力データを並列分散処理する複数のサーバからなり、
前記処理振分ルール部は、
前記予測した処理時間と実際の処理時間の差が大きくなった場合に前記処理振分ルールの再作成を行うルール処理振分ルール更新部を有する
ことを特徴とする。
In the data processing infrastructure automatic selection system of the present invention,
The first data processing infrastructure device includes a server that performs composite event processing on the input data, and the second data processing infrastructure device includes a plurality of servers that perform parallel and distributed processing on the input data.
The processing distribution rule part is
It has a rule processing distribution rule update part which re-creates the processing distribution rule when the difference between the predicted processing time and the actual processing time becomes large.

また、本発明のデータ処理基盤自動選択システムは、
高頻度で入力される大量のデータを高速に処理する複合イベント処理方式の第1のデータ処理基盤装置と、
大量のデータを複数に分割し、当該複数に分割したデータの処理を複数の処理サーバで並列的に実行する並列分散処理方式の第2のデータ処理基盤装置と、
を有するデータ処理基盤自動選択システムであって、
前記大量のデータが入力された際に前記第1のデータ処理基盤装置および第2のデータ処理基盤装置で並列に処理を実行し、当該処理実行時の処理時間を含む処理実行履歴を処理実行履歴部に蓄積し、
前記蓄積した処理実行履歴から処理時間の短くなると予測した第1または第2のデータ処理基盤装置に処理を振り分けるためのルールを作成する機能を有する
ことを特徴とする。
The data processing infrastructure automatic selection system of the present invention is
A first data processing infrastructure device of a complex event processing method for processing a large amount of data input at a high frequency at high speed;
A second data processing infrastructure device of a parallel distributed processing system that divides a large amount of data into a plurality of pieces and executes processing of the divided pieces of data in parallel on a plurality of processing servers;
A data processing infrastructure automatic selection system having
When the large amount of data is input, the first data processing infrastructure device and the second data processing infrastructure device execute processing in parallel, and the processing execution history including the processing time at the time of the processing execution is processed. Accumulated in the department,
It has a function of creating a rule for allocating a process to the first or second data processing infrastructure device predicted to shorten the processing time from the accumulated processing execution history.

本発明のデータ処理基盤自動選択システムにおいて、
前記処理実行履歴部は、
データサイズ、到着間隔、処理基盤、実行中処理数、CPU利用率、メモリ利用率、処理時間の要素を有する
ことを特徴とする。
In the data processing infrastructure automatic selection system of the present invention,
The process execution history part
It is characterized by having elements of data size, arrival interval, processing base, number of processes being executed, CPU usage rate, memory usage rate, and processing time.

本発明のデータ処理基盤自動選択システムにおける処理振分ルール作成方法は、
前記データ処理基盤選択システムのルールを生成し、振分ける機能を含む手段は、処理振分ルールを回帰分析方法により生成し、振分けるものであり、
前記第1および第2のデータ処理基盤装置の処理実行履歴を入力として回帰分析し、当該回帰分析から処理時間を予測するモデルを作成し、
作成したモデルで予測した処理時間をもとに処理時間の短い、前記第1または第2のデータ処理基盤装置へ処理を振り分ける
ことを特徴とする。
The processing distribution rule creation method in the data processing infrastructure automatic selection system of the present invention,
Means including a function for generating and distributing a rule of the data processing infrastructure selection system is to generate and distribute a processing distribution rule by a regression analysis method,
Regression analysis is performed using the processing execution history of the first and second data processing infrastructure devices as input, and a model for predicting the processing time from the regression analysis is created,
The processing is distributed to the first or second data processing infrastructure device having a short processing time based on the processing time predicted by the created model.

本発明のデータ処理基盤自動選択システムにおける処理振分ルール作成方法は、
前記データ処理基盤選択システムのルールを生成し、振分ける機能を含む手段は、
処理振分ルールを決定ツリー方法により生成し、振分けるものであり、
第1及び第2のデータ処理基盤装置の処理実行履歴を入力として決定ツリー分析を行い、当該決定ツリー分析から処理を集合に分類するルールを作成し、
集合ごとに前記第1および第2のデータ処理基盤装置の予測処理時間を求め、
予測した処理時間の短い第1または第1のデータ処理基盤装置へ処理を振り分ける
ことを特徴とする。
The processing distribution rule creation method in the data processing infrastructure automatic selection system of the present invention,
Means including a function for generating and distributing rules of the data processing infrastructure selection system,
Processing distribution rules are generated by the decision tree method and distributed.
A decision tree analysis is performed using the process execution histories of the first and second data processing infrastructure devices as inputs, and a rule for classifying the processes into sets from the decision tree analysis is created.
For each set, obtain a predicted processing time of the first and second data processing infrastructure devices,
The processing is distributed to the first or first data processing infrastructure device having a short predicted processing time.

本発明のデータ処理基盤自動選択システムにおける処理振分ルール作成方法は、
前記データ処理基盤選択システムのルールを生成し、振分ける機能を含む手段は、処理振分ルールをサポートベクターマシンにより生成し、振分けるものであり、
第1及び第2のデータ処理基盤装置の処理実行履歴を入力として前記第1または第2のデータ処理基盤装置を判別する判別器を作成し、
前記判別器により判別された第1または第2の処理基盤装置へ処理を振り分ける
ことを特徴とする。
The processing distribution rule creation method in the data processing infrastructure automatic selection system of the present invention,
Means including a function for generating and distributing a rule of the data processing infrastructure selection system is to generate and distribute a processing distribution rule by a support vector machine,
Creating a discriminator for discriminating between the first and second data processing infrastructure devices using the processing execution history of the first and second data processing infrastructure devices as input;
Processing is distributed to the first or second processing infrastructure device determined by the classifier.

本発明は高頻度で入力される大量のデータを高速に処理する複合イベント処理方式の第1のデータ処理基盤装置と、
大量のデータを複数に分割し、当該複数に分解したデータの処理を複数の処理サーバで並列的に実行する並列分散処理方式の第2のデータ処理基盤装置と、
を処理振分ルールに基づいて、データの処理を前記第1または第2のデータ処理基盤装置の一方に振り分ける処理基盤自動選択システムにおける処理振分ルール作成方法であって、
入力されたデータの処理を前記第1または第2の処理基盤装置に振り分ける際、
前記第1および第2のデータ処理基盤装置において、前記入力されたデータの処理と同一の処理パラメータの処理が実行されている場合は、前記第1および第2のデータ処理基盤装置で記録された処理時間をもとに処理時間の短い第1または第2のデータ処理基盤装置へ処理を振り分け、
前記入力されたデータの処理と同一の処理パラメータの処理が実行されていない場合は前記処理振分ルールにより、前記第1または第2のデータ処理基盤装置に処理を振り分ける
ことを特徴とする。
The present invention provides a first data processing infrastructure device of a composite event processing system that processes a large amount of data that is frequently input at high speed,
A second data processing infrastructure device of a parallel distributed processing system that divides a large amount of data into a plurality of pieces and executes the processing of the decomposed data in a plurality of processing servers in parallel;
A processing allocation rule creation method in a processing infrastructure automatic selection system that distributes data processing to one of the first or second data processing infrastructure devices based on processing allocation rules,
When distributing the processing of the input data to the first or second processing infrastructure device,
In the first and second data processing infrastructure devices, when processing of the same processing parameters as the processing of the input data is being executed, the processing is recorded in the first and second data processing infrastructure devices Based on the processing time, the processing is distributed to the first or second data processing infrastructure device having a short processing time,
When processing of the same processing parameter as the processing of the input data is not executed, the processing is distributed to the first or second data processing infrastructure device according to the processing distribution rule.

本発明のデータ処理基盤選択システムは、
クライアントからのデータを受け、当該データを処理する第1のデータ処理手段、又は当該第1のデータ処理手段とは処理方法が相違する第2のデータ処理手段に自動的に振り分ける機能を有するデータ処理基盤選択システムであって、
処理時間記録手段、処理振分ルール作成手段、処理振分ルール適用手段、を有し、
前記処理時間記録手段は、
前記第1のデータ処理手段において前記データを処理する第1の処理時間、前記第2のデータ処理手段において前記データを処理する第2の処理時間、を記憶し、
前記処理振分ルール作成手段は、
前記第1、第2の処理時間から処理時間が短い方の前記第1又は第2のデータ処理手段を予測し、処理を振り分ける処理振分ルールを作成し、
前記処理振分ルール適用手段は、
前記クライアントからのデータを前記処理振分ルールに基づいて前記第1又は第2のデータ処理手段に振り分ける
ことを特徴とする。
The data processing infrastructure selection system of the present invention is
Data processing having a function of receiving data from a client and automatically distributing the data to first data processing means for processing the data, or second data processing means having a different processing method from the first data processing means A platform selection system,
Processing time recording means, processing distribution rule creation means, processing distribution rule application means,
The processing time recording means is
Storing a first processing time for processing the data in the first data processing means and a second processing time for processing the data in the second data processing means;
The processing distribution rule creation means includes:
Predicting the first or second data processing means having a shorter processing time from the first and second processing times, and creating a processing distribution rule for distributing the processing,
The processing distribution rule applying means is:
The data from the client is distributed to the first or second data processing means based on the processing distribution rule.

本発明のデータ処理基盤選択システムにおいて、
前記処理振分ルールが、回帰分析、決定ツリー分析、サポートベクターマシン、の何れかを使用した処理振分ルールであることを特徴とする。
In the data processing infrastructure selection system of the present invention,
The processing distribution rule is a processing distribution rule using any of regression analysis, decision tree analysis, and support vector machine.

本発明のデータ処理基盤選択システムにおいて、
前記処理振分ルール適用手段は、
前記クライアントからのデータを前記処理振分ルールに基づいて前記第1又は第2のデータ処理手段に振り分けたあと、前記処理時間が予測処理時間+許容誤差を超えた場合、前記処理振分ルールを更新し、前記データを前記第2又は第1の処理手段に振り分け、
前記予測処理時間は前記処理時間の過去から回帰分析、決定ツリー分析、サポートベクターマシン、何れかの統計手法を用いて予測した時間であり、前記許容誤差は前記処理時間と前記予測時間の差で許容できる誤差の値である、
ことを特徴とする。
In the data processing infrastructure selection system of the present invention,
The processing distribution rule applying means is:
After the data from the client is distributed to the first or second data processing means based on the processing distribution rule, when the processing time exceeds the estimated processing time + allowable error, the processing distribution rule is Update, distribute the data to the second or first processing means,
The predicted processing time is a time predicted from the past of the processing time using a regression analysis, decision tree analysis, support vector machine, or any statistical method, and the allowable error is a difference between the processing time and the predicted time. An acceptable error value,
It is characterized by that.

本発明によれば、複数の異なる特性のデータ処理方式の中から、利用者の能力に依存しないで、何れか一方のデータ処理方式を自動的に選択することができ、例えば、複合イベント処理と並列分散処理の2つの処理方式の中から処理時間が短いと思われる適切な一方を自動的に選択でき、データ処理を効率的に実行することが可能なデータ処理基盤自動選択システム、その処理振分ルール作成方法を提供することができる。
上述した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
According to the present invention, it is possible to automatically select any one data processing method from among a plurality of data processing methods having different characteristics without depending on the ability of the user. A data processing infrastructure automatic selection system capable of automatically selecting an appropriate one that is considered to have a short processing time from two processing methods of parallel distributed processing, and capable of efficiently executing data processing, Minute rule creation method can be provided.
Problems, configurations, and effects other than those described above will become apparent from the following description of embodiments.

図1は、本発明のデータ処理基盤自動選択システムの基本構成例を示すブロック図である。FIG. 1 is a block diagram showing a basic configuration example of a data processing infrastructure automatic selection system of the present invention. 図2は、本発明の処理振分ルール生成部及び処理振分ルール適用部における処理による状態遷移を説明する模式図である。FIG. 2 is a schematic diagram for explaining state transitions by processing in the processing distribution rule generation unit and the processing distribution rule application unit of the present invention. 図3は、本発明の処理振分ルール生成部における処理振り分けルールの作成例を示すフローチャートである。FIG. 3 is a flowchart showing an example of creating a process distribution rule in the process distribution rule generation unit of the present invention. 図4は、処理実行履歴表の一例を示す図である。FIG. 4 is a diagram illustrating an example of the process execution history table. 図5は、本発明の処理振分ルール適用部における処理振り分けルールの適用例を示すフローチャートである。FIG. 5 is a flowchart showing an application example of the process distribution rule in the process distribution rule application unit of the present invention. 図6は、処理振分ルール適用部において振分先の処理実行基盤を決定する処理基盤決定表の一例を示す図である。FIG. 6 is a diagram illustrating an example of a processing base determination table for determining the processing execution base of the distribution destination in the processing distribution rule application unit. 図7は、本発明の処理振分ルール適用部における処理振り分けルール更新例を示すフローチャートである。FIG. 7 is a flowchart showing an example of processing distribution rule update in the processing distribution rule application unit of the present invention. 図8は、本発明の処理振分ルール適用部における処理振り分けルールの一例として回帰分析を使った処理振り分けルールである。FIG. 8 shows a process distribution rule using regression analysis as an example of the process distribution rule in the process distribution rule application unit of the present invention. 図9は、本発明の処理振分ルール適用部における処理振り分けルールの他の例として決定ツリー分析を使った処理振り分けルールである。FIG. 9 shows a process distribution rule using decision tree analysis as another example of the process distribution rule in the process distribution rule application unit of the present invention. 図10は、本発明の処理振分ルール適用部における処理振り分けルールの更に他の例としてサポートベクターマシン(SVM)を利用した処理振り分けルールである。FIG. 10 shows a process distribution rule using a support vector machine (SVM) as still another example of the process distribution rule in the process distribution rule application unit of the present invention.

以下、実施例を、図面を用いて説明する。本発明は大量のデータ、例えば、ペタバイト級以上のサイズのデータやギガバイト級以上のストリーミングデータを処理する上で有効であるが、必ずしも本例で記述するデータ量に特定する必要はない。   Hereinafter, examples will be described with reference to the drawings. The present invention is effective in processing a large amount of data, for example, data of a petabyte class or larger size or streaming data of a gigabyte class or larger, but it is not always necessary to specify the data amount described in this example.

図1は本発明のデータ処理基盤自動選択システムの基本構成例を示すブロック図である。
同図において、本発明にかかるデータ処理基盤自動選択システム110は、演算処理装置(CPU)、記憶装置を含む計算機から構成する。そして、データ処理基盤自動選択システム110は、ネットワークを介してクライアント100に接続し、また、ネットワークを介して複数の異なる特性の処理方式、例えば、複合イベント処理実行基盤装置(第1のデータ処理実行基盤装置)及び並列分散処理実行基盤装置(第2のデータ処理実行基盤装置)の両データ処理実行基盤装置120、130に接続する。
FIG. 1 is a block diagram showing an example of the basic configuration of a data processing infrastructure automatic selection system according to the present invention.
In the figure, a data processing infrastructure automatic selection system 110 according to the present invention comprises a computer including an arithmetic processing unit (CPU) and a storage device. Then, the data processing infrastructure automatic selection system 110 connects to the client 100 via the network, and also processes a plurality of processing methods having different characteristics via the network, for example, a composite event processing execution infrastructure device (first data processing execution The data processing execution base devices 120 and 130 of the base device) and the parallel distributed processing execution base device (second data processing execution base device).

データ処理基盤自動選択システム110の演算処理装置は、情報送受信部116、処理時間記録部111、振分ルール生成部112、振分ルール適用部113、などを有し、記憶装置は、処理実行履歴部(処理実行履歴DB)114、振分ルール格納部(振分ルールDB)115、などを有する。   The arithmetic processing device of the data processing infrastructure automatic selection system 110 includes an information transmission / reception unit 116, a processing time recording unit 111, a distribution rule generation unit 112, a distribution rule application unit 113, and the like. A section (processing execution history DB) 114, a distribution rule storage section (distribution rule DB) 115, and the like.

情報送受信部116は、クライアント100からのデータDi及び当該データの処理要求や処理回数、などの指令情報を受ける。また、クライアント100のデータDiを複合イベント処理実行基盤装置120及び並列分散処理実行基盤装置130に送信し、当該両装置おけるデータ処理に要するそれぞれの処理時間を受ける機能を有する。   The information transmission / reception unit 116 receives data Di from the client 100 and command information such as a processing request and the number of processing of the data. Further, it has a function of transmitting data Di of the client 100 to the composite event processing execution platform apparatus 120 and the parallel distributed processing execution platform apparatus 130 and receiving respective processing times required for data processing in both the apparatuses.

処理時間記録部111は、複合イベント処理実行基盤装置120の複合イベント処理実行部121及び並列分散処理実行基盤装置130の並列分散処理実行部131により実行されたそれぞれのデータ処理のデータサイズ、処理データ間の到着間隔などのパラメータ(処理パラメータ)、及びデータ処理の実行開始から実行結果を得るまでの時間(処理時間)を処理実行履歴DB114に記録する機能を有する。   The processing time recording unit 111 includes the data size and processing data of each data processing executed by the composite event processing execution unit 121 of the composite event processing execution base device 120 and the parallel distributed processing execution unit 131 of the parallel distributed processing execution base device 130. It has a function of recording, in the process execution history DB 114, parameters (process parameters) such as an inter-arrival interval and a time (process time) from the start of execution of data processing until an execution result is obtained.

振分ルール生成部112は、処理実行履歴DB114に記録された処理パラメータと処理時間をもとに、所定の条件化(処理時間≦予測処理時間+許容誤差)において、クライアント100から入力されたデータDiの処理を、複合イベント処理実行基盤、並列分散処理実行基盤装置のどちらか一方の処理基盤装置側で実行させるか決定するためのルール(処理振り分けルール)を生成する機能を有する。また、一度振分けた後、所定の条件(処理時間>予測処理時間+許容誤差)の下で処理振分ルール更新を行う機能を有する。これらの機能の詳細については後述する。   The distribution rule generation unit 112 receives data input from the client 100 under predetermined conditions (processing time ≦ predicted processing time + allowable error) based on the processing parameters and processing time recorded in the processing execution history DB 114. It has a function of generating a rule (processing distribution rule) for determining whether to execute Di processing on either the complex event processing execution platform or the parallel distributed processing execution platform. In addition, it has a function of updating the processing distribution rule under a predetermined condition (processing time> predicted processing time + allowable error) after the distribution once. Details of these functions will be described later.

振分ルール適用部113は、振分ルール生成部112により、作成した処理振り分けルールをもとに処理基盤装置を決定し、当該決定した処理基盤装置側にデータDiの処理を振り分ける機能を有する。   The distribution rule application unit 113 has a function of determining a processing base device based on the created processing distribution rule by the distribution rule generation unit 112 and distributing the processing of the data Di to the determined processing base device side.

複合イベント処理実行基盤装置120は、CPUを含むサーバからなり、複合イベント処理実行部121、処理時間通知部122を有する。   The composite event process execution platform device 120 is composed of a server including a CPU, and includes a composite event process execution unit 121 and a processing time notification unit 122.

複合イベント処理実行部121は、データDiに対して、複合イベント処理を実行する機能を有する。   The composite event processing execution unit 121 has a function of executing composite event processing on the data Di.

処理時間通知部122は、複合イベント処理実行部121で実行されたデータ処理の処理時間を測定し、その処理時間を処理基盤選択システム110に送信し、通知する機能を有する。   The processing time notification unit 122 has a function of measuring the processing time of the data processing executed by the composite event processing execution unit 121, transmitting the processing time to the processing infrastructure selection system 110, and notifying it.

また、並列分散処理実行基盤装置130も同様にCPUを含む複数のサーバからなり、並列分散処理実行部131、処理時間通知部132を有する。   Similarly, the parallel / distributed processing execution platform device 130 includes a plurality of servers including a CPU, and includes a parallel / distributed processing execution unit 131 and a processing time notification unit 132.

そして、並列分散処理実行部131は、データDiに対して、並列分散処理を実行する機能を有する。   The parallel distributed processing execution unit 131 has a function of executing parallel distributed processing on the data Di.

処理時間通知部132は、並列分散処理実行部131で実行されたデータ処理の処理時間を測定し、その処理時間を処理基盤選択システム110に送信し、通知する機能を有する。   The processing time notification unit 132 has a function of measuring the processing time of the data processing executed by the parallel distributed processing execution unit 131, transmitting the processing time to the processing infrastructure selection system 110, and notifying it.

本発明では、利用者(クライアント側)の能力に依存せず、処理特性の異なる複合イベント処理基盤装置側と並列分散処理基盤装置側の一方の選択を行うため、複合イベント処理基盤装置側と並列分散処理基盤装置側で実行した処理時間を処理実行履歴としてDB114に記録し、記録した処理時間をもとに予測した処理時間でデータ処理を複合イベント処理基盤装置側と並列分散処理基盤装置側のどちらか一方に振り分けている。   In the present invention, one of the complex event processing platform apparatus side and the parallel distributed processing platform apparatus side having different processing characteristics is selected in parallel with the complex event processing platform apparatus side without depending on the capability of the user (client side). The processing time executed on the distributed processing infrastructure device side is recorded in the DB 114 as a processing execution history, and data processing is performed on the complex event processing infrastructure device side and the parallel distributed processing infrastructure device side based on the processing time predicted based on the recorded processing time. They are assigned to either one.

図2は、本発明の処理振分ルール生成部112及び処理振分ルール適用部113における処理による状態遷移を説明する模式図である。   FIG. 2 is a schematic diagram for explaining state transitions by processing in the processing distribution rule generation unit 112 and the processing distribution rule application unit 113 of the present invention.

同図において、初期状態としてデータ処理の振り分けを行うための振り分けルールの作成を実施する。
しかる後、作成した処理振分ルールを適用して、クライアント100側から入力されたデータ処理を複合イベント処理基盤装置側と並列分散処理基盤装置側のどちらか一方に振り分ける。
In the figure, a distribution rule for distributing data processing is created as an initial state.
Thereafter, the created processing distribution rule is applied to distribute the data processing input from the client 100 side to either the composite event processing platform device side or the parallel distributed processing platform device side.

この処理振分ルール適用中に、例えば、クライアント側から処理内容の変更等があり、作成した処理振分ルールが適当でなくなることを防ぐため、誤差の閾値を設定し、実際の処理時間と予測処理時間の誤差が大きくなった場合、つまり上述した条件の処理時間>予測処理時間+許容誤差を満たす場合には、処理振分ルールを更新する。   While applying this processing allocation rule, for example, the processing content is changed from the client side, and in order to prevent the created processing allocation rule from becoming inappropriate, an error threshold is set, and the actual processing time and prediction When the error of the processing time becomes large, that is, when the processing time of the above condition> predicted processing time + allowable error is satisfied, the processing distribution rule is updated.

以下、その処理手順について説明する。
まず、図2において、開始状態(ステップS200)から、処理振り分けルール作成状態(ステップS201)に移行した場合、処理振り分けルール作成状態(ステップS201)は初期状態において、上述した処理振分ルールの作成を行う。
The processing procedure will be described below.
First, in FIG. 2, when the process distribution rule creation state (step S201) is shifted from the start state (step S200) to the process distribution rule creation state (step S201), the above-described process distribution rule creation is performed in the initial state. I do.

処理振り分けルール作成状態(ステップS201)においては、処理振分ルールの作成が完了しているか否かを示すフラグ(処理振り分けルール作成完了フラグ)がfalseの間は、処理振分ルールの作成を続ける。   In the process distribution rule creation state (step S201), while the flag indicating that the process distribution rule has been created (process distribution rule creation completion flag) is false, the process distribution rule creation is continued. .

処理振り分けルール作成状態(ステップS201)は、処理振り分けルール作成完了フラグがtrueになったら、処理振り分けルール適用状態(ステップS202)に移行する。   The process distribution rule creation state (step S201) shifts to the process distribution rule application state (step S202) when the process distribution rule creation completion flag becomes true.

処理振り分けルール適用状態(ステップS202)においては、作成した処理振分ルールを適用し、入力されたデータの処理を振り分ける処理基盤装置(複合イベント処理実行基盤装置、又は並列分散処理実行基盤装置)を決定し、データ処理の振り分けを行う。   In the processing distribution rule application state (step S202), a processing infrastructure device (composite event processing execution infrastructure device or parallel distributed processing execution infrastructure device) that applies the created processing allocation rule and distributes processing of input data is executed. Decide and distribute data processing.

この処理振り分けルール適用状態(ステップS202)において、処理時間が予測処理時間+許容誤差以内(処理時間≦予測処理時間+許容誤差)である間は、この振分ルール適用を継続する。   In this processing distribution rule application state (step S202), while the processing time is within the predicted processing time + allowable error (processing time ≦ predicted processing time + allowable error), this distribution rule application is continued.

予測処理時間とは、過去の処理時間から、例えば、回帰分析等の統計手法を用いていて予測した処理時間である。許容誤差とは、処理時間と予測処理時間の差で許容できる誤差の値で、任意に設定する。   The predicted processing time is a processing time predicted from a past processing time using a statistical method such as regression analysis. The allowable error is an error value that can be allowed by the difference between the processing time and the predicted processing time, and is set arbitrarily.

処理振り分けルール作成状態(ステップS201)において、処理時間が予測処理時間+許容誤差を超えた場合(処理時間>予測処理時間+許容誤差)には、処理振り分けルール更新状態(ステップS203)に移行する。   When the processing time exceeds the predicted processing time + allowable error in the processing distribution rule creation state (step S201) (processing time> predicted processing time + allowable error), the process moves to the processing distribution rule update state (step S203). .

例えば、処理時間が5秒、予測処理時間が3秒、許容誤差が3秒であった場合は、処理振り分けルール適用状態(ステップS202)を継続し、処理時間が7秒、予測処理時間が3秒、許容誤差が3秒であった場合は、処理振り分けルール更新状態(ステップS203)に移行する。   For example, when the processing time is 5 seconds, the predicted processing time is 3 seconds, and the allowable error is 3 seconds, the processing distribution rule application state (step S202) is continued, the processing time is 7 seconds, and the predicted processing time is 3 If the second and the allowable error are 3 seconds, the process shifts to the process distribution rule update state (step S203).

処理振り分けルール更新状態(ステップS203)においては、処理時間と予測処理時間の誤差が大きくなった場合に処理振り分けルールの更新を行う。   In the process distribution rule update state (step S203), the process distribution rule is updated when the error between the process time and the predicted process time becomes large.

つまり、処理振り分けルール更新状態(ステップS203)においては、処理振り分けルール作成完了フラグがfalseの間は継続し、処理振り分けルール作成完了フラグがtrueになったら、処理振り分けルール適用状態(ステップS202)に移行する。   That is, in the process distribution rule update state (step S203), the process distribution rule creation completion flag continues during the false state, and when the process distribution rule creation completion flag becomes true, the process distribution rule application state (step S202) is entered. Transition.

以上の処理により、処理振り分けルールの適当でなくなることを防ぎつつ、処理を複合イベント処理と並列分散処理のどちらか一方に振り分けることが可能になる。   With the above processing, it is possible to distribute the processing to either the composite event processing or the parallel distributed processing while preventing the processing distribution rule from becoming inappropriate.

図3は、本発明の処理振分ルール生成部における処理振り分けルールの作成例を示すフローチャートである。同図において、以下、処理振り分けルール作成状態(ステップ201)の処理フローを説明する。   FIG. 3 is a flowchart showing an example of creating a process distribution rule in the process distribution rule generation unit of the present invention. In the same figure, the process flow in the process distribution rule creation state (step 201) will be described below.

本処理フローは、最初の処理振り分けルールを作成するための処理フローである。初期状態では処理振分ルールを作成するための処理実行履歴がないため、処理実行履歴を蓄積するために、データ処理を複合イベント処理、並列分散処理の両方で実行して処理実行履歴を蓄積し、その処理実行履歴をもとに処理振分ルールを作成する。   This processing flow is a processing flow for creating the first processing distribution rule. Since there is no process execution history for creating process distribution rules in the initial state, in order to accumulate process execution history, data processing is executed by both complex event processing and parallel distributed processing, and process execution history is accumulated. Then, a process distribution rule is created based on the process execution history.

まず、ステップS301にて、処理振り分けルール作成完了フラグをfalseに設定する。   First, in step S301, a process distribution rule creation completion flag is set to false.

次に、ステップS302にて、処理振分ルール作成のための処理実行回数Nを設定する。処理実行回数Nは、処理振分ルール作成のために必要な学習データを得るための処理の実行回数である。そして、このNは任意に設定が可能である。Nを小さくすると、処理振分ルール作成にかかる時間が短くなるが、処理基盤装置を選択する精度が低くなる。その一方、Nを大きくすると、処理振分ルール作成にかかる時間が大きくなるが、処理基盤を選択する精度が高くなる。   Next, in step S302, a process execution count N for creating a process distribution rule is set. The number N of process executions is the number of process executions for obtaining learning data necessary for creating a process distribution rule. This N can be arbitrarily set. If N is reduced, the time required to create the process distribution rule is shortened, but the accuracy of selecting the processing base device is lowered. On the other hand, when N is increased, the time required for creating the processing distribution rule increases, but the accuracy of selecting the processing base increases.

次に、ステップS303にて、クライアント100側から入力された処理数iをカウントする。入力処理数iは0に設定しておく。   Next, in step S303, the processing number i input from the client 100 side is counted. The input processing number i is set to 0.

しかる後、データ処理基盤選択システム110は、ステップS304にて、クライアント100から処理要求と処理対象となるデータDiを受け取る。   Thereafter, the data processing infrastructure selection system 110 receives the processing request and the data Di to be processed from the client 100 in step S304.

処理対象のデータDiを受け取ったら、データ処理基盤選択システム110は、まず、一方の複合イベント処理実行基盤装置120に処理を振り分ける。   When the data Di to be processed is received, the data processing infrastructure selection system 110 first distributes the processing to one composite event processing execution infrastructure device 120.

複合イベント処理実行基盤装置120は、複合イベント処理実行部121にて、振り分けられたデータの処理を実行し、処理時間通知部122を介して、その処理時間を処理基盤選択システム110側に通知する。   The composite event processing execution base device 120 executes processing of the distributed data in the composite event processing execution unit 121 and notifies the processing base selection system 110 side of the processing time via the processing time notification unit 122. .

データ処理基盤選択システム110は、ステップS305にて、その処理時間記録部111により、通知された処理時間と処理パラメータを、処理実行履歴DB114に記録する。
次に、データ処理基盤選択システム110は、他方の並列分散処理実行基盤130に処理を振り分ける。
In step S305, the data processing infrastructure selection system 110 records the notified processing time and processing parameter in the processing execution history DB 114 by the processing time recording unit 111.
Next, the data processing infrastructure selection system 110 distributes the processing to the other parallel distributed processing execution infrastructure 130.

並列分散処理実行基盤130は、並列分散処理実行部131にて、振り分けられたデータの処理を実行し、処理時間通知部132を介して処理時間をデータ処理基盤選択システム110側に通知する。   The parallel distributed processing execution base 130 executes processing of the distributed data in the parallel distributed processing execution unit 131 and notifies the processing time to the data processing base selection system 110 side via the processing time notification unit 132.

データ処理基盤選択システム110は、ステップS306にて、その処理時間記録部111により、通知された処理時間と処理パラメータを、処理実行履歴DB114に記録する。処理実行履歴DB114に記録される処理実行履歴については後述する。   In step S306, the data processing infrastructure selection system 110 records the notified processing time and processing parameters in the processing execution history DB 114 by the processing time recording unit 111. The process execution history recorded in the process execution history DB 114 will be described later.

その後、ステップS307にて、入力処理数iを1加算する。   Thereafter, in step S307, the input processing number i is incremented by one.

次に、ステップS308にて、入力処理数iと処理実行回数Nを比較する。当該ステップにて、入力処理数i<処理実行回数Nのときは、ステップS304に戻り、ステップS304からステップS307を繰り返し行う。   Next, in step S308, the number of input processes i is compared with the number N of process executions. In this step, when the number of input processes i <the number of process executions N, the process returns to step S304, and steps S304 to S307 are repeated.

入力処理数i≧処理実行回数Nの時は、振分ルール生成部112は、ステップS309にて、処理実行履歴DB114に記録された処理時間と処理パラメータをもとに処理振分ルールを作成し、当該ルールを振分ルールDB115に記録する。   When the number of input processes i ≧ the number N of process executions, the distribution rule generation unit 112 creates a process distribution rule based on the process time and the process parameters recorded in the process execution history DB 114 in step S309. The rule is recorded in the distribution rule DB 115.

処理振り分けルールの作成が完了したら、ステップS310にて、処理振り分けルール作成完了フラグをtrueにして処理を終了する。   When the creation of the process distribution rule is completed, the process distribution rule creation completion flag is set to true in step S310, and the process ends.

以上の処理フローにより、最初の処理振分ルールを作成することができる。   With the above processing flow, the first processing distribution rule can be created.

図4は処理実行履歴DB114に記録される処理実行履歴の一例を示す図である。
同図において、処理実行履歴DB114のテーブル401には、フィールドとして、処理ID4011、データサイズ4012、到着間隔4013、処理基盤4014、実行中処理数4015、CPU利用率4016、メモリ利用率4017、処理時間4018、の各項目を有する。
FIG. 4 is a diagram illustrating an example of a process execution history recorded in the process execution history DB 114.
In the figure, the table 401 of the process execution history DB 114 includes, as fields, a process ID 4011, a data size 4012, an arrival interval 4013, a processing base 4014, a number of processes being executed 4015, a CPU usage rate 4016, a memory usage rate 4017, and a processing time. 4018, each item.

処理ID4011は処理を一意に識別するための記号(0001、0002、・・・0005)である。   The process ID 4011 is a symbol (0001, 0002,... 0005) for uniquely identifying the process.

データサイズ4012は処理対象である入力データのデータサイズ(30MB、30MB、・・・1kB)である。   The data size 4012 is the data size (30 MB, 30 MB,... 1 kB) of the input data to be processed.

到着間隔4013は1つ前の処理が到着した時間から、現在の処理が到着するまでの経過時間(0.5s、0,5s、・・・0.3s)である。   The arrival interval 4013 is an elapsed time (0.5 s, 0, 5 s,..., 0.3 s) from the time when the previous process arrives until the current process arrives.

処理基盤4014は処理を実行した基盤(複合イベント処理、並列分散処理)のいずれかの値が格納される。実行中処理数4015は処理基盤において実行中である処理数(0、0・・・0)である。   The processing platform 4014 stores any value of the platform (composite event processing, parallel distributed processing) that executed the processing. The number of processes 4015 being executed is the number of processes (0, 0... 0) being executed on the processing board.

CPU利用率4016は、処理基盤のサーバのCPU利用率(0−50%、0−50%、・・・0−50%)である。複数台のサーバがある場合は、各サーバのCPU利用率の平均値とする。   The CPU usage rate 4016 is the CPU usage rate (0-50%, 0-50%,... 0-50%) of the processing-based server. When there are a plurality of servers, the average value of the CPU utilization rate of each server is used.

メモリ利用率4017は、処理基盤を構成するサーバのメモリ利用率(0−50%、0−50%、・・・0−50%)である。複数台のサーバがある場合は、各サーバのメモリ利用率の平均値とする。   The memory usage rate 4017 is a memory usage rate (0-50%, 0-50%,..., 0-50%) of the server constituting the processing infrastructure. When there are multiple servers, the average value of the memory utilization rate of each server is used.

処理時間4018は各基盤から通知された処理時間(20s、15s、・・・0.2s)を格納する。   The processing time 4018 stores the processing time (20 s, 15 s,..., 0.2 s) notified from each base.

例えば、処理実行履歴DB114のテーブル401の1行目(♯1)の処理ID(0001)は、前回の処理から0.5秒後に到着した処理で、入力データサイズは30MB、複合イベント処理実行基盤120で実行中の処理は0個で、CPU利用率、メモリ利用率ともに0−50%のときの処理時間は20秒であるということを意味する。 For example, the process ID (0001) of the first line (# 1) of the table 401 of the process execution history DB 114 is a process that arrives 0.5 seconds after the previous process, and has an input data size of 30 MB and a composite event process execution platform. This means that the number of processes being executed at 120 is 0, and the processing time when the CPU utilization rate and the memory utilization rate are both 0-50% is 20 seconds.

図5は発明の処理振分ルール適用部における処理振り分けルールの適用例を示すフローチャートである。
同図において、以下の処理振り分けルール適用状態(ステップS202)の処理フローについて説明する。
FIG. 5 is a flowchart showing an application example of the process distribution rule in the process distribution rule application unit of the invention.
In the figure, the processing flow of the following processing distribution rule application state (step S202) will be described.

本処理フローは、処理を処理時間の短い処理基盤へ振り分けるため、入力された処理と同一のパラメータの処理が既に処理実行履歴にあり、どちらのほうが、処理時間が短いかわかっている場合は、その処理基盤に処理を振り分け、わからない場合には、処理振分ルールを適用し、処理時間が短いと予測される処理基盤へ処理を振り分ける。   In this process flow, the process with the same parameters as the input process is already in the process execution history in order to distribute the process to the process base with a short process time, and if it is known which process time is shorter, The processing is distributed to the processing base, and if it is not known, the processing distribution rule is applied to distribute the processing to the processing base that is predicted to have a short processing time.

まず、データ処理基盤選択システム110は、ステップS501にて、クライアント100から処理要求を受け取る。   First, the data processing infrastructure selection system 110 receives a processing request from the client 100 in step S501.

次に、ステップS502にて、受け取った処理の処理パラメータが同一の処理が処理基盤決定表601に登録されているか検索する。   Next, in step S502, it is searched whether a process with the same process parameter of the received process is registered in the process infrastructure determination table 601.

処理基盤決定表601とは、同一の処理パラメータで、複合イベント処理実行基盤装置120及び並列分散処理実行基盤装置130において、それぞれでの処理時間が計測されている場合に、処理時間を比較して処理時間が短い処理基盤をその処理パラメータでの処理基盤として登録する表である。処理基盤決定表601については後述する。   The processing base determination table 601 is the same processing parameter, and when the processing time is measured in each of the composite event processing execution base device 120 and the parallel distributed processing execution base device 130, the processing time is compared. 7 is a table for registering a processing base having a short processing time as a processing base with the processing parameters. The processing base determination table 601 will be described later.

処理基盤決定表601への行の登録について、処理実行履歴DB114を例に説明すると、処理実行履歴DB114の1行目と2行目のように、処理基盤以外のすべての処理パラメータが同一である行が登録された場合、その行の処理時間を比較して処理時間の短い処理基盤を処理基盤決定表601の振り分け処理基盤に登録する。   The registration of a row in the processing base determination table 601 will be described by taking the processing execution history DB 114 as an example. As in the first and second rows of the processing execution history DB 114, all processing parameters other than the processing base are the same. When a row is registered, the processing time of the row is compared and a processing base with a short processing time is registered in the distribution processing base of the processing base determination table 601.

処理基盤決定表601に、同一パラメータの処理が記録されている場合は、処理基盤決定表601に従い、ステップS503において、処理を振り分ける。   If processing of the same parameter is recorded in the processing base determination table 601, the processing is distributed in step S503 according to the processing base determination table 601.

処理基盤決定表601に同一のパラメータの処理が記録されていない場合は、処理振分ルールに従い、ステップS504にて、処理を振り分ける。   If processing of the same parameter is not recorded in the processing base determination table 601, the processing is distributed in step S504 according to the processing distribution rule.

次に、ステップS505にて、処理が複合イベント処理実行基盤装置120、並列分散処理実行基盤装置130、いずれかに振り分けられた処理基盤で処理を実行する。   Next, in step S505, the processing is executed on the processing base distributed to either the composite event processing execution base device 120 or the parallel distributed processing execution base device 130.

ステップS506にて、処理基盤で実行したら処理時間をデータ処理基盤選択システム110に通知して、処理実行履歴DB114に記録する。   In step S506, when the processing is executed on the processing base, the processing time is notified to the data processing base selection system 110 and recorded in the processing execution history DB 114.

次いで、ステップS507にて、処理実行履歴DB114のテーブル401に記録したら、処理基盤決定表601への登録条件を満たしている行、つまり処理基盤以外のすべての処理パラメータが同一である行が登録されているかを調べる。
ここで、登録条件を満たしている行があれば、ステップS508にて、処理基盤決定表601に登録を行う。しかるのち、登録条件を満たしている行がなければ、処理を終了する。
Next, after recording in the table 401 of the process execution history DB 114 in step S507, a line that satisfies the registration condition in the process infrastructure determination table 601 is registered, that is, a line in which all process parameters other than the process infrastructure are the same. Find out.
Here, if there is a row satisfying the registration condition, registration is performed in the processing infrastructure determination table 601 in step S508. Thereafter, if there is no line satisfying the registration condition, the process is terminated.

以上の処理フローにより、入力された処理を処理時間の短くなると予想される処理基盤へ振り分けることができる。   With the above processing flow, it is possible to distribute the input processing to a processing base expected to shorten the processing time.

図6は処理基盤決定表の例を示す図である。
同図において、処理基盤決定表601は、フィールドとして、処理ID6011、データサイズ6012、到着間隔6013、実行中処理数6014、CPU利用率6015、メモリ利用率6016、振り分け処理基盤6017、の各項目を有する。
FIG. 6 is a diagram illustrating an example of the processing infrastructure determination table.
In the figure, the processing base determination table 601 includes, as fields, processing ID 6011, data size 6012, arrival interval 6013, number of processes being executed 6014, CPU usage rate 6015, memory usage rate 6016, and allocation processing base 6017. Have.

データサイズ6012、到着間隔6013、実行中処理数6014、CPU利用率6015、メモリ利用率6016は、すべて処理実行履歴DB114と同一の意味である。   Data size 6012, arrival interval 6013, number of processes being executed 6014, CPU usage rate 6015, and memory usage rate 6016 all have the same meaning as the processing execution history DB 114.

振分処理基盤6017は処理を振り分ける基盤を格納している。例えば、処理基盤決定表601の1行目(処理ID0001)は、データサイズ6012が30MB、到着間隔6013が0.5秒、実行中処理数6014が0個、CPU利用率6015が0−50%、メモリ利用率6016が0−50%で処理が入力された時は、並列分散処理実行基盤装置130に処理を振り分けることを意味している。   The distribution processing base 6017 stores a base for distributing processing. For example, in the first row (processing ID 0001) of the processing infrastructure determination table 601, the data size 6012 is 30 MB, the arrival interval 6013 is 0.5 seconds, the number of running processes 6014 is 0, and the CPU usage rate 6015 is 0-50%. When the memory usage rate 6016 is 0-50% and processing is input, it means that the processing is distributed to the parallel distributed processing execution platform device 130.

図7は本発明の処理振分ルール適用部における処理振り分けルール更新例を示すフローチャートである。
同図において、処理振り分けルール更新状態(ステップ203)の処理について説明する。
FIG. 7 is a flowchart showing an example of processing distribution rule update in the processing distribution rule application unit of the present invention.
In the figure, the process in the process distribution rule update state (step 203) will be described.

本処理フローは、予測処理時間と実際の処理時間の誤差が大きくなったとき、処理振分ルールが適当でなくなったと判断して処理振分ルールを更新するために実行する。処理振分ルール適用状態で記録した処理実行履歴をもとに処理振分ルールを再作成する。   This processing flow is executed to update the processing distribution rule by determining that the processing distribution rule is no longer appropriate when the error between the predicted processing time and the actual processing time becomes large. A process distribution rule is re-created based on the process execution history recorded in the process distribution rule application state.

まず、ステップS701にて、処理振分けルール作成完了フラグをfalseに設定する。   First, in step S701, a processing distribution rule creation completion flag is set to false.

次に、ステップS702にて、処理振分ルール適用状態(ステップS202参照)で処理実行履歴DB114のテーブル401に記録した処理パラメータと処理時間をもとに処理振り分けルールを再作成する。   Next, in step S702, a process distribution rule is re-created based on the process parameters and processing time recorded in the table 401 of the process execution history DB 114 in the process distribution rule application state (see step S202).

処理振分ルールの再作成が完了したら、ステップS703にて、処理振り分けルール作成完了フラグをtrueに設定して処理を終了する。   When the re-creation of the process distribution rule is completed, the process distribution rule creation completion flag is set to true in step S703, and the process ends.

以上の処理フローにより、処理振り分けルールを更新することができ、常に処理に適したルールを適用することが可能となる。   With the above processing flow, the process distribution rule can be updated, and a rule suitable for the process can always be applied.

次に、本発明の処理振分ルール適用部における処理振分ルールについて説明する。処理振分ルールとしては、例えば、(1)回帰分析を用いた処理振分ルール、(2)決定ツリー分析を使った処理振分ルール、(3)サポートベクターマシン(SVM)を利用した処理振分ルール、を用いる。   Next, the processing distribution rule in the processing distribution rule application unit of the present invention will be described. Examples of the process distribution rule include (1) a process distribution rule using regression analysis, (2) a process distribution rule using decision tree analysis, and (3) a process distribution using a support vector machine (SVM). Use the minute rule.

以下、これらのルールについて説明する。
(1)回帰分析を用いた処理振分ルール
図8は本発明の処理振分ルール適用部における処理振り分けルールの一例を示す図である。
Hereinafter, these rules will be described.
(1) Process distribution rule using regression analysis FIG. 8 is a diagram showing an example of a process distribution rule in the process distribution rule application unit of the present invention.

同図において、回帰分析により、複合イベント処理、並列分散処理、それぞれの予測処理時間を求める回帰モデルを作成し、予測処理時間を比較して予測処理時間の短いほうへ処理を振り分けるルールを作成する。   In the figure, by regression analysis, create a regression model that calculates the complex event processing, parallel distributed processing, each prediction processing time, compare the prediction processing time, and create a rule that distributes the processing to the shorter prediction processing time .

回帰分析とは、何らかの変化する値があるとき、その変動の原因を統計的に究明し、その関係を表す回帰モデルと呼ばれる数式を求めることである。   Regression analysis is to investigate the cause of the fluctuation statistically when there are some changing values, and to obtain a mathematical expression called a regression model that expresses the relationship.

回帰分析に処理振り分けルールを作成するためには、まず、処理実行履歴DB114のテーブル401に記録されているデータから、複合イベント処理での処理時間T1を予測するための数式(801)を求める。   In order to create a process distribution rule for regression analysis, first, a formula (801) for predicting the processing time T1 in the composite event process is obtained from the data recorded in the table 401 of the process execution history DB 114.

Figure 2015108993
数式801
Figure 2015108993
Formula 801

数式(801)では、複合イベント処理での処理時間T1を予測するためにデータサイズx1、到着間隔x2、実行中処理数x3、CPU利用率x4、メモリ利用率x5の変数を用いているが、これは一例であり予測に利用する変数は様々に変化しうる。
同様にして、並列分散処理での処理時間T2を予測するための数式(802)を求める。
In formula (801), variables of data size x1, arrival interval x2, number of processes being executed x3, CPU usage rate x4, and memory usage rate x5 are used to predict the processing time T1 in the composite event processing. This is an example, and variables used for prediction can vary.
Similarly, a mathematical formula (802) for predicting the processing time T2 in the parallel distributed processing is obtained.

Figure 2015108993
数式802
Figure 2015108993
Formula 802

この2つの数式(801、802)も用いて処理振り分けルール(803)を作成する。
例えば、入力された処理の処理パラメータを数式(801、802)に代入し、T1、T2を求め、T1>T2であれば、並列分散処理基盤のほうが、処理時間が短いと予測できるため、並列分散処理実行基盤装置130に処理を振り分ける。
A processing distribution rule (803) is created using these two mathematical formulas (801, 802).
For example, the processing parameters of the input processing are substituted into the formulas (801, 802) to obtain T1 and T2. If T1> T2, the parallel distributed processing platform can be predicted to have a shorter processing time. The processing is distributed to the distributed processing execution platform apparatus 130.

ここで、T1≦T2であれば、複合イベント処理のほうが、処理時間が短いと予測できるため、複合イベント処理実行基盤装置120に処理を振り分けるという処理振分けルールを作成する。   Here, if T1 ≦ T2, it can be predicted that the processing time is shorter in the composite event processing, so a processing distribution rule for distributing the processing to the composite event processing execution base device 120 is created.

以上により、回帰モデルで求めた予測処理時間をもとに、複合イベント処理と並列分散処理のいずれかに処理を振り分けることが可能となる。   As described above, based on the prediction processing time obtained by the regression model, it is possible to distribute the processing to either the composite event processing or the parallel distributed processing.

(2)決定ツリー分析を使った処理振分ルール
図9は本発明の処理振分ルール適用部における処理振り分けルールの他の例を示す図である。
(2) Processing Distribution Rule Using Decision Tree Analysis FIG. 9 is a diagram showing another example of the processing distribution rule in the processing distribution rule application unit of the present invention.

同図において、決定ツリー分析により、処理を集合に分類し、分類ごとに振り分ける処理基盤を決めることで処理を振り分けるルールを作成する。   In the same figure, rules are assigned by classifying processes into sets by decision tree analysis, and by deciding a processing base for allocating each class.

決定ツリー分析とは、全体の集合を条件により分割していき、全体の集合を特徴のあるいくつかの集合に分類する手法で、集合の分割を木構造で表現する。決定木を使った処理振分ルール901では、木の節には集合を分割する条件が設定され、葉にはそれぞれ分割された集合がどちらの処理基盤に処理を振り分けるかが設定される。   Decision tree analysis is a technique of dividing an entire set according to conditions and classifying the entire set into several characteristic sets. The division of the set is expressed in a tree structure. In the processing distribution rule 901 using the decision tree, a condition for dividing the set is set in the node of the tree, and to which processing base the divided set is assigned to the leaf is set.

例えば、処理振り分けルール901の左から一つ目の葉902に分類された処理は、並列分散処理実行基盤側に処理が振り分けられ、左から3番目の葉903に分類された処理は複合イベント処理実行基盤装側に処理が振り分けられる。   For example, the processing classified into the first leaf 902 from the left of the processing distribution rule 901 is distributed to the parallel distributed processing execution platform side, and the processing classified into the third leaf 903 from the left is the composite event processing. Processing is distributed to the execution platform.

処理振り分けルール適用状態(図2のステップS202参照)から処理振り分けルール更新状態(図2のステップS203参照)への移行条件の確認に必要な予測処理時間は、集合に含まれる要素の処理時間の平均値とする。決定木の作成アルゴリズムは様々考案されており、ここではそのアルゴリズムは特に問わない。   The predicted processing time required for checking the transition condition from the processing distribution rule application state (see step S202 in FIG. 2) to the processing distribution rule update state (see step S203 in FIG. 2) is the processing time of the elements included in the set. Average value. Various algorithms for creating a decision tree have been devised, and the algorithm is not particularly limited here.

例えば、C4.5(Quinlan. J. R,”C4.5: Programs for Machine Learning”, Morgan Kaufmann Publishers, 1993.)、CART(L.Breiman, J.H.Friedman, R.A.Olshen and C.J.Stone, "Classification and Regression Trees", Wadsworth, 1984)、CHAID(Kass, Gordon V. ,“An Exploratory Technique for Investigating Large Quantities of Categorical Data”, Applied Statistics, Vol.29,
No.2 (1980), pp.119-127,1980)等のアルゴリズムがある。
For example, C4.5 (Quinlan. J. R, “C4.5: Programs for Machine Learning”, Morgan Kaufmann Publishers, 1993.), CART (L. Breiman, JHFriedman, RAOlshen and CJStone, “Classification and Regression Trees”, Wadsworth, 1984), CHAID (Kass, Gordon V., “An Exploratory Technique for Investigating Large Quantities of Categorical Data”, Applied Statistics, Vol. 29,
No. 2 (1980), pp.119-127, 1980).

以上により、決定ツリー分析で作成した分類をもとに、複合イベント処理と並列分散処理のいずれかに処理を振り分けることが可能となる。   As described above, processing can be distributed to either composite event processing or parallel distributed processing based on the classification created by decision tree analysis.

(3)サポートベクターマシン(SVM)を利用した処理振分ルール
図10は本発明の処理振分ルール適用部における処理振り分けルールの更に他の例を示す図である。
(3) Processing Distribution Rule Using Support Vector Machine (SVM) FIG. 10 is a diagram showing still another example of the processing distribution rule in the processing distribution rule application unit of the present invention.

同図において、サポートベクターマシンにより、判別器を作成し、判別器を用いて振り分ける処理基盤を決定する。   In the figure, a discriminator is created by a support vector machine, and a processing base to be distributed using the discriminator is determined.

SVMとは、事前に与えられたデータから識別器を作成し、その識別器を利用して未知のデータの識別を行う手法である。   SVM is a method of creating a discriminator from data given in advance and identifying unknown data using the discriminator.

処理振分ルールを作成するには、まず、事前に与えられている処理の処理パラメータ

Figure 2015108993
を利用して判別器1001を作成する。
Figure 2015108993
To create a process distribution rule, first, process parameters of the process that is given in advance
Figure 2015108993
The discriminator 1001 is created using
Figure 2015108993

この判別器では、データサイズ、到着間隔、実行中処理数、CPU利用率、メモリ利用率を与えると+1もしくは−1が出力される。この判別器を利用して、以下の処理振分ルール1002を作成する。   This discriminator outputs +1 or -1 when a data size, arrival interval, number of processes being executed, CPU usage rate, and memory usage rate are given. Using this discriminator, the following processing distribution rule 1002 is created.

ここで
f(x)=+1ならば、並列分散処理実行基盤側に処理を振り分ける。
f(x)=−1ならば、複合イベント処理実行基盤側に処理を振り分ける。
If f (x) = + 1, the process is distributed to the parallel distributed processing execution platform side.
If f (x) = − 1, the process is distributed to the complex event process execution platform.

処理振分ルール1002では、判別器1001の出力結果が+1ならば、並列分散処理実行基盤側に処理を振り分ける。   In the process distribution rule 1002, if the output result of the discriminator 1001 is +1, the process is distributed to the parallel distributed processing execution platform side.

判別器1001の出力結果が−1ならば、複合イベント処理実行基盤側に処理を振り分ける。SVMでの判別器1001の作成アルゴリズムは改良が多く加えられており様々存在するが、ここでは特に作成アルゴリズムは問わない。   If the output result of the discriminator 1001 is -1, the process is distributed to the composite event process execution platform. There are various improvements in the creation algorithm of the discriminator 1001 in SVM, and there are various creation algorithms. However, the creation algorithm is not particularly limited here.

例えば、参考文献(Cortes, Corinna; and Vapnik, Vladimir N. "Support-Vector Networks", Machine Learning, 20, 1995.)で提案されているアルゴリズム等がある。   For example, there are algorithms proposed in the reference (Cortes, Corinna; and Vapnik, Vladimir N. “Support-Vector Networks”, Machine Learning, 20, 1995.).

以上により、サポートベクターマシンで作成した判別器をもとに、複合イベント処理と並列分散処理のいずれかに処理を振り分けることが可能となる。   As described above, processing can be distributed to either composite event processing or parallel distributed processing based on the discriminator created by the support vector machine.

以上述べた実施例によれば、処理時間をもとに複合イベント処理と並列分散処理どちらに処理を振り分けるか自動で決定するため利用者の能力に依存しない処理の振り分けを実現することができる。   According to the embodiment described above, since it is automatically determined whether the process is distributed to the composite event process or the parallel distributed process based on the processing time, it is possible to realize the process distribution independent of the ability of the user.

また、予測処理時間と実際の処理時間との誤差が大きくなったことを検出してルールを更新することで、処理内容の変化や処理基盤の処理能力の変化に対応した処理の振り分けが可能となる。   In addition, by detecting that the error between the predicted processing time and the actual processing time has increased, and updating the rules, it is possible to distribute processing in response to changes in processing content and processing capacity of processing infrastructure Become.

なお、本発明は上述した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
In addition, this invention is not limited to the Example mentioned above, Various modifications are included. For example, the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described. In addition, it is possible to add, delete, and replace other configurations for a part of the configuration of the embodiment.
Each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit. Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor. Information such as programs, tables, and files that realize each function can be stored in a recording device such as a memory or a hard disk, or a recording medium such as an IC card, an SD card, or a DVD.
Further, the control lines and information lines indicate what is considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. Actually, it may be considered that almost all the components are connected to each other.

複合イベント処理と並列分散処理の両方が実行可能な基盤製品における処理基盤選択機能に活用できる。   It can be used for the processing platform selection function in platform products that can execute both complex event processing and parallel distributed processing.

100 クライアント
110 データ処理基盤選択システム
111 処理時間記録部
112 振分ルール生成部
113 振分ルール適用部
114 処理実行履歴DB
115 振分ルールDB
120 複合イベント処理実行基盤装置
121 複合イベント処理実行部
122 処理時間通知部
130 並列分散処理実行基盤装置
131 並列分散処理実行部
132 処理時間通知部
DESCRIPTION OF SYMBOLS 100 Client 110 Data processing base selection system 111 Processing time recording part 112 Distribution rule production | generation part 113 Distribution rule application part 114 Process execution log | history DB
115 Distribution rule DB
120 Complex Event Processing Execution Platform 121 Complex Event Processing Execution Unit 122 Processing Time Notification Unit 130 Parallel Distributed Processing Execution Platform Device 131 Parallel Distributed Processing Execution Unit 132 Processing Time Notification Unit

Claims (11)

高頻度で入力される大量のデータを処理する第1のデータ処理基盤装置と、
大量データに対する処理を複数のデータ処理部にて並列的に処理する第2のデータ処理基盤装置と
を有するデータ処理基盤自動選択システムであって、
データ処理基盤自動選択システムは、さらに、
前記第1および第2のデータ処理基盤装置で実行したデータ処理の処理時間を記録する処理時間記録部と、
前記記録した処理時間を利用して処理時間が短くなる第1および第2のデータ処理基盤を予測し、前記データ処理を振り分ける処理振分ルールを作成するルール作成部と、
前記作成した処理振分ルールに従い、クライアント側から入力されたデータの処理を処理時間が短い方の前記第1または第2のデータ処理基盤装置に振り分けるルール適用部と、
を有することを特徴とするデータ処理基盤自動選択システム。
A first data processing infrastructure device for processing a large amount of data input at a high frequency;
A data processing infrastructure automatic selection system comprising: a second data processing infrastructure device that processes a large amount of data in parallel in a plurality of data processing units;
The data processing infrastructure automatic selection system
A processing time recording unit for recording a processing time of data processing executed by the first and second data processing infrastructure devices;
A rule creation unit that predicts the first and second data processing bases in which the processing time is shortened using the recorded processing time, and creates a processing distribution rule that distributes the data processing;
In accordance with the created processing distribution rule, a rule application unit that distributes processing of data input from the client side to the first or second data processing infrastructure device having a shorter processing time;
A data processing infrastructure automatic selection system characterized by comprising:
請求項1記載のデータ処理基盤自動選択システムにおいて、
前記第1のデータ処理基盤装置は、前記入力データを複合イベント処理するサーバからなり、前記第2のデータ処理基盤装置は、前記入力データを並列分散処理する複数のサーバからなり、
前記処理振分ルール部は、
前記予測した処理時間と実際の処理時間の差が大きくなった場合に前記処理振分ルールの再作成を行うルール処理振分ルール更新部を有する
ことを特徴とするデータ処理基盤自動選択システム。
In the data processing infrastructure automatic selection system according to claim 1,
The first data processing infrastructure device includes a server that performs composite event processing on the input data, and the second data processing infrastructure device includes a plurality of servers that perform parallel and distributed processing on the input data.
The processing distribution rule part is
A data processing infrastructure automatic selection system comprising: a rule processing distribution rule updating unit that re-creates the processing distribution rule when a difference between the predicted processing time and an actual processing time becomes large.
高頻度で入力される大量のデータを高速に処理する複合イベント処理方式の第1のデータ処理基盤装置と、
大量のデータを複数に分割し、当該複数に分割したデータの処理を複数の処理サーバで並列的に実行する並列分散処理方式の第2のデータ処理基盤装置と、
を有するデータ処理基盤自動選択システムにおいて
前記大量のデータが入力された際に前記第1のデータ処理基盤装置および第2のデータ処理基盤装置で並列に処理を実行し、当該処理実行時の処理時間を含む処理実行履歴を処理実行履歴部に蓄積する手段と、
前記蓄積した処理実行履歴から処理時間の短くなると予測した第1または第2のデータ処理基盤装置に処理を振り分けるためのルールを生成し、データを振分ける機能を含む、手段を
有することを特徴とするデータ処理基盤自動選択システム。
A first data processing infrastructure device of a complex event processing method for processing a large amount of data input at a high frequency at high speed;
A second data processing infrastructure device of a parallel distributed processing system that divides a large amount of data into a plurality of pieces and executes processing of the divided pieces of data in parallel on a plurality of processing servers;
When the large amount of data is input, the first data processing base device and the second data processing base device execute processing in parallel when the large amount of data is input, and the processing time when the processing is executed Means for storing a process execution history including
A means for generating a rule for allocating a process to the first or second data processing infrastructure device predicted to reduce the processing time from the accumulated process execution history, and having a function of allocating the data. Data processing infrastructure automatic selection system.
請求項3に記載のデータ処理基盤自動選択システムにおいて、
前記処理実行履歴部は、
データサイズ、到着間隔、処理基盤、実行中処理数、CPU利用率、メモリ利用率、処理時間の要素を有する
ことを特徴とするデータ処理基盤自動選択システム。
In the data processing infrastructure automatic selection system according to claim 3,
The process execution history part
A data processing infrastructure automatic selection system comprising elements of data size, arrival interval, processing infrastructure, number of processes being executed, CPU usage rate, memory usage rate, and processing time.
請求項3に記載のデータ処理基盤自動選択システムにおける処理振分ルール作成方法であって、
前記データ処理基盤選択システムのルールを生成し、振分ける機能を含む手段は、処理振分ルールを回帰分析方法により生成し、振分けるものであり、
前記第1および第2のデータ処理基盤装置の処理実行履歴を入力として回帰分析し、当該回帰分析から処理時間を予測するモデルを作成し、
作成したモデルで予測した処理時間をもとに処理時間の短い、前記第1または第2のデータ処理基盤装置へ処理を振り分ける
ことを特徴とする処理振分ルール作成方法。
A processing distribution rule creation method in the data processing infrastructure automatic selection system according to claim 3,
Means including a function for generating and distributing a rule of the data processing infrastructure selection system is to generate and distribute a processing distribution rule by a regression analysis method,
Regression analysis is performed using the processing execution history of the first and second data processing infrastructure devices as input, and a model for predicting the processing time from the regression analysis is created,
A processing distribution rule creation method, wherein processing is distributed to the first or second data processing infrastructure device having a short processing time based on the processing time predicted by the created model.
請求項3に記載のデータ処理基盤自動選択システムにおける処理振分ルール作成方法であって、
前記データ処理基盤選択システムのルールを生成し、振分ける機能を含む手段は、前記処理振分ルールを決定ツリー方法により生成し、振分けるものであり、
第1及び第2のデータ処理基盤装置の処理実行履歴を入力として決定ツリー分析を行い、当該決定ツリー分析から処理を集合に分類するルールを作成し、
集合ごとに前記第1および第2のデータ処理基盤装置の予測処理時間を求め、
予測した処理時間の短い第1または第1のデータ処理基盤装置へ処理を振り分ける
ことを特徴とする処理振分ルール作成方法。
A processing distribution rule creation method in the data processing infrastructure automatic selection system according to claim 3,
Means including a function for generating and distributing a rule of the data processing infrastructure selection system generates and distributes the processing distribution rule by a decision tree method,
A decision tree analysis is performed using the process execution histories of the first and second data processing infrastructure devices as inputs, and a rule for classifying the processes into sets from the decision tree analysis is created.
For each set, obtain a predicted processing time of the first and second data processing infrastructure devices,
A method for creating a processing distribution rule, characterized in that processing is distributed to the first or first data processing infrastructure device having a short predicted processing time.
請求項3に記載のデータ処理基盤自動選択システムにおける処理振分ルール作成方法であって、
前記データ処理基盤選択システムのルールを生成し、振分ける機能を含む手段は、前記処理振分ルールをサポートベクターマシンにより生成し、振分けるものであり、
第1及び第2のデータ処理基盤装置の処理実行履歴を入力として前記第1または第2のデータ処理基盤装置を判別する判別器を作成し、
前記判別器により判別された第1または第2の処理基盤装置へ処理を振り分ける
ことを特徴とする処理振分ルール作成方法。
A processing distribution rule creation method in the data processing infrastructure automatic selection system according to claim 3,
Means including a function for generating and distributing rules of the data processing infrastructure selection system is to generate and distribute the processing distribution rules by a support vector machine,
Creating a discriminator for discriminating between the first and second data processing infrastructure devices using the processing execution history of the first and second data processing infrastructure devices as input;
A method for creating a processing distribution rule, wherein the processing is distributed to the first or second processing base device determined by the classifier.
高頻度で入力される大量のデータを高速に処理する複合イベント処理方式の第1のデータ処理基盤装置と、
大量のデータを複数に分割し、当該複数に分解したデータの処理を複数の処理サーバで並列的に実行する並列分散処理方式の第2のデータ処理基盤装置と、
を処理振分ルールに基づいて、データの処理を前記第1または第2のデータ処理基盤装置の一方に振り分ける処理基盤自動選択システムにおける処理振分ルール作成方法であって、
入力されたデータの処理を前記第1または第2の処理基盤装置に振り分ける際、
前記第1および第2のデータ処理基盤装置において、前記入力されたデータの処理と同一の処理パラメータの処理が実行されている場合は、前記第1および第2のデータ処理基盤装置で記録された処理時間をもとに処理時間の短い第1または第2のデータ処理基盤装置へ処理を振り分け、
前記入力されたデータの処理と同一の処理パラメータの処理が実行されていない場合は前記処理振分ルールにより、前記第1または第2のデータ処理基盤装置に処理を振り分ける
ことを特徴とするデータ処理基盤選択システム。
A first data processing infrastructure device of a complex event processing method for processing a large amount of data input at a high frequency at high speed;
A second data processing infrastructure device of a parallel distributed processing system that divides a large amount of data into a plurality of pieces and executes the processing of the decomposed data in a plurality of processing servers in parallel;
A processing allocation rule creation method in a processing infrastructure automatic selection system that distributes data processing to one of the first or second data processing infrastructure devices based on processing allocation rules,
When distributing the processing of the input data to the first or second processing infrastructure device,
In the first and second data processing infrastructure devices, when processing of the same processing parameters as the processing of the input data is being executed, the processing is recorded in the first and second data processing infrastructure devices Based on the processing time, the processing is distributed to the first or second data processing infrastructure device having a short processing time,
Data processing characterized by allocating processing to the first or second data processing infrastructure device according to the processing distribution rule when processing of the same processing parameter as processing of the input data is not executed Base selection system.
クライアントからのデータを受け、当該データを処理する第1のデータ処理手段、又は当該第1のデータ処理手段とは処理方法が相違する第2のデータ処理手段に自動的に振り分ける機能を有するデータ処理基盤選択システムであって、
処理時間記録手段、処理振分ルール作成手段、処理振分ルール適用手段、を有し、
前記処理時間記録手段は、
前記第1のデータ処理手段において前記データを処理する第1の処理時間、前記第2のデータ処理手段において前記データを処理する第2の処理時間、を記憶し、
前記処理振分ルール作成手段は、
前記第1、第2の処理時間から処理時間が短い方の前記第1又は第2のデータ処理手段を予測し、処理を振り分ける処理振分ルールを作成し、
前記処理振分ルール適用手段は、
前記クライアントからのデータを前記処理振分ルールに基づいて前記第1又は第2のデータ処理手段に振り分ける
ことを特徴とするデータ処理基盤選択システム。
Data processing having a function of receiving data from a client and automatically distributing the data to first data processing means for processing the data, or second data processing means having a different processing method from the first data processing means A platform selection system,
Processing time recording means, processing distribution rule creation means, processing distribution rule application means,
The processing time recording means is
Storing a first processing time for processing the data in the first data processing means and a second processing time for processing the data in the second data processing means;
The processing distribution rule creation means includes:
Predicting the first or second data processing means having a shorter processing time from the first and second processing times, and creating a processing distribution rule for distributing the processing,
The processing distribution rule applying means is:
A data processing infrastructure selection system, wherein data from the client is distributed to the first or second data processing means based on the processing distribution rule.
請求項9に記載のデータ処理基盤選択システムにおいて、
前記処理振分ルールが、回帰分析、決定ツリー分析、サポートベクターマシン、の何れかを使用した処理振分ルールであることを特徴とするデータ処理基盤選択システム。
The data processing infrastructure selection system according to claim 9,
A data processing infrastructure selection system, wherein the processing distribution rule is a processing distribution rule using any of regression analysis, decision tree analysis, and support vector machine.
請求項9に記載のデータ処理基盤選択システムにおいて、
前記処理振分ルール適用手段は、
前記クライアントからのデータを前記処理振分ルールに基づいて前記第1又は第2のデータ処理手段に振り分けたあと、前記処理時間が予測処理時間+許容誤差を超えた場合、前記処理振分ルールを更新し、前記データを前記第2又は第1の処理手段に振り分け、
前記予測処理時間は前記処理時間の過去から回帰分析、決定ツリー分析、サポートベクターマシン、何れかの統計手法を用いて予測した時間であり、前記許容誤差は前記処理時間と前記予測時間の差で許容できる誤差の値である、
ことを特徴とするデータ処理基盤選択システム。
The data processing infrastructure selection system according to claim 9,
The processing distribution rule applying means is:
After the data from the client is distributed to the first or second data processing means based on the processing distribution rule, when the processing time exceeds the estimated processing time + allowable error, the processing distribution rule is Update, distribute the data to the second or first processing means,
The predicted processing time is a time predicted from the past of the processing time using a regression analysis, decision tree analysis, support vector machine, or any statistical method, and the allowable error is a difference between the processing time and the predicted time. An acceptable error value,
A data processing infrastructure selection system characterized by that.
JP2013251712A 2013-12-05 2013-12-05 Data processing based automatic selection system and processing distribution rule creation method in data processing based automatic selection system Pending JP2015108993A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013251712A JP2015108993A (en) 2013-12-05 2013-12-05 Data processing based automatic selection system and processing distribution rule creation method in data processing based automatic selection system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013251712A JP2015108993A (en) 2013-12-05 2013-12-05 Data processing based automatic selection system and processing distribution rule creation method in data processing based automatic selection system

Publications (1)

Publication Number Publication Date
JP2015108993A true JP2015108993A (en) 2015-06-11

Family

ID=53439291

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013251712A Pending JP2015108993A (en) 2013-12-05 2013-12-05 Data processing based automatic selection system and processing distribution rule creation method in data processing based automatic selection system

Country Status (1)

Country Link
JP (1) JP2015108993A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017211802A (en) * 2016-05-25 2017-11-30 株式会社日立製作所 Acceleration device, computer system, and data processing method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017211802A (en) * 2016-05-25 2017-11-30 株式会社日立製作所 Acceleration device, computer system, and data processing method

Similar Documents

Publication Publication Date Title
US20190303200A1 (en) Dynamic Storage-Aware Job Scheduling
JP5723882B2 (en) Decentralized load balancing method and computer program in event-driven system
Fu et al. DRS: Dynamic resource scheduling for real-time analytics over fast streams
Borkowski et al. Predicting cloud resource utilization
US8479216B2 (en) Method for decentralized load distribution in an event-driven system using localized migration between physically connected nodes and load exchange protocol preventing simultaneous migration of plurality of tasks to or from a same node
JP6241300B2 (en) Job scheduling apparatus, job scheduling method, and job scheduling program
US20100153363A1 (en) Stream data processing method and system
US9910821B2 (en) Data processing method, distributed processing system, and program
You et al. A load-aware scheduler for MapReduce framework in heterogeneous cloud environments
Mondal et al. Scheduling of time-varying workloads using reinforcement learning
CN110399272B (en) Log processing device, method, electronic device, and computer-readable storage medium
CN110413585B (en) Log processing device, method, electronic device, and computer-readable storage medium
US20210366268A1 (en) Automatic tuning of incident noise
JP7234702B2 (en) Information processing device, container placement method, and container placement program
CN114556299A (en) Dynamically modifying parallelism of tasks in a pipeline
US8180716B2 (en) Method and device for forecasting computational needs of an application
JP2017117242A (en) Method and system for recommending application parameter setting and system specification setting in distributed computation
Zhou et al. Fastjoin: A skewness-aware distributed stream join system
JP6658507B2 (en) Load estimation system, information processing device, load estimation method, and computer program
Tsagkaropoulos et al. Severity: a QoS-aware approach to cloud application elasticity
JP2015194797A (en) Omitted monitoring identification processing program, omitted monitoring identification processing method and omitted monitoring identification processor
Truong et al. Performance analysis of large-scale distributed stream processing systems on the cloud
JP2015108993A (en) Data processing based automatic selection system and processing distribution rule creation method in data processing based automatic selection system
Bhowmik Machine Learning in Production: From Experimented ML Model to System
Ajeena Beegom et al. Non-dominated sorting based PSO algorithm for workflow task scheduling in cloud computing systems