JP5842704B2 - Estimation apparatus, program, and estimation method - Google Patents
Estimation apparatus, program, and estimation method Download PDFInfo
- Publication number
- JP5842704B2 JP5842704B2 JP2012072234A JP2012072234A JP5842704B2 JP 5842704 B2 JP5842704 B2 JP 5842704B2 JP 2012072234 A JP2012072234 A JP 2012072234A JP 2012072234 A JP2012072234 A JP 2012072234A JP 5842704 B2 JP5842704 B2 JP 5842704B2
- Authority
- JP
- Japan
- Prior art keywords
- class
- frequency distribution
- input data
- data
- execution time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、バッチジョブの実行時間を精度良く推定することに関する。 The present invention relates to accurately estimating the execution time of a batch job.
バッチジョブがネットワークに繋がっているバッチジョブネットワークにおいて、全てのバッチジョブを予定終了時刻に完了させるために、入力データに対するバッチジョブの実行時間を予測して、適切な開始時刻を設定することが求められている。 In a batch job network where batch jobs are connected to the network, in order to complete all batch jobs at the scheduled end time, it is necessary to predict the execution time of the batch job for the input data and set an appropriate start time. It has been.
例えば、入力データ量から実行時間を推定するモデルを用いることが提案されている。過去の各バッチジョブの入力データ量から出力データ量と実行時間を推定するモデルを作成し、作成したモデルを用いて今回の入力データ量から出力データ量と実行時間を推定して、出力データ量を後続のバッチジョブの実行時間の推定の際に入力データ量として用いること、バッチジョブの統計量を求めるためのモデルを複数用意し、複数のモデルの中から最適なモデルとそのパラメータを小規模データを用いた測定結果から決定して、決定したパラメータを用いて大規模データの処理時の統計量を推定すること等が提案されている。 For example, it has been proposed to use a model that estimates execution time from the amount of input data. Create a model that estimates the output data amount and execution time from the input data amount of each past batch job, and estimate the output data amount and execution time from the current input data amount using the created model, and output data amount Is used as the amount of input data when estimating the execution time of subsequent batch jobs, and multiple models for obtaining batch job statistics are prepared. It has been proposed to determine from a measurement result using data, and to estimate a statistic at the time of processing large-scale data using the determined parameter.
また、入力データ項目を格納するファイルやデータベースを読み込むプログラムを抽出し、各プログラムに対して、各対象項目に対応する入力レコード中の変数を起点として影響検索を行うことによって、入力データ項目の値域の変更がアプリケーションの保守に与える影響を分析する等が知られている。 In addition, by extracting the program that reads the file or database that stores the input data items and performing an impact search on each program starting from the variable in the input record corresponding to each target item, the range of the input data item It is known to analyze the effect of changes in application maintenance on applications.
上述従来技術では、入力データ量のみで出力データ量と実行時間とを推定していた。このような実行時間の推定では、複数のフィールドで構成される入力データのレコードを1件ずつ処理するバッチジョブの場合、入力データの値の分布によって出力データ量と実行時間とが大きく変化するため、推定誤差が大きくなってしまうと言った問題があった。 In the above prior art, the output data amount and the execution time are estimated only by the input data amount. In such an execution time estimation, in the case of a batch job that processes records of input data composed of a plurality of fields one by one, the output data amount and the execution time greatly vary depending on the distribution of input data values. There was a problem that the estimation error would increase.
開示の実行時間推定装置は、出力データに影響する入力データのフィールドの値を階級分けした階級毎に、分類された該入力データの入力度数を設定する度数分布表と、該度数分布表の各階級にサンプリングした入力データの該入力度数を設定し、該サンプリングした入力データに対して所定処理を行うことで出力データの出力度数を得る度数分布写像を記憶する記憶部と、前記記憶部に記憶された前記度数分布表の各階級に対して、前記所定処理の対象入力データの前記入力度数を設定する設定部と、前記度数分布写像の値を係数とした一次式によって、該対象入力データに対する前記所定処理後の出力データの前記出力度数を該階級毎に取得し、取得した該階級毎の該出力度数を合計することで、前記対象入力データに対する前記出力度数を推定する出力度数推定部とを有する。 Execution time estimation apparatus disclosed the value of the field of the input data that affects the output data for each class obtained by class classification, the frequency distribution table for setting the input power of classified said input data, each of該度number distribution table set the input frequency of the input data sampled in class, a storage unit for storing the frequency distribution map to obtain an output frequency of the output data by performing a predetermined process on the input data the sampling, stored in the storage unit For each class of the frequency distribution table , the setting unit for setting the input frequency of the target input data of the predetermined process, and a linear expression using the value of the frequency distribution map as a coefficient, The output frequency of the output data after the predetermined processing is acquired for each class, and the output frequency for the target input data is obtained by summing the acquired output frequencies for each class. Estimating a and an output power estimator.
よって、本発明の目的は、バッチジョブにおける出力データ量や実行時間をより良い精度で推定できるようにすることである。 Therefore, an object of the present invention is to enable estimation of output data amount and execution time in a batch job with better accuracy.
開示の実行時間推定装置は、階級毎に入力データの度数の分布を示す度数分布表と、該度数分布表に基づく入力データから所定処理による結果情報への写像を記憶する記憶部と、前記記憶部に記憶された前記度数分布表を入力とする該記憶部に記憶された前記結果情報への写像を用いた計算結果に基づいて、前記入力データに対する前記所定処理の実行時間を推定する実行時間推定部とを有する。 The disclosed execution time estimation device includes a frequency distribution table indicating a frequency distribution of input data for each class, a storage unit for storing a mapping from input data based on the frequency distribution table to result information by a predetermined process, and the storage An execution time for estimating the execution time of the predetermined process on the input data based on a calculation result using a mapping to the result information stored in the storage unit that receives the frequency distribution table stored in the storage unit And an estimation unit.
また、上記課題を解決するための手段として、コンピュータに上記実行時間推定装置として機能させるためのプログラム、実行時間推定方法、及びそのプログラムを記録した記録媒体とすることもできる。 Further, as means for solving the above problems, a program for causing a computer to function as the execution time estimation apparatus, an execution time estimation method, and a recording medium on which the program is recorded can be used.
開示の技術では、バッチジョブのソース情報が不明であっても、バッチジョブの実行時間を精度良く推測することができる。 With the disclosed technology, it is possible to accurately estimate the execution time of a batch job even if the source information of the batch job is unknown.
以下、本発明の実施の形態を図面に基づいて説明する。本実施の形態では、複数のフィールドで構成される入力データのレコードを1件ずつ処理するようなバッチジョブについて、入力データの度数分布から度数分布写像と実行時間写像を用いて出力データの度数分布と実行時間とを推定する。本実施の形態によって、バッチジョブのソース情報が不明であっても出力データ量と実行時間とを高精度に推定することを可能とする。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the present embodiment, for batch jobs that process records of input data composed of a plurality of fields one by one, the frequency distribution of output data using the frequency distribution mapping and the execution time mapping from the frequency distribution of the input data And the execution time. This embodiment makes it possible to estimate the output data amount and the execution time with high accuracy even when the source information of the batch job is unknown.
図1は、本実施の形態に係るバッチジョブの実行時間推定方法を説明するための図である。図1において、バッチジョブの実行時間推定方法では、入力データの度数分布3及び出力データの度数分布4の各々で変量として用いるフィールド(以下、変量フィールドと言う)を決定し、入力データの度数分布3及び出力データの度数分布4の各々の度数分布表を作成する(変量フィールド決定方法)。変量フィールド決定方法については、後述される。
FIG. 1 is a diagram for explaining a batch job execution time estimation method according to the present embodiment. In FIG. 1, in the batch job execution time estimation method, a field used as a variable (hereinafter referred to as a variable field) is determined for each of the
以下を生成し、出力データの度数分布4と実行時間5とを推定する。
The following is generated, and the
・入力データの度数分布3を生成する
入力データの度数分布3は、実際は、複数の変量からなる多次元度数分布3−2であり、バッチジョブの実行時間推定方法は、このような多次元度数分布3−2を扱う。
Generate the
・度数分布写像fを生成する。 Generate a frequency distribution map f.
度数分布写像fは、入力データの度数分布3の各階級に属するレコードが出力データの度数分布4のどの階級に出力されるかを表す。
The frequency distribution map f indicates to which class of the
・実行時間写像gは、入力データの度数分布3の階級毎のレコード1件当たりのバッチジョブ平均実行時間を表す。
The execution time map g represents the average execution time of batch jobs per record for each class of the
次に、度数分布写像fを生成する度数分布写像生成方法を説明する。図2及び図3は、度数分布写像生成方法を説明するための図である。図2において、フィールドの名前、型、値域などの情報を含む既知の入出力データのスキーマ6の入出力データのレコード件数を見積もって、バッチジョブ2で方法を行う(ステップS11)。レコード件数の見積値は、例えば、1000件である。
Next, a frequency distribution map generation method for generating the frequency distribution map f will be described. 2 and 3 are diagrams for explaining a frequency distribution map generation method. In FIG. 2, the number of records of input / output data in the
入出力データのスキーマ6は、既知であり、各項目のデータタイプを定義した情報である。各データは、フィールド、型、値域等で定義される。フィールドには、「センサID」、「日時」、「温度」等の項目名が示される。「センサID」のデータ型は「int」であり値域[0,9999]、「日時」のデータ型は「date」であり値域[0:00,23:59]、「温度」のデータ型は「float」であり値域[0,100]等である。
The input /
バッチジョブ2では、出力データへの影響度が一定以上のフィールドを変量フィールド7に決定する(ステップS12)。温度フィールドが決定された入力データの変量フィールド7として決定されたとする。
In the
入出力データの値域とレコード件数の見積値とに基づいて、夫々の度数分布の階級数と階級幅とを決定し、度数分布表3fを作成する(ステップS13)。例えば、変量フィールド7に決定された温度フィールドに対して、階級(1)に対して階級幅は0℃〜5℃、階級(2)に対して階級幅は5℃〜10℃、階級(3)に対して階級幅は10℃〜15℃、階級(4)に対して階級幅は15℃〜20℃、階級(5)に対して階級幅は20℃〜25℃、・・・のように階級数と階級幅とが決定される。
Based on the range of the input / output data and the estimated value of the number of records, the class number and class width of each frequency distribution are determined, and the frequency distribution table 3f is created (step S13). For example, for the temperature field determined as the
そして、入力データについて度数分布表3fの階級毎にランダムなデータを所定件数(例えば、100個)ずつ生成する(ステップS14)。度数分布表3fの度数には生成されたランダムなデータの個数が示される。 Then, for the input data, a predetermined number (for example, 100) of random data is generated for each class of the frequency distribution table 3f (step S14). The frequency of the frequency distribution table 3f indicates the number of generated random data.
図3において、ステップS14で度数分布表3fの階級毎に生成したランダムな入力データをバッチジョブ2に投入する(ステップS15)。各階級について、バッチジョブ2でレコードを1件ずつ処理し、各階級の所定件数(100個)の入力データが出力データの度数分布4のどの階級に何件出力されたかをカウントする(ステップS16)。カウントされた値は、入出力対応表2aに記録される。
In FIG. 3, the random input data generated for each class of the frequency distribution table 3f in step S14 is input to the batch job 2 (step S15). For each class,
全ての入力データを処理した後、入出力対応表2aの値を階級毎の件数(100個)で割って、度数分布写像fを得る(ステップS17)。 After processing all input data, the value of the input / output correspondence table 2a is divided by the number of cases (100) for each class to obtain a frequency distribution map f (step S17).
次に、度数分布写像gを生成する実行時間写像生成方法を説明する。図4及び図5は、実行時間写像生成方法を説明するための図である。図4において、フィールドの名前、型、値域などの情報を含む既知の入出力データのスキーマ6の入出力データのレコード件数を見積もって、バッチジョブ2で処理を行う(ステップS21)。レコード件数の見積値は、例えば、1000件である。入出力データのスキーマ6は、図2に示すスキーマと同様である。
Next, an execution time map generation method for generating the frequency distribution map g will be described. 4 and 5 are diagrams for explaining the execution time map generation method. In FIG. 4, the number of input / output data records in the
バッチジョブ2では、出力データへの影響度が一定以上のフィールドを変量フィールド7に決定する(ステップS22)。温度フィールドが決定された入力データの変量フィールド7として決定されたとする。
In the
入出力データの値域とレコード件数の見積値とに基づいて、夫々の度数分布の階級数と階級幅とを決定し、度数分布表3fを作成する(ステップS23)。例えば、変量フィールド7に決定された温度フィールドに対して、階級(1)に対して階級幅は0℃〜5℃、階級(2)に対して階級幅は5℃〜10℃、階級(3)に対して階級幅は10℃〜15℃、階級(4)に対して階級幅は15℃〜20℃、階級(5)に対して階級幅は20℃〜25℃、・・・のように階級数と階級幅とが決定される。
Based on the range of the input / output data and the estimated value of the number of records, the class number and class width of each frequency distribution are determined, and the frequency distribution table 3f is created (step S23). For example, for the temperature field determined as the
そして、入力データについて度数分布表3fの階級毎にランダムなデータを所定件数(例えば、100個)ずつ生成する(ステップS24)。度数分布表3fの度数には生成されたランダムなデータの個数が示される。 Then, a predetermined number (for example, 100) of random data is generated for each class of the frequency distribution table 3f for the input data (step S24). The frequency of the frequency distribution table 3f indicates the number of generated random data.
図5において、ステップS24で度数分布表3fの階級毎に生成したランダムな入力データをバッチジョブ2に投入する(ステップS25)。各階級について、バッチジョブ2でレコードを1件ずつ処理し、そのときの実行時間を測定し、各階級の所定件数(100個)の入力データの総実行時間がどれだけかかったかを実行時間対応表2bに記録する(ステップS26)。
In FIG. 5, the random input data generated for each class of the frequency distribution table 3f in step S24 is input to the batch job 2 (step S25). For each class,
全ての入力データを処理した後、実行時間対応表2bの値を階級毎の件数(100個)で割って、実行時間写像gを得る(ステップS27)。 After processing all input data, the value of the execution time correspondence table 2b is divided by the number of cases (100) for each class to obtain an execution time map g (step S27).
次に、出力データの度数分布を推定する出力データ度数分布推定方法を説明する。図6は、出力データ度数分布推定方法を説明するための図である。図6に示す出力データ度数分布推定方法において、実際の入力データ2dの度数分布表3f−2を作成する(ステップS31)。度数分布表3f−2は、実際の入力データ2dに基づいて度数分布表3fの度数に件数が設定された表である。階級(1)は「50」度数、階級(2)は「92」度数、階級(3)は「81」度数、階級(4)は「73」度数、及び階級(5)は「42」度数が設定され、実際の入力データ2dの合計件数は「338」件となる度数分布表3f−2が作成されたとする。
Next, an output data frequency distribution estimation method for estimating the frequency distribution of output data will be described. FIG. 6 is a diagram for explaining an output data frequency distribution estimation method. In the output data frequency distribution estimation method shown in FIG. 6, the frequency distribution table 3f-2 of the
そして、度数分布写像fの各値を係数とした一次式で、度数分布表3fの階級毎の度数に対する、出力データの各階級の度数を計算する(ステップS32)。実際の入力データ2dの度数分布表3f−2に対して推定された出力データの度数分布推定値4fが出力される。度数分布表3fに対して、階級(1)は「0」度数、階級(2)は「0」度数、階級(3)は「81」度数、階級(4)は「73」度数、及び階級(5)は「42」度数を示す度数分布推定値4fを得る。実際の入力データ2dに対して予測される出力データ量は、合計件数「196」件となる。
Then, the frequency of each class of the output data is calculated with respect to the frequency for each class in the frequency distribution table 3f by a linear expression using each value of the frequency distribution map f as a coefficient (step S32). The frequency distribution estimated value 4f of the output data estimated with respect to the frequency distribution table 3f-2 of the
次に、実行時間を推定する実行時間推定方法を説明する。図7は、実行時間推定方法を説明するための図である。図7に示す実行時間推定方法において、実際の入力データ2dの度数分布表3f−2を作成する(ステップS41)。度数分布表3f−2の作成は、図6のステップS31と同様である。
Next, an execution time estimation method for estimating the execution time will be described. FIG. 7 is a diagram for explaining the execution time estimation method. In the execution time estimation method shown in FIG. 7, a frequency distribution table 3f-2 of
そして、実行時間写像gの各値を同じ階級の度数分布表3f−2の度数に対する係数とした一次式で実行時間を計算する(ステップS42)。図7に示す度数分布表3f−2と実行時間写像gとから、
実行時間推定値 = 0.1*50+0.1*92+0.2*81
+0.2*73+0.2*42
を計算して、実際の入力データ2dの度数分布表3f−2に基づいて実行時間推定値5(53.4msec)を得る。
Then, the execution time is calculated by a linear expression using each value of the execution time map g as a coefficient for the frequency in the frequency distribution table 3f-2 of the same class (step S42). From the frequency distribution table 3f-2 and the execution time map g shown in FIG.
Estimated execution time = 0.1 * 50 + 0.1 * 92 + 0.2 * 81
+ 0.2 * 73 + 0.2 * 42
And an execution time estimated value 5 (53.4 msec) is obtained based on the frequency distribution table 3f-2 of the
次に、変量フィールド決定方法について説明する。図8は、変量フィールド決定方法を説明するための図である。図8に示す変量フィールド決定方法では、どのフィールドも流用可能なデータセットAと、あるフィールドaについて入力データのデータセットB1及びB2の2種類作成する。 Next, a variable field determination method will be described. FIG. 8 is a diagram for explaining a variable field determination method. In the variable field determination method shown in FIG. 8, two types of data sets A that can be used for any field and data sets B1 and B2 of input data for a certain field a are created.
データセットAは、各フィールドの値を平均又は標準偏差を持った正規乱数を用いて設定したレコードを見積もり件数分作成したデータセットである。2種類のデータセットB1及びB2は、各レコードについてフィールドa以外はデータセットAの同一番目のものと同じ値とし、フィールドaだけデータセットAのときとは異なる又は標準偏差を持った正規乱数を用いて変更した、レコード件数見積値分が作成されたデータセットである。 The data set A is a data set in which the number of records set for the estimated number of fields is set using normal random numbers having an average or standard deviation. The two types of data sets B1 and B2 are set to the same value as that of the data set A except for the field a for each record, and only the field a is a normal random number that is different from the data set A or has a standard deviation. It is a data set in which the estimated number of records is changed.
データセットAとデータセットB1及びB2とをバッチジョブ2で夫々処理し、バッチジョブ2に基づく出力データ2eを比較して、それらがどれだけ異なるか出力データ2eへの影響度として数値化し、影響度が所定値以上を示すフィールドが変量フィールドに決定される。出力データ2eへの影響度は、件数、値の異なるフィールド数等に基づいて算出される。
The data set A and the data sets B1 and B2 are respectively processed by the
図8では、出力データ2eのうち、データセットAに対するバッチジョブ2の処理後の結果はデータセットA−2で示され、データセットB1に対するバッチジョブ2の処理後の結果はデータセットB1−2で示され、データセットB2に対するバッチジョブ2の処理後の結果はデータセットB2−2で示される。
In FIG. 8, of the output data 2e, the result after the processing of the
データセットAのバッチジョブ2の処理後の出力データA−2が基準となる。データセットB1は、「センサID」フィールドを変更したデータセットであり、バッチジョブ2の処理後の出力データB1−2は、「センサID」フィールド以外の値に変化が無かった例を示している。また、データセットB2は、「温度」フィールドを変更したデータセットであり、バッチジョブ2の処理後の出力データB2−2は、データセットAのデータ量から変化(増減)した例を示している。データ量とは、レコード件数等で示される。
The output data A-2 after processing of the
次に、出力データへの影響度αを算出する影響度算出方法について説明する。図9は、影響度算出方法を説明するための図である。図9のように、影響度算出方法では、まず、出力データのレコード件数を比較する(比較I)。比較Iの判断によって、レコード件数が、基準となる出力データA−2と異なる場合、出力データへの影響度αに「1」が設定される。 Next, an influence calculation method for calculating the influence α on the output data will be described. FIG. 9 is a diagram for explaining an influence degree calculation method. As shown in FIG. 9, in the influence calculation method, first, the number of records of output data is compared (Comparison I). When the number of records is different from the reference output data A-2 based on the judgment of the comparison I, “1” is set to the influence degree α on the output data.
データセットAの出力データA−2のレコード件数が300件であったのに対して、「温度」フィールドを変更したデータセットB2の出力データB2−2のレコード件数は200件であった場合、「温度」フィールドの変更は、出力データへの影響度α=1であると判断される。出力データB2−2のレコード件数が、基準となる出力データA−2のレコード件数より少なくてもまた多くても、一致しない場合は、影響度αは「1」となる。 When the number of records of the output data A-2 of the data set A is 300, whereas the number of records of the output data B2-2 of the data set B2 in which the “temperature” field is changed is 200, The change in the “temperature” field is determined to have an influence degree α = 1 on the output data. If the number of records of the output data B2-2 is less than or greater than the number of records of the output data A-2 serving as a reference, the degree of influence α is “1”.
比較(I)の判断によって、出力データのレコード件数が等しい場合、出力データの全レコードのうち、変更された対象フィールド以外のフィールドを比較する(比較II)。比較(I)によって、出力データのレコード件数が基準の出力データA−2のレコード件数と等しいと判断された場合、出力データの全レコードのうち、対象フィールド以外のフィールドが比較される。 If the number of records in the output data is equal as a result of the comparison (I), fields other than the changed target field are compared among all records in the output data (Comparison II). When it is determined by comparison (I) that the number of records in the output data is equal to the number of records in the reference output data A-2, fields other than the target field are compared among all records in the output data.
影響度αは、下記の式により算出される。 The influence degree α is calculated by the following formula.
α = (値が異なるフィールド数)/(全レコードのフィールド数)
「センサID」フィールドを変更したデータセットB1の出力データB1−2において、全レコードのフィールド数は、レコード件数「300」件に、「センサID」を除いた項目数「4」を乗算することによって得られる。全レコードのフィールド数は、300*4=1200となる。出力データB1−2では、変更した「センサID」フィールド以外では、基準となる出力データA−2とに変化がないため、値が異なるフィールド数は「0」となる。従って、影響度α=0/1200=0を得る。
α = (number of fields with different values) / (number of fields in all records)
In the output data B1-2 of the data set B1 in which the “sensor ID” field is changed, the number of fields of all records is to multiply the number of records “300” by the number of items “4” excluding “sensor ID”. Obtained by. The number of fields in all records is 300 * 4 = 1200. In the output data B1-2, since there is no change in the reference output data A-2 except for the changed “sensor ID” field, the number of fields having different values is “0”. Therefore, the influence degree α = 0/1200 = 0 is obtained.
また、480箇所のフィールドが異なった別の出力データCの場合、全レコードのフィールド数は、300*4=1200となる。値が異なるフィールド数は「480」であるため、影響度α=480/1200=0.4を得る。 In the case of different output data C with 480 different fields, the number of fields in all records is 300 * 4 = 1200. Since the number of fields having different values is “480”, the degree of influence α = 480/1200 = 0.4 is obtained.
出力データB1−2と、出力データCとは、どちらもレコード件数は「300」件であるが、影響度αは異なっている。 Both the output data B1-2 and the output data C have “300” records, but the influence α is different.
以下に、バッチジョブの実行時間推定方法を実行するシステム1000について説明する。図10は、本実施の形態に係るシステムの機能構成例を示す図である。図10において、システム1000は、主に、度数分布生成部40と、実行時間推定部50とを有する。度数分布生成部40と、実行時間推定部50とは、個別のコンピュータ装置に実装され、夫々を度数分布生成装置と、実行時間推定としても良い。又は、度数分布生成部40と、実行時間推定部50とが、同一のコンピュータ装置に実装されても良い。度数分布生成部40と、実行時間推定部50とは、後述されるCPU11が対応するプログラムを実行することによって実現される。
Hereinafter, a
度数分布生成部40は、入力データのバッチジョブ2への処理によって出力データに影響する変量フィールド7に関して度数分布表3fを生成し、度数分布表3fに基づいて出力データ量又は/及び実行時間を推定する度数分布写像f又は/及び実行時間写像gを作成する処理部であり、変量フィールド決定部41と、度数分布表生成部42と、度数分布写像作成部43と、実行時間写像作成部44とを有する。
The frequency
変量フィールド決定部41は、バッチジョブ後の出力データへの影響度αに基づいて、変量フィールドを決定する処理部である。変量フィールド決定部41は、入出力データのスキーマ6に基づいて入力データを生成する際に、あるフィールドを変更したデータセットを作成し、バッチジョブ後の出力データへの影響度αを算出する。変量フィールド決定部41は、算出した影響度αに基づいて、変量フィールドを決定する。
The variable
度数分布表生成部42は、入出力データのスキーマ6を参照することによって、変量フィールド決定部41によって決定された変量フィールド7の値域とレコード件数の見積値とに基づいて、夫々の度数分布の階級と階級幅を決定して度数分布表3fを作成する処理部である。
The frequency distribution
度数分布写像作成部43は、度数分布表3fに基づくランダムな入力データ2dに対してバッチジョブ2を行うことによって、度数分布写像fを作成する処理部である。実行時間写像作成部44は、度数分布表3fに基づくランダムな入力データ2dに対してバッチジョブ2を行うことによって、実行時間写像gを作成する処理部である。
The frequency distribution
実行時間推定部50は、実際の入力データの度数分布表3f−2と、度数分布写像f又は/及び実行時間写像gとを用いて実行時間を推定する処理部であり、入力データ度数分布作成部51と、実行時間推定部52と、出力データ度数分布推定部53とを有する。
The execution
入力データ度数分布作成部51は、実際の入力データの件数で度数分布表3fに度数を設定することにより、度数分布表3f−2を作成する処理部である。 The input data frequency distribution creation unit 51 is a processing unit that creates the frequency distribution table 3f-2 by setting the frequency in the frequency distribution table 3f with the actual number of input data.
実行時間推定部52は、入力データ度数分布作成部51によって度数分布表3fに度数を設定することによって作成された度数分布表3f−2に基づいて、実行時間を推定する処理部である。実行時間推定部52は、実行時間推定値5を、度数分布表3f−2の度数の総和に基づいて計算する。又は、実行時間推定部52は、実行時間推定値5を、実行時間写像gの各値を係数とした一次式で計算する。
The execution
出力データ度数分布推定部53は、入力データ度数分布作成部51によって度数分布表3fを用いて作成された度数分布表3f−2に基づいて、度数分布写像fの各値を係数とした一次式で出力データの各段階の度数を計算することによって、出力データの度数分布推定値4fを作成する処理部である。
Based on the frequency distribution table 3f-2 created by the input data frequency distribution creation unit 51 using the frequency distribution table 3f, the output data frequency
度数分布生成部40と、実行時間推定部50とを実現するコンピュータ装置10のハードウェア構成について説明する。図11は、コンピュータ装置のハードウェア構成を示す図である。図11において、コンピュータ装置10は、コンピュータによって制御される端末であって、CPU(Central Processing Unit)11と、主記憶装置12と、補助記憶装置13と、入力装置14と、表示装置15と、出力装置16と、通信I/F(インターフェース)17と、ドライブ18とを有し、バスBに接続される。
A hardware configuration of the
CPU11は、主記憶装置12に格納されたプログラムに従ってコンピュータ装置10を制御する。主記憶装置12には、RAM(Random Access Memory)及びROM(Read-Only Memory)等が用いられ、CPU11にて実行されるプログラム、CPU11での処理に必要なデータ、CPU11での処理にて得られたデータ等を格納する。また、主記憶装置12の一部の領域が、CPU11での処理に利用されるワークエリアとして割り付けられている。
The
補助記憶装置13には、ハードディスクドライブが用いられ、各種処理を実行するためのプログラム等のデータを格納する。補助記憶装置13に格納されているプログラムの一部が主記憶装置12にロードされ、CPU11に実行されることによって、各種処理が実現される。記憶部130は、主記憶装置12及び/又は補助記憶装置13を有する。
The
入力装置14は、マウス、キーボード等を有し、ユーザがコンピュータ装置10による処理に必要な各種情報を入力するために用いられる。表示装置15は、CPU11の制御のもとに必要な各種情報を表示する。出力装置16は、プリンタ等を有し、ユーザからの指示に応じて各種情報を出力するために用いられる。通信I/F17は、例えばインターネット、LAN(Local Area Network)等に接続し、外部装置との間の通信制御をするための装置である。
The
コンピュータ装置10によって行われる処理を実現するプログラムは、例えば、CD−ROM(Compact Disc Read-Only Memory)等の記憶媒体19によってコンピュータ装置10に提供される。即ち、プログラムが保存された記憶媒体19がドライブ18にセットされると、ドライブ18が記憶媒体19からプログラムを読み出し、その読み出されたプログラムがバスBを介して補助記憶装置13にインストールされる。そして、プログラムが起動されると、補助記憶装置13にインストールされたプログラムに従ってCPU11がその処理を開始する。尚、プログラムを格納する媒体としてCD−ROMに限定するものではなく、コンピュータが読み取り可能な媒体であればよい。コンピュータ読取可能な記憶媒体として、CD−ROMの他に、DVDディスク、USBメモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリであっても良い。
A program that realizes processing performed by the
また、コンピュータ装置10によって行われる処理を実現するプログラムが、通信I/F17を介して外部装置から提供されてもよい。或いは、外部装置へ該プログラムを提供し、後述される各処理は外部装置で実現されるように構成してもよい。通信I/F17による通信は無線又は有線に限定されるものではない。
Further, a program that realizes processing performed by the
コンピュータ装置10が、度数分布生成部40を実装する装置である場合、記憶部130に入出力データのスキーマ6等が格納される。コンピュータ装置10が、実行時間推定部50を実装する装置である場合、記憶部130に入力データ2d、度数分布写像f、度数分布表3f及び度数分布推定値4fを含む度数分布データ34f、実行時間写像g等が格納される。
When the
また、度数分布生成部40と、実行時間推定部50とを一つのコンピュータ装置10で実現する場合には、コンピュータ装置10がシステム1000全体に相当する。
Further, when the frequency
度数分布写像作成部43による度数分布写像作成処理について説明する。図12は、度数分布写像作成処理を説明するための図である。図12に示す度数分布写像作成処理において、CPU11は、入出力データのスキーマ6から入力データのスキーマを取得する(ステップS101)。入出力データのスキーマ6から、ユーザによって選択された入力データのスキーマを読み込む。
The frequency distribution map creating process by the frequency distribution
CPU11は、入力データの変量フィールドを決定する変量フィールド決定処理を実行する(ステップS102)。その後、CPU11は、入力データの度数分布表3fを作成する度数分布表生成処理を実行する(ステップS103)。度数分布表生成処理により、階級数、及び階級幅が決定される。
The
CPU11は、入力データの度数分布3の階級毎にランダムな入力データを生成して(ステップS104)、バッチジョブ2で1件ずつ処理して、出力データの度数分布4のどの階級に出力されたかをカウントする(ステップS105)。
The
生成した入力データ全てに対してバッチジョブ2での処理を終了した後、CPU11は、階級毎のカウントされた値を入力データの総数(階級毎の度数)で割って、度数分布写像gを作成する(ステップS106)。そして、CPU11は、この度数分布写像作成処理を終了する。
After completing the processing in
実時間写像作成部43による実時間写像作成処理について図13で説明する。図13は、実時間写像作成処理を説明するための図である。図13に示す実時間写像作成処理において、CPU11は、入出力データのスキーマ6から入力データのスキーマを取得する(ステップS111)。入出力データのスキーマ6から、ユーザによって選択された入力データのスキーマを読み込む。
The real-time map creation process by the real-time
CPU11は、入力データの変量フィールドを決定する変量フィールド決定処理を実行する(ステップS112)。また、変量フィールドの決定後、CPU11は、入力データの度数分布表3fを生成する度数分布表生成処理を実行する(ステップS113)。度数分布表生成処理により、階級数、及び階級幅が決定される。
The
CPU11は、入力データの度数分布3の階級毎にランダムな入力データを生成して(ステップS114)、バッチジョブで1件ずつ処理して、1件ごとの実行時間を測定する(ステップS115)。
The
そして、CPU11は、階級毎の実行時間の平均から実行時間写像gを作成する(ステップS116)。
Then, the
出力データ度数分布推定部53による出力データ度数分布推定処理について図14で説明する。図14は、出力データ度数分布推定処理を説明するための図である。バッチジョブ2が単体の場合と、バッチジョブ2が多段の場合とで、出力データ度数分布推定部53による出力データ度数分布推定処理が異なる。
The output data frequency distribution estimation processing by the output data frequency
図14(A)では、バッチジョブ2が単体の場合の当該バッチジョブの出力データ度数分布推定処理を説明する。図14(A)において、CPU11は、実際の入力データ2dの度数分布表3f−2と、当該バッチジョブ2の度数分布写像fとを記憶部130から読み込んで(ステップS131)、度数分布写像fの各値を係数とした一次式で出力データの各階級の度数を計算する(ステップS132)。
FIG. 14A describes output data frequency distribution estimation processing for a
そして、CPU11は、計算した各階級の度数を出力データの度数分布推定値4fを生成し(ステップS133)、このバッチジョブ2が単体の場合の処理を終了する。
Then, the
図14(B)では、バッチジョブ2が多段の場合の処理を説明する。図14(B)において、CPU11は、入力データの度数分布表3fを生成する(ステップS141)。
In FIG. 14B, processing when the
CPU11は、当該バッチジョブの出力データ度数分布推定処理を実行する(ステップS142)。当該バッチジョブの出力データ度数分布推定処理にて出力データの度数分布推定値4fを生成した後、CPU11は、後段バッチジョブが存在するか否かを判断する(ステップS143)。
The
後段バッチジョブが存在すると判断した場合、CPU11は、当該バッチジョブの出力データの度数分布推定値4fを入力データの度数分布表3fに設定して(ステップS144)、ステップS142へと戻り、上述同様の処理を繰り返す。一方、後段バッチジョブが存在しないと判断した場合、CPU11は、この処理を終了する。
When determining that there is a subsequent batch job, the
実行時間推定部52による実行時間推定処理について図15で説明する。図15は、実行時間推定処理を説明するための図である。バッチジョブ2が単体の場合と、バッチジョブ2が多段の場合とで、実行時間推定部52による実行時間推定処理が異なる。
The execution time estimation process by the execution
図15(A)では、バッチジョブ2が単体の場合の当該バッチジョブの実行時間推定処理を説明する。図15(A)において、CPU11は、実際の入力データ2dの度数分布表3f−2と、当該バッチジョブ2の度数分布写像fとを記憶部130から読み込んで(ステップS151)、実行時間写像gの各値を係数とした一次式で実行時間を計算する(ステップS152)。そして、CPU11は、この処理を終了する。
FIG. 15A describes the execution time estimation process of the
図15(B)では、バッチジョブ2が多段の場合の処理を説明する。図15(B)において、CPU11は、入力データの度数分布表3fを生成する(ステップS161)。
In FIG. 15B, processing when the
CPU11は、当該バッチジョブの実行時間推定処理を実行する(ステップS162)。当該バッチジョブの実行時間推定処理にて実行時間を計算した後、CPU11は、後段バッチジョブが存在するか否かを判断する(ステップS163)。
The
後段バッチジョブが存在すると判断した場合、CPU11は、バッチジョブネットワークの総実行時間に当該バッチジョブの実行時間を加算して(ステップS164)、ステップS162へと戻り、上述同様の処理を繰り返す。一方、後段バッチジョブが存在しないと判断した場合、CPU11は、この処理を終了する。
When determining that there is a subsequent batch job, the
図12のステップS102及び図13のステップS112での変量フィールド決定処理について図16で説明する。図16は、変量フィールド決定処理を説明するための図である。図16に示す変量フィールド決定処理において、CPU11は、終端データではないかを判断する(ステップS171)。終端データであると判断した場合、CPU11は、この処理を終了する。一方、終端データではないと判断した場合、入力データ2dの各フィールドを平均又は標準偏差を持った正規乱数を用いてデータセットAを生成する(ステップS172)。
The variable field determination process in step S102 of FIG. 12 and step S112 of FIG. 13 will be described with reference to FIG. FIG. 16 is a diagram for explaining the variable field determination process. In the variable field determination process shown in FIG. 16, the
そして、CPU11は、各レコードについてフィールドa以外はデータセットAの同一番目のフィールドと同じ値とし、フィールドaだけデータセットAの時とは異なる平均又は標準偏差を持った正規乱数を用いて変更したデータセットBを生成する(ステップS173)。
Then, the
CPU11は、データセットA及びBをバッチジョブ2で処理し、出力としてデータセットC及びDを得る(ステップS174)。CPU11は、データセットC及びDを用いて、出力データの影響を算出する(ステップS175)。
The
CPU11は、出力データの影響度αが一定以上か否かを判断する(ステップS176)。一定以上でない場合、CPU11は、ステップS178へと進む。一方、一定以上の場合、CPU11は、フィールドaを変量フィールドに決定し(ステップS177)、前段バッチジョブについてフィールドaを入力データ2dの変量フィールドに変更する(ステップS178)。その後、CPU11は、この処理を終了する。
The
図16のステップS175での出力データの影響度算出処理について図17で説明する。図17は、出力データの影響度算出処理を説明するための図である。図17に示す出力データの影響度算出処理において、CPU11は、データセットC及びDを比較して(ステップS181)、データセットCとデータセットDのレコード数が異なるか否かを判断する(ステップS182)。この比較処理が、図9の比較Iに相当する。
The output data influence degree calculation processing in step S175 of FIG. 16 will be described with reference to FIG. FIG. 17 is a diagram for explaining the influence calculation processing of output data. In the output data influence calculation process shown in FIG. 17, the
レコード数が一致する場合、CPU11は、出力データの影響度αに「1」を設定して(ステップS183)、この処理を終了する。
If the number of records matches, the
一方、レコード数が異なる場合、CPU11は、更に、値を変更したフィールドa以外で値が異なるフィールドが存在するか否かを判断する(ステップS184)。値が異なるフィールドが存在しない場合、CPU11は、データセットCとD間で値が異なるフィールド数を全レコードのフィールド数で割ることによって、出力データの影響度αを計算し(ステップS185)、この処理を終了する。一方、値が異なるフィールドが存在する場合、CPU11は、この処理を終了する。
On the other hand, if the number of records is different, the
以下に、本実施の形態を温度センサデータのバッチ処理に適用した場合について図18で説明する。図18は、温度センサデータのバッチ処理の一例を説明するための図である。図18に示す温度センサデータのバッチ処理の例では、建屋に多数配置された温度センサ8のデータ(以下、温度センサデータと言う)に基づいて、部屋Aの平均温度を求める。建屋全体を25×25(m2)とする。温度センサデータは0.1℃変化する毎に送信され、送信間隔は不定期である。
Hereinafter, a case where the present embodiment is applied to batch processing of temperature sensor data will be described with reference to FIG. FIG. 18 is a diagram for explaining an example of batch processing of temperature sensor data. In the example of batch processing of temperature sensor data shown in FIG. 18, the average temperature of the room A is obtained based on data of the
温度センサデータは一箇所に収集され建屋全体の温度センサデータD1に格納される。温度センサデータD1のフィールドの項目は、「センサID」、「日時」、「温度」、「x」、「y」等である。 The temperature sensor data is collected at one place and stored in the temperature sensor data D1 of the entire building. The field items of the temperature sensor data D1 are “sensor ID”, “date / time”, “temperature”, “x”, “y”, and the like.
バッチジョブJ1は、部屋Aの温度センサデータD2を抽出する。部屋Aの位置情報が、例えば、図18に示すx及びy方向によって、部屋Aの対角線上の頂点となる座標(8、8)と座標(18、16)とで表される場合、センサIDで識別される各センサのうち、部屋Aの領域内を示すレコードが抽出される。温度センサデータD2のフィールドの項目は、温度センサデータD1のフィールドの項目と同様である。 The batch job J1 extracts the temperature sensor data D2 of the room A. For example, when the position information of the room A is represented by coordinates (8, 8) and coordinates (18, 16) which are the vertices on the diagonal line of the room A in the x and y directions shown in FIG. Among the sensors identified by (1), a record indicating the interior of the room A is extracted. The field items of the temperature sensor data D2 are the same as the field items of the temperature sensor data D1.
バッチジョブJ2は、バッチジョブJ1によって抽出された部屋Aの温度センサデータD2に基づいて、位置毎の平均温度を計算する。xyで示される各位置の平均温度データD3が出力される。平均温度データD3のフィールドの項目は、「x」、「y」、「平均温度」等である。 The batch job J2 calculates an average temperature for each position based on the temperature sensor data D2 of the room A extracted by the batch job J1. Average temperature data D3 at each position indicated by xy is output. The items of the field of the average temperature data D3 are “x”, “y”, “average temperature”, and the like.
図19は、各データのスキーマと件数見積値の例を示す図である。図19において、温度センサデータD1のスキーマ6−1は、フィールド、型、値域等で各データを定義している。「センサID」、「日時」、「温度」、「x」、及び「y」フィールドの各々に対して、型、値域等が定義されている。 FIG. 19 is a diagram illustrating an example of the schema of each data and the estimated number of cases. In FIG. 19, the schema 6-1 of the temperature sensor data D1 defines each data by field, type, value range, and the like. For each of the “sensor ID”, “date / time”, “temperature”, “x”, and “y” fields, a type, a value range, and the like are defined.
温度センサデータD2のスキーマ6−2は、フィールド、型、値域等で各データを定義している。「センサID」、「日時」、「温度」、「x」、及び「y」フィールドの各々に対して、型、値域等が定義されている。 The schema 6-2 of the temperature sensor data D2 defines each data by field, type, value range, and the like. For each of the “sensor ID”, “date / time”, “temperature”, “x”, and “y” fields, a type, a value range, and the like are defined.
平均温度データD3のスキーマ6−3は、フィールド、型、値域等で各データを定義している。「x」、「y」、及び「平均温度」フィールドの各々に対して、型、値域等が定義されている。 The schema 6-3 of the average temperature data D3 defines each data with fields, types, value ranges, and the like. For each of the “x”, “y”, and “average temperature” fields, a type, a value range, and the like are defined.
各データD1、D2、及びD3の件数見積値は、ともに1000件とする。 Assume that the estimated number of cases of each data D1, D2, and D3 is 1000 cases.
以下に、このようなスキーマ6−1から6−3と各件数見積値とに基づいて、度数分布写像fのみを使用して、実行時間を推定する第1実施例について説明する。 Hereinafter, a description will be given of a first embodiment in which the execution time is estimated using only the frequency distribution map f based on the schemas 6-1 to 6-3 and the estimated number of cases.
第1実施例における手順は下記の通りである。
(1)入力データ(温度差センサデータD1)の度数分布表3f−2から度数分布写像fを用いて出力データ(温度差センサデータD2)の度数分布推定値4fを計算し、度数分布推定値4fからバッチジョブJ1の出力データ量(温度差センサデータD2のデータ量)を求める。
(2)出力データ量(温度差センサデータD2のデータ量)から特許文献1に開示される手法を用いて実行時間を推定して、実行時間推定値5を得る。出力データ量(温度差センサデータD2のデータ量)は度数分布推定値4fの度数の総和で容易に得られる。
(3)出力データ(温度差センサデータD2)の度数分布推定値4fは、後続のバッチジョブJ2の入力データの度数分布表3fとして用いる。後続バッチジョブJ2の実行時間の推定は、上述同様に、出力データ量(各位置の平均温度データD3の出力データ量)から特許文献1に開示される手法を用いて行う。
The procedure in the first embodiment is as follows.
(1) The frequency distribution estimated value 4f of the output data (temperature difference sensor data D2) is calculated from the frequency distribution table 3f-2 of the input data (temperature difference sensor data D1) using the frequency distribution map f, and the frequency distribution estimated value is calculated. The output data amount of batch job J1 (data amount of temperature difference sensor data D2) is obtained from 4f.
(2) The execution time is estimated from the output data amount (data amount of the temperature difference sensor data D2) using the method disclosed in
(3) The frequency distribution estimated value 4f of the output data (temperature difference sensor data D2) is used as the frequency distribution table 3f of the input data of the subsequent batch job J2. As described above, the execution time of the subsequent batch job J2 is estimated using the method disclosed in
第1実施例における変量フィールドの決定例について図20で説明する。図20及び図21は、第1実施例における変量フィールドの決定例を説明するための図である。図20にて、温度センサデータD1において、基準となる温度センサデータD1−0と、温度センサデータD1−0に対して「センサID」のみを変更した温度センサデータD1−1と、温度センサデータD1−0に対して「x」のみを変更した温度センサデータD1−2とが、夫々1000件ずつ用意される。
An example of determining the variable field in the first embodiment will be described with reference to FIG. 20 and 21 are diagrams for explaining an example of determining a variable field in the first embodiment. 20, in temperature sensor data D1, reference temperature sensor data D1-0, temperature sensor data D1-1 in which only “sensor ID” is changed with respect to temperature sensor data D1-0, and
「センサID」のみを変更した温度センサデータD1−1と、温度センサデータD1−0に対して「x」のみを変更した温度センサデータD1−2とを例として以下に説明するが、「センサID」及び「x」以外のフィールドの各々のみを変更した温度センサデータD1が用意される。 The temperature sensor data D1-1 in which only the “sensor ID” is changed and the temperature sensor data D1-2 in which only “x” is changed with respect to the temperature sensor data D1-0 will be described below as an example. Temperature sensor data D1 is prepared in which only fields other than “ID” and “x” are changed.
基準となる温度センサデータD1−0をバッチジョブJ1で処理することによって、温度センサデータD1−0からは部屋Aの温度センサデータD2−0が抽出され、抽出後の基準データとして使用される。 By processing the reference temperature sensor data D1-0 with the batch job J1, the temperature sensor data D2-0 of the room A is extracted from the temperature sensor data D1-0 and used as the reference data after extraction.
「センサID」のみを変更した温度センサデータD1−1をバッチジョブJ1で処理することによって、温度センサデータD1−1からは部屋Aの温度センサデータD2−1が抽出され、「センサID」以外の値について温度センサデータD2−0と比較される。この例では、「センサID」以外の値が全て同じであったため、影響度α(センサID)に「0」が設定される。 By processing the temperature sensor data D1-1 in which only the “sensor ID” is changed by the batch job J1, the temperature sensor data D2-1 of the room A is extracted from the temperature sensor data D1-1, and other than “sensor ID”. Is compared with the temperature sensor data D2-0. In this example, since all values other than “sensor ID” are the same, “0” is set to the influence degree α (sensor ID).
「x」のみを変更した温度センサデータD1−2をバッチジョブJ1で処理することによって、温度センサデータD1−2からは部屋Aの温度センサデータD2−2が抽出され、「x」以外の値について温度センサデータD2−0と比較される。この例では、「x」以外の値が全て同じであったため、影響度α(x)に「0」が設定される。 By processing the temperature sensor data D1-2 in which only “x” is changed by the batch job J1, the temperature sensor data D2-2 of the room A is extracted from the temperature sensor data D1-2, and a value other than “x”. Is compared with the temperature sensor data D2-0. In this example, since all values other than “x” are the same, “0” is set to the influence degree α (x).
上述したように、「センサID」及び「x」以外のフィールドの各々のみを変更した温度センサデータD1についても影響度αを計算する。 As described above, the degree of influence α is also calculated for the temperature sensor data D1 in which only the fields other than “sensor ID” and “x” are changed.
更に、図21において、影響度αが一定値(例えば、0.3)以上となるフィールドaを変量フィールドとする。バッチジョブJ1に基づく影響度αから、温度センサデータD1の変量フィールドに「x」及び「y」が変量フィールドに設定される。 Furthermore, in FIG. 21, a field a in which the influence degree α is a certain value (for example, 0.3) or more is defined as a variable field. From the influence α based on the batch job J1, “x” and “y” are set in the variable field of the temperature sensor data D1.
また、後段のバッチジョブJ2に基づく影響度αから、温度センサデータD2の変量フィールドに「温度」、「x」、及び「y」が変量フィールドに設定される。ここで、温度センサデータD1と温度センサデータD2は、フィールドの項目が一致するデータセットであるため、D1の変量フィールドがD2の変量フィールドを含むことが条件となる。従って、D1の変量フィールドに、D2の変量フィールドとの差分となる「温度」を追加する。 Further, “temperature”, “x”, and “y” are set in the variable field of the temperature sensor data D2 from the influence α based on the subsequent batch job J2. Here, since the temperature sensor data D1 and the temperature sensor data D2 are data sets in which the field items match, the condition is that the variable field of D1 includes the variable field of D2. Therefore, “temperature” which is a difference from the variable field of D2 is added to the variable field of D1.
そして、終端データである平均温度データD3の変量フィールドには、「x」、「y」、及び「平均温度」を設定する。 Then, “x”, “y”, and “average temperature” are set in the variable field of the average temperature data D3 that is the terminal data.
次に、入力データD1の度数分布表3fの作成例について説明する。先ず、Sturgesの公式(非特許文献1)を用いて階級数及び階級幅を決定する。件数見積値を1000件とすることにより、数1の計算によって、温度センサデータD1の変量フィールド「温度」の階級数k=11を得る。
Next, an example of creating the frequency distribution table 3f of the input data D1 will be described. First, the number of classes and the class width are determined using the Sturges formula (Non-Patent Document 1). By setting the estimated number of cases to 1000, the number k of the variable field “temperature” of the temperature sensor data D1 is obtained by the calculation of
また、数2の計算によって、変量フィールド「温度」の階級幅hとして、凡そ9.09を得る。
Further, by calculation of
他の変量フィールド「x」及び「y」の各々について、上述したように階級数k及び階級幅hを計算する。 For each of the other variable fields “x” and “y”, the class number k and the class width h are calculated as described above.
温度センサデータD1の度数分布3fは、図22に示されるような、3次元度数分布38で表される。図22は、3次元度数分布の例を示す図である。図22にて、3次元度数分布38は、「温度」の階級38a、「x」の階級38b、「y」の階級38cの次元で表される。
The
変量フィールド「温度」の各階級は、階級幅h=9.09で区切られて、「温度」の階級38aのようなデータ例を示す。「x」の各階級は、階級幅h=4.54で区切られて、「x」の階級38bのようなデータ例を示す。「y」の各階級は、階級幅h=4.54で区切られて、「y」の階級38cのようなデータ例を示す。 Each class of the variable field “temperature” is divided by a class width h = 9.09 to show a data example such as a class 38a of “temperature”. Each class of “x” is divided by a class width h = 4.54 to show an example of data such as a class 38b of “x”. Each class of “y” is divided by a class width h = 4.54, and shows a data example such as class “c” of “y”.
次に、第1実施例における度数分布写像fの作成例について説明する。図23及び図24は、第1実施例における度数分布写像の作成例を説明するための図である。図23(A)では、図22の3次元度数分布38に基づく度数分布表3fを示している。度数分布表3fでは、変量フィールド「温度」、「x」、及び「y」の組み合せ毎に度数「100」が設定されている。
Next, an example of creating the frequency distribution map f in the first embodiment will be described. 23 and 24 are diagrams for explaining an example of creating a frequency distribution map in the first embodiment. FIG. 23A shows a frequency distribution table 3f based on the three-
組み合せ毎に示される度数分(100個)のサンプルデータ39を生成する。例えば、「温度」の「0〜9.09」階級、「x」の「0〜4.54」階級、及び「y」の「0〜4.54」階級の組み合せに対する(1002、12:20、2.1、3、2)等を含む100個のデータが生成される。 The sample data 39 corresponding to the frequency (100 pieces) indicated for each combination is generated. For example, for a combination of the “temperature” “0-9.09” class, the “x” “0-4.54” class, and the “y” “0-4.54” class (1002, 12:20). , 2.1, 3, 2), etc. are generated.
そして、サンプルデータ39をバッチジョブJ1で1件ずつ処理し、出力データの度数分推定値4fのどの階級に出力されたのかを入出力対応表2aでカウントした値を記録する。 Then, the sample data 39 is processed one by one by the batch job J1, and the value counted in the input / output correspondence table 2a to which class of the estimated value 4f of the output data is output is recorded.
図23(B)に例示するように、便宜上、階級の組み合せの一部にA、B、C、D、及びEの階級名を付ける。図23(C)にて、バッチジョブJ1の場合の、図23(B)の階級名を用いた入出力対応表2aの例を示す。 As illustrated in FIG. 23B, for convenience, class names of A, B, C, D, and E are given to some of the class combinations. FIG. 23C shows an example of the input / output correspondence table 2a using the class name of FIG. 23B in the case of the batch job J1.
バッチジョブJ1への入力データである温度センサデータD1と、バッチジョブJ1後の温度センサデータD2との対応付けを示す、階級名A〜Eのマトリクスを含む入力対応表2aにおいて、入力(D1)の階級Bから出力(D2)の階級Bへと38回出力され、入力(D1)の階級Cから出力(D2)の階級Cへと100回出力され、入力(D1)の階級Bから出力(D2)の階級Bへと64回出力される。
In the input correspondence table 2a including a matrix of class names A to E showing the correspondence between the temperature sensor data D1 which is input data to the batch job J1 and the temperature sensor data D2 after the batch job J1, input (D1) Is
図23(C)に示される入力対応表2aから図24に示されるような度数分布写像fを得る。図24は、第1実施例における度数分布写像の例を示す図である。図24において、図23(C)に示される入力対応表2aの各値を階級毎の度数(100件)で割ることによって、バッチジョブJ1の度数分布写像fを取得する。 A frequency distribution map f as shown in FIG. 24 is obtained from the input correspondence table 2a shown in FIG. FIG. 24 is a diagram illustrating an example of a frequency distribution map in the first embodiment. In FIG. 24, the frequency distribution map f of the batch job J1 is obtained by dividing each value of the input correspondence table 2a shown in FIG. 23C by the frequency for each class (100 cases).
次に、第1実施例における出力データの度数分布推定例について説明する。図25は、第1実施例における出力データの度数分布推定例を説明するための図である。図25(A)では、実際の入力データD1の度数分布表3f−2を作成する。作成された度数分布表3f−2は、例えば、階級Aの度数は「50」、階級Bの度数は「92」、階級Cの度数は「81」、階級Dの度数は「73」、階級Eの度数は「42」等を示す。 Next, a frequency distribution estimation example of output data in the first embodiment will be described. FIG. 25 is a diagram for explaining an example of estimating the frequency distribution of output data in the first embodiment. In FIG. 25A, a frequency distribution table 3f-2 of actual input data D1 is created. The created frequency distribution table 3f-2 includes, for example, the frequency of class A is “50”, the frequency of class B is “92”, the frequency of class C is “81”, the frequency of class D is “73”, and the class The frequency of E indicates “42” or the like.
そして、度数分布写像fの各値を係数とした一次式で出力データの度数分布の各階級の度数を推定する。図25(B)では、図24に示す度数分布写像fを用いて、出力されるデータD2の度数分布推定値4fの作成例を示す。 Then, the frequency of each class of the frequency distribution of the output data is estimated by a linear expression using each value of the frequency distribution map f as a coefficient. FIG. 25B shows an example of creating the frequency distribution estimated value 4f of the output data D2 using the frequency distribution map f shown in FIG.
データD2の階級Bの度数を、D2[B]と表記し、
D2[B] = ・・・+0*D1[A]+0.38*D1[B]+0*D1[C]
+0*D1[D]+0*D1[D]+・・・
で求められる。
The frequency of the class B of the data D2 is expressed as D2 [B],
D2 [B] = ... + 0 * D1 [A] + 0.38 * D1 [B] + 0 * D1 [C]
+ 0 * D1 [D] + 0 * D1 [D] +.
Is required.
他階級についても同様の計算を行うことによって、度数分布推定値4fを得ることができる。 By performing the same calculation for the other classes, the frequency distribution estimated value 4f can be obtained.
そして、得られた度数分布推定値4fを用いて出力データ量を算出する。 Then, the output data amount is calculated using the obtained frequency distribution estimated value 4f.
出力データ量 = ・・・+D2[A]+D2[B]+D2[C]+D2[D]
+D2[E]+・・・
のようにして得られる。得られた温度差センサデータD2の出力データ量に基づいて、特許文献1の手法を用いてバッチジョブJ1の実行時間推定値5を算出する。
Output data amount = ... + D2 [A] + D2 [B] + D2 [C] + D2 [D]
+ D2 [E] + ...
It is obtained as follows. Based on the output data amount of the obtained temperature difference sensor data D2, the estimated
また、度数分布推定値4fを後続バッチジョブJ2の入力データの度数分布表3f−2に設定し、上述した同様の処理を行うことによって、各位置の平均温度データD3の出力データ量から後続バッチジョブJ2の実行時間推定値5を算出することができる。
Further, the frequency distribution estimated value 4f is set in the frequency distribution table 3f-2 of the input data of the subsequent batch job J2, and the same processing as described above is performed, so that the output data amount of the average temperature data D3 at each position is used to determine the subsequent batch. it is possible to calculate the execution
以下に、度数分布写像fと実行時間写像gとを使用して、実行時間を推定する第2実施例について説明する。 The second embodiment for estimating the execution time using the frequency distribution map f and the execution time map g will be described below.
第2実施例における手順は下記の通りである。
(1)入力データ(温度差センサデータD1)の度数分布表3f−2から度数分布写像fを用いて出力データ(温度差センサデータD2)の度数分布推定値4fを計算する。
(2)入力データ(温度差センサデータD1)の度数分布表3f−2から実行時間写像gを用いて実行時間を推定して、実行時間推定値5を得る。
(3)出力データ(温度差センサデータD2のデータ量)の度数分布推定値4fは、後続のバッチジョブJ2の入力データの度数分布表3fとして用いる。後続バッチジョブJ2の実行時間の推定は、上述同様に、実行時間写像gを用いて行う。
The procedure in the second embodiment is as follows.
(1) The frequency distribution estimated value 4f of the output data (temperature difference sensor data D2) is calculated from the frequency distribution table 3f-2 of the input data (temperature difference sensor data D1) using the frequency distribution map f.
(2) The execution time is estimated from the frequency distribution table 3f-2 of the input data (temperature difference sensor data D1) using the execution time map g, and the execution time estimated
(3) The frequency distribution estimated value 4f of the output data (data amount of the temperature difference sensor data D2) is used as the frequency distribution table 3f of the input data of the subsequent batch job J2. The execution time of the subsequent batch job J2 is estimated using the execution time map g as described above.
第2実施例における変量フィールドの決定は、第1実施例で説明した通りであるので、その詳細な説明を省略する。 Since the determination of the variable field in the second embodiment is as described in the first embodiment, its detailed description is omitted.
第2実施例における実行時間写像gの作成例について説明する。図26及び図27は、第2実施例における実行時間写像の作成例を説明するための図である。図26(A)では、図22の3次元度数分布38に基づく度数分布表3fを示している。度数分布写像3fの作成時と同様の、図22の3次元度数分布38に基づく度数分布表fを用いる。度数分布表3fでは、変量フィールド「温度」、「x」、及び「y」の組み合せ毎に度数「100」が設定されている。
An example of creating the execution time map g in the second embodiment will be described. 26 and 27 are diagrams for explaining an example of creating an execution time map in the second embodiment. FIG. 26A shows a frequency distribution table 3f based on the three-
度数分布写像fの作成時と同様に、組み合せ毎に示される度数分(100個)のサンプルデータ39を生成する。例えば、「温度」の「0〜9.09」階級、「x」の「0〜4.54」階級、及び「y」の「0〜4.54」階級の組み合せに対する(1002、12:20、2.1、3、2)等を含む100個のデータが生成される。 Similarly to the creation of the frequency distribution map f , sample data 39 corresponding to the frequency (100) indicated for each combination is generated. For example, for a combination of the “temperature” “0-9.09” class, the “x” “0-4.54” class, and the “y” “0-4.54” class (1002, 12:20). , 2.1, 3, 2), etc. are generated.
そして、サンプルデータ39をバッチジョブJ1で1件ずつ処理し、実行時間5を実行時間対応表2bでカウントした値を記録する。
Then, the sample data 39 is processed one by one with the batch job J1, and the value obtained by counting the
図26(B)に例示するように、便宜上、階級の組み合せの一部にA、B、C、D、及びEの階級名を付ける。図26(C)にて、バッチジョブJ1の場合の、図26(B)の階級名を用いた実行時間対応表2bの例を示す。実行時間対応表2bでは、階級毎の100件の総実行時間が示される。 As illustrated in FIG. 26B, for convenience, class names of A, B, C, D, and E are given to some of the class combinations. FIG. 26C shows an example of the execution time correspondence table 2b using the class names of FIG. 26B in the case of the batch job J1. The execution time correspondence table 2b shows 100 total execution times for each class.
図26(C)に示される実行時間対応表2aから図27に示されるような実行時間写像gを得る。図26(D)では、バッチジョブJ1の実行時間写像gが例示される。図26(D)において、図26(C)に示される実行時間対応表2bの各値を階級毎の度数(100件)で割ることによって、バッチジョブJ1の実行時間写像gを取得する。 An execution time map g as shown in FIG. 27 is obtained from the execution time correspondence table 2a shown in FIG. FIG. 26D illustrates an execution time map g of the batch job J1. In FIG. 26D, the execution time map g of the batch job J1 is obtained by dividing each value of the execution time correspondence table 2b shown in FIG. 26C by the frequency for each class (100 cases).
図27は、第2実施例における実行時間の推定例を説明するための図である。図27(A)では、実際の入力データD1の度数分布表3f−2の作成例が示される。度数分布表3f−2の一部である階級A、B、C、D、Eの夫々に対して、度数「50」、「92」、「81」、「73」、及び「42」を示す例である。 FIG. 27 is a diagram for explaining an example of estimating the execution time in the second embodiment. FIG. 27A shows an example of creating the frequency distribution table 3f-2 of actual input data D1. The frequencies “50”, “92”, “81”, “73”, and “42” are shown for each of the classes A, B, C, D, and E which are part of the frequency distribution table 3f-2. It is an example.
そして、図27(B)に例示される実行時間写像gを用いて実行時間推定値5を計算する。図27(B)に示される実行時間写像gは、バッチジョブJ1の実行時間写像g(図26(D))に相当する。実行時間写像gの各値を係数とした一次式で、実行時間推定値5が計算される。例えば、バッチジョブJ1の実行時間t[J1]は、以下のように計算される。
Then, the execution time estimated
t[J1] = ・・・+0.1*D1[A]+0.3*D1[B]
+0.3*D1[C]+0.3*D1[D]+0.1*D1[E]
= 0.1*(1125−92−81−73)
+0.3*(92+81+73)
=161.7
但し、温度センサデータD1の実際のレコード数は1125件とする。また、B、C、D以外の階級の平均実行時間は全て0.1msとする。
t [J1] =... + 0.1 * D1 [A] + 0.3 * D1 [B]
+ 0.3 * D1 [C] + 0.3 * D1 [D] + 0.1 * D1 [E]
= 0.1 * (1125-92-81-73)
+ 0.3 * (92 + 81 + 73)
= 161.7
However, the actual number of records of the temperature sensor data D1 is 1125. The average execution time of classes other than B, C, and D is all 0.1 ms.
入力データのレコード件数Nが同一であるが異なる度数分布により推定時間が異なる場合について図28及び図29で説明する。 A case where the number of records N of the input data is the same but the estimated time is different due to different frequency distributions will be described with reference to FIGS.
図28は、第2実施例における他の実行時間の推定例を説明するための図である。図28では、入力データD1とD1'のレコード件数Nがどちらも1125件であるとする。 FIG. 28 is a diagram for explaining another estimation example of the execution time in the second embodiment. In FIG. 28, it is assumed that the record number N of the input data D1 and D1 ′ is 1125.
入力データD1の度数分布表3f−2では、その一部分において、階級Aでは「50」度数を示し、階級Bでは「92」度数を示し、階級Cでは「81」度数を示し、階級Dでは「73」度数を示し、階級Eでは「42」度数を示す。
In the frequency distribution table 3 f-2 of the
入力データD1'の度数分布表3f−2'では、その一部分において、階級Aでは「20」度数を示し、階級Bでは「15」度数を示し、階級Cでは「24」度数を示し、階級Dでは「30」度数を示し、階級Eでは「25」度数を示す。 In the frequency distribution table 3f-2 ′ of the input data D1 ′, in a part thereof, the class A indicates “20” frequency, the class B indicates “15” frequency, the class C indicates “24” frequency, and the class D Indicates “30” frequency, and class E indicates “25” frequency.
また、予め作成された実行時間写像gによって示される階級毎の実行時間は、一部分において、階級Aでは「0.1」msecを示し、階級Bでは「0.3」msecを示し、階級Cでは「0.3」msecを示し、階級Dでは「0.3」msecを示し、階級Eでは「0.1」msecを示す。 In addition, the execution time for each class indicated by the execution time map g created in advance shows “0.1” msec in class A, “0.3” msec in class B, and “C” in class C. “0.3” msec is shown, “0.3” msec is shown in class D, and “0.1” msec is shown in class E.
このような場合において、入力データの度数分布表3f−2及び実行時間写像を用いない従来手法による実行時間を推定するための一次式がt[J1]=0.1N+50である場合、
t[J1] = 0.1*1125 + 50 = 162.5
として求められる。
In such a case, when the linear expression for estimating the execution time by the conventional method not using the frequency distribution table 3f-2 of the input data and the execution time mapping is t [J1] = 0.1N + 50,
t [J1] = 0.1 * 1125 + 50 = 162.5
As required.
一方、本実施の形態による入力データD1とD1'に対する実行時間推定値5は、
入力データD1の場合、
t[J1] = 0.1*(1125−92−81−73)
+ 0.3*(92+81+73) = 161.7
となる。
On the other hand, the estimated
For input data D1,
t [J1] = 0.1 * (1125-92-81-73)
+ 0.3 * (92 + 81 + 73) = 161.7
It becomes.
また、入力データD1'の場合、
t[J1] = 0.1*(1125−15−24−30)
+ 0.3*(15+24+30) = 126.3
となる。
In the case of input data D1 ′,
t [J1] = 0.1 * (1125-15-24-30)
+ 0.3 * (15 + 24 + 30) = 126.3
It becomes.
このように、本実施の形態では、入力データD1と入力データD1'とでは、異なる実行時間推定値5が求まるのに対して、従来手法では、入力データ件数が同一である場合には、一つ実行時間推定値5しか得られない。つまり、従来手法では、推定された実行時間には誤差を含むことを意味しており、一方、本実施の形態では、推定誤差をより小さくし高精度に実行時間推定値5を求めることができる。
As described above, in the present embodiment, different execution
図28で例示した実行時間の推定値の違い(推定誤差)について図29で説明する。図29は、推定誤差を説明するための図である。図29において、バッチジョブJ1は、範囲[℃1、℃2]のデータを抽出し、所定処理を行うバッチジョブである。 A difference (estimation error) in the estimated value of execution time illustrated in FIG. 28 will be described with reference to FIG. FIG. 29 is a diagram for explaining the estimation error. In FIG. 29, a batch job J1 is a batch job that extracts data in the range [° C. 1 , ° C. 2 ] and performs a predetermined process.
この例において、レコード件数に相当する入力データ量Nが1125件であったとする。同一の入力データ量Nであっても、温度の度数分布が異なる場合がある。入力データD1では度数分布29a(図28のD1の度数分布表3f−2)を示し、入力データD1'では度数分布29b(図28のD1'の度数分布表3f−2')を示す等がある。例えば、入力データD1は夏のデータであり、入力データD1'は冬のデータである場合等である。 In this example, it is assumed that the input data amount N corresponding to the number of records is 1125. Even with the same input data amount N, the frequency distribution of temperature may be different. The input data D1 indicates a frequency distribution 29a (D1 frequency distribution table 3f-2 in FIG. 28), the input data D1 ′ indicates a frequency distribution 29b (D1 ′ frequency distribution table 3f-2 ′ in FIG. 28), and the like. is there. For example, the input data D1 is summer data, and the input data D1 ′ is winter data.
従来手法による実行時間推定値は、上述したように、入力データD1及び入力データD1'に対してt[J1]=162.5で同じ結果となる。度数分布29aと度数分布29bとの違いに関わらず同一の実行時間推定値が算出される。 As described above, the estimated execution time value according to the conventional method has the same result at t [J1] = 162.5 with respect to the input data D1 and the input data D1 ′. Regardless of the difference between the frequency distribution 29a and the frequency distribution 29b, the same execution time estimated value is calculated.
本実施の形態を適用した場合、入力データ量Nが同じ1125件であったとしても、度数分布29aを得た場合、度数分布29a(図28のD1の度数分布表3f−2)に基づいてバッチジョブJ1後の出力データ量に係る度数分布29cが求まる。また、実行時間写像gを用いた一次式により、t[J1]=161.7を得る。 When this embodiment is applied, even if the input data amount N is the same 1125 cases, when the frequency distribution 29a is obtained, the frequency distribution 29a (frequency distribution table 3f-2 of D1 in FIG. 28) is obtained. A frequency distribution 29c relating to the output data amount after the batch job J1 is obtained. Further, t [J1] = 161.7 is obtained by a linear expression using the execution time map g.
また、度数分布29b(図28のD1'の度数分布表3f−2')を得た場合、度数分布29bに基づいてバッチジョブJ1後の出力データ量に係る度数分布29dが求まる。また、実行時間写像gを用いた一次式により、t[J1]=126.3を得る。 Further, when the frequency distribution 29b (the frequency distribution table 3f-2 ′ of D1 ′ in FIG. 28) is obtained, the frequency distribution 29d related to the output data amount after the batch job J1 is obtained based on the frequency distribution 29b. Further, t [J1] = 16.3 is obtained by a linear expression using the execution time map g.
この推定値t[J1]=161.7と推定値t[J1]=126.3との違いが、従来手法の場合における実行時間の推定誤差に相当する。 The difference between the estimated value t [J1] = 161.7 and the estimated value t [J1] = 16.3 corresponds to an execution time estimation error in the case of the conventional method.
更に、従来手法において、入力データ量から出力データ量を推測する場合、その出力データ量にも推定誤差が生じる。バッチジョブネットワークでは、出力データが後続バッチジョブの入力データとなるため、出力データ量の推定誤差が大きい場合、バッチジョブ毎に推定誤差が蓄積される。また、出力データ量の推定のみならず実行時間の推定にも影響を与えるため、適切な実行時間を推定することができない場合がある。 Further, in the conventional method, when the output data amount is estimated from the input data amount, an estimation error also occurs in the output data amount. In the batch job network, the output data becomes input data of the subsequent batch job. Therefore, when the estimation error of the output data amount is large, the estimation error is accumulated for each batch job. In addition, since it affects not only the estimation of the output data amount but also the estimation of the execution time, it may not be possible to estimate an appropriate execution time.
一方、本実施の形態では、入力データ量Nが同じ件数であっても、度数分布29a及び度数分布29bの各々に基づいて、出力データ量及び実行時間を精度良く推定する。従って、バッチジョブネットワークにおいても、推定誤差による影響を少なくすることができ、出力データ量及び実行時間を精度良く推定できる。 On the other hand, in the present embodiment, even if the input data amount N is the same number, the output data amount and the execution time are accurately estimated based on each of the frequency distribution 29a and the frequency distribution 29b. Therefore, even in the batch job network, the influence of the estimation error can be reduced, and the output data amount and the execution time can be estimated with high accuracy.
以下に、実行時間写像gのみを使用して、実行時間を推定する第3実施例について説明する。 A third embodiment for estimating the execution time using only the execution time map g will be described below.
第3実施例では、バッチジョブが単一のバッチジョブのみで構成されている場合に、入力データの度数分布表3f−2から度数分布写像fを用いて実行時間を推定して、実行時間推定値5を得る。 In the third embodiment, when a batch job is composed of only a single batch job, the execution time is estimated by using the frequency distribution map f from the frequency distribution table 3f-2 of the input data, and the execution time is estimated. A value of 5 is obtained.
第3実施例において、変量フィールドの決定は、第1実施例等と同様であるので、その詳細な説明を省略する。また、実行時間写像gの作成は、第2実施例等と同様であるので、その詳細な説明を省略する。 In the third embodiment, the determination of the variable field is the same as that in the first embodiment and the detailed description thereof is omitted. The creation of the execution time map g is the same as that in the second embodiment and the detailed description thereof is omitted.
以上より、本実施の形態では、入力データの値の分布によって出力データ量と実行時間とを推定するため、入力データ量のみで出力データ量と実行時間とを推定する従来手法に比べて、推定誤差を小さくすることができる。 As described above, in this embodiment, since the output data amount and the execution time are estimated based on the distribution of the input data values, the estimation is performed as compared with the conventional method in which the output data amount and the execution time are estimated only by the input data amount. The error can be reduced.
本実施の形態では、複数のフィールドで構成される入力データのレコードを1件ずつ処理するようなバッチジョブ2について、入力データの度数分布から度数分布写像又は/及び実行時間写像を用いて実行時間を推定することで、バッチジョブ2に関するソース情報、設定ファイル等が不明であっても、実行時間を精度良く推定できる。また、入力データの度数分布と度数分布写像とから出力データの度数分布を取得でき、出力データ量を高精度で推定することができる。
In this embodiment, for a
本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。 The present invention is not limited to the specifically disclosed embodiments, and various modifications and changes can be made without departing from the scope of the claims.
以上の第1から第3実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
階級毎に入力データの度数の分布を示す度数分布表と、該度数分布表に基づく入力データから所定処理による結果情報への写像を記憶する記憶部と、
前記記憶部に記憶された前記度数分布表を入力とする該記憶部に記憶された前記結果情報への写像を用いた計算結果に基づいて、前記入力データに対する前記所定処理の実行時間を推定する実行時間推定部と
を有する実行時間推定装置。
(付記2)
前記記憶部に記憶される前記写像は、前記入力データの度数分布表から出力データの度数分布推定値への前記所定処理による度数分布写像であり、
前記入力データの度数分布表を入力とする、前記記憶部に記憶される前記度数分布写像を用いることによって、前記出力データの前記度数分布推定値を取得する出力データ度数分布推定部と、
推定された前記度数分布推定値で示される度数の総和による出力データ量に基づいて実行時間を推定する実行時間推定部と
を有する付記1記載の実行時間推定装置。
(付記3)
前記記憶部に記憶される前記写像は、前記入力データの度数分布表から前記所定処理による実行時間写像であり、
前記記憶部に記憶される実行時間写像の各値を前記入力データの度数分布表の同一階級の度数の係数とした一次式で、実行時間を推定する実行時間推定部
を有する付記1記載の実行時間推定装置。
(付記4)
前記記憶部は、前記入力データの度数分布表から出力データの度数分布推定値への前記所定処理による度数分布写像を更に記憶し、
前記記憶部に記憶される度数分布写像の各値を前記入力データの度数分布表の同一階級の度数の係数とした一次式で、前記出力データの度数分布推定値を取得する出力データ度数分布推定部
を有する付記3記載の実行時間推定装置。
(付記5)
前記出力データ度数分布推定部は、前記度数分布写像を用いた一次式で取得した前記出力データの度数分布推定値を、前記所定処理の後段の処理に対する入力データの度数分布表に設定する付記3記載の実行時間推定装置。
(付記6)
前記階級毎に入力データの度数を示す度数分布表を前記記憶部に作成する入力データ度数分布作成部を有する付記1乃至5のいずれか一項記載の実行時間推定装置。
(付記8)
記憶部に記憶された階級毎に入力データの度数の分布を示す度数分布表を入力とする、該記憶部に記憶された該度数分布表に基づく入力データから所定処理による結果情報への写像を計算し、
前記計算の結果に基づいて、前記入力データに対する前記所定処理の実行時間を推定する
処理をコンピュータに実行させるプログラム。
(付記9)
コンピュータによって実行される実行時間推定方法であって、
記憶部に記憶された階級毎に入力データの度数の分布を示す度数分布表を入力とする、該記憶部に記憶された該度数分布表に基づく入力データから所定処理による結果情報への写像を計算し、
前記計算の結果に基づいて、前記入力データに対する前記所定処理の実行時間を推定する実行時間推定方法。
(付記10)
階級毎に入力データの度数の分布を示す度数分布表と、該度数分布表に基づく入力データから所定処理による結果情報への写像を記憶する記憶部と、
前記度数分布表と写像とを記憶する度数分布生成部と、
前記記憶部に記憶された前記度数分布表を入力とする該記憶部に記憶された前記実行情報への写像を用いた計算結果に基づいて、前記入力データに対する前記所定処理の実行時間を推定する実行時間推定部と
を有するシステム。
(付記11)
前記度数分布生成部は、
入出力データのスキーマを取得して、該スキーマに基づく前記入力データのフィールドのうち、前記所定処理によって出力データに影響を与える変量フィールドを決定する変量フィールド決定部と、
前記変量フィールド決定部によって決定された前記変量フィールドの値域とレコードの見積もり件数とに基づいて階級数と階級幅とを決定して、前記入力データの度数分布表を前記記憶部に生成する度数分布表生成部と、
前記実行情報への前記写像を作成する写像作成部と
を有する付記10記載のシステム。
(付記12)
前記変量フィールド決定部は、
各フィールドの値を平均又は標準偏差を持った正規乱数を用いて設定したレコードを見積もり件数分含む基準入力データセットと、対象フィールド以外は該基準入力データセットの同一番目のフィールドと同じ値とし、該対象フィールドを該基準入力データセットとは異なる平均又は標準偏差を持った正規乱数を用いて変更した入力データセットを生成する生成部と、
前記基準入力データセットに対して前記所定処理を行って得た基準出力データセットと、前記入力データセットに対して該所定処理を行って得た出力データセットとを比較することによって、前記対象フィールドが該所定処理によって該出力データセットに与える影響度を算出する算出部と、
前記影響度が所定値以上である場合、前記対象フィールドを前記変量フィールドに決定する決定部と
を有する付記11記載のシステム。
(付記13)
前記変量フィールド決定部は、
前記基準出力データセットと前記出力データセットのレコード数が異なる場合、前記影響度に最大値を設定する第一設定部と、
前記出力データセットと前記基準出力データセットと比較において、対象フィールド以外で値が異なるフィールドがある場合、値が異なるフィールド数の全レコードのフィールド数に対する割合を前記影響度に設定する第二設定部と
を有する付記12記載のシステム。
(付記14)
前記写像作成部は、
前記入力フィールドの度数分布表の階級毎に度数分のランダムなデータを生成するデータ生成部と、
前記所定処理で1件ずつ処理して出力データが出力された階級をカウントし、カウント結果を該階級の度数で割ることによって、度数分布を示す前記写像を作成する写像作成部と、
を有する付記11乃至13のいずれか一項記載のシステム。
(付記15)
前記写像作成部は、
前記入力フィールドの度数分布表の階級毎に度数分のランダムなデータを生成するデータ生成部と、
前記所定処理で1件ずつ処理して測定した実行時間を階級毎に平均することによって、各階級の実行時間を示す前記写像を作成する写像作成部と、
を有する付記11乃至13のいずれか一項記載のシステム。
Regarding the embodiment including the first to third examples, the following additional notes are disclosed.
(Appendix 1)
A frequency distribution table showing the frequency distribution of the input data for each class, and a storage unit for storing a mapping from the input data based on the frequency distribution table to result information by a predetermined process;
The execution time of the predetermined process for the input data is estimated based on a calculation result using a mapping to the result information stored in the storage unit that receives the frequency distribution table stored in the storage unit. An execution time estimation device having an execution time estimation unit.
(Appendix 2)
The mapping stored in the storage unit is a frequency distribution map by the predetermined processing from the frequency distribution table of the input data to the frequency distribution estimated value of the output data,
An output data frequency distribution estimation unit that obtains the frequency distribution estimated value of the output data by using the frequency distribution map stored in the storage unit, which has the frequency distribution table of the input data as an input;
The execution time estimation device according to
(Appendix 3)
The mapping stored in the storage unit is an execution time mapping by the predetermined process from the frequency distribution table of the input data,
The execution according to
(Appendix 4)
The storage unit further stores a frequency distribution map by the predetermined processing from the frequency distribution table of the input data to the frequency distribution estimated value of the output data,
Output data frequency distribution estimation that obtains a frequency distribution estimated value of the output data by a linear expression using each value of the frequency distribution map stored in the storage unit as a coefficient of the frequency of the same class of the frequency distribution table of the input data The execution time estimation apparatus according to
(Appendix 5)
The output data frequency distribution estimation unit sets the frequency distribution estimation value of the output data acquired by a linear expression using the frequency distribution map in the frequency distribution table of the input data for the subsequent process of the predetermined process The execution time estimation apparatus described.
(Appendix 6)
The execution time estimation device according to any one of
(Appendix 8)
A frequency distribution table indicating the frequency distribution of the input data for each class stored in the storage unit is used as an input, and mapping from the input data based on the frequency distribution table stored in the storage unit to result information by a predetermined process is performed. Calculate
A program that causes a computer to execute a process of estimating an execution time of the predetermined process for the input data based on a result of the calculation.
(Appendix 9)
An execution time estimation method executed by a computer,
A frequency distribution table indicating the frequency distribution of the input data for each class stored in the storage unit is used as an input, and mapping from the input data based on the frequency distribution table stored in the storage unit to result information by a predetermined process is performed. Calculate
An execution time estimation method for estimating an execution time of the predetermined process for the input data based on a result of the calculation.
(Appendix 10)
A frequency distribution table showing the frequency distribution of the input data for each class, and a storage unit for storing a mapping from the input data based on the frequency distribution table to result information by a predetermined process;
A frequency distribution generation unit for storing the frequency distribution table and the mapping;
Based on a calculation result using a mapping to the execution information stored in the storage unit that receives the frequency distribution table stored in the storage unit, an execution time of the predetermined process for the input data is estimated. A system having an execution time estimation unit.
(Appendix 11)
The frequency distribution generation unit
A variable field determination unit that acquires a schema of input / output data and determines a variable field that affects output data by the predetermined processing among the fields of the input data based on the schema;
Frequency distribution for determining a class number and a class width based on the range of the variable field determined by the variable field determination unit and the estimated number of records, and generating a frequency distribution table of the input data in the storage unit A table generator,
The system according to
(Appendix 12)
The variable field determination unit includes:
The standard input data set including the estimated number of records set by using a normal random number with an average or standard deviation for each field value, and the same value as the first field of the standard input data set other than the target field, A generating unit that generates an input data set in which the target field is changed using a normal random number having an average or standard deviation different from the reference input data set;
By comparing the reference output data set obtained by performing the predetermined processing on the reference input data set and the output data set obtained by performing the predetermined processing on the input data set, the target field Calculating a degree of influence of the predetermined processing on the output data set;
The system according to
(Appendix 13)
The variable field determination unit includes:
When the number of records of the reference output data set and the output data set is different, a first setting unit that sets a maximum value for the degree of influence,
In the comparison between the output data set and the reference output data set, when there is a field having a different value other than the target field, a second setting unit that sets a ratio of the number of fields having a different value to the number of fields of all records as the influence The system according to
(Appendix 14)
The mapping creation unit
A data generation unit for generating random data for each frequency for each class of the frequency distribution table of the input field;
A map creation unit that creates the map showing the frequency distribution by counting the class in which the output data is processed one by one in the predetermined process, and dividing the count result by the frequency of the class;
14. The system according to any one of
(Appendix 15)
The mapping creation unit
A data generation unit for generating random data for each frequency for each class of the frequency distribution table of the input field;
A mapping creation unit that creates the mapping indicating the execution time of each class by averaging the execution times measured and processed for each class in the predetermined process;
14. The system according to any one of
2 バッチジョブ
6 入出力データのスキーマ
11 CPU
12 主記憶装置
13 補助記憶装置
14 入力装置
15 表示装置
16 出力装置
17 通信I/F
18 ドライブ
19 記憶媒体
40 度数分布生成部
41 変量フィールド決定部
42 度数分布表生成部
43 度数分布写像作成部
44 実行時間写像作成部
50 実行時間推定部
51 入力データ度数分布作成部
52 実行時間推定部
53 出力データ度数分布推定部
130 記憶部
1000 システム
f 度数分布写像
g 実行時間写像
2 Batch job 6 I /
12
18
Claims (5)
前記記憶部に記憶された前記度数分布表の各階級に対して、前記所定処理の対象入力データの前記入力度数を設定する設定部と、
前記度数分布写像の値を係数とした一次式によって、該対象入力データに対する前記所定処理後の出力データの前記出力度数を該階級毎に取得し、取得した該階級毎の該出力度数を合計することで、前記対象入力データに対する前記出力度数を推定する出力度数推定部と
を有する推定装置。 The value of the field of the input data that affects the output data for each class obtained by class classification, the classified and frequency distribution table to set the input frequency of the input data, the input data sampled in each class of該度number distribution table A storage unit for storing a frequency distribution map that sets an input frequency and obtains an output frequency of output data by performing predetermined processing on the sampled input data ;
A setting unit for setting the input frequency of the target input data of the predetermined processing for each class of the frequency distribution table stored in the storage unit ;
The output frequency of the output data after the predetermined processing with respect to the target input data is acquired for each class by a linear expression using the value of the frequency distribution map as a coefficient, and the acquired output frequencies for each class are totaled. it is, estimator that having a <br/> an output power estimator for estimating the output power with respect to the target input data.
前記実行時間写像の値を係数とした一次式によって、該対象入力データに対する前記所定処理後の前記実行時間を該階級毎に取得し、取得した該階級毎の該実行時間を合計することで、前記対象入力データに対する前記実行時間を推定する実行時間推定部と
を有する請求項1記載の推定装置。 The storage unit stores the predetermined processing execution time indicates an execution time by mapping per input data for each class frequency distribution table of the input data,
By obtaining the execution time after the predetermined processing for the target input data for each class by a linear expression using the value of the execution time map as a coefficient, and summing the obtained execution times for each class, The estimation apparatus according to claim 1, further comprising: an execution time estimation unit that estimates the execution time for the target input data .
前記出力度数推定部によって得られた前記階級毎の前記出力度数を該階級毎の前記対象入力データとして用いて、前記記憶部に記憶される前記実行時間写像の値を係数とした一次式によって、該対象入力データに対する前記所定処理後の前記実行時間を該階級毎に取得し、取得した該階級毎の該実行時間を合計することで、前記対象入力データに対する該実行時間を推定する実行時間推定部
を有する請求項1記載の推定装置。 The storage unit stores the predetermined processing execution time indicates an execution time by mapping per input data for each class frequency distribution table of the input data,
Using said output power of said each class obtained by the output power estimating unit as the target input data of hierarchical class each, by a linear expression that the coefficient values of the mapping the execution time stored in the storage unit, Execution time estimation for estimating the execution time for the target input data by acquiring the execution time after the predetermined processing for the target input data for each class and summing the acquired execution times for each class The estimation apparatus according to claim 1, further comprising a unit.
前記記憶部に記憶された前記度数分布表の各階級に対して、前記所定処理の対象入力データの前記入力度数を設定し、
前記度数分布写像の値を係数とした一次式によって、該対象入力データに対する該所定処理後の出力データの前記出力度数を該階級毎に取得し、
取得した前記階級毎の前記出力度数を合計することで、前記対象入力データに対する前記出力度数を推定する
処理をコンピュータに実行させるプログラム。 The value of the field of the input data affects the output data stored in the storage unit for each class obtained by class classification, as inputs frequency distribution table for setting the input power of the classified the input data, stored in the storage unit It has been set the input frequency of the input data sampled in each class of該度number distribution table, to calculate a frequency distribution map to obtain an output frequency of the output data by performing a predetermined process on the input data the sampled Memorize in the memory ,
For each class of the frequency distribution table stored in the storage unit, set the input frequency of the target input data of the predetermined processing,
The output frequency of the output data after the predetermined processing for the target input data is obtained for each class by a linear expression using the value of the frequency distribution map as a coefficient,
The program which makes a computer perform the process which estimates the said output frequency with respect to the said target input data by totaling the said output frequency for every said class acquired .
記憶部に記憶された出力データに影響する入力データのフィールドの値を階級分けした階級毎に、分類された該入力データの入力度数を設定する度数分布表を入力とする、該記憶部に記憶された該度数分布表の各階級にサンプリングした入力データの該入力度数を設定し、該サンプリングした入力データに対して所定処理を行うことで出力データの出力度数を得る度数分布写像を計算して記憶部に記憶し、
前記記憶部に記憶された前記度数分布表の各階級に対して、前記所定処理の対象入力データの前記入力度数を設定し、
前記度数分布写像の値を係数とした一次式によって、該対象入力データに対する該所定処理後の出力データの前記出力度数を該階級毎に取得し、
取得した前記階級毎の前記出力度数を合計することで、前記対象入力データに対する前記出力度数を推定する推定方法。 An execution time estimation method executed by a computer,
The value of the field of the input data affects the output data stored in the storage unit for each class obtained by class classification, as inputs frequency distribution table for setting the input power of the classified the input data, stored in the storage unit It has been set the input frequency of the input data sampled in each class of該度number distribution table, to calculate a frequency distribution map to obtain an output frequency of the output data by performing a predetermined process on the input data the sampled Memorize in the memory ,
For each class of the frequency distribution table stored in the storage unit, set the input frequency of the target input data of the predetermined processing,
The output frequency of the output data after the predetermined processing for the target input data is obtained for each class by a linear expression using the value of the frequency distribution map as a coefficient,
An estimation method for estimating the output frequency for the target input data by summing the acquired output frequencies for each of the classes .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012072234A JP5842704B2 (en) | 2012-03-27 | 2012-03-27 | Estimation apparatus, program, and estimation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012072234A JP5842704B2 (en) | 2012-03-27 | 2012-03-27 | Estimation apparatus, program, and estimation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013205970A JP2013205970A (en) | 2013-10-07 |
JP5842704B2 true JP5842704B2 (en) | 2016-01-13 |
Family
ID=49525020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012072234A Expired - Fee Related JP5842704B2 (en) | 2012-03-27 | 2012-03-27 | Estimation apparatus, program, and estimation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5842704B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019044A (en) * | 2017-12-15 | 2019-07-16 | 北京京东尚科信息技术有限公司 | Big data cluster quasi real time Yarn Mission Monitor analysis method |
JP7449779B2 (en) | 2020-06-03 | 2024-03-14 | 株式会社日立製作所 | Job management method and job management device |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3338570B2 (en) * | 1994-11-22 | 2002-10-28 | 富士通株式会社 | Prediction device for processing end time in batch processing of natural language |
JP4102695B2 (en) * | 2003-03-28 | 2008-06-18 | 株式会社日本総合研究所 | Batch job management system and batch job management program |
JP2008020642A (en) * | 2006-07-12 | 2008-01-31 | Fujitsu Ltd | Prediction method of data process time and process time prediction device |
-
2012
- 2012-03-27 JP JP2012072234A patent/JP5842704B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013205970A (en) | 2013-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6978541B2 (en) | Computer implementation method, computer system and computer equipment to reduce dynamic deviation value bias | |
RU2008147223A (en) | METHOD AND DEVICE FOR DETERMINING A DISEASE CONDITION BY MEANS OF BIOMARKERS | |
US11016477B2 (en) | Devices, methods, and systems for a distributed rule based automated fault detection | |
JP6835098B2 (en) | Factor analysis method, factor analyzer and factor analysis program | |
RU2014115455A (en) | SYSTEM AND METHOD OF STARTING A VIRTUAL MACHINE | |
JP6737277B2 (en) | Manufacturing process analysis device, manufacturing process analysis method, and manufacturing process analysis program | |
JP2017502390A (en) | Method and apparatus for defining a functional model based on data | |
CN113465734B (en) | Real-time estimation method for structural vibration | |
JP5842704B2 (en) | Estimation apparatus, program, and estimation method | |
KR20190004605A (en) | Apparatus and method for generating energy simulation model | |
WO2021151304A1 (en) | Method and apparatus for hysteretic processing of time series data, electronic device, and storage medium | |
JP2013257821A (en) | Information processor, information processing method and program | |
Lopes et al. | Theoretical results on fractionally integrated exponential generalized autoregressive conditional heteroskedastic processes | |
WO2019224909A1 (en) | Parameter selection method, parameter selection program, and information processing device | |
Shen et al. | Likelihood approaches for the invariant density ratio model with biased-sampling data | |
JP7353940B2 (en) | Transferability determination device, transferability determination method, and transferability determination program | |
JP2013168020A (en) | State prediction method for process | |
JP2017224185A (en) | Bug contamination probability calculation program and bug contamination probability calculation method | |
JP6150545B2 (en) | Data processing apparatus and program | |
JP2013149203A (en) | Optimal model estimation device, method and program | |
JP2017207878A (en) | Missing data estimation method, missing data estimation device, and missing data estimation program | |
JP2021060959A (en) | Factor analysis device and factor analysis method | |
WO2016013099A1 (en) | Feature data management system and feature data management method | |
Worms et al. | Modelling Program's Performance with Gaussian Mixtures for Parametric Statistics | |
JP6677068B2 (en) | Execution time estimation device, execution time estimation method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150804 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151020 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5842704 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |