JP5842704B2 - Estimation apparatus, program, and estimation method - Google Patents

Estimation apparatus, program, and estimation method Download PDF

Info

Publication number
JP5842704B2
JP5842704B2 JP2012072234A JP2012072234A JP5842704B2 JP 5842704 B2 JP5842704 B2 JP 5842704B2 JP 2012072234 A JP2012072234 A JP 2012072234A JP 2012072234 A JP2012072234 A JP 2012072234A JP 5842704 B2 JP5842704 B2 JP 5842704B2
Authority
JP
Japan
Prior art keywords
class
frequency distribution
input data
data
execution time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012072234A
Other languages
Japanese (ja)
Other versions
JP2013205970A (en
Inventor
功作 木村
功作 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012072234A priority Critical patent/JP5842704B2/en
Publication of JP2013205970A publication Critical patent/JP2013205970A/en
Application granted granted Critical
Publication of JP5842704B2 publication Critical patent/JP5842704B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、バッチジョブの実行時間を精度良く推定することに関する。   The present invention relates to accurately estimating the execution time of a batch job.

バッチジョブがネットワークに繋がっているバッチジョブネットワークにおいて、全てのバッチジョブを予定終了時刻に完了させるために、入力データに対するバッチジョブの実行時間を予測して、適切な開始時刻を設定することが求められている。   In a batch job network where batch jobs are connected to the network, in order to complete all batch jobs at the scheduled end time, it is necessary to predict the execution time of the batch job for the input data and set an appropriate start time. It has been.

例えば、入力データ量から実行時間を推定するモデルを用いることが提案されている。過去の各バッチジョブの入力データ量から出力データ量と実行時間を推定するモデルを作成し、作成したモデルを用いて今回の入力データ量から出力データ量と実行時間を推定して、出力データ量を後続のバッチジョブの実行時間の推定の際に入力データ量として用いること、バッチジョブの統計量を求めるためのモデルを複数用意し、複数のモデルの中から最適なモデルとそのパラメータを小規模データを用いた測定結果から決定して、決定したパラメータを用いて大規模データの処理時の統計量を推定すること等が提案されている。   For example, it has been proposed to use a model that estimates execution time from the amount of input data. Create a model that estimates the output data amount and execution time from the input data amount of each past batch job, and estimate the output data amount and execution time from the current input data amount using the created model, and output data amount Is used as the amount of input data when estimating the execution time of subsequent batch jobs, and multiple models for obtaining batch job statistics are prepared. It has been proposed to determine from a measurement result using data, and to estimate a statistic at the time of processing large-scale data using the determined parameter.

また、入力データ項目を格納するファイルやデータベースを読み込むプログラムを抽出し、各プログラムに対して、各対象項目に対応する入力レコード中の変数を起点として影響検索を行うことによって、入力データ項目の値域の変更がアプリケーションの保守に与える影響を分析する等が知られている。   In addition, by extracting the program that reads the file or database that stores the input data items and performing an impact search on each program starting from the variable in the input record corresponding to each target item, the range of the input data item It is known to analyze the effect of changes in application maintenance on applications.

特開2004−295731号公報JP 2004-295731 A 特開2010−061417号公報JP 2010-061417 A 再表2009−011057号公報No. 2009-011057

Sturges, H.A., "The choice of a class interval", J. American Statistical Association, pp.65-66Sturges, H.A., "The choice of a class interval", J. American Statistical Association, pp.65-66

上述従来技術では、入力データ量のみで出力データ量と実行時間とを推定していた。このような実行時間の推定では、複数のフィールドで構成される入力データのレコードを1件ずつ処理するバッチジョブの場合、入力データの値の分布によって出力データ量と実行時間とが大きく変化するため、推定誤差が大きくなってしまうと言った問題があった。   In the above prior art, the output data amount and the execution time are estimated only by the input data amount. In such an execution time estimation, in the case of a batch job that processes records of input data composed of a plurality of fields one by one, the output data amount and the execution time greatly vary depending on the distribution of input data values. There was a problem that the estimation error would increase.

開示の実行時間推定装置は、出力データに影響する入力データのフィールドの値を階級分けした階級毎に、分類された該入力データの入力度数を設定する度数分布表と、該度数分布表の各階級サンプリングした入力データの該入力度数を設定し、該サンプリングした入力データに対して所定処理を行うことで出力データの出力度数を得る度数分布写像を記憶する記憶部と、前記記憶部に記憶された前記度数分布表の各階級に対して、前記所定処理の対象入力データの前記入力度数を設定する設定部と、前記度数分布写像の値を係数とした一次式によって、該対象入力データに対する前記所定処理後の出力データの前記出力度数を該階級毎に取得し、取得した該階級毎の該出力度数を合計することで、前記対象入力データに対する前記出力度数を推定する出力度数推定部とを有する。 Execution time estimation apparatus disclosed the value of the field of the input data that affects the output data for each class obtained by class classification, the frequency distribution table for setting the input power of classified said input data, each of該度number distribution table set the input frequency of the input data sampled in class, a storage unit for storing the frequency distribution map to obtain an output frequency of the output data by performing a predetermined process on the input data the sampling, stored in the storage unit For each class of the frequency distribution table , the setting unit for setting the input frequency of the target input data of the predetermined process, and a linear expression using the value of the frequency distribution map as a coefficient, The output frequency of the output data after the predetermined processing is acquired for each class, and the output frequency for the target input data is obtained by summing the acquired output frequencies for each class. Estimating a and an output power estimator.

よって、本発明の目的は、バッチジョブにおける出力データ量や実行時間をより良い精度で推定できるようにすることである。   Therefore, an object of the present invention is to enable estimation of output data amount and execution time in a batch job with better accuracy.

開示の実行時間推定装置は、階級毎に入力データの度数の分布を示す度数分布表と、該度数分布表に基づく入力データから所定処理による結果情報への写像を記憶する記憶部と、前記記憶部に記憶された前記度数分布表を入力とする該記憶部に記憶された前記結果情報への写像を用いた計算結果に基づいて、前記入力データに対する前記所定処理の実行時間を推定する実行時間推定部とを有する。   The disclosed execution time estimation device includes a frequency distribution table indicating a frequency distribution of input data for each class, a storage unit for storing a mapping from input data based on the frequency distribution table to result information by a predetermined process, and the storage An execution time for estimating the execution time of the predetermined process on the input data based on a calculation result using a mapping to the result information stored in the storage unit that receives the frequency distribution table stored in the storage unit And an estimation unit.

また、上記課題を解決するための手段として、コンピュータに上記実行時間推定装置として機能させるためのプログラム、実行時間推定方法、及びそのプログラムを記録した記録媒体とすることもできる。   Further, as means for solving the above problems, a program for causing a computer to function as the execution time estimation apparatus, an execution time estimation method, and a recording medium on which the program is recorded can be used.

開示の技術では、バッチジョブのソース情報が不明であっても、バッチジョブの実行時間を精度良く推測することができる。   With the disclosed technology, it is possible to accurately estimate the execution time of a batch job even if the source information of the batch job is unknown.

本実施の形態に係るバッチジョブの実行時間推定方法を説明するための図である。It is a figure for demonstrating the execution time estimation method of the batch job which concerns on this Embodiment. 度数分布写像生成方法を説明するための図(その1)である。It is FIG. (1) for demonstrating the frequency distribution map production | generation method. 度数分布写像生成方法を説明するための図(その2)である。It is FIG. (2) for demonstrating the frequency distribution map production | generation method. 実行時間写像生成方法を説明するための図(その1)である。It is FIG. (1) for demonstrating an execution time map production | generation method. 実行時間写像生成方法を説明するための図(その2)である。It is FIG. (2) for demonstrating an execution time map production | generation method. 出力データ度数分布推定方法を説明するための図である。It is a figure for demonstrating the output data frequency distribution estimation method. 実行時間推定方法を説明するための図である。It is a figure for demonstrating the execution time estimation method. 変量フィールド決定方法を説明するための図である。It is a figure for demonstrating the variable field determination method. 影響度算出方法を説明するための図である。It is a figure for demonstrating the influence calculation method. 本実施の形態に係るシステムの機能構成例を示す図である。It is a figure which shows the function structural example of the system which concerns on this Embodiment. コンピュータ装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of a computer apparatus. 度数分布写像作成処理を説明するための図である。It is a figure for demonstrating a frequency distribution map creation process. 実時間写像作成処理を説明するための図である。It is a figure for demonstrating real time mapping production processing. 出力データ度数分布推定処理を説明するための図である。It is a figure for demonstrating an output data frequency distribution estimation process. 実行時間推定処理を説明するための図である。It is a figure for demonstrating execution time estimation processing. 変量フィールド決定処理を説明するための図である。It is a figure for demonstrating the variable field determination process. 出力データの影響度算出処理を説明するための図である。It is a figure for demonstrating the influence degree calculation process of output data. 温度センサデータのバッチ処理の一例を説明するための図である。It is a figure for demonstrating an example of the batch process of temperature sensor data. 各データのスキーマと件数見積値の例を示す図である。It is a figure which shows the example of the schema of each data, and the estimated number of cases. 第1実施例における変量フィールドの決定例を説明するための図(その1)である。It is FIG. (1) for demonstrating the example of determination of the variable field in 1st Example. 第1実施例における変量フィールドの決定例を説明するための図(その2)である。It is FIG. (2) for demonstrating the example of determination of the variable field in 1st Example. 第1実施例における3次元度数分布の例を示す図である。It is a figure which shows the example of the three-dimensional frequency distribution in 1st Example. 第1実施例における度数分布写像の作成例を説明するための図(その1)である。It is FIG. (1) for demonstrating the creation example of the frequency distribution map in 1st Example. 第1実施例における度数分布写像の作成例を説明するための図(その2)である。It is FIG. (2) for demonstrating the creation example of the frequency distribution map in 1st Example. 第1実施例における出力データの度数分布推定例を説明するための図である。It is a figure for demonstrating the frequency distribution estimation example of the output data in 1st Example. 第2実施例における実行時間写像の作成例を説明するための図(その1)である。It is FIG. (1) for demonstrating the creation example of the execution time map in 2nd Example. 第2実施例における実行時間写像の作成例を説明するための図(その2)である。It is FIG. (2) for demonstrating the creation example of the execution time map in 2nd Example. 第2実施例における他の実行時間の推定例を説明するための図である。It is a figure for demonstrating the example of estimation of the other execution time in 2nd Example. 推定誤差を説明するための図である。It is a figure for demonstrating an estimation error.

以下、本発明の実施の形態を図面に基づいて説明する。本実施の形態では、複数のフィールドで構成される入力データのレコードを1件ずつ処理するようなバッチジョブについて、入力データの度数分布から度数分布写像と実行時間写像を用いて出力データの度数分布と実行時間とを推定する。本実施の形態によって、バッチジョブのソース情報が不明であっても出力データ量と実行時間とを高精度に推定することを可能とする。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the present embodiment, for batch jobs that process records of input data composed of a plurality of fields one by one, the frequency distribution of output data using the frequency distribution mapping and the execution time mapping from the frequency distribution of the input data And the execution time. This embodiment makes it possible to estimate the output data amount and the execution time with high accuracy even when the source information of the batch job is unknown.

図1は、本実施の形態に係るバッチジョブの実行時間推定方法を説明するための図である。図1において、バッチジョブの実行時間推定方法では、入力データの度数分布3及び出力データの度数分布4の各々で変量として用いるフィールド(以下、変量フィールドと言う)を決定し、入力データの度数分布3及び出力データの度数分布4の各々の度数分布表を作成する(変量フィールド決定方法)。変量フィールド決定方法については、後述される。   FIG. 1 is a diagram for explaining a batch job execution time estimation method according to the present embodiment. In FIG. 1, in the batch job execution time estimation method, a field used as a variable (hereinafter referred to as a variable field) is determined for each of the frequency distribution 3 of the input data and the frequency distribution 4 of the output data, and the frequency distribution of the input data is determined. 3 and a frequency distribution table for each of the output data frequency distributions 4 are created (variable field determination method). The variable field determination method will be described later.

以下を生成し、出力データの度数分布4と実行時間5とを推定する。   The following is generated, and the frequency distribution 4 and the execution time 5 of the output data are estimated.

・入力データの度数分布3を生成する
入力データの度数分布3は、実際は、複数の変量からなる多次元度数分布3−2であり、バッチジョブの実行時間推定方法は、このような多次元度数分布3−2を扱う。
Generate the frequency distribution 3 of the input data The frequency distribution 3 of the input data is actually a multidimensional frequency distribution 3-2 composed of a plurality of variables, and the execution time estimation method of the batch job is such a multidimensional frequency. Handle distribution 3-2.

・度数分布写像fを生成する。   Generate a frequency distribution map f.

度数分布写像fは、入力データの度数分布3の各階級に属するレコードが出力データの度数分布4のどの階級に出力されるかを表す。     The frequency distribution map f indicates to which class of the frequency distribution 4 of the output data the records belonging to each class of the frequency distribution 3 of the input data are output.

・実行時間写像gは、入力データの度数分布3の階級毎のレコード1件当たりのバッチジョブ平均実行時間を表す。   The execution time map g represents the average execution time of batch jobs per record for each class of the frequency distribution 3 of the input data.

次に、度数分布写像fを生成する度数分布写像生成方法を説明する。図2及び図3は、度数分布写像生成方法を説明するための図である。図2において、フィールドの名前、型、値域などの情報を含む既知の入出力データのスキーマ6の入出力データのレコード件数を見積もって、バッチジョブ2で方法を行う(ステップS11)。レコード件数の見積値は、例えば、1000件である。   Next, a frequency distribution map generation method for generating the frequency distribution map f will be described. 2 and 3 are diagrams for explaining a frequency distribution map generation method. In FIG. 2, the number of records of input / output data in the schema 6 of known input / output data including information such as field names, types, and value ranges is estimated, and the method is performed by the batch job 2 (step S11). The estimated number of records is 1000, for example.

入出力データのスキーマ6は、既知であり、各項目のデータタイプを定義した情報である。各データは、フィールド、型、値域等で定義される。フィールドには、「センサID」、「日時」、「温度」等の項目名が示される。「センサID」のデータ型は「int」であり値域[0,9999]、「日時」のデータ型は「date」であり値域[0:00,23:59]、「温度」のデータ型は「float」であり値域[0,100]等である。   The input / output data schema 6 is known and is information defining the data type of each item. Each data is defined by a field, a type, a value range, and the like. In the field, item names such as “sensor ID”, “date / time”, and “temperature” are shown. The data type of “sensor ID” is “int” and the value range [0,9999], the data type of “date and time” is “date”, the value range [0:00, 23:59], and the data type of “temperature” is “Float” and a range [0, 100] or the like.

バッチジョブ2では、出力データへの影響度が一定以上のフィールドを変量フィールド7に決定する(ステップS12)。温度フィールドが決定された入力データの変量フィールド7として決定されたとする。   In the batch job 2, the variable field 7 is determined as a field having a certain degree of influence on the output data (step S12). It is assumed that the temperature field is determined as the variable field 7 of the determined input data.

入出力データの値域とレコード件数の見積値とに基づいて、夫々の度数分布の階級数と階級幅とを決定し、度数分布表3fを作成する(ステップS13)。例えば、変量フィールド7に決定された温度フィールドに対して、階級(1)に対して階級幅は0℃〜5℃、階級(2)に対して階級幅は5℃〜10℃、階級(3)に対して階級幅は10℃〜15℃、階級(4)に対して階級幅は15℃〜20℃、階級(5)に対して階級幅は20℃〜25℃、・・・のように階級数と階級幅とが決定される。   Based on the range of the input / output data and the estimated value of the number of records, the class number and class width of each frequency distribution are determined, and the frequency distribution table 3f is created (step S13). For example, for the temperature field determined as the variable field 7, the class width is 0 ° C. to 5 ° C. for the class (1), the class width is 5 ° C. to 10 ° C. for the class (2), and the class (3 ) For the class (4), the class width is 15 ° C. to 20 ° C., for the class (5), the class width is 20 ° C. to 25 ° C., and so on. The number of classes and class width are determined.

そして、入力データについて度数分布表3fの階級毎にランダムなデータを所定件数(例えば、100個)ずつ生成する(ステップS14)。度数分布表3fの度数には生成されたランダムなデータの個数が示される。   Then, for the input data, a predetermined number (for example, 100) of random data is generated for each class of the frequency distribution table 3f (step S14). The frequency of the frequency distribution table 3f indicates the number of generated random data.

図3において、ステップS14で度数分布表3fの階級毎に生成したランダムな入力データをバッチジョブ2に投入する(ステップS15)。各階級について、バッチジョブ2でレコードを1件ずつ処理し、各階級の所定件数(100個)の入力データが出力データの度数分布4のどの階級に何件出力されたかをカウントする(ステップS16)。カウントされた値は、入出力対応表2aに記録される。   In FIG. 3, the random input data generated for each class of the frequency distribution table 3f in step S14 is input to the batch job 2 (step S15). For each class, batch job 2 processes the records one by one, and counts how many input data of a predetermined number (100) of each class are output to which class of frequency distribution 4 of the output data (step S16). ). The counted value is recorded in the input / output correspondence table 2a.

全ての入力データを処理した後、入出力対応表2aの値を階級毎の件数(100個)で割って、度数分布写像fを得る(ステップS17)。 After processing all input data, the value of the input / output correspondence table 2a is divided by the number of cases (100) for each class to obtain a frequency distribution map f (step S17).

次に、度数分布写像を生成する実行時間写像生成方法を説明する。図4及び図5は、実行時間写像生成方法を説明するための図である。図4において、フィールドの名前、型、値域などの情報を含む既知の入出力データのスキーマ6の入出力データのレコード件数を見積もって、バッチジョブ2で処理を行う(ステップS21)。レコード件数の見積値は、例えば、1000件である。入出力データのスキーマ6は、図2に示すスキーマと同様である。 Next, an execution time map generation method for generating the frequency distribution map g will be described. 4 and 5 are diagrams for explaining the execution time map generation method. In FIG. 4, the number of input / output data records in the schema 6 of known input / output data including information such as field names, types, and value ranges is estimated, and processing is performed by the batch job 2 (step S21). The estimated number of records is 1000, for example. The schema 6 of input / output data is the same as the schema shown in FIG.

バッチジョブ2では、出力データへの影響度が一定以上のフィールドを変量フィールド7に決定する(ステップS22)。温度フィールドが決定された入力データの変量フィールド7として決定されたとする。   In the batch job 2, the variable field 7 is determined as a field having a certain degree of influence on the output data (step S22). It is assumed that the temperature field is determined as the variable field 7 of the determined input data.

入出力データの値域とレコード件数の見積値とに基づいて、夫々の度数分布の階級数と階級幅とを決定し、度数分布表3fを作成する(ステップS23)。例えば、変量フィールド7に決定された温度フィールドに対して、階級(1)に対して階級幅は0℃〜5℃、階級(2)に対して階級幅は5℃〜10℃、階級(3)に対して階級幅は10℃〜15℃、階級(4)に対して階級幅は15℃〜20℃、階級(5)に対して階級幅は20℃〜25℃、・・・のように階級数と階級幅とが決定される。   Based on the range of the input / output data and the estimated value of the number of records, the class number and class width of each frequency distribution are determined, and the frequency distribution table 3f is created (step S23). For example, for the temperature field determined as the variable field 7, the class width is 0 ° C. to 5 ° C. for the class (1), the class width is 5 ° C. to 10 ° C. for the class (2), and the class (3 ) For the class (4), the class width is 15 ° C. to 20 ° C., for the class (5), the class width is 20 ° C. to 25 ° C., and so on. The number of classes and class width are determined.

そして、入力データについて度数分布表3fの階級毎にランダムなデータを所定件数(例えば、100個)ずつ生成する(ステップS24)。度数分布表3fの度数には生成されたランダムなデータの個数が示される。   Then, a predetermined number (for example, 100) of random data is generated for each class of the frequency distribution table 3f for the input data (step S24). The frequency of the frequency distribution table 3f indicates the number of generated random data.

図5において、ステップS24で度数分布表3fの階級毎に生成したランダムな入力データをバッチジョブ2に投入する(ステップS25)。各階級について、バッチジョブ2でレコードを1件ずつ処理し、そのときの実行時間を測定し、各階級の所定件数(100個)の入力データの総実行時間がどれだけかかったかを実行時間対応表2bに記録する(ステップS26)。   In FIG. 5, the random input data generated for each class of the frequency distribution table 3f in step S24 is input to the batch job 2 (step S25). For each class, batch job 2 processes records one by one, measures the execution time at that time, and corresponds to the total execution time of the input data of the predetermined number (100) of each class Record in Table 2b (step S26).

全ての入力データを処理した後、実行時間対応表2bの値を階級毎の件数(100個)で割って、実行時間写像gを得る(ステップS27)。   After processing all input data, the value of the execution time correspondence table 2b is divided by the number of cases (100) for each class to obtain an execution time map g (step S27).

次に、出力データの度数分布を推定する出力データ度数分布推定方法を説明する。図6は、出力データ度数分布推定方法を説明するための図である。図6に示す出力データ度数分布推定方法において、実際の入力データ2dの度数分布表3f−2を作成する(ステップS31)。度数分布表3f−2は、実際の入力データ2dに基づいて度数分布表3fの度数に件数が設定された表である。階級(1)は「50」度数、階級(2)は「92」度数、階級(3)は「81」度数、階級(4)は「73」度数、及び階級(5)は「42」度数が設定され、実際の入力データ2dの合計件数は「338」件となる度数分布表3f−2が作成されたとする。   Next, an output data frequency distribution estimation method for estimating the frequency distribution of output data will be described. FIG. 6 is a diagram for explaining an output data frequency distribution estimation method. In the output data frequency distribution estimation method shown in FIG. 6, the frequency distribution table 3f-2 of the actual input data 2d is created (step S31). The frequency distribution table 3f-2 is a table in which the number of cases is set to the frequency of the frequency distribution table 3f based on the actual input data 2d. Class (1) is “50” frequency, Class (2) is “92” frequency, Class (3) is “81” frequency, Class (4) is “73” frequency, and Class (5) is “42” frequency. Is set, and the frequency distribution table 3f-2 in which the total number of actual input data 2d is “338” is created.

そして、度数分布写像fの各値を係数とした一次式で、度数分布表3fの階級毎の度数に対する、出力データの各階級の度数を計算する(ステップS32)。実際の入力データ2dの度数分布表3f−2に対して推定された出力データの度数分布推定値4fが出力される。度数分布表3fに対して、階級(1)は「0」度数、階級(2)は「0」度数、階級(3)は「81」度数、階級(4)は「73」度数、及び階級(5)は「42」度数を示す度数分布推定値4fを得る。実際の入力データ2dに対して予測される出力データ量は、合計件数「196」件となる。   Then, the frequency of each class of the output data is calculated with respect to the frequency for each class in the frequency distribution table 3f by a linear expression using each value of the frequency distribution map f as a coefficient (step S32). The frequency distribution estimated value 4f of the output data estimated with respect to the frequency distribution table 3f-2 of the actual input data 2d is output. For frequency distribution table 3f, class (1) is "0" frequency, class (2) is "0" frequency, class (3) is "81" frequency, class (4) is "73" frequency, and class (5) obtains a frequency distribution estimated value 4f indicating "42" frequency. The output data amount predicted for the actual input data 2d is the total number “196”.

次に、実行時間を推定する実行時間推定方法を説明する。図7は、実行時間推定方法を説明するための図である。図7に示す実行時間推定方法において、実際の入力データ2dの度数分布表3f−2を作成する(ステップS41)。度数分布表3f−2の作成は、図6のステップS31と同様である。   Next, an execution time estimation method for estimating the execution time will be described. FIG. 7 is a diagram for explaining the execution time estimation method. In the execution time estimation method shown in FIG. 7, a frequency distribution table 3f-2 of actual input data 2d is created (step S41). Creation of the frequency distribution table 3f-2 is the same as step S31 in FIG.

そして、実行時間写像gの各値を同じ階級の度数分布表3f−2の度数に対する係数とした一次式で実行時間を計算する(ステップS42)。図7に示す度数分布表3f−2と実行時間写像gとから、
実行時間推定値 = 0.1*50+0.1*92+0.2*81
+0.2*73+0.2*42
を計算して、実際の入力データ2dの度数分布表3f−2に基づいて実行時間推定値5(53.4msec)を得る。
Then, the execution time is calculated by a linear expression using each value of the execution time map g as a coefficient for the frequency in the frequency distribution table 3f-2 of the same class (step S42). From the frequency distribution table 3f-2 and the execution time map g shown in FIG.
Estimated execution time = 0.1 * 50 + 0.1 * 92 + 0.2 * 81
+ 0.2 * 73 + 0.2 * 42
And an execution time estimated value 5 (53.4 msec) is obtained based on the frequency distribution table 3f-2 of the actual input data 2d.

次に、変量フィールド決定方法について説明する。図8は、変量フィールド決定方法を説明するための図である。図8に示す変量フィールド決定方法では、どのフィールドも流用可能なデータセットAと、あるフィールドaについて入力データのデータセットB1及びB2の2種類作成する。   Next, a variable field determination method will be described. FIG. 8 is a diagram for explaining a variable field determination method. In the variable field determination method shown in FIG. 8, two types of data sets A that can be used for any field and data sets B1 and B2 of input data for a certain field a are created.

データセットAは、各フィールドの値を平均又は標準偏差を持った正規乱数を用いて設定したレコードを見積もり件数分作成したデータセットである。2種類のデータセットB1及びB2は、各レコードについてフィールドa以外はデータセットAの同一番目のものと同じ値とし、フィールドaだけデータセットAのときとは異なる又は標準偏差を持った正規乱数を用いて変更した、レコード件数見積値分が作成されたデータセットである。   The data set A is a data set in which the number of records set for the estimated number of fields is set using normal random numbers having an average or standard deviation. The two types of data sets B1 and B2 are set to the same value as that of the data set A except for the field a for each record, and only the field a is a normal random number that is different from the data set A or has a standard deviation. It is a data set in which the estimated number of records is changed.

データセットAとデータセットB1及びB2とをバッチジョブ2で夫々処理し、バッチジョブ2に基づく出力データ2eを比較して、それらがどれだけ異なるか出力データ2eへの影響度として数値化し、影響度が所定値以上を示すフィールドが変量フィールドに決定される。出力データ2eへの影響度は、件数、値の異なるフィールド数等に基づいて算出される。   The data set A and the data sets B1 and B2 are respectively processed by the batch job 2, the output data 2e based on the batch job 2 is compared, and how much they differ is quantified as the degree of influence on the output data 2e. A field whose degree indicates a predetermined value or more is determined as a variable field. The degree of influence on the output data 2e is calculated based on the number of cases, the number of fields having different values, and the like.

図8では、出力データ2eのうち、データセットAに対するバッチジョブ2の処理後の結果はデータセットA−2で示され、データセットB1に対するバッチジョブ2の処理後の結果はデータセットB1−2で示され、データセットB2に対するバッチジョブ2の処理後の結果はデータセットB2−2で示される。   In FIG. 8, of the output data 2e, the result after the processing of the batch job 2 for the data set A is indicated by the data set A-2, and the result after the processing of the batch job 2 for the data set B1 is the data set B1-2. The result after processing of batch job 2 for data set B2 is indicated by data set B2-2.

データセットAのバッチジョブ2の処理後の出力データA−2が基準となる。データセットB1は、「センサID」フィールドを変更したデータセットであり、バッチジョブ2の処理後の出力データB1−2は、「センサID」フィールド以外の値に変化が無かった例を示している。また、データセットB2は、「温度」フィールドを変更したデータセットであり、バッチジョブ2の処理後の出力データB2−2は、データセットAのデータ量から変化(増減)した例を示している。データ量とは、レコード件数等で示される。   The output data A-2 after processing of the batch job 2 of the data set A is a reference. The data set B1 is a data set in which the “sensor ID” field is changed, and the output data B1-2 after processing of the batch job 2 shows an example in which there is no change in values other than the “sensor ID” field. . The data set B2 is a data set in which the “temperature” field is changed, and the output data B2-2 after the processing of the batch job 2 shows an example in which the data amount of the data set A is changed (increased or decreased). . The data amount is indicated by the number of records.

次に、出力データへの影響度αを算出する影響度算出方法について説明する。図9は、影響度算出方法を説明するための図である。図9のように、影響度算出方法では、まず、出力データのレコード件数を比較する(比較I)。比較Iの判断によって、レコード件数が、基準となる出力データA−2と異なる場合、出力データへの影響度αに「1」が設定される。   Next, an influence calculation method for calculating the influence α on the output data will be described. FIG. 9 is a diagram for explaining an influence degree calculation method. As shown in FIG. 9, in the influence calculation method, first, the number of records of output data is compared (Comparison I). When the number of records is different from the reference output data A-2 based on the judgment of the comparison I, “1” is set to the influence degree α on the output data.

データセットAの出力データA−2のレコード件数が300件であったのに対して、「温度」フィールドを変更したデータセットB2の出力データB2−2のレコード件数は200件であった場合、「温度」フィールドの変更は、出力データへの影響度α=1であると判断される。出力データB2−2のレコード件数が、基準となる出力データA−2のレコード件数より少なくてもまた多くても、一致しない場合は、影響度αは「1」となる。   When the number of records of the output data A-2 of the data set A is 300, whereas the number of records of the output data B2-2 of the data set B2 in which the “temperature” field is changed is 200, The change in the “temperature” field is determined to have an influence degree α = 1 on the output data. If the number of records of the output data B2-2 is less than or greater than the number of records of the output data A-2 serving as a reference, the degree of influence α is “1”.

比較(I)の判断によって、出力データのレコード件数が等しい場合、出力データの全レコードのうち、変更された対象フィールド以外のフィールドを比較する(比較II)。比較(I)によって、出力データのレコード件数が基準の出力データA−2のレコード件数と等しいと判断された場合、出力データの全レコードのうち、対象フィールド以外のフィールドが比較される。   If the number of records in the output data is equal as a result of the comparison (I), fields other than the changed target field are compared among all records in the output data (Comparison II). When it is determined by comparison (I) that the number of records in the output data is equal to the number of records in the reference output data A-2, fields other than the target field are compared among all records in the output data.

影響度αは、下記の式により算出される。   The influence degree α is calculated by the following formula.

α = (値が異なるフィールド数)/(全レコードのフィールド数)
「センサID」フィールドを変更したデータセットB1の出力データB1−2において、全レコードのフィールド数は、レコード件数「300」件に、「センサID」を除いた項目数「4」を乗算することによって得られる。全レコードのフィールド数は、300*4=1200となる。出力データB1−2では、変更した「センサID」フィールド以外では、基準となる出力データA−2とに変化がないため、値が異なるフィールド数は「0」となる。従って、影響度α=0/1200=0を得る。
α = (number of fields with different values) / (number of fields in all records)
In the output data B1-2 of the data set B1 in which the “sensor ID” field is changed, the number of fields of all records is to multiply the number of records “300” by the number of items “4” excluding “sensor ID”. Obtained by. The number of fields in all records is 300 * 4 = 1200. In the output data B1-2, since there is no change in the reference output data A-2 except for the changed “sensor ID” field, the number of fields having different values is “0”. Therefore, the influence degree α = 0/1200 = 0 is obtained.

また、480箇所のフィールドが異なった別の出力データCの場合、全レコードのフィールド数は、300*4=1200となる。値が異なるフィールド数は「480」であるため、影響度α=480/1200=0.4を得る。   In the case of different output data C with 480 different fields, the number of fields in all records is 300 * 4 = 1200. Since the number of fields having different values is “480”, the degree of influence α = 480/1200 = 0.4 is obtained.

出力データB1−2と、出力データCとは、どちらもレコード件数は「300」件であるが、影響度αは異なっている。   Both the output data B1-2 and the output data C have “300” records, but the influence α is different.

以下に、バッチジョブの実行時間推定方法を実行するシステム1000について説明する。図10は、本実施の形態に係るシステムの機能構成例を示す図である。図10において、システム1000は、主に、度数分布生成部40と、実行時間推定部50とを有する。数分布生成部40と、実行時間推定部50とは、個別のコンピュータ装置に実装され、夫々を度数分布生成装置と、実行時間推定としても良い。又は、度数分布生成部40と、実行時間推定部50とが、同一のコンピュータ装置に実装されても良い。度数分布生成部40と、実行時間推定部50とは、後述されるCPU11が対応するプログラムを実行することによって実現される。 Hereinafter, a system 1000 that executes a batch job execution time estimation method will be described. FIG. 10 is a diagram illustrating a functional configuration example of the system according to the present embodiment. In FIG. 10, the system 1000 mainly includes a frequency distribution generation unit 40 and an execution time estimation unit 50. The degree number distribution generating unit 40, an execution time estimation unit 50 is mounted on a separate computer device, and the respective frequency distribution generating unit may be execution time estimation. Alternatively, the frequency distribution generation unit 40 and the execution time estimation unit 50 may be mounted on the same computer device. The frequency distribution generation unit 40 and the execution time estimation unit 50 are realized by the CPU 11 described later executing a corresponding program.

度数分布生成部40は、入力データのバッチジョブ2への処理によって出力データに影響する変量フィールド7に関して度数分布表3fを生成し、度数分布表3fに基づいて出力データ量又は/及び実行時間を推定する度数分布写像f又は/及び実行時間写像gを作成する処理部であり、変量フィールド決定部41と、度数分布表生成部42と、度数分布写像作成部43と、実行時間写像作成部44とを有する。   The frequency distribution generation unit 40 generates a frequency distribution table 3f for the variable field 7 that affects the output data by processing the input data to the batch job 2, and outputs the output data amount or / and the execution time based on the frequency distribution table 3f. A processing unit that creates a frequency distribution map f or / and an execution time map g to be estimated. A variable field determination unit 41, a frequency distribution table generation unit 42, a frequency distribution mapping generation unit 43, and an execution time mapping generation unit 44. And have.

変量フィールド決定部41は、バッチジョブ後の出力データへの影響度αに基づいて、変量フィールドを決定する処理部である。変量フィールド決定部41は、入出力データのスキーマ6に基づいて入力データを生成する際に、あるフィールドを変更したデータセットを作成し、バッチジョブ後の出力データへの影響度αを算出する。変量フィールド決定部41は、算出した影響度αに基づいて、変量フィールドを決定する。   The variable field determination unit 41 is a processing unit that determines a variable field based on the degree of influence α on the output data after the batch job. When the input field is generated based on the input / output data schema 6, the variable field determination unit 41 creates a data set in which a certain field is changed, and calculates the degree of influence α on the output data after the batch job. The variable field determination unit 41 determines a variable field based on the calculated influence degree α.

度数分布表生成部42は、入出力データのスキーマ6を参照することによって、変量フィールド決定部41によって決定された変量フィールド7の値域とレコード件数の見積値とに基づいて、夫々の度数分布の階級と階級幅を決定して度数分布表3fを作成する処理部である。   The frequency distribution table generation unit 42 refers to the schema 6 of the input / output data, and based on the range of the variable field 7 determined by the variable field determination unit 41 and the estimated value of the number of records, This is a processing unit that determines the class and class width and creates the frequency distribution table 3f.

度数分布写像作成部43は、度数分布表3fに基づくランダムな入力データ2dに対してバッチジョブ2を行うことによって、度数分布写像fを作成する処理部である。実行時間写像作成部44は、度数分布表3fに基づくランダムな入力データ2dに対してバッチジョブ2を行うことによって、実行時間写像gを作成する処理部である。   The frequency distribution map creation unit 43 is a processing unit that creates a frequency distribution map f by performing batch job 2 on random input data 2d based on the frequency distribution table 3f. The execution time map creation unit 44 is a processing unit that creates an execution time map g by performing batch job 2 on random input data 2d based on the frequency distribution table 3f.

実行時間推定部50は、実際の入力データの度数分布表3f−2と、度数分布写像f又は/及び実行時間写像gとを用いて実行時間を推定する処理部であり、入力データ度数分布作成部51と、実行時間推定部52と、出力データ度数分布推定部53とを有する。   The execution time estimation unit 50 is a processing unit that estimates the execution time using the frequency distribution table 3f-2 of the actual input data and the frequency distribution map f or / and the execution time map g, and creates an input data frequency distribution. Unit 51, execution time estimation unit 52, and output data frequency distribution estimation unit 53.

入力データ度数分布作成部51は、実際の入力データの件数度数分布表3fに度数を設定することにより、度数分布表3f−2を作成する処理部である。 The input data frequency distribution creation unit 51 is a processing unit that creates the frequency distribution table 3f-2 by setting the frequency in the frequency distribution table 3f with the actual number of input data.

実行時間推定部52は、入力データ度数分布作成部51によって度数分布表3fに度数を設定することによって作成された度数分布表3f−2に基づいて、実行時間を推定する処理部である。実行時間推定部52は、実行時間推定値5を、度数分布表3f−2の度数の総和に基づいて計算する。又は、実行時間推定部52は、実行時間推定値5を、実行時間写像gの各値を係数とした一次式で計算する。   The execution time estimation unit 52 is a processing unit that estimates the execution time based on the frequency distribution table 3f-2 created by setting the frequency in the frequency distribution table 3f by the input data frequency distribution creation unit 51. The execution time estimation unit 52 calculates the execution time estimation value 5 based on the sum of frequencies in the frequency distribution table 3f-2. Alternatively, the execution time estimation unit 52 calculates the execution time estimated value 5 by a linear expression using each value of the execution time map g as a coefficient.

出力データ度数分布推定部53は、入力データ度数分布作成部51によって度数分布表3fを用いて作成された度数分布表3f−2に基づいて、度数分布写像fの各値を係数とした一次式で出力データの各段階の度数を計算することによって、出力データの度数分布推定値4fを作成する処理部である。   Based on the frequency distribution table 3f-2 created by the input data frequency distribution creation unit 51 using the frequency distribution table 3f, the output data frequency distribution estimation unit 53 is a linear expression using each value of the frequency distribution map f as a coefficient. Is a processing unit that creates the frequency distribution estimated value 4f of the output data by calculating the frequency of each stage of the output data.

度数分布生成部40と、実行時間推定部50とを実現するコンピュータ装置10のハードウェア構成について説明する。図11は、コンピュータ装置のハードウェア構成を示す図である。図11において、コンピュータ装置10は、コンピュータによって制御される端末であって、CPU(Central Processing Unit)11と、主記憶装置12と、補助記憶装置13と、入力装置14と、表示装置15と、出力装置16と、通信I/F(インターフェース)17と、ドライブ18とを有し、バスBに接続される。   A hardware configuration of the computer apparatus 10 that implements the frequency distribution generation unit 40 and the execution time estimation unit 50 will be described. FIG. 11 is a diagram illustrating a hardware configuration of the computer apparatus. In FIG. 11, a computer device 10 is a terminal controlled by a computer, and includes a CPU (Central Processing Unit) 11, a main storage device 12, an auxiliary storage device 13, an input device 14, a display device 15, The output device 16, a communication I / F (interface) 17, and a drive 18 are connected to the bus B.

CPU11は、主記憶装置12に格納されたプログラムに従ってコンピュータ装置10を制御する。主記憶装置12には、RAM(Random Access Memory)及びROM(Read-Only Memory)等が用いられ、CPU11にて実行されるプログラム、CPU11での処理に必要なデータ、CPU11での処理にて得られたデータ等を格納する。また、主記憶装置12の一部の領域が、CPU11での処理に利用されるワークエリアとして割り付けられている。   The CPU 11 controls the computer device 10 according to a program stored in the main storage device 12. The main storage device 12 uses RAM (Random Access Memory), ROM (Read-Only Memory), etc., and is obtained by a program executed by the CPU 11, data necessary for processing by the CPU 11, and processing by the CPU 11. Stored data and the like are stored. A part of the main storage device 12 is allocated as a work area used for processing by the CPU 11.

補助記憶装置13には、ハードディスクドライブが用いられ、各種処理を実行するためのプログラム等のデータを格納する。補助記憶装置13に格納されているプログラムの一部が主記憶装置12にロードされ、CPU11に実行されることによって、各種処理が実現される。記憶部130は、主記憶装置12及び/又は補助記憶装置13を有する。   The auxiliary storage device 13 uses a hard disk drive and stores data such as programs for executing various processes. A part of the program stored in the auxiliary storage device 13 is loaded into the main storage device 12 and executed by the CPU 11, whereby various processes are realized. The storage unit 130 includes the main storage device 12 and / or the auxiliary storage device 13.

入力装置14は、マウス、キーボード等を有し、ユーザがコンピュータ装置10による処理に必要な各種情報を入力するために用いられる。表示装置15は、CPU11の制御のもとに必要な各種情報を表示する。出力装置16は、プリンタ等を有し、ユーザからの指示に応じて各種情報を出力するために用いられる。通信I/F17は、例えばインターネット、LAN(Local Area Network)等に接続し、外部装置との間の通信制御をするための装置である。   The input device 14 includes a mouse, a keyboard, and the like, and is used for a user to input various information necessary for processing by the computer device 10. The display device 15 displays various information required under the control of the CPU 11. The output device 16 has a printer or the like and is used for outputting various types of information in accordance with instructions from the user. The communication I / F 17 is a device that is connected to, for example, the Internet, a LAN (Local Area Network), etc., and controls communication with an external device.

コンピュータ装置10によって行われる処理を実現するプログラムは、例えば、CD−ROM(Compact Disc Read-Only Memory)等の記憶媒体19によってコンピュータ装置10に提供される。即ち、プログラムが保存された記憶媒体19がドライブ18にセットされると、ドライブ18が記憶媒体19からプログラムを読み出し、その読み出されたプログラムがバスBを介して補助記憶装置13にインストールされる。そして、プログラムが起動されると、補助記憶装置13にインストールされたプログラムに従ってCPU11がその処理を開始する。尚、プログラムを格納する媒体としてCD−ROMに限定するものではなく、コンピュータが読み取り可能な媒体であればよい。コンピュータ読取可能な記憶媒体として、CD−ROMの他に、DVDディスク、USBメモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリであっても良い。   A program that realizes processing performed by the computer apparatus 10 is provided to the computer apparatus 10 by a storage medium 19 such as a CD-ROM (Compact Disc Read-Only Memory). That is, when the storage medium 19 storing the program is set in the drive 18, the drive 18 reads the program from the storage medium 19, and the read program is installed in the auxiliary storage device 13 via the bus B. . When the program is activated, the CPU 11 starts its processing according to the program installed in the auxiliary storage device 13. The medium for storing the program is not limited to a CD-ROM, and any medium that can be read by a computer may be used. As a computer-readable storage medium, in addition to a CD-ROM, a portable recording medium such as a DVD disk or a USB memory, or a semiconductor memory such as a flash memory may be used.

また、コンピュータ装置10によって行われる処理を実現するプログラムが、通信I/F17を介して外部装置から提供されてもよい。或いは、外部装置へ該プログラムを提供し、後述される各処理は外部装置で実現されるように構成してもよい。通信I/F17による通信は無線又は有線に限定されるものではない。   Further, a program that realizes processing performed by the computer device 10 may be provided from an external device via the communication I / F 17. Alternatively, the program may be provided to an external device, and each process described below may be realized by the external device. Communication by the communication I / F 17 is not limited to wireless or wired.

コンピュータ装置10が、度数分布生成部40を実装する装置である場合、記憶部130に入出力データのスキーマ6等が格納される。コンピュータ装置10が、実行時間推定部50を実装する装置である場合、記憶部130に入力データ2d、度数分布写像f、度数分布表3f及び度数分布推定値4fを含む度数分布データ34f、実行時間写像g等が格納される。   When the computer device 10 is a device that implements the frequency distribution generation unit 40, the input / output data schema 6 and the like are stored in the storage unit 130. When the computer device 10 is a device that implements the execution time estimation unit 50, the storage unit 130 includes the input data 2d, the frequency distribution map f, the frequency distribution table 3f, and the frequency distribution data 34f including the frequency distribution estimation value 4f, the execution time. The mapping g and the like are stored.

また、度数分布生成部40と、実行時間推定部50とを一つのコンピュータ装置10で実現する場合には、コンピュータ装置10がシステム1000全体に相当する。   Further, when the frequency distribution generation unit 40 and the execution time estimation unit 50 are realized by one computer apparatus 10, the computer apparatus 10 corresponds to the entire system 1000.

度数分布写像作成部43による度数分布写像作成処理について説明する。図12は、度数分布写像作成処理を説明するための図である。図12に示す度数分布写像作成処理において、CPU11は、入出力データのスキーマ6から入力データのスキーマを取得する(ステップS101)。入出力データのスキーマ6から、ユーザによって選択された入力データのスキーマを読み込む。   The frequency distribution map creating process by the frequency distribution map creating unit 43 will be described. FIG. 12 is a diagram for explaining the frequency distribution mapping process. In the frequency distribution mapping process shown in FIG. 12, the CPU 11 acquires the schema of input data from the schema 6 of input / output data (step S101). The input data schema selected by the user is read from the input / output data schema 6.

CPU11は、入力データの変量フィールドを決定する変量フィールド決定処理を実行する(ステップS102)。その後、CPU11は、入力データの度数分布表3fを作成する度数分布表生成処理を実行する(ステップS103)。度数分布表生成処理により、階級数、及び階級幅が決定される。   The CPU 11 executes a variable field determination process for determining a variable field of the input data (step S102). Thereafter, the CPU 11 executes a frequency distribution table generation process for creating the frequency distribution table 3f of the input data (step S103). The number of classes and the class width are determined by the frequency distribution table generation process.

CPU11は、入力データの度数分布3の階級毎にランダムな入力データを生成して(ステップS104)、バッチジョブ2で1件ずつ処理して、出力データの度数分布4のどの階級に出力されたかをカウントする(ステップS105)。   The CPU 11 generates random input data for each class of the frequency distribution 3 of the input data (step S104), processes it one by one in the batch job 2, and outputs to which class of the frequency distribution 4 of the output data. Is counted (step S105).

生成した入力データ全てに対してバッチジョブ2での処理を終了した後、CPU11は、階級毎のカウントされた値を入力データの総数(階級毎の度数)で割って、度数分布写像gを作成する(ステップS106)。そして、CPU11は、この度数分布写像作成処理を終了する。   After completing the processing in batch job 2 for all generated input data, the CPU 11 divides the counted value for each class by the total number of input data (frequency for each class) to create a frequency distribution map g. (Step S106). Then, the CPU 11 ends the frequency distribution mapping process.

実時間写像作成部43による実時間写像作成処理について図13で説明する。図13は、実時間写像作成処理を説明するための図である。図13に示す実時間写像作成処理において、CPU11は、入出力データのスキーマ6から入力データのスキーマを取得する(ステップS111)。入出力データのスキーマ6から、ユーザによって選択された入力データのスキーマを読み込む。   The real-time map creation process by the real-time map creation unit 43 will be described with reference to FIG. FIG. 13 is a diagram for explaining real-time mapping creation processing. In the real-time mapping creation process shown in FIG. 13, the CPU 11 acquires the schema of input data from the schema 6 of input / output data (step S111). The input data schema selected by the user is read from the input / output data schema 6.

CPU11は、入力データの変量フィールドを決定する変量フィールド決定処理を実行する(ステップS112)。また、変量フィールドの決定後、CPU11は、入力データの度数分布表3fを生成する度数分布表生成処理を実行する(ステップS113)。度数分布表生成処理により、階級数、及び階級幅が決定される。   The CPU 11 executes a variable field determination process for determining a variable field of the input data (step S112). After determining the variable field, the CPU 11 executes a frequency distribution table generation process for generating the frequency distribution table 3f of the input data (step S113). The number of classes and the class width are determined by the frequency distribution table generation process.

CPU11は、入力データの度数分布3の階級毎にランダムな入力データを生成して(ステップS114)、バッチジョブで1件ずつ処理して、1件ごとの実行時間を測定する(ステップS115)。   The CPU 11 generates random input data for each class of the frequency distribution 3 of the input data (step S114), processes it one by one in a batch job, and measures the execution time for each item (step S115).

そして、CPU11は、階級毎の実行時間の平均から実行時間写像gを作成する(ステップS116)。   Then, the CPU 11 creates an execution time map g from the average execution time for each class (step S116).

出力データ度数分布推定部53による出力データ度数分布推定処理について図14で説明する。図14は、出力データ度数分布推定処理を説明するための図である。バッチジョブ2が単体の場合と、バッチジョブ2が多段の場合とで、出力データ度数分布推定部53による出力データ度数分布推定処理が異なる。   The output data frequency distribution estimation processing by the output data frequency distribution estimation unit 53 will be described with reference to FIG. FIG. 14 is a diagram for explaining the output data frequency distribution estimation process. The output data frequency distribution estimation processing by the output data frequency distribution estimation unit 53 differs between the case where the batch job 2 is a single unit and the case where the batch job 2 is multistage.

図14(A)では、バッチジョブ2が単体の場合の当該バッチジョブの出力データ度数分布推定処理を説明する。図14(A)において、CPU11は、実際の入力データ2dの度数分布表3f−2と、当該バッチジョブ2の度数分布写像fとを記憶部130から読み込んで(ステップS131)、度数分布写像fの各値を係数とした一次式で出力データの各階級の度数を計算する(ステップS132)。   FIG. 14A describes output data frequency distribution estimation processing for a batch job 2 when the batch job 2 is a single unit. 14A, the CPU 11 reads the frequency distribution table 3f-2 of the actual input data 2d and the frequency distribution map f of the batch job 2 from the storage unit 130 (step S131), and the frequency distribution map f. The frequency of each class of the output data is calculated by a linear expression with each value as a coefficient (step S132).

そして、CPU11は、計算した各階級の度数を出力データの度数分布推定値4fを生成し(ステップS133)、このバッチジョブ2が単体の場合の処理を終了する。   Then, the CPU 11 generates the frequency distribution estimated value 4f of the output data for the calculated frequency of each class (step S133), and ends the process when the batch job 2 is a single unit.

図14(B)では、バッチジョブ2が多段の場合の処理を説明する。図14(B)において、CPU11は、入力データの度数分布表3fを生成する(ステップS141)。   In FIG. 14B, processing when the batch job 2 has multiple stages will be described. In FIG. 14B, the CPU 11 generates a frequency distribution table 3f of input data (step S141).

CPU11は、当該バッチジョブの出力データ度数分布推定処理を実行する(ステップS142)。当該バッチジョブの出力データ度数分布推定処理にて出力データの度数分布推定値4fを生成した後、CPU11は、後段バッチジョブが存在するか否かを判断する(ステップS143)。   The CPU 11 executes output data frequency distribution estimation processing for the batch job (step S142). After generating the output data frequency distribution estimated value 4f in the output data frequency distribution estimation process of the batch job, the CPU 11 determines whether or not a subsequent batch job exists (step S143).

後段バッチジョブが存在すると判断した場合、CPU11は、当該バッチジョブの出力データの度数分布推定値4fを入力データの度数分布表3fに設定して(ステップS144)、ステップS142へと戻り、上述同様の処理を繰り返す。一方、後段バッチジョブが存在しないと判断した場合、CPU11は、この処理を終了する。   When determining that there is a subsequent batch job, the CPU 11 sets the frequency distribution estimated value 4f of the output data of the batch job in the frequency distribution table 3f of the input data (step S144), returns to step S142, and the same as described above. Repeat the process. On the other hand, if it is determined that there is no subsequent batch job, the CPU 11 ends this process.

実行時間推定部52による実行時間推定処理について図15で説明する。図15は、実行時間推定処理を説明するための図である。バッチジョブ2が単体の場合と、バッチジョブ2が多段の場合とで、実行時間推定部52による実行時間推定処理が異なる。   The execution time estimation process by the execution time estimation unit 52 will be described with reference to FIG. FIG. 15 is a diagram for explaining the execution time estimation process. The execution time estimation processing by the execution time estimation unit 52 differs between the case where the batch job 2 is a single unit and the case where the batch job 2 is multistage.

図15(A)では、バッチジョブ2が単体の場合の当該バッチジョブの実行時間推定処理を説明する。図15(A)において、CPU11は、実際の入力データ2dの度数分布表3f−2と、当該バッチジョブ2の度数分布写像fとを記憶部130から読み込んで(ステップS151)、実行時間写像gの各値を係数とした一次式で実行時間を計算する(ステップS152)。そして、CPU11は、この処理を終了する。   FIG. 15A describes the execution time estimation process of the batch job 2 when the batch job 2 is a single unit. In FIG. 15A, the CPU 11 reads the frequency distribution table 3f-2 of the actual input data 2d and the frequency distribution map f of the batch job 2 from the storage unit 130 (step S151), and executes the execution time map g. The execution time is calculated by a linear expression with each value as a coefficient (step S152). Then, the CPU 11 ends this process.

図15(B)では、バッチジョブ2が多段の場合の処理を説明する。図15(B)において、CPU11は、入力データの度数分布表3fを生成する(ステップS161)。   In FIG. 15B, processing when the batch job 2 has multiple stages will be described. In FIG. 15B, the CPU 11 generates a frequency distribution table 3f of input data (step S161).

CPU11は、当該バッチジョブの実行時間推定処理を実行する(ステップS162)。当該バッチジョブの実行時間推定処理にて実行時間を計算した後、CPU11は、後段バッチジョブが存在するか否かを判断する(ステップS163)。   The CPU 11 executes the execution time estimation process for the batch job (step S162). After calculating the execution time in the execution time estimation process of the batch job, the CPU 11 determines whether there is a subsequent batch job (step S163).

後段バッチジョブが存在すると判断した場合、CPU11は、バッチジョブネットワークの総実行時間に当該バッチジョブの実行時間を加算して(ステップS164)、ステップS162へと戻り、上述同様の処理を繰り返す。一方、後段バッチジョブが存在しないと判断した場合、CPU11は、この処理を終了する。   When determining that there is a subsequent batch job, the CPU 11 adds the execution time of the batch job to the total execution time of the batch job network (step S164), returns to step S162, and repeats the same processing as described above. On the other hand, if it is determined that there is no subsequent batch job, the CPU 11 ends this process.

図12のステップS102及び図13のステップS112での変量フィールド決定処理について図16で説明する。図16は、変量フィールド決定処理を説明するための図である。図16に示す変量フィールド決定処理において、CPU11は、終端データではないかを判断する(ステップS171)。終端データであると判断した場合、CPU11は、この処理を終了する。一方、終端データではないと判断した場合、入力データ2dの各フィールドを平均又は標準偏差を持った正規乱数を用いてデータセットAを生成する(ステップS172)。   The variable field determination process in step S102 of FIG. 12 and step S112 of FIG. 13 will be described with reference to FIG. FIG. 16 is a diagram for explaining the variable field determination process. In the variable field determination process shown in FIG. 16, the CPU 11 determines whether it is the terminal data (step S171). If it is determined that the data is the end data, the CPU 11 ends this process. On the other hand, if it is determined that the data is not the terminal data, a data set A is generated using normal random numbers having an average or standard deviation for each field of the input data 2d (step S172).

そして、CPU11は、各レコードについてフィールドa以外はデータセットAの同一番目のフィールドと同じ値とし、フィールドaだけデータセットAの時とは異なる平均又は標準偏差を持った正規乱数を用いて変更したデータセットBを生成する(ステップS173)。   Then, the CPU 11 sets each record to the same value as the first field of the data set A except for the field a, and changes only the field a using a normal random number having an average or standard deviation different from that of the data set A. Data set B is generated (step S173).

CPU11は、データセットA及びBをバッチジョブ2で処理し、出力としてデータセットC及びDを得る(ステップS174)。CPU11は、データセットC及びDを用いて、出力データの影響を算出する(ステップS175)。   The CPU 11 processes the data sets A and B by the batch job 2 and obtains the data sets C and D as outputs (step S174). The CPU 11 calculates the influence of the output data using the data sets C and D (step S175).

CPU11は、出力データの影響度αが一定以上か否かを判断する(ステップS176)。一定以上でない場合、CPU11は、ステップS178へと進む。一方、一定以上の場合、CPU11は、フィールドaを変量フィールドに決定し(ステップS177)、前段バッチジョブについてフィールドaを入力データ2dの変量フィールドに変更する(ステップS178)。その後、CPU11は、この処理を終了する。   The CPU 11 determines whether or not the influence level α of the output data is greater than or equal to a certain level (step S176). If not, the CPU 11 proceeds to step S178. On the other hand, if the value is above a certain level, the CPU 11 determines the field a as a variable field (step S177), and changes the field a to the variable field of the input data 2d for the preceding batch job (step S178). Thereafter, the CPU 11 ends this process.

図16のステップS175での出力データの影響度算出処理について図17で説明する。図17は、出力データの影響度算出処理を説明するための図である。図17に示す出力データの影響度算出処理において、CPU11は、データセットC及びDを比較して(ステップS181)、データセットCとデータセットDのレコード数が異なるか否かを判断する(ステップS182)。この比較処理が、図9の比較Iに相当する。   The output data influence degree calculation processing in step S175 of FIG. 16 will be described with reference to FIG. FIG. 17 is a diagram for explaining the influence calculation processing of output data. In the output data influence calculation process shown in FIG. 17, the CPU 11 compares the data sets C and D (step S181), and determines whether the number of records in the data set C and the data set D is different (step S181). S182). This comparison process corresponds to the comparison I in FIG.

レコード数が一致する場合、CPU11は、出力データの影響度αに「1」を設定して(ステップS183)、この処理を終了する。   If the number of records matches, the CPU 11 sets “1” as the influence α of the output data (step S183), and ends this process.

一方、レコード数が異なる場合、CPU11は、更に、値を変更したフィールドa以外で値が異なるフィールドが存在するか否かを判断する(ステップS184)。値が異なるフィールドが存在しない場合、CPU11は、データセットCとD間で値が異なるフィールド数を全レコードのフィールド数で割ることによって、出力データの影響度αを計算し(ステップS185)、この処理を終了する。一方、値が異なるフィールドが存在する場合、CPU11は、この処理を終了する。   On the other hand, if the number of records is different, the CPU 11 further determines whether there is a field with a different value other than the field a whose value has been changed (step S184). If there is no field with different values, the CPU 11 calculates the influence α of the output data by dividing the number of fields with different values between the data sets C and D by the number of fields of all records (step S185). The process ends. On the other hand, if there are fields with different values, the CPU 11 ends this process.

以下に、本実施の形態を温度センサデータのバッチ処理に適用した場合について図18で説明する。図18は、温度センサデータのバッチ処理の一例を説明するための図である。図18に示す温度センサデータのバッチ処理の例では、建屋に多数配置された温度センサ8のデータ(以下、温度センサデータと言う)に基づいて、部屋Aの平均温度を求める。建屋全体を25×25(m)とする。温度センサデータは0.1℃変化する毎に送信され、送信間隔は不定期である。 Hereinafter, a case where the present embodiment is applied to batch processing of temperature sensor data will be described with reference to FIG. FIG. 18 is a diagram for explaining an example of batch processing of temperature sensor data. In the example of batch processing of temperature sensor data shown in FIG. 18, the average temperature of the room A is obtained based on data of the temperature sensors 8 arranged in the building (hereinafter referred to as temperature sensor data). The entire building is 25 × 25 (m 2 ). The temperature sensor data is transmitted every 0.1 ° C., and the transmission interval is irregular.

温度センサデータは一箇所に収集され建屋全体の温度センサデータD1に格納される。温度センサデータD1のフィールドの項目は、「センサID」、「日時」、「温度」、「x」、「y」等である。   The temperature sensor data is collected at one place and stored in the temperature sensor data D1 of the entire building. The field items of the temperature sensor data D1 are “sensor ID”, “date / time”, “temperature”, “x”, “y”, and the like.

バッチジョブJ1は、部屋Aの温度センサデータD2を抽出する。部屋Aの位置情報が、例えば、図18に示すx及びy方向によって、部屋Aの対角線上の頂点となる座標(8、8)と座標(18、16)とで表される場合、センサIDで識別される各センサのうち、部屋Aの領域内を示すレコードが抽出される。温度センサデータD2のフィールドの項目は、温度センサデータD1のフィールドの項目と同様である。   The batch job J1 extracts the temperature sensor data D2 of the room A. For example, when the position information of the room A is represented by coordinates (8, 8) and coordinates (18, 16) which are the vertices on the diagonal line of the room A in the x and y directions shown in FIG. Among the sensors identified by (1), a record indicating the interior of the room A is extracted. The field items of the temperature sensor data D2 are the same as the field items of the temperature sensor data D1.

バッチジョブJ2は、バッチジョブJ1によって抽出された部屋Aの温度センサデータD2に基づいて、位置毎の平均温度を計算する。xyで示される各位置の平均温度データD3が出力される。平均温度データD3のフィールドの項目は、「x」、「y」、「平均温度」等である。   The batch job J2 calculates an average temperature for each position based on the temperature sensor data D2 of the room A extracted by the batch job J1. Average temperature data D3 at each position indicated by xy is output. The items of the field of the average temperature data D3 are “x”, “y”, “average temperature”, and the like.

図19は、各データのスキーマと件数見積値の例を示す図である。図19において、温度センサデータD1のスキーマ6−1は、フィールド、型、値域等で各データを定義している。「センサID」、「日時」、「温度」、「x」、及び「y」フィールドの各々に対して、型、値域等が定義されている。   FIG. 19 is a diagram illustrating an example of the schema of each data and the estimated number of cases. In FIG. 19, the schema 6-1 of the temperature sensor data D1 defines each data by field, type, value range, and the like. For each of the “sensor ID”, “date / time”, “temperature”, “x”, and “y” fields, a type, a value range, and the like are defined.

温度センサデータD2のスキーマ6−2は、フィールド、型、値域等で各データを定義している。「センサID」、「日時」、「温度」、「x」、及び「y」フィールドの各々に対して、型、値域等が定義されている。   The schema 6-2 of the temperature sensor data D2 defines each data by field, type, value range, and the like. For each of the “sensor ID”, “date / time”, “temperature”, “x”, and “y” fields, a type, a value range, and the like are defined.

平均温度データD3のスキーマ6−3は、フィールド、型、値域等で各データを定義している。「x」、「y」、及び「平均温度」フィールドの各々に対して、型、値域等が定義されている。   The schema 6-3 of the average temperature data D3 defines each data with fields, types, value ranges, and the like. For each of the “x”, “y”, and “average temperature” fields, a type, a value range, and the like are defined.

各データD1、D2、及びD3の件数見積値は、ともに1000件とする。   Assume that the estimated number of cases of each data D1, D2, and D3 is 1000 cases.

以下に、このようなスキーマ6−1から6−3と各件数見積値とに基づいて、度数分布写像fのみを使用して、実行時間を推定する第1実施例について説明する。   Hereinafter, a description will be given of a first embodiment in which the execution time is estimated using only the frequency distribution map f based on the schemas 6-1 to 6-3 and the estimated number of cases.

第1実施例における手順は下記の通りである。
(1)入力データ(温度差センサデータD1)の度数分布表3f−2から度数分布写像fを用いて出力データ(温度差センサデータD2)の度数分布推定値4fを計算し、度数分布推定値4fからバッチジョブJ1の出力データ量(温度差センサデータD2のデータ量)を求める。
(2)出力データ量(温度差センサデータD2のデータ量)から特許文献1に開示される手法を用いて実行時間を推定して、実行時間推定値5を得る。出力データ量(温度差センサデータD2のデータ量)は度数分布推定値4fの度数の総和で容易に得られる。
(3)出力データ(温度差センサデータD2)の度数分布推定値4fは、後続のバッチジョブJ2の入力データの度数分布表3fとして用いる。後続バッチジョブJ2の実行時間の推定は、上述同様に、出力データ量(各位置の平均温度データD3の出力データ量)から特許文献1に開示される手法を用いて行う。
The procedure in the first embodiment is as follows.
(1) The frequency distribution estimated value 4f of the output data (temperature difference sensor data D2) is calculated from the frequency distribution table 3f-2 of the input data (temperature difference sensor data D1) using the frequency distribution map f, and the frequency distribution estimated value is calculated. The output data amount of batch job J1 (data amount of temperature difference sensor data D2) is obtained from 4f.
(2) The execution time is estimated from the output data amount (data amount of the temperature difference sensor data D2) using the method disclosed in Patent Document 1, and the execution time estimated value 5 is obtained. The output data amount (data amount of the temperature difference sensor data D2) can be easily obtained by the sum of the frequencies of the frequency distribution estimated value 4f.
(3) The frequency distribution estimated value 4f of the output data (temperature difference sensor data D2) is used as the frequency distribution table 3f of the input data of the subsequent batch job J2. As described above, the execution time of the subsequent batch job J2 is estimated using the method disclosed in Patent Document 1 from the output data amount (the output data amount of the average temperature data D3 at each position).

第1実施例における変量フィールドの決定例について図20で説明する。図20及び図21は、第1実施例における変量フィールドの決定例を説明するための図である。図20にて、温度センサデータD1において、基準となる温度センサデータD1−0と、温度センサデータD1−0に対して「センサID」のみを変更した温度センサデータD1−1と、温度センサデータD1−0に対して「x」のみを変更した温度センサデータD1−2とが、夫々1000件ずつ用意される。   An example of determining the variable field in the first embodiment will be described with reference to FIG. 20 and 21 are diagrams for explaining an example of determining a variable field in the first embodiment. 20, in temperature sensor data D1, reference temperature sensor data D1-0, temperature sensor data D1-1 in which only “sensor ID” is changed with respect to temperature sensor data D1-0, and temperature sensor data 1000 pieces of temperature sensor data D1-2 in which only “x” is changed with respect to D1-0 are prepared.

「センサID」のみを変更した温度センサデータD1−1と、温度センサデータD1−0に対して「x」のみを変更した温度センサデータD1−2とを例として以下に説明するが、「センサID」及び「x」以外のフィールドの各々のみを変更した温度センサデータD1が用意される。   The temperature sensor data D1-1 in which only the “sensor ID” is changed and the temperature sensor data D1-2 in which only “x” is changed with respect to the temperature sensor data D1-0 will be described below as an example. Temperature sensor data D1 is prepared in which only fields other than “ID” and “x” are changed.

基準となる温度センサデータD1−0をバッチジョブJ1で処理することによって、温度センサデータD1−0からは部屋Aの温度センサデータD2−0が抽出され、抽出後の基準データとして使用される。   By processing the reference temperature sensor data D1-0 with the batch job J1, the temperature sensor data D2-0 of the room A is extracted from the temperature sensor data D1-0 and used as the reference data after extraction.

「センサID」のみを変更した温度センサデータD1−1をバッチジョブJ1で処理することによって、温度センサデータD1−1からは部屋Aの温度センサデータD2−1が抽出され、「センサID」以外の値について温度センサデータD2−0と比較される。この例では、「センサID」以外の値が全て同じであったため、影響度α(センサID)に「0」が設定される。   By processing the temperature sensor data D1-1 in which only the “sensor ID” is changed by the batch job J1, the temperature sensor data D2-1 of the room A is extracted from the temperature sensor data D1-1, and other than “sensor ID”. Is compared with the temperature sensor data D2-0. In this example, since all values other than “sensor ID” are the same, “0” is set to the influence degree α (sensor ID).

「x」のみを変更した温度センサデータD1−2をバッチジョブJ1で処理することによって、温度センサデータD1−2からは部屋Aの温度センサデータD2−2が抽出され、「x」以外の値について温度センサデータD2−0と比較される。この例では、「x」以外の値が全て同じであったため、影響度α(x)に「0」が設定される。   By processing the temperature sensor data D1-2 in which only “x” is changed by the batch job J1, the temperature sensor data D2-2 of the room A is extracted from the temperature sensor data D1-2, and a value other than “x”. Is compared with the temperature sensor data D2-0. In this example, since all values other than “x” are the same, “0” is set to the influence degree α (x).

上述したように、「センサID」及び「x」以外のフィールドの各々のみを変更した温度センサデータD1についても影響度αを計算する。   As described above, the degree of influence α is also calculated for the temperature sensor data D1 in which only the fields other than “sensor ID” and “x” are changed.

更に、図21において、影響度αが一定値(例えば、0.3)以上となるフィールドaを変量フィールドとする。バッチジョブJ1に基づく影響度αから、温度センサデータD1の変量フィールドに「x」及び「y」が変量フィールドに設定される。   Furthermore, in FIG. 21, a field a in which the influence degree α is a certain value (for example, 0.3) or more is defined as a variable field. From the influence α based on the batch job J1, “x” and “y” are set in the variable field of the temperature sensor data D1.

また、後段のバッチジョブJ2に基づく影響度αから、温度センサデータD2の変量フィールドに「温度」、「x」、及び「y」が変量フィールドに設定される。ここで、温度センサデータD1と温度センサデータD2は、フィールドの項目が一致するデータセットであるため、D1の変量フィールドがD2の変量フィールドを含むことが条件となる。従って、D1の変量フィールドに、D2の変量フィールドとの差分となる「温度」を追加する。   Further, “temperature”, “x”, and “y” are set in the variable field of the temperature sensor data D2 from the influence α based on the subsequent batch job J2. Here, since the temperature sensor data D1 and the temperature sensor data D2 are data sets in which the field items match, the condition is that the variable field of D1 includes the variable field of D2. Therefore, “temperature” which is a difference from the variable field of D2 is added to the variable field of D1.

そして、終端データである平均温度データD3の変量フィールドには、「x」、「y」、及び「平均温度」を設定する。   Then, “x”, “y”, and “average temperature” are set in the variable field of the average temperature data D3 that is the terminal data.

次に、入力データD1の度数分布表3fの作成例について説明する。先ず、Sturgesの公式(非特許文献1)を用いて階級数及び階級幅を決定する。件数見積値を1000件とすることにより、数1の計算によって、温度センサデータD1の変量フィールド「温度」の階級数k=11を得る。   Next, an example of creating the frequency distribution table 3f of the input data D1 will be described. First, the number of classes and the class width are determined using the Sturges formula (Non-Patent Document 1). By setting the estimated number of cases to 1000, the number k of the variable field “temperature” of the temperature sensor data D1 is obtained by the calculation of Equation 1.

Figure 0005842704
Figure 0005842704

また、数2の計算によって、変量フィールド「温度」の階級幅hとして、凡そ9.09を得る。   Further, by calculation of Equation 2, approximately 9.09 is obtained as the class width h of the variable field “temperature”.

Figure 0005842704
Figure 0005842704

他の変量フィールド「x」及び「y」の各々について、上述したように階級数k及び階級幅hを計算する。   For each of the other variable fields “x” and “y”, the class number k and the class width h are calculated as described above.

温度センサデータD1の度数分布3fは、図22に示されるような、3次元度数分布38で表される。図22は、3次元度数分布の例を示す図である。図22にて、3次元度数分布38は、「温度」の階級38a、「x」の階級38b、「y」の階級38cの次元で表される。   The frequency distribution 3f of the temperature sensor data D1 is represented by a three-dimensional frequency distribution 38 as shown in FIG. FIG. 22 is a diagram illustrating an example of a three-dimensional frequency distribution. In FIG. 22, the three-dimensional frequency distribution 38 is represented by the dimensions of a “temperature” class 38a, an “x” class 38b, and a “y” class 38c.

変量フィールド「温度」の各階級は、階級幅h=9.09で区切られて、「温度」の階級38aのようなデータ例を示す。「x」の各階級は、階級幅h=4.54で区切られて、「x」の階級38bのようなデータ例を示す。「y」の各階級は、階級幅h=4.54で区切られて、「y」の階級38cのようなデータ例を示す。   Each class of the variable field “temperature” is divided by a class width h = 9.09 to show a data example such as a class 38a of “temperature”. Each class of “x” is divided by a class width h = 4.54 to show an example of data such as a class 38b of “x”. Each class of “y” is divided by a class width h = 4.54, and shows a data example such as class “c” of “y”.

次に、第1実施例における度数分布写像の作成例について説明する。図23及び図24は、第1実施例における度数分布写像の作成例を説明するための図である。図23(A)では、図22の3次元度数分布38に基づく度数分布表3fを示している。度数分布表3fでは、変量フィールド「温度」、「x」、及び「y」の組み合せ毎に度数「100」が設定されている。 Next, an example of creating the frequency distribution map f in the first embodiment will be described. 23 and 24 are diagrams for explaining an example of creating a frequency distribution map in the first embodiment. FIG. 23A shows a frequency distribution table 3f based on the three-dimensional frequency distribution 38 of FIG. In the frequency distribution table 3f, the frequency “100” is set for each combination of the variable fields “temperature”, “x”, and “y”.

組み合せ毎に示される度数分(100個)のサンプルデータ39を生成する。例えば、「温度」の「0〜9.09」階級、「x」の「0〜4.54」階級、及び「y」の「0〜4.54」階級の組み合せに対する(1002、12:20、2.1、3、2)等を含む100個のデータが生成される。   The sample data 39 corresponding to the frequency (100 pieces) indicated for each combination is generated. For example, for a combination of the “temperature” “0-9.09” class, the “x” “0-4.54” class, and the “y” “0-4.54” class (1002, 12:20). , 2.1, 3, 2), etc. are generated.

そして、サンプルデータ39をバッチジョブJ1で1件ずつ処理し、出力データの度数分推定値4fのどの階級に出力されたのかを入出力対応表2aでカウントした値を記録する。   Then, the sample data 39 is processed one by one by the batch job J1, and the value counted in the input / output correspondence table 2a to which class of the estimated value 4f of the output data is output is recorded.

図23(B)に例示するように、便宜上、階級の組み合せの一部にA、B、C、D、及びEの階級名を付ける。図23(C)にて、バッチジョブJ1の場合の、図23(B)の階級名を用いた入出力対応表2aの例を示す。   As illustrated in FIG. 23B, for convenience, class names of A, B, C, D, and E are given to some of the class combinations. FIG. 23C shows an example of the input / output correspondence table 2a using the class name of FIG. 23B in the case of the batch job J1.

バッチジョブJ1への入力データである温度センサデータD1と、バッチジョブJ1後の温度センサデータD2との対応付けを示す、階級名A〜Eのマトリクスを含む入力対応表2aにおいて、入力(D1)の階級Bから出力(D2)の階級Bへと38回出力され、入力(D1)の階級Cから出力(D2)の階級Cへと100回出力され、入力(D1)の階級Bから出力(D2)の階級Bへと64回出力される。   In the input correspondence table 2a including a matrix of class names A to E showing the correspondence between the temperature sensor data D1 which is input data to the batch job J1 and the temperature sensor data D2 after the batch job J1, input (D1) Is output 38 times from the class B to the class B of the output (D2), is output 100 times from the class C of the input (D1) to the class C of the output (D2), and is output from the class B of the input (D1) ( It is output 64 times to class B of D2).

図23(C)に示される入力対応表2aから図24に示されるような度数分布写像fを得る。図24は、第1実施例における度数分布写像の例を示す図である。図24において、図23(C)に示される入力対応表2aの各値を階級毎の度数(100件)で割ることによって、バッチジョブJ1の度数分布写像fを取得する。   A frequency distribution map f as shown in FIG. 24 is obtained from the input correspondence table 2a shown in FIG. FIG. 24 is a diagram illustrating an example of a frequency distribution map in the first embodiment. In FIG. 24, the frequency distribution map f of the batch job J1 is obtained by dividing each value of the input correspondence table 2a shown in FIG. 23C by the frequency for each class (100 cases).

次に、第1実施例における出力データの度数分布推定例について説明する。図25は、第1実施例における出力データの度数分布推定例を説明するための図である。図25(A)では、実際の入力データD1の度数分布表3f−2を作成する。作成された度数分布表3f−2は、例えば、階級Aの度数は「50」、階級Bの度数は「92」、階級Cの度数は「81」、階級Dの度数は「73」、階級Eの度数は「42」等を示す。   Next, a frequency distribution estimation example of output data in the first embodiment will be described. FIG. 25 is a diagram for explaining an example of estimating the frequency distribution of output data in the first embodiment. In FIG. 25A, a frequency distribution table 3f-2 of actual input data D1 is created. The created frequency distribution table 3f-2 includes, for example, the frequency of class A is “50”, the frequency of class B is “92”, the frequency of class C is “81”, the frequency of class D is “73”, and the class The frequency of E indicates “42” or the like.

そして、度数分布写像fの各値を係数とした一次式で出力データの度数分布の各階級の度数を推定する。図25(B)では、図24に示す度数分布写像fを用いて、出力されるデータD2の度数分布推定値4fの作成例を示す。   Then, the frequency of each class of the frequency distribution of the output data is estimated by a linear expression using each value of the frequency distribution map f as a coefficient. FIG. 25B shows an example of creating the frequency distribution estimated value 4f of the output data D2 using the frequency distribution map f shown in FIG.

データD2の階級Bの度数を、D2[B]と表記し、
D2[B] = ・・・+0*D1[A]+0.38*D1[B]+0*D1[C]
+0*D1[D]+0*D1[D]+・・・
で求められる。
The frequency of the class B of the data D2 is expressed as D2 [B],
D2 [B] = ... + 0 * D1 [A] + 0.38 * D1 [B] + 0 * D1 [C]
+ 0 * D1 [D] + 0 * D1 [D] +.
Is required.

他階級についても同様の計算を行うことによって、度数分布推定値4fを得ることができる。   By performing the same calculation for the other classes, the frequency distribution estimated value 4f can be obtained.

そして、得られた度数分布推定値4fを用いて出力データ量を算出する。   Then, the output data amount is calculated using the obtained frequency distribution estimated value 4f.

出力データ量 = ・・・+D2[A]+D2[B]+D2[C]+D2[D]
+D2[E]+・・・
のようにして得られる。得られた温度差センサデータD2の出力データ量に基づいて、特許文献1の手法を用いてバッチジョブJ1の実行時間推定値5を算出する。
Output data amount = ... + D2 [A] + D2 [B] + D2 [C] + D2 [D]
+ D2 [E] + ...
It is obtained as follows. Based on the output data amount of the obtained temperature difference sensor data D2, the estimated execution time 5 of the batch job J1 is calculated using the method of Patent Document 1.

また、度数分布推定値4fを後続バッチジョブJ2の入力データの度数分布表3f−2に設定し、上述した同様の処理を行うことによって、各位置の平均温度データD3の出力データ量から後続バッチジョブJ2実行時間推定値5を算出することができる。 Further, the frequency distribution estimated value 4f is set in the frequency distribution table 3f-2 of the input data of the subsequent batch job J2, and the same processing as described above is performed, so that the output data amount of the average temperature data D3 at each position is used to determine the subsequent batch. it is possible to calculate the execution time estimate value 5 job J2.

以下に、度数分布写像fと実行時間写像gとを使用して、実行時間を推定する第2実施例について説明する。   The second embodiment for estimating the execution time using the frequency distribution map f and the execution time map g will be described below.

第2実施例における手順は下記の通りである。
(1)入力データ(温度差センサデータD1)の度数分布表3f−2から度数分布写像fを用いて出力データ(温度差センサデータD2)の度数分布推定値4fを計算する。
(2)入力データ(温度差センサデータD1)の度数分布表3f−2から実行時間写像gを用いて実行時間を推定して、実行時間推定値5を得る。
(3)出力データ(温度差センサデータD2のデータ量)の度数分布推定値4fは、後続のバッチジョブJ2の入力データの度数分布表3fとして用いる。後続バッチジョブJ2の実行時間の推定は、上述同様に、実行時間写像gを用いて行う。
The procedure in the second embodiment is as follows.
(1) The frequency distribution estimated value 4f of the output data (temperature difference sensor data D2) is calculated from the frequency distribution table 3f-2 of the input data (temperature difference sensor data D1) using the frequency distribution map f.
(2) The execution time is estimated from the frequency distribution table 3f-2 of the input data (temperature difference sensor data D1) using the execution time map g, and the execution time estimated value 5 is obtained.
(3) The frequency distribution estimated value 4f of the output data (data amount of the temperature difference sensor data D2) is used as the frequency distribution table 3f of the input data of the subsequent batch job J2. The execution time of the subsequent batch job J2 is estimated using the execution time map g as described above.

第2実施例における変量フィールドの決定は、第1実施例で説明した通りであるので、その詳細な説明を省略する。   Since the determination of the variable field in the second embodiment is as described in the first embodiment, its detailed description is omitted.

第2実施例における実行時間写像gの作成例について説明する。図26及び図27は、第2実施例における実行時間写像の作成例を説明するための図である。図26(A)では、図22の3次元度数分布38に基づく度数分布表3fを示している。度数分布写像3fの作成時と同様の、図22の3次元度数分布38に基づく度数分布表を用いる。度数分布表3fでは、変量フィールド「温度」、「x」、及び「y」の組み合せ毎に度数「100」が設定されている。 An example of creating the execution time map g in the second embodiment will be described. 26 and 27 are diagrams for explaining an example of creating an execution time map in the second embodiment. FIG. 26A shows a frequency distribution table 3f based on the three-dimensional frequency distribution 38 of FIG. The frequency distribution table f based on the three-dimensional frequency distribution 38 of FIG. 22 is used, which is the same as when the frequency distribution map 3f is created. In the frequency distribution table 3f, the frequency “100” is set for each combination of the variable fields “temperature”, “x”, and “y”.

度数分布写像の作成時と同様に、組み合せ毎に示される度数分(100個)のサンプルデータ39を生成する。例えば、「温度」の「0〜9.09」階級、「x」の「0〜4.54」階級、及び「y」の「0〜4.54」階級の組み合せに対する(1002、12:20、2.1、3、2)等を含む100個のデータが生成される。 Similarly to the creation of the frequency distribution map f , sample data 39 corresponding to the frequency (100) indicated for each combination is generated. For example, for a combination of the “temperature” “0-9.09” class, the “x” “0-4.54” class, and the “y” “0-4.54” class (1002, 12:20). , 2.1, 3, 2), etc. are generated.

そして、サンプルデータ39をバッチジョブJ1で1件ずつ処理し、実行時間5を実行時間対応表2bでカウントした値を記録する。   Then, the sample data 39 is processed one by one with the batch job J1, and the value obtained by counting the execution time 5 in the execution time correspondence table 2b is recorded.

図26(B)に例示するように、便宜上、階級の組み合せの一部にA、B、C、D、及びEの階級名を付ける。図26(C)にて、バッチジョブJ1の場合の、図26(B)の階級名を用いた実行時間対応表2bの例を示す。実行時間対応表2bでは、階級毎の100件の総実行時間が示される。   As illustrated in FIG. 26B, for convenience, class names of A, B, C, D, and E are given to some of the class combinations. FIG. 26C shows an example of the execution time correspondence table 2b using the class names of FIG. 26B in the case of the batch job J1. The execution time correspondence table 2b shows 100 total execution times for each class.

図26(C)に示される実行時間対応表2aから図27に示されるような実行時間写像gを得る。図26(D)では、バッチジョブJ1の実行時間写像gが例示される。図26(D)において、図26(C)に示される実行時間対応表2bの各値を階級毎の度数(100件)で割ることによって、バッチジョブJ1の実行時間写像gを取得する。   An execution time map g as shown in FIG. 27 is obtained from the execution time correspondence table 2a shown in FIG. FIG. 26D illustrates an execution time map g of the batch job J1. In FIG. 26D, the execution time map g of the batch job J1 is obtained by dividing each value of the execution time correspondence table 2b shown in FIG. 26C by the frequency for each class (100 cases).

図27は、第2実施例における実行時間の推定例を説明するための図である。図27(A)では、実際の入力データD1の度数分布表3f−2の作成例が示される。度数分布表3f−2の一部である階級A、B、C、D、Eの夫々に対して、度数「50」、「92」、「81」、「73」、及び「42」を示す例である。   FIG. 27 is a diagram for explaining an example of estimating the execution time in the second embodiment. FIG. 27A shows an example of creating the frequency distribution table 3f-2 of actual input data D1. The frequencies “50”, “92”, “81”, “73”, and “42” are shown for each of the classes A, B, C, D, and E which are part of the frequency distribution table 3f-2. It is an example.

そして、図27(B)に例示される実行時間写像gを用いて実行時間推定値5を計算する。図27(B)に示される実行時間写像gは、バッチジョブJ1の実行時間写像g(図26(D))に相当する。実行時間写像gの各値を係数とした一次式で、実行時間推定値5が計算される。例えば、バッチジョブJ1の実行時間t[J1]は、以下のように計算される。   Then, the execution time estimated value 5 is calculated using the execution time map g illustrated in FIG. The execution time map g shown in FIG. 27 (B) corresponds to the execution time map g (FIG. 26 (D)) of the batch job J1. An execution time estimated value 5 is calculated by a linear expression using each value of the execution time map g as a coefficient. For example, the execution time t [J1] of the batch job J1 is calculated as follows.

t[J1] = ・・・+0.1*D1[A]+0.3*D1[B]
+0.3*D1[C]+0.3*D1[D]+0.1*D1[E]
= 0.1*(1125−92−81−73)
+0.3*(92+81+73)
=161.7
但し、温度センサデータD1の実際のレコード数は1125件とする。また、B、C、D以外の階級の平均実行時間は全て0.1msとする。
t [J1] =... + 0.1 * D1 [A] + 0.3 * D1 [B]
+ 0.3 * D1 [C] + 0.3 * D1 [D] + 0.1 * D1 [E]
= 0.1 * (1125-92-81-73)
+ 0.3 * (92 + 81 + 73)
= 161.7
However, the actual number of records of the temperature sensor data D1 is 1125. The average execution time of classes other than B, C, and D is all 0.1 ms.

入力データのレコード件数Nが同一であるが異なる度数分布により推定時間が異なる場合について図28及び図29で説明する。   A case where the number of records N of the input data is the same but the estimated time is different due to different frequency distributions will be described with reference to FIGS.

図28は、第2実施例における他の実行時間の推定例を説明するための図である。図28では、入力データD1とD1'のレコード件数Nがどちらも1125件であるとする。   FIG. 28 is a diagram for explaining another estimation example of the execution time in the second embodiment. In FIG. 28, it is assumed that the record number N of the input data D1 and D1 ′ is 1125.

入力データD1の度数分布表3f−2では、その一部分において、階級Aでは「50」度数を示し、階級Bでは「92」度数を示し、階級Cでは「81」度数を示し、階級Dでは「73」度数を示し、階級Eでは「42」度数を示す。   In the frequency distribution table 3 f-2 of the input data D 1, a part of the frequency distribution table 3 f-2 indicates “50” frequency, the class B indicates “92” frequency, the class C indicates “81” frequency, and the class D indicates “ 73 ”frequency, and class E indicates“ 42 ”frequency.

入力データD1'の度数分布表3f−2'では、その一部分において、階級Aでは「20」度数を示し、階級Bでは「15」度数を示し、階級Cでは「24」度数を示し、階級Dでは「30」度数を示し、階級Eでは「25」度数を示す。   In the frequency distribution table 3f-2 ′ of the input data D1 ′, in a part thereof, the class A indicates “20” frequency, the class B indicates “15” frequency, the class C indicates “24” frequency, and the class D Indicates “30” frequency, and class E indicates “25” frequency.

また、予め作成された実行時間写像gによって示される階級毎の実行時間は、一部分において、階級Aでは「0.1」msecを示し、階級Bでは「0.3」msecを示し、階級Cでは「0.3」msecを示し、階級Dでは「0.3」msecを示し、階級Eでは「0.1」msecを示す。   In addition, the execution time for each class indicated by the execution time map g created in advance shows “0.1” msec in class A, “0.3” msec in class B, and “C” in class C. “0.3” msec is shown, “0.3” msec is shown in class D, and “0.1” msec is shown in class E.

このような場合において、入力データの度数分布表3f−2及び実行時間写像を用いない従来手法による実行時間を推定するための一次式がt[J1]=0.1N+50である場合、
t[J1] = 0.1*1125 + 50 = 162.5
として求められる。
In such a case, when the linear expression for estimating the execution time by the conventional method not using the frequency distribution table 3f-2 of the input data and the execution time mapping is t [J1] = 0.1N + 50,
t [J1] = 0.1 * 1125 + 50 = 162.5
As required.

一方、本実施の形態による入力データD1とD1'に対する実行時間推定値5は、
入力データD1の場合、
t[J1] = 0.1*(1125−92−81−73)
+ 0.3*(92+81+73) = 161.7
となる。
On the other hand, the estimated execution time 5 for the input data D1 and D1 ′ according to the present embodiment is
For input data D1,
t [J1] = 0.1 * (1125-92-81-73)
+ 0.3 * (92 + 81 + 73) = 161.7
It becomes.

また、入力データD1'の場合、
t[J1] = 0.1*(1125−15−24−30)
+ 0.3*(15+24+30) = 126.3
となる。
In the case of input data D1 ′,
t [J1] = 0.1 * (1125-15-24-30)
+ 0.3 * (15 + 24 + 30) = 126.3
It becomes.

このように、本実施の形態では、入力データD1と入力データD1'とでは、異なる実行時間推定値5が求まるのに対して、従来手法では、入力データ件数が同一である場合には、一つ実行時間推定値5しか得られない。つまり、従来手法では、推定された実行時間には誤差を含むことを意味しており、一方、本実施の形態では、推定誤差をより小さくし高精度に実行時間推定値5を求めることができる。   As described above, in the present embodiment, different execution time estimation values 5 are obtained for the input data D1 and the input data D1 ′, whereas in the conventional method, when the number of input data items is the same, one is obtained. Only one execution time estimate 5 is obtained. That is, the conventional method means that the estimated execution time includes an error. On the other hand, in the present embodiment, the estimation error can be made smaller and the execution time estimated value 5 can be obtained with high accuracy. .

図28で例示した実行時間の推定値の違い(推定誤差)について図29で説明する。図29は、推定誤差を説明するための図である。図29において、バッチジョブJ1は、範囲[℃、℃]のデータを抽出し、所定処理を行うバッチジョブである。 A difference (estimation error) in the estimated value of execution time illustrated in FIG. 28 will be described with reference to FIG. FIG. 29 is a diagram for explaining the estimation error. In FIG. 29, a batch job J1 is a batch job that extracts data in the range [° C. 1 , ° C. 2 ] and performs a predetermined process.

この例において、レコード件数に相当する入力データ量Nが1125件であったとする。同一の入力データ量Nであっても、温度の度数分布が異なる場合がある。入力データD1では度数分布29a(図28のD1の度数分布表3f−2)を示し、入力データD1'では度数分布29b(図28のD1'の度数分布表3f−2')を示す等がある。例えば、入力データD1は夏のデータであり、入力データD1'は冬のデータである場合等である。   In this example, it is assumed that the input data amount N corresponding to the number of records is 1125. Even with the same input data amount N, the frequency distribution of temperature may be different. The input data D1 indicates a frequency distribution 29a (D1 frequency distribution table 3f-2 in FIG. 28), the input data D1 ′ indicates a frequency distribution 29b (D1 ′ frequency distribution table 3f-2 ′ in FIG. 28), and the like. is there. For example, the input data D1 is summer data, and the input data D1 ′ is winter data.

従来手法による実行時間推定値は、上述したように、入力データD1及び入力データD1'に対してt[J1]=162.5で同じ結果となる。度数分布29aと度数分布29bとの違いに関わらず同一の実行時間推定値が算出される。   As described above, the estimated execution time value according to the conventional method has the same result at t [J1] = 162.5 with respect to the input data D1 and the input data D1 ′. Regardless of the difference between the frequency distribution 29a and the frequency distribution 29b, the same execution time estimated value is calculated.

本実施の形態を適用した場合、入力データ量Nが同じ1125件であったとしても、度数分布29aを得た場合、度数分布29a(図28のD1の度数分布表3f−2)に基づいてバッチジョブJ1後の出力データ量に係る度数分布29cが求まる。また、実行時間写像gを用いた一次式により、t[J1]=161.7を得る。   When this embodiment is applied, even if the input data amount N is the same 1125 cases, when the frequency distribution 29a is obtained, the frequency distribution 29a (frequency distribution table 3f-2 of D1 in FIG. 28) is obtained. A frequency distribution 29c relating to the output data amount after the batch job J1 is obtained. Further, t [J1] = 161.7 is obtained by a linear expression using the execution time map g.

また、度数分布29b(図28のD1'の度数分布表3f−2')を得た場合、度数分布29bに基づいてバッチジョブJ1後の出力データ量に係る度数分布29dが求まる。また、実行時間写像gを用いた一次式により、t[J1]=126.3を得る。   Further, when the frequency distribution 29b (the frequency distribution table 3f-2 ′ of D1 ′ in FIG. 28) is obtained, the frequency distribution 29d related to the output data amount after the batch job J1 is obtained based on the frequency distribution 29b. Further, t [J1] = 16.3 is obtained by a linear expression using the execution time map g.

この推定値t[J1]=161.7と推定値t[J1]=126.3との違いが、従来手法の場合における実行時間の推定誤差に相当する。   The difference between the estimated value t [J1] = 161.7 and the estimated value t [J1] = 16.3 corresponds to an execution time estimation error in the case of the conventional method.

更に、従来手法において、入力データ量から出力データ量を推測する場合、その出力データ量にも推定誤差が生じる。バッチジョブネットワークでは、出力データが後続バッチジョブの入力データとなるため、出力データ量の推定誤差が大きい場合、バッチジョブ毎に推定誤差が蓄積される。また、出力データ量の推定のみならず実行時間の推定にも影響を与えるため、適切な実行時間を推定することができない場合がある。   Further, in the conventional method, when the output data amount is estimated from the input data amount, an estimation error also occurs in the output data amount. In the batch job network, the output data becomes input data of the subsequent batch job. Therefore, when the estimation error of the output data amount is large, the estimation error is accumulated for each batch job. In addition, since it affects not only the estimation of the output data amount but also the estimation of the execution time, it may not be possible to estimate an appropriate execution time.

一方、本実施の形態では、入力データ量Nが同じ件数であっても、度数分布29a及び度数分布29bの各々に基づいて、出力データ量及び実行時間を精度良く推定する。従って、バッチジョブネットワークにおいても、推定誤差による影響を少なくすることができ、出力データ量及び実行時間を精度良く推定できる。   On the other hand, in the present embodiment, even if the input data amount N is the same number, the output data amount and the execution time are accurately estimated based on each of the frequency distribution 29a and the frequency distribution 29b. Therefore, even in the batch job network, the influence of the estimation error can be reduced, and the output data amount and the execution time can be estimated with high accuracy.

以下に、実行時間写像gのみを使用して、実行時間を推定する第3実施例について説明する。   A third embodiment for estimating the execution time using only the execution time map g will be described below.

第3実施例では、バッチジョブが単一のバッチジョブのみで構成されている場合に、入力データの度数分布表3f−2から度数分布写像fを用いて実行時間を推定して、実行時間推定値5を得る。   In the third embodiment, when a batch job is composed of only a single batch job, the execution time is estimated by using the frequency distribution map f from the frequency distribution table 3f-2 of the input data, and the execution time is estimated. A value of 5 is obtained.

第3実施例において、変量フィールドの決定は、第1実施例等と同様であるので、その詳細な説明を省略する。また、実行時間写像gの作成は、第2実施例等と同様であるので、その詳細な説明を省略する。   In the third embodiment, the determination of the variable field is the same as that in the first embodiment and the detailed description thereof is omitted. The creation of the execution time map g is the same as that in the second embodiment and the detailed description thereof is omitted.

以上より、本実施の形態では、入力データの値の分布によって出力データ量と実行時間とを推定するため、入力データ量のみで出力データ量と実行時間とを推定する従来手法に比べて、推定誤差を小さくすることができる。   As described above, in this embodiment, since the output data amount and the execution time are estimated based on the distribution of the input data values, the estimation is performed as compared with the conventional method in which the output data amount and the execution time are estimated only by the input data amount. The error can be reduced.

本実施の形態では、複数のフィールドで構成される入力データのレコードを1件ずつ処理するようなバッチジョブ2について、入力データの度数分布から度数分布写像又は/及び実行時間写像を用いて実行時間を推定することで、バッチジョブ2に関するソース情報、設定ファイル等が不明であっても、実行時間を精度良く推定できる。また、入力データの度数分布と度数分布写像とから出力データの度数分布を取得でき、出力データ量を高精度で推定することができる。   In this embodiment, for a batch job 2 that processes input data records composed of a plurality of fields one by one, the execution time using the frequency distribution map or / and the execution time map from the frequency distribution of the input data. By estimating the execution time, the execution time can be accurately estimated even if the source information, the setting file, etc. regarding the batch job 2 are unknown. Further, the frequency distribution of the output data can be acquired from the frequency distribution of the input data and the frequency distribution map, and the output data amount can be estimated with high accuracy.

本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。   The present invention is not limited to the specifically disclosed embodiments, and various modifications and changes can be made without departing from the scope of the claims.

以上の第1から第3実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
階級毎に入力データの度数の分布を示す度数分布表と、該度数分布表に基づく入力データから所定処理による結果情報への写像を記憶する記憶部と、
前記記憶部に記憶された前記度数分布表を入力とする該記憶部に記憶された前記結果情報への写像を用いた計算結果に基づいて、前記入力データに対する前記所定処理の実行時間を推定する実行時間推定部と
を有する実行時間推定装置。
(付記2)
前記記憶部に記憶される前記写像は、前記入力データの度数分布表から出力データの度数分布推定値への前記所定処理による度数分布写像であり、
前記入力データの度数分布表を入力とする、前記記憶部に記憶される前記度数分布写像を用いることによって、前記出力データの前記度数分布推定値を取得する出力データ度数分布推定部と、
推定された前記度数分布推定値で示される度数の総和による出力データ量に基づいて実行時間を推定する実行時間推定部と
を有する付記1記載の実行時間推定装置。
(付記3)
前記記憶部に記憶される前記写像は、前記入力データの度数分布表から前記所定処理による実行時間写像であり、
前記記憶部に記憶される実行時間写像の各値を前記入力データの度数分布表の同一階級の度数の係数とした一次式で、実行時間を推定する実行時間推定部
を有する付記1記載の実行時間推定装置。
(付記4)
前記記憶部は、前記入力データの度数分布表から出力データの度数分布推定値への前記所定処理による度数分布写像を更に記憶し、
前記記憶部に記憶される度数分布写像の各値を前記入力データの度数分布表の同一階級の度数の係数とした一次式で、前記出力データの度数分布推定値を取得する出力データ度数分布推定部
を有する付記3記載の実行時間推定装置。
(付記5)
前記出力データ度数分布推定部は、前記度数分布写像を用いた一次式で取得した前記出力データの度数分布推定値を、前記所定処理の後段の処理に対する入力データの度数分布表に設定する付記3記載の実行時間推定装置。
(付記6)
前記階級毎に入力データの度数を示す度数分布表を前記記憶部に作成する入力データ度数分布作成部を有する付記1乃至5のいずれか一項記載の実行時間推定装置。
(付記8)
記憶部に記憶された階級毎に入力データの度数の分布を示す度数分布表を入力とする、該記憶部に記憶された該度数分布表に基づく入力データから所定処理による結果情報への写像を計算し、
前記計算の結果に基づいて、前記入力データに対する前記所定処理の実行時間を推定する
処理をコンピュータに実行させるプログラム。
(付記9)
コンピュータによって実行される実行時間推定方法であって、
記憶部に記憶された階級毎に入力データの度数の分布を示す度数分布表を入力とする、該記憶部に記憶された該度数分布表に基づく入力データから所定処理による結果情報への写像を計算し、
前記計算の結果に基づいて、前記入力データに対する前記所定処理の実行時間を推定する実行時間推定方法。
(付記10)
階級毎に入力データの度数の分布を示す度数分布表と、該度数分布表に基づく入力データから所定処理による結果情報への写像を記憶する記憶部と、
前記度数分布表と写像とを記憶する度数分布生成部と、
前記記憶部に記憶された前記度数分布表を入力とする該記憶部に記憶された前記実行情報への写像を用いた計算結果に基づいて、前記入力データに対する前記所定処理の実行時間を推定する実行時間推定部と
を有するシステム。
(付記11)
前記度数分布生成部は、
入出力データのスキーマを取得して、該スキーマに基づく前記入力データのフィールドのうち、前記所定処理によって出力データに影響を与える変量フィールドを決定する変量フィールド決定部と、
前記変量フィールド決定部によって決定された前記変量フィールドの値域とレコードの見積もり件数とに基づいて階級数と階級幅とを決定して、前記入力データの度数分布表を前記記憶部に生成する度数分布表生成部と、
前記実行情報への前記写像を作成する写像作成部と
を有する付記10記載のシステム。
(付記12)
前記変量フィールド決定部は、
各フィールドの値を平均又は標準偏差を持った正規乱数を用いて設定したレコードを見積もり件数分含む基準入力データセットと、対象フィールド以外は該基準入力データセットの同一番目のフィールドと同じ値とし、該対象フィールドを該基準入力データセットとは異なる平均又は標準偏差を持った正規乱数を用いて変更した入力データセットを生成する生成部と、
前記基準入力データセットに対して前記所定処理を行って得た基準出力データセットと、前記入力データセットに対して該所定処理を行って得た出力データセットとを比較することによって、前記対象フィールドが該所定処理によって該出力データセットに与える影響度を算出する算出部と、
前記影響度が所定値以上である場合、前記対象フィールドを前記変量フィールドに決定する決定部と
を有する付記11記載のシステム。
(付記13)
前記変量フィールド決定部は、
前記基準出力データセットと前記出力データセットのレコード数が異なる場合、前記影響度に最大値を設定する第一設定部と、
前記出力データセットと前記基準出力データセットと比較において、対象フィールド以外で値が異なるフィールドがある場合、値が異なるフィールド数の全レコードのフィールド数に対する割合を前記影響度に設定する第二設定部と
を有する付記12記載のシステム。
(付記14)
前記写像作成部は、
前記入力フィールドの度数分布表の階級毎に度数分のランダムなデータを生成するデータ生成部と、
前記所定処理で1件ずつ処理して出力データが出力された階級をカウントし、カウント結果を該階級の度数で割ることによって、度数分布を示す前記写像を作成する写像作成部と、
を有する付記11乃至13のいずれか一項記載のシステム。
(付記15)
前記写像作成部は、
前記入力フィールドの度数分布表の階級毎に度数分のランダムなデータを生成するデータ生成部と、
前記所定処理で1件ずつ処理して測定した実行時間を階級毎に平均することによって、各階級の実行時間を示す前記写像を作成する写像作成部と、
を有する付記11乃至13のいずれか一項記載のシステム。
Regarding the embodiment including the first to third examples, the following additional notes are disclosed.
(Appendix 1)
A frequency distribution table showing the frequency distribution of the input data for each class, and a storage unit for storing a mapping from the input data based on the frequency distribution table to result information by a predetermined process;
The execution time of the predetermined process for the input data is estimated based on a calculation result using a mapping to the result information stored in the storage unit that receives the frequency distribution table stored in the storage unit. An execution time estimation device having an execution time estimation unit.
(Appendix 2)
The mapping stored in the storage unit is a frequency distribution map by the predetermined processing from the frequency distribution table of the input data to the frequency distribution estimated value of the output data,
An output data frequency distribution estimation unit that obtains the frequency distribution estimated value of the output data by using the frequency distribution map stored in the storage unit, which has the frequency distribution table of the input data as an input;
The execution time estimation device according to appendix 1, further comprising an execution time estimation unit that estimates an execution time based on an output data amount based on a sum of frequencies indicated by the estimated frequency distribution estimated value.
(Appendix 3)
The mapping stored in the storage unit is an execution time mapping by the predetermined process from the frequency distribution table of the input data,
The execution according to appendix 1, further comprising an execution time estimation unit that estimates an execution time by a linear expression using each value of the execution time map stored in the storage unit as a coefficient of the frequency of the same class of the frequency distribution table of the input data. Time estimation device.
(Appendix 4)
The storage unit further stores a frequency distribution map by the predetermined processing from the frequency distribution table of the input data to the frequency distribution estimated value of the output data,
Output data frequency distribution estimation that obtains a frequency distribution estimated value of the output data by a linear expression using each value of the frequency distribution map stored in the storage unit as a coefficient of the frequency of the same class of the frequency distribution table of the input data The execution time estimation apparatus according to supplementary note 3 having a unit.
(Appendix 5)
The output data frequency distribution estimation unit sets the frequency distribution estimation value of the output data acquired by a linear expression using the frequency distribution map in the frequency distribution table of the input data for the subsequent process of the predetermined process The execution time estimation apparatus described.
(Appendix 6)
The execution time estimation device according to any one of appendices 1 to 5, further comprising an input data frequency distribution creation unit that creates a frequency distribution table indicating the frequency of input data for each class in the storage unit.
(Appendix 8)
A frequency distribution table indicating the frequency distribution of the input data for each class stored in the storage unit is used as an input, and mapping from the input data based on the frequency distribution table stored in the storage unit to result information by a predetermined process is performed. Calculate
A program that causes a computer to execute a process of estimating an execution time of the predetermined process for the input data based on a result of the calculation.
(Appendix 9)
An execution time estimation method executed by a computer,
A frequency distribution table indicating the frequency distribution of the input data for each class stored in the storage unit is used as an input, and mapping from the input data based on the frequency distribution table stored in the storage unit to result information by a predetermined process is performed. Calculate
An execution time estimation method for estimating an execution time of the predetermined process for the input data based on a result of the calculation.
(Appendix 10)
A frequency distribution table showing the frequency distribution of the input data for each class, and a storage unit for storing a mapping from the input data based on the frequency distribution table to result information by a predetermined process;
A frequency distribution generation unit for storing the frequency distribution table and the mapping;
Based on a calculation result using a mapping to the execution information stored in the storage unit that receives the frequency distribution table stored in the storage unit, an execution time of the predetermined process for the input data is estimated. A system having an execution time estimation unit.
(Appendix 11)
The frequency distribution generation unit
A variable field determination unit that acquires a schema of input / output data and determines a variable field that affects output data by the predetermined processing among the fields of the input data based on the schema;
Frequency distribution for determining a class number and a class width based on the range of the variable field determined by the variable field determination unit and the estimated number of records, and generating a frequency distribution table of the input data in the storage unit A table generator,
The system according to claim 10, further comprising: a mapping creation unit that creates the mapping to the execution information.
(Appendix 12)
The variable field determination unit includes:
The standard input data set including the estimated number of records set by using a normal random number with an average or standard deviation for each field value, and the same value as the first field of the standard input data set other than the target field, A generating unit that generates an input data set in which the target field is changed using a normal random number having an average or standard deviation different from the reference input data set;
By comparing the reference output data set obtained by performing the predetermined processing on the reference input data set and the output data set obtained by performing the predetermined processing on the input data set, the target field Calculating a degree of influence of the predetermined processing on the output data set;
The system according to claim 11, further comprising: a determining unit that determines the target field as the variable field when the influence degree is equal to or greater than a predetermined value.
(Appendix 13)
The variable field determination unit includes:
When the number of records of the reference output data set and the output data set is different, a first setting unit that sets a maximum value for the degree of influence,
In the comparison between the output data set and the reference output data set, when there is a field having a different value other than the target field, a second setting unit that sets a ratio of the number of fields having a different value to the number of fields of all records as the influence The system according to appendix 12, which has:
(Appendix 14)
The mapping creation unit
A data generation unit for generating random data for each frequency for each class of the frequency distribution table of the input field;
A map creation unit that creates the map showing the frequency distribution by counting the class in which the output data is processed one by one in the predetermined process, and dividing the count result by the frequency of the class;
14. The system according to any one of appendices 11 to 13, comprising:
(Appendix 15)
The mapping creation unit
A data generation unit for generating random data for each frequency for each class of the frequency distribution table of the input field;
A mapping creation unit that creates the mapping indicating the execution time of each class by averaging the execution times measured and processed for each class in the predetermined process;
14. The system according to any one of appendices 11 to 13, comprising:

2 バッチジョブ
6 入出力データのスキーマ
11 CPU
12 主記憶装置
13 補助記憶装置
14 入力装置
15 表示装置
16 出力装置
17 通信I/F
18 ドライブ
19 記憶媒体
40 度数分布生成部
41 変量フィールド決定部
42 度数分布表生成部
43 度数分布写像作成部
44 実行時間写像作成部
50 実行時間推定部
51 入力データ度数分布作成部
52 実行時間推定部
53 出力データ度数分布推定部
130 記憶部
1000 システム
f 度数分布写像
g 実行時間写像
2 Batch job 6 I / O data schema 11 CPU
12 Main storage device 13 Auxiliary storage device 14 Input device 15 Display device 16 Output device 17 Communication I / F
18 drive 19 storage medium 40 frequency distribution generation unit 41 variable field determination unit 42 frequency distribution table generation unit 43 frequency distribution mapping generation unit 44 execution time mapping generation unit 50 execution time estimation unit 51 input data frequency distribution generation unit 52 execution time estimation unit 53 Output data frequency distribution estimation unit 130 Storage unit 1000 System f Frequency distribution mapping g Execution time mapping

Claims (5)

出力データに影響する入力データのフィールドの値を階級分けした階級毎に、分類された該入力データの入力度数を設定する度数分布表と、該度数分布表の各階級サンプリングした入力データの該入力度数を設定し、該サンプリングした入力データに対して所定処理を行うことで出力データの出力度数を得る度数分布写像を記憶する記憶部と、
前記記憶部に記憶された前記度数分布表の各階級に対して、前記所定処理の対象入力データの前記入力度数を設定する設定部と、
前記度数分布写像の値を係数とした一次式によって、該対象入力データに対する前記所定処理後の出力データの前記出力度数を該階級毎に取得し、取得した該階級毎の該出力度数を合計することで、前記対象入力データに対する前記出力度数を推定する出力度数推定部と
を有す推定装置。
The value of the field of the input data that affects the output data for each class obtained by class classification, the classified and frequency distribution table to set the input frequency of the input data, the input data sampled in each class of該度number distribution table A storage unit for storing a frequency distribution map that sets an input frequency and obtains an output frequency of output data by performing predetermined processing on the sampled input data ;
A setting unit for setting the input frequency of the target input data of the predetermined processing for each class of the frequency distribution table stored in the storage unit ;
The output frequency of the output data after the predetermined processing with respect to the target input data is acquired for each class by a linear expression using the value of the frequency distribution map as a coefficient, and the acquired output frequencies for each class are totaled. it is, estimator that having a <br/> an output power estimator for estimating the output power with respect to the target input data.
前記記憶部、前記入力データの度数分布表の階級毎の1入力データ当たりの前記所定処理による実行時間を示す実行時間写像を記憶し、
前記実行時間写像の値を係数とした一次式によって、該対象入力データに対する前記所定処理後の前記実行時間を該階級毎に取得し、取得した該階級毎の該実行時間を合計することで、前記対象入力データに対する前記実行時間を推定する実行時間推定部と
を有する請求項1記載推定装置。
The storage unit stores the predetermined processing execution time indicates an execution time by mapping per input data for each class frequency distribution table of the input data,
By obtaining the execution time after the predetermined processing for the target input data for each class by a linear expression using the value of the execution time map as a coefficient, and summing the obtained execution times for each class, The estimation apparatus according to claim 1, further comprising: an execution time estimation unit that estimates the execution time for the target input data .
前記記憶部、前記入力データの度数分布表の階級毎の1入力データ当たりの前記所定処理による実行時間を示す実行時間写像を記憶し
前記出力度数推定部によって得られた前記階級毎の前記出力度数を該階級毎の前記対象入力データとして用いて、前記記憶部に記憶される前記実行時間写像係数とした一次式によって該対象入力データに対する前記所定処理後の前記実行時間を該階級毎に取得し、取得した該階級毎の該実行時間を合計することで、前記対象入力データに対する該実行時間を推定する実行時間推定部
を有する請求項1記載推定装置。
The storage unit stores the predetermined processing execution time indicates an execution time by mapping per input data for each class frequency distribution table of the input data,
Using said output power of said each class obtained by the output power estimating unit as the target input data of hierarchical class each, by a linear expression that the coefficient values of the mapping the execution time stored in the storage unit, Execution time estimation for estimating the execution time for the target input data by acquiring the execution time after the predetermined processing for the target input data for each class and summing the acquired execution times for each class The estimation apparatus according to claim 1, further comprising a unit.
記憶部に記憶された出力データに影響する入力データのフィールドの値を階級分けした階級毎に、分類された該入力データの入力度数を設定する度数分布表を入力とする、該記憶部に記憶された該度数分布表の各階級サンプリングした入力データの該入力度数を設定し、該サンプリングした入力データに対して所定処理を行うことで出力データの出力度数を得る度数分布写像を計算して記憶部に記憶し
前記記憶部に記憶された前記度数分布表の各階級に対して、前記所定処理の対象入力データの前記入力度数を設定し、
前記度数分布写像の値を係数とした一次式によって、該対象入力データに対する該所定処理後の出力データの前記出力度数を該階級毎に取得し、
取得した前記階級毎の前記出力度数を合計することで、前記対象入力データに対する前記出力度数を推定する
処理をコンピュータに実行させるプログラム。
The value of the field of the input data affects the output data stored in the storage unit for each class obtained by class classification, as inputs frequency distribution table for setting the input power of the classified the input data, stored in the storage unit It has been set the input frequency of the input data sampled in each class of該度number distribution table, to calculate a frequency distribution map to obtain an output frequency of the output data by performing a predetermined process on the input data the sampled Memorize in the memory ,
For each class of the frequency distribution table stored in the storage unit, set the input frequency of the target input data of the predetermined processing,
The output frequency of the output data after the predetermined processing for the target input data is obtained for each class by a linear expression using the value of the frequency distribution map as a coefficient,
The program which makes a computer perform the process which estimates the said output frequency with respect to the said target input data by totaling the said output frequency for every said class acquired .
コンピュータによって実行される実行時間推定方法であって、
記憶部に記憶された出力データに影響する入力データのフィールドの値を階級分けした階級毎に、分類された該入力データの入力度数を設定する度数分布表を入力とする、該記憶部に記憶された該度数分布表の各階級サンプリングした入力データの該入力度数を設定し、該サンプリングした入力データに対して所定処理を行うことで出力データの出力度数を得る度数分布写像を計算して記憶部に記憶し
前記記憶部に記憶された前記度数分布表の各階級に対して、前記所定処理の対象入力データの前記入力度数を設定し、
前記度数分布写像の値を係数とした一次式によって、該対象入力データに対する該所定処理後の出力データの前記出力度数を該階級毎に取得し、
取得した前記階級毎の前記出力度数を合計することで、前記対象入力データに対する前記出力度数を推定する推定方法。
An execution time estimation method executed by a computer,
The value of the field of the input data affects the output data stored in the storage unit for each class obtained by class classification, as inputs frequency distribution table for setting the input power of the classified the input data, stored in the storage unit It has been set the input frequency of the input data sampled in each class of該度number distribution table, to calculate a frequency distribution map to obtain an output frequency of the output data by performing a predetermined process on the input data the sampled Memorize in the memory ,
For each class of the frequency distribution table stored in the storage unit, set the input frequency of the target input data of the predetermined processing,
The output frequency of the output data after the predetermined processing for the target input data is obtained for each class by a linear expression using the value of the frequency distribution map as a coefficient,
An estimation method for estimating the output frequency for the target input data by summing the acquired output frequencies for each of the classes .
JP2012072234A 2012-03-27 2012-03-27 Estimation apparatus, program, and estimation method Expired - Fee Related JP5842704B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012072234A JP5842704B2 (en) 2012-03-27 2012-03-27 Estimation apparatus, program, and estimation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012072234A JP5842704B2 (en) 2012-03-27 2012-03-27 Estimation apparatus, program, and estimation method

Publications (2)

Publication Number Publication Date
JP2013205970A JP2013205970A (en) 2013-10-07
JP5842704B2 true JP5842704B2 (en) 2016-01-13

Family

ID=49525020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012072234A Expired - Fee Related JP5842704B2 (en) 2012-03-27 2012-03-27 Estimation apparatus, program, and estimation method

Country Status (1)

Country Link
JP (1) JP5842704B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019044A (en) * 2017-12-15 2019-07-16 北京京东尚科信息技术有限公司 Big data cluster quasi real time Yarn Mission Monitor analysis method
JP7449779B2 (en) 2020-06-03 2024-03-14 株式会社日立製作所 Job management method and job management device

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3338570B2 (en) * 1994-11-22 2002-10-28 富士通株式会社 Prediction device for processing end time in batch processing of natural language
JP4102695B2 (en) * 2003-03-28 2008-06-18 株式会社日本総合研究所 Batch job management system and batch job management program
JP2008020642A (en) * 2006-07-12 2008-01-31 Fujitsu Ltd Prediction method of data process time and process time prediction device

Also Published As

Publication number Publication date
JP2013205970A (en) 2013-10-07

Similar Documents

Publication Publication Date Title
JP6978541B2 (en) Computer implementation method, computer system and computer equipment to reduce dynamic deviation value bias
RU2008147223A (en) METHOD AND DEVICE FOR DETERMINING A DISEASE CONDITION BY MEANS OF BIOMARKERS
US11016477B2 (en) Devices, methods, and systems for a distributed rule based automated fault detection
JP6835098B2 (en) Factor analysis method, factor analyzer and factor analysis program
RU2014115455A (en) SYSTEM AND METHOD OF STARTING A VIRTUAL MACHINE
JP6737277B2 (en) Manufacturing process analysis device, manufacturing process analysis method, and manufacturing process analysis program
JP2017502390A (en) Method and apparatus for defining a functional model based on data
CN113465734B (en) Real-time estimation method for structural vibration
JP5842704B2 (en) Estimation apparatus, program, and estimation method
KR20190004605A (en) Apparatus and method for generating energy simulation model
WO2021151304A1 (en) Method and apparatus for hysteretic processing of time series data, electronic device, and storage medium
JP2013257821A (en) Information processor, information processing method and program
Lopes et al. Theoretical results on fractionally integrated exponential generalized autoregressive conditional heteroskedastic processes
WO2019224909A1 (en) Parameter selection method, parameter selection program, and information processing device
Shen et al. Likelihood approaches for the invariant density ratio model with biased-sampling data
JP7353940B2 (en) Transferability determination device, transferability determination method, and transferability determination program
JP2013168020A (en) State prediction method for process
JP2017224185A (en) Bug contamination probability calculation program and bug contamination probability calculation method
JP6150545B2 (en) Data processing apparatus and program
JP2013149203A (en) Optimal model estimation device, method and program
JP2017207878A (en) Missing data estimation method, missing data estimation device, and missing data estimation program
JP2021060959A (en) Factor analysis device and factor analysis method
WO2016013099A1 (en) Feature data management system and feature data management method
Worms et al. Modelling Program's Performance with Gaussian Mixtures for Parametric Statistics
JP6677068B2 (en) Execution time estimation device, execution time estimation method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150804

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151102

R150 Certificate of patent or registration of utility model

Ref document number: 5842704

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees