JP7197391B2 - Data analysis device, data analysis method and data analysis program - Google Patents

Data analysis device, data analysis method and data analysis program Download PDF

Info

Publication number
JP7197391B2
JP7197391B2 JP2019017207A JP2019017207A JP7197391B2 JP 7197391 B2 JP7197391 B2 JP 7197391B2 JP 2019017207 A JP2019017207 A JP 2019017207A JP 2019017207 A JP2019017207 A JP 2019017207A JP 7197391 B2 JP7197391 B2 JP 7197391B2
Authority
JP
Japan
Prior art keywords
division
impurity
value
item
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019017207A
Other languages
Japanese (ja)
Other versions
JP2020126331A (en
Inventor
諒也 前沢
慶樹 廣川
洋央 金子
剛光 上野
Original Assignee
株式会社オービック
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社オービック filed Critical 株式会社オービック
Priority to JP2019017207A priority Critical patent/JP7197391B2/en
Publication of JP2020126331A publication Critical patent/JP2020126331A/en
Application granted granted Critical
Publication of JP7197391B2 publication Critical patent/JP7197391B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、データ分析装置、データ分析方法およびデータ分析プログラムに関する。 The present invention relates to a data analysis device, data analysis method and data analysis program.

特許文献1には、商品の特徴と過去の販売実績との関係の分析に基づいて広告物の作成を支援する広告物作成支援装置が開示されており(0006段落参照)、決定木分析における説明変数として、予め定めた商品の属性を設定しており、目的変数として、商品の過去の販売実績を設定している(0007段落参照)。 Patent Literature 1 discloses an advertisement creation support device that assists creation of advertisements based on analysis of the relationship between product features and past sales performance (see paragraph 0006). Predetermined product attributes are set as variables, and past sales results of products are set as objective variables (see paragraph 0007).

特開2010-237923号公報JP 2010-237923 A

このように、説明変数の値によって目的変数の値が決定される何かしらのルールを推測する際に、従来においては、複数の目的変数を同時に扱うことはできなかった。例えば、上記特許文献1においては、目的変数として、「商品の過去の販売実績」のみを設定している。 Thus, conventionally, multiple objective variables could not be handled at the same time when inferring some rule in which the value of the objective variable is determined by the value of the explanatory variable. For example, in Patent Literature 1, only "past sales performance of products" is set as an objective variable.

このため、従来においては、複数の目的変数の値を推測するためには、説明変数と目的変数の組み合わせが膨大になり、分析結果を理解するのが難しいという問題があった。言い換えると、従来においては、分析対象となるデータが含む目的変数の数だけ分析結果も作成しなければならず、分析結果が膨大な量となり理解するのが難しいという問題があった。 For this reason, conventionally, in order to estimate the values of a plurality of objective variables, the number of combinations of explanatory variables and objective variables becomes enormous, and there is the problem that it is difficult to understand the analysis results. In other words, conventionally, the analysis results must be created for the number of objective variables included in the data to be analyzed, and the analysis results are enormous in volume and difficult to understand.

本発明は、上記問題点に鑑みてなされたものであって、分析対象となるデータが複数の目的変数を含む場合においても1つの分析結果としてまとめて出力可能な態様でデータ分析できるデータ分析装置、データ分析方法およびデータ分析プログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and is a data analysis apparatus capable of performing data analysis in a manner that can collectively output as one analysis result even when data to be analyzed includes a plurality of target variables. , to provide a data analysis method and a data analysis program.

上述した課題を解決し、目的を達成するために、本発明に係るデータ分析装置は、制御部を備えるデータ分析装置であって、前記制御部が、説明変数と複数の目的変数とを有するレコードを複数含む分析対象データ中の前記レコードを、特定の前記説明変数を基準として、当該基準とした説明変数の値ごとにレコード群に分割するレコード分割手段と、前記レコード分割手段で分割して求めた前記レコード群ごとに、同一の前記目的変数内における最頻値および当該最頻値が占める割合を、前記複数の目的変数すべてについて算出する割合算出手段と、前記レコード分割手段で前記分割の基準とした前記説明変数の値ごとに、前記複数の目的変数すべてについて前記割合算出手段で算出した前記最頻値および前記割合を含む分析結果を作成する分析結果作成手段と、を備えること、を特徴とする。 In order to solve the above-described problems and achieve the object, a data analysis device according to the present invention is a data analysis device comprising a control unit, the control unit having a record having an explanatory variable and a plurality of objective variables. A record dividing means for dividing the records in the analysis target data including a plurality of ratio calculating means for calculating, for each of the record groups, a mode value and a ratio of the mode value within the same objective variable for all of the plurality of objective variables; analysis result creating means for creating an analysis result including the mode value and the ratio calculated by the ratio calculating means for all of the plurality of objective variables for each value of the explanatory variable as and

また、本発明に係るデータ分析装置は、前記レコード分割手段が、前記分割の基準とした前記説明変数以外の前記説明変数を新たな基準として前記分割を繰り返し、前記分割して求めた前記レコード群中の前記レコードの数、前記分割を実行した回数および前記分割前と前記分割後の間での前記目的変数についての不純度の改善量である不純度改善量のうちの少なくとも1つに応じて、前記分割を停止すること、を特徴とする。 Further, in the data analysis apparatus according to the present invention, the record dividing means repeats the dividing using the explanatory variable other than the explanatory variable used as the dividing reference as a new reference, and the record group obtained by the dividing according to at least one of the number of records in the table, the number of times the division is executed, and the impurity improvement amount, which is the improvement amount of the impurity for the objective variable between before the division and after the division. and stopping the division.

また、本発明に係るデータ分析装置は、前記制御部が、前記分割前の不純度から前記分割後の不純度を差し引いた値を、前記不純度改善量として前記目的変数ごとに算出する改善量算出手段と、前記分析結果のうち、前記改善量算出手段で算出した前記不純度改善量が所定の値以上となった前記目的変数についての前記分割後の前記最頻値および前記割合のみを出力する分析結果出力手段と、を更に備えること、を特徴とする。 Further, in the data analysis device according to the present invention, the improvement amount calculated for each objective variable by the control unit as the impurity improvement amount is a value obtained by subtracting the impurity after the division from the impurity before the division. a calculating means for outputting only the mode value and the ratio after the division for the objective variable for which the impurity improvement amount calculated by the improvement amount calculating means is equal to or greater than a predetermined value among the analysis results; and analysis result output means for outputting the results.

また、本発明に係るデータ分析装置は、前記制御部が、1から、同一の前記目的変数内での各値の割合の2乗の和を差し引いた値を、前記不純度として算出する不純度算出手段を更に備えること、を特徴とする。 Further, in the data analysis device according to the present invention, the control unit subtracts the sum of the squares of the ratios of the values in the same objective variable from 1, and calculates the impurity as the impurity It is characterized by further comprising calculating means.

また、本発明に係るデータ分析装置は、前記分析結果作成手段が、前記分析結果として、前記レコード分割手段で前記分割の基準とした前記説明変数および当該説明変数の値に基づいて階層的に分岐させた枝ごとに、前記複数の目的変数すべてについて前記割合算出手段で算出した前記最頻値および前記割合を含む決定木を作成すること、を特徴とする。 Further, in the data analysis apparatus according to the present invention, the analysis result creation means hierarchically branches the analysis results based on the explanatory variables used as the criteria for the division by the record division means and the values of the explanatory variables. creating a decision tree including the mode and the ratio calculated by the ratio calculating means for all of the plurality of objective variables, for each branch that is set.

また、本発明に係るデータ分析装置は、前記説明変数が、社員の身分を特定するための項目であり、前記目的変数が、前記社員に対する給与についての計算の仕方または支給の仕方を決定するための項目であること、を特徴とする。 Further, in the data analysis device according to the present invention, the explanatory variable is an item for specifying the status of an employee, and the objective variable is for determining a method of calculating or paying a salary to the employee. It is characterized by being an item of

また、本発明に係るデータ分析方法は、制御部を備える情報処理装置で実行されるデータ分析方法であって、前記制御部で実行される、説明変数と複数の目的変数とを有するレコードを複数含む分析対象データ中の前記レコードを、特定の前記説明変数を基準として、当該基準とした説明変数の値ごとにレコード群に分割するレコード分割ステップと、前記レコード分割ステップで分割して求めた前記レコード群ごとに、同一の前記目的変数内における最頻値および当該最頻値が占める割合を、前記複数の目的変数すべてについて算出する割合算出ステップと、前記レコード分割ステップで前記分割の基準とした前記説明変数の値ごとに、前記複数の目的変数すべてについて前記割合算出ステップで算出した前記最頻値および前記割合を含む分析結果を作成する分析結果作成ステップと、を含むこと、を特徴とする。 Further, a data analysis method according to the present invention is a data analysis method executed by an information processing apparatus having a control unit, wherein a plurality of records having an explanatory variable and a plurality of objective variables are executed by the control unit. a record splitting step of splitting the records in the analysis target data including the A ratio calculation step of calculating, for each record group, a mode value and a ratio of the mode value within the same target variable for all of the plurality of target variables, and the record splitting step set the splitting criteria as the splitting criteria. and an analysis result creation step of creating an analysis result including the mode and the ratio calculated in the ratio calculation step for all of the plurality of objective variables for each value of the explanatory variable. .

また、本発明に係るデータ分析プログラムは、制御部を備える情報処理装置に実行させるためのデータ分析プログラムであって、前記制御部に実行させるための、説明変数と複数の目的変数とを有するレコードを複数含む分析対象データ中の前記レコードを、特定の前記説明変数を基準として、当該基準とした説明変数の値ごとにレコード群に分割するレコード分割ステップと、前記レコード分割ステップで分割して求めた前記レコード群ごとに、同一の前記目的変数内における最頻値および当該最頻値が占める割合を、前記複数の目的変数すべてについて算出する割合算出ステップと、前記レコード分割ステップで前記分割の基準とした前記説明変数の値ごとに、前記複数の目的変数すべてについて前記割合算出ステップで算出した前記最頻値および前記割合を含む分析結果を作成する分析結果作成ステップと、を含むこと、を特徴とする。 Further, a data analysis program according to the present invention is a data analysis program to be executed by an information processing apparatus having a control unit, the record having an explanatory variable and a plurality of objective variables to be executed by the control unit A record dividing step of dividing the records in the data to be analyzed, which includes a plurality of a ratio calculating step of calculating, for each of the plurality of objective variables, a mode value and a ratio of the mode value within the same objective variable for each record group; and a dividing criterion in the record dividing step. and an analysis result creation step of creating an analysis result including the mode and the ratio calculated in the ratio calculation step for all of the plurality of objective variables for each value of the explanatory variable as and

本発明によれば、分析対象となるデータが複数の目的変数を含む場合においても1つの分析結果としてまとめて出力可能な態様でデータ分析できるという効果を奏する。 ADVANTAGE OF THE INVENTION According to this invention, it is effective in the data analysis in the aspect which can output collectively as one analysis result, even when the data used as an analysis object contain several target variables.

図1は、情報処理装置の構成の一例を示すブロック図である。FIG. 1 is a block diagram showing an example of the configuration of an information processing device. 図2は、分析対象データの一例を示す図である。FIG. 2 is a diagram illustrating an example of analysis target data. 図3は、不純度の計算の一例を示す図である。FIG. 3 is a diagram showing an example of impurity calculation. 図4は、X1を基準として分析対象データを分割した場合における不純度の改善量の合計の計算の一例を示す図である。FIG. 4 is a diagram showing an example of calculation of the total impurity improvement amount when the data to be analyzed is divided on the basis of X1. 図5は、X2を基準として分析対象データを分割した場合における不純度の改善量の合計の計算の一例を示す図である。FIG. 5 is a diagram showing an example of calculation of the total impurity improvement amount when the data to be analyzed is divided on the basis of X2. 図6は、X3を基準として分析対象データを分割した場合における不純度の改善量の合計の計算の一例を示す図である。FIG. 6 is a diagram showing an example of calculation of the total impurity improvement amount when the data to be analyzed is divided based on X3. 図7は、X3を基準として分析対象データを分割した場合における分割後のデータの一例を示す図である。FIG. 7 is a diagram showing an example of data after division when analysis target data is divided based on X3. 図8は、更にデータの分割を続けた場合における分割後のデータの一例を示す図である。FIG. 8 is a diagram illustrating an example of data after division when data division is continued. 図9は、更にデータの分割を続けた場合における分割後のデータの一例の一部を抜き出した図である。FIG. 9 is a diagram showing a part of an example of data after division when the data is further divided. 図10は、各分割での分割前後の不純度の改善量(分割の影響スコア)の計算の一例を示す図である。FIG. 10 is a diagram showing an example of calculation of the amount of improvement in impurity before and after division (influence score of division) in each division. 図11は、分析結果を条件別(説明変数別)に出力する場合の一例を示す図である。FIG. 11 is a diagram showing an example of outputting analysis results for each condition (by explanatory variable). 図12は、分割の影響スコアを考慮して、分析結果を条件別(説明変数別)に出力する場合の一例を示す図である。FIG. 12 is a diagram showing an example of outputting analysis results for each condition (for each explanatory variable) in consideration of the division influence score. 図13は、分析結果をツリー(決定木)により出力する場合の一例を示す図である。FIG. 13 is a diagram showing an example of outputting analysis results in the form of a tree (decision tree). 図14は、分割の影響スコアまたは分割後の不純度を考慮して、分析結果をツリー(決定木)により出力する場合の一例を示す図である。FIG. 14 is a diagram showing an example of outputting analysis results in the form of a tree (decision tree) in consideration of the influence score of division or the impurity after division. 図15は、社員の入社時における社員情報の設定の一例を示すイメージ図である。FIG. 15 is an image diagram showing an example of setting employee information when an employee joins the company. 図16は、社員の入社時における社員情報の設定の一例を示すイメージ図である。FIG. 16 is an image diagram showing an example of setting employee information when an employee joins the company. 図17は、複数の新入社員(50人)についての複数の項目(50項目)の登録の一例を示すイメージ図である。FIG. 17 is an image diagram showing an example of registration of a plurality of items (50 items) for a plurality of new employees (50 persons). 図18は、新入社員についての社員情報の登録漏れに起因する給与誤支給の発生の一例を示すイメージ図である。FIG. 18 is an image diagram showing an example of occurrence of incorrect payment of salary due to omission of registration of employee information for a new employee. 図19は、社員データの内容の一例を示す図である。FIG. 19 is a diagram showing an example of the contents of employee data. 図20は、各マスタの内容の一例を示す図である。FIG. 20 is a diagram showing an example of the contents of each master. 図21は、テンプレートの登録(定義マスタの内容の登録)までの処理の流れの概要を示す図である。FIG. 21 is a diagram showing an overview of the flow of processing up to template registration (registration of definition master contents). 図22は、テンプレートの登録(定義マスタの内容の登録)から社員情報の登録までの処理の流れの概要を示す図である。FIG. 22 is a diagram showing an overview of the flow of processing from template registration (registration of definition master contents) to employee information registration. 図23は、分析実行画面の一例を示す図である。FIG. 23 is a diagram showing an example of an analysis execution screen. 図24は、選択された枝についての登録候補の表示(MA4で示す)、項目別調整の表示(MA5で示す)および項目別調整における選択結果を受けての最終的な登録候補の表示(MA3で示す)をパターン登録画面で行う際の一例を示す図である。FIG. 24 shows the display of registration candidates for the selected branch (indicated by MA4), the display of item-by-item adjustment (indicated by MA5), and the display of the final registration candidate in response to the selection result of item-by-item adjustment (indicated by MA3). ) is performed on the pattern registration screen. 図25は、最終的な登録候補として表示したパターンに対する定義名の設定(MB1で示す)およびパターンの登録(MB2で示す)をパターン登録画面で行う際の一例を示す図である。FIG. 25 is a diagram showing an example of setting a definition name (indicated by MB1) and registering a pattern (indicated by MB2) for a pattern displayed as a final registration candidate on the pattern registration screen. 図26は、登録したパターンの情報を社員情報登録・変更画面で確認および編集する際の一例を示す図である。FIG. 26 is a diagram showing an example of confirming and editing registered pattern information on the employee information registration/change screen. 図27は、社員情報登録・変更画面からのパターンの呼び出しの仕方および呼び出されたパターンの別画面における表示の仕方の一例を示す図である。FIG. 27 is a diagram showing an example of how to call patterns from the employee information registration/change screen and how to display the called patterns on another screen. 図28は、呼び出されたパターンから特定のパターンの選択することで社員情報が自動設定された社員情報登録・変更画面の一例を示す図である。FIG. 28 is a diagram showing an example of an employee information registration/change screen in which employee information is automatically set by selecting a specific pattern from the called patterns. 図29は、社員情報の設定の一例を示すイメージ図である。FIG. 29 is an image diagram showing an example of setting employee information. 図30は、社員情報の変更の一例を示すイメージ図である。FIG. 30 is an image diagram showing an example of changing employee information. 図31は、社員情報の変更時に給与担当者が行うべき作業の一例を示すイメージ図である。FIG. 31 is an image diagram showing an example of the work to be done by the person in charge of payroll when changing employee information. 図32は、既に存在する社員についての社員情報の変更漏れに起因する給与誤支給の発生の一例を示すイメージ図である。FIG. 32 is an image diagram showing an example of occurrence of incorrect payment of salary due to failure to change employee information about an existing employee. 図33は、テンプレートの登録(定義マスタの内容の登録)から社員情報の変更までの処理の流れの概要を示す図である。FIG. 33 is a diagram showing an overview of the flow of processing from template registration (registration of definition master contents) to change of employee information. 図34は、選択された枝についての登録候補の表示(MF4で示す)、項目別調整の表示(MF5で示す)および項目別調整における選択結果を受けての最終的な登録候補の表示(MF3で示す)をパターン登録画面で行う際の一例を示す図である。FIG. 34 shows the display of registration candidates for the selected branch (indicated by MF4), the display of item-by-item adjustment (indicated by MF5), and the display of the final registration candidate in response to the selection result of item-by-item adjustment (indicated by MF3). ) is performed on the pattern registration screen. 図35は、最終的な登録候補として表示したパターンに対する定義名の設定(MG1で示す)およびパターンの登録(MG2で示す)をパターン登録画面で行う際の一例を示す図である。FIG. 35 is a diagram showing an example of setting a definition name (indicated by MG1) and registering a pattern (indicated by MG2) for a pattern displayed as a final registration candidate on the pattern registration screen. 図36は、登録したパターンの情報を定義情報登録・変更画面で確認および編集する際の一例を示す図である。FIG. 36 is a diagram showing an example of confirming and editing registered pattern information on the definition information registration/change screen. 図37は、社員情報登録・変更画面からの社員区分の変更の一例を示す図である。FIG. 37 is a diagram showing an example of changing an employee classification from the employee information registration/change screen. 図38は、変更された社員区分に基づいて表示される登録したパターン一覧および当該パターンの内容を確認するために表示される定義情報登録・変更画面の一例を示す図である。FIG. 38 is a diagram showing an example of a registered pattern list displayed based on the changed employee classification and a definition information registration/change screen displayed for confirming the contents of the pattern. 図39は、表示されたパターン一覧から特定のパターンを選択することで社員情報が自動変更された社員情報登録・変更画面の一例を示す図である。FIG. 39 is a diagram showing an example of an employee information registration/change screen in which employee information is automatically changed by selecting a specific pattern from the displayed pattern list.

以下に、データ分析装置、データ分析方法およびデータ分析プログラムの実施形態を、図面に基づいて詳細に説明する。なお、本実施形態により本発明が限定されるものではない。 Embodiments of a data analysis device, a data analysis method, and a data analysis program will be described in detail below with reference to the drawings. It should be noted that the present invention is not limited by this embodiment.

以下、具体的な構成および動作について説明するが、データ分析装置、データ分析方法、データ分析プログラムについての内容は、主に、以下の[1-1]、[2-1]、[3-1]および[4-1]で説明する。 Specific configurations and operations will be described below, but the contents of the data analysis device, data analysis method, and data analysis program are mainly described in [1-1], [2-1], and [3-1] below. ] and [4-1].

[1.構成]
本発明を包含する情報処理装置100の構成の一例について、図1を参照して説明する。図1は、情報処理装置100の構成の一例を示すブロック図である。
[1. composition]
An example of the configuration of an information processing apparatus 100 including the present invention will be described with reference to FIG. FIG. 1 is a block diagram showing an example of the configuration of an information processing apparatus 100. As shown in FIG.

情報処理装置100は、市販のデスクトップ型パーソナルコンピュータである。なお、情報処理装置100は、デスクトップ型パーソナルコンピュータのような据置型情報処理装置に限らず、市販されているノート型パーソナルコンピュータ、PDA(Personal Digital Assistants)、スマートフォン、タブレット型パーソナルコンピュータなどの携帯型情報処理装置であってもよい。 The information processing device 100 is a commercially available desktop personal computer. Note that the information processing apparatus 100 is not limited to a stationary information processing apparatus such as a desktop personal computer, and may be a portable type such as a commercially available notebook personal computer, PDA (Personal Digital Assistants), a smart phone, or a tablet personal computer. It may be an information processing device.

情報処理装置100は、制御部102と通信インターフェース部104と記憶部106と入出力インターフェース部108と、を備えている。情報処理装置100が備えている各部は、任意の通信路を介して通信可能に接続されている。 The information processing apparatus 100 includes a control section 102 , a communication interface section 104 , a storage section 106 and an input/output interface section 108 . Each unit included in the information processing apparatus 100 is communicably connected via an arbitrary communication path.

通信インターフェース部104は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、情報処理装置100をネットワーク300に通信可能に接続する。通信インターフェース部104は、他の装置と通信回線を介してデータを通信する機能を有する。ここで、ネットワーク300は、情報処理装置100とサーバ200とを相互に通信可能に接続する機能を有し、例えばインターネットやLAN(Local Area Network)等である。なお、後述する各種マスタ等のデータは、例えばサーバ200に格納されてもよい。 The communication interface unit 104 communicably connects the information processing device 100 to the network 300 via a communication device such as a router and a wired or wireless communication line such as a dedicated line. The communication interface unit 104 has a function of communicating data with another device via a communication line. Here, the network 300 has a function of connecting the information processing apparatus 100 and the server 200 so that they can communicate with each other, and is, for example, the Internet or a LAN (Local Area Network). Data such as various masters described later may be stored in the server 200, for example.

入出力インターフェース部108には、入力装置112および出力装置114が接続されている。出力装置114には、モニタ(家庭用テレビを含む)の他、スピーカやプリンタを用いることができる。入力装置112には、キーボード、マウス、及びマイクの他、マウスと協働してポインティングデバイス機能を実現するモニタを用いることができる。なお、以下では、出力装置114をモニタ114とし、入力装置112をキーボード112またはマウス112として記載する場合がある。 An input device 112 and an output device 114 are connected to the input/output interface section 108 . The output device 114 can be a monitor (including a home television), a speaker, or a printer. The input device 112 can be a keyboard, a mouse, a microphone, or a monitor that realizes a pointing device function in cooperation with a mouse. Note that, hereinafter, the output device 114 may be referred to as the monitor 114 and the input device 112 may be referred to as the keyboard 112 or the mouse 112 .

記憶部106には、各種のデータベース、テーブルおよびファイルなどが格納される。記憶部106には、OS(Operating System)と協働してCPU(Central Processing Unit)に命令を与えて各種処理を行うためのコンピュータプログラムが記録される。記憶部106として、例えば、RAM(Random Access Memory)・ROM(Read Only Memory)等のメモリ装置、ハードディスクのような固定ディスク装置、フレキシブルディスク、および光ディスク等を用いることができる。 The storage unit 106 stores various databases, tables, files, and the like. The storage unit 106 stores a computer program for performing various processes by giving commands to a CPU (Central Processing Unit) in cooperation with an OS (Operating System). As the storage unit 106, for example, memory devices such as RAM (Random Access Memory) and ROM (Read Only Memory), fixed disk devices such as hard disks, flexible disks, and optical disks can be used.

記憶部106は、例えば、分析対象データ106aと、定義マスタとしての自動更新定義マスタ106b(以下、単に「定義マスタ106b」という。)と、社員区分マスタ106cと、給与区分マスタ106dと、役職マスタ106eと、等級マスタ106fと、職種マスタ106gと、勤務地マスタ106hと、計算定義マスタ106iと、を備えている。 The storage unit 106 stores, for example, analysis target data 106a, an automatically updated definition master 106b as a definition master (hereinafter simply referred to as "definition master 106b"), an employee classification master 106c, a salary classification master 106d, a position master 106e, grade master 106f, occupation master 106g, work location master 106h, and calculation definition master 106i.

分析対象データ106aは、図2に示すように、説明変数(X1、X2およびX3)と複数の目的変数(Y1およびY2)とを有するレコードを複数含む。前記説明変数とは、前記目的変数を説明する変数のことであり、物事の原因ととらえることもできる。前記目的変数とは、予測したい変数のことであり、物事の結果ととらえることもできる。本実施形態に係る情報処理装置100においては、複数の前記目的変数(Y1およびY2)を扱えることが大きな特徴である。 As shown in FIG. 2, the analysis target data 106a includes multiple records having explanatory variables (X1, X2 and X3) and multiple objective variables (Y1 and Y2). The explanatory variable is a variable that explains the objective variable, and can be regarded as the cause of things. The objective variable is a variable to be predicted, and can also be regarded as a result of things. A major feature of the information processing apparatus 100 according to the present embodiment is that it can handle a plurality of objective variables (Y1 and Y2).

分析対象データ106aは、給与支払いの場面では、例えば、社員データ106a1に相当する。 The analysis target data 106a corresponds to, for example, the employee data 106a1 in the case of salary payment.

分析対象データ106aが社員データ106a1である場合、前記説明変数は、社員の身分を特定するための項目である身分項目に相当し、前記説明変数の値は、前記身分項目の値である身分項目値に相当する。前記身分項目としては、例えば、社員区分、性別、役職、勤務地、資格の有無および業務等が挙げられる。前記身分項目値としては、例えば、前記身分項目「社員区分」の前記身分項目値である「正社員」、前記身分項目「性別」の前記身分項目値である「男」および前記身分項目「業務」の前記身分項目値である「販売登録者」等が挙げられる。 When the analysis target data 106a is the employee data 106a1, the explanatory variable corresponds to the status item that is an item for specifying the status of the employee, and the value of the explanatory variable is the value of the status item. equivalent to the value Examples of the status items include employee classification, gender, title, work location, presence or absence of qualifications, duties, and the like. As the status item values, for example, the status item value of the status item "employee classification" is "regular employee", the status item value of the status item "gender" is "male", and the status item is "work". "Sales registrant", etc., which is the identity item value of .

分析対象データ106aが社員データ106a1である場合、前記目的変数は、前記社員に対する給与についての計算の仕方または支給の仕方を決定するための項目である給与項目に相当し、前記目的変数の値は、前記給与項目の値である給与項目値に相当する。前記給与項目としては、例えば、給与区分、給与支給日区分、労働条件区分、保険種別および各種手当の有無等が挙げられる。前記給与項目値としては、例えば、前記給与項目「給与区分」の前記給与項目値である「2:日給月給者」および前記給与項目「給与支給日区分」の前記給与項目値である「1:25日払い」等が挙げられる。 When the analysis target data 106a is the employee data 106a1, the objective variable corresponds to a salary item which is an item for determining how to calculate or pay the employee's salary, and the value of the objective variable is , corresponds to the salary item value, which is the value of the salary item. The salary items include, for example, salary category, salary payment date category, working condition category, insurance type, and presence/absence of various allowances. As the salary item value, for example, the salary item value of the salary item "salary classification" is "2: Daily wage earner" and the salary item value of the salary item "salary payment date classification" is "1: 25-day payment” and the like.

社員データ106a1の内容を図19に例示するが、図19においては、多数存在する前記説明変数および前記目的変数のうちの一部のみが示されている。社員データ106a1においては、各社員のデータが給与支給年月日ごとに保持されている。 The contents of the employee data 106a1 are illustrated in FIG. 19. In FIG. 19, only some of the numerous explanatory variables and objective variables are shown. In the employee data 106a1, data of each employee is held for each salary payment date.

定義マスタ106bは、前記身分項目および前記身分項目値ならびに前記給与項目および前記給与項目値から構成されるパターンを定義するためのマスタである。定義マスタ106bは、例えば、前記パターンと、前記パターンを定義するためのパターン定義データ(定義名および定義番号等)と、を紐付けて含む。 The definition master 106b is a master for defining patterns composed of the above-mentioned status items and above-mentioned status item values, and above-mentioned salary items and above-mentioned salary item values. The definition master 106b includes, for example, the pattern and pattern definition data (definition name, definition number, etc.) for defining the pattern in association with each other.

社員区分マスタ106c、給与区分マスタ106d、役職マスタ106e、等級マスタ106f、職種マスタ106g、勤務地マスタ106hおよび計算定義マスタ106iの内容は、例えば、図20に示すとおりである。社員区分マスタ106cの内容については、会社によってあまり差が無い。等級マスタ106fの内容については、会社によって全く異なる設定を行うことがある。給与計算時には、社員データ106a1の「職種」や「調整給区分」に対応する計算定義マスタ106i中の「更新条件」を取得し、当該取得した「更新条件」と紐付く計算定義マスタ106i中の「更新式」に基づいて給与計算を行うことができる。 The contents of the employee division master 106c, salary division master 106d, position master 106e, grade master 106f, occupation master 106g, work location master 106h, and calculation definition master 106i are, for example, as shown in FIG. The content of the employee classification master 106c does not differ much depending on the company. The content of the grade master 106f may be set completely differently depending on the company. At the time of payroll calculation, the "update conditions" in the calculation definition master 106i corresponding to the "job type" and "adjusted pay category" of the employee data 106a1 are acquired, and the calculation definition master 106i associated with the acquired "update conditions" is updated. Payroll can be calculated based on the "renewal formula".

制御部102は、情報処理装置100を統括的に制御するCPU等である。制御部102は、OS等の制御プログラム・各種の処理手順等を規定したプログラム・所要データなどを格納するための内部メモリを有し、格納されているこれらのプログラムに基づいて種々の情報処理を実行する。 The control unit 102 is a CPU or the like that comprehensively controls the information processing apparatus 100 . The control unit 102 has an internal memory for storing a control program such as an OS, a program defining various processing procedures, required data, and the like, and performs various information processing based on these stored programs. Run.

制御部102は、機能概念的に、例えば、(1)説明変数と複数の目的変数とを有するレコードを複数含む分析対象データ中の前記レコードを、特定の前記説明変数を基準として、当該基準とした説明変数の値ごとにレコード群に分割するレコード分割手段としてのレコード分割部102aと、(2)前記レコード分割手段で分割して求めた前記レコード群ごとに、同一の前記目的変数内における最頻値および当該最頻値が占める割合を、前記複数の目的変数すべてについて算出する割合算出手段としての割合算出部102bと、(3)前記レコード分割手段で前記分割の基準とした前記説明変数の値ごとに、前記複数の目的変数すべてについて前記割合算出手段で算出した前記最頻値および前記割合を含む分析結果を作成する分析結果作成手段しての分析結果作成部102cと、(4)前記分割前の不純度から前記分割後の不純度を差し引いた値を、前記不純度改善量として前記目的変数ごとに算出する改善量算出手段としての改善量算出部102dと、(5)前記分析結果のうち、前記改善量算出手段で算出した前記不純度改善量が所定の値以上となった前記目的変数についての前記分割後の前記最頻値および前記割合のみを出力する分析結果出力手段としての分析結果出力部102eと、(6)1から、同一の前記目的変数内での各値の割合の2乗の和を差し引いた値を、前記不純度として算出する不純度算出手段としての不純度算出部102fと、(7)前記身分項目および前記身分項目値に基づいて階層的に分岐させた枝のうち選択された枝で特定される前記社員の集合について、同一の前記給与項目内において占める割合が最も大きい前記給与項目値を、当該最も大きい割合と併せて、前記パターンの前記登録を行うための画面であるパターン登録画面に表示し、前記最も大きい割合が所定の閾値以上である場合は、前記閾値以上の割合の前記給与項目値を、前記登録の候補として識別可能な態様で、前記閾値以上の割合と併せて、前記パターン登録画面に表示する登録候補パターン表示手段としての登録候補パターン表示部102gと、(8)前記選択された枝についての前記身分項目および前記身分項目値ならびに前記登録候補パターン表示手段が前記識別可能な前記態様で表示した前記給与項目値およびこれに対応する前記給与項目から構成される前記パターンと、当該パターンを定義するためのパターン定義データであってオペレータにより設定されたものと、を紐付けて定義マスタに登録するパターン登録手段としてのパターン登録部102hと、(9)前記定義マスタから、前記社員単位で前記身分項目値および前記給与項目値の新規登録または変更を行うための画面である社員情報登録・変更画面において指定されたパターン定義データと紐付く前記パターンについての前記項目および前記値を取得し、当該取得した項目についての当該値を、前記新規登録の候補として前記社員情報登録・変更画面に表示する登録候補項目表示手段としての登録候補項目表示部102iと、(10)前記社員単位で前記身分項目値および前記給与項目値の新規登録または変更を行うための画面である社員情報登録・変更画面において特定の前記身分項目についての前記身分項目値が変更されると、前記定義マスタから、変更の対象となった前記身分項目および変更後の前記身分項目値と紐付くパターン定義データを取得し、当該取得したパターン定義データを表示するパターン定義表示手段としてのパターン定義表示部102jと、(11)前記定義マスタから、前記パターン定義表示手段が表示した前記パターン定義データのうち指定されたものと紐付く前記パターンについての前記項目および前記値を取得し、当該取得した項目についての当該値を、前記変更の候補として前記社員情報登録・変更画面に表示する変更候補項目表示手段としての変更候補項目表示部102kと、を備えている。以下、各部が実行する動作を説明する。 Functionally, conceptually, for example, the control unit 102 (1) compares the records in the analysis target data including a plurality of records having an explanatory variable and a plurality of objective variables with the specific explanatory variable as a reference, (2) a record dividing unit 102a as a record dividing unit that divides into a record group for each value of the explanatory variable; (3) a ratio calculation unit 102b as ratio calculation means for calculating the ratio of the frequent value and the mode value for all of the plurality of objective variables; (4) an analysis result creation unit 102c as analysis result creation means for creating an analysis result including the mode value and the ratio calculated by the ratio calculation means for each of the plurality of objective variables; (5) the analysis result; Among them, as analysis result output means for outputting only the mode value and the ratio after the division for the objective variable for which the impurity improvement amount calculated by the improvement amount calculation means is equal to or greater than a predetermined value an analysis result output unit 102e; a calculation unit 102f; and (7) determining, within the same salary item, the set of employees specified by a branch selected from branches hierarchically branched based on the status item and the value of the status item. The salary item value with the largest ratio is displayed on a pattern registration screen, which is a screen for performing the registration of the pattern, together with the largest ratio, and when the largest ratio is equal to or greater than a predetermined threshold, , a registration candidate pattern as a registration candidate pattern display means for displaying the salary item value of the ratio of the threshold value or more on the pattern registration screen in a manner that can be identified as the registration candidate, together with the ratio of the threshold value or more. a display unit 102g; The pattern consisting of salary items and the pattern for defining the pattern (9) the identification item values for each employee from the definition master; and acquiring the item and the value for the pattern associated with the pattern definition data specified on the employee information registration/change screen, which is a screen for newly registering or changing the salary item value, and acquiring the acquired item (10) a registration candidate item display unit 102i as registration candidate item display means for displaying the value of the above as a candidate for new registration on the employee information registration/change screen; When the identity item value for a specific identity item is changed on the employee information registration/change screen, which is a screen for newly registering or changing the salary item value, the change is made from the definition master. (11) from the definition master, a pattern definition display unit 102j as pattern definition display means for acquiring pattern definition data associated with the identification item and the changed identification item value, and displaying the acquired pattern definition data; , acquiring the item and the value of the pattern associated with the specified one of the pattern definition data displayed by the pattern definition display means, and displaying the value of the acquired item as the change candidate; and a change candidate item display unit 102k as change candidate item display means for displaying on the employee information registration/change screen. The operations performed by each unit will be described below.

[1-1.決定木の作成についての動作]
レコード分割部102aは、説明変数と複数の目的変数とを有するレコードを複数含む分析対象データ106a中の前記レコードを、特定の前記説明変数を基準として、当該基準とした説明変数の値ごとにレコード群に分割する。例えば、レコード分割部102aは、図8に示すように、分析対象データ106a中のレコード10個を、説明変数X3を基準として、X3=1を有する2個のレコードからなるレコード群Aと、X3=2を有する6個のレコードからなるレコード群Dと、X3=3を有する2個のレコードからなるレコード群Iと、に分割する。
[1-1. Operation for Creation of Decision Tree]
The record dividing unit 102a divides the records in the analysis target data 106a, which includes a plurality of records having an explanatory variable and a plurality of objective variables, into records for each value of the explanatory variable with reference to the specific explanatory variable. Divide into groups. For example, as shown in FIG. 8, the record dividing unit 102a divides 10 records in the analysis target data 106a into a record group A consisting of two records having X3=1 with reference to the explanatory variable X3, and X3 A record group D consisting of 6 records with X3=2 and a record group I consisting of 2 records with X3=3.

レコード分割部102aは、前記分割の基準とした前記説明変数以外の前記説明変数を新たな基準として前記分割を繰り返し、前記分割して求めた前記レコード群中の前記レコードの数、前記分割を実行した回数および前記分割前と前記分割後の間での前記目的変数についての不純度の改善量である不純度改善量のうちの少なくとも1つに応じて、前記分割を停止してもよい。例えば、レコード分割部102aは、図8に示すように、レコード群A中のレコード2個を、X2=1を有する1個のレコードからなるレコード群Bと、X2=2を有する1個のレコードからなるレコード群Cと、に分割し、レコード群D中のレコード6個を、X1=1を有する3個のレコードからなるレコード群Eと、X1=2を有する2個のレコードからなるレコード群Fと、に分割する。更に続けて、レコード分割部102aは、図8に示すように、レコード群E中のレコード3個を、X2=1を有する2個のレコードからなるレコード群Gと、X2=2を有する1個のレコードからなるレコード群Hと、に分割する。このようにして、レコード分割部102aは、図8に示すように、分析対象データ106a中のレコード10個を、レコード群A~Iに分割する。 The record dividing unit 102a repeats the division using the explanatory variable other than the explanatory variable used as the division criterion as a new criterion, and executes the division based on the number of records in the record group obtained by the division. The division may be stopped according to at least one of the number of times the division is performed and an impurity improvement amount that is an improvement amount of the impurity for the objective variable between before the division and after the division. For example, as shown in FIG. 8, the record dividing unit 102a divides two records in the record group A into a record group B consisting of one record having X2=1 and one record having X2=2. 6 records in the record group D are divided into a record group E consisting of 3 records having X1=1 and a record group consisting of 2 records having X1=2 Divide into F and . Further, as shown in FIG. 8, the record dividing unit 102a divides the three records in the record group E into a record group G consisting of two records having X2=1 and one record having X2=2. and a record group H consisting of records of . In this manner, the record dividing unit 102a divides ten records in the analysis target data 106a into record groups A to I, as shown in FIG.

割合算出部102bは、レコード分割部102aで分割して求めた前記レコード群ごとに、同一の前記目的変数内における最頻値および当該最頻値が占める割合を、前記複数の目的変数すべてについて算出する。例えば、図8のレコード群Aに注目した場合、割合算出部102bは、目的変数Y1については、最頻値を1と算出し、当該最頻値1が占める割合を1/2×100=50%と算出し、また、目的変数Y2については、最頻値を1と算出し、当該最頻値1が占める割合を2/2×100=100%と算出する。同様に、図8のレコード群Eに注目した場合、割合算出部102bは、目的変数Y1については、最頻値を1と算出し、当該最頻値1が占める割合を2/3×100≒67%と算出し、また、目的変数Y2については、最頻値を2と算出し、当該最頻値2が占める割合を3/3×100=100%と算出する。 A ratio calculation unit 102b calculates, for each of the record groups obtained by dividing by the record division unit 102a, the mode value in the same objective variable and the ratio of the mode value to all of the plurality of objective variables. do. For example, when focusing on the record group A in FIG. 8, the ratio calculation unit 102b calculates that the mode value of the objective variable Y1 is 1, and the ratio of the mode value 1 is 1/2×100=50. For the objective variable Y2, the mode is calculated as 1, and the ratio of the mode 1 is calculated as 2/2×100=100%. Similarly, when focusing on the record group E in FIG. 8, the ratio calculation unit 102b calculates that the mode value of the objective variable Y1 is 1, and the ratio of the mode value 1 is 2/3×100≈ For the objective variable Y2, the mode is calculated as 2, and the ratio of the mode 2 is calculated as 3/3×100=100%.

分析結果作成部102cは、レコード分割部102aで前記分割の基準とした前記説明変数の値ごとに、前記複数の目的変数すべてについて割合算出部102bで算出した前記最頻値および前記割合を含む分析結果を作成する。例えば、図8のレコード群Aに注目した場合、分析結果作成部102cは、「分割の基準が説明変数『X3=1』である場合、目的変数Y1の最頻値が1でありその割合が50%、目的変数Y2の最頻値が1でありその割合が100%である」という分析結果を作成する。同様に、図8のレコード群Eに注目した場合、分析結果作成部102cは、「分割の基準が説明変数『X3=2、X1=1』である場合、目的変数Y1の最頻値が1でありその割合が約67%、目的変数Y2の最頻値が2でありその割合が100%である」という分析結果を作成する。作成される分析結果のイメージを、図11に示す。 The analysis result creation unit 102c performs an analysis including the mode value and the ratio calculated by the ratio calculation unit 102b for all of the plurality of objective variables for each value of the explanatory variable used as the basis for the division by the record division unit 102a. produce results. For example, when focusing on the record group A in FIG. 50%, the mode of the objective variable Y2 is 1, and the ratio is 100%." Similarly, when focusing on record group E in FIG. and its ratio is about 67%, the mode of the objective variable Y2 is 2, and its ratio is 100%." An image of the created analysis result is shown in FIG.

分析結果作成部102cは、前記分析結果として、レコード分割部102aで前記分割の基準とした前記説明変数の値に基づいて階層的に分岐させた枝ごとに、前記複数の目的変数すべてについて割合算出部102bで算出した前記最頻値および前記割合を含む決定木を作成してもよい。作成される決定木のイメージを、図13に示す。なお、決定木による分析とは、例えば、全データの中で分析したい変数(目的変数)とデータを分岐させる変数(説明変数)とを設定し、分岐を繰り返していき、分析結果をツリー構造の樹木図で表現する分析手法のことである。 As the analysis result, the analysis result creation unit 102c calculates a ratio of all of the plurality of objective variables for each branch hierarchically branched based on the value of the explanatory variable used as the criterion for the division in the record division unit 102a. A decision tree including the mode and the ratio calculated in the unit 102b may be created. An image of the decision tree to be created is shown in FIG. In the analysis using a decision tree, for example, a variable to be analyzed in all data (objective variable) and a variable for branching data (explanatory variable) are set, the branching is repeated, and the analysis results are displayed in a tree structure. It is an analysis method expressed in a tree diagram.

改善量算出部102dは、前記分割前の不純度から前記分割後の不純度を差し引いた値を、前記不純度改善量として前記目的変数ごとに算出する。ここで、前記不純度は、不純度算出部102fが、同一の前記目的変数内での各値の割合の2乗の和を差し引くことにより算出することができる。例えば、図8において、分析対象データ106a(=分割前)とレコード群A(=分割後)とに注目する。 The improvement amount calculation unit 102d calculates a value obtained by subtracting the impurity after the division from the impurity before the division as the impurity improvement amount for each objective variable. Here, the impurity can be calculated by the impurity calculation unit 102f by subtracting the sum of the squares of the ratios of the values in the same objective variable. For example, in FIG. 8, focus on the analysis target data 106a (=before division) and the record group A (=after division).

不純度算出部102fは、分析対象データ106a(=分割前)における目的変数Y1の不純度を、1-(Y1=1となる割合)-(Y1=2となる割合)=1-(6/10)-(4/10)=0.48と算出する。同様に、不純度算出部102fは、分析対象データ106a(=分割前)における目的変数Y2の不純度を、1-(Y2=1となる割合)-(Y2=2となる割合)-(Y2=3となる割合)-(Y2=4となる割合)=1-(2/10)-(3/10)-(3/10)-(2/10)=0.53と算出する。 The impurity calculation unit 102f calculates the impurity of the objective variable Y1 in the analysis target data 106a (=before division) as 1-(percentage of Y1=1) 2 -(percentage of Y1=2) 2 =1-( 6/10) 2 −(4/10) 2 =0.48. Similarly, the impurity calculation unit 102f calculates the impurity of the objective variable Y2 in the analysis target data 106a (=before division) by 1−(percentage of Y2=1) 2 −(percentage of Y2=2) 2 − (Percentage of Y2 = 3) 2 - (Percentage of Y2 = 4) 2 = 1 - (2/10) 2 - (3/10) 2 - (3/10) 2 - (2/10) 2 = Calculate 0.53.

不純度算出部102fは、レコード群A(=分割後)における目的変数Y1の不純度を、1-(Y1=1となる割合)-(Y1=2となる割合)=1-(1/2)-(1/2)=0.5と算出する。同様に、不純度算出部102fは、レコード群A(=分割後)における目的変数Y2の不純度を、1-(Y2=1となる割合)=1-(2/2)=0と算出する。 The impurity calculation unit 102f calculates the impurity of the objective variable Y1 in the record group A (=after division) as 1−(percentage of Y1=1) 2 −(percentage of Y1=2) 2 =1−(1 /2) 2 - (1/2) 2 = 0.5. Similarly, the impurity calculation unit 102f calculates the impurity of the objective variable Y2 in the record group A (=after division) as 1−(percentage of Y2=1) 2 =1−(2/2) 2 =0. calculate.

以上より、改善量算出部102dは、目的変数Y1についての不純度改善量を、分割前の不純度0.48-分割後の不純度0.5=-0.02と算出する。同様に、改善量算出部102dは、目的変数Y2についての不純度改善量を、分割前の不純度0.53-分割後の不純度0=0.53と算出する。 From the above, the improvement amount calculation unit 102d calculates the impurity improvement amount for the objective variable Y1 as follows: impurity 0.48 before division−impurity 0.5 after division=−0.02. Similarly, the improvement amount calculation unit 102d calculates the impurity improvement amount for the objective variable Y2 as follows: impurity 0.53 before division−impurity 0 after division=0.53.

分析結果出力部102eは、前記分析結果のうち、改善量算出部102dで算出した前記不純度改善量が所定の値以上となった前記目的変数についての前記分割後の前記最頻値および前記割合のみを出力してもよい。例えば、前記所定の値を仮に「0.05」とした場合、分析結果出力部102eは、不純度改善量が-0.02である目的変数Y1についての前記分割後の最頻値である1およびその割合である50%については出力せず、不純度改善量が0.53である目的変数Y2についての前記分割後の最頻値である1およびその割合である100%のみを出力する。このような不純度改善量を考慮した分析結果の表示のイメージを、図12および図14に示す。 Among the analysis results, the analysis result output unit 102e outputs the mode value and the ratio after the division for the objective variable for which the impurity improvement amount calculated by the improvement amount calculation unit 102d is equal to or greater than a predetermined value. can be output only. For example, if the predetermined value is assumed to be "0.05", the analysis result output unit 102e determines the mode value after the division for the objective variable Y1 whose impurity improvement amount is -0.02. and its ratio of 50% are not output, and only the mode of 1 after division and its ratio of 100% for the target variable Y2 whose impurity improvement amount is 0.53 are output. 12 and 14 show images of the display of analysis results in consideration of such an impurity improvement amount.

[1-2.社員情報の登録および変更についての動作]
登録候補パターン表示部102gは、前記身分項目および前記身分項目値に基づいて階層的に分岐させた枝のうち選択された枝(具体的には、図24および図34のパターン登録画面における画面左側の「条件分岐」の枝)で特定される前記社員の集合について、同一の前記給与項目内において占める割合が最も大きい前記給与項目値を、当該最も大きい割合と併せて、前記パターンの前記登録を行うための画面であるパターン登録画面(具体的には、図24のMA4および図34のMF4で示す領域)に表示する。この際、登録候補パターン表示部102gは、前記最も大きい割合が所定の閾値以上である場合は、前記閾値以上の割合の前記給与項目値を、登録の候補として識別可能な態様で(具体的には、斜線およびドットのハッチングで)、前記閾値以上の割合と併せて、前記パターン登録画面(具体的には、図24のMA4および図34のMF4で示す領域)に表示する。
[1-2. Operations for registering and changing employee information]
The registration candidate pattern display unit 102g displays a branch selected from branches hierarchically branched based on the identification item and the identification item value (specifically, the left side of the pattern registration screen in FIGS. 24 and 34). "Conditional branch" branch of )), the salary item value that accounts for the largest percentage in the same salary item, together with the largest percentage, the registration of the pattern 24 and MF4 in FIG. 34). At this time, if the largest ratio is equal to or higher than a predetermined threshold, the registration candidate pattern display unit 102g displays the salary item values with a ratio equal to or higher than the threshold in a manner that can be identified as candidates for registration (specifically are hatched with oblique lines and dots) are displayed on the pattern registration screen (specifically, the area indicated by MA4 in FIG. 24 and MF4 in FIG. 34) together with the ratio of the threshold value or more.

登録候補パターン表示部102gは、前記閾値以上の割合が属する数値範囲に応じて、異なる前記態様で(具体的には、割合が100%に属する給与項目値は斜線のハッチングで、割合が90%以上100%未満に属する給与項目値はドットのハッチングで)、前記閾値以上の割合の前記給与項目値を表示してもよい。 The registration candidate pattern display unit 102g displays different values according to the numerical range to which the ratio equal to or higher than the threshold belongs (specifically, the salary item values belonging to the ratio of 100% are hatched with diagonal lines, and the ratio is 90%). Salary item values belonging to more than or equal to less than 100% are hatched with dots), and the salary item values of the percentage equal to or greater than the threshold value may be displayed.

登録候補パターン表示部102gは、前記表示した前記給与項目値のうち前記登録の候補として最終的に表示するものを調整するためのボタンである調整ボタン(具体的には、図24のMA2および図34のMF2に示す「項目別調整」ボタン)が前記パターン登録画面(図24および図34参照)において選択されると、前記表示した前記給与項目値に対応するチェックボックスを表示し、チェックが入れられた前記チェックボックスに対応する前記給与項目値を、前記登録の最終的な候補として識別可能な態様で前記パターン登録画面(具体的には、図24のMA3および図34のMF3で示す「選択結果」の領域)に表示してもよい。 The registration candidate pattern display unit 102g includes an adjustment button (specifically, MA2 in FIG. 24 and a When the "adjustment by item" button shown in MF2 of 34) is selected on the pattern registration screen (see FIGS. 24 and 34), a check box corresponding to the displayed salary item value is displayed and checked. The salary item values corresponding to the checked check boxes are displayed on the pattern registration screen (specifically, the "Select results" area).

パターン登録部102hは、前記選択された枝についての前記身分項目および前記身分項目値ならびに登録候補パターン表示部102gが前記識別可能な前記態様で表示した前記給与項目値およびこれに対応する前記給与項目から構成される前記パターン(具体的には、図24にMA3で示すパターン1および図34にMF3で示すパターン2)と、当該パターンを定義するためのパターン定義データであってオペレータにより設定されたもの(具体的には、図25にMAB1で示す前記パターン1に対応する定義名「男性一般社員(販売登録者)」および図35にMG1で示す前記パターン2に対応する定義名「女性アルバイト社員(販売登録者)」)と、を紐付けて定義マスタ106bに登録する。 The pattern registration unit 102h stores the identification item and the identification item value for the selected branch, the salary item value displayed in the identifiable manner by the registration candidate pattern display unit 102g, and the salary item corresponding thereto. (specifically, pattern 1 indicated by MA3 in FIG. 24 and pattern 2 indicated by MF3 in FIG. 34), and pattern definition data for defining the pattern, which is set by the operator (Specifically, the definition name corresponding to pattern 1 shown by MAB1 in FIG. (sales registrant)”) are linked and registered in the definition master 106b.

登録候補項目表示部102iは、定義マスタ106bから、前記社員単位で前記身分項目値および前記給与項目値の新規登録または変更を行うための画面である社員情報登録・変更画面(図27等参照)において指定されたパターン定義データと紐付く前記パターンについての前記項目および前記値を取得し、当該取得した項目についての当該値を、前記新規登録の候補として前記社員情報登録・変更画面に表示する(具体的には、図28におけるME2の領域の表示を指す)。 The registration candidate item display unit 102i displays an employee information registration/change screen (see FIG. 27, etc.) which is a screen for newly registering or changing the status item value and the salary item value for each employee from the definition master 106b. acquires the item and the value for the pattern associated with the pattern definition data specified in , and displays the value for the acquired item on the employee information registration/change screen as a candidate for new registration ( Specifically, it refers to the display of the area of ME2 in FIG. 28).

パターン定義表示部102jは、前記社員情報登録・変更画面(図37等参照)において特定の前記身分項目についての前記身分項目値が変更されると、定義マスタ106bから、変更の対象となった前記身分項目および変更後の前記身分項目値と紐付くパターン定義データを取得し、当該取得したパターン定義データを表示する(具体的には、図38の上画面における定義名の表示を指す)。パターン定義表示部102jは、前記取得したパターン定義データと併せて、これと紐付く定義マスタ106b中の前記パターンについての前記身分項目および前記身分項目値を表示してもよい(具体的には、図38の上画面における条件項目の表示を指す)。 When the identification item value for a specific identification item is changed on the employee information registration/change screen (see FIG. 37, etc.), the pattern definition display unit 102j displays the above-mentioned The pattern definition data associated with the identity item and the changed identity item value are acquired, and the acquired pattern definition data is displayed (specifically, the display of the definition name on the upper screen of FIG. 38). The pattern definition display unit 102j may display the identification item and the identification item value for the pattern in the definition master 106b associated with the acquired pattern definition data (specifically, This refers to the display of condition items on the upper screen of FIG. 38).

変更候補項目表示部102kは、定義マスタ106bから、パターン定義表示部102jが表示した前記パターン定義データのうち指定されたものと紐付く前記パターンについての前記項目および前記値を取得し、当該取得した項目についての当該値を、前記変更の候補として前記社員情報登録・変更画面に表示する(具体的には、図39におけるMK1の領域の表示を指す)。 The change candidate item display unit 102k acquires from the definition master 106b the item and the value for the pattern associated with the specified one of the pattern definition data displayed by the pattern definition display unit 102j, and The value of the item is displayed as a candidate for change on the employee information registration/change screen (specifically, it refers to the display of the area of MK1 in FIG. 39).

[2.背景と概要]
本項目では、決定木の作成、社員情報の登録および社員情報の変更のそれぞれについて、背景と概要を説明する。
[2. Background and Overview]
In this section, we will explain the background and outline of creating a decision tree, registering employee information, and changing employee information.

[2-1.決定木の作成の背景と概要]
従来の決定木アルゴリズムにおいては、目的変数として一つの値のみを取り扱っていた。複数の値を同時に予測するためには、それぞれに分析を行う必要があるが、その場合、条件値と目的変数の組み合わせが膨大になり、利用者が分析結果を理解しにくいという問題があった。また、条件の分岐が深くなると、どの条件が結果に影響を与えているのかの理解が難しくなるという問題もあった。
[2-1. Background and overview of decision tree creation]
Conventional decision tree algorithms deal with only one value as an objective variable. In order to predict multiple values at the same time, it is necessary to analyze each of them, but in that case, the combination of conditional values and objective variables becomes enormous, and the problem is that it is difficult for users to understand the analysis results. . In addition, there is also a problem that it becomes difficult to understand which condition affects the result as the branching of conditions becomes deeper.

そこで、本実施形態においては、例えば、複数の目的変数を同時に取り扱えるようにすることで、簡潔な条件値と目的変数の値の組を利用者に示すことを可能とした。また、本実施形態においては、例えば、分岐ごとにその条件が目的変数の決定に役に立っているかをスコア化することで、条件と目的変数との間にあるルールをより簡潔に理解することを可能とし、分析を専門としないシステムのユーザであっても、分析結果の活用をできるようにした。 Therefore, in the present embodiment, for example, a plurality of objective variables can be handled simultaneously, thereby making it possible to present a user with a concise set of condition values and objective variable values. In addition, in this embodiment, for example, by scoring whether the condition is useful for determining the objective variable for each branch, it is possible to understand the rules between the condition and the objective variable more simply. As a result, even system users who do not specialize in analysis can utilize the analysis results.

そして、本実施形態においては、例えば、条件となりうる複数の値と、それによって決まると考えられる複数の値の間にあるルールを見つけだすために、業務システムのデータにおいて、大量のデータがある中でどのようなルールでそのデータが入力されているのかを分析することで、少数の項目をもとに他の設定値を予測できるようし、以降の入力ミスの削減や入力時の効率をあげるといった活用を可能とした。入力値としては、例えば、区分値のような離散的な値を想定する。なお、決定木アルゴリズムとしては、CARTやC4.5等が公知であるが、本実施形態においては、これら公知の決定木アルゴリズムを改良することで、業務システムのような離散値項目を数多く持つようなデータへの適用を可能とし、分析結果の理解をより容易にした。 Then, in this embodiment, for example, in order to find a rule between a plurality of values that can be a condition and a plurality of values that are considered to be determined by the conditions, in the data of the business system, there is a large amount of data. By analyzing the rules under which the data is entered, it is possible to predict other setting values based on a small number of items, reduce subsequent input errors, and improve input efficiency. enabled utilization. As input values, for example, discrete values such as segmented values are assumed. As a decision tree algorithm, CART, C4.5, etc. are known, but in this embodiment, by improving these known decision tree algorithms, it is possible to have many discrete value items like a business system. This makes it possible to apply the analysis to various data, making it easier to understand the analysis results.

[2-2.社員情報の登録の背景と概要]
会社ごとに給与規定は異なるため、給与計算を行うために管理している「社員の情報」の項目とその内容は会社によってさまざまである。ここで、会社の給与規定に則った計算を行うためには、給与規定や契約書をもとに「社員の情報」をシステム上で設定する必要があるが、契約書に表記している内容から給与規定に記載してある内容を紐づけ、システムに登録すべき項目とその内容をすべて網羅して把握することは困難であり、登録漏れ・登録ミスが発生していた。結果として、誤支給が発生してしまうケースがあった。また、登録が必要なシステムの項目数は多く、同時期に多くの入社者がいる場合は、作業量が膨大であった。
[2-2. Background and overview of employee information registration]
Since each company has different salary regulations, the items and contents of "employee information" managed for payroll calculation vary from company to company. Here, in order to perform calculations in accordance with the company's salary regulations, it is necessary to set "employee information" on the system based on the salary regulations and contracts, but the contents written in the contract However, it was difficult to fully understand all the items and their contents that should be registered in the system by linking the contents described in the salary regulations from the beginning, and registration omissions and registration errors occurred. As a result, there were cases where erroneous payment occurred. In addition, the number of system items that need to be registered is large, and when there are many new employees joining the company at the same time, the amount of work is enormous.

そこで、本実施形態においては、例えば、「社員の情報」の登録を行う際に、既存の大量データの分析を行い、同時に入力すべき項目とその内容を提案できるような仕組みを提供することにより、例えば、作業の効率化および誤支給の未然防止を実現する。具体的には、本実施形態においては、社員を登録する際に、同時に登録すべき項目を知りたいという課題を解決するために、他の社員の情報を分析し、関連度の高い項目を確認できることで、同時に登録すべき項目を把握することができる仕組みを構築した。また、本実施形態においては、同じような社員を登録する際の入力作業を容易に行いたいという課題を解決するために、他の社員の情報を分析し、関連度の高い項目とその内容を候補から選択することで、登録を容易にできる仕組みを構築した。 Therefore, in this embodiment, for example, when registering "employee information", a large amount of existing data is analyzed, and at the same time, by providing a mechanism that can propose items to be input and their contents. , for example, to improve work efficiency and prevent erroneous payment. Specifically, in this embodiment, in order to solve the problem of wanting to know which items should be registered at the same time when an employee is registered, the information of other employees is analyzed and highly related items are confirmed. By doing so, we built a mechanism that allows us to grasp the items that should be registered at the same time. In addition, in this embodiment, in order to solve the problem of facilitating the input work when registering similar employees, the information of other employees is analyzed, and highly related items and their contents are identified. By selecting from the candidates, we built a mechanism that facilitates registration.

以下、本項目[2-2]では、社員情報の登録の際の課題および背景について詳細に説明する。 Below, in this item [2-2], the problems and background when registering employee information will be described in detail.

まず、図15および図16に示すように、社員の入社時には、給与規定および雇用契約書の内容をシステムに入力するが、この際に、本来システムに入力することが必要な項目であるにも関わらず入力漏れが生じてしまうことがある。例えば、雇用契約書には記載がない項目、複雑な条件で入力の有無が決まる項目および会社独自のルールで設定が必要な項目等は、入力漏れや入力ミスが生じやすい。 First, as shown in FIGS. 15 and 16, when an employee joins the company, the contents of salary regulations and employment contract are entered into the system. Regardless, input leaks may occur. For example, items that are not written in the employment contract, items whose input is determined by complicated conditions, and items that need to be set according to the company's own rules are prone to input omissions and input errors.

図16には、給与規定(通常は分厚い紙面等であることが多い)を参照しないとわからない情報として、等級の情報および調整給手当(2010年以降に中途入社した社員のみ月額2万円支給)の情報が例示されている。システムの入力担当者は、給与規定における調整給手当の情報を参照しつつ、調整支給区分を「1:対象(20,000円が支給されることを意味する区分)」としてシステム入力する必要がある。 Figure 16 shows grade information and adjustment salary allowance (20,000 yen per month for employees who joined the company mid-career after 2010) as information that cannot be understood without referring to the salary regulations (usually thick sheets of paper, etc.). of information is exemplified. The person in charge of inputting the system needs to refer to the information on the adjustment salary allowance in the salary regulations and enter the adjustment payment category as "1: Target (a category that means that 20,000 yen will be paid)".

しかしながら、システムの入力担当者は、多数の新入社員についてシステム入力を行う必要があるため、入力漏れや入力ミスが生じやすいという問題があった。例えば、図17に示すように、50人の新入社員の各々に対して50項目をシステム入力する場合、合計で50人×50項目=2500項目という膨大な項目数を入力する必要がある。 However, since the person in charge of inputting the system needs to input data into the system for many new employees, there is a problem that input omissions and input errors are likely to occur. For example, as shown in FIG. 17, when 50 items are entered into the system for each of 50 new employees, a total of 50 people×50 items=2500 items must be entered.

このような事情により、入力漏れや入力ミスが生じてしまうと、給与の誤支給に繋がる可能性がある。例えば、図18に示すように、調整支給区分「1:対象」の入力漏れが生じると、結果として、本来は調整給手当2万円の支給対象だった者に対して、当該手当が支給されないこととなってしまい、誤支給に繋がるという問題があった。 Due to such circumstances, if an input omission or an input error occurs, there is a possibility that it will lead to incorrect payment of salary. For example, as shown in Figure 18, if there is an omission in the input of the adjustment payment category "1: Eligible", as a result, the adjustment salary allowance of 20,000 yen will not be paid to those who were originally eligible for payment. As a result, there was a problem of erroneous payment.

[2-3.社員情報の変更の背景と概要]
会社の給与規定に則った計算を行うためには、「社員の情報」をシステム上で設定する必要があるが、会社ごとに給与規定が異なるため、給与計算を行うために管理している「社員の情報」の項目とその内容は会社によってさまざまである。ここで、給与計算には、「社員の情報」の複数の項目が複雑に関係するため、1つの項目を変更する際に、同時に多くの項目を変更する必要が生じることが多い。しかし、「社員の情報」の変更が必要になる際の資料には、システム上で変更が必要な項目についての記載はないことが一般的である。そのため、1つの項目を変更する際に、同時に変更する必要がある項目を調べるためには、他の社員の登録情報と見比べて判断しており、作業が効率的でなかった。また、変更が必要な項目を全て捉えられず、変更漏れが発生することにより、結果として、誤支給が発生してしまうケースがあった。
[2-3. Background and overview of changes in employee information]
In order to calculate according to the company's salary regulations, it is necessary to set "employee information" on the system, but since the salary regulations differ for each company, it is necessary to manage " The items and contents of “employee information” vary from company to company. Here, since multiple items of "employee information" are complicatedly related to payroll calculation, it is often necessary to change many items at the same time when changing one item. However, in general, there is no description of the items that need to be changed on the system in the materials when it is necessary to change the "employee information". Therefore, when changing one item, in order to check the items that need to be changed at the same time, it is necessary to make a judgment by comparing the registered information of other employees, and the work was not efficient. In addition, there have been cases where erroneous payments have occurred as a result of failure to capture all the items that need to be changed and omissions of changes.

そこで、本実施形態においては、例えば、「社員の情報」の変更を行う際に、既存の大量データの分析を行い、同時に変更すべき項目とその内容を提案できるような仕組みを提供するこれにより、例えば、作業の効率化および誤支給の未然防止を実現する。具体的には、本実施形態においては、社員情報の項目を変更する際に、他に変更すべき項目がないか知り、変更漏れを防ぎたいという課題を解決するために、他の社員の情報を分析し、変更内容に関連度の高い項目を確認できることで、他に変更すべき項目を把握することができる仕組みを構築した。また、本実施形態においては、社員情報の項目を変更する際に、他の必要な項目変更についての登録を容易に行いたいという課題を解決するために、他の社員の情報を分析し、変更内容に関連度の高い項目とその内容を候補から選択することで、登録を容易にできる仕組みを構築した。 Therefore, in this embodiment, for example, when changing "employee information", a large amount of existing data is analyzed, and at the same time, a mechanism is provided that can propose items to be changed and their contents. , for example, to improve work efficiency and prevent erroneous payment. Specifically, in this embodiment, in order to solve the problem of wanting to know if there are other items to be changed when changing an item of employee information and to prevent omission of change, information of other employees is added. By analyzing this and confirming the items that are highly related to the content of the changes, we built a system that allows us to grasp other items that should be changed. In addition, in this embodiment, in order to solve the problem of wanting to easily register other necessary item changes when changing employee information items, information of other employees is analyzed and changed. We built a system that facilitates registration by selecting items with a high degree of relevance to the content and their content from candidates.

以下、本項目[2-3]では、社員情報の変更の際の課題および背景について詳細に説明する。 Below, in this item [2-3], the issues and background when changing employee information will be described in detail.

まず、図29に示すように、社員の入社時やシステム導入時には、給与規定や雇用契約書をもとに、社員の情報の設定を行う。ここで、図30に示すように、社員についての情報の変更がある場合、人事部長等から給与の支払を担当する者に対して、昇格対象者リスト、所属異動対象者リスト、退職後再雇用対象者リスト、アルバイトから正規雇用への変更対象リストおよび育休・産休対象者リスト等が送られる。ここで、これらのリストからは、変更の対象がどの社員であるかという情報しかわからず、すなわち例えば昇格対象者リストを例にとった場合、課長代理から課長への昇格対象者が、社員A、社員Eおよび社員Fの3人であるという情報しかわからない。このため、当該3人の社員について、「職種」の項目を一般職から管理職に変更する必要が本来あるとしても、この情報はわからない。 First, as shown in FIG. 29, when an employee joins the company or introduces the system, the employee information is set based on the salary regulations and the employment contract. Here, as shown in FIG. 30, when there is a change in information about an employee, the person in charge of payment of salaries, such as the personnel manager, sends a list of persons eligible for promotion, a list of persons eligible for affiliation transfer, and a list of persons eligible for re-employment after retirement. A list of eligible employees, a list of those eligible for change from part-time to regular employment, and a list of eligible employees for childcare/maternity leave, etc. will be sent. Here, from these lists, we can only know which employee is the target of the change. , employee E and employee F. For this reason, even if there is a need to change the "occupation" item of the three employees from general staff to managerial staff, this information is unknown.

そして、仮に図31に示すように、「職種」が管理職である場合には管理職手当50,000円を支給し、「職種」が管理職以外である場合には管理職手当を支給しないという規定が存在する場合に、システム上で前記3人の社員の「職種」を一般職から管理職へと変更するのを忘れてしまうと、図32に示すように、本来は管理職手当の支給対象だった者(社員A、社員Eおよび社員F)に対して、当該手当が支給されないこととなってしまい、誤支給に繋がるという問題があった。 Then, as shown in Fig. 31, if the "type" is a managerial position, a managerial allowance of 50,000 yen will be paid, and if the "type" is other than a managerial position, the managerial allowance will not be paid. If you forget to change the "type" of the above three employees from general staff to managerial staff on the system, as shown in Fig. 32, they are originally eligible for the management allowance. There was a problem that the allowance would not be paid to those (employee A, employee E, and employee F) who were previously paid, leading to erroneous payment.

[3.処理の詳細]
本項目では、本実施形態に係る処理の具体例を説明する。決定木の作成処理、社員情報の登録処理および社員情報の変更処理の順に説明する。
[3. Details of processing]
In this section, a specific example of processing according to this embodiment will be described. The process of creating a decision tree, the process of registering employee information, and the process of changing employee information will be described in this order.

[3-1.決定木の作成処理]
最初に、決定木の作成処理を、図2~図14を用いて詳細に説明する。なお、本実施形態における決定木アルゴリズムにおいては、以下の(6)において分割ごとの改善量の計算を行い、当該計算の結果を、以下の(7)においてユーザにとってわかりやすい結果表示のために用いていることが特徴の一つである。
[3-1. Decision tree creation process]
First, decision tree creation processing will be described in detail with reference to FIGS. 2 to 14. FIG. In the decision tree algorithm of the present embodiment, the improvement amount for each division is calculated in (6) below, and the result of the calculation is used in (7) below to display results that are easy for the user to understand. One of the characteristics is that there is

(0)分析対象となるデータ
前提として、分析対象(=分割対象)となるデータである分析対象データ106aは、図2に示すとおりであるとする。図2の分析対象データ106aにおいて、X1、X2およびX3は、説明変数であり、Y1およびY2は、目的変数である。前記説明変数および前記目的変数は、質的変数とする。以下においては、前記説明変数の値によって、前記目的変数の値が決定される何かしらのルールがあると推測するものとする。
(0) Data to be analyzed As a premise, it is assumed that the analysis target data 106a, which is data to be analyzed (=divided), is as shown in FIG. In the analysis target data 106a of FIG. 2, X1, X2 and X3 are explanatory variables, and Y1 and Y2 are objective variables. The explanatory variable and the objective variable are qualitative variables. In the following, it is assumed that there is some rule by which the value of the objective variable is determined by the value of the explanatory variable.

(1)現状の不純度を計算する
まず、不純度算出部102fは、データのばらつき具合を表す指標として、不純度を以下のようにして算出する。不純度の計算には、例えば、一般的な決定木アルゴリズムで用いられる情報エントロピーやジニー係数(Gini係数)等を用いることができる。
(1) Calculating Current Impurity First, the impurity calculation unit 102f calculates the impurity as an index representing the extent of data variation as follows. For impurity calculation, for example, information entropy, Gini coefficient, etc. used in a general decision tree algorithm can be used.

例えば、図2の分析対象データ106a中のY1の不純度を、ジニー係数(Gini係数)を用いて計算すると、以下のようになる。ジニー係数は、図3に示すように、1-(Y1=1となる割合)-(Y1=2となる割合)という計算式で表される。図2を参照すると、Y1=1となる割合は6/10であり、Y1=2となる割合は、4/10であるため、不純度算出部102fは、ジニー係数を、1-(6/10)-(4/10)=0.48と算出する。以上より、不純度算出部102fは、Y1についての分割前の不純度を0.48と算出する。また、不純度算出部102fは、同様の計算により、Y2についての分割前の不純度を0.53と算出する。 For example, if the impurity of Y1 in the analysis object data 106a of FIG. 2 is calculated using the Gini coefficient, the result is as follows. As shown in FIG. 3, the Genie coefficient is represented by a formula of 1-(percentage of Y1=1) 2 -(percentage of Y1=2) 2 . Referring to FIG. 2, the ratio of Y1=1 is 6/10, and the ratio of Y1=2 is 4/10. 10) Calculate 2 - (4/10) 2 = 0.48. From the above, the impurity calculation unit 102f calculates the impurity before division for Y1 as 0.48. Further, the impurity calculation unit 102f calculates the impurity of Y2 before division as 0.53 by the same calculation.

(2)各条件項目について、分割したときの不純度の改善量を計算する
次に、不純度算出部102fは、X1~X3のそれぞれについて、その値で分割した場合の不純度の改善量を算出する。
(2) For each condition item, calculate the amount of improvement in impurity when divided calculate.

(2-1)X1で分割する場合
X1を基準として分割する場合、レコード分割部102aは、図4に示すように、図2の分析対象データ106a中の10個のレコードを、X1=1を有する5個のレコード(id=a、b、c、d、e)からなるレコード群(X1=1のデータ)と、X1=2を有する5個のレコード(id=f、g、h、i、j)からなるレコード群(X1=2のデータ)と、に分割する。
(2-1) When dividing by X1 When dividing by X1, the record dividing unit 102a, as shown in FIG. A record group (X1=1 data) consisting of five records (id=a, b, c, d, e) having X1=2 and five records having X1=2 (id=f, g, h, i , j) (X1=2 data).

ここで、不純度算出部102fは、前記(1)で説明した計算法により、図4に示すように、X1=1のデータにおけるY1の不純度を0.48と算出し、X1=1のデータにおけるY2の不純度を0.48と算出し、X1=2のデータにおけるY1の不純度を0.48と算出し、X1=2のデータにおけるY2の不純度を0.48と算出する。 Here, the impurity calculation unit 102f calculates the impurity of Y1 in the data of X1=1 as 0.48 as shown in FIG. The Y2 impurity in the data is calculated as 0.48, the Y1 impurity in the X1=2 data is calculated as 0.48, and the Y2 impurity in the X1=2 data is calculated as 0.48.

そして、不純度算出部102fは、前段落で算出したY1の不純度の加重平均をとり、Y1についての分割後の不純度を0.48と算出する。同様に、不純度算出部102fは、前段落で算出したY2の不純度の加重平均をとり、Y2についての分割後の不純度を0.48と算出する。 Then, the impurity calculation unit 102f takes a weighted average of the impurities of Y1 calculated in the previous paragraph, and calculates the impurity after division for Y1 as 0.48. Similarly, the impurity calculation unit 102f takes the weighted average of the impurities of Y2 calculated in the previous paragraph, and calculates the impurity after division for Y2 as 0.48.

最後に、改善量算出部102dは、Y1についての分割前の不純度(0.48)からY1についての分割後の不純度(0.48)を差し引くことにより、Y1についての不純度の改善量を0と算出する。同様に、改善量算出部102dは、Y2についての分割前の不純度(0.53)からY2についての分割後の不純度(0.48)を差し引くことにより、Y2についての不純度の改善量を0.05と算出する。そして、改善量算出部102dは、Y1についての不純度の改善量(0)とY2についての不純度の改善量(0.05)とを足すことにより、不純度の改善量の合計を0.05と算出する。 Finally, the improvement amount calculation unit 102d subtracts the impurity after the division of Y1 (0.48) from the impurity before the division of Y1 (0.48) to obtain the improvement amount of the impurity of Y1. is calculated as 0. Similarly, the improvement amount calculation unit 102d subtracts the impurity after the division of Y2 (0.48) from the impurity before the division of Y2 (0.53) to obtain the improvement amount of the impurity of Y2. is calculated as 0.05. Then, the improvement amount calculation unit 102d adds the impurity improvement amount (0) for Y1 and the impurity improvement amount (0.05) for Y2, so that the total impurity improvement amount is 0.05. 05.

(2-2)X2で分割する場合
X2を基準として分割する場合、レコード分割部102aは、図5に示すように、図2の分析対象データ106a中の10個のレコードを、X2=1を有する4個のレコード(id=a、c、d、h)からなるレコード群(X2=1のデータ)と、X2=2を有する6個のレコード(id=b、e、f、g、i、j)からなるレコード群(X2=2のデータ)と、に分割する。
(2-2) When dividing by X2 When dividing by X2, as shown in FIG. A record group (data of X2=1) consisting of four records (id=a, c, d, h) having X2=2 and six records having X2=2 (id=b, e, f, g, i , j) (X2=2 data).

ここで、不純度算出部102fは、前記(1)で説明した計算法により、図5に示すように、X2=1のデータにおけるY1の不純度を0と算出し、X2=1のデータにおけるY2の不純度を0.625と算出し、X2=2のデータにおけるY1の不純度を0.4444と算出し、X2=2のデータにおけるY2の不純度を0.7222と算出する。 Here, the impurity calculation unit 102f calculates the impurity of Y1 in the data of X2=1 as 0 as shown in FIG. 5 by the calculation method described in (1) above, and The impurity of Y2 is calculated as 0.625, the impurity of Y1 in the data of X2=2 is calculated as 0.4444, and the impurity of Y2 in the data of X2=2 is calculated as 0.7222.

そして、不純度算出部102fは、前段落で算出した不純度について、加重平均を、例えば、件数で重みづけした以下の計算式により算出する。すなわち、加重平均={(X2=1のデータの不純度)×(X2=1のデータ中のレコード件数)/(分割前のデータ中のレコード件数)}+{(X2=2のデータの不純度)×(X2=2のデータ中のレコード件数)/(分割前のデータ中のレコード件数)}である。この計算式に従い、不純度算出部102fは、Y1についての分割後の不純度を、(0×4/10)+(0.4444×6/10)≒0.2667と算出する。同様に、不純度算出部102fは、Y2についての分割後の不純度を、(0.625×4/10)+(0.7222×6/10)≒0.6833と算出する。 Then, the impurity calculation unit 102f calculates a weighted average of the impurities calculated in the previous paragraph, for example, using the following calculation formula weighted by the number of cases. That is, weighted average={(impurity of data of X2=1)×(number of records in data of X2=1)/(number of records in data before division)}+{(impurity of data of X2=2) purity)×(the number of records in the data of X2=2)/(the number of records in the data before division)}. According to this formula, the impurity calculation unit 102f calculates the impurity after division for Y1 as (0×4/10)+(0.4444×6/10)≈0.2667. Similarly, the impurity calculation unit 102f calculates the impurity after division for Y2 as (0.625×4/10)+(0.7222×6/10)≈0.6833.

最後に、改善量算出部102dは、Y1についての分割前の不純度(0.48)からY1についての分割後の不純度(0.2667)を差し引くことにより、Y1についての不純度の改善量を0.2133と算出する。同様に、改善量算出部102dは、Y2についての分割前の不純度(0.53)からY2についての分割後の不純度(0.6833)を差し引くことにより、Y2についての不純度の改善量を-0.153と算出する。そして、改善量算出部102dは、Y1についての不純度の改善量(0.2133)とY2についての不純度の改善量(-0.153)とを足すことにより、不純度の改善量の合計を0.06と算出する。 Finally, the improvement amount calculation unit 102d subtracts the impurity after the division of Y1 (0.2667) from the impurity before the division of Y1 (0.48) to obtain the improvement amount of the impurity of Y1. is calculated as 0.2133. Similarly, the improvement amount calculation unit 102d subtracts the impurity after the division of Y2 (0.6833) from the impurity before the division of Y2 (0.53) to obtain the improvement amount of the impurity of Y2. is calculated as -0.153. Then, the improvement amount calculation unit 102d adds the impurity improvement amount (0.2133) for Y1 and the impurity improvement amount (−0.153) for Y2, so that the total impurity improvement amount is is calculated as 0.06.

(2-3)X3で分割する場合
X3を基準として分割する場合、レコード分割部102aは、図6に示すように、図2の分析対象データ106a中の10個のレコードを、X3=1を有する2個のレコード(id=a、b)からなるレコード群(X3=1のデータ)と、X3=2を有する6個のレコード(id=c、d、e、f、g、h)からなるレコード群(X3=2のデータ)と、X3=3を有する2個のレコード(id=i、j)からなるレコード群(X3=3のデータ)と、に分割する。
(2-3) When dividing by X3 When dividing by X3, the record dividing unit 102a divides 10 records in the analysis target data 106a of FIG. From a record group (data of X3=1) consisting of two records (id=a, b) having X3=2 and six records (id=c, d, e, f, g, h) having X3=2 and a record group (data of X3=3) consisting of two records (id=i, j) having X3=3.

ここで、不純度算出部102fは、前記(1)で説明した計算法により、図6に示すように、X3=1のデータにおけるY1の不純度を0.5と算出し、X3=1のデータにおけるY2の不純度を0と算出し、X3=2のデータにおけるY1の不純度を0.5と算出し、X3=2のデータにおけるY2の不純度を0.5と算出し、X3=3のデータにおけるY1の不純度を0と算出し、X3=3のデータにおけるY2の不純度を0と算出する。 Here, the impurity calculation unit 102f calculates the impurity of Y1 in the data of X3=1 as 0.5 as shown in FIG. The impurity of Y2 in the data is calculated as 0, the impurity of Y1 in the data of X3 = 2 is calculated as 0.5, the impurity of Y2 in the data of X3 = 2 is calculated as 0.5, and X3 = The impurity of Y1 in the data of 3 is calculated as 0, and the impurity of Y2 in the data of X3=3 is calculated as 0.

そして、不純度算出部102fは、前段落で算出した不純度について、(2-2)で説明した計算式により加重平均を算出する。すなわち、不純度算出部102fは、Y1についての分割後の不純度を、(0.5×2/10)+(0.5×6/10)+(0×2/10)=0.4と算出する。同様に、不純度算出部102fは、Y2についての分割後の不純度を、(0×2/10)+(0.5×6/10)+(0×2/10)=0.3と算出する。 Then, the impurity calculation unit 102f calculates a weighted average of the impurities calculated in the previous paragraph using the calculation formula described in (2-2). That is, the impurity calculation unit 102f calculates the impurity after division for Y1 as (0.5×2/10)+(0.5×6/10)+(0×2/10)=0.4 to calculate. Similarly, the impurity calculation unit 102f calculates the impurity after division for Y2 as (0×2/10)+(0.5×6/10)+(0×2/10)=0.3. calculate.

最後に、改善量算出部102dは、Y1についての分割前の不純度(0.48)からY1についての分割後の不純度(0.4)を差し引くことにより、Y1についての不純度の改善量を0.08と算出する。同様に、改善量算出部102dは、Y2についての分割前の不純度(0.53)からY2についての分割後の不純度(0.3)を差し引くことにより、Y2についての不純度の改善量を0.23と算出する。そして、改善量算出部102dは、Y1についての不純度の改善量(0.08)とY2についての不純度の改善量(0.23)とを足すことにより、不純度の改善量の合計を0.31と算出する。 Finally, the improvement amount calculation unit 102d subtracts the impurity after the division of Y1 (0.4) from the impurity before the division of Y1 (0.48) to obtain the improvement amount of the impurity of Y1. is calculated as 0.08. Similarly, the improvement amount calculation unit 102d subtracts the impurity after the division of Y2 (0.3) from the impurity before the division of Y2 (0.53) to obtain the improvement amount of the impurity of Y2. is calculated as 0.23. Then, the improvement amount calculation unit 102d calculates the total impurity improvement amount by adding the impurity improvement amount (0.08) for Y1 and the impurity improvement amount (0.23) for Y2. It is calculated as 0.31.

(2-4)まとめ
以上(2-1)~(2-3)で算出したように、Y1の不純度の改善量とY2の不純度の改善量の合計は、X1を基準として分割した場合は0.05、X2を基準として分割した場合は0.06、X3を基準として分割した場合は0.31となったため、X3を基準として分割した場合に最も不純度が改善する(すなわち、情報利得が大きい)ことがわかった。
(2-4) Summary As calculated in (2-1) to (2-3) above, the sum of the Y1 impurity improvement amount and the Y2 impurity improvement amount is divided based on X1. was 0.05, 0.06 when divided based on X2, and 0.31 when divided based on X3. It was found that the gain is large).

なお、本例においては、目的変数(Y1およびY2)の不純度の改善量の「合計」に着目して、説明変数(X1、X2およびX3)のうちX3を採用したが、例えば、各目的変数(Y1およびY2)の改善量の「最大値」に着目して、説明変数(X1、X2およびX3)のうちどれを採用するかを決定してもよい。本例だと、X1で分割した場合のY1についての不純度の改善量0、X1で分割した場合のY2についての不純度の改善量0.05、X2で分割した場合のY1についての不純度の改善量0.2133、X2で分割した場合のY2についての不純度の改善量-0.153、X3で分割した場合のY1についての不純度の改善量0.08およびX3で分割した場合のY2についての不純度の改善量0.23の6つの改善量のうち、X3で分割した場合のY2についての不純度の改善量0.23が「最大値」に該当するため、X3が採用されることとなる。このように、「最大値」に着目することで、その条件(説明変数)が、特定の目的項目列(特定の目的変数)についてのみいい分割(不純度が改善する分割)を出来るようにするものであったとしても、採用されやすくすることができる。 In this example, focusing on the "total" of the impurity improvement amount of the objective variables (Y1 and Y2), X3 was adopted among the explanatory variables (X1, X2 and X3). Focusing on the "maximum value" of the improvement amount of the variables (Y1 and Y2), it may be determined which of the explanatory variables (X1, X2 and X3) to adopt. In this example, the impurity improvement amount for Y1 when divided by X1 is 0, the impurity improvement amount for Y2 when divided by X1 is 0.05, and the impurity for Y1 when divided by X2 Improvement amount of 0.2133, improvement amount of impurity for Y2 when divided by X2 -0.153, improvement amount of impurity for Y1 when divided by X3 0.08 and when divided by X3 Of the six improvement amounts of the impurity improvement amount of 0.23 for Y2, the impurity improvement amount of 0.23 for Y2 when divided by X3 corresponds to the "maximum value", so X3 is adopted. The Rukoto. In this way, by focusing on the "maximum value", the condition (explanatory variable) makes it possible to perform a good split (split that improves impurity) only for a specific objective item sequence (specific objective variable). Even if it is a thing, it can be made easier to be adopted.

(3)最も情報利得の大きい条件項目で、その値ごとにデータを分割する
次に、レコード分割部102aは、(2-4)で述べた最も情報利得の大きい条件項目(目的変数)であるX3を基準として、X3がとる値ごとに、図2の分析対象データ106a中のレコードを分割する。
(3) Divide the data by the value of the condition item with the largest information gain Next, the record division unit 102a is the condition item (objective variable) with the largest information gain described in (2-4). Using X3 as a reference, the records in the analysis target data 106a of FIG. 2 are divided for each value of X3.

具体的には、レコード分割部102aは、図7に示すように、図2の分析対象データ106a中の10個のレコードを、X3=1を有する2個のレコード(id=a、b)からなるレコード群Aと、X3=2を有する6個のレコード(id=c、d、e、f、g、h)からなるレコード群Dと、X3=3を有する2個のレコード(id=i、j)からなるレコード群Iと、に分割する。 Specifically, as shown in FIG. 7, the record dividing unit 102a divides 10 records in the analysis target data 106a of FIG. 2 from two records (id=a, b) having X3=1. A record group A consisting of 6 records (id=c, d, e, f, g, h) having X3=2, and a record group D consisting of 2 records (id=i , and j).

(4)分割されたデータのそれぞれについて、更に分割を繰り返す
レコード分割部102aは、(3)で分割して求めた3つのレコード群(レコード群A、DおよびI)それぞれについて、更に分割を繰り返す。
(4) Further repeat division for each of the divided data The record dividing unit 102a further repeats division for each of the three record groups (record groups A, D and I) obtained by dividing in (3). .

具体的には、レコード分割部102aは、図8に示すように、レコード群A中のレコード2個を、X2=1を有する1個のレコード(id=a)からなるレコード群Bと、X2=2を有する1個のレコード(id=b)からなるレコード群Cと、に分割する。ここまでの分割により、各レコード群が含むレコード数はともに1個しかないため、すなわち、分割できるレコードがこれ以上ないため、レコード分割部102aは分割を停止する。 Specifically, as shown in FIG. 8, the record dividing unit 102a divides two records in the record group A into a record group B consisting of one record (id=a) having X2=1, =2 and a record group C consisting of one record (id=b). As a result of the division up to this point, each record group contains only one record, that is, there are no more records that can be divided, so the record dividing unit 102a stops dividing.

また、レコード分割部102aは、図8に示すように、レコード群D中のレコード6個を、X1=1を有する3個のレコード(id=c、d、e)からなるレコード群Eと、X1=2を有する3個のレコード(id=f、g、h)からなるレコード群Fと、に分割する。更に、レコード分割部102aは、図8に示すように、レコード群E中のレコード3個を、X2=1を有する2個のレコード(id=c、d)からなるレコード群Gと、X2=2を有する1個のレコード(id=e)からなるレコード群Hと、に分割する。 Also, as shown in FIG. 8, the record dividing unit 102a divides the six records in the record group D into a record group E consisting of three records (id=c, d, e) having X1=1, and a record group F consisting of three records (id=f, g, h) with X1=2. Furthermore, as shown in FIG. 8, the record dividing unit 102a divides the three records in the record group E into a record group G consisting of two records (id=c, d) having X2=1, and a record group G consisting of X2=1. 2, and a record group H consisting of one record (id=e) having 2.

なお、レコード群I中の2個のレコードは、X1はともに2であり、X2もともに2であり、分割の基準となる目的変数が存在しないため、分割は打ち止めとなる。 Note that two records in the record group I have both X1 equal to 2 and X2 both equal to 2, and since there is no target variable that serves as a criterion for division, the division is terminated.

(5)いくつかの終了条件に基づいて分割を停止する
(4)で述べたとおり、レコード分割部102aは、再帰的な分割の処理を行うが、例えば、以下に示す終了条件に基づいて分割を停止する。
(5) Stop division based on some termination conditions As described in (4), the record division unit 102a performs recursive division processing. to stop.

終了条件の一つ目として、データ件数(分割後のレコード群中のレコード件数)が挙げられる。具体的には、分割後のレコード群中のレコード件数が少ない場合(例えば、分析対象データ106aの5%を閾値とし、分割後のレコード群中のレコード件数が当該閾値以下となった場合)、それ以上の分割を打ち止めるといった対応が考えられる。 One of the termination conditions is the number of data (the number of records in the group of records after division). Specifically, when the number of records in the record group after division is small (for example, when 5% of the analysis target data 106a is set as a threshold and the number of records in the record group after division is equal to or less than the threshold), It is conceivable to take measures such as stopping further division.

終了条件の二つ目として、深さ(分割を実行した回数)が挙げられる。具体的には、分割を実行した回数が予め設定した回数を超えたらそれ以上の分割を打ち止めるといった対応等が考えられ、これにより、条件が複雑になりすぎることを防ぐことができる。 The second termination condition is the depth (the number of divisions performed). Specifically, if the number of divisions executed exceeds a preset number, further divisions can be stopped, thereby preventing the conditions from becoming too complicated.

終了条件の三つ目として、不純度の改善が挙げられる。具体的には、分割の結果、不純度の改善が小さい場合にはそれ以上の分割を打ち止めるといった対応が考えられる。 A third termination condition is the improvement of impurities. Specifically, if the improvement in impurity is small as a result of division, further division may be stopped.

(6)分割ごとの改善量を計算する
データの分割を行った際に、目的変数がよりきれいに区別されるように分割されることが望ましいが、一回のデータ分割で、すべての目的変数について不純度が改善されるわけではない。このため、以下で説明するように、目的変数ごとに不純度の改善量を算出することで、その分割がどの程度その目的変数に影響を与えているのかを把握することができる。
(6) Calculating the amount of improvement for each division When dividing the data, it is desirable to divide the data so that the objective variables can be more clearly distinguished. Impurities are not improved. For this reason, as will be described below, by calculating the impurity improvement amount for each objective variable, it is possible to grasp how much the division affects the objective variable.

例えば、図9に示すように、X3=1を基準として分割1を行い、更に、X2=1を基準として分割2を行った場合、改善量算出部102dは、以下のようにして、分割1および分割2のそれぞれについて、改善量を算出する。なお、図9は、図8におけるレコード群およびBを切り出したものである。 For example, as shown in FIG. 9, when division 1 is performed based on X3=1, and division 2 is performed based on X2=1, the improvement amount calculation unit 102d performs division 1 as follows. and division 2, the improvement amount is calculated. Note that FIG. 9 is obtained by cutting out the record group and B in FIG.

分割1(X3=1という条件での分割)について考える。Y1についての分割1前の不純度は0.48であり、Y1についての分割1後の不純度は0.5であるため、改善量算出部102dは、分割1前後でのY1についての不純度の改善量を、0.48-0.5=-0.02と算出する。同様に、Y2についての分割1前の不純度は0.53であり、Y2についての分割1後の不純度は0であるため、改善量算出部102dは、分割1前後でのY2についての不純度の改善量を、0.53-0=0.53と算出する。この結果から、X3=1という条件での分割は、Y1に対しては効果がないが、Y2に対しては効果があることがわかる。この結果を、図10に示す。 Consider division 1 (division under the condition that X3=1). The impurity of Y1 before division 1 is 0.48, and the impurity of Y1 after division 1 is 0.5. is calculated as 0.48-0.5=-0.02. Similarly, the impurity of Y2 before division 1 is 0.53, and the impurity of Y2 after division 1 is 0. The purity improvement is calculated as 0.53-0=0.53. From this result, it can be seen that division under the condition of X3=1 has no effect on Y1, but has an effect on Y2. The results are shown in FIG.

分割2(X3=1かつX2=1という条件での分割)について考える。Y1についての分割2前の不純度は0.5であり、Y1についての分割2後の不純度は0であるため、改善量算出部102dは、分割2前後でのY1についての不純度の改善量を、0.5-0=0.5と算出する。同様に、Y2についての分割2前の不純度は0であり、Y2についての分割2後の不純度は0であるため、改善量算出部102dは、分割2前後でのY2についての不純度の改善量を、0-0=0と算出する。この結果から、X3=1かつX2=1という条件での分割は、Y1に対しては効果があるが、Y2に対しては効果がないことがわかる。この結果を、図10に示す。 Consider partition 2 (a partition under the condition that X3=1 and X2=1). The impurity of Y1 before division 2 is 0.5, and the impurity of Y1 after division 2 is 0. Therefore, the improvement amount calculation unit 102d improves the impurity of Y1 before and after division 2. The amount is calculated as 0.5-0=0.5. Similarly, the impurity of Y2 before division 2 is 0, and the impurity of Y2 after division 2 is 0. Therefore, the improvement amount calculation unit 102d calculates the impurity of Y2 before and after division 2. The amount of improvement is calculated as 0-0=0. From this result, it can be seen that division under the condition of X3=1 and X2=1 is effective for Y1, but not for Y2. The results are shown in FIG.

このように算出した不純度の改善量を、分割の影響スコアとして保持しておく。 The amount of impurity improvement calculated in this way is retained as the division influence score.

(7)分析結果の出力
(6)までの結果から、特徴項目(説明変数)に対する条件と、その際に目的変数がとるべき値のルールを取得することができる。
(7) Output of analysis results From the results up to (6), it is possible to obtain the conditions for the feature items (explanatory variables) and the rules for the values that the objective variables should take at that time.

(7-1)条件別(説明変数別)の出力
具体的には、割合算出部102bは、図8にCで示すレコード群について、Y1=2の割合を1/1×100=100%と算出し、Y2=1の割合も1/1×100=100%と算出する。同様に、割合算出部102bは、図8にGで示すレコード群について、Y1=1の割合を2/2×100=100%と算出し、Y2=2の割合も2/2×100=100%と算出する。更に同様に、割合算出部102bは、図8にIで示すレコード群について、Y1=1の割合を2/2×100=100%と算出し、Y2=4の割合も2/2×100=100%と算出する。そして、分析結果出力部102eは、当該算出の結果を図11に示すように出力する。図11に示す出力においては、割合には、学習に使用したデータの割合を示しており、行ごとに重複するデータがないような表示としている。
(7-1) Output by condition (by explanatory variable) Specifically, the ratio calculation unit 102b sets the ratio of Y1=2 to 1/1×100=100% for the group of records indicated by C in FIG. Then, the ratio of Y2=1 is also calculated as 1/1×100=100%. Similarly, the ratio calculation unit 102b calculates the ratio of Y1=1 as 2/2×100=100% for the record group indicated by G in FIG. %. Furthermore, in the same way, the ratio calculation unit 102b calculates the ratio of Y1=1 as 2/2×100=100% and the ratio of Y2=4 as 2/2×100=100% for the record group indicated by I in FIG. Calculate as 100%. Then, the analysis result output unit 102e outputs the result of the calculation as shown in FIG. In the output shown in FIG. 11, the ratio indicates the ratio of the data used for learning, and the display is such that there is no overlapping data for each row.

更に、(6)で算出した分割の影響スコアを用いることで、効果の高い条件のみを出力するように選択することもできる。例えば、(6)で説明した分割1および2について考える。仮に、「目的変数に対する不純度の改善量が、0.05以上のもの」という条件だとする。(6)の分割1で説明したように、X3=1という条件での分割では、Y1についての不純度の改善量は-0.02であり、Y2についての不純度の改善量は0.53であり、また、(6)の分割2で説明したように、X3=1かつX2=1という条件での分割では、Y1についての不純度の改善量は0.5であり、Y2についての不純度の改善量は0であった。このため、前記条件に合致する説明変数および目的変数の組合せは、「X3=1およびY2」という組合せと、「X3=1、X2=1およびY1」という組合せと、の2つの組合せとなる。 Furthermore, by using the division influence score calculated in (6), it is possible to select to output only highly effective conditions. For example, consider partitions 1 and 2 described in (6). Suppose that the condition is that "impurity improvement amount for objective variable is 0.05 or more". As explained in division 1 of (6), in the division under the condition of X3=1, the impurity improvement amount for Y1 is -0.02, and the impurity improvement amount for Y2 is 0.53. Also, as explained in division 2 of (6), in the division under the condition of X3=1 and X2=1, the impurity improvement amount for Y1 is 0.5, and the impurity for Y2 is The amount of improvement in purity was zero. Therefore, there are two combinations of explanatory variables and objective variables that meet the above conditions: a combination of "X3=1 and Y2" and a combination of "X3=1, X2=1 and Y1".

分析結果出力部102eは、前段落で述べた2つの組合せのみを表示する。すなわち、分析結果出力部102eは、図12に示すように、X3=1のときY2=1の割合が100%であることを示す行と、X3=1かつX2=1のときY1=1の割合が100%であることを示す行と、を表示する。これにより、ユーザは、意味のある分割がされている目的変数のみを一覧で確認することができる。なお、図12の表示においては、複数行の条件(複数の説明変数)に該当するようなデータが存在する可能性があるが、(6)での結果を用いない場合と比べ、シンプルな条件(説明変数)および目的変数の組合せをユーザに示すことができる。 The analysis result output unit 102e displays only the two combinations described in the previous paragraph. That is, as shown in FIG. 12, the analysis result output unit 102e has a row indicating that the ratio of Y2=1 when X3=1 is 100% and a row indicating that Y1=1 when X3=1 and X2=1. and a line indicating that the percentage is 100%. This allows the user to check only objective variables that have been meaningfully divided in a list. In addition, in the display of FIG. 12, there is a possibility that there is data that corresponds to multiple lines of conditions (multiple explanatory variables), but compared to the case where the results in (6) are not used, simple conditions A combination of (explanatory variables) and objective variables can be presented to the user.

(7-2)ツリーによる出力
(6)までの結果は、以下のようにして、ツリー(決定木)状で表現することもできる。
(7-2) Output by tree The results up to (6) can also be expressed in the form of a tree (decision tree) as follows.

具体的には、割合算出部102bは、図8の分析対象データ106aについて、Y1=1の割合を6/10×100=60%と算出し、Y2=2の割合を3/10×100=30%と算出する。同様に、割合算出部102bは、図8にAで示すレコード群について、Y1=1の割合を1/2×100=50%と算出し、Y2=1の割合を2/2×100=100%と算出する。更に同様の方法で、割合算出部102bは、図8にB~Iで示すレコード群についても、図13に示すように割合を算出する。そして、分析結果出力部102eは、当該算出の結果を図13に示すように表示する。なお、図13の表においては、目的変数の値として、その条件の場合の(説明変数の値ごとの)最頻値と、当該最頻値が占める割合と、を表記している。 Specifically, the ratio calculation unit 102b calculates the ratio of Y1=1 to be 6/10×100=60%, and the ratio of Y2=2 to 3/10×100= Calculate 30%. Similarly, for the record group indicated by A in FIG. %. Furthermore, in a similar manner, the ratio calculation unit 102b calculates ratios as shown in FIG. 13 for the record groups indicated by B to I in FIG. Then, the analysis result output unit 102e displays the result of the calculation as shown in FIG. In addition, in the table of FIG. 13, as the value of the objective variable, the mode value (for each value of the explanatory variable) under the condition and the ratio of the mode value are described.

更に、分析結果出力部102eは、目的変数に対する不純度の改善量が大きいもの、または、分割後の不純度が一定値以下のもののみを表示することで、ユーザにとって理解しやすく使いやすい結果表示をすることができる。当該結果表示のツリーのイメージ例を、図14に示す。当該結果表示をすれば、ユーザは目的変数の値が入力されている箇所にのみ注目すればよく、少ない条件(説明変数)で目的変数の値が決定されるのはどこであるのかを把握することができる。また、条件(説明変数の値)ごとに、目的変数の最頻値およびその値が占める割合をツリーで示すことで、ユーザは、当該結果表示で示されるツリーが確かに図8における分割結果に合致していることを認識することができる。 Furthermore, the analysis result output unit 102e displays results that are easy for the user to understand and use by displaying only those with a large impurity improvement amount for the target variable or those with an impurity after division that is less than a certain value. can do FIG. 14 shows an image example of the tree of the result display. If the result is displayed, the user only needs to pay attention to the part where the value of the objective variable is input, and it is possible to grasp where the value of the objective variable is determined with a small number of conditions (explanatory variables). can be done. In addition, by showing the mode of the objective variable and the proportion of that value for each condition (explanatory variable value) in a tree, the user can see that the tree shown in the result display certainly matches the division result in FIG. You can recognize that they match.

(8)給与システムに対するアルゴリズムの適用例
本項目[3-1]で説明した決定木アルゴリズムは、例えば、以下の[3-2]および[3-3]で説明する、給与システムにおける社員情報の登録および修正処理に適用することができる。
(8) Example of application of algorithm to payroll system The decision tree algorithm described in this item [3-1] can It can be applied to registration and correction processes.

本項目[3-1]で説明した説明変数X1、X2およびX3としては、例えば、社員区分(管理職、一般社員、アルバイト等)、性別、役職、勤務地および資格の有無等の項目を用いることができる。当該項目は、社員の身分を特定するための項目であり、システム外で決定され、システムに入力すべき値が明らかな項目である。 As the explanatory variables X1, X2, and X3 explained in this item [3-1], items such as employee classification (manager, general employee, part-time job, etc.), gender, position, work location, and qualifications are used. be able to. This item is an item for specifying an employee's status, is determined outside the system, and is an item whose value to be input to the system is clear.

本項目[3-1]で説明した目的変数Y1およびY2としては、例えば、給与区分、給与支給日区分、労働条件区分、保険種別および各種手当の有無等の項目を用いることができる。当該項目は、前記社員に対する給与についての計算の仕方または支給の仕方を決定するための項目であり、給与の計算のために給与システムの中で使用され、前記説明変数として挙げられた項目や社内のルール等に基づいて判断および入力される項目である。 As the objective variables Y1 and Y2 described in item [3-1], for example, items such as salary category, salary payment date category, working condition category, insurance category, and existence of various allowances can be used. The item is an item for determining the method of calculating or paying the salary to the employee, and is used in the salary system for calculating the salary. This item is determined and input based on the rules of

そして、(6)までの分析結果を(7)で説明した表示方法により表示することで、前記目的変数として何を入力するかを提案(サジェスト)できる。これにより、例えば、給与誤支給を防止することができる。 By displaying the analysis results up to (6) by the display method described in (7), it is possible to suggest what to input as the objective variable. Thereby, for example, erroneous salary payment can be prevented.

[3-2.社員情報の登録処理]
次に、社員情報の登録処理を、図21~図28を用いて詳細に説明する。
[3-2. Employee information registration process]
Next, employee information registration processing will be described in detail with reference to FIGS. 21 to 28. FIG.

本項目では、(1)まず、定義マスタ106bの内容を登録するまでの処理を、図21をベースとして図23~図26を参照しつつ説明し、(2)次に、定義マスタ106bの内容を登録した後に行う社員情報の登録処理を、図22をベースとして図27および図28を参照しつつ説明する。 In this section, (1) first, the processing up to the registration of the contents of the definition master 106b will be explained based on FIG. 21 with reference to FIGS. 23 to 26; The employee information registration processing performed after the registration of .

(1)定義マスタ106bの内容を登録するまでの処理
(1-1)図21の「分析実行」について
まず、図21の「分析実行」について詳細に説明する。図21に示すように、分析実行画面が表示されて「分析実行」されることにより、社員データ106a1中の既存の大量データが分析システムにより分析されて、分析結果として「画面に同時変更の候補項目が表示」される。前記分析実行画面の例を、図23に示す。前記分析実行画面において対象年月を指定した上で「実行」が選択されると、当該指定された対象年月に合致する社員データ106a1中の情報が分析の対象となる。また、前記分析システムは、特に制限されず、例えば、[3-1]で説明した分析方法であってもよいし、これ以外の既知の分析方法であってもよい。
(1) Processing up to registering the contents of the definition master 106b (1-1) About "Analysis Execution" in FIG. 21 First, "Analysis Execution" in FIG. 21 will be described in detail. As shown in FIG. 21, when the analysis execution screen is displayed and "analysis is executed", the existing large amount of data in the employee data 106a1 is analyzed by the analysis system, and the analysis result is "candidates for simultaneous change displayed on the screen." item is displayed. An example of the analysis execution screen is shown in FIG. When "execute" is selected after specifying the target year and month on the analysis execution screen, the information in the employee data 106a1 that matches the specified target year and month becomes the target of analysis. Also, the analysis system is not particularly limited, and may be, for example, the analysis method described in [3-1] or other known analysis methods.

(1-2)図21の「画面に同時変更の候補項目を表示」について
次に、図21の「画面に同時変更の候補項目を表示」について詳細に説明する。登録候補パターン表示部102gは、前記分析の結果をパターン登録画面に表示する。具体的には、図24に示すパターン登録画面においては、左部に示す条件分岐の枝のうち、「社員区分=一般社員」、「性別=男」、「職掌=入力なし」および「業務=販売登録者」の4つの枝にチェックが付されて選択されている。なお、「全条件集計」は、分析対象の全件の集計結果を表示する項目であり、社員情報および登録定義の分析の場合は、初期値でチェックが入る設定となっている。
(1-2) “Display of Candidate Items for Simultaneous Change on Screen” in FIG. 21 Next, “Display of Candidate Items for Simultaneous Change on Screen” in FIG. 21 will be described in detail. The registration candidate pattern display unit 102g displays the result of the analysis on the pattern registration screen. Specifically, in the pattern registration screen shown in FIG. The four branches of "sales registrant" are checked and selected. "Aggregation of all conditions" is an item that displays the aggregation results of all cases to be analyzed, and in the case of analysis of employee information and registered definitions, it is set to be checked by default.

登録候補パターン表示部102gは、図24の左部に示す条件分岐の枝で選択された内容に対し、適合率が90%以上のスコアの項目を登録対象として識別可能に表示する。すなわち、登録候補パターン表示部102gは、選択された枝で特定される社員の集合について、同一の給与項目内において占める割合が最も大きい給与項目値を、当該最も大きい割合と併せて、図24のパターン登録画面に表示する。この際、登録候補パターン表示部102gは、前記割合が最も大きい給与項目値を、前記最も大きい割合が100%の場合は斜線のハッチングで、前記最も大きい割合が90%以上の場合はドットのハッチングで、図24のパターン登録画面に表示する。つまり、登録候補パターン表示部102gは、90%を閾値として表示をするということであるが、当該閾値は、オペレータの設定により任意に変更可能である。 The registration candidate pattern display unit 102g identifiably displays items with a matching rate of 90% or more for the content selected in the conditional branch shown in the left part of FIG. 24 as registration targets. That is, the registration candidate pattern display unit 102g displays the salary item value having the largest ratio in the same salary item for the group of employees specified by the selected branch, together with the largest ratio, as shown in FIG. Displayed on the pattern registration screen. At this time, the registration candidate pattern display unit 102g displays the salary item value with the largest ratio by hatching with oblique lines when the largest ratio is 100%, and by hatching with dots when the largest ratio is 90% or more. Then, the pattern registration screen of FIG. 24 is displayed. In other words, the registration candidate pattern display unit 102g performs display with a threshold of 90%, but the threshold can be arbitrarily changed by the operator's setting.

具体的には、登録候補パターン表示部102gは、図24のMA4に示すように、
●「全条件集計」の枝に対しては、「給与区分=4、83%」、「給与支給日区分=2、83%」、「賞与支給日区分=1、99%」、「労働条件区分=2、83%」、「健康保険区分=0、70%」、「厚生年金区分=0、70%」、「社保徴収区分=0、100%」、「社保取得区分=1、81%」、「社保損失区分=0、100%」、「保険種別=0、62%」、「雇用保険区分=0、68%」、「労災保険区分=1、70%」および「有給付与表区分=1、52%」を表示し、これらの中でも、割合が100%である「社保徴収区分=0、100%」および「社保損失区分=0、100%」を登録の候補として斜線のハッチングで表示し、割合が90%以上である「賞与支給日区分=1、99%」を登録の候補としてドットのハッチングで表示し(なお、「社保取得区分=1、81%」のハッチングは、本処理で付されるものではなく、後述する「項目別調整」からの処理により付されるものである)、
●「社員区分=一般社員」の枝に対しては、「給与区分=2、100%」、「給与支給日区分=1、100%」、「労働条件区分=1、100%」、「健康保険区分=1、99%」、「厚生年金区分=1、99%」、「保険種別=1、86%」、「雇用保険区分=1、100%」、「労災保険区分=1、100%」および「有給付与表区分=1、95%」を表示し、これらの中でも、割合が100%である「給与区分=2、100%」、「給与支給日区分=1、100%」、「労働条件区分=1、100%」、「雇用保険区分=1、100%」および「労災保険区分=1、100%」を登録の候補として斜線のハッチングで表示し、割合が90%以上である「健康保険区分=1、99%」、「厚生年金区分=1、99%」および「有給付与表区分=1、95%」を登録の候補としてドットのハッチングで表示し、
●「性別=男」の枝に対しては、割合が90%以上である「保険種別=1、99%」を登録の候補としてドットのハッチングで表示し、
●「業務=販売登録者」の枝に対しては、割合が90%以上である「有給付与表区分=1、98%」を登録の候補としてドットのハッチングで表示する。
当該表示が意味する所を簡単に説明すると、例えば、「社員区分=一般社員」かつ「性別=男」に該当する社員の集合の場合、保険種別が1となる割合は、99%であるということである。
Specifically, the registration candidate pattern display unit 102g displays, as indicated by MA4 in FIG.
● For the branch of "All conditions tabulation", "Salary category = 4, 83%", "Salary payment date category = 2, 83%", "Bonus payment date category = 1, 99%", "Work conditions Category = 2, 83%", "Health insurance category = 0, 70%", "Employees' pension category = 0, 70%", "Social insurance collection category = 0, 100%", "Social insurance acquisition category = 1, 81%"","Social insurance loss category = 0, 100%", "Insurance type = 0, 62%", "Employment insurance category = 0, 68%", "Worker's accident insurance category = 1, 70%", and "Paid grant table Classification = 1, 52%”, and among these, “social insurance collection classification = 0, 100%” and “social insurance loss classification = 0, 100%” with a ratio of 100% are hatched as candidates for registration. , and "bonus payment date division = 1, 99%" with a ratio of 90% or more is displayed with dot hatching as a candidate for registration ("social insurance acquisition division = 1, 81%" It is not attached in this process, but is attached by the process from "adjustment by item" described later),
● For the “employee category = general employee” branch, “salary category = 2, 100%”, “salary payment date category = 1, 100%”, “working condition category = 1, 100%”, “health Insurance classification = 1, 99%", "Employees' pension classification = 1, 99%", "Insurance classification = 1, 86%", "Employment insurance classification = 1, 100%", "Workers' accident insurance classification = 1, 100%" ” and “Paid grant table classification = 1, 95%”, among these, “Salary classification = 2, 100%”, “Salary payment date classification = 1, 100%”, "Labor conditions category = 1, 100%", "Employment insurance category = 1, 100%", and "Workers' accident insurance category = 1, 100%" are indicated by diagonal hatching as candidates for registration. "Health insurance classification = 1, 99%", "Employees' pension classification = 1, 99%", and "Paid grant table classification = 1, 95%" are indicated by hatching dots as candidates for registration,
●For the branch of "gender = male", "insurance type = 1, 99%" with a ratio of 90% or more is displayed as a candidate for registration by hatching dots.
● For the branch of "business = sales registrant", "paid grant table division = 1, 98%" with a ratio of 90% or more is displayed by hatching dots as registration candidates.
To briefly explain what this indication means, for example, in the case of a group of employees who fall under the category of "employee classification = general employee" and "gender = male", the percentage of employees whose insurance type is 1 is 99%. That is.

そして、登録候補パターン表示部102gは、図24のMA4に登録の候補としてハッチングで表示した給与項目値をそのまま図24のMA3に表示してもよいが、以下で説明するように、図24の画面右上にMA2で示す「項目別調整」のボタンからオペレータにより選択された給与項目値のみを図24のMA3に表示してもよい。 The registration candidate pattern display unit 102g may display the salary item values hatched as registration candidates in MA4 of FIG. 24 as they are in MA3 of FIG. Only the salary item values selected by the operator from the "adjustment by item" button indicated by MA2 on the upper right of the screen may be displayed in MA3 of FIG.

(1-3)図21の「候補から選択」について
最後に、図21の「候補から選択」について詳細に説明する。図24の画面右上にMA2で示す「項目別調整」が選択されると、登録候補パターン表示部102gは、図24のMA5に示すように、図24のMA4に表示した給与項目値に対応するチェックボックスを表示する。ここで、登録候補パターン表示部102gは、図24のMA4においてハッチングで表示した給与項目値(すなわち、割合が90%以上の給与項目値)に対応するチェックボックスには、初期値でチェックが入った状態で表示してもよい。具体的には、図24のMA5においては、登録候補パターン表示部102gは、「社保徴収区分=0、100%」および「社保喪失区分=0、100%」の2つに対応するチェックボックスを最初からチェックが入った状態で表示する。なお、図25のMA5には、実際は、前々段落においてハッチングで表示されると説明したすべての「給与項目=給与項目値、割合」に対応するチェックボックスが表示されるが、便宜上、一部のみを切り取って表示している。
(1-3) “Select from Candidates” in FIG. 21 Finally, “Select from Candidates” in FIG. 21 will be described in detail. When "adjustment by item" indicated by MA2 on the upper right of the screen in FIG. 24 is selected, the registration candidate pattern display section 102g displays the salary item values displayed in MA4 in FIG. 24 as indicated by MA5 in FIG. Show a checkbox. Here, the registration candidate pattern display unit 102g checks the check boxes corresponding to the salary item values hatched in MA4 of FIG. It may be displayed as is. Specifically, in MA5 of FIG. 24, the registration candidate pattern display unit 102g selects the check boxes corresponding to "social insurance collection category=0, 100%" and "social insurance loss category=0, 100%". It is displayed with a check from the beginning. In addition, in MA5 of FIG. 25, check boxes corresponding to all "salary item=salary item value, ratio" explained as being hatched in the paragraph two before are actually displayed. is cut and displayed.

そして、オペレータは、チェックが入ったチェックボックスのチェックを外すことができるし、逆に、チェックが入っていないチェックボックスにチェックを入れることもできる。つまり、オペレータは、任意の給与項目値を選択可能であるということである。図24のMA5においては、「社保取得区分=1、81%」に対応するチェックボックスには最初はチェックが入っていなかったが、オペレータにより、選択されて、チェックが入れられている。なお、登録候補パターン表示部102gは、選択されているチェックボックスに対応する給与項目値を、図24のMA5およびMA4に示すように、横線のハッチングで表示してもよい。つまり、登録候補パターン表示部102gは、適合率が閾値(本例では90%)を超えている項目や「項目別調整」から選択した項目については、ハッチングにより表示してもよいということである。 Then, the operator can uncheck the checked checkboxes and, conversely, check the unchecked checkboxes. This means that the operator can select any salary item value. In MA5 of FIG. 24, the check box corresponding to "social insurance acquisition category=1, 81%" was initially unchecked, but was selected and checked by the operator. Note that the registration candidate pattern display unit 102g may display the salary item value corresponding to the selected check box with horizontal hatching, as indicated by MA5 and MA4 in FIG. In other words, the registration candidate pattern display unit 102g may display items whose matching rate exceeds the threshold value (90% in this example) and items selected from the "item-by-item adjustment" by hatching. .

最終的に、登録候補パターン表示部102gは、チェックが入れられたチェックボックス(チェックが初期値として入っていたものおよびオペレータによりチェックが入れられたものの両方を含む)に対応する給与項目値を、最終的な登録の候補として、図24にMA3で示す「選択結果」の箇所に表示する。具体的には、登録候補パターン表示部102gは、図24にMA3で示すように、最終的な登録の候補として、「給与区分=2」、「給与支給日区分=1」、「賞与支給日区分=1」、「労働条件区分=1」、「健康保険区分=1」、「厚生年金区分=1」、「社保徴収区分=0」、「社保取得区分=1」、「社保喪失区分=0」、「保険種別=1」、「雇用保険区分=1」、「労災保険区分=1」および「有給付与表区分=1」というパターンを表示する。 Finally, the registration candidate pattern display unit 102g displays the salary item values corresponding to the checked check boxes (including both checked boxes as initial values and checked boxes by the operator), As a final registration candidate, it is displayed in the "selection result" portion indicated by MA3 in FIG. Specifically, as indicated by MA3 in FIG. 24, the registration candidate pattern display unit 102g displays "salary classification=2", "salary payment date classification=1", and "bonus payment date" as final registration candidates. Category = 1”, “Working condition category = 1”, “Health insurance category = 1”, “Employees’ pension category = 1”, “Social insurance collection category = 0”, “Social insurance acquisition category = 1”, “Social insurance loss category = 0", "insurance type=1", "employment insurance category=1", "worker's accident insurance category=1" and "paid grant table category=1" are displayed.

そして、図25のMB1において当該パターンに対して「男性一般社員(販売登録者)」という定義名が設定されて、図25のMB2における「登録」ボタンが選択されると、パターン登録部102hは、1つのパターンを定義マスタ106bに登録する。すなわち、パターン登録部102hは、条件選択において選択された枝についての身分項目および身分項目値である「社員区分=一般社員」、「性別=男」、「職掌=入力なし」および「業務=販売登録者」、ならびに、登録候補パターン表示部102gが最終的な登録の候補として表示した給与項目および給与項目値である「給与区分=2」、「給与支給日区分=1」、「賞与支給日区分=1」、「労働条件区分=1」、「健康保険区分=1」、「厚生年金区分=1」、「社保徴収区分=0」、「社保取得区分=1」、「社保喪失区分=0」、「保険種別=1」、「雇用保険区分=1」、「労災保険区分=1」および「有給付与表区分=1」から構成されるパターン(以下、「パターン1」という。)を、「定義番号:100、定義名:男性一般社員(販売登録者)」と定義して、定義マスタ106bに登録する。 Then, when the definition name "general male employee (sales registrant)" is set for the pattern in MB1 of FIG. 25, and the "registration" button in MB2 of FIG. , one pattern is registered in the definition master 106b. That is, the pattern registration unit 102h registers the status items and the values of the status items for the branch selected in the condition selection, namely, "employee classification=general employee", "sex=male", "duty=no input", and "duty=sales". registrant", and salary items and salary item values displayed as candidates for final registration by the registration candidate pattern display unit 102g, ie, "salary classification=2", "salary payment date classification=1", and "bonus payment date Category = 1”, “Working condition category = 1”, “Health insurance category = 1”, “Employees’ pension category = 1”, “Social insurance collection category = 0”, “Social insurance acquisition category = 1”, “Social insurance loss category = 0", "Insurance type = 1", "Employment insurance classification = 1", "Industrial accident insurance classification = 1", and "Paid grant table classification = 1" (hereinafter referred to as "Pattern 1"). is defined as "definition number: 100, definition name: male general employee (sales registrant)" and registered in the definition master 106b.

なお、図26の画面(社員情報を登録する画面と同様の構成である)において、当該登録したパターンの確認および編集を行うことができる。具体的には、図26にMC1で示す箇所において、同時に更新する値を編集可能である。 Note that the registered pattern can be confirmed and edited on the screen of FIG. 26 (having the same configuration as the screen for registering employee information). Specifically, at the location indicated by MC1 in FIG. 26, the values to be updated at the same time can be edited.

以上(1)で説明してきたように、本実施形態に係る情報処理装置100によれば、図24のMA4に斜線とドットのハッチングで示したように、登録の候補となる給与項目値のパターンを割合と併せて表示することができるため、オペレータは、当該表示を参照しつつ、給与項目値のパターンを容易かつ正確に登録することができる。更に、当該表示されたパターンはそのまま図24のMA3に表示されてもよいが、本実施形態に係る情報処理装置100においては、図24にMA2で示す「項目別調整」のボタンを選択することで、項目単位(給与項目値単位)での細かい手動調整(=チェックを外すまたはチェックを入れる)をした上で、最終的な登録の候補となる給与項目値のパターンを図24のMA3に表示することもできるので、給与項目値のパターンをオペレータの意思に応じて柔軟に調整した上で登録することもできる。 As described in (1) above, according to the information processing apparatus 100 according to the present embodiment, patterns of salary item values that are candidates for registration are shown by hatching with oblique lines and dots in MA4 in FIG. can be displayed together with the ratio, the operator can easily and accurately register patterns of salary item values while referring to the display. Further, the displayed pattern may be displayed as it is in MA3 of FIG. 24, but in the information processing apparatus 100 according to the present embodiment, it is possible to select the "adjustment by item" button indicated by MA2 in FIG. After performing detailed manual adjustments (=unchecking or checking) for each item (salary item value unit), the patterns of salary item values that are candidates for final registration are displayed in MA3 of Fig. 24. Therefore, the pattern of salary item values can be flexibly adjusted according to the operator's intention and then registered.

(2)定義マスタ106bの内容を登録した後に行う社員情報の登録処理
まず、図22に示すように、事前に設定している社員の登録パターンが選択される。具体的には、図27の社員情報登録・変更画面に示すようにMD1のボタンが選択されると、図27の別画面(「登録定義・候補一覧」の画面)に、定義マスタ106bに登録されている複数の定義が呼び出されて表示される。本例では、図27にMD2で示すように「定義番号:100、定義名:男性一般社員(販売登録者)」の定義が指定されて、図27にMD3で示す「実行」ボタンが押下されるものとする。なお、図27の社員情報登録・変更画面においては、MD1のすぐ左に示す空欄に定義番号が直接入力されることにより、定義が指定されてもよい。つまり、定義の指定は、社員情報登録・変更画面とは別画面に表示された複数の定義からの選択によるものであってもよいし、社員情報登録・変更画面への直接入力によるものであってもよい。
(2) Employee Information Registration Process Performed After Registering the Contents of the Definition Master 106b First, as shown in FIG. 22, a preset employee registration pattern is selected. Specifically, when the MD1 button is selected as shown in the employee information registration/change screen in FIG. 27, another screen in FIG. Multiple definitions are called and displayed. In this example, the definition "definition number: 100, definition name: male general employee (sales registrant)" is designated as indicated by MD2 in FIG. 27, and the "execute" button indicated by MD3 in FIG. 27 is pressed. shall be In the employee information registration/change screen of FIG. 27, the definition may be specified by directly inputting the definition number in the blank shown to the immediate left of MD1. In other words, the definition may be specified by selecting from multiple definitions displayed on a separate screen from the employee information registration/change screen, or by direct input on the employee information registration/change screen. may

続いて、図22に示すように、パターンの内容が初期値として社員情報登録・変更画面に表示される。具体的には、登録候補項目表示部102iは、定義マスタ106bから、前記指定された定義「定義番号:100、定義名:男性一般社員(販売登録者)」と紐付くパターンとして、前記パターン1(身分項目および身分項目値ならびに給与項目および給与項目値から構成される。詳細は、(1-3)を参照。)についての前記項目および前記値を取得する。そして、登録候補項目表示部102iは、図28のME2に示すように、当該取得した身分項目「社員区分」についての当該取得した身分項目値「2(正社員)」、当該取得した給与項目「給与区分」についての当該取得した給与項目値「2」、当該取得した給与項目「給与支給日区分」についての当該取得した給与項目値「1」および当該取得した給与項目「賞与支給日区分」についての当該取得した給与項目値「1」を、新規登録の候補として社員情報登録・変更画面に表示する。言い換えると、図28のME2には、パターンの内容通りの項目が自動で設定される。なお、図28にME1で示す箇所は、個人で入力が必要な部分であるために、社員ごとに異なった情報が入力される。 Subsequently, as shown in FIG. 22, the contents of the pattern are displayed on the employee information registration/change screen as initial values. Specifically, from the definition master 106b, the registration candidate item display unit 102i selects the pattern 1 (Consists of an identity item and an identity item value and a salary item and a salary item value. See (1-3) for details.). Then, as shown in ME2 in FIG. 28, the registration candidate item display unit 102i displays the acquired status item value "2 (regular employee)" for the acquired status item "employee classification" and the acquired salary item "salary "2" for the acquired salary item value "2" for the "Bonus Payment Date Category", the acquired salary item value "1" for the acquired salary item "Salary Payment Date Category", and the acquired salary item "Bonus Payment Date Category" The acquired salary item value "1" is displayed on the employee information registration/change screen as a candidate for new registration. In other words, in ME2 of FIG. 28, items are automatically set according to the contents of the pattern. In addition, since the portion indicated by ME1 in FIG. 28 is a portion that requires individual input, different information is input for each employee.

最後に、図22に示すように、社員情報登録・変更画面に表示された内容が、社員情報として社員データ106a1に登録される。具体的には、図28にME3で示す「登録」ボタンが押下されると、図28の社員情報登録・変更画面に表示されている社員の情報である「氏名、氏名カナ、性別:男、生年月日、入社年月日、社員区分:2(正社員)、給与区分:2、給与支給日区分:1、および賞与支給日区分:1」が、社員データ106a1に登録される。 Finally, as shown in FIG. 22, the contents displayed on the employee information registration/change screen are registered in the employee data 106a1 as employee information. Specifically, when the "registration" button indicated by ME3 in FIG. 28 is pressed, the employee information displayed on the employee information registration/change screen in FIG. Date of birth, date of employment, employee classification: 2 (regular employee), salary classification: 2, salary payment date classification: 1, and bonus payment date classification: 1" are registered in the employee data 106a1.

以上(2)で説明してきたように、本実施形態に係る情報処理装置100によれば、オペレータが社員情報登録・変更画面において定義を指定するのみで、図28のME2に示すように、社員情報(身分項目値および給与項目値)の登録の候補を表示することができるため、オペレータは、社員情報を1から入力する必要がなくなり、結果として、容易かつ正確な社員情報の登録が可能となる。 As described in (2) above, according to the information processing apparatus 100 according to the present embodiment, the operator simply designates a definition on the employee information registration/change screen, and as shown in ME2 in FIG. Candidates for registration of information (identification item values and salary item values) can be displayed, so the operator does not need to input employee information from scratch, and as a result, it is possible to easily and accurately register employee information. Become.

[3-3.社員情報の変更処理]
最後に、社員情報の変更処理を、図21および図33~図39を用いて詳細に説明する。
[3-3. Change processing of employee information]
Finally, employee information change processing will be described in detail with reference to FIGS. 21 and 33 to 39. FIG.

本項目では、(1)まず、定義マスタ106bの内容を登録するまでの処理を、図21をベースとして図34~図36を参照しつつ説明し、(2)次に、定義マスタ106bの内容を登録した後に行う社員情報の変更処理を、図33をベースとして図37~図39を参照しつつ説明する。 In this section, (1) first, the processing up to the registration of the contents of the definition master 106b will be described with reference to FIGS. 34 to 36 based on FIG. 21; will be described with reference to FIGS. 37 to 39 based on FIG. 33. FIG.

(1)定義マスタ106bの内容を登録するまでの処理
定義マスタ106bの内容を登録するまでの処理内容は、[3-2]の(1)と同様であるため、詳細な説明を省略し、異なる点のみ簡潔に説明する。
(1) Processing until the contents of the definition master 106b are registered The processing contents until the contents of the definition master 106b are registered are the same as (1) in [3-2], so a detailed explanation is omitted. Only different points will be briefly explained.

図34に示すパターン登録画面においては、左部に示す条件分岐の枝のうち、「社員区分=アルバイト」、「職掌=入力なし」、「性別=女」および「業務=販売登録者」の4つの枝にチェックが付されて選択されている。 In the pattern registration screen shown in FIG. 34, among the conditional branching branches shown on the left side, there are four "employee classification = part-time job", "duty = no input", "gender = female", and "task = sales registrant". One branch is checked and selected.

登録候補パターン表示部102gは、図34のMF4に示すように、
●「社員区分=アルバイト」の枝に対しては、「給与区分=4、100%」、「給与支給日区分=2、100%」、「労働条件区分=4、100%」、「健康保険区分=0、80%」、「厚生年金区分=0、80%」、「保険種別=0、68%」、「雇用保険区分=1、78%」および「労災保険区分=1、80%」を表示し、これらの中でも、割合が100%である「給与区分=4、100%」、「給与支給日区分=2、100%」および「労働条件区分=4、100%」を登録の候補として斜線のハッチングで表示し、
●「性別=女」の枝に対しては、「保険種別=2、53%」を表示し、
●「業務=販売登録者」の枝に対しては、「保険種別=2、94%」、「雇用保険区分=1、100%」、「労災保険区分=1、100%」および「有給付与表区分=7、82%」を表示し、これらの中でも、割合が100%である「雇用保険区分=1、100%」および「労災保険区分=1、100%」を登録の候補として斜線のハッチングで表示し、割合が90%以上である「保険種別=2、94%」を登録の候補としてドットのハッチングで表示する。
The registration candidate pattern display unit 102g, as shown in MF4 in FIG.
● For the branch of "employee classification = part-time job", "salary classification = 4, 100%", "salary payment date classification = 2, 100%", "working condition classification = 4, 100%", "health insurance Category = 0, 80%", "Employees' Pension Category = 0, 80%", "Insurance Category = 0, 68%", "Employment Insurance Category = 1, 78%", and "Workers' Accident Insurance Category = 1, 80%" , and among these, "salary category = 4, 100%", "salary payment date category = 2, 100%" and "working conditions category = 4, 100%" with a ratio of 100% are candidates for registration. is indicated by diagonal hatching as
● For the branch of "Gender = Female", "Insurance type = 2, 53%" is displayed,
● For the branch of "business = sales registrant", "insurance type = 2, 94%", "employment insurance category = 1, 100%", "workmen's accident insurance category = 1, 100%" and "paid Among these, "employment insurance category = 1, 100%" and "workmen's accident insurance category = 1, 100%", which have a ratio of 100%, are indicated by diagonal lines as candidates for registration. , and "insurance type=2, 94%" with a ratio of 90% or more is displayed as a candidate for registration by hatching dots.

そして、登録候補パターン表示部102gは、図34のMF4に登録の候補としてハッチングで表示した給与項目値をそのまま図34のMF3に表示してもよいが、以下で説明するように、図34の画面右上にMF2で示す「項目別調整」のボタンからオペレータにより選択された給与項目値のみを図34のMF3に表示してもよい。 Then, the registration candidate pattern display unit 102g may display the salary item values hatched as registration candidates in MF4 of FIG. 34 as they are in MF3 of FIG. Only the salary item values selected by the operator from the "adjustment by item" button indicated by MF2 on the upper right of the screen may be displayed in MF3 of FIG.

最終的に、登録候補パターン表示部102gが図34のMF3に表示したパターンに対して、図35のMG1に示すように「女性アルバイト社員(販売登録者)」という定義名が設定されて、図35のMG2における「登録」ボタンが選択されると、パターン登録部102hは、1つのパターンを定義マスタ106bに登録する。すなわち、パターン登録部102hは、条件選択において選択された枝についての身分項目および身分項目値である「社員区分=10(アルバイト)」、「職掌=入力なし」、「性別=女」および「業務=販売登録者」、ならびに、登録候補パターン表示部102gが最終的な登録の候補として表示した給与項目および給与項目値である「給与区分=4」、「給与支給日区分=2」、「労働条件区分=4」、「保険種別=2」、「雇用保険区分=1」および「労災保険区分=1」から構成されるパターン(以下、「パターン2」という。)を、「定義番号:700、定義名:女性アルバイト社員(販売登録者)」と定義して、定義マスタ106bに登録する。 Finally, the definition name "female part-time employee (sales registrant)" is set as shown in MG1 in FIG. 35 for the pattern displayed in MF3 in FIG. When the "registration" button in MG2 of 35 is selected, the pattern registration unit 102h registers one pattern in the definition master 106b. That is, the pattern registration unit 102h registers the status item and the value of the status item for the branch selected in the condition selection, namely, "employee classification = 10 (part-time job)", "duty = no input", "sex = female" and "work = sales registrant", and the salary items and salary item values displayed as final candidates for registration by the registration candidate pattern display unit 102g, "salary classification=4", "salary payment date classification=2", "labor A pattern (hereinafter referred to as “pattern 2”) consisting of “condition classification = 4”, “insurance classification = 2”, “employment insurance classification = 1” and “workmen’s accident insurance classification = 1” is defined as “definition number: 700 , definition name: female part-time employee (sales registrant)” and registered in the definition master 106b.

なお、図36の定義情報登録・変更画面において、当該登録したパターンの確認および編集を行うことができる。具体的には、図36にMH1で示す箇所において、同時に更新する値を編集可能である。 Note that the registered pattern can be checked and edited on the definition information registration/change screen of FIG. Specifically, at the location indicated by MH1 in FIG. 36, the values to be updated at the same time can be edited.

(2)定義マスタ106bの内容を登録した後に行う社員情報の変更処理
まず、図33に示すように、社員データ106a1を参照して、社員情報が表示される。具体的には、図37の社員情報登録・変更画面において社員コードとして「1000000001」が指定されると、社員データ106a1から社員コード「1000000001」の社員情報が自動取得されて、図37に示すように表示される。
(2) Employee Information Change Processing After Registering Contents of Definition Master 106b First, as shown in FIG. 33, employee information is displayed by referring to the employee data 106a1. Specifically, when "1000000001" is specified as the employee code on the employee information registration/change screen of FIG. to be displayed.

続いて、図33に示すように、社員区分が手動で変更される。具体的には、図37のMI1に示すように、社員区分が「4(正社員)」から「10(アルバイト)」に変更される。 Subsequently, as shown in FIG. 33, the employee classification is manually changed. Specifically, as indicated by MI1 in FIG. 37, the employee classification is changed from "4 (regular employee)" to "10 (part-time employee)".

当該変更が行われると、図33に示すように、定義マスタ106bを参照して同時変更候補項目がないか確認され、画面に同時変更のパターンが表示される。具体的には、前段落で説明した社員区分「4」から「10」への変更が行われると、パターン定義表示部102jは、定義マスタ106bから、変更の対象となった身分項目「社員区分」および変更後の身分項目値「10」と紐付く定義名として、「女性アルバイト社員(販売登録者)」および「嘱託社員(資格未取得者)」を取得する。そして、パターン定義表示部102jは、図38の上画面に示すように、当該取得した定義名「女性アルバイト社員(販売登録者)」を、これと紐付く身分項目および身分項目値(社員区分:10、職掌:-1、性別:2、業務:70)と併せて表示し、また、当該取得した定義名「嘱託社員(資格未取得者)を、これと紐付く身分項目および身分項目値(社員区分:10、給与区分:1、勤務地:-1、資格:NOT70、職種:10)と併せて表示する。このように、パターン定義表示部102jは、図38の上画面の「条件項目」の列に、変更項目が含まれる定義を表示するが、分析結果の適合率に従い、表示順を変更することも可能である。 When the change is made, as shown in FIG. 33, the definition master 106b is referred to confirm whether there is a simultaneous change candidate item, and a simultaneous change pattern is displayed on the screen. Specifically, when the employee classification “4” explained in the previous paragraph is changed to “10”, the pattern definition display unit 102j displays the changed target status item “employee classification” from the definition master 106b. ” and the changed status item value “10”, acquire “female part-time employee (sales registrant)” and “temporary employee (unqualified person)”. Then, as shown in the upper screen of FIG. 38, the pattern definition display unit 102j displays the acquired definition name "female part-time employee (sales registrant)" as an identification item and an identification item value (employee classification: 10, job title: -1, gender: 2, business: 70), and the acquired definition name "Temporary employee (non-qualified person), the status item and status item value associated with it ( Employee category: 10, Salary category: 1, Place of work: -1, Qualification: NOT 70, Occupation: 10) In this way, the pattern definition display unit 102j displays the "Condition item ” column displays definitions that include changed items, but it is also possible to change the order of display according to the precision of the analysis results.

なお、図38の上画面にMJ2で示す「確認」が選択されると、図38の下部に示す定義情報登録・変更画面(定義を登録した際の画面)において社員情報を確認できる。 When "Confirm" indicated by MJ2 is selected on the upper screen of FIG. 38, the employee information can be confirmed on the definition information registration/change screen (screen when the definition is registered) shown in the lower part of FIG.

最後に、図33に戻り、特定のパターンが選択されることで、当該選択されたパターンに該当する複数項目を同時に自動で変更し、社員データ106a1の内容を更新することが可能である。具体的には、図38の上画面にMJ3で示す「実行」が選択されることにより、定義名「女性アルバイト社員(販売登録者)」が指定されると、変更候補項目表示部102kは、定義マスタ106bから、当該指定された定義名「女性アルバイト社員(販売登録者)」と紐付くパターンとして、前記パターン2(身分項目および身分項目値ならびに給与項目および給与項目値から構成される。詳細は、(1)を参照。)についての前記項目および前記値を取得する。そして、変更候補項目表示部102kは、図39のMK1に示すように、当該取得した給与項目「給与区分」についての当該取得した給与項目値「4」および当該取得した給与項目「給与支給日区分」についての当該取得した給与項目値「2」を、変更の候補として社員情報登録・変更画面に表示する。言い換えると、変更候補項目表示部102kは、定義のセット項目(=図39にMK2で示す)を自動で変更するのみならず、今回変更した条件項目以外の残りの項目(図39にMK3で示す)も変更する必要があるはずなので、補完して自動で変更することができる。そして、当該変更した社員情報を社員データ106a1に登録すれば、社員コード「1000000001」の社員の社員情報を、正社員用のものからアルバイト用のものへと更新することができる。 Finally, returning to FIG. 33, by selecting a specific pattern, it is possible to automatically change a plurality of items corresponding to the selected pattern at the same time and update the contents of the employee data 106a1. Specifically, when the definition name “female part-time employee (sales registrant)” is designated by selecting “execute” indicated by MJ3 on the upper screen of FIG. From the definition master 106b, as a pattern associated with the specified definition name "female part-time employee (sales registrant)", pattern 2 (composed of an identity item, an identity item value, a salary item, and a salary item value. Details See (1).) to obtain the item and the value. 39, the change candidate item display unit 102k displays the acquired salary item value "4" for the acquired salary item "salary category" and the acquired salary item "salary payment date category". ” is displayed on the employee information registration/change screen as a change candidate. In other words, the change candidate item display unit 102k not only automatically changes the definition set item (=indicated by MK2 in FIG. 39), but also the remaining items (indicated by MK3 in FIG. 39) other than the condition item changed this time. ) should also need to be changed, so it can be complemented and changed automatically. By registering the changed employee information in the employee data 106a1, the employee information of the employee with the employee code "1000000001" can be updated from that for regular employees to that for part-time workers.

以上(2)で説明してきたように、本実施形態に係る情報処理装置100によれば、オペレータが社員情報登録・変更画面において社員区分を「4(正社員)」から「10(アルバイト)」に変更するのみで、図39のMK1に示すように、給与区分を「1」から「4」に自動変更し、給与支給日区分を「1」から「2」に自動変更して、変更の候補を表示することができた。すなわち、本実施形態に係る情報処理装置100によれば、社員情報を変更する際に、オペレータは、ある1つの項目のみを変更すればよく他の項目(通常は膨大な項目数がある)を変更する必要がない。結果として、容易かつ正確な社員情報の変更が可能となる。 As described in (2) above, according to the information processing apparatus 100 according to the present embodiment, the operator changes the employee classification from "4 (regular employee)" to "10 (part-time employee)" on the employee information registration/change screen. Only by changing, as shown in MK1 in FIG. 39, the salary division is automatically changed from "1" to "4", and the salary payment date division is automatically changed from "1" to "2". could be displayed. That is, according to the information processing apparatus 100 according to the present embodiment, when changing employee information, the operator only needs to change one item and change other items (usually there are a huge number of items). No need to change. As a result, it is possible to easily and accurately change employee information.

(3)社員情報の変更のその他の活用例
以上、(1)および(2)において、社員の情報を変更するシーンとして「身分変更」を例にとって説明をしたが、本実施形態に係る社員情報の変更は、例えば、以下のようなシーンにおいても活用可能である。
(3) Other Examples of Utilization of Changing Employee Information In the above, (1) and (2) were explained using the example of "change of status" as a scene for changing employee information. can be used, for example, in the following scenes.

一つ目の例としては、「所属の異動」が挙げられる。所属部署の変更により、社員の取り扱いが変わる場合があるため、同時に変更すべき項目があると想定されるためである。 The first example is "change of affiliation". This is because it is assumed that there are items that should be changed at the same time because the handling of employees may change due to a change in the department to which they belong.

二つ目の例としては、「勤務地の変更」が挙げられる。勤務する場所により特有の手当(寒冷地手当)などが存在するため、同時に変更すべき項目があると想定されるためである。 A second example is a change in work location. This is because there are special allowances (cold area allowances) depending on the place of work, so it is assumed that there are items that should be changed at the same time.

三つ目の例としては、「育児休業・産前産後休業などの休業」が挙げられる。手当が発生しなくなる、または、特別な手当が発生するというような特別な取り扱いが会社の独特なルールとして存在するため、同時に変更すべき項目があると想定されるためである。また、社会保険の免状により、システムで管理している複数の項目を変更する必要があるためである。 A third example is “childcare leave, maternity leave, etc.” It is assumed that there are items that should be changed at the same time, because there are special rules unique to the company, such as no allowance being made or special allowance being made. In addition, it is necessary to change a plurality of items managed by the system according to the social insurance license.

[4.本実施形態のまとめ]
[4-1.決定木のまとめ]
このように、本実施形態に係る情報処理装置100によれば、[1-1]および[3-1]で説明したように、分析対象となるデータが複数の目的変数を含む場合においても1つの分析結果としてまとめて出力可能な態様でデータ分析できる。
[4. Summary of this embodiment]
[4-1. Decision tree summary]
Thus, according to the information processing apparatus 100 according to the present embodiment, as described in [1-1] and [3-1], even if the data to be analyzed includes a plurality of objective variables, 1 Data can be analyzed in a form that can be collectively output as one analysis result.

ここで、項目のルールを分析するアルゴリズムとしては、決定木アルゴリズムが知られているが、既存の決定木アルゴリズムでは、複数の目的変数を扱うことができなかったため、本実施形態においては、この点を改良し、複数の目的変数を扱えるようにした。また、本実施形態においては、例えば、どの項目(どの説明変数)の値がどの項目(どの目的変数)の値の決定に影響を与えているかをスコア化することで、利用者にとって意味が解釈しやすい表示を可能とした。本実施形態に係る決定木アルゴリズムは、例えば、以下のような場面において利用可能である。 Here, the decision tree algorithm is known as an algorithm for analyzing the rule of the item, but the existing decision tree algorithm cannot handle a plurality of objective variables. was improved to handle multiple objective variables. In addition, in the present embodiment, for example, by scoring which item (which explanatory variable) value influences the determination of which item (which objective variable) value, the meaning can be interpreted by the user. Easy display is possible. The decision tree algorithm according to this embodiment can be used, for example, in the following situations.

例えば、業務データの登録時に、ある項目を変更したら他の項目も併せて変える必要があることがある。本実施形態においては、この項目間のルールを既存のデータから導き出せるようにした。具体的には、既存の決定木アルゴリズムを改良することで、項目間(前記ある項目と前記他の項目の間)のルールをシンプルに提示することを実現した。また、例えば、個社ごとに運用ルールが様々であるまたは明確ではない場合、システムでの事前設定が難しいことがある。本実施形態においては、既存のデータを用いてルールを導出することで、以降の入力時のサポートやチェックに使用することができ、結果として、入力ミスの軽減や入力効率の向上に繋がる。 For example, when registering business data, if one item is changed, other items may need to be changed as well. In this embodiment, the rules between items can be derived from existing data. Specifically, by improving the existing decision tree algorithm, simple presentation of rules between items (between the certain item and the other item) has been realized. In addition, for example, if the operation rules vary or are not clear for each individual company, it may be difficult to pre-configure the system. In this embodiment, by deriving rules using existing data, it can be used for support and checking at the time of subsequent input, and as a result, it leads to reduction of input errors and improvement of input efficiency.

[4-2.社員情報の登録および変更のまとめ]
このように、本実施形態に係る情報処理装置100によれば、[1-2]、[3-2]および[3-3]で説明したように、身分項目値(例えば、社員区分は正社員かアルバイトか、性別は男か女か等)をオペレータが選択するのみで、当該選択された身分項目値に対して登録するべき給与項目値(例えば、給与区分は何か、保険種別は何か、雇用保険区分は何か等)のパターンの候補を画面上に表示することにより、前記パターンの登録の業務を支援できる。
[4-2. Summary of registering and changing employee information]
Thus, according to the information processing apparatus 100 according to the present embodiment, as described in [1-2], [3-2], and [3-3], the status item value (for example, the employee classification is regular employee or part-time job, gender is male or female, etc.), and the salary item value to be registered for the selected status item value (for example, what is the salary category, what is the insurance type? , What is the employment insurance classification, etc.) can be displayed on the screen to support the operation of registering the patterns.

ここで、給与を計算する際に設定(すなわち新規登録)すべき社員の情報には、膨大な項目数がある。また、項目を1つ変更する際には、給与規定により、同時に変更すべき項目が多数存在することが多い。しかしながら、給与規定は会社ごとに異なることが多いため、従来においては、システム上で項目の新規登録および変更を行うことはできなかった。このため、手作業により、項目の新規登録および変更を行う必要があり、登録漏れ、登録ミス、変更漏れおよび変更ミス等が度々発生していた。 Here, there are a huge number of items in employee information that should be set (that is, newly registered) when calculating salaries. Also, when changing one item, there are often many items to be changed at the same time due to salary regulations. However, since salary regulations often differ from company to company, it was not possible to newly register or change items on the system in the past. For this reason, it is necessary to manually register new items and change items.

そこで、本実施形態においては、例えば、システムに登録された大量の社員データを例えばAI分析することで、社員情報の値の登録および変更時に、登録すべき項目および変更すべき項目を提案できるようにした。このように、自社の給与規定に沿った登録および変更の内容をシステムが提案することにより、例えば、登録漏れ、登録ミス、変更漏れおよび変更ミス等を未然に防ぎ、給与の誤支給を防止することができる。更に、例えば、登録作業および変更作業を容易にすることもできる。 Therefore, in the present embodiment, for example, by AI analysis of a large amount of employee data registered in the system, it is possible to propose items to be registered and items to be changed when registering and changing values of employee information. made it In this way, the system proposes the content of registration and changes in accordance with the company's salary regulations, thereby preventing, for example, omissions in registration, mistakes in registration, omissions in changes, and mistakes in changes, etc., and erroneous payment of salaries. be able to. Furthermore, for example, registration work and change work can be facilitated.

[5.他の実施形態]
本発明は、上述した実施形態以外にも、特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施形態にて実施されてよいものである。
[5. Other embodiments]
The present invention may be implemented in various different embodiments other than the embodiments described above within the scope of the technical idea described in the claims.

例えば、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。 For example, among the processes described in the embodiments, all or part of the processes described as being automatically performed can be manually performed, or all of the processes described as being manually performed Alternatively, some can be done automatically by known methods.

また、本明細書中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。 In addition, unless otherwise specified, the processing procedures, control procedures, specific names, information including parameters such as registration data and search conditions for each process, screen examples, and database configurations shown in this specification and drawings can be changed arbitrarily.

また、情報処理装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。 Also, with respect to the information processing apparatus 100, each illustrated component is functionally conceptual, and does not necessarily need to be physically configured as illustrated.

例えば、情報処理装置100が備える処理機能、特に制御部にて行われる各処理機能については、その全部または任意の一部を、CPUおよび当該CPUにて解釈実行されるプログラムにて実現してもよく、また、ワイヤードロジックによるハードウェアとして実現してもよい。尚、プログラムは、本実施形態で説明した処理を情報処理装置に実行させるためのプログラム化された命令を含む一時的でないコンピュータ読み取り可能な記録媒体に記録されており、必要に応じて情報処理装置100に機械的に読み取られる。すなわち、ROMまたはHDD(Hard Disk Drive)などの記憶部などには、OSと協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部を構成する。 For example, the processing functions of the information processing apparatus 100, particularly the processing functions performed by the control unit, may be implemented in whole or in part by a CPU and a program interpreted and executed by the CPU. Alternatively, it may be implemented as hardware by wired logic. The program is recorded on a non-temporary computer-readable recording medium containing programmed instructions for causing the information processing apparatus to execute the processing described in this embodiment, and the information processing apparatus as necessary. 100 mechanically read. That is, a storage unit such as a ROM or HDD (Hard Disk Drive) stores a computer program for giving commands to the CPU in cooperation with the OS to perform various processes. This computer program is executed by being loaded into the RAM and constitutes a control section in cooperation with the CPU.

また、このコンピュータプログラムは、情報処理装置100に対して任意のネットワークを介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。 Further, this computer program may be stored in an application program server connected to the information processing apparatus 100 via any network, and all or part of it can be downloaded as necessary. be.

また、本実施形態で説明した処理を実行するためのプログラムを、一時的でないコンピュータ読み取り可能な記録媒体に格納してもよく、また、プログラム製品として構成することもできる。ここで、この「記録媒体」とは、メモリーカード、USB(Universal Serial Bus)メモリ、SD(Secure Digital)カード、フレキシブルディスク、光磁気ディスク、ROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(登録商標)(Electrically Erasable and Programmable Read Only Memory)、CD-ROM(Compact Disk Read Only Memory)、MO(Magneto-Optical disk)、DVD(Digital Versatile Disk)、および、Blu-ray(登録商標) Disc等の任意の「可搬用の物理媒体」を含むものとする。 Also, the program for executing the processing described in this embodiment may be stored in a non-temporary computer-readable recording medium, or may be configured as a program product. Here, the term "recording medium" refers to memory cards, USB (Universal Serial Bus) memories, SD (Secure Digital) cards, flexible disks, magneto-optical disks, ROMs, EPROMs (Erasable Programmable Read Only Memory), EEPROMs (registered (trademark) (Electrically Erasable and Programmable Read Only Memory), CD-ROM (Compact Disk Read Only Memory), MO (Magneto-Optical disk), DVD (Digital Versatile Disk), and Disc (registered trademark) such as Blu- shall include any "portable physical medium".

また、「プログラム」とは、任意の言語または記述方法にて記述されたデータ処理方法であり、ソースコードまたはバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OSに代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施形態に示した各装置において記録媒体を読み取るための具体的な構成および読み取り手順ならびに読み取り後のインストール手順等については、周知の構成や手順を用いることができる。 A "program" is a data processing method written in any language or writing method, regardless of the format such as source code or binary code. In addition, the "program" is not necessarily limited to a single configuration, but is distributed as multiple modules or libraries, or cooperates with a separate program represented by the OS to achieve its function. Including things. It should be noted that well-known configurations and procedures can be used for the specific configuration and reading procedure for reading the recording medium in each device shown in the embodiments, the installation procedure after reading, and the like.

記憶部に格納される各種のデータベース等は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、および、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラム、テーブル、データベース、および、ウェブページ用ファイル等を格納する。 The various databases stored in the storage unit are storage means such as memory devices such as RAM and ROM, fixed disk devices such as hard disks, flexible disks, and optical disks. It stores programs, tables, databases, files for web pages, and so on.

また、情報処理装置100は、既知のパーソナルコンピュータまたはワークステーション等の情報処理装置として構成してもよく、また、任意の周辺装置が接続された当該情報処理装置として構成してもよい。また、情報処理装置100は、当該装置に本実施形態で説明した処理を実現させるソフトウェア(プログラムまたはデータ等を含む)を実装することにより実現してもよい。 Further, the information processing apparatus 100 may be configured as an information processing apparatus such as a known personal computer or workstation, or may be configured as the information processing apparatus to which arbitrary peripheral devices are connected. Further, the information processing apparatus 100 may be implemented by installing software (including programs, data, etc.) that causes the apparatus to implement the processes described in the present embodiment.

更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じてまたは機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。すなわち、上述した実施形態を任意に組み合わせて実施してもよく、実施形態を選択的に実施してもよい。 Furthermore, the specific forms of distribution and integration of devices are not limited to those shown in the figures, and all or part of them can be functionally or physically arranged in arbitrary units according to various additions or functional loads. It can be distributed and integrated. In other words, the embodiments described above may be arbitrarily combined and implemented, or the embodiments may be implemented selectively.

本発明は、あらゆる業界および業種において有用であるが、特に、給与の支払を管理する分野においては極めて有用である。 INDUSTRIAL APPLICABILITY The present invention is useful in all industries and industries, but is particularly useful in the field of managing salary payments.

100 情報処理装置
102 制御部
102a レコード分割部
102b 割合算出部
102c 分析結果作成部
102d 改善量算出部
102e 分析結果出力部
102f 不純度算出部
102g 登録候補パターン表示部
102h パターン登録部
102i 登録候補項目表示部
102j パターン定義表示部
102k 変更候補項目表示部
104 通信インターフェース部
106 記憶部
106a 分析対象データ
106a1 社員データ
106b 自動更新定義マスタ
106c 社員区分マスタ
106d 給与区分マスタ
106e 役職マスタ
106f 等級マスタ
106g 職種マスタ
106h 勤務地マスタ
106i 計算定義マスタ
108 入出力インターフェース部
112 入力装置
114 出力装置
200 サーバ
300 ネットワーク
100 information processing device 102 control unit
102a record dividing unit
102b ratio calculator
102c Analysis result creation unit
102d improvement amount calculation unit
102e analysis result output unit
102f Impurity calculator
102g registration candidate pattern display section
102h Pattern registration unit
102i registration candidate item display area
102j Pattern definition display area
102k change candidate item display unit 104 communication interface unit 106 storage unit
106a Data to be analyzed
106a1 Employee Data
106b Automatic update definition master
106c Employee classification master
106d Salary category master
106e Job title master
106f grade master
106g Occupation master
106h Work location master
106i calculation definition master 108 input/output interface unit 112 input device 114 output device 200 server 300 network

Claims (8)

制御部を備えるデータ分析装置であって、
前記制御部は、
説明変数と複数の目的変数とを有するレコードを複数含む分析対象データ中の前記レコードを、特定の前記説明変数を基準として、当該基準とした説明変数の値ごとにレコード群に分割するレコード分割手段と、
前記レコード分割手段で分割して求めた前記レコード群ごとに、同一の前記目的変数内における最頻値および当該最頻値が占める割合を、前記複数の目的変数すべてについて算出する割合算出手段と、
前記レコード分割手段で前記分割の基準とした前記説明変数の値ごとに、前記複数の目的変数すべてについて前記割合算出手段で算出した前記最頻値および前記割合を含む分析結果を作成する分析結果作成手段と、
を備えること、
を特徴とするデータ分析装置。
A data analysis device comprising a control unit,
The control unit
Record dividing means for dividing the records in the data to be analyzed including a plurality of records having an explanatory variable and a plurality of objective variables into a group of records based on the specific explanatory variable as a reference, and for each value of the explanatory variable used as the reference. When,
a ratio calculating means for calculating, for each of the record groups obtained by dividing by the record dividing means, the mode value in the same objective variable and the ratio of the mode value to all of the plurality of objective variables;
analysis result creation for creating an analysis result including the mode value and the ratio calculated by the ratio calculation unit for each of the values of the explanatory variable used as the basis for the division by the record division unit; means and
to provide
A data analysis device characterized by:
前記レコード分割手段は、
前記分割の基準とした前記説明変数以外の前記説明変数を新たな基準として前記分割を繰り返し、前記分割して求めた前記レコード群中の前記レコードの数、前記分割を実行した回数および前記分割前と前記分割後の間での前記目的変数についての不純度の改善量である不純度改善量のうちの少なくとも1つに応じて、前記分割を停止すること、
を特徴とする請求項1に記載のデータ分析装置。
The record dividing means
The division is repeated using the explanatory variable other than the explanatory variable used as the basis for the division as a new basis, and the number of the records in the record group obtained by the division, the number of times the division is performed, and the number before the division Stopping the division according to at least one of an impurity improvement amount that is an impurity improvement amount for the objective variable between and after the division;
The data analysis device according to claim 1, characterized by:
前記制御部は、
前記分割前の不純度から前記分割後の不純度を差し引いた値を、前記不純度改善量として前記目的変数ごとに算出する改善量算出手段と、
前記分析結果のうち、前記改善量算出手段で算出した前記不純度改善量が所定の値以上となった前記目的変数についての前記分割後の前記最頻値および前記割合のみを出力する分析結果出力手段と、
を更に備えること、
を特徴とする請求項に記載のデータ分析装置。
The control unit
improvement amount calculation means for calculating a value obtained by subtracting the impurity after the division from the impurity before the division as the impurity improvement amount for each of the objective variables;
Analysis result output for outputting only the mode value and the ratio after the division for the objective variable for which the impurity improvement amount calculated by the improvement amount calculation means is equal to or greater than a predetermined value, among the analysis results. means and
further providing
3. The data analysis device according to claim 2 , characterized by:
前記制御部は、
1から、同一の前記目的変数内での各値の割合の2乗の和を差し引いた値を、前記不純度として算出する不純度算出手段
を更に備えること、
を特徴とする請求項2または3に記載のデータ分析装置。
The control unit
Impurity calculation means for calculating the value obtained by subtracting the sum of the squares of the ratios of the values in the same objective variable from 1 as the impurity,
4. The data analysis device according to claim 2 or 3, characterized by:
前記分析結果作成手段は、
前記分析結果として、前記レコード分割手段で前記分割の基準とした前記説明変数および当該説明変数の値に基づいて階層的に分岐させた枝ごとに、前記複数の目的変数すべてについて前記割合算出手段で算出した前記最頻値および前記割合を含む決定木を作成すること、
を特徴とする請求項1から4のいずれか一つに記載のデータ分析装置。
The analysis result creation means is
As the analysis result, the ratio calculating means for all of the plurality of objective variables for each branch hierarchically branched based on the explanatory variable used as the criterion for the division by the record dividing means and the value of the explanatory variable creating a decision tree including the calculated mode and the proportion;
5. The data analysis device according to any one of claims 1 to 4, characterized by:
前記説明変数が、社員の身分を特定するための項目であり、
前記目的変数が、前記社員に対する給与についての計算の仕方または支給の仕方を決定するための項目であること、
を特徴とする請求項1から5のいずれか一つに記載のデータ分析装置。
The explanatory variable is an item for identifying an employee's status,
The objective variable is an item for determining how to calculate or pay the salary to the employee;
6. The data analysis device according to any one of claims 1 to 5, characterized by:
制御部を備える情報処理装置で実行されるデータ分析方法であって、
前記制御部で実行される、
説明変数と複数の目的変数とを有するレコードを複数含む分析対象データ中の前記レコードを、特定の前記説明変数を基準として、当該基準とした説明変数の値ごとにレコード群に分割するレコード分割ステップと、
前記レコード分割ステップで分割して求めた前記レコード群ごとに、同一の前記目的変数内における最頻値および当該最頻値が占める割合を、前記複数の目的変数すべてについて算出する割合算出ステップと、
前記レコード分割ステップで前記分割の基準とした前記説明変数の値ごとに、前記複数の目的変数すべてについて前記割合算出ステップで算出した前記最頻値および前記割合を含む分析結果を作成する分析結果作成ステップと、
を含むこと、
を特徴とするデータ分析方法。
A data analysis method executed by an information processing device comprising a control unit,
executed by the control unit;
A record splitting step of splitting the records in the data to be analyzed including a plurality of records having an explanatory variable and a plurality of objective variables into a group of records based on the specific explanatory variable as a reference, for each value of the explanatory variable used as the reference. When,
a ratio calculating step of calculating, for each of the record groups obtained by dividing in the record dividing step, the mode value in the same objective variable and the ratio of the mode value to all of the plurality of objective variables;
creating an analysis result including the mode value and the ratio calculated in the ratio calculating step for each value of the explanatory variable used as the basis for the division in the record dividing step; a step;
including
A data analysis method characterized by:
制御部を備える情報処理装置に実行させるためのデータ分析プログラムであって、
前記制御部に実行させるための、
説明変数と複数の目的変数とを有するレコードを複数含む分析対象データ中の前記レコードを、特定の前記説明変数を基準として、当該基準とした説明変数の値ごとにレコード群に分割するレコード分割ステップと、
前記レコード分割ステップで分割して求めた前記レコード群ごとに、同一の前記目的変数内における最頻値および当該最頻値が占める割合を、前記複数の目的変数すべてについて算出する割合算出ステップと、
前記レコード分割ステップで前記分割の基準とした前記説明変数の値ごとに、前記複数の目的変数すべてについて前記割合算出ステップで算出した前記最頻値および前記割合を含む分析結果を作成する分析結果作成ステップと、
を含むこと、
を特徴とするデータ分析プログラム。
A data analysis program to be executed by an information processing device comprising a control unit,
for causing the control unit to execute
A record splitting step of splitting the records in the data to be analyzed including a plurality of records having an explanatory variable and a plurality of objective variables into a group of records based on the specific explanatory variable as a reference, for each value of the explanatory variable used as the reference. When,
a ratio calculating step of calculating, for each of the record groups obtained by dividing in the record dividing step, the mode value in the same objective variable and the ratio of the mode value to all of the plurality of objective variables;
creating an analysis result including the mode value and the ratio calculated in the ratio calculating step for each value of the explanatory variable used as the basis for the division in the record dividing step; a step;
including
A data analysis program characterized by:
JP2019017207A 2019-02-01 2019-02-01 Data analysis device, data analysis method and data analysis program Active JP7197391B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019017207A JP7197391B2 (en) 2019-02-01 2019-02-01 Data analysis device, data analysis method and data analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019017207A JP7197391B2 (en) 2019-02-01 2019-02-01 Data analysis device, data analysis method and data analysis program

Publications (2)

Publication Number Publication Date
JP2020126331A JP2020126331A (en) 2020-08-20
JP7197391B2 true JP7197391B2 (en) 2022-12-27

Family

ID=72083985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019017207A Active JP7197391B2 (en) 2019-02-01 2019-02-01 Data analysis device, data analysis method and data analysis program

Country Status (1)

Country Link
JP (1) JP7197391B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015076076A (en) 2013-10-11 2015-04-20 カルチュア・コンビニエンス・クラブ株式会社 Customer data analysis system
WO2017046906A1 (en) 2015-09-16 2017-03-23 株式会社日立製作所 Data analysis device and analysis method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015076076A (en) 2013-10-11 2015-04-20 カルチュア・コンビニエンス・クラブ株式会社 Customer data analysis system
WO2017046906A1 (en) 2015-09-16 2017-03-23 株式会社日立製作所 Data analysis device and analysis method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kim, S. J., Lee, K. B. ,Constructing decision trees with multiple response variables,7th Asia-Pacific Decision Science Institute Conference [online],2002年07月24日,[retrieved on 2022.09.09],Retrieved from the Internet: <URL: http://gebrc.nccu.edu.tw/proceedings/APDSI/2002/title.htm>

Also Published As

Publication number Publication date
JP2020126331A (en) 2020-08-20

Similar Documents

Publication Publication Date Title
Octaviano et al. Semi-automatic selection of primary studies in systematic literature reviews: is it reasonable?
CA3022113A1 (en) Learning from historical logs and recommending database operations on a data-asset in an etl tool
Kristal Why has computerization increased wage inequality? Information, occupational structural power, and wage inequality
Turcu et al. Digital transformation of human resource processes in small and medium sized enterprises using robotic process automation
Botez Recent challenge for auditors: Using data analytics in the audit of the financial statements
US20190310982A1 (en) Data catalog automatic generation system and data catalog automatic generation method
JP7197391B2 (en) Data analysis device, data analysis method and data analysis program
JP6798856B2 (en) Amount calculation device, amount calculation method and amount calculation program
JP7158302B2 (en) PATTERN REGISTRATION SUPPORT DEVICE, PATTERN REGISTRATION SUPPORT METHOD AND PATTERN REGISTRATION SUPPORT PROGRAM
JP6489340B1 (en) Comparison target company selection system
Dinukova Functional Cost Analysis in the HR Management System
JP2020013617A (en) Accounting book management device, accounting book management method, and accounting book management program
CN110019182B (en) Data tracing method and device
Pustulka et al. Text mining innovation for business
JP2019101829A (en) Software component management system, computor, and method
CN112905589A (en) Scientific and technological talent data processing method, system, storage medium and terminal
WO2024047929A1 (en) Company evaluation processor system
Zandkarimi et al. Are we doing things right? An approach to measure process inefficiencies in the control flow
JP7300431B2 (en) Productivity Index Calculation Device, Productivity Index Calculation Method, and Productivity Index Calculation Program
JP7233177B2 (en) Budget control device, budget control method and budget control program
de Souza et al. Combining Clustering and Maturity Models to Provide Better Decisions to Elevate Maturity Level
JP7505998B2 (en) Budget data generation device, budget data generation method, and budget data generation program
JP7104817B2 (en) Voucher registration control device, voucher registration control method, and voucher registration control program
JP7361524B2 (en) Business support devices, business support methods, and business support programs
JP2018112988A (en) Journaling preparation device, journaling preparation method, and journaling preparation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221215

R150 Certificate of patent or registration of utility model

Ref document number: 7197391

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150