JP7354844B2 - Impact determination program, device, and method - Google Patents
Impact determination program, device, and method Download PDFInfo
- Publication number
- JP7354844B2 JP7354844B2 JP2020001670A JP2020001670A JP7354844B2 JP 7354844 B2 JP7354844 B2 JP 7354844B2 JP 2020001670 A JP2020001670 A JP 2020001670A JP 2020001670 A JP2020001670 A JP 2020001670A JP 7354844 B2 JP7354844 B2 JP 7354844B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- period
- multiple regression
- time
- satisfies
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
開示の技術は、影響判定技術に関する。 The disclosed technology relates to an impact determination technology.
教師あり機械学習により学習されたモデルに時系列データを入力し、入力した時系列データの時点よりも後の時点の状態等を推定(推論と言い換えることもできる)することが行われている。人事や金融領域における推定では、推定結果に対する解釈性が求められる場合がある。例えば、過去の勤怠データを入力し、将来的な休職の可能性を推定するような場合、入力した勤怠データのうち、どのデータの影響を強く受けたか、すなわち、休職の可能性あり又はなしと推定した理由の提示が求められる場合がある。 Time-series data is input into a model learned by supervised machine learning, and the state etc. at a time later than the input time-series data is estimated (which can also be called inference). Estimation in the human resources and financial fields may require interpretability of estimation results. For example, when inputting past attendance data and estimating the possibility of future leave of absence, it is important to know which of the inputted attendance data was most affected by the possibility of leave of absence or not. You may be required to provide the reason for your assumption.
推定結果の解釈に関する技術として、LIME(Local Interpretable Model-agnostic Explanations)という技術が提案されている。LIMEでは、時系列データに関する学習済みモデルにおいて、評価対象のデータ周辺の学習データを用いて学習済みモデルを局所的に近似した重回帰モデルを生成する。そして、重回帰モデルを示す回帰方程式の各説明変数に対応する偏回帰係数の大小に基づいて、より推定に影響を与えた説明変数を特定する。 A technique called LIME (Local Interpretable Model-agnostic Explanations) has been proposed as a technique for interpreting estimation results. In LIME, a multiple regression model is generated by locally approximating a learned model regarding time series data using learning data around the data to be evaluated. Then, based on the magnitude of the partial regression coefficient corresponding to each explanatory variable of the regression equation representing the multiple regression model, explanatory variables that have more influence on the estimation are identified.
しかしながら、従来技術では、データの時系列の特徴を捉えることができないため、推定結果の解釈性が低下するという問題がある。 However, in the conventional technology, the time-series characteristics of the data cannot be captured, so there is a problem that the interpretability of the estimation results deteriorates.
一つの側面として、開示の技術は、時系列データを用いた推定において、より推定結果に影響を与えた時系列データの部分を判定することを目的とする。 One aspect of the disclosed technique is to determine, in estimation using time-series data, a portion of the time-series data that has more influence on the estimation result.
一つの態様として、開示の技術は、時系列データに基づいて推定結果を出力する機械学習モデルを近似した重回帰モデルの各項に、前記時系列データの各時点のデータを時系列順に対応させ入力する。この際、開示の技術は、前記各時点のデータのそれぞれに対して、前記各時点のデータのそれぞれより後の時点のデータに対応する前記重回帰モデルの項の偏回帰係数を0として、重回帰値を算出する。また、開示の技術は、前記各時点のデータのそれぞれについて算出された前記重回帰値の変化に応じて、前記時系列データが示す期間のうち、特定の条件を満たす期間を特定する。そして、開示の技術は、特定された前記特定の条件を満たす期間に関する情報を、前記推定結果に影響を与えた要因として出力する。 As one aspect, the disclosed technology associates data at each time point of the time series data in chronological order with each term of a multiple regression model that approximates a machine learning model that outputs estimation results based on time series data. input. At this time, the disclosed technology sets the partial regression coefficient of the term of the multiple regression model corresponding to data at a time later than each of the data at each time to 0, and Calculate the regression value. Further, the disclosed technique identifies a period that satisfies a specific condition among the periods indicated by the time series data, according to changes in the multiple regression values calculated for each of the data at each point in time. Then, the disclosed technology outputs information regarding a period that satisfies the identified specific condition as a factor that influenced the estimation result.
一つの側面として、時系列データを用いた推定において、より推定結果に影響を与えた時系列データの部分を判定することができる、という効果を有する。 One aspect is that in estimation using time-series data, it is possible to determine which part of the time-series data has more influence on the estimation result.
以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。以下の実施形態では、従業員の勤怠データに基づいて、数か月先のメンタル不調による休職に繋がる療養欠勤の発生を推定する推定システムに開示の技術の影響判定装置を適用した場合について説明する。 Hereinafter, an example of an embodiment according to the disclosed technology will be described with reference to the drawings. In the following embodiment, a case will be described in which the impact determination device of the disclosed technology is applied to an estimation system that estimates the occurrence of medical absences that will lead to absence from work due to mental illness several months in the future based on employee attendance data. .
図1に示すように、本実施形態に係る推定システム100は、影響判定装置10と、学習推定装置30とを含む。 As shown in FIG. 1, an estimation system 100 according to the present embodiment includes an influence determination device 10 and a learning estimation device 30.
学習推定装置30は、機能的には、図1に示すように、学習部31と、推定部32とを含む。また、学習推定装置30の所定の記憶領域には、学習モデル40が記憶される。 Functionally, the learning estimation device 30 includes a learning section 31 and an estimation section 32, as shown in FIG. Further, a learning model 40 is stored in a predetermined storage area of the learning estimation device 30.
学習部31は、学習用時系列データを受け付ける。学習用時系列データは、図2に示すように、各従業員の勤怠データに基づいて、日付毎に、残業、早退、遅刻等の有無、遅刻か休暇か等の特徴を抽出した所定期間分のデータである。図2の例では、残業、早退、遅刻、休暇、及び出勤の各項目について、日付毎のブロックで各特徴量を表しており、網掛のブロックが、各項目に該当することを表している。なお、学習データとして用いる特徴は上記の例に限定されず、出張の有無、残業時間の長さ等、他の特徴を用いてもよい。また、学習用時系列データの各々には、推定結果の正解が対応付けられている。 The learning unit 31 receives learning time series data. As shown in Figure 2, the learning time-series data is based on the attendance data of each employee for a predetermined period of time, and features such as overtime work, early leaving, tardiness, etc., and whether they are late or on vacation are extracted for each date. This is the data. In the example of FIG. 2, each feature amount is represented by a block for each date for each item of overtime, leaving early, being late, vacation, and attendance, and the shaded block represents that it corresponds to each item. Note that the characteristics used as the learning data are not limited to the above example, and other characteristics such as whether or not the person has a business trip or the length of overtime work may be used. Further, each of the learning time series data is associated with a correct estimation result.
例えば、図3に示すように、参照期間(例えば、180日)の勤怠データに基づいて、参照期間以降の推定期間(例えば、90日)内にメンタルの問題に基づく休職に繋がる療養欠勤が発生するか否かを推定するとする。この場合、学習用時系列データは、参照期間分の時系列データであり、推定結果の正解は、推定期間における療養欠勤の有無である。 For example, as shown in Figure 3, based on attendance data for a reference period (e.g. 180 days), medical absences that lead to leave due to mental problems occur within an estimated period (e.g. 90 days) after the reference period. Let us estimate whether or not. In this case, the learning time series data is time series data for the reference period, and the correct estimation result is the presence or absence of medical absence during the estimation period.
学習部31は、受け付けた学習用時系列データのうち、療養欠勤ありの正解が対応付けられているデータを正例の学習データ、療養欠勤なしの正解が対応付けられているデータを負例の学習データとして、既存の手法を用いて学習モデル40を学習する。図4に、学習モデル40を概略的に示す。図4において、「1」は正例の学習データ、「0」は負例の学習データ、破線は学習モデル40の決定境界を示す。学習モデル40は、推定期間(上記の例では90日)に療養欠勤が発生する確度を出力する。 Of the received learning time series data, the learning unit 31 uses data associated with the correct answer ``with medical absence'' as positive example learning data, and data associated with the correct answer ``no medical absence'' as negative example learning data. As learning data, a learning model 40 is trained using an existing method. FIG. 4 schematically shows the learning model 40. In FIG. 4, "1" indicates learning data for positive examples, "0" indicates learning data for negative examples, and broken lines indicate decision boundaries of the learning model 40. The learning model 40 outputs the probability that medical absence will occur during the estimated period (90 days in the above example).
推定部32は、推定用時系列データを受け付ける。推定用時系列データは、図2に概念的に示す学習用時系列データと同様のデータ構造で、推定結果の正解が未知のデータである。推定部32は、学習部31により学習された学習モデル40に推定用時系列データを入力することにより、推定結果として、療養欠勤が発生する確度を得る。例えば、推定部32は、図3に示すように、毎月1回(例えば、毎月1日)に、各従業員の直前の180日分の勤怠データを推定用時系列データとして学習モデル40に入力することで、直後の90日以内に療養欠勤が発生する確度を推定する。 The estimation unit 32 receives estimation time series data. The time series data for estimation has a data structure similar to the time series data for learning conceptually shown in FIG. 2, and the correct answer of the estimation result is unknown. The estimation unit 32 inputs the estimation time series data into the learning model 40 learned by the learning unit 31, thereby obtaining the probability that medical absence will occur as an estimation result. For example, as shown in FIG. 3, the estimation unit 32 inputs the last 180 days of attendance data of each employee into the learning model 40 as estimation time series data once a month (for example, on the 1st of every month). By doing so, the probability that medical absence will occur within the immediately following 90 days is estimated.
なお、図3の例では、推定1の段階では、療養欠勤が発生する確度が低く、推定2~4の段階では、療養欠勤が発生する確度が高く推定できていれば、推定成功である。 In the example of FIG. 3, at the estimation stage 1, the probability that medical absence will occur is low, and at the estimation stages 2 to 4, if the probability that medical absence will occur is high, the estimation is successful.
推定部32は、例えば、図5に示すように、療養欠勤が発生する確度が高い順に該当の従業員をリストにした推定結果を出力する。図5の例では、推定結果を示すリストには、該当の従業員の「従業員番号」、推定用時系列データの期間に相当する「参照期間」、「推定期間」、療養欠勤が発生する「確度」、「理由提示」等の項目が含まれている。「理由提示」欄には、各従業員についての推定結果の解釈、すなわち推定の理由の提示を指示するための理由提示ボタンが表示される。 For example, as shown in FIG. 5, the estimating unit 32 outputs an estimation result in which employees are listed in descending order of probability of occurrence of medical absence. In the example in Figure 5, the list showing the estimation results includes the "employee number" of the relevant employee, the "reference period" corresponding to the period of time series data for estimation, the "estimated period", and the occurrence of medical absences. Items such as "accuracy" and "reason presentation" are included. The "reason presentation" column displays a reason presentation button for instructing interpretation of the estimation results for each employee, that is, presentation of the reason for the estimation.
影響判定装置10は、機能的には、図1に示すように、重回帰モデル学習部11と、算出部12と、特定部13と、出力部14とを含む。また、影響判定装置10の所定の記憶領域には、重回帰モデル20が記憶される。 The influence determination device 10 functionally includes a multiple regression model learning section 11, a calculation section 12, a specifying section 13, and an output section 14, as shown in FIG. Further, a multiple regression model 20 is stored in a predetermined storage area of the influence determination device 10.
重回帰モデル学習部11は、図6に示すように、学習モデル40に対応する特徴空間において、該当の従業員についての推定用時系列データの周辺の学習データを用いて、学習モデル40の決定境界を局所的に近似した重回帰モデル20を生成する。図6において、「1」は正例の学習データ、「0」は負例の学習データ、「a」は対象の推定用時系列データ、破線は学習モデル40の決定境界、一点鎖線は重回帰モデル20の決定境界を示す。この重回帰モデル20は、下記(1)式で表される。
y=α1x1+α2x2+・・・αnxn+β ・・・(1)
As shown in FIG. 6, the multiple regression model learning unit 11 determines the learning model 40 using learning data surrounding the estimation time series data for the relevant employee in the feature space corresponding to the learning model 40. A multiple regression model 20 that locally approximates the boundary is generated. In FIG. 6, "1" is the learning data of positive examples, "0" is the learning data of negative examples, "a" is the target time series data for estimation, the broken line is the decision boundary of the learning model 40, and the dashed line is multiple regression. The decision boundary of model 20 is shown. This multiple regression model 20 is expressed by the following equation (1).
y= α1x1 + α2x2 + ... αnxn +β... ( 1 )
(1)式において、yは療養欠勤が発生する確度、xiはi番目の説明変数であり、時系列データの先頭からi番目の日付に相当し、nは時系列データに含まれるデータ数、すなわち日数である。また、αiは説明変数xiについての偏回帰係数、βは切片である。 In equation (1), y is the probability that medical absence will occur, x i is the i-th explanatory variable, which corresponds to the i-th date from the beginning of the time-series data, and n is the number of data included in the time-series data. , that is, the number of days. Further, α i is a partial regression coefficient for the explanatory variable x i , and β is an intercept.
ここで、上述したLIMEの技術を用いた推定結果の解釈では、図7に示すように、偏回帰係数αiを、説明変数xi、すなわちi番目の日付の勤怠データが推定結果に与えた影響の度合いを示す影響度とする。そして、影響度が閾値以上の日付の勤怠データが、より推定結果に影響を与えた勤怠データとして提示される。この場合、同じ特徴量の日付(説明変数)は同じ影響度が算出され、日付単体の影響度しかわからない。例えば、人事部門や健康管理担当部門等の担当者は、図5に示すような推定結果でリストアップされた従業員との面談等の対策を行う。この際、担当者は、影響度がどのように時間と共に変化しているか、影響度の大きい期間はどこなのか等、推定結果に影響を与えた時系列データの特徴を把握したい場合がある。 Here, in the interpretation of the estimation results using the above-mentioned LIME technology, as shown in FIG. 7, the partial regression coefficient α The degree of influence indicates the degree of influence. Then, the attendance data of dates whose degree of influence is equal to or higher than the threshold value is presented as attendance data that has more influenced the estimation result. In this case, the same degree of influence is calculated for dates (explanatory variables) with the same feature amount, and only the degree of influence of the date alone is known. For example, a person in charge of the human resources department, health management department, etc. takes measures such as interviews with the employees listed in the estimation results as shown in FIG. At this time, the person in charge may want to understand the characteristics of the time-series data that influenced the estimation results, such as how the degree of influence changes over time and which period has the greatest degree of influence.
そこで、本実施形態に係る影響判定装置10では、時系列データの特徴を捉えた指標に基づいて、推定結果に影響を与えた時系列データの部分を判定する。以下、算出部12、特定部13、及び出力部14の各々について詳述する。 Therefore, the influence determination device 10 according to the present embodiment determines the portion of the time series data that influenced the estimation result based on an index that captures the characteristics of the time series data. Hereinafter, each of the calculation section 12, the identification section 13, and the output section 14 will be explained in detail.
算出部12は、重回帰モデル学習部11により生成された重回帰モデル20において、推定用時系列データに含まれる各データに対応する日付より後の日付に対応する項の偏回帰係数を0とした場合の重回帰値を、日付(説明変数)毎の影響度として算出する。 In the multiple regression model 20 generated by the multiple regression model learning unit 11, the calculation unit 12 sets the partial regression coefficient of the term corresponding to the date after the date corresponding to each data included in the estimation time series data to 0. In this case, the multiple regression value is calculated as the degree of influence for each date (explanatory variable).
具体的には、算出部12は、以下に示すように、i番目の日付(説明変数)についての影響度yiを算出する。
y0=0+0+・・・0+β
y1=α1x1+0+・・・0+β
y2=α1x1+α2x2+0+・・・0+β
・・・
yn=α1x1+α2x2+・・・αnxn+β
Specifically, the calculation unit 12 calculates the degree of influence y i for the i-th date (explanatory variable) as shown below.
y 0 =0+0+...0+β
y 1 =α 1 x 1 +0+...0+β
y 2 =α 1 x 1 +α 2 x 2 +0+...0+β
...
y n = α 1 x 1 + α 2 x 2 +... α n x n + β
これにより、図8に示すように、時系列順に各日付の偏回帰係数が積算された影響度が算出される。このように各日付の偏回帰係数を時系列順に積算して影響度を算出することで、図9の上段の図に示すように、時系列順の影響度を示す波形の傾きから、影響度が高くなっている期間を理解することができる。 As a result, as shown in FIG. 8, the degree of influence is calculated by integrating the partial regression coefficients of each date in chronological order. In this way, by integrating the partial regression coefficients of each date in chronological order to calculate the degree of influence, as shown in the upper diagram of Figure 9, the degree of influence be able to understand periods when the value is high.
算出部12は、算出した日付(説明変数xi)毎の影響度yiを特定部13へ受け渡す。 The calculation unit 12 passes the calculated degree of influence y i for each date (explanatory variable x i ) to the identification unit 13 .
特定部13は、影響度yiの時系列における変化に応じて、推定用時系列データが示す期間のうち、より推定結果への影響が大きい期間である重要期間を特定する。特定部13は、影響度yiが、時系列順に継続的に増加する期間を重要期間として特定することができる。より具体的には、特定部13は、影響度yiの傾きを日付(説明変数xi)毎に算出し、予め定めた閾値以上の傾きの日付(説明変数xi)が所定数連続する期間を重要期間として特定することができる。 The specifying unit 13 specifies an important period, which is a period that has a greater influence on the estimation result, among the periods indicated by the estimation time series data, according to the change in the degree of influence y i in the time series. The identifying unit 13 can identify a period in which the degree of influence y i continuously increases in chronological order as an important period. More specifically, the identifying unit 13 calculates the slope of the influence degree y i for each date (explanatory variable x i ), and determines that a predetermined number of consecutive dates (explanatory variable x i ) have a slope equal to or greater than a predetermined threshold. Periods can be identified as critical periods.
例えば、特定部13は、説明変数xiについて、周辺の説明変数、例えば、xi-2,xi-1,xi+1,xi+2の影響度を用いて、説明変数xiの影響度の傾きを算出する。特定部13は、例えば、下記(2)式により、説明変数xiについての傾きbiを算出することができる。
(2)式において、x-(式中では、xの上に「バー」)は、説明変数xi、及びその周辺の説明変数の平均、y-(式中では、yの上に「バー」)は、説明変数xi、及びその周辺の説明変数の各々の影響度の平均である。図9の中段に、時系列順の傾きbiの波形を示す。 In formula (2), x - (in the formula, a "bar" above x) is the average of the explanatory variable x i and its surrounding explanatory variables, and y - (in the formula, a "bar" above y '') is the average degree of influence of the explanatory variable x i and each of its surrounding explanatory variables. The middle part of FIG. 9 shows the waveform of the slope b i in chronological order.
特定部13は、図9の下段の図及び図10に示すように、所定の閾値th(例えば、1.5)以上の影響度の傾きbiが所定数以上連続している期間を重要期間として特定する。推定用時系列データが示す期間内に重要期間に該当する期間が複数存在する場合、特定部13は、それらの全ての期間を重要期間として特定する。この場合、特定部13は、各重要期間内の傾きbiの平均値が高い順に重要期間をランク付けしてもよい。特定部13は、特定した重要期間を出力部14に通知する。 As shown in the lower diagram of FIG. 9 and FIG. 10, the identification unit 13 defines a period in which the slope b i of the degree of influence is equal to or higher than a predetermined threshold value th (for example, 1.5) for a predetermined number or more consecutive periods as an important period. Specify as. If there are a plurality of periods that correspond to important periods within the period indicated by the estimation time series data, the specifying unit 13 specifies all of the periods as important periods. In this case, the identifying unit 13 may rank the important periods in descending order of the average value of the slope b i within each important period. The identifying unit 13 notifies the output unit 14 of the identified important period.
出力部14は、学習推定装置30から出力された、例えば図5に示すような推定結果において選択された理由提示ボタンに対応する従業員について、特定部13により特定された重要期間を推定理由として出力する。また、出力部14は、推定用時系列データの重要期間に含まれるデータ、及び重要期間に含まれるデータの集計結果の少なくとも一方を、推定結果に影響を与えた要因として、推定理由に含めて出力してもよい。図11に、推定理由の出力例を示す。図11の例では、1つの重要期間が特定されており、重要期間に含まれるデータの集計結果を重要期間と共に出力した例を示している。 The output unit 14 outputs the important period specified by the identification unit 13 as the estimation reason for the employee corresponding to the reason presentation button selected in the estimation result as shown in FIG. 5, for example, output from the learning estimation device 30. Output. In addition, the output unit 14 includes at least one of the data included in the important period of the estimation time series data and the aggregation result of the data included in the important period as a factor that influenced the estimation result in the estimation reason. You can also output it. FIG. 11 shows an output example of the estimated reason. In the example of FIG. 11, one important period is specified, and an example is shown in which aggregation results of data included in the important period are output together with the important period.
図12に、推定理由の他の出力例を示す。図12の例では、出力部14は、重要期間と共に、推定用時系列データが示す期間のうち、重要期間のデータと、重要期間以外の期間のデータとを比較した結果を、推定結果に影響を与えた要因として出力している。 FIG. 12 shows another output example of the presumed reason. In the example of FIG. 12, the output unit 14 outputs the result of comparing the data of the important period and the data of the period other than the important period among the periods indicated by the estimation time-series data, as well as the important period. It is output as a factor that gave.
影響判定装置10は、例えば図13に示すコンピュータ50で実現することができる。コンピュータ50は、CPU(Central Processing Unit)51と、一時記憶領域としてのメモリ52と、不揮発性の記憶部53とを備える。また、コンピュータ50は、入力部、表示部等の入出力装置54と、記憶媒体59に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部55とを備える。また、コンピュータ50は、インターネット等のネットワークに接続される通信I/F(Interface)56を備える。CPU51、メモリ52、記憶部53、入出力装置54、R/W部55、及び通信I/F56は、バス57を介して互いに接続される。 The influence determination device 10 can be realized, for example, by a computer 50 shown in FIG. 13. The computer 50 includes a CPU (Central Processing Unit) 51, a memory 52 as a temporary storage area, and a nonvolatile storage section 53. The computer 50 also includes an input/output device 54 such as an input section and a display section, and an R/W (Read/Write) section 55 that controls reading and writing of data to and from a storage medium 59. The computer 50 also includes a communication I/F (Interface) 56 connected to a network such as the Internet. The CPU 51, memory 52, storage section 53, input/output device 54, R/W section 55, and communication I/F 56 are connected to each other via a bus 57.
記憶部53は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部53には、コンピュータ50を、影響判定装置10として機能させるための影響判定プログラム60が記憶される。影響判定プログラム60は、重回帰モデル学習プロセス61と、算出プロセス62と、特定プロセス63と、出力プロセス64とを有する。 The storage unit 53 can be realized by an HDD (Hard Disk Drive), an SSD (Solid State Drive), a flash memory, or the like. An impact determination program 60 for causing the computer 50 to function as the impact determination device 10 is stored in the storage unit 53 as a storage medium. The influence determination program 60 includes a multiple regression model learning process 61 , a calculation process 62 , a specific process 63 , and an output process 64 .
CPU51は、影響判定プログラム60を記憶部53から読み出してメモリ52に展開し、影響判定プログラム60が有するプロセスを順次実行する。CPU51は、重回帰モデル学習プロセス61を実行することで、図1に示す重回帰モデル学習部11として動作する。また、CPU51は、算出プロセス62を実行することで、図1に示す算出部12として動作する。また、CPU51は、特定プロセス63を実行することで、図1に示す特定部13として動作する。また、CPU51は、出力プロセス64を実行することで、図1に示す出力部14として動作する。また、CPU51は、生成された重回帰モデル20をメモリ52に展開する。これにより、影響判定プログラム60を実行したコンピュータ50が、影響判定装置10として機能することになる。なお、プログラムを実行するCPU51はハードウェアである。 The CPU 51 reads the impact determination program 60 from the storage unit 53, expands it into the memory 52, and sequentially executes the processes included in the impact determination program 60. The CPU 51 operates as the multiple regression model learning section 11 shown in FIG. 1 by executing the multiple regression model learning process 61. Further, the CPU 51 operates as the calculation unit 12 shown in FIG. 1 by executing the calculation process 62. Further, the CPU 51 operates as the specifying unit 13 shown in FIG. 1 by executing the specifying process 63. Further, the CPU 51 operates as the output unit 14 shown in FIG. 1 by executing the output process 64. Further, the CPU 51 develops the generated multiple regression model 20 in the memory 52. Thereby, the computer 50 that has executed the influence determination program 60 functions as the influence determination apparatus 10. Note that the CPU 51 that executes the program is hardware.
なお、影響判定プログラム60により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。 Note that the functions realized by the influence determination program 60 can also be realized, for example, by a semiconductor integrated circuit, more specifically, an ASIC (Application Specific Integrated Circuit).
学習推定装置30も、影響判定装置10と同様に、CPU、メモリ、記憶部、入出力装置、R/W部、通信I/F等を含むコンピュータで実現することができるため、詳細な説明を省略する。 Like the influence determination device 10, the learning estimation device 30 can also be realized by a computer including a CPU, memory, storage section, input/output device, R/W section, communication I/F, etc., so a detailed explanation will be omitted. Omitted.
次に、本実施形態に係る推定システム100の作用について説明する。まず、学習推定装置30に学習用時系列データが入力されると、学習部31が、入力された学習用時系列データを受け付ける。そして、学習部31が、参照期間分(例えば、180日分)の時系列データに基づいて、それ以降の推定期間(例えば、90日)内に療養欠勤が発生する確度を推定するための学習モデル40を生成する。学習部31は、生成した学習モデル40を所定の記憶領域に記憶する。 Next, the operation of the estimation system 100 according to this embodiment will be explained. First, when learning time series data is input to the learning estimation device 30, the learning section 31 receives the input learning time series data. Then, the learning unit 31 performs learning to estimate the probability that medical absence will occur within a subsequent estimation period (for example, 90 days) based on the time series data for the reference period (for example, 180 days). A model 40 is generated. The learning unit 31 stores the generated learning model 40 in a predetermined storage area.
そして、学習推定装置30に推定用時系列データが入力されると、推定部32が、学習モデル40に推定用時系列データを入力することにより、推定結果として、療養欠勤が発生する確度を得る。推定部32は、例えば、図5に示すように、療養欠勤が発生する確度が高い順に該当の従業員をリストにした推定結果を出力する。 Then, when the estimation time series data is input to the learning estimation device 30, the estimation unit 32 inputs the estimation time series data to the learning model 40, thereby obtaining the probability that medical absence will occur as an estimation result. . For example, as shown in FIG. 5, the estimating unit 32 outputs an estimation result in which employees are listed in descending order of probability of occurrence of medical absence.
出力された推定結果を示すリストが、例えば、人事部門や健康管理担当部門等の担当者が使用する情報処理装置の表示部に表示されると、影響判定装置10において、図14に示す影響判定処理が実行される。なお、影響判定処理は、開示の技術の影響判定方法の一例である。 When a list indicating the output estimation results is displayed on the display section of an information processing device used by a person in charge of the human resources department, health management department, etc., the impact determination device 10 performs the impact determination shown in FIG. 14. Processing is executed. Note that the impact determination process is an example of the impact determination method of the disclosed technology.
ステップS11で、重回帰モデル学習部11が、推定結果を示すリストに含まれるいずれかの理由提示ボタンが選択されたか否かを判定することにより、理由提示が指示されたか否かを判定する。理由提示が指示された場合には、処理はステップS12へ移行し、指示されていない場合には、処理はステップS18へ移行する。 In step S11, the multiple regression model learning unit 11 determines whether presentation of a reason has been instructed by determining whether any reason presentation button included in the list indicating the estimation results has been selected. If the reason presentation is instructed, the process moves to step S12, and if the reason presentation is not instructed, the process moves to step S18.
ステップS12で、重回帰モデル学習部11が、学習モデル40に対応する特徴空間において、選択された理由提示ボタンに対応する従業員についての推定用時系列データの周辺の学習データを探索する。例えば、重回帰モデル学習部11は、推定用時系列データを示すベクトルと、学習データを示すベクトルとのユークリッド距離が所定値以下の学習データを周辺の学習データとして探索する。 In step S12, the multiple regression model learning unit 11 searches the feature space corresponding to the learning model 40 for learning data around the estimation time series data for the employee corresponding to the selected reason presentation button. For example, the multiple regression model learning unit 11 searches for learning data in which the Euclidean distance between the vector representing the estimation time series data and the vector representing the learning data is equal to or less than a predetermined value, as peripheral learning data.
次に、ステップS13で、重回帰モデル学習部11が、探索した周辺の学習データを用いて、該当の従業員についての推定用時系列データの周辺で、学習モデル40の決定境界を局所的に近似した重回帰モデル20を生成する。 Next, in step S13, the multiple regression model learning unit 11 uses the searched surrounding learning data to locally adjust the decision boundary of the learning model 40 around the estimation time series data for the relevant employee. An approximate multiple regression model 20 is generated.
次に、ステップS14で、算出部12が、重回帰モデル20において、推定用時系列データに含まれる各データに対応する日付より後の日付に対応する項の偏回帰係数を0とした場合の重回帰値を、日付(説明変数)毎の影響度として算出する。 Next, in step S14, the calculation unit 12 calculates, in the multiple regression model 20, the partial regression coefficient of the term corresponding to the date after the date corresponding to each data included in the estimation time series data is set to 0. The multiple regression value is calculated as the degree of influence for each date (explanatory variable).
次に、ステップS15で、特定部13が、例えば(2)式により、影響度の傾きを日付(説明変数)毎に算出する。 Next, in step S15, the specifying unit 13 calculates the slope of the degree of influence for each date (explanatory variable), for example, using equation (2).
次に、ステップS16で、特定部13が、所定の閾値th以上の影響度の傾きが所定数以上連続している期間を重要期間として特定する。特定部13は、特定した重要期間を出力部14に通知する。 Next, in step S16, the specifying unit 13 specifies as an important period a period in which the slope of the degree of influence is equal to or greater than a predetermined threshold value th for a predetermined number or more consecutively. The identifying unit 13 notifies the output unit 14 of the identified important period.
次に、ステップS17で、出力部14が、該当の従業員について、上記ステップS16で特定された重要期間を推定理由として提示する。出力部14は、推定用時系列データの重要期間に含まれるデータ、及び重要期間に含まれるデータの集計結果の少なくとも一方を、推定結果に影響を与えた要因として、推定理由に含めて出力してもよい。そして、処理はステップS11に戻る。 Next, in step S17, the output unit 14 presents the important period specified in step S16 as the reason for the estimation for the relevant employee. The output unit 14 outputs at least one of the data included in the important period of the estimation time series data and the aggregation result of the data included in the important period as factors that influenced the estimation result and included in the estimation reason. It's okay. Then, the process returns to step S11.
ステップS18では、推定結果を示すリストの表示の終了が指示されたか否かを判定する。リストの表示の終了が指示されていない場合には、処理はステップS11に戻り、終了が指示された場合には、影響判定処理は終了する。 In step S18, it is determined whether an instruction has been given to end the display of the list showing the estimation results. If the end of list display is not instructed, the process returns to step S11, and if the end is instructed, the influence determination process ends.
以上説明したように、本実施形態に係る推定システムによれば、影響判定装置が、過去の時系列データに基づいて、以降の推定期間における状態の推定結果を出力する学習モデルを局所的に近似した重回帰モデルを生成する。そして、影響判定装置は、重回帰モデルを示す回帰方程式の各項に、時系列データの各日付のデータを時系列順に対応させ、各日付に対応する項より後の項の偏回帰係数を0とした場合の重回帰値を、日付毎の影響度として算出する。さらに、影響判定装置は、日付毎の影響度の傾きが所定値以上で所定数連続する期間を重要期間として特定し、推定結果の理由として出力する。これにより、時系列データを用いた推定において、より推定結果に影響を与えた時系列データの部分を判定することができる。 As explained above, according to the estimation system according to the present embodiment, the influence determination device locally approximates the learning model that outputs the estimation result of the state in the subsequent estimation period based on the past time series data. generate a multiple regression model. Then, the influence determination device associates the data of each date of the time series data with each term of the regression equation indicating the multiple regression model in chronological order, and sets the partial regression coefficient of the term after the term corresponding to each date to 0. The multiple regression value is calculated as the degree of influence for each date. Further, the influence determination device identifies a period in which the slope of the degree of influence for each date is equal to or greater than a predetermined value for a predetermined number of consecutive periods as an important period, and outputs it as the reason for the estimation result. Thereby, in estimation using time-series data, it is possible to determine which part of the time-series data has more influence on the estimation result.
なお、上記実施形態では、従業員の勤怠データに基づいて、数か月先のメンタル不調による休職に繋がる療養欠勤の発生を推定する例について説明したが、これに限定されない。例えば、株価等の変動を予測するシステム等、時系列データを用いた推定に適用することができる。 In the above embodiment, an example has been described in which the occurrence of medical absences that will lead to absence from work due to mental illness several months in the future is estimated based on the employee's attendance data, but the present invention is not limited to this. For example, it can be applied to estimation using time-series data, such as a system for predicting changes in stock prices.
また、時系列データの単位も日付単位に限定されず、時間単位、週単位、月単位等でもよい。いずれの場合でも、各時点のデータを、重回帰モデルを示す回帰方程式の各項に時系列順に対応させることにより、開示の技術を適用することができる。 Moreover, the unit of time series data is not limited to the date unit, but may also be an hourly unit, weekly unit, monthly unit, or the like. In either case, the disclosed technique can be applied by associating data at each point in time with each term of a regression equation representing a multiple regression model in chronological order.
また、上記実施形態では、影響度の時系列的な変化を示す指標として、影響度の傾きを用いる場合について説明したが、これに限定されない。例えば、各時点の影響度の移動平均をとる等、周辺の時点における影響度を考慮した指標を用いてもよい。 Further, in the above embodiment, a case has been described in which the slope of the degree of influence is used as an index indicating a time-series change in the degree of influence, but the present invention is not limited to this. For example, an index that takes into account the degree of influence at surrounding times may be used, such as by taking a moving average of the degree of influence at each time point.
また、上記実施形態では、影響度判定装置と学習推定装置とを別々のコンピュータで実現する場合について説明したが、影響度判定装置と学習推定装置とを1つのコンピュータで実現してもよい。 Further, in the above embodiment, the case where the influence degree determination device and the learning estimation device are realized by separate computers has been described, but the influence degree determination device and the learning estimation device may be realized by one computer.
また、上記実施形態では、影響判定プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供することも可能である。 Further, in the above embodiment, a mode has been described in which the influence determination program is stored (installed) in the storage unit in advance, but the present invention is not limited to this. The program according to the disclosed technology can also be provided in a form stored in a storage medium such as a CD-ROM, DVD-ROM, or USB memory.
以上の実施形態に関し、更に以下の付記を開示する。 Regarding the above embodiments, the following additional notes are further disclosed.
(付記1)
時系列データに基づいて推定結果を出力する機械学習モデルを近似した重回帰モデルの各項に、前記時系列データの各時点のデータを時系列順に対応させ入力する際、前記各時点のデータのそれぞれに対して、前記各時点のデータのそれぞれより後の時点のデータに対応する前記重回帰モデルの項の偏回帰係数を0として、重回帰値を算出し、
前記各時点のデータのそれぞれについて算出された前記重回帰値の変化に応じて、前記時系列データが示す期間のうち、特定の条件を満たす期間を特定し、
特定された前記特定の条件を満たす期間に関する情報を、前記推定結果に影響を与えた要因として出力する、
処理をコンピュータに実行させることを特徴とする影響判定プログラム。
(Additional note 1)
When inputting data at each point in time series data in chronological order to each term of a multiple regression model that approximates a machine learning model that outputs estimation results based on time series data, For each, calculate a multiple regression value by setting the partial regression coefficient of the term of the multiple regression model corresponding to data at a time after each of the data at each time as 0,
Identifying a period that satisfies a specific condition among the periods indicated by the time series data according to changes in the multiple regression values calculated for each of the data at each point in time;
outputting information regarding a period that satisfies the identified specific condition as a factor that influenced the estimation result;
An impact determination program characterized by causing a computer to execute processing.
(付記2)
前記特定の条件を満たす期間を特定する処理は、前記各時点のデータのそれぞれに対して算出された前記重回帰値が、時系列順に継続的に増加する期間を、前記特定の条件を満たす期間として特定する処理である、
ことを特徴とする付記1に記載の影響判定プログラム。
(Additional note 2)
The process of identifying a period that satisfies the specific condition includes determining a period in which the multiple regression values calculated for each of the data at each time point continuously increase in chronological order as a period that satisfies the specific condition. It is a process to identify as
The impact determination program according to Supplementary Note 1, characterized in that:
(付記3)
前記重回帰値が継続的に増加する期間として特定する処理は、前記各時点のデータのそれぞれに対して算出された前記重回帰値の時系列における変化の度合いを前記各時点のデータのそれぞれに対して算出し、閾値以上の変化の度合いを示すデータが所定数連続する期間を、前記重回帰値が継続的に増加する期間として特定する処理である、
ことを特徴とする付記2に記載の影響判定プログラム。
(Additional note 3)
The process of identifying the period in which the multiple regression value continuously increases includes determining the degree of change in the time series of the multiple regression value calculated for each of the data at each time point for each of the data at each time point. is a process of calculating a period in which a predetermined number of consecutive data indicating a degree of change equal to or greater than a threshold value is present as a period in which the multiple regression value continuously increases.
The impact determination program according to appendix 2, characterized in that:
(付記4)
前記特定の条件を満たす期間に関連する情報は、前記特定の条件を満たす期間を示す情報、前記時系列データのうち前記特定の条件を満たす期間に含まれるデータを示す情報、前記時系列データのうち前記特定の条件を満たす期間に含まれるデータの集計結果、前記時系列データのうち前記特定の条件を満たす期間に含まれるデータとそれ以外のデータとの比較結果の少なくとも一つを含む、
ことを特徴とする付記1~付記3のいずれか1項に記載の影響判定プログラム。
(Additional note 4)
The information related to the period that satisfies the specific condition includes information indicating the period that satisfies the specific condition, information indicating data included in the period that satisfies the specific condition among the time series data, including at least one of the aggregation results of the data included in the period that satisfies the specific condition, and the comparison result of the data included in the period that satisfies the specific condition among the time series data and other data;
The impact determination program according to any one of Supplementary Notes 1 to 3, characterized in that:
(付記5)
前記重回帰モデルは、前記機械学習モデルの学習に利用された学習データであって、前記機械学習モデルに対応する特徴空間において、前記時系列データの周辺に位置する前記学習データを用いた機械学習により生成される、
ことを特徴とする付記1~付記4のいずれか1項に記載の影響判定プログラム。
(Appendix 5)
The multiple regression model is learning data used for learning the machine learning model, and is machine learning using the learning data located around the time series data in the feature space corresponding to the machine learning model. generated by,
The impact determination program according to any one of Supplementary Notes 1 to 4, characterized in that:
(付記6)
時系列データに基づいて推定結果を出力する機械学習モデルを近似した重回帰モデルの各項に、前記時系列データの各時点のデータを時系列順に対応させ入力する際、前記各時点のデータのそれぞれに対して、前記各時点のデータのそれぞれより後の時点のデータに対応する前記重回帰モデルの項の偏回帰係数を0として、重回帰値を算出する算出部と、
前記各時点のデータのそれぞれについて算出された前記重回帰値の変化に応じて、前記時系列データが示す期間のうち、特定の条件を満たす期間を特定する特定部と、
特定された前記特定の条件を満たす期間に関する情報を、前記推定結果に影響を与えた要因として出力する出力部と、
を含むことを特徴とする影響判定装置。
(Appendix 6)
When inputting data at each point in time series data in chronological order to each term of a multiple regression model that approximates a machine learning model that outputs estimation results based on time series data, a calculation unit that calculates a multiple regression value by setting the partial regression coefficient of the term of the multiple regression model corresponding to data at a time later than each of the data at each time to 0 for each;
a specifying unit that specifies a period that satisfies a specific condition among the periods indicated by the time-series data according to changes in the multiple regression values calculated for each of the data at each point in time;
an output unit that outputs information regarding a period that satisfies the identified specific condition as a factor that influenced the estimation result;
An influence determination device comprising:
(付記7)
前記特定部は、前記各時点のデータのそれぞれに対して算出された前記重回帰値が、時系列順に継続的に増加する期間を、前記特定の条件を満たす期間として特定する、
ことを特徴とする付記6に記載の影響判定装置。
(Appendix 7)
The identifying unit identifies a period in which the multiple regression value calculated for each of the data at each time point continuously increases in chronological order as a period that satisfies the specific condition.
The influence determination device according to appendix 6, characterized in that:
(付記8)
前記特定部は、前記各時点のデータのそれぞれに対して算出された前記重回帰値の時系列における変化の度合いを前記各時点のデータのそれぞれに対して算出し、閾値以上の変化の度合いを示すデータが所定数連続する期間を、前記重回帰値が継続的に増加する期間として特定する、
ことを特徴とする付記7に記載の影響判定装置。
(Appendix 8)
The identification unit calculates, for each of the data at each time, the degree of change in the multiple regression value in a time series calculated for each of the data at each time, and determines the degree of change equal to or greater than a threshold value. identifying a period in which a predetermined number of consecutive data shown as a period in which the multiple regression value continuously increases;
The influence determination device according to appendix 7, characterized in that:
(付記9)
前記特定の条件を満たす期間に関連する情報は、前記特定の条件を満たす期間を示す情報、前記時系列データのうち前記特定の条件を満たす期間に含まれるデータを示す情報、前記時系列データのうち前記特定の条件を満たす期間に含まれるデータの集計結果、前記時系列データのうち前記特定の条件を満たす期間に含まれるデータとそれ以外のデータとの比較結果の少なくとも一つを含む、
ことを特徴とする付記6~付記8のいずれか1項に記載の影響判定装置。
(Appendix 9)
The information related to the period that satisfies the specific condition includes information indicating the period that satisfies the specific condition, information indicating data included in the period that satisfies the specific condition among the time series data, including at least one of the aggregation results of the data included in the period that satisfies the specific condition, and the comparison result of the data included in the period that satisfies the specific condition among the time series data and other data;
The influence determination device according to any one of Supplementary Notes 6 to 8, characterized in that:
(付記10)
前記重回帰モデルは、前記機械学習モデルの学習に利用された学習データであって、前記機械学習モデルに対応する特徴空間において、前記時系列データの周辺に位置する前記学習データを用いた機械学習により生成される、
ことを特徴とする付記6~付記9のいずれか1項に記載の影響判定装置。
(Appendix 10)
The multiple regression model is learning data used for learning the machine learning model, and is machine learning using the learning data located around the time series data in the feature space corresponding to the machine learning model. generated by,
The influence determination device according to any one of Supplementary notes 6 to 9, characterized in that:
(付記11)
時系列データに基づいて推定結果を出力する機械学習モデルを近似した重回帰モデルの各項に、前記時系列データの各時点のデータを時系列順に対応させ入力する際、前記各時点のデータのそれぞれに対して、前記各時点のデータのそれぞれより後の時点のデータに対応する前記重回帰モデルの項の偏回帰係数を0として、重回帰値を算出し、
前記各時点のデータのそれぞれについて算出された前記重回帰値の変化に応じて、前記時系列データが示す期間のうち、特定の条件を満たす期間を特定し、
特定された前記特定の条件を満たす期間に関する情報を、前記推定結果に影響を与えた要因として出力する、
処理をコンピュータが実行することを特徴とする影響判定方法。
(Appendix 11)
When inputting data at each point in time series data in chronological order to each term of a multiple regression model that approximates a machine learning model that outputs estimation results based on time series data, For each, calculate a multiple regression value by setting the partial regression coefficient of the term of the multiple regression model corresponding to data at a time after each of the data at each time as 0,
Identifying a period that satisfies a specific condition among the periods indicated by the time series data according to changes in the multiple regression values calculated for each of the data at each point in time;
outputting information regarding a period that satisfies the identified specific condition as a factor that influenced the estimation result;
An impact determination method characterized in that processing is executed by a computer.
(付記12)
前記特定の条件を満たす期間を特定する処理は、前記各時点のデータのそれぞれに対して算出された前記重回帰値が、時系列順に継続的に増加する期間を、前記特定の条件を満たす期間として特定する処理である、
ことを特徴とする付記11に記載の影響判定方法。
(Appendix 12)
The process of identifying a period that satisfies the specific condition includes determining a period in which the multiple regression values calculated for each of the data at each time point continuously increase in chronological order as a period that satisfies the specific condition. It is a process to identify as
The influence determination method according to appendix 11, characterized in that:
(付記13)
前記重回帰値が継続的に増加する期間として特定する処理は、前記各時点のデータのそれぞれに対して算出された前記重回帰値の時系列における変化の度合いを前記各時点のデータのそれぞれに対して算出し、閾値以上の変化の度合いを示すデータが所定数連続する期間を、前記重回帰値が継続的に増加する期間として特定する処理である、
ことを特徴とする付記12に記載の影響判定方法。
(Appendix 13)
The process of identifying the period in which the multiple regression value continuously increases includes determining the degree of change in the time series of the multiple regression value calculated for each of the data at each time point for each of the data at each time point. is a process of calculating a period in which a predetermined number of consecutive data indicating a degree of change equal to or greater than a threshold value is present as a period in which the multiple regression value continuously increases.
The influence determination method according to appendix 12, characterized in that:
(付記14)
前記特定の条件を満たす期間に関連する情報は、前記特定の条件を満たす期間を示す情報、前記時系列データのうち前記特定の条件を満たす期間に含まれるデータを示す情報、前記時系列データのうち前記特定の条件を満たす期間に含まれるデータの集計結果、前記時系列データのうち前記特定の条件を満たす期間に含まれるデータとそれ以外のデータとの比較結果の少なくとも一つを含む、
ことを特徴とする付記11~付記13のいずれか1項に記載の影響判定方法。
(Appendix 14)
The information related to the period that satisfies the specific condition includes information indicating the period that satisfies the specific condition, information indicating data included in the period that satisfies the specific condition among the time series data, including at least one of the aggregation results of the data included in the period that satisfies the specific condition, and the comparison result of the data included in the period that satisfies the specific condition among the time series data and other data;
The influence determination method according to any one of Supplementary Notes 11 to 13, characterized in that:
(付記15)
前記重回帰モデルは、前記機械学習モデルの学習に利用された学習データであって、前記機械学習モデルに対応する特徴空間において、前記時系列データの周辺に位置する前記学習データを用いた機械学習により生成される、
ことを特徴とする付記11~付記14のいずれか1項に記載の影響判定方法。
(Appendix 15)
The multiple regression model is learning data used for learning the machine learning model, and is machine learning using the learning data located around the time series data in the feature space corresponding to the machine learning model. generated by,
The influence determination method according to any one of Supplementary Notes 11 to 14, characterized in that:
(付記16)
時系列データに基づいて推定結果を出力する機械学習モデルを近似した重回帰モデルの各項に、前記時系列データの各時点のデータを時系列順に対応させ入力する際、前記各時点のデータのそれぞれに対して、前記各時点のデータのそれぞれより後の時点のデータに対応する前記重回帰モデルの項の偏回帰係数を0として、重回帰値を算出し、
前記各時点のデータのそれぞれについて算出された前記重回帰値の変化に応じて、前記時系列データが示す期間のうち、特定の条件を満たす期間を特定し、
特定された前記特定の条件を満たす期間に関する情報を、前記推定結果に影響を与えた要因として出力する、
処理をコンピュータに実行させることを特徴とする影響判定プログラムを記憶した記憶媒体。
(Appendix 16)
When inputting data at each point in time series data in chronological order to each term of a multiple regression model that approximates a machine learning model that outputs estimation results based on time series data, For each, calculate a multiple regression value by setting the partial regression coefficient of the term of the multiple regression model corresponding to data at a time after each of the data at each time as 0,
Identifying a period that satisfies a specific condition among the periods indicated by the time series data according to changes in the multiple regression values calculated for each of the data at each point in time;
outputting information regarding a period that satisfies the identified specific condition as a factor that influenced the estimation result;
A storage medium storing an impact determination program that causes a computer to execute processing.
10 影響判定装置
11 重回帰モデル学習部
12 算出部
13 特定部
14 出力部
20 重回帰モデル
30 学習推定装置
31 学習部
32 推定部
40 学習モデル
50 コンピュータ
51 CPU
52 メモリ
53 記憶部
59 記憶媒体
60 影響判定プログラム
100 推定システム
10 Impact determination device 11 Multiple regression model learning section 12 Calculation section 13 Specification section 14 Output section 20 Multiple regression model 30 Learning estimation device 31 Learning section 32 Estimation section 40 Learning model 50 Computer 51 CPU
52 Memory 53 Storage unit 59 Storage medium 60 Impact determination program 100 Estimation system
Claims (7)
前記各時点のデータのそれぞれについて算出された前記重回帰値の変化に応じて、前記時系列データが示す期間のうち、特定の条件を満たす期間を特定し、
特定された前記特定の条件を満たす期間に関する情報を、前記推定結果に影響を与えた要因として出力する、
処理をコンピュータに実行させることを特徴とする影響判定プログラム。 When inputting data at each point in time series data in chronological order to each term of a multiple regression model that approximates a machine learning model that outputs estimation results based on time series data, For each, calculate a multiple regression value by setting the partial regression coefficient of the term of the multiple regression model corresponding to data at a time after each of the data at each time as 0,
Identifying a period that satisfies a specific condition among the periods indicated by the time series data according to changes in the multiple regression values calculated for each of the data at each point in time;
outputting information regarding a period that satisfies the identified specific condition as a factor that influenced the estimation result;
An impact determination program characterized by causing a computer to execute processing.
ことを特徴とする請求項1に記載の影響判定プログラム。 The process of identifying a period that satisfies the specific condition includes determining a period in which the multiple regression values calculated for each of the data at each time point continuously increase in chronological order as a period that satisfies the specific condition. It is a process to identify as
The influence determination program according to claim 1, characterized in that:
ことを特徴とする請求項2に記載の影響判定プログラム。 The process of identifying the period in which the multiple regression value continuously increases includes determining the degree of change in the time series of the multiple regression value calculated for each of the data at each time point for each of the data at each time point. is a process of calculating a period in which a predetermined number of consecutive data indicating a degree of change equal to or greater than a threshold value is present as a period in which the multiple regression value continuously increases.
The influence determination program according to claim 2, characterized in that:
ことを特徴とする請求項1~請求項3のいずれか1項に記載の影響判定プログラム。 The information related to the period that satisfies the specific condition includes information indicating the period that satisfies the specific condition, information indicating data included in the period that satisfies the specific condition among the time series data, including at least one of the aggregation results of the data included in the period that satisfies the specific condition, and the comparison result of the data included in the period that satisfies the specific condition among the time series data and other data;
The influence determination program according to any one of claims 1 to 3, characterized in that:
ことを特徴とする請求項1~請求項4のいずれか1項に記載の影響判定プログラム。 The multiple regression model is learning data used for learning the machine learning model, and is machine learning using the learning data located around the time series data in the feature space corresponding to the machine learning model. generated by,
The influence determination program according to any one of claims 1 to 4, characterized in that:
前記各時点のデータのそれぞれについて算出された前記重回帰値の変化に応じて、前記時系列データが示す期間のうち、特定の条件を満たす期間を特定する特定部と、
特定された前記特定の条件を満たす期間に関する情報を、前記推定結果に影響を与えた要因として出力する出力部と、
を含むことを特徴とする影響判定装置。 When inputting data at each point in time series data in chronological order to each term of a multiple regression model that approximates a machine learning model that outputs estimation results based on time series data, a calculation unit that calculates a multiple regression value by setting the partial regression coefficient of the term of the multiple regression model corresponding to data at a time later than each of the data at each time to 0 for each;
a specifying unit that specifies a period that satisfies a specific condition among the periods indicated by the time-series data according to changes in the multiple regression values calculated for each of the data at each point in time;
an output unit that outputs information regarding a period that satisfies the identified specific condition as a factor that influenced the estimation result;
An influence determination device comprising:
前記各時点のデータのそれぞれについて算出された前記重回帰値の変化に応じて、前記時系列データが示す期間のうち、特定の条件を満たす期間を特定し、
特定された前記特定の条件を満たす期間に関する情報を、前記推定結果に影響を与えた要因として出力する、
処理をコンピュータが実行することを特徴とする影響判定方法。 When inputting data at each point in time series data in chronological order to each term of a multiple regression model that approximates a machine learning model that outputs estimation results based on time series data, For each, calculate a multiple regression value by setting the partial regression coefficient of the term of the multiple regression model corresponding to data at a time after each of the data at each time as 0,
Identifying a period that satisfies a specific condition among the periods indicated by the time series data according to changes in the multiple regression values calculated for each of the data at each point in time;
outputting information regarding a period that satisfies the identified specific condition as a factor that influenced the estimation result;
An impact determination method characterized in that processing is executed by a computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020001670A JP7354844B2 (en) | 2020-01-08 | 2020-01-08 | Impact determination program, device, and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020001670A JP7354844B2 (en) | 2020-01-08 | 2020-01-08 | Impact determination program, device, and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021111060A JP2021111060A (en) | 2021-08-02 |
JP7354844B2 true JP7354844B2 (en) | 2023-10-03 |
Family
ID=77059848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020001670A Active JP7354844B2 (en) | 2020-01-08 | 2020-01-08 | Impact determination program, device, and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7354844B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018096683A1 (en) | 2016-11-28 | 2018-05-31 | 日本電気株式会社 | Factor analysis method, factor analysis device, and factor analysis program |
WO2018142753A1 (en) | 2017-02-02 | 2018-08-09 | 日本電気株式会社 | Information processing device, method, and program that use deep learning |
US20190303716A1 (en) | 2018-03-28 | 2019-10-03 | Entit Software Llc | Identification of input features used by machine learning model in providing output score |
JP2019211870A (en) | 2018-05-31 | 2019-12-12 | 株式会社日立ソリューションズ東日本 | Inventory management device and inventory management method |
-
2020
- 2020-01-08 JP JP2020001670A patent/JP7354844B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018096683A1 (en) | 2016-11-28 | 2018-05-31 | 日本電気株式会社 | Factor analysis method, factor analysis device, and factor analysis program |
WO2018142753A1 (en) | 2017-02-02 | 2018-08-09 | 日本電気株式会社 | Information processing device, method, and program that use deep learning |
US20190303716A1 (en) | 2018-03-28 | 2019-10-03 | Entit Software Llc | Identification of input features used by machine learning model in providing output score |
JP2019211870A (en) | 2018-05-31 | 2019-12-12 | 株式会社日立ソリューションズ東日本 | Inventory management device and inventory management method |
Non-Patent Citations (1)
Title |
---|
万代 悠作 ほか,囲碁ニューラルネットワークの判断根拠の可視化,ゲームプログラミングワークショップ(GPWS)2018論文集 [online],日本,情報処理学会,2018年11月09日,p. 9-15 |
Also Published As
Publication number | Publication date |
---|---|
JP2021111060A (en) | 2021-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Leyton-Brown et al. | Boosting as a metaphor for algorithm design | |
US20220044148A1 (en) | Adapting prediction models | |
US20210117863A1 (en) | Systems and methods for machine learning interpretability | |
JP5963320B2 (en) | Information processing apparatus, information processing method, and program | |
JP3668642B2 (en) | Data prediction method, data prediction apparatus, and recording medium | |
JP7354844B2 (en) | Impact determination program, device, and method | |
CA3196321A1 (en) | A computer-implemented method for deriving a data processing and inference pipeline | |
JP5826892B1 (en) | Change point detection apparatus, change point detection method, and computer program | |
US20220405640A1 (en) | Learning apparatus, classification apparatus, learning method, classification method and program | |
US20220129792A1 (en) | Method and apparatus for presenting determination result | |
US10755044B2 (en) | Estimating document reading and comprehension time for use in time management systems | |
WO2020056286A1 (en) | System and method for predicting average inventory with new items | |
TW201506827A (en) | System and method for deriving material change attributes from curated and analyzed data signals over time to predict future changes in conventional predictors | |
JP7249580B2 (en) | Application method, application program and application device | |
JP7400965B2 (en) | Mood prediction method, mood prediction device and program | |
JP2021051576A (en) | Information processing program, information processing method, and information processing apparatus | |
JP7435821B2 (en) | Learning device, psychological state sequence prediction device, learning method, psychological state sequence prediction method, and program | |
JP6844565B2 (en) | Neural network device and program | |
JP5680144B2 (en) | Prediction device, prediction method, and computer program | |
JP2021140506A (en) | Determination program, determination device, and generation method | |
JP2020071523A (en) | Estimation method, charging method, computer, and program | |
JP2015228183A (en) | Changing point prediction device, changing point prediction method and computer program | |
JP7515322B2 (en) | Setting management device, setting management method, and setting management program | |
EP4411600A1 (en) | Machine learning explanation program, device, and method | |
WO2022269733A1 (en) | Validation method determination device and validation method determination method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220908 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230731 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230822 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7354844 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |