JP2021068163A

JP2021068163A - 予測プログラム、予測方法及び予測装置

Info

Publication number: JP2021068163A
Application number: JP2019192757A
Authority: JP
Inventors: 昌之古田; Masayuki Furuta; 俊一渡邉; Shunichi Watanabe; 泉新田; Izumi Nitta
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2021-04-30
Anticipated expiration: 2039-10-23
Also published as: JP7451935B2

Abstract

【課題】予測性能の向上を図ること。【解決手段】判定部が、データの変化の度合いに基づいて、データ項目が第１種の項目であるか否かを判定する。そして、データ項目が第１種の項目である場合には、第１生成部が、データ項目のデータを第１のテンソルに追加する。一方、データ項目が第１種の項目でない場合には、第２生成部が、データ項目のデータに基づいてデータを生成して第２のテンソルに追加する。そして、予測装置は、第１のテンソルと第２のテンソルをマルチテンソルに入力して学習モデルを生成する。【選択図】図１４

Description

本発明は、予測プログラム、予測方法及び予測装置に関する。

従来、時系列のレコードデータをテンソルデータに変換し、テンソルデータを学習することで学習モデルを生成し、生成した学習モデルを用いて予測を行う技術がある。例えば、個人の勤怠情報をカレンダー構造のテンソルデータに変換し、テンソルデータを学習することで学習モデルを生成し、生成した学習モデルを用いて個人の休職を事前に予測する技術がある。

なお、従来技術として、ニューラルネットワークの入力値の適切な順番を決定することで、正確な学習を行うことができる機械学習装置がある。この機械学習装置は、データ分類用のニューラルネットワークへ入力する数値の順序付けの基準が複数の基準値の配列で示された照合パタンに基づいて、入力データに含まれる複数の数値それぞれの入力順序を決定する。次に機械学習装置は、複数の数値の、入力順序に従ったニューラルネットワークの入力層の複数のユニットへ入力したときの、ニューラルネットワークの出力値を計算する。さらに機械学習装置は、出力値と教師データとの誤差に基づいて、ニューラルネットワークで正解を得るための、入力層の複数のユニットへの入力値の誤差を算出する。そして機械学習装置は、複数のユニットへの入力値の誤差に基づいて、照合パタンの複数の基準値を更新する。

また、プロセッサと、命令を一括的に含む１つ又は複数のコンピュータ可読媒体とを含む装置を用いて、ターゲット特性データを予測する従来技術がある。この従来技術は、プロセッサに、複数の物理構造データ及び複数の特性データを取得することと、複数の物理構造データの中の物理構造データに対応する少なくとも２つの物理構造の間の少なくとも１つの構造類似性を推定することとを行わせる。そして、この従来技術は、プロセッサに、ターゲット特性データをターゲット物理構造データから推定するための推定モデルを、作成することを行わせる。プロセッサは、推定モデルの作成を、少なくとも１つの特性データ及び対応する少なくとも１つの、ターゲット物理構造データと複数の物理構造データの各々との間の構造類似性を用いることによって行う。

また、従来技術として、金融や流通分野の取引記録、ネットワーク監視システムの通信記録等のデータストリームを精度よく識別する学習装置がある。この学習装置は、属するクラスが既知である履歴数個のデータがまとめられた教師ストリーム構造データに基づいて教師ストリームカーネルを作成する。そして、この学習装置は、教師ストリームカーネルの出力値を機械学習することにより、任意のストリーム構造データの属するクラスを識別するための識別器を生成する。

また、従来技術として、既に定義されたリレーションを第３正規形リレーションに正規化し、リレーショナルデータベースを再構成する再構成システムがある。この再構成システムは、リレ―ショナルデ―タベ―ス管理システムの提供するＳＱＬのようなデ―タ操作言語を用いて、デ―タベ―スにアクセスし、デ―タベ―ス管理者により指定されたリレーションを関数従属性にしたがって第３正規形に変換する。

特開２０１８−５５５８０号公報特表２０１９−５０７４１１号公報特開２０１０−２８２４４０号公報特開平６−１１０７４９号公報

時系列のレコードデータをテンソルデータに変換し、テンソルデータを学習することで学習モデルを生成し、生成した学習モデルを用いて予測を行う従来技術には、所望のタイミングにおいて十分な精度の予測結果が得られないことがある。例えば、個人の勤怠情報をカレンダー構造のテンソルデータに変換し、テンソルデータを学習することで学習モデルを生成し、生成した学習モデルを用いて個人の休職を事前に予測する態様を想定する。この態様では、休職につながる欠勤が発生した後であれば、十分な精度で休職を予測することは可能であるが、予測するタイミングが早くなるほど予測精度を高めることは難しくなる。しかし、休職を未然に防ぎたい場合、より早いタイミングであっても十分な精度の予測ができるというニーズは高いと考える。

本発明は、１つの側面では、予測性能の向上を図ることを目的とする。

１つの態様では、予測プログラムは、コンピュータに、時系列のレコードデータに含まれる複数のデータ項目それぞれについて、データ項目に対応するデータ値の前記時系列における変化の度合を算出する処理を実行させる。そして、前記予測プログラムは、前記コンピュータに、前記複数のデータ項目のうち、算出した前記変化の度合が所定の基準を満たす第１のデータ項目から、時系列の情報を含む第１のテンソルデータを生成する処理を実行させる。そして、前記予測プログラムは、前記コンピュータに、前記複数のデータ項目のうち、算出した前記変化の度合が前記所定の基準を満たさない第２のデータ項目から、時系列の情報を含まない第２のテンソルデータを生成する処理を実行させる。そして、前記予測プログラムは、前記コンピュータに、前記第１のテンソルデータと前記第２のテンソルデータを入力とした学習を行う処理を実行させる。

１つの側面では、本発明は、予測性能の向上を図ることができる。

図１は、実施例に係る予測装置を説明する図である。図２は、グラフ構造とテンソルとの関係の一例を示す図である。図３は、部分グラフ構造の抽出の一例を示す図である。図４は、ディープテンソルの学習例を説明する図である。図５は、テンソル化の具体例を説明する図である。図６は、ディープテンソルに入力されるデータフォーマットの例を示す図である。図７は、マルチテンソルを説明する図である。図８は、予測装置の機能構成を示す機能ブロック図である。図９は、元データＤＢに記憶される元データの例を示す図である。図１０は、学習データの生成例を説明する図である。図１１は、一般的な機械学習に実施例に係る学習データ生成手法を適用した場合の問題点を説明する図である。図１２は、ディープテンソルに実施例に係る学習データ生成手法を適用した場合を説明する図である。図１３Ａは、第２生成部による前処理を説明する第１の図である。図１３Ｂは、第２生成部による前処理を説明する第２の図である。図１４は、テンソル生成部により生成されるカレンダーテンソルと非カレンダーテンソルの例を示す図である。図１５は、学習処理の流れを示すフローチャートである。図１６は、テンソル化の処理の流れを示すフローチャートである。図１７は、項目特定処理の流れを示すフローチャートである。図１８は、テンソル生成処理の流れを示すフローチャートである。図１９Ａは、予測装置の効果を示す第１の図である。図１９Ｂは、予測装置の効果を示す第２の図である。図２０は、実施例に係る予測プログラムを実行するコンピュータのハードウェア構成を示す図である。

以下に、本願の開示する予測プログラム、予測方法及び予測装置の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。

まず、実施例に係る予測装置について説明する。図１は、実施例に係る予測装置を説明する図である。図１に示すように、実施例に係る予測装置１００は、個人の日々の出勤時刻、退勤時刻、出欠区分、出張有無等を含む勤怠情報と、性別、入社年度、職種、勤務地、昇格、休職履歴等を含む個人属性情報を機械学習し、学習モデルを生成する。そして、実施例に係る予測装置１００は、生成した学習モデルを用いて、予測対象の個人の勤怠情報と個人属性情報から、予測対象の個人が休職するか否かを予測する。なお、ここでは、予測装置１００が学習と予測とを実行する例で説明するが、学習と予測とを別々の装置で実行することもできる。

具体的には、予測装置１００は、休職したことがある体調不良者の勤怠情報と個人属性情報（ラベル＝休職あり）と、休職したことがない通常者の勤怠情報と個人属性情報（ラベル＝休職なし）とを学習データとして生成する。そして、予測装置１００は、個人属性情報に含まれる各個人属性項目の値の変化の度合いに基づいて、学習データをテンソル化し、カレンダーテンソルと非カレンダーテンソルの２つのテンソルのテンソルデータを生成する。ここで、カレンダーテンソルとは、月度と日付を項目として含むテンソルであり、非カレンダーテンソルとは、月度と日付を項目として含まないテンソルである。

そして、予測装置１００は、２つのテンソルデータを深層学習（ディープラーニング・Deep Learning；DL）するマルチテンソルによって学習モデルを生成する。その後、予測装置１００は、生成した学習モデルと、予測対象の個人の勤怠情報と個人属性情報から生成された２つのテンソルデータを用いて、予測対象の個人が休職するか否かを予測する。

ここで、マルチテンソルについて説明する。マルチテンソルとは、複数のテンソルデータを用いるディープテンソルである。ディープテンソルは、テンソルデータ（グラフ情報）を入力とするディープラーニングであり、ニューラルネットワーク（ＮＮ：Neural Network）の学習とともに、判別に寄与する部分グラフ構造を自動的に抽出する。この抽出処理は、ニューラルネットワークの学習とともに、入力テンソルデータのテンソル分解のパラメータを学習することによって実現される。

図２は、グラフ構造とテンソルとの関係の一例を示す図である。図２に示すグラフ２０は、４つのノードがノード間の関係性（例えば「相関係数が所定値以上」）を示すエッジで結ばれている。なお、エッジで結ばれていないノード間は、当該関係性がないことを示す。グラフ２０を２階のテンソル、つまり行列で表す場合、例えば、ノードの左側の番号に基づく行列表現は「行列Ａ」で表され、ノードの右側の番号（囲み線で囲んだ数字）に基づく行列表現は「行列Ｂ」で表される。これらの行列の各成分は、ノード間が結ばれている（接続している）場合「１」で表され、ノード間が結ばれていない（接続していない）場合「０」で表される。以下の説明では、この様な行列を隣接行列ともいう。ここで、「行列Ｂ」は、「行列Ａ」の２，３行目及び２，３列目を同時に置換することで生成できる。ディープテンソルでは、この様な置換処理を用いることで順序の違いを無視して処理を行う。すなわち、「行列Ａ」及び「行列Ｂ」は、ディープテンソルでは順序性が無視され、同じグラフとして扱われる。なお、３階以上のテンソルについても同様の処理となる。

図３は、部分グラフ構造の抽出の一例を示す図である。図３に示すグラフ２１は、６つのノードがエッジで結ばれたものである。グラフ２１は、行列（テンソル）で表すと行列２２に示すように表現できる。行列２２に対して、特定の行及び列を入れ替える演算、特定の行及び列を抽出する演算、並びに、隣接行列における非ゼロ要素をゼロに置換する演算を組み合わせることで、部分グラフ構造を抽出できる。例えば、行列２２の「ノード１，４，５」に対応する行列を抽出すると、行列２３となる。次に、行列２３の「ノード４，５」間の値をゼロに置換すると、行列２４となる。行列２４に対応する部分グラフ構造は、グラフ２５となる。

このような部分グラフ構造の抽出処理は、テンソル分解と呼ばれる数学的演算によって実現される。テンソル分解とは、入力されたｎ階テンソルをｎ階以下のテンソルの積で近似する演算である。例えば、入力されたｎ階テンソルを１つのｎ階テンソル（コアテンソルと呼ばれる。）、及び、より低階のｎ個のテンソル（ｎ＞２の場合、通常は２階のテンソル、つまり行列が用いられる。）の積で近似する。この分解は一意ではなく、入力データが表すグラフ構造中の任意の部分グラフ構造をコアテンソルに含めることができる。

図４は、ディープテンソルの学習例を説明する図である。図４に示すように、学習装置は、「休職あり」などの教師ラベル（ラベルＡ）が付された元データからテンソルデータを生成する。そして、学習装置は、生成したテンソルデータを入力テンソルとしてテンソル分解を行って、初回にランダムに生成されたターゲットコアテンソルに類似するようにコアテンソルを生成する。そして、学習装置は、コアテンソルをＮＮに入力して分類結果（ラベルＡ：７０％、ラベルＢ：３０％）を得る。その後、学習装置は、分類結果（ラベルＡ：７０％、ラベルＢ：３０％）と教師ラベル（ラベルＡ：１００％、ラベルＢ：０％）との分類誤差を算出する。

ここで、学習装置は、誤差逆伝搬法を拡張した拡張誤差伝搬法を用いて予測モデルの学習を実行する。すなわち、学習装置は、ＮＮが有する入力層、中間層、出力層に対して、分類誤差を下層に伝搬させる形で、分類誤差を小さくするようにＮＮの各種パラメータを修正する。さらに、学習装置は、分類誤差をターゲットコアテンソルまで伝搬させ、予測に寄与するグラフの部分構造、すなわち休職者の特徴を示す特徴パターンもしくは通常者の特徴を示す特徴パターンに近づくように、ターゲットコアテンソルを修正する。このようにすることで、最適化されたターゲットコアテンソルには予測に寄与する部分パターンが抽出されるようになる。

なお、予測時には、テンソル分解により、入力テンソルをコアテンソル（入力テンソルの部分パターン）に変換し、コアテンソルをＮＮに入力することで、予測結果を得ることができる。テンソル分解では、コアテンソルがターゲットコアテンソルに類似するように変換される。つまり、予測に寄与する部分パターンを持つコアテンソルが抽出される。

図５は、テンソル化の具体例を説明する図である。図５に示すテンソルは、横方向に月度、縦方向に日付、奥行き方向に出欠区分、左側が出張ありのデータで右側が出張なしのデータとなる。月度は、左から月度＃１、月度＃２、・・・を示し、日付は、上から順に１日目〜４日目を示し、出欠区分は、手前から出社、休暇、休日を示す。例えば、図５の（ａ）は、月度＃１の１日目に出社して出張した要素を示し、図５の（ｂ）は、月度＃１の２日目に休暇を取得して出張しなかった要素を示す。

なお、上述したテンソルは、簡略化して図５の（ｃ）のように記載される。すなわち、上述したテンソルは、月度と日付、出欠区分、出張有無の各要素を重ねたキューブ状で表現され、各月度かつ日付の出張有無が区別して表現され、各月度かつ日付の出欠区分が区別して表現される。

図６は、ディープテンソルに入力されるデータフォーマットの例を示す図である。図５に示したテンソルは、図６に示す表形式のデータでディープテンソルに入力される。グラフＩＤは、グラフ（個人）の識別番号であり、任意の番号である。月度は、データが４か月分の場合、１〜４のいずれかである。日付は、１〜３１のいずれかである。出欠は、０＝出社、１＝休暇、２＝休日のいずれかである。出張は、０＝なし、１＝ありのいずれかである。

図７は、マルチテンソルを説明する図である。図７に示すように、テンソル＃１は、コアテンソル＃１と行列の積に近似され、コアテンソル＃１がＮＮに入力される。同様に、テンソル＃２は、コアテンソル＃２と行列の積に近似され、コアテンソル＃２がＮＮに入力される。コアテンソル＃１の要素数を８、コアテンソル＃２の要素数を８とすると、８×２＝１６個の要素が縦１列でＮＮに入力される。

次に、予測装置１００の機能構成について説明する。図８は、予測装置１００の機能構成を示す機能ブロック図である。図８に示すように、予測装置１００は、通信部１０１、記憶部１０２、制御部１１０を有する。

通信部１０１は、他の装置との通信を制御する処理部であり、例えば通信インタフェースである。例えば、通信部１０１は、管理者の端末から、処理開始指示などを受信する。あるいは、通信部１０１は、勤怠情報、個人属性情報などをデータベース管理システムから受信する。また、通信部１０１は、管理者の端末に対して、学習結果や予測結果などを送信する。

記憶部１０２は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部１０２は、元データＤＢ１０３、学習データＤＢ１０４、項目ＤＢ１０５、テンソルＤＢ１０６、学習結果ＤＢ１０７、予測対象ＤＢ１０８を記憶する。

元データＤＢ１０３は、勤怠情報と個人属性情報を元データとして個人ごとに記憶するデータベースである。元データは、複数の項目を有し、カレンダーに対応した複数のレコードを有する。元データは、時系列データである。図９は、元データＤＢ１０３に記憶される元データの例を示す図である。図９に示すように、元データは、カレンダーに対応した年月日単位のレコードより構成され、各レコードは各年月日に勤怠情報と個人属性情報を対応付ける。勤怠情報には、出欠、出張などが含まれ、個人属性情報には、職種、役職、勤務地、家族構成、性別、入社年度、評価などが含まれる。個人属性情報には、変化の少ない項目、変化のない項目が含まれる。職種、役職、勤務地、家族構成、評価は、変化の少ない項目であり、性別、入社年度は、変化のない項目である。

出欠は、例えば、「０（出社）」、「１（休暇）」、「２（休日）」などである。出張は、例えば、「０（なし）」、「１（あり）」などである。職種は、例えば、「営業」、「開発」、「ＳＥ」などである。役職は、例えば、「一般」、「課長」、「部長」などである。勤務地は、例えば、「東京支店」、「川崎工場」、「横浜研究所」などである。家族構成は、例えば、「既婚」、「未婚」などである。性別は、「男」又は「女」である。入社年度は、例えば、「２００００４０１（２０００年）」である。評価は、例えば、「Ａ」、「Ｂ」などである。図９では、ある社員は、２０１９年２月１日に、出勤し、出張した。また、その社員については、２０１９年２月１日において、職種は営業であり、役職は一般であり、勤務地は東京支店であり、家族構成は既婚であり、性別は男であり、入社年度は２０００年４月１日であり、評価はＡであり、・・・。

学習データＤＢ１０４は、テンソル化対象となる学習データを記憶するデータベースである。具体的には、学習データＤＢ１０４は、元データにおいて始期の異なる一定期間のデータと、始期に対応したラベルの組となる各学習データを記憶する。例えば、学習データＤＢ１０４は、「データ、ラベル」として「学習データａ、ラベル（休職なし）」や「学習データｂ、ラベル（休職あり）」などを記憶する。なお、学習データの詳細については後述する。

項目ＤＢ１０５は、個人属性情報に含まれる個人属性項目ごとに、カレンダー項目、不変項目、前処理項目のいずれであるかを記憶する。カレンダー項目は、値の変化の度合いが大きい項目であり、カレンダーテンソルに含まれる項目である。ここで、変化の度合いとは、例えば、データが変化しない期間で表され、変化の度合いが大きいとは、データが変化するまでの期間が１つの学習データの期間以下の場合である。

不変項目は、値が変化しない項目であり、非カレンダーテンソルに含まれる項目である。前処理項目は、値の変化の度合いが大きくなく、不変でもない項目である。前処理項目は、テンソル化されるときに前処理が行われて非カレンダーテンソルに新たな項目又は新たな値として追加される項目である。なお、前処理の詳細については後述する。

テンソルＤＢ１０６は、各学習データから生成されたカレンダーテンソルと非カレンダーテンソル２つのテンソルのテンソルデータを記憶するデータベースである。このテンソルＤＢ１０６は、２つのテンソルデータとラベルとを対応付けた訓練データを記憶する。例えば、テンソルＤＢ１０６は、「テンソルデータ＃１、テンソルデータ＃２、ラベル」として「テンソルデータ＃１１、テンソルデータ＃１２、ラベル（休職あり）」や「テンソルデータ＃２１、テンソルデータ＃２２、ラベル（休職なし）」などを記憶する。なお、テンソルＤＢ１０６が記憶するラベルは、２つのテンソルデータの生成元の学習データに対応付けられるラベルである。

なお、上述の学習データにおけるラベルは一例であり、「休職あり」と「休職なし」に限らず、「休職者」と「通常者」、「療養あり」と「療養なし」などのように、体調不良者の有無を区別できる様々なラベルを用いることもできる。

学習結果ＤＢ１０７は、学習結果を記憶するデータベースである。例えば、学習結果ＤＢ１０７は、制御部１１０による学習データの判別結果（分類結果）、機械学習やディープラーニングによって学習された、ＮＮの各種パラメータやディープテンソルの各種パラメータなどを記憶する。

予測対象ＤＢ１０８は、学習された予測モデルを用いて、休職の有無を予測する対象のデータを記憶するデータベースである。予測対象ＤＢ１０８は、予測対象の勤怠情報及び個人属性情報、又は、予測対象の勤怠情報及び個人属性情報から生成された２つのテンソルデータなどを記憶する。

制御部１１０は、予測装置１００全体の処理を司る処理部である。制御部１１０は、学習データ生成部１１１、テンソル生成部１１２、学習部１１３、予測部１１４を有する。

学習データ生成部１１１は、元データＤＢ１０３に記憶される各元データから、複数の単位期間から成る一定期間を当該単位期間ずつ始期を異ならせた各期間のデータと、始期に対応したラベルとが組となる学習データを生成する処理部である。具体的には、学習データ生成部１１１は、一人の元データから重複を許して、指定された期間のデータをサンプリングする。例えば、学習データ生成部１１１は、各元データから、期間のはじまり（始期）が異なる複数のデータを抽出し、各データについて、データの終期から３か月以内に休職期間があれば、ラベル「休職あり」を設定する。一方、データの終期から３か月以内に休職期間がなければ、学習データ生成部１１１は、ラベル「休職なし」を設定する。

図１０は、学習データの生成例を説明する図である。図１０では、一人の元データから始期を３０日ずつずらし、半年間の元データを１サンプルとしてサンプリングを行い、４個の学習データを生成する例を説明する。図１０に示すように、学習データ生成部１１１は、４月から３月までの１年の元データから、４月から９月までの６か月分のデータ１ａを抽出する。そして、学習データ生成部１１１は、９月から３か月以内である１０月、１１月、１２月に「休職」が発生していないので、ラベルを「休職なし」と判定する。この結果、学習データ生成部１１１は、「データ１ａ、ラベル（休職なし）」を学習データＤＢ１０４に格納する。

続いて、学習データ生成部１１１は、４月から始期を３０日（１か月）ずらして、５月から１０月までの６か月分のデータ１ｂを抽出する。そして、学習データ生成部１１１は、１０月から３か月以内である１１月、１２月、１月のうち１月に「休職」が発生しているので、ラベルを「休職あり」と判定する。この結果、学習データ生成部１１１は、「データ１ｂ、ラベル（休職あり）」を学習データＤＢ１０４に格納する。

続いて、学習データ生成部１１１は、５月から始期を３０日（１か月）ずらして、６月から１１月までの６か月分のデータ１ｃを抽出する。そして、学習データ生成部１１１は、１１月から３か月以内である１２月、１月、２月のうち１月に「休職」が発生しているので、ラベルを「休職あり」と判定する。この結果、学習データ生成部１１１は、「データ１ｃ、ラベル（休職あり）」を学習データＤＢ１０４に格納する。

最後に、学習データ生成部１１１は、６月から始期を３０日（１か月）ずらして、７月から１２月までの６か月分のデータ１ｄを抽出する。そして、学習データ生成部１１１は、１２月から３か月以内である１月、２月、３月のうち１月および３月に「休職」が発生しているので、ラベルを「休職あり」と判定する。この結果、学習データ生成部１１１は、「データ１ｄ、ラベル（休職あり）」を学習データＤＢ１０４に格納する。

このようにして、学習データ生成部１１１は、一人の１年間の元データから最大４サンプルの学習データを生成することができる。なお、学習データ生成部１１１は、一人の元データから始期を１０日ずつずらし、半年間の元データを１サンプルとしてサンプリングする場合、最大１２個の学習データを生成できる。なお、学習データ生成部１１１は、元データに含まれる項目のうち、不要な項目を除いて学習データを生成してもよい。

ここで、一般的な機械学習に実施例に係る学習データ生成手法を適用した場合の問題点を説明する。図１１は、一般的な機械学習に実施例に係る学習データ生成手法を適用した場合の問題点を説明する図である。図１１では、元データの１０月に、どの部分かはわからないが、体調不良の要因となる部分パターンが隠れているとする。このような状態で、図１１に示すように、３０日ずつ始期をずらすことで、データ２ｂ、データ２ｃ、データ２ｄを抽出する。これらのデータは、１０月が含まれることから、体調不良者のデータ（ラベル：休職あり）となる。

ここで、一般的な機械学習は、特徴ベクトルの同じ位置の要素を同じ属性として学習する（図１１の（１））。しかし、データ２ｂ、データ２ｃ、データ２ｄは、１０月のデータ位置が異なることから、体調不良の要因となる部分パターンが特徴ベクトルの異なる位置の要素で表現されていることとなる。つまり、実施例のサンプリング方法で生成されたデータでは、元の部分パターンがデータ２ｂ、データ２ｃ、データ２ｄそれぞれでは異なる位置となる。一般的な機械学習は、異なる位置の要素を別の属性として学習するので、データの重複を許して学習データを増やしても精度向上効果は期待できない。

一方、ディープテンソルに実施例に係る学習データ生成手法を適用した場合を説明する。図１２は、ディープテンソルに実施例に係る学習データ生成手法を適用した場合を説明する図である。図１２に示すように、３０日ずつ始期をずらすことで、データ３ｂ、データ３ｃ、データ３ｄを抽出する。これらのデータは、１０月が含まれることから、体調不良者のデータ（ラベル：休職あり）となる。ディープテンソルの学習において体調不良の要因となる共通の部分パターンは、データが異なると、テンソル上の異なる部分構造として表現される。しかし、学習および予測モデルによって抽出されるコアテンソルは、共通の部分パターンを表現するものとなる。したがって、これらのデータは体調不良となるデータとして認識される。

このように、実施例に係る予測装置１００は、ディープテンソル（コアテンソル）の性質を利用して、元データの切り出し範囲を変化させることにより、複数の学習データを生成することができる。この結果、学習に必要なデータ数を集めることが容易で、学習精度を向上させることができる。

テンソル生成部１１２は、各学習データをテンソル化したテンソルデータを生成する処理部である。テンソル生成部１１２は、各学習データからカレンダーテンソルと非カレンダーテンソルの２つのテンソルのテンソルデータを生成する。そして、テンソル生成部１１２は、２つのテンソルデータと、学習データ生成部１１１により学習データに付加されたラベルとを対応付けてテンソルＤＢ１０６に格納する。

テンソル生成部１１２は、判定部１２１と、第１生成部１２２と、第２生成部１２３とを有する。

判定部１２１は、元データの項目ごとに変化の度合いが大きいか否かを判定し、変化の度合いが大きいと判定した項目をカレンダー項目として項目ＤＢ１０５に格納する。判定部１２１は、変化の度合いが大きくないと判定した項目については、値が不変であるか否かを判定し、値が不変の場合には、不変項目として項目ＤＢ１０５に格納し、値が不変でない場合には、前処理項目として項目ＤＢ１０５に格納する。

第１生成部１２２は、グラフＩＤと、月度と、日付と、カレンダー項目とを項目とするカレダーテンソルを生成する。第２生成部１２３は、グラフＩＤと、不変項目と、前処理項目に基づく項目とを項目とする非カレダーテンソルを生成する。なお、第２生成部１２３は、非カレダーテンソルに不変項目を含めなくてもよい。

図１３Ａ及び図１３Ｂは、第２生成部１２３による前処理を説明する図である。図１３Ａ及び図１３Ｂにおいて、参照期間は、元データから１つの学習データが抽出される期間であり、予測期間は、参照期間の学習データに基づいて体調不良予測が行われる期間である。図１３Ａは、第２生成部１２３が前処理により離散値の個人属性値を生成する場合を示し、図１３Ｂは、第２生成部１２３が前処理により連続値の個人属性値を生成する場合を示す。

図１３Ａに示すように、離散値の個人属性値が生成される個人属性項目には、参照期間より前に変化点があり、過去履歴に基づく個人属性項目と、予測期間に含まれる現在の情報に基づく個人属性項目がある。

過去履歴に基づく個人属性項目の例としては、過去の休職履歴がある。第２生成部１２３は、休職か否かを示す個人属性項目について、新たな個人属性項目として休職履歴を生成し、参照期間より前に休職がある場合には、値を「１」とし、参照期間より前に休職がない場合には、値を「０」とする。別の例として、第２生成部１２３は、役職を示す個人属性項目について、新たな個人属性項目として昇格有無を生成し、参照期間より前に昇格がある場合には、値を「１」とし、参照期間より前に昇格がない場合には、値を「１」とする。

現在の情報に基づく個人属性項目の例としては、所属、勤務地、職種がある。第２生成部１２３は、所属、勤務地、職種については、現在の情報に基づいて、現在の値と異なる場合には、値を現在の値に変更する。

図１３Ｂに示すように、参照期間中に個人属性項目に変化が発生した場合、変化が発生した時点が学習に影響する。例えば、参照期間の最終日に異動があったとしても異動後の勤怠情報がないため、学習に対する影響は小さい。一方、参照期間の初日に異動があった場合には、学習に対する影響は大きい。そこで、第２生成部１２３は、変化後の期間の長さに基づいて、異動有無に重みづけを行う。すなわち、第２生成部１２３は、個人属性項目の重み＝（変化後の期間の長さ）／（参照期間の長さ）に基づいて、個人属性項目の値を計算して変更する。

図１４は、テンソル生成部１１２により生成されるカレンダーテンソルと非カレンダーテンソルの例を示す図である。図１４に示すように、学習データに含まれる項目のうち、時間変動が大きい出欠と出張は、カレンダーテンソルに入れられる。

一方、時間変動が小さい職種は、前処理により現在の情報に変更されて、非カレンダーテンソルに入れられ、時間変動が小さい勤務地は、前処理により新たな項目として異動有無が生成されて、非カレンダーテンソルに入れられる。また、時間変動が小さい役職は、前処理により新たな項目として昇格有無が生成されて、非カレンダーテンソルに入れられ、時間変動が小さい休職は、前処理により新たな項目として休職履歴が生成されて、非カレンダーテンソルに入れられる。

そして、カレンダーテンソルから得られるコアテンソルと非カレンダーテンソルから得られるコアテンソルのデータがＮＮに入力される。

学習部１１３は、マルチテンソルを用いてテンソル分解及び深層学習を行う処理部である。すなわち、学習部１１３は、各学習データから生成された２つのテンソルデータ及びラベルを入力として、マルチテンソルによる学習モデルの生成を行う。

具体的には、学習部１１３は、図７で説明したように、テンソル＃１（カレンダーテンソル）及びテンソル＃２（非カレンダーテンソル）からコアテンソル＃１及びコアテンソル＃２をそれぞれ抽出する。そして、学習部１１３は、コアテンソル＃１の要素とコアテンソル＃２の要素をＮＮに入力する。そして、学習部１１３は、テンソル＃１及びテンソル＃２に対応するラベルとの誤差（分類誤差）を算出し、分類誤差を用いて、ＮＮのパラメータの学習及びターゲットコアテンソルの最適化を実行する。その後、学習部１１３は、学習が終了すると、各種パラメータを学習結果として学習結果ＤＢ１０７に格納する。

予測部１１４は、学習結果を用いて、判別対象のデータのラベルを予測する処理部である。具体的には、予測部１１４は、学習結果ＤＢ１０７から各種パラメータを読み出し、各種パラメータを設定したＮＮ等を含むマルチテンソルを構築する。そして、予測部１１４は、予測対象ＤＢ１０８から予測対象の勤怠情報及び個人属性情報を読み出してカレンダーテンソルと非カレンダーテンソルを生成し、生成した２つのテンソルをテンソル分解によりそれぞれコアテンソルに変換してマルチテンソルに入力する。そして、予測部１１４は、休職あり又は休職なしを示す予測結果を出力する。そして、予測部１１４は、予測結果をディスプレイに表示したり、管理者端末に送信したりする。なお、予測部１１４は、予測対象の勤怠情報及び個人属性情報をそのまま入力してもよく、６か月ごとのデータに区切って入力してもよい。

次に、学習処理の流れについて説明する。図１５は、学習処理の流れを示すフローチャートである。図１５に示すように、処理開始が指示されると（ステップＳ１０１：Ｙｅｓ）、学習データ生成部１１１は、元データＤＢ１０３から元データを読み込み（ステップＳ１０２）、最初の始期に対応するデータをサンプリングする（ステップＳ１０３）。

そして、学習データ生成部１１１は、参照期間の終了時から３か月以内に休職があるデータか否かを判定し（ステップＳ１０４）、休職があるデータの場合には、当該サンプリングされたデータに、ラベル「休職あり」を付与する（ステップＳ１０５）。一方、学習データ生成部１１１は、参照期間の終了時から３か月以内に休職がないデータの場合には、当該サンプリングされたデータに、ラベル「休職なし」を付与する（ステップＳ１０６）。

その後、学習データ生成部１１１は、サンプリングを継続するか否かを判定し（ステップＳ１０７）、継続する場合には、次の始期に対応するデータをサンプリングして（ステップＳ１０８）、ステップＳ１０４以降を実行する。一方、サンプリングを終了する場合には、学習データ生成部１１１は、未処理の元データがあるか否かを判定する（ステップＳ１０９）。

そして、学習データ生成部１１１は、未処理の元データがある場合には、次の元データについてステップＳ１０２以降を繰り返す。一方、未処理の元データがない場合には、テンソル生成部１１２が、学習データＤＢ１０４に記憶される各学習データのテンソル化を実行してテンソルを生成する（ステップＳ１１０）。そして、学習部１１３が、テンソルＤＢ１０６に記憶される各テンソル及びラベルを用いて、学習処理を実行する（ステップＳ１１１）。

次に、テンソル化の処理の流れについて図１６〜図１８を用いて説明する。図１６は、テンソル化の処理の流れを示すフローチャートである。図１６に示すように、テンソル生成部１１２は、項目がカレンダー項目、不変項目、前処理項目のいずれであるかを特定する項目特定処理を行う（ステップＳ１２１）。そして、テンソル生成部１１２は、カレンダーテンソルのテンソルデータ及び非カレンダーテンソルのテンソルデータを生成するテンソル生成処理を行う（ステップＳ１２２）。

図１７は、項目特定処理の流れを示すフローチャートである。図１７に示すように、テンソル生成部１１２は、元データＤＢ１０３から１つの項目の値を全て抽出し（ステップＳ１３１）、値の変化の度合いが大きいか否かを判定する（ステップＳ１３２）。

そして、値の変化の度合いが大きい場合には、テンソル生成部１１２は、当該項目をカレンダー項目と特定する（ステップＳ１３３）。一方、値の変化の度合いが大きくない場合には、テンソル生成部１１２は、値が不変か否かを判定し（ステップＳ１３４）、不変の場合には、当該項目を不変項目と特定する（ステップＳ１３５）。一方、不変でない場合には、テンソル生成部１１２は、当該項目を前処理項目と特定する（ステップＳ１３６）。

そして、テンソル生成部１１２は、全ての項目を処理したか否かを判定し（ステップＳ１３７）、未処理の項目がある場合には、ステップＳ１３１に戻り、全ての項目を処理した場合には、項目特定処理を終了する。

図１８は、テンソル生成処理の流れを示すフローチャートである。図１８に示すように、テンソル生成部１１２は、１つの学習データを取得し（ステップＳ１４１）、学習データから１つの項目を取得する（ステップＳ１４２）。

そして、テンソル生成部１１２は、項目ＤＢ１０５を参照して、取得した項目がカレンダー項目であるか否かを判定し（ステップＳ１４３）、カレンダー項目である場合には、取得した項目のデータをカレンダーテンソルに追加する（ステップＳ１４４）。

一方、取得した項目がカレンダー項目でない場合には、テンソル生成部１１２は、取得した項目が不変項目であるか否かを判定し（ステップＳ１４５）、不変項目である場合には、取得した項目のデータを非カレンダーテンソルに追加する（ステップＳ１４７）。ここで、非カレンダーテンソルに追加するデータの数は１つである。一方、取得した項目が不変項目でない場合には、テンソル生成部１１２は、前処理を行い（ステップＳ１４６）、前処理を行って生成した項目のデータ又は前処理を行って変更した値を非カレンダーテンソルに追加する（ステップＳ１４７）。

そして、テンソル生成部１１２は、全ての項目を処理したか否かを判定し（ステップＳ１４８）、処理していない項目がある場合には、ステップＳ１４２に戻って次の項目を処理する。一方、全ての項目を処理した場合には、テンソル生成部１１２は、全ての学習データを処理したか否かを判定し（ステップＳ１４９）、処理していない学習データがある場合には、ステップＳ１４１に戻って次の学習データを処理する。一方、全ての学習データを処理した場合には、テンソル生成部１１２は、テンソル生成処理を終了する。

このように、テンソル生成部１１２が、カレンダーテンソルと非カレンダーテンソルを生成することで、予測装置１００は、マルチテンソルを用いて精度の高い体調不良予測を行うことができる。

次に、予測装置１００の効果について図１９Ａ及び図１９Ｂを用いて説明する。図１９Ａ及び図１９Ｂは、予測装置１００の効果を示す図である。図１９Ａは、予測精度を示す。図１９Ａは、６か月間の勤怠情報と個人属性情報から３か月以内の休職を予測した場合を示す。訓練データは、６１８件の休職ありデータと６１８件の休職なしデータである。また、個人属性情報としては、休職履歴、欠勤履歴、療養休暇履歴、職種、昇格、勤務地が用いられた。従来手法では、勤怠情報と個人属性情報から１つのカレンダーテンソルが生成され、実施例では、勤怠情報と個人属性情報からカレンダーテンソルと非カレンダーテンソルが生成される。

図１９Ａは、混同行列を用いた予測精度を示す。混同行列において、休職が予測され実際に休職した数はＴＰ（True Positive）と表され、休職が予測されなかったが実際には休職した数はＦＮ（False Negative）と表される。また、休職が予測されたが実際には休職しなかった数はＦＰ（False Positive）と表され、休職が予測されず実際にも休職しなかった数は、ＴＮ（True Negative）と表される。

そして、正解率（Accuracy）=（ＴＰ＋ＴＮ）／（ＴＰ＋ＦＰ＋ＴＮ＋ＦＮ）、適合率（Precision）＝ＴＰ／（ＦＰ＋ＴＰ）、再現率（Recall）＝ＴＰ／（ＦＮ＋ＴＰ）、Ｆ１値＝２（適合率＊再現率）／（適合率＋再現率）の計算結果が示されている。

図１９Ａに示すように、正解率、適合率、再現率、Ｆ１値のいずれにおいても、従来手法と比較して、予測装置１００の予測精度は高い。

図１９Ｂは、予兆検知の時期を示す。図１９Ｂに示すように、ケース＃１及びケース＃２の場合、従来手法では、療養休暇の段階では将来の休職を予測できないが、予測装置１００は、療養休暇の段階で将来の休職を予測できる。また、ケース＃３の場合、従来手法では、欠勤の段階で将来の休職を予測できるが、予測装置１００は、療養休暇の段階で将来の休職を予測できる。このように、予測装置１００は、従来手法と比較して、早期に休職の予測を行うことができる。

上述してきたように、実施例では、判定部１２１が、データの変化の度合いに基づいて、学習データに含まれる項目がカレンダー項目、不変項目、前処理項目のいずれであるか否かを判定する。そして、学習データに含まれる項目がカレンダー項目である場合には、第１生成部１２２が、当該項目のデータをカレンダーテンソルに追加する。また、学習データに含まれる項目が前処理項目である場合には、第２生成部１２３が、当該項目のデータに基づいてデータを生成して非カレンダーテンソルに追加する。そして、予測装置１００は、カレンダーテンソルと非カレンダーテンソルをマルチテンソルに入力して学習モデルを生成する。したがって、予測装置１００は、休職を高い精度で早期に予測する学習モデルを生成することができる。

また、実施例では、予測部１１４が、予測対象データからカレンダーテンソルと非カレンダーテンソルを生成し、学習モデルに入力して休職の有無を予測するので、休職を高い精度で早期に予測することができる。

また、実施例では、第２生成部１２３は、参照期間より前に変化点があって過去履歴に基づく個人属性項目と値を前処理により生成する。また、第２生成部１２３は、予測期間に含まれる現在の情報に基づいて、個人属性項目の値を前処理により変更する。また、第２生成部１２３は、参照期間中に変化が発生した場合に変化後の期間に基づいて重みづけを行うことで個人属性項目の値を変更する。したがって、予測装置１００は、個人属性情報を予測に適切に用いることができる。

なお、実施例では、予測装置１００について説明したが、予測装置１００が有する構成をソフトウェアによって実現することで、同様の機能を有する予測プログラムを得ることができる。そこで、予測プログラムを実行するコンピュータについて説明する。

図２０は、実施例に係る予測プログラムを実行するコンピュータのハードウェア構成を示す図である。図２０に示すように、コンピュータ５０は、メインメモリ５１と、ＣＰＵ（Central Processing Unit）５２と、ＬＡＮ（Local Area Network）インタフェース５３と、ＨＤＤ（Hard Disk Drive）５４とを有する。また、コンピュータ５０は、スーパーＩＯ（Input Output）５５と、ＤＶＩ（Digital Visual Interface）５６と、ＯＤＤ（Optical Disk Drive）５７とを有する。

メインメモリ５１は、プログラムやプログラムの実行途中結果等を記憶するメモリである。ＣＰＵ５２は、メインメモリ５１からプログラムを読み出して実行する中央処理装置である。ＣＰＵ５２は、メモリコントローラを有するチップセットを含む。

ＬＡＮインタフェース５３は、コンピュータ５０をＬＡＮ経由で他のコンピュータに接続するためのインタフェースである。ＨＤＤ５４は、プログラムやデータを格納するディスク装置であり、スーパーＩＯ５５は、マウスやキーボード等の入力装置を接続するためのインタフェースである。ＤＶＩ５６は、液晶表示装置を接続するインタフェースであり、ＯＤＤ５７は、ＤＶＤの読み書きを行う装置である。

ＬＡＮインタフェース５３は、ＰＣＩエクスプレス（ＰＣＩｅ）によりＣＰＵ５２に接続され、ＨＤＤ５４及びＯＤＤ５７は、ＳＡＴＡ（Serial Advanced Technology Attachment）によりＣＰＵ５２に接続される。スーパーＩＯ５５は、ＬＰＣ（Low Pin Count）によりＣＰＵ５２に接続される。

そして、コンピュータ５０において実行される予測プログラムは、コンピュータ５０により読み出し可能な記録媒体の一例であるＤＶＤに記憶され、ＯＤＤ５７によってＤＶＤから読み出されてコンピュータ５０にインストールされる。あるいは、予測プログラムは、ＬＡＮインタフェース５３を介して接続された他のコンピュータシステムのデータベース等に記憶され、これらのデータベースから読み出されてコンピュータ５０にインストールされる。そして、インストールされた予測プログラムは、ＨＤＤ５４に記憶され、メインメモリ５１に読み出されてＣＰＵ５２によって実行される。

また、実施例では、勤怠情報と個人属性情報から休職を予測する場合について説明したが、予測装置は、他の情報から時系列データを含むテンソルと、時系列データを含まないテンソルを生成し、生成した２つのテンソルを用いて分類を行ってもよい。

２０，２１，２５グラフ
２２，２３，２４行列
５０コンピュータ
５１メインメモリ
５２ＣＰＵ
５３ＬＡＮインタフェース
５４ＨＤＤ
５５スーパーＩＯ
５６ＤＶＩ
５７ＯＤＤ
１００予測装置
１０１通信部
１０２記憶部
１０３元データＤＢ
１０４学習データＤＢ
１０５項目ＤＢ
１０６テンソルＤＢ
１０７学習結果ＤＢ
１０８予測対象ＤＢ
１１０制御部
１１１学習データ生成部
１１２テンソル生成部
１１３学習部
１１４予測部

Claims

コンピュータに、
時系列のレコードデータに含まれる複数のデータ項目それぞれについて、データ項目に対応するデータ値の前記時系列における変化の度合を算出し、
前記複数のデータ項目のうち、算出した前記変化の度合が所定の基準を満たす第１のデータ項目から、時系列の情報を含む第１のテンソルデータを生成し、
前記複数のデータ項目のうち、算出した前記変化の度合が前記所定の基準を満たさない第２のデータ項目から、時系列の情報を含まない第２のテンソルデータを生成し、
前記第１のテンソルデータと前記第２のテンソルデータを入力とした学習を行う、
処理を実行させることを特徴とする予測プログラム。
前記コンピュータに、
判定対象の時系列のレコードデータのうち前記第１のデータ項目を第３のテンソルデータに変換し、
前記判定対象の時系列のレコードデータのうち前記第２のデータ項目を第４のテンソルデータに変換し、
前記学習を行うことにより生成された学習モデルに前記第３のテンソルデータと前記第４のテンソルデータを入力して予測結果を出力する
処理をさらに実行させることを特徴とする請求項１に記載の予測プログラム。
前記第１のテンソルデータに変換する処理は、所定の参照期間の時系列のデータを前記第１のテンソルデータに変換し、
前記第２のテンソルデータに変換する処理は、前記所定の参照期間の開始時より前のデータに基づくデータ、現在のデータに基づくデータ、又は、前記所定の参照期間にデータ値が一度だけ変化するデータ項目に関して前記所定の参照期間の長さに対する変化後の期間の長さの割合に基づくデータを生成し、前記第２のテンソルデータに含める
ことを特徴とする請求項１又は２に記載の予測プログラム。
前記時系列のレコードデータは、個人の勤怠情報のデータと、個人の属性に関するデータを含むことを特徴とする請求項１、２又は３に記載の予測プログラム。
コンピュータが、
時系列のレコードデータに含まれる複数のデータ項目それぞれについて、データ項目に対応するデータ値の前記時系列における変化の度合を算出し、
前記複数のデータ項目のうち、算出した前記変化の度合が所定の基準を満たす第１のデータ項目から、時系列の情報を含む第１のテンソルデータを生成し、
前記複数のデータ項目のうち、算出した前記変化の度合が前記所定の基準を満たさない第２のデータ項目から、時系列の情報を含まない第２のテンソルデータを生成し、
前記第１のテンソルデータと前記第２のテンソルデータを入力とした学習を行う、
処理を実行することを特徴とする予測方法。
時系列のレコードデータに含まれる複数のデータ項目それぞれについて、データ項目に対応するデータ値の前記時系列における変化の度合を算出する算出部と、
前記複数のデータ項目のうち、前記算出部により算出された前記変化の度合が所定の基準を満たす第１のデータ項目から、時系列の情報を含む第１のテンソルデータを生成する第１生成部と、
前記複数のデータ項目のうち、前記算出部により算出された前記変化の度合が前記所定の基準を満たさない第２のデータ項目から、時系列の情報を含まない第２のテンソルデータを生成する第２生成部と、
前記第１生成部により前記第１のデータ項目から生成された第１のテンソルデータと前記第２生成部により前記第２のデータ項目から生成された第２のテンソルデータを入力とした学習を行う学習部と
を有することを特徴とする予測装置。