JP2019212155A

JP2019212155A - 学習用データ生成プログラムおよび学習用データ生成方法

Info

Publication number: JP2019212155A
Application number: JP2018109392A
Authority: JP
Inventors: 聡子岩倉; Satoko Iwakura; 俊一渡邉; Shunichi Watanabe; 塩田　哲義; Tetsuyoshi Shioda; 哲義塩田; 泉新田; Izumi Nitta; 福田　大輔; Daisuke Fukuda; 大輔福田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2019-12-12
Anticipated expiration: 2038-06-07
Also published as: US20190378011A1; US11829867B2; JP6562121B1

Abstract

【課題】予測精度の劣化を抑制することを課題とする。
【解決手段】学習装置は、対象毎に、予め設定された期間の対象者の特徴を多次元で示す複数の要素から成るテンソルの生成元となる学習データを入力する。そして、学習装置は、対象者が予め設定された条件を満たす場合は、学習データにおいて条件に該当する該当期間を特定する。その後、学習装置は、該当期間の前後の少なくともいずれかの学習データに対し、重みづけされたテンソルを生成する。
【選択図】図６

Description

本発明は、学習用データ生成プログラム、学習用データ生成方法およびデータ構造に関する。

グラフ構造のデータを深層学習することが可能なグラフ構造学習技術（以降、このようなグラフ構造学習を行う装置の一形態を「ディープテンソル（DeepTensor：DT）」と呼ぶ。）が知られている。ＤＴは、入力としてグラフ構造を用い、グラフ構造をテンソルデータ（以下では、テンソルと記載する場合がある）として扱う。そして、ＤＴでは、予測に寄与するグラフの部分構造（テンソルの部分パターン）をコアテンソルとして抽出することで、高精度な予測を実現する。

特開平０８−３２９１９６号公報

しかしながら、上記ＤＴでは、コアテンソルで部分的な共通パターンを処理することができるが、部分的なテンソル上は類似しているが実はデータ全体でみると特徴が異なるデータも同じ共通パターンとして処理される場合があり、予測精度が低下する。

例えば、出勤簿データをＤＴで学習する場合、体調不良者の出勤簿データおよび通常者の出勤簿データをＤＴに入力して予測モデルを学習する。そして、学習済みの予測モデルに、判別対象者の出勤簿データを入力して、判別対象者が療養（休職）する可能性を予測する。

このような学習では、過去にメンタル疾患などを発症して療養経験のある既往者の出勤簿データが、復職して通常勤務している状態であっても、休暇や遅刻が頻出するなど、乱れがあることがある。このとき、新規療養前の兆候である出勤の乱れがある出勤簿データと、部分的なテンソル上では似た状態になることがある。しかし、その後で療養が発生するとは限らない。よって、既往者の出勤簿データがノイズとなり、新規療養者の予測精度を低下させる。

一つの側面では、予測精度の劣化を抑制することができる学習用データ生成プログラム、学習用データ生成方法およびデータ構造を提供することを目的とする。

第１の案では、学習用データ生成プログラムは、コンピュータに、対象毎に、予め設定された期間の対象者の特徴を多次元で示す複数の要素から成るテンソルの生成元となる学習データを入力する処理を実行させる。学習用データ生成プログラムは、コンピュータに、対象者が予め設定された条件を満たす場合は、前記学習データにおいて前記条件に該当する該当期間を特定する処理を実行させる。学習用データ生成プログラムは、コンピュータに、前記該当期間の前後の少なくともいずれかの前記学習データに対し、重みづけされたテンソルを生成する処理を実行させる。

一実施形態によれば、予測精度の劣化を抑制することができる。

図１は、実施例１にかかる機械学習の全体例を説明する図である。図２は、学習データの例を説明する図である。図３は、グラフ構造とテンソルとの関係の一例を示す図である。図４は、部分グラフ構造の抽出の一例を示す図である。図５は、ディープテンソルの学習例を説明する図である。図６は、実施例１にかかる学習装置の機能構成を示す機能ブロック図である。図７は、出勤簿データＤＢに記憶される情報の例を示す図である。図８は、出勤簿データで療養期間を判別する例を説明する図である。図９は、テンソル化を説明する図である。図１０は、重みが１の通常者の入力テンソルを説明する図である。図１１は、重みが０の既往者の入力テンソルを説明する図である。図１２は、学習時の処理の流れを示すフローチャートである。図１３は、予測時の処理の流れを示すフローチャートである。図１４は、一般的なテンソル化の問題点を説明する図である。図１５は、重みを付加したテンソル化の効果を説明する図である。図１６は、ハードウェア構成例を説明する図である。

以下に、本願の開示する学習用データ生成プログラム、学習用データ生成方法およびデータ構造の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［全体例］
近年、従業員の体調管理などは、企業にとっても取り組むべき重要な事項に位置づけられており、従業員の出勤簿データから、数か月先のメンタル不調を予測し、カウンセリング等の対応を早期に実施することが行われている。一般的には、専任スタッフが、膨大な人数の従業員の出勤簿データを閲覧し、頻繁な出張、長時間残業、連続する欠勤、無断欠勤、これらの組合せなどの特徴的なパターンの勤務状態に該当する従業員を目視で探している。このような特徴的なパターンは、各専任スタッフにより基準が異なることもあり、明確に定義することが難しい。

そこで、本実施例では、ディープテンソルを用いた深層学習の一例として、従業員等の出勤簿データを学習対象とし、体調不良者の出勤簿データおよび通常者の出勤簿データをディープテンソルに入力して従業員のメンタル不調を予測する予測モデルを学習する例を説明する。図１は、実施例１にかかる機械学習の全体例を説明する図である。図１に示すように、実施例１にかかる学習装置１００は、社員の日々の出勤、退勤時間、休暇取得、出張などの状況を含む出勤簿データを機械学習して予測モデルを生成し、学習後の予測モデルを用いて、予測対象のある社員の出勤簿データから、当該社員が療養（休職）するか療養しないかを予測するコンピュータ装置の一例である。なお、ここでは、学習装置１００が学習処理と予測処理とを実行する例で説明するが、別々の装置で実行することもできる。

具体的には、学習装置１００は、療養したことがある体調不良者の出勤簿データ（ラベル＝療養あり）と、療養したことがない通常者の出勤簿データ（ラベル＝療養なし）とを学習データとして、グラフ構造のデータを深層学習（ディープラーニング・Deep Learning；DL）するディープテンソルによって予測モデルを生成する。その後、学習結果を適用した予測モデルを用いて新規なグラフ構造のデータの正確な事象（ラベル）の推定を実現する。

例えば、学習装置１００は、対象毎に、予め設定された期間の対象者の特徴を多次元で示す複数の要素から成るテンソルを生成する。このとき、学習装置１００は、対象者が予め設定された条件を満たす場合は、テンソル化の対象である学習データにおいて条件に該当する該当期間を特定する。その後、学習装置１００は、該当期間の前の期間よりも該当期間の後の期間の重みを軽くしたテンソルを生成し、生成したテンソルをテンソル分解して、ディープテンソルによる学習を実行する。

ここで、ディープテンソルに入力する学習データについて説明する。図２は、学習データの例を説明する図である。学習データは、６か月ごとの出勤簿データと、その６か月以降から３か月以内に療養実績があるか否かを示すラベルとから構成される。図２の（ａ）は、ラベル（療養あり）が付される体調不良者の出勤簿データであり、図２の（ｂ）は、療養しなかったラベル（療養なし）が付される通常者の出勤簿データである。図２に示すように、実施例１にかかる学習装置１００は、「６か月分の出勤簿データ、ラベル（療養あり）」と、「６か月分の出勤簿データ、ラベル（療養なし）」とを学習データとして予測モデルを学習する。学習装置１００は、学習後、ある人の６か月分の出勤簿データから３か月以内に療養するか否かを予測する。なお、図２内の網掛けは、休暇を示す。

次に、ディープテンソルについて説明する。ディープテンソルとは、テンソル（グラフ情報）を入力とするディープラーニングであり、ニューラルネットワークの学習とともに、判別に寄与する部分グラフ構造を自動的に抽出する。この抽出処理は、ニューラルネットワークの学習とともに、入力テンソルデータのテンソル分解のパラメータを学習することによって実現される。

次に、図３および図４を用いてグラフ構造について説明する。図３は、グラフ構造とテンソルとの関係の一例を示す図である。図３に示すグラフ２０は、４つのノードがノード間の関係性（例えば「相関係数が所定値以上」）を示すエッジで結ばれている。なお、エッジで結ばれていないノード間は、当該関係性がないことを示す。グラフ２０を２階のテンソル、つまり行列で表す場合、例えば、ノードの左側の番号に基づく行列表現は「行列Ａ」で表され、ノードの右側の番号（囲み線で囲んだ数字）に基づく行列表現は「行列Ｂ」で表される。これらの行列の各成分は、ノード間が結ばれている（接続している）場合「１」で表され、ノード間が結ばれていない（接続していない）場合「０」で表される。以下の説明では、この様な行列を接続行列ともいう。ここで、「行列Ｂ」は、「行列Ａ」の２，３行目および２，３列目を同時に置換することで生成できる。ディープテンソルでは、この様な置換処理を用いることで順序の違いを無視して処理を行う。すなわち、「行列Ａ」および「行列Ｂ」は、ディープテンソルでは順序性が無視され、同じグラフとして扱われる。なお、３階以上のテンソルについても同様の処理となる。

図４は、部分グラフ構造の抽出の一例を示す図である。図４に示すグラフ２１は、６つのノードがエッジで結ばれたものである。グラフ２１は、行列（テンソル）で表すと行列２２に示すように表現できる。行列２２に対して、特定の行および列を入れ替える演算、特定の行および列を抽出する演算、ならびに、接続行列における非ゼロ要素をゼロに置換する演算を組み合わせることで、部分グラフ構造を抽出できる。例えば、行列２２の「ノード１，４，５」に対応する行列を抽出すると、行列２３となる。次に、行列２３の「ノード４，５」間の値をゼロに置換すると、行列２４となる。行列２４に対応する部分グラフ構造は、グラフ２５となる。

このような部分グラフ構造の抽出処理は、テンソル分解と呼ばれる数学的演算によって実現される。テンソル分解とは、入力されたｎ階テンソルをｎ階以下のテンソルの積で近似する演算である。例えば、入力されたｎ階テンソルを１つのｎ階テンソル（コアテンソルと呼ばれる。）、および、より低階のｎ個のテンソル（ｎ＞２の場合、通常は２階のテンソル、つまり行列が用いられる。）の積で近似する。この分解は一意ではなく、入力データが表すグラフ構造中の任意の部分グラフ構造をコアテンソルに含める事ができる。

続いて、ディープテンソルの学習について説明する。図５は、ディープテンソルの学習例を説明する図である。図５に示すように、学習装置１００は、療養ありなどの教師ラベル（ラベルＡ）が付された出勤簿データから入力テンソルを生成する。そして、学習装置１００は、入力テンソルにテンソル分解を行って、初回にランダムに生成されたターゲットコアテンソルに類似するようにコアテンソルを生成する。そして、学習装置１００は、コアテンソルをニューラルネットワーク（ＮＮ：Neural Network）に入力して分類結果（ラベルＡ：７０％、ラベルＢ：３０％）を得る。その後、学習装置１００は、分類結果（ラベルＡ：７０％、ラベルＢ：３０％）と教師ラベル（ラベルＡ：１００％、ラベルＢ：０％）との分類誤差を算出する。

ここで、学習装置１００は、誤差逆伝搬法を拡張した拡張誤差伝搬法を用いて予測モデルの学習およびテンソル分解の方法の学習を実行する。すなわち、学習装置１００は、ＮＮが有する入力層、中間層、出力層に対して、分類誤差を下層に伝搬させる形で、分類誤差を小さくするようにＮＮの各種パラメータを修正する。さらに、学習装置１００は、分類誤差をターゲットコアテンソルまで伝搬させ、予測に寄与するグラフの部分構造、すなわち体調不良者の特徴を示す特徴パターンもしくは通常者の特徴を示す特徴パターンに近づくように、ターゲットコアテンソルを修正する。

なお、学習後の予測時には、テンソル分解により、入力テンソルをコアテンソル（入力テンソルの部分パターン）に変換し、コアテンソルをニューラルネットに入力することで、予測結果を得ることができる。テンソル分解では、コアテンソルがターゲットコアテンソルに類似するように変換される。

そして、学習装置１００は、通常者と体調不良者のそれぞれの出勤簿データから生成されたテンソルを用いて学習する際に、１つの学習データとして切り出された期間（例えば、６か月＋ラベル用の３か月）内に療養が含まれるか否かに関わらず、出勤簿データの全期間を参照し、過去に療養経験がある者（以降、既往者と呼ぶ）を特定する。そして、学習装置１００は、コアテンソル化（部分パターン抽出）した際に、療養前の兆候となる乱れた出勤簿のパターンと部分的に類似のデータを持つ恐れがある既往者の療養明け（復職後）期間のデータについてのテンソルの重みを減らす。このようにすることで、学習装置１００は、既往者の出勤簿データが、休暇や遅刻が頻発するなど、新規に療養に入る前の体調不良者の出勤簿データと部分的に類似していても、既往者のデータの重みを減らすことで、新規療養前の兆候と同じコアテンソルとしては処理しなくなる。よって、新規療養の予測精度の劣化を抑制することができる。

［機能構成］
図６は、実施例１にかかる学習装置１００の機能構成を示す機能ブロック図である。図６に示すように、学習装置１００は、通信部１０１、記憶部１０２、制御部１１０を有する。

通信部１０１は、他の装置との通信を制御する処理部であり、例えば通信インタフェースである。例えば、通信部１０１は、管理者の端末から、処理開始指示、学習データ、学習データがテンソル化された入力テンソルなどを受信する。また、通信部１１は、管理者の端末に対して、学習結果や学習後の予測結果などを出力する。

記憶部１０２は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部１０２は、出勤簿データＤＢ１０３、学習データＤＢ１０４、テンソルＤＢ１０５、学習結果ＤＢ１０６、予測対象ＤＢ１０７を記憶する。

出勤簿データＤＢ１０３は、社員等の出勤に関する出勤簿データを記憶するデータベースである。ここで記憶される出勤簿データは、各企業で使用される出勤簿をデータ化したものであり、公知の様々な出勤管理システムなどから取得することができる。図７は、出勤簿データＤＢ１０３に記憶される情報の例を示す図である。図７に示すように、出勤簿データは、「従業員Ｎｏ、日付、曜日、出欠区分、出勤時刻、退勤時刻、残業時間、出張」を対応付けて記憶する。なお、出欠区分には、出社、療養、休暇などの種別が格納される。

図７の例は、従業員Ｎｏ．１００の従業員の出勤簿データを示している。例えば、図７の２行目は、「2015年4月2日木曜日」の出勤簿データであり、この日は、出張がなく、「8：49」に出社して「0：00」に退社し、残業時間が「360分」である例を示す。また、図７の７行目は、「2015年8月24日水曜日」の出勤簿データであり、この日から「2015年10月4日火曜日」まで「療養」したことを示す。なお、出勤簿データの単位は、日ごとに限らず、週単位や月単位であってもよい。

学習データＤＢ１０４は、テンソル化対象となる学習データを記憶するデータベースである。具体的には、学習データＤＢ１０４は、出勤簿データを６か月の期間で切出されたデータと、ラベルの組となる各学習データを記憶する。例えば、学習データＤＢ１０４は、「データ、ラベル」として「学習データａ、ラベル（療養なし）」や「学習データｂ、ラベル（療養あり）」などを記憶する。

例えば、６か月の出勤簿データを１つの学習データとし、その後の３か月以内に療養した療養期間がある場合に、ラベルとして「療養あり」が設定され、その後の３か月以内に療養期間がない場合に、ラベルとして「療養なし」が設定される。なお、６か月の出勤簿データに療養期間が含まれている場合、そのデータは学習データとして採用されない。これは、予測時に、予測元のデータ（入力）となる６か月分の出勤簿データにすでに「療養」が入っている人は、明らかに直近で療養しているとわかっており、この先３か月の療養予測の対象にはしないためである。

テンソルＤＢ１０５は、各従業員の学習データから生成された各テンソル（テンソルデータ）を記憶するデータベースである。このテンソルＤＢ１０５は、各テンソルとラベルとを対応付けたテンソルデータを記憶する。例えば、テンソルＤＢ１０５は、「データＮｏ、ラベル」として「テンソルＮｏ．１、ラベル（療養なし）」や「テンソルＮｏ．２、ラベル（療養あり）」などを記憶する。なお、ここで記憶される各テンソルは、学習装置１００以外の別の装置で生成してもよく、学習装置１００が生成することもできる。

学習結果ＤＢ１０６は、学習結果を記憶するデータベースである。例えば、学習結果ＤＢ１０６は、制御部１１０による学習データの判別結果（分類結果）、機械学習やディープラーニングによって学習された、ＮＮの各種パラメータやディープテンソルの各種パラメータなどを記憶する。

予測対象ＤＢ１０７は、学習された予測モデルを用いて、新規に療養の有無を予測する対象の出勤簿データを記憶するデータベースである。例えば、予測対象ＤＢ１０７は、予測対象の出勤簿データ、または、予測対象の出勤簿データから生成されたテンソルなどを記憶する。

制御部１１０は、学習装置１００全体の処理を司る処理部であり、例えばプロセッサなどである。この制御部１１０は、学習データ生成部１１１、既往者判定部１１２、重み設定部１１３、テンソル生成部１１４、学習部１１５、予測部１１６を有する。なお、学習データ生成部１１１、既往者判定部１１２、重み設定部１１３、テンソル生成部１１４、学習部１１５、予測部１１６は、プロセッサなどが有する電子回路やプロセッサなどが実行するプロセスの一例である。

学習データ生成部１１１は、出勤簿データＤＢ１０３に記憶される各出勤簿データから、始期の異なる一定期間のデータと、始期に対応したラベルの組となる学習データを生成する処理部である。具体的には、学習データ生成部１１１は、一人の出勤簿データから重複を許して、指定された期間のデータをサンプリングする。学習データ生成部１１１は、各出勤簿データから、期間のはじまり（始期）が異なる複数のデータを抽出し、各データについて、データの終期から３か月以内に療養期間があればラベル「療養あり」を設定し、データの終期から３か月以内に療養期間がなければラベル「療養なし」を設定する。

例えば、学習データ生成部１１１は、１月から１２月の出勤簿データから、１月から６月の出勤簿データを抽出する。そして、学習データ生成部１１１は、７月から９月の３か月に療養期間がない場合はラベル「療養なし」を、抽出した出勤簿データに付加して学習データを生成する。続いて、学習データ生成部１１１は、１月から１２月の出勤簿データから、２月から７月の出勤簿データを抽出する。そして、学習データ生成部１１１は、８月から１０月の３か月に療養期間がある場合はラベル「療養あり」を、抽出した出勤簿データに付加して学習データを生成する。

既往者判定部１１２は、各学習データの元となった出勤簿データに基づいて、該当する従業員が既往者か否かを判定する処理部である。例えば、既往者判定部１１２は、予測に用いる「６か月」などの区間切り出しではなく、該当従業員の全データ区間である出勤簿データを参照し、「療養期間」がある場合は既往者と判定し、「療養期間」がない場合は通常者と判定する。そして、既往者判定部１１２は、各学習データに対する判定結果を重み設定部１１３に通知する。

なお、既往者とは、１つの学習データとして使用する期間に限らず、過去の出勤簿データ全体において療養期間がある従業員を指す。例えば、療養期間が学習時から２年前の場合、直近６か月のデータだけみると「体調不良者」ではないが、「既往者」に該当する場合がある。

重み設定部１１３は、各学習データが既往者の療養明け期間に該当するか否かを判定し、その判定結果に応じて重みを設定する処理部である。つまり、重み設定部１１３は、ある条件の一例である既往者の学習データについて、療養明けで復職したデータの重要度を減少させるために、重みを設定する。例えば、重み設定部１１３は、既往者判定部１１２によって既往者であると判定された出勤簿データから生成された各学習データについて、当該学習データが療養期間の後の復職後のデータ期間に該当する場合は、当該学習データに対する重みを減らす。

ここで、図８を用いて、療養区間と重みの設定について説明する。図８は、出勤簿データで療養期間を判別する例を説明する図である。図８に示すように、重み設定部１１３は、テンソル化に際して、各学習データが「療養期間」の前後のいずれに該当するかを判定する。そして、重み設定部１１３は、「2016年8月24日」から「2016年10月4日」まで「療養期間」がある場合、療養開始の「2016年8月24日」より前に該当する学習データについては重みを「１」に設定し、療養終了の「2016年10月4日」より後の学習データについては重みを「０」に設定する。

つまり、療養期間より前の療養前期間は、療養要因となる部分パターンであるコアテンソル（予測に影響を与える部分パターン）として抽出するのに重要と判定し、重みとして「１」を設定する。一方で、療養期間より後の療養後期間は、療養要因となる部分パターンであるコアテンソルとして抽出するのに重要ではないと判定し、重みとして「０」を設定する。

テンソル生成部１１４は、各学習データをテンソル化する処理部である。具体的には、テンソル生成部１１４は、学習データＤＢ１０４に記憶される各学習データであって、重み設定部１１３による重み設定が完了した各学習データについて、各学習データに含まれる要素で構成されるテンソルを生成して、テンソルＤＢ１０５に格納する。テンソル生成部１１４は、学習データＤＢ１０４に記憶される各学習データであって、重み設定部１１３による重み設定が完了した各学習データについて、例えば、各学習データに含まれる４要素で構成される４階テンソルを生成して、テンソルＤＢ１０５に格納する。このとき、テンソル生成部１１４は、学習データに付加されるラベル（療養あり）またはラベル（療養なし）を、テンソルに対応付けて格納する。

具体的には、テンソル生成部１１４は、療養する傾向を特徴づけると想定される各属性を各次元として、学習データからテンソルを生成する。例えば、テンソル生成部１１４は、月度、日付、出欠区分、出張有無の４要素を用いた４次元の４階テンソルを生成する。なお、６か月分のデータである場合は、月度の要素数は「６」、各月の日付数の最大値が３１であることから日付の要素数は「３１」、出欠の種類が出社・休暇・休日であれば出欠区分の要素数は「３」、出張はありとなしであることから出張有無の要素数は「２」となる。したがって、学習データから生成されるテンソルは、「６×３１×３×２」のテンソルとなり、学習データの各月度、日付における出欠区分、出張有無に対応する要素の値が１、そうでない要素の値が０となる。

図９は、テンソル化を説明する図である。図９に示すように、テンソル生成部１１４が生成するテンソルは、横方向に月度、縦方向に日付、奥行き方向に出欠区分、左側が出張あり、右側が出張なしのデータとなる。日付は、上から１日目を順に示し、出欠区分は、手前から出社、休暇、休日を示す。例えば、図９の（ａ）は、月度１の１日目に出社して出張した要素を示し、図９の（ｂ）は、月度１の２日目に休暇を取得して出張しなかった要素を示す。

なお、本実施例では、上述したテンソルを簡略化して図９の（ｃ）のように記載することとする。すなわち、月度、日付、出欠区分、出張有無の各要素を重ねたキューブ状で表現することとし、各月度かつ日付の出張有無を区別して表現し、各月度かつ日付の出欠区分を区別して表現することとする。

なお、テンソル生成部１１４は、予測時には、学習時と同様の手法で、予測対象ＤＢ１０７に記憶される各予測対象の出勤簿データから、ニューラルネットワークへの入力対象となるテンソルを生成する。

学習部１１５は、各学習データから生成された各テンソルおよびラベルを入力として、ディープテンソルによる予測モデルの学習およびテンソル分解の方法の学習を実行する処理部である。具体的には、学習部１１５は、ディープテンソルの「グラフ（テンソル）の部分構造を認識することができる」という性質を利用して、学習を実行する。例えば、学習部１１５は、図５で説明した手法と同様、入力対象のテンソル（入力テンソル）からコアテンソルを抽出してＮＮに入力し、ＮＮからの分類結果と入力テンソルに付与されているラベルとの誤差（分類誤差）を算出する。そして、学習部１１５は、分類誤差を用いて、ＮＮのパラメータの学習およびターゲットコアテンソルの最適化を実行する。その後、学習部１１５は、学習が終了すると、各種パラメータを学習結果として学習結果ＤＢ１０６に格納する。

ここで、重みが設定された入力テンソルについて説明する。図１０は、重みが１の通常者の入力テンソルを説明する図であり、図１１は、重みが０の既往者の入力テンソルを説明する図である。テンソルは線形の量なのであることから、重みづけを行うということは、元々の長さに対して、０から１あるいはそれ以上の数値を掛け合わせ、長さを変えることになる。

実施例１で説明するテンソル分解は、ターゲットコアテンソルに類似するようにコアテンソルを算出することにより、分類に重要な構造をコアテンソルの類似の位置に配置する。そして、このコアテンソルを用いてＮＮを学習することにより、精度の高い分類を実現する。テンソル分解は、２段階の最適化により計算される。図１０に示すように、第１段階では、与えられたターゲットコアテンソルを用いて、入力テンソルを最もよく近似するように要素行列のみ最適化される。第２段階では、第１段階で最適化された要素行列を用いて、入力テンソルを最もよく近似するようにコアテンソルを最適化する。

入力テンソルに重みづけするということは、コアテンソルに数字的な重みづけ（線形の量を変更している）を行っていることになる。図１１に示すように、入力テンソルをすべて０と重みづけすると、コアテンソルも０に重みづけされるので、既往者のデータはすべて０のコアテンソルとしてＮＮに入力されることになる。したがって、仮に重みづけ前の入力テンソルが同一のテンソルだったとしても、重み１と重み０のテンソルは異なる入力として学習されるので、新規に療養に入る前の乱れた出勤状況と、既往者の乱れた出勤状況を、異なる状況として適切に学習することができる。

より詳細に説明する。既往者のデータはすべて重みづけされたコアテンソルとしてＮＮに入力され、ＮＮから出力することで分類させる。そして、分類された結果を教師ラベルと比較し、誤差を逆に伝搬させて誤差を最小化するようにＮＮのパラメータを更新する。このとき、逆伝搬で各要素の誤差情報が返ってくるので、その誤差情報を基にして、ターゲットコアテンソルも更新する。その更新したターゲットコアテンソルに類似するように、重みづけされた入力テンソルから要素を取り出した新たなコアテンソルを生成する。そして、新たなコアテンソルをＮＮに入力され、ＮＮから出力することで分類させる。そして、分類された結果を教師ラベルと比較し、誤差を逆に伝搬させて誤差を最小化するようにＮＮのパラメータを更新する。このとき、逆伝搬で各要素の誤差情報が返ってくるので、その誤差情報を基にして、ターゲットコアテンソルも更新する。つまり、分類された結果と教師ラベルとの誤差が最小化するまで学習を繰り返すことで、最適化したターゲットコアテンソルおよびＮＮのパラメータが決定する。

予測部１１６は、学習結果を用いて、判別対象のデータのラベルを予測する処理部である。具体的には、予測部１１６は、学習結果ＤＢ１０６から各種パラメータを読み出し、各種パラメータを設定したニューラルネットワークを構築する。そして、予測部１１６は、予測対象の出勤簿データから生成されたテンソルをニューラルネットワークに入力する。その後、予測部１１６は、療養するまたは療養しないかの予測結果を出力する。そして、予測部１１６は、予測結果をディスプレイに表示したり、管理者端末に送信したりする。

また、予測部１１６は、予測対象の従業員の出勤簿データを参照して、予測対象の出勤簿データ期間よりも前に療養期間が含まれているか否かを判定し、療養期間が含まれていない通常者の場合に予測を実行し、療養期間が含まれている既往者である場合にアラートを出力することもできる。

［学習の流れ］
図１２は、学習時の処理の流れを示すフローチャートである。図１２に示すように、学習データ生成部１１１は、出勤簿データを出勤簿データＤＢ１０３から読み込み（Ｓ１０１）、学習対象の従業員１人を選択する（Ｓ１０２）。

続いて、学習データ生成部１１１は、出勤簿データから６か月期間のデータを切出すとともに、続く３か月間の出勤簿データ内の療養期間の有無によって、切出された各データにラベルを付与して、学習データを生成する（Ｓ１０３）。なお、６か月のデータ内に療養が含まれている場合は学習データとして採用されない。

その後、Ｓ１０４からＳ１０８の処理が各学習データについて実行される。具体的には、既往者判定部１１２が、対象の従業員の出勤簿データを参照して、既往者に該当するか否かを判定する（Ｓ１０４）。

ここで、既往者に該当する場合（Ｓ１０４：Ｙｅｓ）、重み設定部１１３が、学習データに対する既往者の療養明け区間の重みづけ（重み＝０）を実行し（Ｓ１０５）、テンソル生成部１１４が、重み付けされた学習データのテンソル化を実行する（Ｓ１０６）。

一方、既往者に該当しない場合（Ｓ１０４：Ｎｏ）、重み設定部１１３が、学習データに対する重みづけ（重み＝１）を実行し（Ｓ１０７）、テンソル生成部１１４が、学習データのテンソル化を実行する（Ｓ１０８）。すなわち、重みの変更が実行されない。

その後、次の対象となる従業員がいる場合（Ｓ１０９：Ｙｅｓ）、Ｓ１０２以降が実行され、次の対象となる従業員がいない場合（Ｓ１０９：Ｎｏ）、学習部１１５による学習処理が実行される（Ｓ１１０）。

［予測の流れ］
図１３は、予測時の処理の流れを示すフローチャートである。なお、予測対象の出勤簿データについても、学習時と同様、期間６か月分を入力とし、その後３か月以内に療養する/しないを予測する。図１３に示すように、予測部１１６は、予測対象ＤＢ１０７から出勤簿データを読み込み（Ｓ２０１）、予測対象の従業員１人を選択する（Ｓ２０２）。

続いて、予測部１１６は、対象の従業員の出勤簿データを参照して、既往者に該当するか否かを判定する（Ｓ２０３）。

ここで、既往者に該当しない場合（Ｓ２０３：Ｎｏ）、予測部１１６は、出勤簿データのテンソル化を実行し（Ｓ２０４）、学習済みの予測モデルを用いて予測を実行し（Ｓ２０５）、該当従業員が３か月以内に療養するまたは療養しないを示す予測結果のラベルを記憶部１０２等に格納する（Ｓ２０６）。

その後、次の対象となる従業員がいる場合（Ｓ２０７：Ｙｅｓ）、Ｓ２０２以降が実行され、次の対象となる従業員がいない場合（Ｓ２０７：Ｎｏ）、処理を終了する。また、Ｓ２０３において、予測部１１６は、既往者に該当すると判定した場合（Ｓ２０３：Ｙｅｓ）、予測結果に既往者であることを示す既往者アラートを格納する（Ｓ２０８）。なお、Ｓ２０３で既往者に該当するとは、対象従業員が、予測対象の出勤簿データ（６か月分）よりも前の期間の出勤簿データに療養を含んでいる既往者である場合の他、予測対象の出勤簿データ（６か月分）内に療養を含んでおり予測対象外となる場合もある。

［効果］
上述したように、学習装置１００は、ディープテンソルの「予測に寄与するグラフの部分構造（テンソルの部分パターン）をコアテンソルとして抽出することができる」という性質を利用し、少ない学習データ量でも精度良く予測が可能である。特に、既往者の療養明け期間のテンソルデータの重みを変えることにより、新規に療養に入る前の乱れた出勤状況と既往者の乱れた出勤状況が、出勤簿データ上、部分的に同じ出勤パターンを示していても、異なる状況として適切に学習することができるため、新規療養者予測の精度向上ができる。

また、従来から従業員の体調管理などを行う専任スタッフが、学習装置１００による予測対象者の既往者チェックの結果を閲覧することにより、再療養リスクが高い既往者がすでにフォロー対象になっているか確認することができる。また、学習装置１００は、予測対象者の既往者チェックの結果を用いて、再療養リスクが高い既往者を検出して、「既往者アラート」などを出力することもできる。

ここで、一般的なテンソル化と実施例１による重みを付加したテンソル化との比較例を説明する。図１４は、一般的なテンソル化の問題点を説明する図である。図１５は、重みを付加したテンソル化の効果を説明する図である。ここでは、療養明けの既往者に該当する従業員Ａ（ラベル：療養なし）の学習データのテンソルと、３か月以内に療養する従業員Ｂ（ラベル：療養あり）の学習データのテンソルとの比較例を説明する。

図１４に示すように、一般的なテンソル化の場合、従業員Ａのテンソルと従業員Ｂのテンソルとは、長期間で比較すると別のテンソルであるが、短期間で比較すると同じテンソルとなる。つまり、同じコアテンソルが抽出される可能性がある。この場合、同じ事例として処理されるので、既往者のデータがノイズとなり、ターゲットコアテンソルの最適化やＮＮの学習の精度劣化に繋がる結果、予測モデルの精度劣化が発生する。

一方、実施例１の場合、図１５に示すように、従業員Ａ、Ｂ、Ｃの各テンソルは、長期間で比較すると別のテンソルであるが、短期間で比較すると同じテンソルとなり、コアテンソルとして共通パターンが抽出される可能性がある。しかし、従業員Ａが既往者であることから、テンソルの重みが変更される。したがって、コアテンソルと同じパターンであっても、ＮＮに入力されるときには同じパターン（コアテンソル）として処理されなくなり、別例として学習される。一方、従業員ＢおよびＣのテンソルは、共通パターンとして学習される。この結果、既往者の学習データによる予測モデルの精度劣化を抑制することができる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［学習］
上述した学習処理は、任意の回数だけ実行することもできる。例えば、すべての学習データを用いて実行することもでき、所定回数だけ実行することもできる。また、分類誤差の算出方法は、最小二乗法など公知の算出手法を採用することができ、ＮＮで用いられる一般的な算出手法を採用することもできる。なお、学習データや出勤簿データは、外部の装置から取得することもできる。

［重み］
実施例では、療養明けのテンソルに重みとして０を設定する例を説明したが、これに限定されるものではない。例えば、療養前期間に重み（１）、療養明けから１年以内は重み（０）、その後は重み（０．５）などのように、複数の重みを設定することもできる。また、療養明けのテンソルに重みとして０を設定し、療養明けから２年後は重みを（０）から元の重み（１）に戻すこともできる。また、学習対象のテンソルは、該当期間の前後に応じて、重みを変更することもできる。例えば、所定条件に該当する該当期間の前の期間の重みを該当期間の後ろの期間の重みよりも重くすることもできる。また、重みの数値は一例であり、療養前期間のデータの重要度を高く、復職後期間のデータの重要度を低くすることができれば、他の値を用いることもできる。なお、所定条件によっては、所定条件に該当する該当期間の前の期間の重みを該当期間の後ろの期間の重みよりもこともできる。

［特定条件］
実施例１では、過去に療養経験のある既往者のテンソルデータの重みを変更する例を説明したが、これに限定されるものではない。たとえば、育児や介護をしている従業員など、本人の体調不良には起因しない勤務の乱れがあるような従業員のデータも、新規療養予測のノイズとなりうるため、これらの従業員を対象とするなど、テンソルデータの重みを変更する条件は、任意に変更できる。

また、上記実施例では、学習時、出勤簿データから自動で６か月や３か月の期間抽出の上、「療養あり」「療養なし」のラベルを付与し学習する例を説明したが、これに限定されるものではない。例えば、ユーザによりあらかじめ期間抽出やラベルが付与されている場合は、与えられたデータや付与済みのラベルを使用することもできる。また、ラベルの設定例も一例であり、療養ありと療養なしに限らず、体調不良者と通常者、休職ありと休職なしなどのように、体調不良者の有無を区別できる様々なラベルを用いることもできる。

また、６か月の出勤簿データを予測に用いるデータとして使用したが、これに限定されるものではなく、４か月など任意に変更することができる。また、６か月の出勤簿データに対して、その後３か月以内に療養したか否かによってラベルを付与する例を説明したが、これに限定されるものではなく、２か月以内など任意に変更することができる。また、上記実施例では、学習装置１００が出勤簿データをテンソル化する例を説明したが、他の装置がテンソル化したデータを取得して上記各処理を実行することもできる。

［想定システム］
上記実施例では、出勤簿データを学習して療養する可能性がある従業員を予測する例で説明したが、これに限定されるものではない。例えば、電子部品の動作データを用いた故障予測、通信データを用いた攻撃予測、道路の交通量データを用いた渋滞予測などにも適用することができる。

［ニューラルネットワーク］
本実施例では、ＲＮＮ（Recurrent Neural Networks）やＣＮＮ（Convolutional Neural Network）など様々なニューラルネットワークを用いることができる。また、学習の手法も、誤差逆伝播以外にも公知の様々な手法を採用することができる。また、ニューラルネットワークは、例えば入力層、中間層（隠れ層）、出力層から構成される多段構成であり、各層は複数のノードがエッジで結ばれる構造を有する。各層は、「活性化関数」と呼ばれる関数を持ち、エッジは「重み」を持ち、各ノードの値は、前の層のノードの値、接続エッジの重みの値（重み係数）、層が持つ活性化関数から計算される。なお、計算方法については、公知の様々な手法を採用できる。

また、ニューラルネットワークにおける学習とは、出力層が正しい値となるように、パラメータ、すなわち、重みとバイアスを修正していくことである。誤差逆伝播法においては、ニューラルネットワークに対して、出力層の値がどれだけ正しい状態（望まれている状態）から離れているかを示す「損失関数（loss function）」を定め、最急降下法等を用いて、損失関数が最小化するように、重みやバイアスの更新が行われる。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値などは、あくまで一例であり、任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
図１６は、ハードウェア構成例を説明する図である。図１６に示すように、学習装置１００は、通信装置１００ａ、ＨＤＤ（Hard Disk Drive）１００ｂ、メモリ１００ｃ、プロセッサ１００ｄを有する。また、図１６に示した各部は、バス等で相互に接続される。

通信装置１００ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ１００ｂは、図６に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１００ｄは、図６に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図６等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、学習装置１００が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１００ｄは、学習データ生成部１１１、既往者判定部１１２、重み設定部１１３、テンソル生成部１１４、学習部１１５、予測部１１６等と同様の機能を有するプログラムをＨＤＤ１００ｂ等から読み出す。そして、プロセッサ１００ｄは、学習データ生成部１１１、既往者判定部１１２、重み設定部１１３、テンソル生成部１１４、学習部１１５、予測部１１６等と同様の処理を実行するプロセスを実行する。

このように学習装置１００は、プログラムを読み出して実行することで学習方法を実行する情報処理装置として動作する。また、学習装置１００は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、学習装置１００によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＭＯ（Magneto−Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。

１００学習装置
１０１通信部
１０２記憶部
１０３出勤簿データＤＢ
１０４学習データＤＢ
１０５テンソルＤＢ
１０６学習結果ＤＢ
１０７予測対象ＤＢ
１１０制御部
１１１学習データ生成部
１１２既往者判定部
１１３重み設定部
１１４テンソル生成部
１１５学習部
１１６予測部

Claims

コンピュータに、
対象毎に、予め設定された期間の対象者の特徴を多次元で示す複数の要素から成るテンソルの生成元となる学習データを入力し、
対象者が予め設定された条件を満たす場合は、前記学習データにおいて前記条件に該当する該当期間を特定し、
前記該当期間の前後の少なくともいずれかの前記学習データに対し、重みづけされたテンソルを生成する
処理を実行させる学習用データ生成プログラム。
請求項１に記載の学習用データ生成プログラムであって、前記コンピュータに、
前記テンソルを入力テンソルデータとしてテンソル分解して、ニューラルネットワークに入力し、前記ニューラルネットワークの深層学習を実行する処理を実行させる学習用データ生成プログラム。
請求項２に記載の学習用データ生成プログラムであって、前記コンピュータに、
前記テンソル分解時に、ランダムに生成されたターゲットコアテンソルと類似するように生成されたコアテンソルを、前記ニューラルネットワークに入力して出力された出力値と教師ラベルとの誤差を算出し、
前記誤差を用いて、前記誤差が小さくなるように前記ニューラルネットワークを学習するとともに、前記教師ラベルの特徴を表すように前記ターゲットコアテンソルを更新する処理を実行させる学習用データ生成プログラム。
請求項２に記載の学習用データ生成プログラムであって、前記コンピュータに、
前記学習データとして、従業員の出勤簿データを入力し、
前記従業員が過去に療養したことがある既往者に該当するか否かを判定し、
前記従業員が前記既往者に該当する場合、前記出勤簿データにおいて前記従業員が療養した療養期間よりも後の出勤簿データから生成されるテンソルに、前記療養期間よりも前の出勤簿データから生成されるテンソルに設定される重みよりも軽い重みを設定する処理を実行させる学習用データ生成プログラム。
請求項４に記載の学習用データ生成プログラムであって、前記コンピュータに、
前記療養期間よりも後の出勤簿データから生成されるテンソルに重みとして０を設定して、前記入力テンソルデータとして前記ニューラルネットワークの深層学習を実行する処理を実行させる学習用データ生成プログラム。
請求項３に記載の学習用データ生成プログラムであって、前記コンピュータに、
更新された前記ターゲットコアテンソルに類似するように、重みづけされた前記テンソルから要素を取り出した新たなコアテンソルを生成する処理を実行させる学習用データ生成プログラム。
コンピュータが、
対象毎に、予め設定された期間の対象者の特徴を多次元で示す複数の要素から成るテンソルの生成元となる学習データを入力し、
対象者が予め設定された条件を満たす場合は、前記学習データにおいて前記条件に該当する該当期間を特定し、
前記該当期間の前後の少なくともいずれかの前記学習データに対し、重みづけされたテンソルを生成する
処理を実行する学習用データ生成方法。
予め設定された期間の対象者の特徴を多次元で示す複数の要素から成るテンソルの生成元となる学習データにおける前記対象者が予め設定された条件を満たす場合に、前記条件に該当する該当期間の前後の少なくともいずれかの前記学習データに対し、重みづけされたテンソルと、前記テンソルに付与された正解情報とを含み、
前記テンソルと前記正解情報とを学習データとして、ニューラルネットワークの入力層に入力されることによる、前記ニューラルネットワークの重み係数に基づく演算結果である出力値を前記ニューラルネットワークの出力層から出力させ、前記正解情報と前記出力値とに基づいて、前記ニューラルネットワークの学習を行う処理に用いられる、データ構造。