JP2020016997A - データ生成方法、データ生成プログラムおよびデータ構造 - Google Patents

データ生成方法、データ生成プログラムおよびデータ構造 Download PDF

Info

Publication number
JP2020016997A
JP2020016997A JP2018138522A JP2018138522A JP2020016997A JP 2020016997 A JP2020016997 A JP 2020016997A JP 2018138522 A JP2018138522 A JP 2018138522A JP 2018138522 A JP2018138522 A JP 2018138522A JP 2020016997 A JP2020016997 A JP 2020016997A
Authority
JP
Japan
Prior art keywords
data
time
work
learning
graphic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018138522A
Other languages
English (en)
Inventor
塩田 哲義
Tetsuyoshi Shioda
哲義 塩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018138522A priority Critical patent/JP2020016997A/ja
Priority to US16/507,728 priority patent/US20200034708A1/en
Publication of JP2020016997A publication Critical patent/JP2020016997A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】分類器モデルの判定精度を向上させる。【解決手段】実施形態のデータ生成方法は、複数の単位時間から成る周期を有する時系列データを受け付け、時系列データに基づいて生成される図形を含む画像データを生成する処理をコンピュータが実行する。図形は、時系列データに含まれる単位時間を時系列順で螺旋状に並べるとともに、周期間で対応する単位時間が螺旋状の中心から放射状に揃うように配置することにより生成される。【選択図】図5

Description

本発明の実施形態は、データ生成方法、データ生成プログラムおよびデータ構造に関する。
従来、ニューラルネットワークを用いた機械学習アプローチで時系列データより株式市場のトレンド、従業員の休養の有無などの傾向を予測(分類)する試みがある。この予測では、教師とする時系列データを表現する図形データを学習用データとして生成し、分類器モデルであるCNN(Convolutional Neural Network)の学習を行う。そして、予測対象の時系列データを表現する図形データを学習後の分類器モデルに入力することで得られる出力をもとに、予測を行う。
分類器モデルの学習に用いる学習用データの生成については、時系列データを均等なサイズでオーバラップするデータのセグメントに分割し、各々のセグメントに関してセグメント内のデータを表現する画像を生成し、各々の画像に関するトレンドを決定する。そして、生成された各画像及び関連するトレンドを予測分析のためのデータ・セットとして保存する技術が知られている。
特開2017−157213号公報 特開2002−268971号公報
しかしながら、上記の従来技術では、例えばカレンダーにおける日曜から土曜日までの区切りで時系列データが分割されることで、金曜から月曜などにおける区切りを跨ぐイベントの規則性を図形データで表現することが困難となる。このため、分類器モデルにおいて区切りを跨ぐイベントなどの学習が進まず、判定精度が低くなるという問題がある。
1つの側面では、分類器モデルの判定精度を向上させることを可能とするデータ生成方法、データ生成プログラムおよびデータ構造を提供することを目的とする。
第1の案では、データ生成方法は、複数の単位時間から成る周期を有する時系列データを受け付け、時系列データに基づいて生成される図形を含む画像データを生成する処理をコンピュータが実行する。図形は、時系列データに含まれる単位時間を時系列順で螺旋状に並べるとともに、周期間で対応する単位時間が螺旋状の中心から放射状に揃うように配置することにより生成される。
本発明の1実施態様によれば、分類モデルの判定精度を向上させることができる。
図1は、分類器モデルの学習および分類器モデルによる予測を説明する説明図である。 図2は、分類器モデルのニューラルネットワークを説明する説明図である。 図3は、実施形態にかかる学習装置の機能構成例を示すブロック図である。 図4は、学習フェーズの一例を示すフローチャートである。 図5は、勤務データからの勤務実績図形データの生成例を説明する説明図である。 図6は、勤務実績図形データの一例を説明する説明図である。 図7−1は、従来の勤務実績図形データを例示する説明図である。 図7−2は、実施形態にかかる学習装置が生成した勤務実績図形データを例示する説明図である。 図8は、予測フェーズの一例を示すフローチャートである。 図9は、スペクトラム分析結果を用いた図形生成を説明する説明図である。 図10は、プログラムを実行するコンピュータの一例を示す図である。
以下、図面を参照して、実施形態にかかるデータ生成方法、データ生成プログラムおよびデータ構造を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明するデータ生成方法、データ生成プログラムおよびデータ構造は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
図1は、分類器モデルの学習および分類器モデルによる予測を説明する説明図である。図1に示すように、分類器モデル10は、学習フェーズ(S1)において教師とする勤務データ1での学習を行い、予測フェーズ(S2)において予測対象の勤務データ3より傾向を予測(分類)するCNNである。
勤務データ1、3は、社員の日々の出勤、退勤時間、休暇取得、出張などの勤務状況(イベント)を時系列順に示すデータであり、時系列データの一例である。この勤務データ1、3などの時系列データは、複数の時間単位(例えば1日)から成る周期(例えば日〜土の1週間)を有する。
近年、従業員の体調管理などは、企業にとっても取り組むべき重要な事項に位置づけられており、従業員の勤務データ3から、数か月先のメンタル不調(療養の有無)を予測し、カウンセリング等の対応を早期に実施することが行われている。一般的には、職場支援スタッフなどの専任スタッフが、膨大な人数の従業員の勤務データ3を閲覧し、頻繁な出張、長時間残業、連続する欠勤、無断欠勤、これらの組合せなどの特徴的なパターンの勤務状態に該当する従業員を目視で探している。このような特徴的なパターンは、各専任スタッフにより基準が異なることもあり、明確に定義することが難しい。
そこで、本実施形態では、CNNを用いた機械学習アプローチの一例として、体調不良者(正例)および通常者(負例)の勤務データ1をもとに分類器モデル10の学習を行う。そして、予測対象の勤務データ3を分類器モデル10に入力して従業員のメンタル不調を予測する例を説明する。なお、予測対象は、これに限定されるものではない。例えば、電子部品の動作データを用いた故障予測、通信データを用いた攻撃予測、道路の交通量データを用いた渋滞予測など、従業員以外の他の予測対象にも適用することができる。
具体的には、学習フェーズ(S1)では、正解情報とする正例または負例が付与された勤務データ1をもとに、正例または負例の事例ごとに、時系列順に発生するイベントを図形で表現する時系列図形の生成を行う(S11)。これにより、正例または負例の事例ごとに、時系列順に発生するイベントのパターンを図形として表現した勤務実績図形データ2が生成される。
次いで、学習フェーズ(S1)では、生成された勤務実績図形データ2を分類器モデル10の入力層に入力し、分類器モデル10の出力層からの出力が正例または負例を示すように分類器モデル10内の各層のパラメータ調整を行うことで、分類器モデル10の機械学習を行う(S12)。
予測フェーズ(S2)では、S11と同様、予測対象の勤務データ3をもとに時系列図形の生成を行って勤務実績図形データ4を生成する(S21)。次いで、予測フェーズ(S2)では、生成された勤務実績図形データ4を分類器モデル10の入力層に入力して体調不良者としての療養の有無などの分類(予測)を行う(S22)。次いで、予測フェーズ(S2)では、勤務実績図形データ4の入力により分類器モデル10の出力層から得られた予測結果をディスプレイなどに出力する(S23)。
図2は、分類器モデル10のニューラルネットワークを説明する説明図である。図2に示すように、分類器モデル10のニューラルネットワーク11は、階層構造を有し、入力層11aと出力層11cとの間に複数の中間層11bを有し得る。複数の中間層11bは、例えば、畳み込み層、活性化関数層、プーリング層、全結合層およびソフトマックス層を含む。各層の数及び位置は、要求されるアーキテクチャに応じて随時変更され得る。すなわち、ニューラルネットワーク11の階層構造や各層の構成は、識別する対象などに応じて、設計者が予め定めることができる。これにより、図形データの中の特徴部を用いてニューラルネットワーク11における、畳み込み層、活性化関数層、プーリング層、全結合層およびソフトマックス層の少なくともいずれかのレイヤーの重みを変更し、周期的な時間単位の中で発生したイベントから療養する人を予測するための学習済みモデルを生成する。
例えば、本実施形態では、画像化した勤務実績図形データ2、4を入力層11aに入力することから、入力層11aについては、N×Mピクセル(pix)の画像データを受け付ける構成(N×M次元)となっている。また、中間層11bにおいては、入力された画像データからの特徴抽出を可能とするように、畳み込み層と、プーリング層とを交互に積み重ねたCNN(畳み込みニューラルネットワーク)としての構成を有している。
また、出力層11cについては、入力された勤務実績図形データ2、4に対して、体調不良者(療養あり)または通常者(療養なし)の分類結果を出力する構成となっている。具体的には、出力層11cは、入力された勤務実績図形データ2、4に対して、療養の有無の確率的な度合いを出力する。
ここで、中間層11bの演算について説明する。畳み込み層では、入力したニューロンデータの畳み込み演算(畳み込み処理)を行い、入力ニューロンデータの特徴を抽出する。例えば、畳み込み層では、N×Mピクセルの画像の各画素の値をそれぞれニューロンデータとして、それぞれパラメータが設定されたm×mのサイズの畳み込みフィルタと畳み込み(convolution)を計算することで、次層への出力用のニューロンデータを作成する。
例えば、畳み込み層では、当該計算をすることで、螺旋状の図形の中心から放射状の位置になるように配置された特徴部に対して、特徴部の特徴が類似するほどスコアが高くなるように重みづけられる。つまり、時系列図形21のイベントのうち「労働(出勤日)」に対応する画像に対して、「非労働(出勤日」に対応する画像より「労働(出勤日)」に対応する画像であるときはスコアが高くなる。
活性化関数層では、畳み込み層で抽出された特徴を強調する。すなわち、活性化関数層では、活性化関数に出力用のニューロンデータを通過させることで、発火(activation)をモデル化する。発火とは、ニューロンから出力される信号の値がある値を超えるときに出力される信号が他のニューロンに伝達される現象をいう。活性化関数としては、非線形な活性化関数を用いることができ、例えば、ReLU(Rectified Linear Unit:ランプ関数)を用いることができる。
プーリング層は、例えば畳み込み層の直後に置かれ、入力したニューロンデータの間引きを行う。これにより、プーリング層では、抽出された特徴の位置感度を低下させる働きがある。例えば、プーリング層では、k×kの領域ごとに、最大値を取り出すMax-Poolingにより、間引きを行う。間引きは、その他、何れの手法で行ってもよい。例えば、k×kの領域の平均値を取り出すAverage-Poolingで、間引きを行ってもよい。また、プーリング層では、間引きを行うk×kの領域を一部重複させてもよく、重複させずに隣接させて間引きを行ってもよい。
全結合層では、抽出された特徴を結合して特徴を示す変数を生成する。すなわち、全結合層では、識別を行う対象数に応じて、入力したニューロンデータを全結合した全結合の演算を行う。例えば、N×Mピクセルの画像がニューロンデータとして入力される。全結合層は、N×Mピクセルのニューロンデータ全てを、それぞれ重み(パラメータ)と掛け合わせることで、次層への出力用のニューロンデータを作成する。
ソフトマックス層は、全結合層で生成された変数を確率に変換する。すなわち、ソフトマックス層は、正規化するような活性化関数に出力用のニューロンデータを通過させる演算を行うことで、発火をモデル化する。ソフトマックス層で用いる活性化関数としては、非線形な活性化関数を用いることができ、例えば、Softmax関数を用いることができる。ソフトマックス層による演算結果のニューロンデータは、出力層11cに出力され、出力層11cで識別が行われる。
上記の分類器モデル10における学習フェーズ(S1)および予測フェーズ(S2)は、プログラムを実行するコンピュータなどの学習装置により実行される。
図3は、実施形態にかかる学習装置の機能構成例を示すブロック図である。図3に示すように、学習装置100は、通信部101、記憶部102および制御部110を有する。
通信部101は、他の装置との通信を制御する処理部であり、例えば通信インタフェースである。例えば、通信部101は、管理者の端末から、処理開始などの指示、教師データ等を受信する。また、通信部101は、管理者の端末に対して、学習結果や学習後の予測結果などを出力する。
記憶部102は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部102は、出勤簿データDB103、学習用データDB104、学習結果DB105、予測対象DB106、設定情報107を記憶する。
出勤簿データDB103は、社員等の勤務に関する勤務データを記憶するデータベースである。ここで記憶される勤務データは、各企業で使用される出勤簿をデータ化したものであり、公知の様々な出勤管理システムなどから取得することができる。例えば、出勤簿データDB103は、「従業員ID、日付、休日/労働(出勤日)/非労働(出勤日)などの勤務形態、出社時間、退社時間」などを勤務データとして格納する。
学習用データDB104は、分類器モデル10の学習にかかる教師データなどの学習用データを記憶するデータベースである。具体的には、学習用データDB104は、出勤簿データDB103と同様に各従業員の出勤簿から生成され、正解情報とする正例または負例が付与された勤務データ1を格納する。
ここで記憶される出勤簿データDB103および学習用データDB104のデータは、学習装置100以外の別の装置で生成してもよく、学習装置100が生成することもできる。
学習結果DB105は、学習結果を記憶するデータベースである。例えば、学習結果DB105は、機械学習によって学習された、分類器モデル10の中間層11bにおけるパラメータなどを記憶する。
予測対象DB106は、学習された分類器モデル10を用いて、療養の有無を予測する対象(従業員)の勤務データ3を記憶するデータベースである。例えば、予測対象DB106は、出勤簿データDB103より抽出された予測対象の従業員にかかる勤務データ3を記憶する。
設定情報107は、ユーザが管理者の端末などを介して予め設定した設定内容を示す。例えば、設定情報107における設定内容には、出勤簿データDB103に含まれる項目(従業員ID、日付、休日/労働(出勤日)/非労働(出勤日)などの勤務形態、出社時間、退社時間…)の設定内容などがある。また、設定情報107における設定内容には、勤務実績図形データ2、4を生成する際の条件(図形に含まれる各要素の大きさ、長さ、配置位置、角度等)などがある。
制御部110は、学習装置100全体の処理を司る処理部であり、例えばプロセッサなどである。この制御部110は、データ取得部111、図形データ生成部112、学習部113および予測部114を有する。なお、データ取得部111、図形データ生成部112、学習部113および予測部114は、プロセッサなどが有する電子回路やプロセッサなどが実行するプロセスの一例である。
データ取得部111は、学習フェーズ(S1)、予測フェーズ(S2)において処理の対象とするデータを取得する処理部である。具体的には、データ取得部111は、学習フェーズ(S1)において、正解情報付きの勤務データ1を学習用データDB104より取得する。また、データ取得部111は、予測フェーズ(S2)において、予測対象の勤務データ3を予測対象DB106より取得する。
図形データ生成部112は、勤務データ1または勤務データ3の時系列データより時系列図形を作成する処理(S11、S21)を行い、勤務実績図形データ2または勤務実績図形データ4を生成する処理部である。
具体的には、図形データ生成部112は、勤務データ1、勤務データ3の時系列データに基づき、時系列データに含まれるイベント(例えば休日/労働(出勤日)/非労働(出勤日)などの勤務形態、出社時間、退社時間)を中心に対する周方向に沿って時系列順に配置する勤務実績図形データ2、4を生成する。例えば、図形データ生成部112は、勤務データ1、勤務データ3の時系列データが示すイベントを順に読み出し、イベントに対応する図形(例えば網掛け)に変換した上で、中心に対する周方向に沿って順次並べる。
また、図形データ生成部112は、勤務実績図形データ2、4において、所定の時間単位(例えば1週間)を1周期とする各周期で対応するイベント位置(例えば月曜、火曜…)について、直近の周期で対応するイベント位置同士を中心に対する半径方向に近接して配置する。なお、所定の時間単位については、設定情報107などおいて予め設定されているものとする。
例えば、図形データ生成部112は、日曜から土曜までの1週間分のイベントを周方向に1周(一例として日曜の0:00を0度とし、土曜の24:00を360度とする)にわたり配置する。次いで、図形データ生成部112は、次の1週間分のイベントを前の周の外周または内周に同様に配置し、同心円、螺旋状などの周回状の図形とする勤務実績図形データ2、4を生成する。
これにより、勤務実績図形データ2、4では、時系列順に続くイベントや、各周期で対応するイベント位置同士が図形内で近傍に配置されることとなる。
なお、図形データ生成部112は、勤務実績図形データ2において、周方向に沿って時系列順に配置するイベントの間隔および半径方向に近接して配置するイベント位置同士の間隔を畳み込みフィルタのサイズをもとに設定してもよい。具体的には、図形データ生成部112は、設定情報107などを参照し、ニューラルネットワーク11の畳み込み層における畳み込みフィルタの設定サイズ(m×m)を取得する。次いで、図形データ生成部112は、畳み込みフィルタにおけるm×mのサイズ内に、周方向および半径方向において所定数のイベントが含まれるように、周方向および半径方向におけるイベント間隔を設定する。これにより、図形データ生成部112は、時系列順に直近のイベント同士および直近の周期で対応するイベント同士が畳み込みフィルタに収まるような勤務実績図形データ2を生成することができる。
学習部113は、学習フェーズ(S1)において、多階層のニューラルネットワーク11を学習させる誤差逆伝播法などのディープラーニング手法を用いることで、ニューラルネットワーク11について教師データによる教師あり学習を行う。
例えば、学習部113は、教師あり学習で一般的に使用される誤差逆伝播法では、学習用の勤務実績図形データ2を入力層11aより入力してニューラルネットワーク11に順伝播させる。次いで、学習部113は、出力層11cから得られる分類結果と正解(正例・負例)とを比較して誤差を求める。そして、誤差逆伝播法では、分類結果と正解との誤差を分類時と逆方向にニューラルネットワーク11に伝播させ、ニューラルネットワーク11の各階層のパラメータを変更して最適解に近づけていく。その後、学習部113は、学習が終了すると、ニューラルネットワーク11の各種パラメータを学習結果として学習結果DB105に格納する。
予測部114は、予測フェーズ(S2)において、学習結果を用いて、判別対象のデータのラベルを予測する処理部である。具体的には、予測部114は、学習結果DB105からニューラルネットワーク11にかかる各種パラメータを読み出し、各種パラメータを設定した分類器モデル10を構築する。そして、予測部114は、予測対象の勤務データ3より生成された勤務実績図形データ4を構築した分類器モデル10の入力層11aに入力する。次いで、予測部114は、療養または療養しないかの分類結果を分類器モデル10の出力層11cより出力する。そして、予測部114は、予測結果をディスプレイに表示したり、管理者端末に送信したりする。
図4は、学習フェーズの一例を示すフローチャートである。図4に示すように、学習フェーズ(S1)が開始されると、データ取得部111は、学習用データDB104を参照して学習用の勤務データ1の読み込みを行う(S101)。具体的には、データ取得部111は、正例または負例が付与された事例ごとに勤務データ1(例えば正例または負例とする所定の従業員の勤務状況)を読み出す。次いで、図形データ生成部112は、読み出した勤務データ1をもとに、勤務実績図形データ2を生成する(S102)。
図5は、勤務データ1からの勤務実績図形データ2の生成例を説明する説明図である。図5に示すように、図形データ生成部112は、勤務データ1に含まれるイベント(休日/労働(出勤日)/非労働(出勤日)などの勤務形態、出社時間、退社時間など)を、中心20に対する周方向に沿って時系列順に配置する時系列図形21を含む勤務実績図形データ2を生成する。また、時系列図形21においては、日曜の0:00を0度、土曜の24:00を360度とする1周にわたり日曜から土曜までのイベントを配置し、次の週を外に向けて配置していく螺旋形状であるものとする。なお、図示例では中心20から外側に向けて螺旋形状にイベントを配置する時系列図形21を例示するが、イベントの配置例を上記に限定しない。例えば、外側から中心20に向けて螺旋形状にイベントを配置してもよい。
なお、第一週目の各曜日と第一週目の次の週の第二週目の各曜日に関し、同じ曜日は、螺旋形状の図形の中心から放射状に位置が対応する。例えば、第一週目の月曜日と第二週目の月曜日の位置が対応し、一週目の火曜日と第二週目の火曜日の位置が対応し、一週目の水曜日と第二週目の水曜日の位置が対応する。同様に、第三週目以降についても、曜日の位置が図形の中心から放射状に位置が対応する。つまり、同じ曜日に起きたイベントについては、螺旋形状の図形の中心から放射状に位置が対応する。
図6は、勤務実績図形データの一例を説明する説明図である。図6に示すように、図形データ生成部112は、直角に角度を変えていく螺旋形状の時系列図形21とする勤務実績図形データ2aを生成してもよい。
また、図形データ生成部112は、勤務実績図形データ2について、期間をずらして複数作成してもよい。例えば、図5の例では11/1からのイベントを時系列図形21とする勤務実績図形データ2を生成しているが、11/8〜、11/15〜…のように1周ずらして複数の勤務実績図形データ2を作成してもよい。このように期間をずらして複数の勤務実績図形データ2を生成することで、時系列図形21の中心20寄りと外側寄りとでイベントの大きさが異なることにより生じる差別を解消することができる。
図4に戻り、S102に次いで、図形データ生成部112は、生成した勤務実績図形データ2について、勤務データ1に付与された正解情報(正例または負例)をもとに、「療養する」か「療養しない」かのラベル付けを行う(S103)。
次いで、図形データ生成部112は、学習用データDB104に含まれる全ての学習用データで処理が完了したか否かを判定し(S104)、完了していない場合(S104:NO)はS101へ処理を戻す。
完了している場合(S104:YES)、学習部113は、ラベル付け後の勤務実績図形データ2をもとに、CNNより分類器モデル10を生成する(S105)。
図7−1は、従来の勤務実績図形データを例示する説明図である。図7−1に示すように、従来の勤務実績図形データにおける時系列図形21aでは、例えば日曜から土曜のセグメントに分割される。このため、時系列図形21aでCNNの学習を行う場合には、金曜から月曜にかけての特徴箇所23が畳み込みフィルタ24内に収まらないことがある。したがって、従来の勤務実績データでは、金曜から月曜にかけての特徴箇所23についてCNNの学習が進まず、判定精度が低くなる場合がある。
また、療養する人は、時間単位に対し、決まったパターンで休む傾向がある。ここで、カレンダーのように周期的な時間単位の連続性が切断されていると、イベントの発生の周期性を学習させることができない。例えば、10日ごとにイベントが発生すると、カレンダーは1週間ごとであるため、次の週では、3日ずれている。このため、周期的な時間単位とは異なる周期で発生するイベントに関して、イベントが発生するか否かを判定するための学習済みモデルの判定精度が低くなる。
図7−2は、実施形態にかかる学習装置100が生成した勤務実績図形データ2を例示する説明図である。図7−2に示すように、勤務実績図形データ2の時系列図形21では、時系列順に続くイベントや、各周期で対応するイベント位置同士が近傍に配置される。このため、時系列図形21でCNNの学習を行う場合には、金曜から月曜にかけての特徴箇所23が畳み込みフィルタ24内に収まることから、特徴箇所23についてCNNの学習を進めることができる。
これにより、時間単位を構成する曜日ごとのイベントにつき、療養する人の傾向を学習させることができる。また、周期的な時間単位とは異なる周期で発生するイベントに関して、療養する人の傾向を学習させることができる。
図8は、予測フェーズの一例を示すフローチャートである。図8に示すように、予測フェーズの処理が開始されると、データ取得部111は、予測対象DB106を参照して予測用の勤務データ3の読み込みを行う(S201)。次いで、図形データ生成部112は、読み出した勤務データ3をもとに、S102と同様の処理を行い、勤務実績図形データ4を生成する(S202)。
次いで、予測部114は、学習結果DB105からニューラルネットワーク11にかかる各種パラメータを読み出し、各種パラメータを設定した分類器モデル10を構築する。次いで、予測部114は、構築した分類器モデル10に勤務実績図形データ4を入力して「療養する」・「療養しない」の確率を計算し(S203)、分類器モデル10の出力層11cから計算結果(分類結果)を得る。次いで、予測部114は、ディプレイへの表示や、管理者端末への送信により計算結果を出力する(S204)。
なお、勤務実績図形データ2を生成する際に、1周期とする時間単位は、図形データ生成部112のスペクトラム分析による分析結果に基づいて検出した周期を用いてもよい。図9は、スペクトラム分析結果を用いた図形生成を説明する説明図である。
図9に示すように、図形データ生成部112は、勤務データ1について、所定の条件(例えば休日)でのスペクトラム分析を行う(S111)。これにより、図形データ生成部112は、周期(日)ごとのスペクトラム強度(例えば休日である場合に強い)を示すスペクトラムデータ5を分析結果として得る。
次いで、図形データ生成部112は、得られたスペクトラムデータ5をもとに周期の検出を行い(S112)、周期データ6を得る。例えば、勤務データ1のスペクトラム分析により3日勤務後に1日休みとするスペクトラムデータ5が得られた場合は、4日周期の周期データ6を得る。次いで、図形データ生成部112は、得られた周期データ6を1周期とする時間単位で時系列図形の生成を行い(S11a)、勤務実績図形データ2を生成する。これにより、管理者などが周期について設定情報107に予め設定することなく、勤務データ1のスペクトラム分析で得られる特徴的な周期を1周期とすることができる。
以上のように、学習装置100は、学習対象の勤務データ1に基づき、畳み込みニューラルネットワークを用いた分類器モデル10の学習にかかる学習用データとしての勤務実績図形データ2を生成する。具体的には、学習装置100は、勤務実績図形データ2において、勤務データ1に含まれるイベントを中心20に対する周方向に沿って時系列順に配置する。また、学習装置100は、勤務実績図形データ2において、勤務データ1における所定の時間単位を1周期とする各周期で対応するイベント位置について、直近の周期で対応するイベント位置同士を中心20に対する半径方向に近接して配置する。
これにより、分類器モデル10の学習に用いる勤務実績図形データ2では、勤務データ1において時系列順に続くイベントが図形内で近傍に配置されることとなる。例えば、勤務実績図形データ2では、カレンダーにおける日曜から土曜日までの区切りで分割されて、区切りを跨ぐイベントが離れて配置されることがなくなる。このため、勤務実績図形データ2では、例えば金曜から月曜などにおける週末の区切りを跨ぐイベントの規則性を表現することが可能となる。したがって、勤務実績図形データ2を分類器モデル10の学習に用いることで、週末の区切りを跨ぐイベントなどの学習を進めることができ、分類器モデル10の判別精度が低くなることを抑止できる。
また、学習装置100は、勤務データ1に含まれるイベントを中心20に対して螺旋状に配置する勤務実績図形データ2を生成する。これにより、勤務実績図形データ2では、勤務データ1において時系列順に続くイベントが途切れることなく螺旋状に配置されることとなる。したがって、勤務実績図形データ2を分類器モデル10の学習に用いることで、時系列順に途切れることなくイベントの学習を行うことができ、分類器モデル10の判別精度を向上させることができる。
また、学習装置100は、分類器モデル10の畳み込みフィルタサイズに基づき、勤務実績図形データ2において時系列順に配置するイベントの間隔および半径方向に近接して配置するイベント位置同士の間隔を設定する。これにより、学習装置100は、時系列順に直近のイベント同士および直近の周期で対応するイベント同士を畳み込みフィルタに収まるように、勤務実績図形データ2を生成することができる。したがって、勤務実績図形データ2を分類器モデル10の学習に用いることで、時系列順に直近のイベント同士および直近の周期で対応するイベント同士を特徴とする学習を行うことができ、分類器モデル10の判別精度を向上させることができる。
また、学習装置100は、勤務データ1のスペクトラム分析に基づいて検出した周期を1周期とする各周期で対応するイベント位置について、直近の周期で対応するイベント位置同士を中心20に対する半径方向に近接して配置する。これにより、学習装置100は、勤務データ1においてスペクトラム分析で得られる特徴的な周期を1周期とする勤務実績図形データ2を生成することができる。
また、学習装置100は、従業員の勤務状況を記録する勤務データ1より分類器モデル10の学習にかかる勤務実績図形データ2を生成することで、例えば従業員の勤務状況から療養の有無を判定するための分類器モデル10の学習を行うことができる。
また、学習装置100は、1週間を1周期とするカレンダーの曜日位置について、直近の週で対応する曜日同士を中心20に対する半径方向に近接して配置する勤務実績図形データ2を生成する。これにより、勤務実績図形データ2を分類器モデル10の学習に用いることで、曜日同士で特徴あるイベントの相関関係の学習を行うことができる。
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
学習装置100で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、マッチング装置1で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ(ハードウエア)の一例を説明する。図10は、プログラムを実行するコンピュータの一例を示す図である。
図10に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、データ入力を受け付ける入力装置202と、モニタ203と、スピーカ204とを有する。また、コンピュータ200は、記憶媒体からプログラム等を読み取る媒体読取装置205と、各種装置と接続するためのインタフェース装置206と、有線または無線により外部機器と通信接続するための通信装置207とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM208と、ハードディスク装置209とを有する。また、コンピュータ200内の各部(201〜209)は、バス210に接続される。
ハードディスク装置209には、上記の実施形態で説明したデータ取得部111、図形データ生成部112、学習部113および予測部114等における各種の処理を実行するためのプログラム211が記憶される。また、ハードディスク装置209には、プログラム211が参照する各種データ212が記憶される。入力装置202は、例えば、コンピュータ200の操作者から操作情報の入力を受け付ける。モニタ203は、例えば、操作者が操作する各種画面を表示する。インタフェース装置206は、例えば印刷装置等が接続される。通信装置207は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。
CPU201は、ハードディスク装置209に記憶されたプログラム211を読み出して、RAM208に展開して実行することで、データ取得部111、図形データ生成部112、学習部113および予測部114等における各種の処理を行う。なお、プログラム211は、ハードディスク装置209に記憶されていなくてもよい。例えば、コンピュータ200が読み取り可能な記憶媒体に記憶されたプログラム211を、コンピュータ200が読み出して実行するようにしてもよい。コンピュータ200が読み取り可能な記憶媒体は、例えば、CD−ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にプログラム211を記憶させておき、コンピュータ200がこれらからプログラム211を読み出して実行するようにしてもよい。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)複数の単位時間から成る周期を有する時系列データを受け付け、
前記時系列データに基づいて生成される図形を含む画像データを生成する処理をコンピュータが実行するデータ生成方法であって、
前記図形は、前記時系列データに含まれる前記単位時間を時系列順で螺旋状に並べるとともに、前記周期間で対応する前記単位時間が前記螺旋状の中心から放射状に揃うように配置することにより生成される
ことを特徴とするデータ生成方法。
(付記2)前記画像データは、畳み込みニューラルネットワークに対する学習用データである
ことを特徴とする付記1に記載のデータ生成方法。
(付記3)前記生成する処理は、前記畳み込みニューラルネットワークの畳み込みフィルタサイズに基づき、前記周方向に沿って時系列順に配置するイベントの間隔および前記半径方向に近接して配置するイベント位置同士の間隔を設定する、
ことを特徴とする付記2に記載のデータ生成方法。
(付記4)前記生成する処理は、前記時系列データのスペクトラム分析に基づいて検出した周期を1周期とする、
ことを特徴とする付記1乃至3のいずれか一に記載のデータ生成方法。
(付記5)前記時系列データは、従業員の勤務状況を記録する勤務データである、
ことを特徴とする付記1乃至4のいずれか一に記載のデータ生成方法。
(付記6)前記生成する処理は、前記勤務データにおいて、1週間を1周期とするカレンダーの曜日位置について、直近の週で対応する曜日同士を前記中心に対する半径方向に近接して配置する前記図形を生成する、
ことを特徴とする付記5に記載のデータ生成方法。
(付記7)前記図形の中の特徴部を用いて、畳み込みニューラルネットワークにおける、畳み込み層、プーリング層、結合層の少なくともいずれかのレイヤーの重みを変更し、周期的な時間単位の中で発生したイベントから療養する人を予測するための学習済みモデルを生成する処理をさらにコンピュータが実行する
ことを特徴とする付記5または6に記載のデータ生成方法。
(付記8)複数の単位時間から成る周期を有する時系列データを受け付け、
前記時系列データに基づいて生成される図形を含む画像データを生成する処理をコンピュータに実行させるデータ生成プログラムであって、
前記図形は、前記時系列データに含まれる前記単位時間を時系列順で螺旋状に並べるとともに、前記周期間で対応する前記単位時間が前記螺旋状の中心から放射状に揃うように配置することにより生成される
ことを特徴とするデータ生成プログラム。
(付記9)前記画像データは、畳み込みニューラルネットワークに対する学習用データである
ことを特徴とする付記8に記載のデータ生成プログラム。
(付記10)前記生成する処理は、前記畳み込みニューラルネットワークの畳み込みフィルタサイズに基づき、前記周方向に沿って時系列順に配置するイベントの間隔および前記半径方向に近接して配置するイベント位置同士の間隔を設定する、
ことを特徴とする付記9に記載のデータ生成プログラム。
(付記11)前記生成する処理は、前記時系列データのスペクトラム分析に基づいて検出した周期を1周期とする、
ことを特徴とする付記8乃至10のいずれか一に記載のデータ生成プログラム。
(付記12)前記時系列データは、従業員の勤務状況を記録する勤務データである、
ことを特徴とする付記8乃至11のいずれか一に記載のデータ生成プログラム。
(付記13)前記生成する処理は、前記勤務データにおいて、1週間を1周期とするカレンダーの曜日位置について、直近の週で対応する曜日同士を前記中心に対する半径方向に近接して配置する前記図形を生成する、
ことを特徴とする付記12に記載のデータ生成プログラム。
(付記14)前記図形の中の特徴部を用いて、畳み込みニューラルネットワークにおける、畳み込み層、プーリング層、結合層の少なくともいずれかのレイヤーの重みを変更し、周期的な時間単位の中で発生したイベントから療養する人を予測するための学習済みモデルを生成する処理をさらにコンピュータに実行させる
ことを特徴とする付記12または13に記載のデータ生成プログラム。
(付記15)複数の単位時間から成る周期を有する、学習対象の時系列データに基づき、前記時系列データに含まれる前記単位時間を時系列順で螺旋状に並べるとともに、前記周期間で対応する前記単位時間が前記螺旋状の中心から放射状に揃うように配置する図形データと、
前記図形データに付与された正解情報とを含み、
前記図形データと前記正解情報とを学習データとして、畳み込みニューラルネットワークの入力層に入力されることにより、演算結果を示す出力値を前記畳み込みニューラルネットワークの出力層から出力させ、前記正解情報と前記出力値との比較に基づく学習を行う、
処理をコンピュータに実行させることを特徴とするデータ構造。
1、3…勤務データ
2、2a、2b、4…勤務実績図形データ
5…スペクトラムデータ
6…周期データ
10…分類器モデル
11…ニューラルネットワーク
11a…入力層
11b…中間層
11c…出力層
21、21a…時系列図形
23…特徴箇所
24…畳み込みフィルタ
100…学習装置
101…通信部
102…記憶部
103…出勤簿データDB
104…学習用データDB
105…学習結果DB
106…予測対象DB
107…設定情報
110…制御部
111…データ取得部
112…図形データ生成部
113…学習部
114…予測部
200…コンピュータ
201…CPU
202…入力装置
203…モニタ
204…スピーカ
205…媒体読取装置
206…インタフェース装置
207…通信装置
208…RAM
209…ハードディスク装置
210…バス
211…プログラム
212…各種データ

Claims (9)

  1. 複数の単位時間から成る周期を有する時系列データを受け付け、
    前記時系列データに基づいて生成される図形を含む画像データを生成する処理をコンピュータが実行するデータ生成方法であって、
    前記図形は、前記時系列データに含まれる前記単位時間を時系列順で螺旋状に並べるとともに、前記周期間で対応する前記単位時間が前記螺旋状の中心から放射状に揃うように配置することにより生成される
    ことを特徴とするデータ生成方法。
  2. 前記画像データは、畳み込みニューラルネットワークに対する学習用データである
    ことを特徴とする請求項1に記載のデータ生成方法。
  3. 前記生成する処理は、前記畳み込みニューラルネットワークの畳み込みフィルタサイズに基づき、前記周方向に沿って時系列順に配置するイベントの間隔および前記半径方向に近接して配置するイベント位置同士の間隔を設定する、
    ことを特徴とする請求項2に記載のデータ生成方法。
  4. 前記生成する処理は、前記時系列データのスペクトラム分析に基づいて検出した周期を1周期とする、
    ことを特徴とする請求項1乃至3のいずれか一項に記載のデータ生成方法。
  5. 前記時系列データは、従業員の勤務状況を記録する勤務データである、
    ことを特徴とする請求項1乃至4のいずれか一項に記載のデータ生成方法。
  6. 前記生成する処理は、前記勤務データにおいて、1週間を1周期とするカレンダーの曜日位置について、直近の週で対応する曜日同士を前記中心に対する半径方向に近接して配置する前記図形を生成する、
    ことを特徴とする請求項5に記載のデータ生成方法。
  7. 前記図形の中の特徴部を用いて、畳み込みニューラルネットワークにおける、畳み込み層、プーリング層、結合層の少なくともいずれかのレイヤーの重みを変更し、周期的な時間単位の中で発生したイベントから療養する人を予測するための学習済みモデルを生成する処理をさらにコンピュータが実行する
    ことを特徴とする請求項5または6に記載のデータ生成方法。
  8. 複数の単位時間から成る周期を有する時系列データを受け付け、
    前記時系列データに基づいて生成される図形を含む画像データを生成する処理をコンピュータに実行させるデータ生成プログラムであって、
    前記図形は、前記時系列データに含まれる前記単位時間を時系列順で螺旋状に並べるとともに、前記周期間で対応する前記単位時間が前記螺旋状の中心から放射状に揃うように配置することにより生成される
    ことを特徴とするデータ生成プログラム。
  9. 複数の単位時間から成る周期を有する、学習対象の時系列データに基づき、前記時系列データに含まれる前記単位時間を時系列順で螺旋状に並べるとともに、前記周期間で対応する前記単位時間が前記螺旋状の中心から放射状に揃うように配置する図形データと、
    前記図形データに付与された正解情報とを含み、
    前記図形データと前記正解情報とを学習データとして、畳み込みニューラルネットワークの入力層に入力されることにより、演算結果を示す出力値を前記畳み込みニューラルネットワークの出力層から出力させ、前記正解情報と前記出力値との比較に基づく学習を行う、
    処理をコンピュータに実行させることを特徴とするデータ構造。
JP2018138522A 2018-07-24 2018-07-24 データ生成方法、データ生成プログラムおよびデータ構造 Pending JP2020016997A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018138522A JP2020016997A (ja) 2018-07-24 2018-07-24 データ生成方法、データ生成プログラムおよびデータ構造
US16/507,728 US20200034708A1 (en) 2018-07-24 2019-07-10 Generation of data for improving determination accuracy of a classifier model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018138522A JP2020016997A (ja) 2018-07-24 2018-07-24 データ生成方法、データ生成プログラムおよびデータ構造

Publications (1)

Publication Number Publication Date
JP2020016997A true JP2020016997A (ja) 2020-01-30

Family

ID=69178205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018138522A Pending JP2020016997A (ja) 2018-07-24 2018-07-24 データ生成方法、データ生成プログラムおよびデータ構造

Country Status (2)

Country Link
US (1) US20200034708A1 (ja)
JP (1) JP2020016997A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833605A (zh) * 2020-07-10 2020-10-27 北京嘀嘀无限科技发展有限公司 路况预测方法、路况预测模型训练方法、装置及存储介质
WO2021210230A1 (ja) * 2020-04-14 2021-10-21 株式会社 ゼンショーホールディングス 加熱状態識別装置、加熱制御装置、加熱制御方法、加熱状態識別システム、及び加熱制御システム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949704A (zh) * 2020-07-17 2020-11-17 网络通信与安全紫金山实验室 一种可解释的多维时序数据分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021210230A1 (ja) * 2020-04-14 2021-10-21 株式会社 ゼンショーホールディングス 加熱状態識別装置、加熱制御装置、加熱制御方法、加熱状態識別システム、及び加熱制御システム
JP2021169875A (ja) * 2020-04-14 2021-10-28 株式会社 ゼンショーホールディングス 加熱状態識別装置、加熱制御装置、加熱制御方法、加熱状態識別システム、及び加熱制御システム
CN111833605A (zh) * 2020-07-10 2020-10-27 北京嘀嘀无限科技发展有限公司 路况预测方法、路况预测模型训练方法、装置及存储介质
CN111833605B (zh) * 2020-07-10 2022-04-26 北京嘀嘀无限科技发展有限公司 路况预测方法、路况预测模型训练方法、装置及存储介质

Also Published As

Publication number Publication date
US20200034708A1 (en) 2020-01-30

Similar Documents

Publication Publication Date Title
KR102008707B1 (ko) 업무 리스크 관리 시스템
Verenich et al. Survey and cross-benchmark comparison of remaining time prediction methods in business process monitoring
CN109863721B (zh) 数字助理扩展自动排名和选择
US11169497B2 (en) Methods and systems for the industrial internet of things
US10699319B1 (en) Cross selling recommendation engine
US20190370695A1 (en) Enhanced pipeline for the generation, validation, and deployment of machine-based predictive models
EP3948707A1 (en) Systems and methods for forecast alerts with programmable human-machine hybrid ensemble learning
EP4102437A1 (en) Systems and methods for predicting user behavior based on location data
JP6875179B2 (ja) システム分析装置、及びシステム分析方法
JP2020016997A (ja) データ生成方法、データ生成プログラムおよびデータ構造
Huang et al. Alternative rule induction methods based on incremental object using rough set theory
JP2016057803A (ja) 異常検知手順開発装置および異常検知手順開発方法
US11990231B2 (en) Workflow predictive analytics engine
Yang et al. Data mining-based methods for fault isolation with validated FMEA model ranking
JP2020071845A (ja) 異常検知装置、異常検知方法および異常検知プログラム
CN111868686A (zh) 常用应用程序的导出方法和使用该方法的导出设备
Bennet et al. Predictive Analysis of Startup Ecosystems: Integration of Technology Acceptance Models with Random Forest Techniques
AU2022247261A1 (en) Systems and methods for probabilistic parts forecasting based on machine utilization patterns
JP2020194377A (ja) ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置
Zhao et al. Comparing two machine learning approaches in predicting lupus hospitalization using longitudinal data
Alabdulkarim et al. Predicting no-shows for dental appointments
JP4735973B2 (ja) 電力価格ゾーン予測方法、及び電力価格ゾーン予測プログラム
EP4141679A1 (en) Management of an app, especially testing the deployability of an app comprising a trained function using a virtual test environment, method and system
US20220124002A1 (en) Devices and processes for data sample selection for power consumption management
KR20220066652A (ko) 딥러닝 기반의 동적 가격 산정 방법 및 동적 가격 산정 시스템