JP6481794B1 - 学習用データ生成方法、学習用データ生成プログラム - Google Patents
学習用データ生成方法、学習用データ生成プログラム Download PDFInfo
- Publication number
- JP6481794B1 JP6481794B1 JP2018081905A JP2018081905A JP6481794B1 JP 6481794 B1 JP6481794 B1 JP 6481794B1 JP 2018081905 A JP2018081905 A JP 2018081905A JP 2018081905 A JP2018081905 A JP 2018081905A JP 6481794 B1 JP6481794 B1 JP 6481794B1
- Authority
- JP
- Japan
- Prior art keywords
- tensor
- learning
- time
- attendance
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、実施形態にかかる機械学習の全体例を説明する説明図である。図1に示すように、学習装置100は、社員(従業員)の日々の出勤、退勤時間、休暇取得、出張などの状況を含む出勤簿データ203、204を機械学習200して予測モデル201を生成する。次いで、学習装置100は、学習後の予測モデル201を用いて、予測対象のある従業員の出勤簿データ205から、当該従業員が療養するか療養しないかを予測するコンピュータ装置の一例である。
図6は、実施形態にかかる学習装置100の機能構成例を示すブロック図である。図6に示すように、学習装置100は、通信部101、記憶部102、制御部110を有する。
図10は、学習時の処理の流れを示すフローチャートである。図10に示すように、処理が開始されると、テンソル取得部111は、出勤簿データを出勤簿データDB103から読み込み(S101)、学習対象の従業員1人を選択する(S102)。次いで、学習装置100では、選択した従業員についての出勤簿データをテンソル化する(S103)。
図12は、予測時の処理の流れを示すフローチャートである。図12に示すように、処理が開始されると、予測部115は、予測対象DB106から出勤簿データを読み込み(S201)、予測対象の従業員1人を選択する(S202)。
上述したように、学習装置100は、予測にかかる対象ごとに、当該対象の特徴を多次元で示す入力テンソル210を取得し、取得した入力テンソル210のうち、各要素が序列を示す次元を特定する。また、学習装置100は、入力テンソル210について、特定した次元における要素を序列ごとに区分した区分値で集約したテンソル210cを生成する。このように、序列の次元を序列ごとに区分した区分値で集約化したテンソル210cを生成することで、予測において重要な部分パターンの認識に影響を及ぼすことを抑止し、予測精度の劣化を抑制することができる。例えば、出勤簿データから従業員のメンタル不調(療養の有無)を予測する場合において、残業時間などの序列の次元を序列ごとに区分した区分値で集約化することで、メンタル不調の予測精度の劣化を抑制することができる。
上述した学習処理は、任意の回数だけ実行することもできる。例えば、すべての訓練データを用いて実行することもでき、所定回数だけ実行することもできる。また、分類誤差の算出方法は、最小二乗法など公知の算出手法を採用することができ、ニューラルネットワーク213で用いられる一般的な算出手法を採用することもできる。
上記実施例では、予測の対象を従業員とし、出勤簿データ203、204を学習して療養する可能性がある従業員を予測する例で説明したが、これに限定されるものではない。例えば、電子部品の動作データを用いた故障予測、通信データを用いた攻撃予測、道路の交通量データを用いた渋滞予測など、従業員以外の他の予測対象にも適用することができる。
本実施例では、RNNやCNN(Convolutional Neural Network)など様々なニューラルネットワーク213を用いることができる。また、学習の手法も、誤差逆伝播以外にも公知の様々な手法を採用することができる。また、ニューラルネットワークは、例えば入力層、中間層(隠れ層)、出力層から構成される多段構成であり、各層は複数のノードがエッジで結ばれる構造を有する。各層は、「活性化関数」と呼ばれる関数を持ち、エッジは「重み」を持ち、各ノードの値は、前の層のノードの値、接続エッジの重みの値(重み係数)、層が持つ活性化関数から計算される。なお、計算方法については、公知の様々な手法を採用できる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値などは、あくまで一例であり、任意に変更することができる。
図13は、ハードウェア構成例を説明する図である。図13に示すように、学習装置100は、通信装置100a、HDD(Hard Disk Drive)100b、メモリ100c、プロセッサ100dを有する。また、図13に示した各部は、バス等で相互に接続される。
予測にかかる対象ごとに、当該対象の特徴を多次元で示す第1のテンソルを取得し、
取得した前記第1のテンソルのうち、各要素が序列を示す次元を特定し、
前記第1のテンソルについて、特定した前記次元における要素を序列ごとに区分した区分値で集約した第2のテンソルを生成する、
処理を実行することを特徴とする学習用データ生成方法。
前記第2のテンソルを入力テンソルデータとしてテンソル分解して、ニューラルネットワークに入力し、前記ニューラルネットワークの深層学習を実行する、
処理をさらに実行することを特徴とする付記1に記載の学習用データ生成方法。
前記テンソル分解時に、ランダムに生成されたターゲットコアテンソルと類似するように生成されたコアテンソルを、前記ニューラルネットワークに入力して出力された出力値と教師ラベルとの誤差を算出し、
前記誤差を用いて、前記誤差が小さくなるように前記ニューラルネットワークを学習するとともに、前記教師ラベルの特徴を表すように前記ターゲットコアテンソルを更新する、
処理をさらに実行することを特徴とする付記2に記載の学習用データ生成方法。
ことを特徴とする付記1乃至3のいずれか一に記載の学習用データ生成方法。
前記生成する処理は、前記残業時間の次元を、当該残業時間の大小に応じて区分した区分値で集約する、
ことを特徴とする付記1乃至4のいずれか一に記載の学習用データ生成方法。
ことを特徴とする付記1乃至5のいずれか一に記載の学習用データ生成方法。
予測にかかる対象ごとに、当該対象の特徴を多次元で示す第1のテンソルを取得し、
取得した前記第1のテンソルのうち、各要素が序列を示す次元を特定し、
前記第1のテンソルについて、特定した前記次元における要素を序列ごとに区分した区分値で集約した第2のテンソルを生成する、
処理を実行させることを特徴とする学習用データ生成プログラム。
前記第2のテンソルを入力テンソルデータとしてテンソル分解して、ニューラルネットワークに入力し、前記ニューラルネットワークの深層学習を実行する、
処理をさらに実行させることを特徴とする付記7に記載の学習用データ生成プログラム。
前記テンソル分解時に、ランダムに生成されたターゲットコアテンソルと類似するように生成されたコアテンソルを、前記ニューラルネットワークに入力して出力された出力値と教師ラベルとの誤差を算出し、
前記誤差を用いて、前記誤差が小さくなるように前記ニューラルネットワークを学習するとともに、前記教師ラベルの特徴を表すように前記ターゲットコアテンソルを更新する、
処理をさらに実行させることを特徴とする付記7に記載の学習用データ生成プログラム。
ことを特徴とする付記7乃至9のいずれか一に記載の学習用データ生成プログラム。
前記生成する処理は、前記残業時間の次元を、当該残業時間の大小に応じて区分した区分値で集約する、
ことを特徴とする付記7乃至10のいずれか一に記載の学習用データ生成プログラム。
ことを特徴とする付記7乃至11のいずれか一に記載の学習用データ生成方法。
前記第2のテンソルと前記正解情報とを学習データとして、ニューラルネットワークの入力層に入力されることにより、演算結果を示す出力値を前記ニューラルネットワークの出力層から出力させ、正解情報と前記出力値との比較に基づく学習を行う、
処理をコンピュータに実行させることを特徴とするデータ構造。
22〜24…行列
100…学習装置
100a…通信装置
100b…HDD
100c…メモリ
100d…プロセッサ
101…通信部
102…記憶部
103…出勤簿データDB
104…テンソルDB
105…学習結果DB
106…予測対象DB
107…設定情報
110…制御部
111…テンソル取得部
112…特定部
113…テンソル生成部
114…学習部
115…予測部
200…機械学習
201…予測モデル
203〜205…出勤簿データ
210…入力テンソル
210a、210a〜210c…テンソル
211…ターゲットコアテンソル
212…コアテンソル
213…ニューラルネットワーク
214…教師ラベル
221、222…要素
Claims (6)
- コンピュータが、
予測にかかる従業員ごとに、当該従業員の出勤簿データにおける日時、曜日、出勤時刻、退勤時刻および残業時間についての序列を示す次元を少なくとも有する第1のテンソルを取得し、
取得した前記第1のテンソルのうち、前記序列を示す日時、曜日、出勤時刻、退勤時刻および残業時間の次元の中で残業時間を示す次元を特定し、
前記第1のテンソルについて、特定した前記残業時間の次元における要素をソートし、予め設定された区分にかかる閾値および区分数に従って序列ごとに区分した区分値で集約した第一の要素を前記残業時間の次元に配置し、且つ、前記日時、曜日、出勤時刻および退勤時刻の次元における要素の状態が維持された第二の要素を前記日時、曜日、出勤時刻および退勤時刻の次元に配置した第2のテンソルを生成する、
処理を実行することを特徴とする学習用データ生成方法。 - 前記コンピュータが、
前記第2のテンソルを入力テンソルデータとしてテンソル分解して、ニューラルネットワークに入力し、前記ニューラルネットワークの深層学習を実行する、
処理をさらに実行することを特徴とする請求項1に記載の学習用データ生成方法。 - 前記コンピュータが、
前記テンソル分解時に、ランダムに生成されたターゲットコアテンソルと類似するように生成されたコアテンソルを、前記ニューラルネットワークに入力して出力された出力値と教師ラベルとの誤差を算出し、
前記誤差を用いて、前記誤差が小さくなるように前記ニューラルネットワークを学習するとともに、前記教師ラベルの特徴を表すように前記ターゲットコアテンソルを更新し、
前記第2のテンソルと正解情報とを学習データとして、ニューラルネットワークの入力層に入力されることにより、テンソル分解して前記ニューラルネットワークに入力して行われる深層学習において、順序の違いを無視する処理で前記残業時間を示す次元を前記区分値で集約した状態で処理し、演算結果を示す出力値を前記ニューラルネットワークの出力層から出力させ、前記正解情報と前記出力値との比較に基づく学習を行う、
処理をさらに実行することを特徴とする請求項2に記載の学習用データ生成方法。 - 前記生成する処理は、前記残業時間の次元における要素をソートし、ソートした序列の分布の平均または分布の分散状況に基づいて、前記残業時間の次元における要素を大中小の3つに区分する閾値を決める、
ことを特徴とする請求項1乃至3のいずれか一項に記載の学習用データ生成方法。 - 前記区分値の種類数は、前記序列が取りうる値の種類数よりも少ない、
ことを特徴とする請求項1乃至4のいずれか一項に記載の学習用データ生成方法。 - コンピュータに、
予測にかかる従業員ごとに、当該従業員の出勤簿データにおける日時、曜日、出勤時刻、退勤時刻および残業時間についての序列を示す次元を少なくとも有する第1のテンソルを取得し、
取得した前記第1のテンソルのうち、前記序列を示す日時、曜日、出勤時刻、退勤時刻および残業時間の次元の中で残業時間を示す次元を特定し、
前記第1のテンソルについて、特定した前記残業時間の次元における要素をソートし、予め設定された区分にかかる閾値および区分数に従って序列ごとに区分した区分値で集約した第一の要素を前記残業時間の次元に配置し、且つ、前記日時、曜日、出勤時刻および退勤時刻の次元における要素の状態が維持された第二の要素を前記日時、曜日、出勤時刻および退勤時刻の次元に配置した第2のテンソルを生成する、
処理を実行させることを特徴とする学習用データ生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018081905A JP6481794B1 (ja) | 2018-04-20 | 2018-04-20 | 学習用データ生成方法、学習用データ生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018081905A JP6481794B1 (ja) | 2018-04-20 | 2018-04-20 | 学習用データ生成方法、学習用データ生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6481794B1 true JP6481794B1 (ja) | 2019-03-13 |
JP2019191781A JP2019191781A (ja) | 2019-10-31 |
Family
ID=65718328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018081905A Active JP6481794B1 (ja) | 2018-04-20 | 2018-04-20 | 学習用データ生成方法、学習用データ生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6481794B1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256867A (zh) * | 2020-09-27 | 2021-01-22 | 华为技术有限公司 | 文本分类模型的训练方法、系统及相关设备 |
US11347972B2 (en) | 2019-12-27 | 2022-05-31 | Fujitsu Limited | Training data generation method and information processing apparatus |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021096511A (ja) * | 2019-12-13 | 2021-06-24 | 富士通株式会社 | 学習データ生成方法、学習データ生成プログラムおよび情報処理装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017010103A1 (ja) * | 2015-07-16 | 2017-01-19 | 日本電気株式会社 | データ分析装置、データ分析方法、およびデータ分析プログラムを格納した記憶媒体 |
-
2018
- 2018-04-20 JP JP2018081905A patent/JP6481794B1/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017010103A1 (ja) * | 2015-07-16 | 2017-01-19 | 日本電気株式会社 | データ分析装置、データ分析方法、およびデータ分析プログラムを格納した記憶媒体 |
Non-Patent Citations (3)
Title |
---|
丸橋弘治: "人やモノのつながりを表すグラフデータから新たな知見を導く新技術Deep Tensor", FUJITSU, vol. 第68巻,第5号, JPN6018035343, 1 September 2017 (2017-09-01), JP, pages 29 - 35 * |
立花幸子,外4名: "死亡時CT像からの肺野セグメンテーションに関する検討", 電子情報通信学会技術研究報告 MI2014−53−MI2014−118 医用画像, vol. 第114巻,第482号, JPN6018035344, 23 February 2015 (2015-02-23), JP, pages 289 - 294 * |
西村拓哉,外2名: "エリア訪問の時刻と時間長を考慮した観光行動分析", [ONLINE], JPN6018035340, 31 March 2017 (2017-03-31), JP * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11347972B2 (en) | 2019-12-27 | 2022-05-31 | Fujitsu Limited | Training data generation method and information processing apparatus |
CN112256867A (zh) * | 2020-09-27 | 2021-01-22 | 华为技术有限公司 | 文本分类模型的训练方法、系统及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
JP2019191781A (ja) | 2019-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7063080B2 (ja) | 機械学習プログラム、機械学習方法および機械学習装置 | |
JP6562121B1 (ja) | 学習用データ生成プログラムおよび学習用データ生成方法 | |
AU2019210306A1 (en) | Systems and methods for preparing data for use by machine learning algorithms | |
JP7067235B2 (ja) | 機械学習プログラム、機械学習方法および機械学習装置 | |
JP6481794B1 (ja) | 学習用データ生成方法、学習用データ生成プログラム | |
US11347972B2 (en) | Training data generation method and information processing apparatus | |
US20200090058A1 (en) | Model variable candidate generation device and method | |
CN111626760B (zh) | 分配方法和设备、提取方法和设备及计算机可读记录介质 | |
JP7272873B2 (ja) | 計画作成支援装置および計画作成支援方法 | |
JP7139932B2 (ja) | 需要予測方法、需要予測プログラムおよび需要予測装置 | |
JP6832329B2 (ja) | データ構造 | |
JP7067236B2 (ja) | 機械学習用データ生成方法および機械学習用データ生成プログラム | |
JP7063079B2 (ja) | 機械学習プログラム、機械学習方法および機械学習装置 | |
JP6843109B2 (ja) | 医療用のデータ構造 | |
JP7451935B2 (ja) | 予測プログラム、予測方法及び予測装置 | |
Baldwa et al. | A combined simulation and machine learning approach for real-time delay prediction for waitlisted neurosurgery candidates | |
JP2020047079A (ja) | 学習プログラム、学習方法および学習装置 | |
CN113590692A (zh) | 一种三阶段人群挖掘条件优化方法及系统 | |
Branch | A case study of applying som in market segmentation of automobile insurance customers | |
JP2021096511A (ja) | 学習データ生成方法、学習データ生成プログラムおよび情報処理装置 | |
Ishino | Knowledge extraction of consumers’ attitude and behavior: a case study of private medical insurance policy in Japan | |
Zhang et al. | Latent multinomial models for extended batch-mark data | |
Yan et al. | Customer segmentation based on neural network with clustering technique | |
KR20240074084A (ko) | 주식 분석 리포트 관련 지표를 사용한 주식 매매 전략 성공률 예측 시스템 | |
CN116091135A (zh) | 信息筛选方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180706 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20180719 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20180724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6481794 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |