JP7462254B1 - プログラム、方法、情報処理装置、システム - Google Patents
プログラム、方法、情報処理装置、システム Download PDFInfo
- Publication number
- JP7462254B1 JP7462254B1 JP2023191369A JP2023191369A JP7462254B1 JP 7462254 B1 JP7462254 B1 JP 7462254B1 JP 2023191369 A JP2023191369 A JP 2023191369A JP 2023191369 A JP2023191369 A JP 2023191369A JP 7462254 B1 JP7462254 B1 JP 7462254B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- learning data
- time series
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000010365 information processing Effects 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims description 52
- 230000004044 response Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims 2
- 230000008569 process Effects 0.000 abstract description 63
- 238000010586 diagram Methods 0.000 description 25
- 239000000284 extract Substances 0.000 description 21
- 238000012545 processing Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 12
- 238000013136 deep learning model Methods 0.000 description 9
- 230000000737 periodic effect Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 238000000714 time series forecasting Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013434 data augmentation Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003442 weekly effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000004570 mortar (masonry) Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007790 scraping Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】時系列データである第1学習データを取得する第1学習データ取得し、複数の時系列予測モデルと、当該複数の時系列予測モデルの学習に用いられる時系列データである学習データと、当該複数の時系列予測モデルの学習パラメータとを、それぞれ関連付けて記憶し、第1学習データ取得ステップにおいて取得した第1学習データに基づき、記憶ステップにおいて記憶した複数の学習データのうち、時系列推移が第1学習データと類似する第2学習データを特定し、データ特定ステップにおいて特定した第2学習データと関連付けて記憶した第2学習パラメータを取得するパラメータ取得し、第1学習データに基づき、パラメータ取得ステップにおいて取得した第2学習パラメータに基づく初期パラメータを用いて学習モデルを学習させる。
【選択図】図11
Description
特許文献1には、作業者ごとの収集データの傾向に応じた作業者ごとの最適な学習モデルを生成することが開示されている。
そこで、本開示は、上記課題を解決すべくなされたものであって、その目的は、学習モデルの学習プロセスの品質を向上する技術を提供することである。
本開示におけるシステム1は、時系列データに基づく時系列予測モデルを学習する情報処理サービスを提供可能な情報処理システムである。
システム1は、ネットワークNを介して接続された、サーバ10、ユーザ端末20の情報処理装置を備える。
図1は、システム1の機能構成を示すブロック図である。
図2は、サーバ10の機能構成を示すブロック図である。
図3は、ユーザ端末20の機能構成を示すブロック図である。
サーバ10は、時系列データに基づく時系列予測モデルを学習する情報処理サービスを提供する情報処理装置である。
サーバ10は、記憶部101、制御部104を備える。
サーバ10の記憶部101は、アプリケーションプログラム1011、ユーザテーブル1012、主テーブル1013、補助テーブル1014、候補テーブル1015、モデルテーブル1021を備える。
アプリケーションプログラム1011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
ユーザテーブル1012は、ユーザIDを主キーとして、ユーザID、ユーザ名のカラムを有するテーブルである。
図4は、ユーザテーブル1012のデータ構造を示す図である。
ユーザ名は、ユーザの氏名を記憶する項目である。ユーザ名は、氏名ではなく、ニックネームなど任意の文字列を設定しても良い。
主テーブル1013は、主データIDを主キーとして、主データID、ユーザID、主データ、属性データのカラムを有するテーブルである。
図5は、主テーブル1013のデータ構造を示す図である。
ユーザIDは、ユーザを識別するためのユーザ識別情報を記憶する項目である。
主データは、学習モデル(時系列予測モデル)を学習する際に用いる時系列データを記憶する項目である。時系列データは、一連の時間点または時間間隔にわたって順序付けられたデータポイントを示す。これは、特定の時間間隔(例: 毎日、毎週、毎月など)で収集されたデータから構成される。時系列データは、各データポイントが時間的に連続している点と、その順序がデータの意味を形成する。
例えば、主データは、特定の期間における株の終値を示す株価の時系列データを含む。このデータは日次、週次、月次などの頻度で収集される。
また、主データは、自動車やその他の商品の価格相場推移の時系列データを含む。このデータは、特定のモデルやブランドの車の平均販売価格の変動を時間の経過とともに追跡するデータが含まれる。
なお、本開示における時系列データは、一つの系列(指標)の時系列データである必要はなく複数の系列(指標)を含むデータセットを含む。例えば、株取引の時系列データは、株価の時系列データと、株価の出来高(株の売買の数量)との複数の系列(指標)を含むデータセットである。このようなデータセットも本開示における時系列データに含まれる。
属性データは、主データの内容に関するメタデータを記憶する項目である。属性データは、主データを理解し、解釈し、利用する際に用いられる情報である。具体的に、属性データは、以下の情報を含む。
・データの種類:例えば、気温、湿度、株価、売上高など、時系列データが何を示すのかの基本的な情報。
・データの源泉:どの組織や機関がデータを提供しているのか、またはどのような手段や方法でデータが収集されたのかを示す情報。
・収集周期:データが毎日収集されているのか、毎時なのか、それとも別の周期なのかを示す情報。
・地理的情報:データが特定の場所や地域に関連している場合、その場所や地域の情報。
・単位:データの数値が示す単位。例えば、気温ならば摂氏や華氏、株価ならば通貨の単位などの情報。
補助テーブル1014は、補助データIDを主キーとして、補助データID、ユーザID、補助データ、属性データのカラムを有するテーブルである。
図6は、補助テーブル1014のデータ構造を示す図である。
ユーザIDは、ユーザを識別するためのユーザ識別情報を記憶する項目である。
補助データは、主データを補完または拡張するために用いられる時系列データを記憶する項目である。なお、時系列データについては、主テーブル1013の主データの項目と同様である。
補助データは、主データを用いた機械学習モデル等の学習において、機械学習モデルの品質を向上させたり、解析精度の向上、また主データの被覆範囲(カバレッジ)を拡張するために用いる任意のデータを含む。
補助データは、主データとは異なるデータソースから取得したデータを含む。
補助データは、政府機関、政府関連組織等が収集・公開している人口統計、経済指標、健康情報等の政府統計に関する情報を含む。
補助データは、外部情報サービス、プラットフォームサービス等が提供するAPI(Application Programing Interface)等を介して取得しても良いし、任意のウェブページからスクレイピングなどの手法を用いて自動的に収集しても良い。
属性データは、補助データの内容に関するメタデータを記憶する項目である。メタデータの説明は、主テーブル1013の属性データの項目と同様であるため説明を省略する。
候補テーブル1015は、候補データIDを主キーとして、候補データID、補助データID、候補データ、抽出条件のカラムを有するテーブルである。
図7は、候補テーブル1015のデータ構造を示す図である。
補助データIDは、補助データを識別するための補助データ識別情報を記憶する項目である。
候補データは、補助データの一部であり、主データを補完または拡張するために用いられる時系列データを記憶する項目である。なお、時系列データについては、主テーブル1013の主データの項目と同様である。
抽出条件は、補助データ識別情報により特定される補助データから、候補データを抽出する際の抽出条件を記憶する項目である。例えば、抽出条件は、補助データから候補データを抽出する際の開始位置(開始行)と終了位置(終了行)に関する情報を記憶する。
モデルテーブル1021は、モデルIDを主キーとして、モデルID、学習モデル、初期パラメータ、学習後パラメータ、主データID、候補データID、拡張条件のカラムを有するテーブルである。
図8は、モデルテーブル1021のデータ構造を示す図である。
学習モデルは、時系列予測モデルに関する学習モデルを記憶する項目である。時系列予測モデルは、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Units)などの任意の時系列深層学習モデルを含む。
時系列予測モデルは、時系列データを入力データとして、未来の指数を出力(推論)する推論モデルである。例えば、時系列予測モデルは、過去の販売データや気候データなどのデータを入力データとして、未来の売上高や気温の指数を出力(推論)する推論モデルである。
入力データは、季節性や特定のイベント(セールなど)に関する情報を含んでも良い。
出力データは、確信度や分布の範囲に関する情報を含んでも良い。
時系列予測モデルの学習処理は、後述する。
時系列予測モデルは、例えば機械学習、人工知能、深層学習モデルなどの一種である。
時系列予測モデルは、単一の学習モデルである必要はなく、商品カテゴリーや地域情報ごとに複数の独立した学習モデルを切り替えて実現しても良い。
時系列予測モデルの一例として、深層学習におけるディープニューラルネットワークによる深層学習モデルを説明する。時系列予測モデルは、深層学習モデルである必要は必ずしもなく、任意の機械学習、人工知能モデルでも良い。
商品の売上履歴や気温の変動情報を入力データとして、時系列予測モデルを適用することにより、未来の市場動向や気温のトレンドが推計される。つまり、本開示にかかるサービスのユーザは、実際に、実店舗を訪れるや気象情報を調べることなしに、未来の売上や気温を推計することができる。
初期パラメータは、学習モデルを学習する際の学習開始時のパラメータを記憶する項目である。
例えば、深層学習モデルにおいては学習の品質や速度は、初期パラメータの選び方に大きく依存することが一般的である。不適切な初期パラメータを選択してしまうと、学習が遅くなったり、局所的な最適解に収束してしまう場合がある。
なお、初期パラメータは、複数の初期パラメータを、学習モデルの品質を示す指標(各種誤差、精度、適合率など)や、学習プロセスの品質を示す指標(収束速度、学習曲線など)と関連付けて記憶しても良い。また、初期パラメータは、複数の初期パラメータを、初期パラメータの優劣を示す指標(優先度)等の情報と関連付けて記憶しても良い。
学習後パラメータは、学習処理を通じて最適化されたパラメータである。初期パラメータは損失関数を最小化するようにパラメータが調整される。
主データIDは、学習モデルを学習する際の学習データとして用いる主データの主データ識別情報を記憶する項目である。
候補データIDは、学習モデルを学習する際の学習データとして用いる候補データの候補データ識別情報を記憶する項目である。本開示においては、主データは候補データによりデータ拡張(Data Augumentation)が行われ、学習モデルの学習に用いられる。
拡張条件は、主データを候補データによりデータ拡張する際の拡張条件を記憶する項目である。具体的に、拡張条件に記憶された情報に基づき、主データに候補データを結合する。
サーバ10の制御部104は、ユーザ登録制御部1041、学習部1042を備える。制御部104は、記憶部101に記憶されたアプリケーションプログラム1011を実行することにより、各機能ユニットが実現される。
ユーザテーブル1012に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しサーバ10へ送信する。ユーザ登録制御部1041は、受信した情報をユーザテーブル1012の新しいレコードに記憶し、ユーザ登録が完了する。これにより、ユーザテーブル1012に記憶されたユーザはサービスを利用することができるようになる。
ユーザ登録制御部1041によるユーザ情報のユーザテーブル1012への登録に先立ち、サービス提供者は所定の審査を行いユーザによるサービス利用可否を制限しても良い。
ユーザIDは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部1041が自動的に任意の文字列または数字を設定しても良い。
ユーザ端末20は、サービスを利用するユーザが操作する情報処理装置である。ユーザ端末20は、例えば、スマートフォン、タブレット等の携帯端末でもよいし、据え置き型のPC(Personal Computer)、ラップトップPCであってもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
ユーザ端末20は、記憶部201、制御部204、入力装置206、出力装置208を備える。
ユーザ端末20の記憶部201は、ユーザID2011、アプリケーションプログラム2012を備える。
アプリケーションプログラム2012は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム2012は、ユーザ端末20に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
ユーザ端末20の制御部204は、入力制御部2041、出力制御部2042を備える。制御部204は、記憶部201に記憶されたアプリケーションプログラム2012を実行することにより、各機能ユニットが実現される。
ユーザ端末20の入力装置206は、カメラ2061、マイク2062、位置情報センサ2063、モーションセンサ2064、タッチデバイス2065を備える。
ユーザ端末20の出力装置208は、ディスプレイ2081、スピーカ2082を備える。
以下、システム1の各処理について説明する。
図9は、データ拡張処理の動作を示すフローチャートである。
図10は、初期パラメータ設定処理の動作を示すフローチャートである。
図11は、データ拡張処理の概念を説明する第一概念図である。
図12は、データ拡張処理の概念を説明する第二概念図である。
データ拡張処理は、主データを補助データにより拡張するための処理である
データ拡張処理は、データ拡張の対象となる主データの選択を受け付け、当該主データのデータ拡張に用いる補助データを選択し、補助データから1または複数の候補データを抽出し、1または複数の候補データから所定の候補データを選択し、主データと候補データとを結合することにより結合データを作成する一連の処理である。
本開示において、第1データ、第2データ、第3データは、1または複数の系列を有する時系列データである。
以下に、データ拡張処理の詳細を説明する。
具体的に、ユーザは、ユーザ端末20の入力装置206を操作し、ブラウザアプリケーション等を実行し、データ拡張処理を実行するためのウェブページ(データ拡張ページ)のURL等を入力することによりデータ拡張ページD1を開く。ユーザ端末20の制御部204は、データ拡張ページを開くためのユーザID2011を含むリクエストをサーバ10へ送信する。
サーバ10の制御部104は、主テーブル1013に記憶された1または複数の主データ情報をユーザ端末20へ送信し、ユーザ端末20の制御部204は、受信した1または複数の主データ情報に基づき、1または複数の主データ情報を選択可能な態様でデータ拡張ページに一覧表示しても良い。
同様に、サーバ10の制御部104は、補助テーブル1014に記憶された1または複数の補助データ情報をユーザ端末20へ送信し、ユーザ端末20の制御部204は、受信した1または複数の補助データに基づき、1または複数の補助データを選択可能な態様でデータ拡張ページに一覧表示しても良い。
サーバ10の制御部104は、主データIDに基づき、主テーブル1013の主データIDの項目を検索し、主データ(第1データ)を取得し、受け付ける。なお、サーバ10の制御部104は、複数の主データ(第1データ)を取得し、受け付けても良い。
具体的に、ユーザは、ユーザ端末20の入力装置206を操作することにより、データ拡張ページに一覧表示された補助データを選択する。ユーザ端末20の制御部204は、選択された補助データの補助データIDをサーバ10へ送信する。サーバ10の制御部104は、補助データIDを受信する。
サーバ10の制御部104は、補助データIDに基づき、補助テーブル1014の補助データIDの項目を検索し、補助データ(第3データ)を取得し、受け付ける。
例えば、サーバ10の制御部104は、ステップS101において取得した第1データ、第1データに関連付けて記憶されたメタデータ(属性データ)等の情報に基づき、第1データを拡張するために好適な第3データを補助テーブル1014から検索し、取得し、受け付けても良い。
サーバ10の制御部104は、補助テーブル1014に記憶されたすべて、または一部の任意の補助データを取得し、受け付ける構成としても構わない。サーバ10の制御部104は、複数の補助データ(第3データ)を取得し、受け付けても良い。
サーバ10の制御部104は、第1データ、第1データに関連付けて記憶されたメタデータ(属性データ)等の情報を入力データとして、第3データを特定するための情報(第3データID)を出力する機械学習モデル、深層学習モデル、その他、任意の人工知能モデル等を用いることにより第3データを特定しても良い。
具体的に、サーバ10の制御部104は、取得した補助データから、当該補助データの期間範囲の一部に含まれる1または複数の候補データを抽出する。具体的に、サーバ10の制御部104は、取得した補助データの期間範囲の一部を切り出して候補データとして抽出しても良いし、補助データの期間範囲の一部を除外して候補データとして抽出しても良い。
サーバ10の制御部104は、補助データに含まれる複数の系列のうち一部の系列を取り出して候補データとして抽出しても良いし、系列のうち一部の系列を除外して候補データとして抽出しても良い。
具体的に、サーバ10の制御部104は、取得した補助データから、ステップS101において選択した主データの期間範囲(第1期間範囲)と略同一の期間範囲を有する1または複数の候補データを抽出することが好適である。
なお、主データと候補データとの間で期間範囲が略同一であったとしても、時間方向のデータ数が主データと候補データとの間で相違する場合がある。つまり、主データと、候補データ(補助データ)との時間方向のデータ数の密度(単位時間当たりのデータ数)が相違する場合がある。この場合、サーバ10の制御部104は、任意の補完処理を主データ、候補データ(補助データ)に対して適用することにより、主データと、候補データ(補助データ)とのデータ数を揃える。補完処理は、主データではなく、候補データ(補助データ)に適用することが好適である。
補完処理は、複数の連続する時系列データの間の、欠損値や不足しているデータを埋めるための手法であり様々な手法が知られている。補完処理は、前方補完、後方補完、線形補完、平均値補完、中央値補完、最近傍補完、機械学習モデル、深層学習モデル等を用いた補完など任意の補完処理を適用することができる。
具体的に、サーバ10の制御部104は、補助データのうち、時間方向において最も古い位置(開始位置)から時間方向において第1期間範囲までの期間範囲を切り出して第1候補データとして抽出する。サーバ10の制御部104は、補助データのうち、時間方向において開始位置から所定の周期期間だけずらした位置(第2位置)から時間方向において第1期間範囲までの期間範囲を切り出して第2候補データとして抽出する。サーバ10の制御部104は、補助データのうち、時間方向において第2位置から所定の周期期間だけずらした位置(第3位置)から時間方向において第1期間範囲までの期間範囲を切り出して第3候補データとして抽出する。サーバ10の制御部104は、このように期間範囲の切り出し開始位置を所定の周期期間ごとに逐次的にずらすことにより複数の候補データを抽出する。周期期間は、1日、1週間、1ヶ月、1年など任意の期間を用いることができる。
なお、候補データの切り出しは、補助データの時間方向において最も古い位置から行う必要はなく、最も新しい位置または第3期間範囲に含まれる任意の位置から切り出しても良い。
具体的に、サーバ10の制御部104は、第1期間範囲よりも時間方向において第1期間範囲よりも時間方向において後方の期間範囲に含まれないように1または複数の候補データを抽出する。具体的に、サーバ10の制御部104は、補助データのうち、第3期間範囲において時間方向において第1期間範囲よりも時間方向において後方の期間範囲を除外して、当該除外した補助データから候補データを抽出する構成としても良い。
第1データに基づき第1期間範囲よりも後方(未来)の事象を予測するための時系列予測モデルを構築する場合には、第3データのうち第1データの期間範囲よりも時間方向において後方(未来)のデータを学習データとして用いることは因果関係を考慮すると好適ではない。
なお、第1データに基づき第1期間範囲よりも前方(過去)の事象を推論するための時系列予測モデルを構築する場合も同様である。この場合、サーバ10の制御部104は、第1期間範囲よりも時間方向において第1期間範囲よりも時間方向において前方の期間範囲に含まれないように1または複数の候補データを抽出する。
具体的に、周期期間は、データ拡張ページに設けられた周期期間入力欄等にユーザから入力された値に基づき周期期間の入力を受け付けても良い。
この場合、候補抽出ステップは、周期入力ステップにおいて入力を受け付けた周期期間に基づき、複数の候補データを抽出するステップを実行することになる。
具体的に、サーバ10の制御部104は、ステップS101において取得した第1データ、第1データに関連付けて記憶されたメタデータ(属性データ)等の情報に基づき、第1データを拡張する際の補助データを切り出すのに好適な周期期間を、ユーザからの入力を受け付けることなしに自動的に特定しても良い。
例えば、第1データが所定の周期で変動するデータである場合は、第1データの主成分の周期に基づき、当該主成分の周期よりも短いまたは長い周期期間を特定しても良い。その他、第1データのデータの種類、内容等(人口動態、季節性の変動要因とうの周期的な要因が影響するデータ等)に応じて定まる周期に基づき特定しても良い。
サーバ10の制御部104は、第1データ、第1データに関連付けて記憶されたメタデータ(属性データ)等の情報を入力データとして、周期期間を出力する機械学習モデル、深層学習モデル、その他、任意の人工知能モデル等を用いることにより周期期間を特定しても良い。
サーバ10の制御部104は、第1候補データの時間方向において最も新しい位置D13(開始位置)から、時間方向において第1期間範囲である3.5年分の期間範囲を切り出して第1候補データD121(3.5年分、42行のデータ)として特定する。サーバ10の制御部104は、位置D13から周期期間12ヶ月だけ時間方向にずらした位置(第2位置)から、時間方向において第1期間範囲である3.5年分の期間範囲を切り出して第2候補データD122(3.5年分、42行のデータ)として特定する。同様に、サーバ10の制御部104は、第2位置から周期期間12ヶ月だけ時間方向にずらした位置(第3位置)から、時間方向において第1期間範囲である3.5年分の期間範囲を切り出して第3候補データD123(3.5年分、42行のデータ)として特定する。このように、サーバ10の制御部104は、周期期間ずつ逐次的にずらすことにより、補助データD111から14個の候補データを抽出することができる。
第2データ取得ステップは、第1データと、複数の候補データとの間のマンハッタン距離、ユークリッド距離、コサイン類似度および相関係数の少なくともいずれか1つの距離を算定するステップと、算定された距離に基づく類似度に応じて第2データを取得するステップと、を含む。
具体的に、サーバ10の制御部104は、第1データの開始位置からi個目(データのインデックスがi)のデータの値をxiとして、j番目の候補データの開始位置からのi個目の(データのインデックスがi)のデータの値をyijとして、xiとyijとの差(xij-yij)や積(xij*yij)等の距離要素を算定する(なお、候補データは既に補完処理が実行されているものとする)。すべてのiについて距離要素を積算することにより第1データとj番目の候補データとの距離を算定することができる。距離は、マンハッタン距離(L1ノルム)、ユークリッド距離(L2ノルム)、コサイン類似度、相関係数等の距離を用いることができる。
サーバ10の制御部104は、複数の候補データについて算定した距離のうち、最も距離が小さい候補データを第2データとして特定し、取得する。なお、必ずしも、最も距離が近い候補データを第2データとして特定する必要はなく、例えば距離に基づき算定される類似度(距離の逆数等により定まる)が所定値以上の複数の候補データから所定の候補データを第2データとして選択しても良い。また、サーバ10の制御部104は、複数の候補データを複数の第2データとして選択しても良い。
具体的に、第1データ、候補データが複数の系列からなる時系列データである場合には、各系列に対して上述したマンハッタン距離(L1ノルム)、ユークリッド距離(L2ノルム)、コサイン類似度、相関係数等の距離を計算し、系列に対して計算したこれらの距離の組み合わせにより第1データおよび候補データとの類似度を算定する。
例えば、それぞれの系列に対して算出した距離や類似度の平均(平均値、中央値等)、重み付き平均、最大値および最小値の少なくともいずれかを、第1データおよび候補データとの類似度としても良い。
サーバ10の制御部104は、複数の候補データについて算定した類似度のうち、最も類似度が大きい候補データを第2データとして特定し、取得する。なお、必ずしも、最も類似度が大きい候補データを第2データとして特定する必要はなく、例えば類似度が所定値以上の複数の候補データから所定の候補データを第2データとして選択しても良い。また、サーバ10の制御部104は、複数の候補データを複数の第2データとして選択しても良い。
具体的に、第1データ、候補データが第1系列、第2系列、第3系列の3つの系列を有する時系列データであるとする。この場合、複数の候補データについて、第1系列、第2系列、第3系列のそれぞれの系列ごとに距離(類似度)を算定する。複数の候補データのそれぞれについて、第1データと複数の候補データが有する系列のうち最も類似する系列の個数をカウントする。
例えば、第1候補データ、第2候補データ、第3候補データ、第4候補データ、第5候補データの5つの候補データがあるとする。第1候補データは、第1系列、第2系列、第3系列のそれぞれについて第1データと最も類似する系列の個数は0個とする。同様に、第2候補データは0個、第3候補データは2個、第4候補データは0個、第5候補データは1個である場合において、最も類似する候補データである第3候補データが第2データとして特定し、取得される。
結合ステップは、第1データの時間方向において前方に1または複数の第2データを結合することにより結合データを作成するステップを実行しても良い。
具体的に、サーバ10の制御部104は、ステップS101において選択した主データ(第1データ)の時間方向において前方に、ステップS104において選択した候補データ(第2データ)を結合する。具体的に、時系列データである第1データの時間方向において最も前方のデータの前に、第2データの時間方向において最も後方のデータを結合する。これにより、時間方向において第2データ、第1データの順番に連続する時系列データ(結合データ)を作成することができる。
同様に、サーバ10の制御部104は、ステップS101において選択した主データ(第1データ)の時間方向において後方に、ステップS104において選択した候補データ(第2データ)を結合しても良い。具体的に、時系列データである第1データの時間方向において最も後方のデータの後に、第2データの時間方向において最も前方のデータを結合する。これにより、時間方向において第1データ、第2データの順番に連続する時系列データ(結合データ)を作成することができる。
結合ステップは、結合データの期間範囲が拡張期間に達するまで第1データの時間方向において前方および後方の少なくともいずれかに1または複数の第2データを結合するステップを実行する。
具体的に、ユーザは、データ拡張ページに表示された拡張期間入力欄に、第1データの拡張を希望する第1期間範囲よりも長い期間(拡張期間)を入力可能な構成としても良い。この場合、サーバ10の制御部104は、ユーザから受け付けた拡張期間に応じて、第1データの時間方向の前方に1または複数の第2データを結合させる。具体的に、結合データの期間範囲が拡張期間になるように所定個数の第2データを結合させる。なお、((拡張期間-第1期間範囲)÷第1期間範囲)個の第2データを、第1データの時間方向の前方に結合させることにより、結合データの期間範囲を拡張期間とすることができる。
なお、結合データを拡張期間とするのに必要な所定個数の第2データが、ステップS104において選択できていない場合は、ステップS104において選択した第2データを反復して第1データに結合させることにより、第1データの期間範囲を拡張しても良い。
サーバ10の制御部104は、主データである第1データD211(3.5年分、42行のデータ)を、補助データから抽出した2つの第2候補データD212、D213(3.5年分、42行のデータ)を結合することにより、拡張期間10.5年分、126行の第1結合データD221(10.5年分、126行のデータ)を作成する。なお、第2候補データD212、D213は一例として同じデータを結合する例を説明したが、必ずしも同じ候補データを結合する必要はない。
次に、サーバ10の制御部104は、第1結合データD221を新たな主データ(第1データ)として、データ拡張処理を実行する。具体的に、第1結合データD221を新たな主データとして、補助データから第A候補データD222(10.5年分、126行のデータ)、・・・、第Z候補データD229(10.5年分、126行のデータ)を抽出する。なお、第A候補データD222、・・・、第Z候補データD229も、他の主データおよび候補データの結合により作成した結合データであっても良い。本開示においては、サーバ10の制御部104は、拡張期間である210年分、2520行の結合データを得るために、第1結合データD221に対して、19個の第A候補データD222、・・・、第Z候補データD229を結合し、第2結合データ(210年分、2520行のデータ)を作成する。
このように、サーバ10の制御部104は、一度のデータ拡張処理により主データ(第1データ)を補助データにより結合データを作成することができる。さらに、サーバ10の制御部104は、作成した結合データを主データまたは補助データとして扱い、逐次的にデータ拡張処理を実行することにより任意の期間(拡張期間)の結合データを作成することができる。
このようにして、手元にある事象に関する限定的な期間の時系列データしかない場合においても、データ拡張処理により品質の優れた長期的な時系列データを新たに作成することができる。長期的な事象に関して、長期的な学習データに基づき、品質良く学習モデルを学習させることができる。
初期パラメータ設定処理は、学習モデルを学習する際の初期パラメータを設定するための処理である
初期パラメータ設定処理は、学習モデルの選択を受け付け、当該学習モデルを学習させるための学習データを取得し、当該取得した学習データに基づき初期パラメータを検索し、検索により特定した初期パラメータを学習モデルの初期パラメータとして設定する一連の処理である
以下に、初期パラメータ設定処理の詳細を説明する。
なお、初期パラメータ設定処理に先立ち、サーバ10の制御部104は、複数の時系列予測モデルと、当該複数の時系列予測モデルの学習に用いられる時系列データである学習データと、当該複数の時系列予測モデルの学習パラメータと、をそれぞれ関連付けて記憶する記憶ステップを実行する。
記憶ステップは、複数の時系列予測モデルと、当該複数の時系列予測モデルの最適化後パラメータと、をそれぞれ関連付けて記憶するステップである。
記憶ステップは、複数の時系列予測モデルと、当該複数の時系列予測モデルの初期パラメータと、をそれぞれ関連付けて記憶するステップである。
具体的に、サーバ10の制御部104は、モデルテーブル1021に記憶された1または複数の学習モデルについて、主データまたは結合データを用いて、初期パラメータに基づく学習処理を実行し、最適化後の学習後パラメータを算出する。サーバ10の制御部104は、学習モデル、初期パラメータ、学習後パラメータをそれぞれ、モデルテーブル1021の学習モデル、初期パラメータ、学習後パラメータの項目に関連付けて記憶しておくものとする。
ユーザは、ユーザ端末20の入力装置206を操作し、ブラウザアプリケーション等を実行し、初期パラメータ設定処理を実行するためのウェブページ(初期パラメータ設定ページ)のURL等を入力することにより初期パラメータ設定ページD3を開く。ユーザ端末20の制御部204は、初期パラメータ設定ページを開くためのユーザID2011を含むリクエストをサーバ10へ送信する。
サーバ10の制御部104は、モデルテーブル1021に記憶された1または複数の学習モデル情報をユーザ端末20へ送信し、ユーザ端末20の制御部204は、受信した1または複数の学習モデル情報に基づき、1または複数の学習モデル情報を選択可能な態様で初期パラメータ設定ページに一覧表示しても良い。
ユーザは、ユーザ端末20の入力装置206を操作することにより、初期パラメータ設定ページに一覧表示された学習モデルを選択する。ユーザ端末20の制御部204は、選択された学習モデルのモデルIDをサーバ10へ送信する。サーバ10の制御部104は、モデルIDを受信し、受け付ける。
具体的に、サーバ10の制御部104は、受信したモデルIDに基づき、モデルテーブル021のモデルIDの項目を検索し、主データID、候補データID、拡張条件の項目を取得する。サーバ10の制御部104は、取得した主データIDに基づき、主テーブル1013の主データIDの項目を検索し、主データを取得する。サーバ10の制御部104は、取得した候補データIDに基づき、候補テーブル1015の候補データIDの項目を検索し、候補データを取得する。
初期パラメータ設定処理において、第1学習データは、学習モデルに関連付けて記憶された主データ、補助データ、候補データ、結合データなどの任意のデータを含む。例えば、第1学習データは、取得した主データを含む。第1学習データは、取得した主データおよび候補データをデータ拡張処理のステップS105において結合した結合データを含む。
ユーザは、ユーザ端末20の入力装置206を操作することにより、初期パラメータを設定ページに一覧表示された主データを選択する。ユーザ端末20の制御部204は、選択された主データの主データIDをサーバ10へ送信する。サーバ10の制御部104は、主データIDを受信する。
サーバ10の制御部104は、主データIDに基づき、主テーブル1013の主データIDの項目を検索し、主データ(第1学習データ)を取得し、受け付ける。なお、サーバ10の制御部104は、複数の主データ(第1学習データ)を取得し、受け付けても良い。
このように、サーバ10の制御部104は、複数の学習モデルに対するユーザからの選択に応じて、当該選択された学習モデルに関連付けられた主データを特定し取得しても良いし、複数の主データに対するユーザからの直接的な選択に応じて、当該選択された主データを特定し取得しても構わない。
同様に、サーバ10の制御部104は、複数の学習モデルに対するユーザからの選択に応じて、当該選択された学習モデルに関連付けられた結合データを特定し取得しても良いし、複数の結合データに対するユーザからの直接的な選択に応じて、当該選択された結合データを特定し取得しても構わない。
データ特定ステップは、第1学習データと、複数の学習データとの間のマンハッタン距離、ユークリッド距離、コサイン類似度および相関係数の少なくともいずれか1つの距離を算定するステップと、算定された距離に基づく類似度に応じて第2学習データを特定するステップと、を含む。
具体的に、サーバ10の制御部104は、第1学習データと、モデルテーブル1021に記憶された主データIDに基づき特定される主データ、候補データIDに基づき特定される候補データ、取得した主データおよび候補データをデータ拡張処理のステップS105において結合した結合データの少なくともいずれか1つと対比し、類似度を算定する。第1学習データが、主データ、候補データ、結合データのいずれかである場合は、対比対象も主データ、候補データ、結合データのいずれかであることが好適である。
具体的に、サーバ10の制御部104は、第1学習データの期間範囲と略同一の期間範囲を有する主データ、候補データ、結合データの少なくともいずれか1つ(以下、対象データとよぶ)と対比し類似度を算定しても良い(主データは主データと、候補データは候補データと、結合データは結合データと対比される)。サーバ10の制御部104は、モデルテーブル1021を参照して、複数の学習モデル、初期パラメータ、学習後パラメータと関連付けて記憶された複数の対象データを取得する。
具体的に、サーバ10の制御部104は、第1学習データの開始位置からi個目(データのインデックスがi)のデータの値をxiとして、j番目の対象データの開始位置からのi個目の(データのインデックスがi)のデータの値をyijとして、xiとyijとの差(xij-yij)や積(xij*yij)等の距離要素を算定する(なお、候補データは既に補完処理が実行されているものとする)。すべてのiについて距離要素を積算することにより第1データとj番目の対象データとの距離を算定することができる。距離は、マンハッタン距離(L1ノルム)、ユークリッド距離(L2ノルム)、コサイン類似度、相関係数等の距離を用いることができる。
サーバ10の制御部104は、複数の対象データについて算定した距離のうち、最も距離が小さい対象データを第2学習データとして特定し、取得する。なお、必ずしも、最も距離が近い対象データを第2データとして特定する必要はなく、例えば距離に基づき算定される類似度(距離の逆数等により定まる)が所定値以上の複数の対象データから所定の対象データを第2データとして選択しても良い。また、サーバ10の制御部104は、複数の対象データを複数の第2データとして選択しても良い。
具体的に、サーバ10の制御部104は、第1学習データと1または複数の対象データとの間の距離を算定する際に、第1学習データおよび対象データの説明変数を考慮せずに、目的変数のみを考慮して距離を計算しても良い。
一般に、学習データの説明変数は高次元のデータ構造であるのに対して、目的変数は1次元または小数次元のデータ構造である。これにより、より短い処理時間、より低コストで第2学習データを特定することができる。
具体的に、サーバ10の制御部104は、具体的に、サーバ10の制御部104は、第1学習データと1または複数の対象データとの間の距離を算定する際に、第1学習データおよび対象データの説明変数を考慮せずに、目的変数のみを考慮して距離を計算し、当該計算した距離が所定値以下の複数の対象データを特定する。つまり、サーバ10の制御部104は、第1学習データと複数の対象データとを説明変数について対比し、複数の対象データから比較的類似する複数の対象データを第2学習データの候補(第2学習データ候補)として絞り込む。
次に、サーバ10の制御部104は、第1学習データと1または複数の第2学習データ候補との間の距離を算定する際に、第1学習データおよび第2学習データ候補の説明変数を考慮して距離を計算し、最も距離が小さい第2学習データ候補を第2学習データとして特定し、取得する。なお、サーバ10の制御部104は、第1学習データおよび第2学習データ候補の目的変数および説明変数を考慮して距離を計算しても良い。
一般に、学習データの説明変数は高次元のデータ構造であるのに対して、目的変数は1次元または小数次元のデータ構造である。これにより、より短い処理時間、より低コストで第2学習データを絞り込みつつ、少数の第2データ学習データ候補については説明変数も考慮して類似度を計算することにより、精度高く好適な第2学習データを特定できる。
また、サーバ10の制御部104は、目的変数を入力データとして第2学習データを特定可能な機械学習モデル、深層学習モデル、人工知能モデル等を用いて、第1学習データの目的変数を入力データとして第2学習データを特定する構成とすることもできる。
これにより、より短い処理時間、より低コストで第2学習データを特定することができる。
具体的に、サーバ10の制御部104は、モデルテーブル1021において第2データと関連付けて記憶(同じレコードに記憶)された初期パラメータ、学習パラメータの少なくともいずれか1つを取得する。
サーバ10の制御部104は、取得した第2初期パラメータ、第2最適化後パラメータのそれぞれを、モデルテーブル1021のステップS301において選択されたモデルIDに基づき特定されるレコードの初期パラメータ、学習後パラメータの項目に記憶する。
具体的に、サーバ10の制御部104は、ステップS301において選択を受け付けたモデルIDに基づき、モデルテーブル1021のモデルIDの項目を検索し、主データ、候補データ、拡張条件、初期パラメータ(第2初期パラメータ)、学習パラメータ(第2最適化後パラメータ)を取得する。
サーバ10の制御部104は、取得した主データおよび候補データに基づき、データ拡張処理のステップS105における処理に従い結合した結合データを作成する。
サーバ10の制御部104は、結合データを学習データとし、初期パラメータとして第2初期パラメータまたは第2最適化後パラメータを用いて学習モデルを学習させる。
サーバ10の制御部104は、結合データに基づき、学習モデルのディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。サーバ10の学習部1051は、作成したデータセットに基づき学習モデルに含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
例えば、主データによる学習モデルの学習の際の初期パラメータの設定において、当該主データと類似する主データにより学習された学習モデルの最適化後パラメータ、初期パラメータを、当該学習モデルを学習させる際の初期パラメータとして用いても良い。
修正ステップは、第1学習データと第2学習データとの類似度に応じて定まる範囲の乱数に基づき、第2学習パラメータを修正するステップを実行する。
具体的に、サーバ10の制御部104は、取得した第2学習パラメータの値に対して、ステップS104において候補データを選択する際に算出した第1学習データとの類似度(距離)に応じた処理を適用しても良い。
具体的に、類似度に応じた大きさを有する乱数を、第2学習パラメータに対して加えたり引いても良い。例えば、類似度をSとして、-Sから+Sまでの範囲を有する乱数値を、第2学習パラメータに加える。
第2学習パラメータが多次元量である場合には、各次元ごとに生成した異なる乱数値を第2学習パラメータに加えても良い。
これにより、第1学習データと第2学習データとが類似している場合には、第2学習パラメータに類似したパラメータを、第1学習データの学習処理に用いる。
一方、第1学習データと第2学習データとが類似していない場合には、第2学習パラメータに乱数の影響を加えたパラメータを、第1学習データの学習処理に用いる。
これにより、第1学習データと第2学習データとの類似度に応じて、第2学習パラメータが修正される。第1学習データと第2学習データとの類似度に応じて、学習プロセスの際の第2学習パラメータが影響を与える寄与割合を制御することができる。
図13は、コンピュータ90の基本的なハードウェア構成を示すブロック図である。コンピュータ90は、プロセッサ901、主記憶装置902、補助記憶装置903、通信IF991(インタフェース、Interface)を少なくとも備える。これらは通信バス921により相互に電気的に接続される。
ネットワークは、インターネット、LAN、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、3G、4G、5G移動通信システム、LTE(Long Term Evolution)、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク(例えばWi-Fi(登録商標))等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Z-Wave(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)等が含まれる。有線で接続する場合は、ネットワークには、USB(Universal Serial Bus)ケーブル等により直接接続するものも含む。
コンピュータ90の基本ハードウェア構成(図13)により実現されるコンピュータの機能構成を説明する。コンピュータは、制御部、記憶部、通信部の機能ユニットを少なくとも備える。
通常、各テーブル、各マスタにはレコードを一意に特定するための主キーとなるカラムが設定されるが、カラムへの主キーの設定は必須ではない。制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶された特定のテーブル、マスタにレコードを追加、削除、更新を実行させることができる。
また、記憶部に、データ、各種プログラム、各種データベースを記憶させることにより、本開示にかかる情報処理装置、情報処理システムが製造されたものとして捉えることができる。
以上の各実施形態で説明した事項を以下に付記する。
プロセッサと、記憶部とを備えるコンピュータに実行させるためのプログラムであって、プロセッサが、時系列データである第1学習データを取得する第1学習データ取得ステップ(S302)と、複数の時系列予測モデルと、当該複数の時系列予測モデルの学習に用いられる時系列データである学習データと、当該複数の時系列予測モデルの学習パラメータと、をそれぞれ関連付けて記憶する記憶ステップと、第1学習データ取得ステップにおいて取得した第1学習データに基づき、記憶ステップにおいて記憶した複数の学習データのうち、時系列推移が第1学習データと類似する第2学習データを特定するデータ特定ステップ(S303)と、記憶ステップにおいて、データ特定ステップにおいて特定した第2学習データと関連付けて記憶した第2学習パラメータを取得するパラメータ取得ステップ(S303)と、第1学習データに基づき、パラメータ取得ステップにおいて取得した第2学習パラメータに基づく初期パラメータを用いて学習モデルを学習させる学習ステップ(S304)と、を実行するプログラム。
これにより、学習データが類似する第2学習データにおいて時系列予測モデルの学習に用いた学習パラメータ(最適化後パラメータ、初期パラメータ等)を初期パラメータとして、学習モデルを学習させることができる。学習モデルの学習プロセスの収束速度や、学習モデルの品質を向上させることができる。
記憶ステップは、複数の時系列予測モデルと、当該複数の時系列予測モデルの最適化後パラメータと、をそれぞれ関連付けて記憶するステップであり、パラメータ取得ステップ(S303)は、記憶ステップにおいて、データ特定ステップにおいて特定した第2学習データと関連付けて記憶した第2最適化後パラメータを取得するステップであり、学習ステップ(S304)は、第1学習データに基づき、パラメータ取得ステップにおいて取得した第2最適化後パラメータに基づく初期パラメータを用いて学習モデルを学習させるステップである、付記1記載のプログラム。
これにより、学習データが類似する第2学習データにおいて時系列予測モデルの学習に用いた最適化後パラメータを初期パラメータとして、学習モデルを学習させることができる。学習モデルの学習プロセスの収束速度や、学習モデルの品質を向上させることができる。
記憶ステップは、複数の時系列予測モデルと、当該複数の時系列予測モデルの初期パラメータと、をそれぞれ関連付けて記憶するステップであり、パラメータ取得ステップ(S303)は、記憶ステップにおいて、データ特定ステップにおいて特定した第2学習データと関連付けて記憶した第2初期パラメータを取得するステップであり、学習ステップ(S304)は、第1学習データに基づき、パラメータ取得ステップにおいて取得した第2初期パラメータに基づく初期パラメータを用いて学習モデルを学習させるステップである、付記1記載のプログラム。
これにより、学習データが類似する第2学習データにおいて時系列予測モデルの学習に用いた初期パラメータを初期パラメータとして、学習モデルを学習させることができる。学習モデルの学習プロセスの収束速度や、学習モデルの品質を向上させることができる。
データ特定ステップ(S303)は、第1学習データと、複数の学習データとの間のマンハッタン距離、ユークリッド距離、コサイン類似度および相関係数の少なくともいずれか1つの距離を算定するステップと、算定された距離に基づく類似度に応じて第2学習データを特定するステップと、を含む、付記1記載のプログラム。
これにより、学習データが類似する第2学習データにおいて時系列予測モデルの学習に用いた学習パラメータ(最適化後パラメータ、初期パラメータ等)を初期パラメータとして、学習モデルを学習させることができる。学習モデルの学習プロセスの収束速度や、学習モデルの品質を向上させることができる。
プロセッサが、第1学習データ取得ステップにおいて取得した第1学習データと、データ特定ステップにおいて特定した第2学習データとの類似度に基づき、パラメータ取得ステップにおいて取得した第2学習パラメータを修正する修正ステップ(S304)と、を実行し、学習ステップ(S304)は、修正ステップにおいて修正した第2学習パラメータに基づき初期パラメータを用いて学習モデルを学習させるステップである、付記1記載のプログラム。
これにより、第1学習データと第2学習データとの類似度に応じて、第2学習パラメータが修正される。第1学習データと第2学習データとの類似度に応じて、学習プロセスの際の第2学習パラメータが影響を与える寄与割合を制御することができる。例えば、第1学習データと第2学習データとの類似度が高い場合には、第2学習データを初期パラメータとして用いる。第1学習データと第2学習データとの類似度が低い場合には、第2学習データが寄与しないランダムな値が初期パラメータとして用いられる。
修正ステップ(S304)は、第1学習データと第2学習データとの類似度に応じて定まる範囲の乱数に基づき、第2学習パラメータを修正するステップである、付記5記載のプログラム。
これにより、第1学習データと第2学習データとの類似度に応じて、第2学習パラメータが修正される。第1学習データと第2学習データとの類似度に応じて、学習プロセスの際の第2学習パラメータが影響を与える寄与割合を制御することができる。
データ特定ステップ(S303)は、第1学習データ取得ステップにおいて取得した第1学習データの目的変数と、記憶ステップにおいて記憶した複数の学習データの目的変数と、に基づき算定される類似度に基づき第2学習データを特定するステップである、付記1記載のプログラム。
一般に、学習データの説明変数は高次元のデータ構造であるのに対して、目的変数は1次元または小数次元のデータ構造である。これにより、より短い処理時間、より低コストで第2学習データを特定することができる。
データ特定ステップ(S303)は、第1学習データ取得ステップにおいて取得した第1学習データの説明変数と、記憶ステップにおいて記憶した複数の学習データの説明変数と、に基づき類似度を算定しないステップである、付記7記載のプログラム。
これにより、より短い処理時間、より低コストで第2学習データを特定することができる。
データ特定ステップ(S303)は、第1学習データ取得ステップにおいて取得した第1学習データの目的変数と、記憶ステップにおいて記憶した複数の学習データの目的変数と、に基づき算定される類似度に基づき複数の第2学習データ候補を特定する第1ステップと、第1学習データ取得ステップにおいて取得した第1学習データの説明変数と、複数の第2学習データ候補の説明変数と、に基づき算定される類似度に基づき第2学習データを特定する第2ステップと、を含む、付記8記載のプログラム。
一般に、学習データの説明変数は高次元のデータ構造であるのに対して、目的変数は1次元または小数次元のデータ構造である。これにより、より短い処理時間、より低コストで第2学習データを絞り込みつつ、少数の第2データ学習データ候補については説明変数も考慮して類似度を計算することにより、精度高く好適な第2学習データを特定できる。
プロセッサが、目的変数の入力に応じて目的変数を出力可能な第2学習モデルを記憶するモデル記憶ステップと、を実行し、データ特定ステップ(S303)は、第1学習データ取得ステップにおいて取得した第1学習データの目的変数を入力データとして、モデル記憶ステップにおいて記憶した第2学習モデルに適用することにより出力される目的変数に基づき、第2学習データを特定するステップである、付記1記載のプログラム。
これにより、より短い処理時間、より低コストで第2学習データを特定することができる。
プロセッサと、メモリとを備えるコンピュータに実行される方法であって、プロセッサが、付記1から付記10のいずれかに係る発明において実行される全てのステップを実行する方法。
これにより、学習データが類似する第2学習データにおいて時系列予測モデルの学習に用いた学習パラメータ(最適化後パラメータ、初期パラメータ等)を初期パラメータとして、学習モデルを学習させることができる。学習モデルの学習プロセスの収束速度や、学習モデルの品質を向上させることができる。
制御部と、記憶部とを備える情報処理装置であって、制御部が、付記1から付記10のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。
これにより、学習データが類似する第2学習データにおいて時系列予測モデルの学習に用いた学習パラメータ(最適化後パラメータ、初期パラメータ等)を初期パラメータとして、学習モデルを学習させることができる。学習モデルの学習プロセスの収束速度や、学習モデルの品質を向上させることができる。
付記1から付記10のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。
これにより、学習データが類似する第2学習データにおいて時系列予測モデルの学習に用いた学習パラメータ(最適化後パラメータ、初期パラメータ等)を初期パラメータとして、学習モデルを学習させることができる。学習モデルの学習プロセスの収束速度や、学習モデルの品質を向上させることができる。
Claims (13)
- プロセッサと、記憶部とを備えるコンピュータに実行させるためのプログラムであって、
前記プロセッサが、
時系列データである第1学習データを取得する第1学習データ取得ステップと、
複数の時系列予測モデルと、当該複数の時系列予測モデルの学習に用いられる時系列データである学習データと、当該複数の時系列予測モデルの学習パラメータと、をそれぞれ関連付けて記憶する記憶ステップと、
前記第1学習データ取得ステップにおいて取得した前記第1学習データに基づき、前記記憶ステップにおいて記憶した前記複数の学習データのうち、時系列推移が前記第1学習データと類似する第2学習データを特定するデータ特定ステップと、
前記記憶ステップにおいて、前記データ特定ステップにおいて特定した前記第2学習データと関連付けて記憶した第2学習パラメータを取得するパラメータ取得ステップと、
前記第1学習データに基づき、前記パラメータ取得ステップにおいて取得した前記第2学習パラメータに基づく初期パラメータを用いて学習モデルを学習させる学習ステップと、
前記第1学習データ取得ステップにおいて取得した前記第1学習データと、前記データ特定ステップにおいて特定した前記第2学習データとの類似度に基づき、前記パラメータ取得ステップにおいて取得した前記第2学習パラメータを修正する修正ステップと、
を実行し、
前記学習ステップは、前記修正ステップにおいて修正した前記第2学習パラメータに基づき初期パラメータを用いて前記学習モデルを学習させるステップである、
プログラム。 - 前記記憶ステップは、前記複数の時系列予測モデルと、当該複数の時系列予測モデルの最適化後パラメータと、をそれぞれ関連付けて記憶するステップであり、
前記パラメータ取得ステップは、前記記憶ステップにおいて、前記データ特定ステップにおいて特定した前記第2学習データと関連付けて記憶した第2最適化後パラメータを取得するステップであり、
前記学習ステップは、前記第1学習データに基づき、前記パラメータ取得ステップにおいて取得した前記第2最適化後パラメータに基づく初期パラメータを用いて前記学習モデルを学習させるステップである、
請求項1記載のプログラム。 - 前記記憶ステップは、前記複数の時系列予測モデルと、当該複数の時系列予測モデルの初期パラメータと、をそれぞれ関連付けて記憶するステップであり、
前記パラメータ取得ステップは、前記記憶ステップにおいて、前記データ特定ステップにおいて特定した前記第2学習データと関連付けて記憶した第2初期パラメータを取得するステップであり、
前記学習ステップは、前記第1学習データに基づき、前記パラメータ取得ステップにおいて取得した前記第2初期パラメータに基づく初期パラメータを用いて前記学習モデルを学習させるステップである、
請求項1記載のプログラム。 - 前記データ特定ステップは、
前記第1学習データと、前記複数の学習データとの間のマンハッタン距離、ユークリッド距離、コサイン類似度および相関係数の少なくともいずれか1つの値を算定するステップと、
前記算定された値に基づく類似度に応じて前記第2学習データを特定するステップと、
を含む、
請求項1記載のプログラム。 - 前記修正ステップは、前記第1学習データと前記第2学習データとの前記類似度に応じて定まる範囲の乱数に基づき、前記第2学習パラメータを修正するステップである、
請求項1記載のプログラム。 - 前記データ特定ステップは、前記第1学習データ取得ステップにおいて取得した前記第1学習データの目的変数と、前記記憶ステップにおいて記憶した前記複数の学習データの目的変数と、に基づき算定される類似度に基づき前記第2学習データを特定するステップである、
請求項1記載のプログラム。 - プロセッサと、記憶部とを備えるコンピュータに実行させるためのプログラムであって、
前記プロセッサが、
時系列データである第1学習データを取得する第1学習データ取得ステップと、
複数の時系列予測モデルと、当該複数の時系列予測モデルの学習に用いられる時系列データである学習データと、当該複数の時系列予測モデルの学習パラメータと、をそれぞれ関連付けて記憶する記憶ステップと、
前記第1学習データ取得ステップにおいて取得した前記第1学習データに基づき、前記記憶ステップにおいて記憶した前記複数の学習データのうち、時系列推移が前記第1学習データと類似する第2学習データを特定するデータ特定ステップと、
前記記憶ステップにおいて、前記データ特定ステップにおいて特定した前記第2学習データと関連付けて記憶した第2学習パラメータを取得するパラメータ取得ステップと、
前記第1学習データに基づき、前記パラメータ取得ステップにおいて取得した前記第2学習パラメータに基づく初期パラメータを用いて学習モデルを学習させる学習ステップと、
を実行し、
前記データ特定ステップは、
前記第1学習データ取得ステップにおいて取得した前記第1学習データの目的変数と、前記記憶ステップにおいて記憶した前記複数の学習データの目的変数と、に基づき算定される類似度に基づき複数の第2学習データ候補を特定する第1ステップと、
前記第1学習データ取得ステップにおいて取得した前記第1学習データの説明変数と、前記複数の第2学習データ候補の説明変数と、に基づき算定される類似度に基づき前記第2学習データを特定する第2ステップと、
を含む、
プログラム。 - 前記第1ステップは、前記第1学習データ取得ステップにおいて取得した前記第1学習データの説明変数と、前記記憶ステップにおいて記憶した前記複数の学習データの説明変数と、に基づき前記類似度を算定しないステップである、
請求項7記載のプログラム。 - 前記プロセッサが、
目的変数の入力に応じて目的変数を出力可能な第2学習モデルを記憶するモデル記憶ステップと、
を実行し、
前記データ特定ステップは、前記第1学習データ取得ステップにおいて取得した前記第1学習データの目的変数を入力データとして、前記モデル記憶ステップにおいて記憶した前記第2学習モデルに適用することにより出力される目的変数に基づき、前記第2学習データを特定するステップである、
請求項1記載のプログラム。 - 前記プロセッサが、
目的変数の入力に応じて目的変数を出力可能な第2学習モデルを記憶するモデル記憶ステップと、
を実行し、
前記データ特定ステップは、前記第1学習データ取得ステップにおいて取得した前記第1学習データの目的変数を入力データとして、前記モデル記憶ステップにおいて記憶した前記第2学習モデルに適用することにより出力される目的変数に基づき、前記第2学習データを特定するステップである、
請求項7記載のプログラム。 - プロセッサと、メモリとを備えるコンピュータに実行される方法であって、前記プロセッサが、請求項1から請求項10のいずれかに係る発明において実行される全てのステップを実行する方法。
- 制御部と、記憶部とを備える情報処理装置であって、前記制御部が、請求項1から請求項10のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。
- 請求項1から請求項10のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023191369A JP7462254B1 (ja) | 2023-11-09 | 2023-11-09 | プログラム、方法、情報処理装置、システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023191369A JP7462254B1 (ja) | 2023-11-09 | 2023-11-09 | プログラム、方法、情報処理装置、システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7462254B1 true JP7462254B1 (ja) | 2024-04-05 |
Family
ID=90526575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023191369A Active JP7462254B1 (ja) | 2023-11-09 | 2023-11-09 | プログラム、方法、情報処理装置、システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7462254B1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020004360A (ja) | 2018-06-29 | 2020-01-09 | 富士通株式会社 | 多変数データシーケンスの画像化 |
JP2021157619A (ja) | 2020-03-27 | 2021-10-07 | 富士フイルムビジネスイノベーション株式会社 | 学習装置及び学習プログラム |
-
2023
- 2023-11-09 JP JP2023191369A patent/JP7462254B1/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020004360A (ja) | 2018-06-29 | 2020-01-09 | 富士通株式会社 | 多変数データシーケンスの画像化 |
JP2021157619A (ja) | 2020-03-27 | 2021-10-07 | 富士フイルムビジネスイノベーション株式会社 | 学習装置及び学習プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263189B (zh) | 媒体内容的推荐方法、装置、存储介质和计算机设备 | |
US11593817B2 (en) | Demand prediction method, demand prediction apparatus, and non-transitory computer-readable recording medium | |
CN113112030B (zh) | 训练模型的方法及系统和预测序列数据的方法及系统 | |
CN110941764A (zh) | 对象推荐方法、装置、计算机设备和存储介质 | |
WO2019015631A1 (zh) | 生成机器学习样本的组合特征的方法及系统 | |
US20220171873A1 (en) | Apparatuses, methods, and computer program products for privacy-preserving personalized data searching and privacy-preserving personalized data search training | |
CN103348342A (zh) | 基于用户话题简档的个人内容流 | |
JP7069029B2 (ja) | 自動予測システム、自動予測方法および自動予測プログラム | |
JP2015505629A (ja) | 情報検索を行う方法及びサーバ | |
KR102263691B1 (ko) | 유망 콘텐츠 선정 방법, 장치 및 컴퓨터프로그램 | |
CN105760443A (zh) | 项目推荐系统、项目推荐装置以及项目推荐方法 | |
WO2020174233A1 (en) | Machine-learned model selection network planning | |
JP7139932B2 (ja) | 需要予測方法、需要予測プログラムおよび需要予測装置 | |
CN104272304B (zh) | 信息处理设备、信息处理方法以及程序 | |
US20220171874A1 (en) | Apparatuses, methods, and computer program products for privacy-preserving personalized data searching and privacy-preserving personalized data search training | |
TW202422365A (zh) | 媒體項目中之產品辨識 | |
US20210231449A1 (en) | Deep User Modeling by Behavior | |
CA3189593A1 (en) | Hybrid machine learning | |
JP2007323315A (ja) | 協調フィルタリング方法、協調フィルタリング装置、および協調フィルタリングプログラムならびにそのプログラムを記録した記録媒体 | |
US10146876B2 (en) | Predicting real-time change in organic search ranking of a website | |
JP7462254B1 (ja) | プログラム、方法、情報処理装置、システム | |
CN117540336A (zh) | 时间序列预测方法、装置及电子设备 | |
JP7457994B1 (ja) | プログラム、方法、情報処理装置、システム | |
US20200160359A1 (en) | User-experience development system | |
CN116186395A (zh) | 一种资源推荐、模型训练方法及装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231109 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20231109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7462254 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |