JP2020086796A - 機械学習方法、機械学習プログラムおよび機械学習装置 - Google Patents

機械学習方法、機械学習プログラムおよび機械学習装置 Download PDF

Info

Publication number
JP2020086796A
JP2020086796A JP2018218685A JP2018218685A JP2020086796A JP 2020086796 A JP2020086796 A JP 2020086796A JP 2018218685 A JP2018218685 A JP 2018218685A JP 2018218685 A JP2018218685 A JP 2018218685A JP 2020086796 A JP2020086796 A JP 2020086796A
Authority
JP
Japan
Prior art keywords
data
attractor
learning
machine learning
sine wave
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018218685A
Other languages
English (en)
Other versions
JP7115247B2 (ja
Inventor
友将 角田
Tomoyuki Tsunoda
友将 角田
伊海 佳昭
Yoshiaki Iumi
佳昭 伊海
純司 金児
Junji Kaneko
純司 金児
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018218685A priority Critical patent/JP7115247B2/ja
Priority to US16/661,358 priority patent/US11640553B2/en
Publication of JP2020086796A publication Critical patent/JP2020086796A/ja
Application granted granted Critical
Publication of JP7115247B2 publication Critical patent/JP7115247B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0418Architecture, e.g. interconnection topology using chaos or fractal principles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

【課題】疑似アトラクタの生成過程が機械学習に与える悪影響を抑制することを課題とする。【解決手段】学習装置は、周期的な性質を有する入力データの基本周期から、サイン波を生成する。学習装置は、前記サイン波から生成されたアトラクタの真円度に基づきサンプリング周期を特定する。学習装置は、特定されたサンプリング周期で、入力データをサンプリングして擬似アトラクタを生成する。学習装置は、擬似アトラクタを用いて、機械学習を実行する。【選択図】図1

Description

本発明は、機械学習方法、機械学習プログラムおよび機械学習装置に関する。
時系列データを解析してデータの異常に対応した変化を検知する技術として、TDA(Topological Data Analysis)を用いた解析手法が知られている。例えば、時系列データを入力とし、小区分に区切ったデータから有限個のアトラクタである疑似アトラクタにパーシステントホモロジ変換(PH変換)を実行してベッチ数を算出する。そして、ベッチ数を用いたベッチ系列を特徴ベクトルとして機械学習を実行して学習モデルを生成する。その後、学習済みの学習モデルを用いて、時系列データから異常を検出する。
国際公開第2006/137142号 特開平11−142425号公報 特開2018−92349号公報 特開2017−97643号公報
一般的に、時系列データをセンサなどから取得する場合、対象とする現象の特徴を漏らさず捉えられるよう、サンプリング周期を短くすることが多い。ところが、時系列データから疑似アトラクタに変換するときには、着目したい現象に対してサンプリングが細かすぎても粗すぎても有益な特徴を抽出することができず、特徴ベクトルの作成に悪影響を与える。
具体的には、疑似アトラクタを生成するデータのサンプリング周期が短すぎる場合、疑似アトラクタがつぶれた形状となり、PH変換を用いて生成されるベッチ系列が特徴を正確に表すことができず、正常なデータと異常なデータとで差が生じない。
図15A、図15B、図15Cは、オーバーサンプリング時の問題を説明する図である。図15Aに示すように、サンプリング周期が短い場合、オーバーサンプリングされるので、同じようなデータが集中し、疑似アトラクタの形状が直線状になる。つまり、疑似アトラクタは、ある時刻tと次の時刻t+1とさらに次の時刻t+2を次元とすることから、オーバーサンプリングされる場合は、各時刻で同じようなデータが抽出されることとなる。したがって、疑似アトラクタの形状が直線状になると、図15Bに示すように、PH変換時に、データ点群はすぐに結合し、穴はすぐに潰れ、特徴が正確に抽出できない。また、オーバーサンプリング時は、図15Cに示すように、データ群が直線で穴ができにくく、特徴が正確に抽出できない。
なお、人手による繰り返し作業によって、適切なサンプリング間隔を探索することも考えられるが、不作為な作業となり、時間がかかるので、現実的ではない。
一つの側面では、疑似アトラクタの生成過程が機械学習に与える悪影響を抑制することができる機械学習方法、機械学習プログラムおよび機械学習装置を提供することを目的とする。
第1の案では、機械学習方法は、コンピュータが、周期的な性質を有する入力データの基本周期から、サイン波を生成する。機械学習方法は、コンピュータが、前記サイン波から生成されたアトラクタの真円度に基づきサンプリング周期を特定する。機械学習方法は、コンピュータが、特定されたサンプリング周期で、前記入力データをサンプリングして擬似アトラクタを生成する。機械学習方法は、コンピュータが、前記擬似アトラクタを用いて、機械学習を実行する。
一実施形態によれば、疑似アトラクタの生成過程が機械学習に与える悪影響を抑制することができる。
図1は、実施例1にかかる学習装置を説明する図である。 図2は、実施例1にかかる学習装置の機能構成を示す機能ブロック図である。 図3は、時系列データの一例を示す図である。 図4は、主となる周波数の求め方を説明する図である。 図5は、適切な間引き間隔の探索を説明する図である。 図6は、適切な間引き間隔の探索を説明する図である。 図7は、学習対象とする時系列データの一例を示す図である。 図8は、パーシステントホモロジについて説明するための図である。 図9は、バーコードデータと生成される連続データとの関係について説明するための図である。 図10は、全体的な処理の流れを示すフローチャートである。 図11は、間引き間隔の算出処理の流れを示すフローチャートである。 図12Aは、効果を説明する図である。 図12Bは、効果を説明する図である。 図12Cは、効果を説明する図である。 図13は、非周期的なデータ例を示す図である。 図14は、ハードウェア構成例を説明する図である。 図15Aは、オーバーサンプリング時の問題を説明する図である。 図15Bは、オーバーサンプリング時の問題を説明する図である。 図15Cは、オーバーサンプリング時の問題を説明する図である。
以下に、本願の開示する機械学習方法、機械学習プログラムおよび機械学習装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[学習装置の説明]
図1は、実施例1にかかる学習装置10を説明する図である。図1に示す学習装置10は、機械学習を実行するコンピュータ装置の一例である。具体的には、学習装置10は、周期的な性質を有するデータの一例である時系列データを入力データとして、適切な間隔で入力データからデータを間引き、学習データを生成する。そして、学習装置10は、学習データに対してパーシステントホモロジ変換を実行して、疑似アトラクタの生成およびベッチ系列の生成を実行する。
その後、学習装置10は、ベッチ系列を特徴量として機械学習や深層学習(ディープラーニング(DL)・Deep Learning)などを用いた学習処理を実行して、学習データを事象ごとに正しく判別(分類)できるように、ニューラルネットワーク(NN:Neural Network)などを学習する。
例えば、学習装置10は、複数の時系列データそれぞれからベッチ系列を生成し、ベッチ系列に基づいて、他の時系列データから事象が変化した時系列データを抽出する。そして、学習装置10は、通常の時系列データに対応する事象と、変化が検出された時系列データに対応する事象とが判別できるように学習する。その後、学習装置10は、学習完了後の判別時には、判別対象データに対しても同様の間引きを実行した後、学習結果を適用した学習モデルに入力することで、判別対象データの正確な事象(ラベル)の推定を実現する。
このような学習装置10は、基本的な波形から疑似アトラクタの特徴を効果的に表現するための周波数とサンプリング周期の関係を求める。そして、学習装置10は、解析対象とするデータの支配的な周波数成分などから、解析対象のデータで着目する周波数を決定する。その後、学習装置10は、決定した周波数と求めた関係から、必要なサンプリング周期を算出することで、自動で最適なサブサンプリングの間隔を決定することができる。
この結果、学習装置10は、オーバーサンプリングを抑制し、疑似アトラクタの生成過程が機械学習に与える悪影響を抑制することができる。なお、実施例1では、学習装置10が、学習モデルを生成する学習処理と学習モデルを使用する判別処理との両方を実行する例を説明するが、学習処理と判別処理とは別々の装置で実現することもできる。
[学習装置の機能構成]
図2は、実施例1にかかる学習装置10の機能構成を示す機能ブロック図である。図2に示すように、学習装置10は、通信部11、記憶部12、制御部20を有する。
通信部11は、他の装置の間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部11は、入力データである時系列データや判別対象データを管理装置などから受信し、学習結果や判別結果などを管理装置などに送信する。
記憶部12は、データや制御部20が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部12は、入力データDB13、学習データDB14、設定値DB15、学習結果DB16を記憶する。
入力データDB13は、周期的な性質を有する入力データを記憶するデータベースである。例えば、入力データDB13は、一例として心拍数の変化を示す時系列データを記憶する。図3は、時系列データの一例を示す図である。図3は心拍数の変化を示す時系列データであり、縦軸が心拍数(beats per minute)を表し、横軸は時間を表す。
なお、ここでは連続データとして心拍数の時系列データを例示したが、このような時系列データに限られるわけではない。例えば、心拍数以外の生体データ(脳波、脈拍或いは体温などの時系列データ)、ウェアラブルセンサのデータ(ジャイロセンサ、加速度センサ或いは地磁気センサなどの時系列データ)等であってもよい。また、金融データ(金利、物価、国際収支或いは株価などの時系列データ)、自然環境のデータ(気温、湿度或いは二酸化炭素濃度などの時系列データ)、又は社会データ(労働統計或いは人口統計などのデータ)等であってもよい。
学習データDB14は、学習モデルの学習に使用される学習データを記憶するデータベースである。例えば、学習データDB14は、入力データDB13に記憶される時系列データから、適切な間隔でサンプリングされたサンプリング後のデータ、言い換えると間引き後のデータを記憶する。
設定値DB15は、学習に使用される各種設定値を記憶するデータベースである。例えば、設定値DB15は、対象とする対象周期(T)、アトラクタの次元数(DN)、乱数の発生数(N)などを記憶する。
学習結果DB16は、学習結果を記憶するデータベースである。例えば、学習結果DB16は、制御部20による学習データの判別結果(分類結果)、機械学習やディープラーニングによって学習された各種パラメータを記憶する。
制御部20は、学習装置10全体の処理を司る処理部であり、例えばプロセッサなどである。この制御部20は、間引き実行部21、系列生成部22、学習部23、判別部24を有する。なお、間引き実行部21、系列生成部22、学習部23、判別部24は、プロセッサなどが有する電子回路やプロセッサなどが実行するプロセスの一例である。
間引き実行部21は、オーバーサンプリングを抑制するために適切な間引き間隔を特定し、特定した間引き間隔で入力データからデータの間引きを実行して、学習データを生成する処理部である。具体的には、間引き実行部21は、周期的な性質を有する入力データの基本周期を用いてサイン波を生成し、サイン波から生成されたアトラクタの真円度に基づきサンプリング周期を特定する。そして、間引き実行部21は、特定したサンプリング周期にしたがってデータの間引きを実行する。
ここで、サイン波の場合、形状の特徴を最も良く表すのはアトラクタが真円になる場合である。サイン波の式を式(1)とすると、アトラクタを真円にするためには、任意のtに対して式(2)となる点群が要求される。なお、アトラクタを3次元とする場合、方程式としては球だが、サイン波での点群は中心を通る断面の円周上となる。
Figure 2020086796
Figure 2020086796
そして、間引き実行部21は、式(1)と式(2)を組み合わせることで、周波数と最適な間引き間隔(dt)との関係を求めることができる。例えば、間引き実行部21は、複数のtに対して、アトラクタから構成される円の半径(r)の2乗を求めた際にもっとも半径の2乗(r)の分散が小さくなる間隔(dt)を探索する手法や解析的に算出する手法を採用することができる。なお、式(1)におけるAは振幅であり、ωは角周波数であり、「ω=(2π)/T」などと表すこともできる。また、tは、時間である。
より詳細には、間引き実行部21は、解析対象である入力データに周期的なデータが含まれている場合、周波数分析を行うことで、データに含まれる周波数成分の強弱を特定する。そして、間引き実行部21は、その中で主となる周波数と、式(1)と式(2)との関係式とからサンプリング周期を算出することで、適切な間引き間隔を算出する。
図4は、主となる周波数の求め方を説明する図である。図4に示すように、間引き実行部21は、主となる周波数を求める際、アトラクタを記載する時系列の小区間ごとに周波数スペクトルを算出して最も強度の強い周波数を求め、求めた周波数を全小区間で平均し、平均値を主となる周波数とすることもできる。そして、間引き実行部21は、算出した周波数にしたがって、サイン波を生成する。
続いて、間引き実行部21は、xのアトラクタが真円になるようなdtを算出する。具体的には、間引き実行部21は、0≦t<Tとなるような規定値N個(例えば1000個)の乱数tからtを生成し、サンプリングするデータを選択する。
そして、間引き実行部21は、各tについて、アトラクタの次元数DNを用いた式(3)を計算し、アトラクタの半径(r)の2乗を算出する。続いて、間引き実行部21は、各tについて算出したr の分散値Vを算出する。そして、間引き実行部21は、この分散値Vが前回算出されたVよりも小さくなるまで繰り返し、分散値Vが一つ前の分散値Vよりも小さくなったとき、その一つ前の分散値Vに使用されるdtを間引き間隔と特定する。
Figure 2020086796
ここで、図5と図6を用いて、上述した間引き間隔の探索について説明する。図5と図6は、適切な間引き間隔の探索を説明する図である。図5に示すように、間引き実行部21は、入力データから生成したサイン波から、間引き間隔(dt)でデータを抽出し、x、xt+dt、xt+2dtを各次元とするアトラクタの半径rの2乗(r)を算出する。続いて、間引き実行部21は、間引き間隔を(dt)から(2dt)に変更して、サイン波からデータを抽出し、x、xt+dt、xt+2dtを各次元とするアトラクタの半径rの2乗(r)を算出する。
このようにして、間引き実行部21は、サイン波から間引き間隔(dt)を変更しながら、半径rを用いてアトラクタから構成される円の形状を推定する。図6に示すように、この半径rは、間引き間隔(dt)を長くすることで、徐々に真円の半径へと近づき、いずれかのタイミングで真円の半径から離れていく。そこで、間引き実行部21は、各dtにおける半径rの2乗(r)の分散を算出し、分散値を前回の分散値と比較することで、真円となる間引き間隔(dt)を特定する。
その後、間引き実行部21は、特定された間引き間隔(dt)にしたがって、入力データからデータを間引いて学習データを生成し、学習データDB14に格納する。
図2に戻り、系列生成部22は、TDAにより、学習に使用される特徴量であるベッチ系列を生成する処理部である。具体的には、系列生成部22は、学習データDB14に記憶される学習データを読み出し、学習データから複数の擬似アトラクタを生成し、複数の疑似アトラクタそれぞれをパーシステントホモロジ変換して得られたベッチ数による複数のベッチ系列を生成する。そして、系列生成部22は、生成した各ベッチ系列を学習部23に出力する。
例えば、系列生成部22は、一般的な手法を用いてベッチ系列を生成することができる。一例を挙げると、系列生成部22は、ベッチ数を計算する半径の区間[rmin,rmax]をm−1等分し、各半径r(i=1,・・・,m)におけるベッチ数B(r)を計算し、ベッチ数を並べた[B(r),B(r),B(r),・・・,B(r)]のベッチ系列を生成する。
図7は、学習対象とする時系列データの一例を示す図である。図8は、パーシステントホモロジについて説明するための図である。図9は、バーコードデータと生成される連続データとの関係について説明するための図である。
図7を用いて、疑似アトラクタの生成について説明する。例えば図7に示すような、関数f(t)(tは時間を表す)で表される連続データを考える。そして、実際の値としてf(1),f(2),f(3),・・・,f(T)が与えられているとする。本実施の形態における疑似アトラクタは、連続データから遅延時間τ(τ≧1)毎に取り出されたN点の値を成分とする、N次元空間上の点の集合である。ここで、Nは埋め込み次元を表し、一般的にはN=3又は4である。例えばN=3且つτ=1である場合、(T−2)個の点を含む以下の疑似アトラクタが生成される。
疑似アトラクタ={(f(1),f(2),f(3))、(f(2),f(3),f(4))、(f(3),f(4),f(5))、・・・、(f(T−2),f(T−1),f(T))}
続いて、系列生成部22は、疑似アトラクタを生成し、パーシステントホモロジ変換を用いてベッチ系列へ変換する。なお、ここで生成されるアトラクタは、有限個の点集合であることから「疑似アトラクタ」と呼ぶこととする。
ここで、「ホモロジ」とは、対象の特徴をm(m≧0)次元の穴の数によって表現する手法である。ここで言う「穴」とはホモロジ群の元のことであり、0次元の穴は連結成分であり、1次元の穴は穴(トンネル)であり、2次元の穴は空洞である。各次元の穴の数はベッチ数と呼ばれる。そして、「パーシステントホモロジ」とは、対象(ここでは、点の集合(Point Cloud))におけるm次元の穴の遷移を特徴付けるための手法であり、パーシステントホモロジによって点の配置に関する特徴を調べることができる。この手法においては、対象における各点が球状に徐々に膨らまされ、その過程において各穴が発生した時刻(発生時の球の半径で表される)と消滅した時刻(消滅時の球の半径で表される)とが特定される。
図8を用いて、パーシステントホモロジをより具体的に説明する。ルールとして、1つの球が接した場合には2つの球の中心が線分で結ばれ、3つの球が接した場合には3つの球の中心が線分で結ばれる。ここでは、連結成分及び穴だけを考える。図8(a)のケース(半径r=0)においては、連結成分のみが発生し、穴は発生していない。図8(b)のケース(半径r=r1)においては、穴が発生しており、連結成分の一部が消滅している。図8(c)のケース(半径r=r)においては、さらに多くの穴が発生しており、連結成分は1つだけ持続している。図8(d)のケース(半径r=r)においては、連結成分の数は1のままであり、穴が1つ消滅している。
パーシステントホモロジの計算過程において、ホモロジ群の元(すなわち穴)の発生半径と消滅半径とが計算される。穴の発生半径と消滅半径とを使用することで、バーコードデータを生成することができる。バーコードデータは穴次元毎に生成されるので、複数の穴次元のバーコードデータを統合することで1塊のバーコードデータが生成できる。連続データは、パーシステントホモロジにおける球の半径(すなわち時間)とベッチ数との関係を示すデータである。
図9を用いて、バーコードデータと生成される連続データとの関係について説明する。上段のグラフはバーコードデータから生成されるグラフであり、横軸が半径を表す。下段のグラフは連続データ(ベッチ系列と記載する場合がある)から生成されるグラフであり、縦軸はベッチ数を表し、横軸は時間を表す。上で述べたように、ベッチ数は穴の数を表しており、例えば上段のグラフにおいて破線に対応する半径の時には存在している穴の数が10であるので、下段のグラフにおいては破線に対応するベッチ数も10である。ベッチ数は、ブロック毎に計数される。なお、下段のグラフは疑似的な時系列データのグラフであるので、横軸の値自体が意味を持つわけではない。
学習部23は、系列生成部22により生成されたベッチ系列を入力として、学習処理を実行して、学習モデルを生成する処理部である。例えば、学習部23は、ベッチ系列のベッチ数に基づき、時系列データの異常候補を抽出することで、時系列データの事象が判別できるように学習する。つまり、学習部23は、時系列データを事象A、時系列データを事象Bなどのように分類したり、時系列データの中から他とは異なるイベントの発生箇所を検出したりする。
そして、学習部23は、時系列データの特徴量から事象が分類できるようにDL等によって学習し、学習結果を学習結果DB16に格納する。学習の結果は、分類結果(すなわちDL学習の出力)を含み、入力から出力を計算する際のニューラルネットワークの各種パラメータが含まれていてもよい。
また、学習手法は、教師無学習、教師有学習、半教師学習など各種の手法を採用することができる。教師無学習の場合、SVM(Support Vector Machine)などを用いることができる。教師有学習の場合、時系列データもしくは各周期に対応する時系列データと、事象Aなどのラベルとを対応付けておき、生成されるベッチ系列にベッチ系列の生成元となったデータに付与されるラベルを設定し、ベッチ系列とラベルとを入力として、教師有学習を実行することもできる。
判別部24は、学習済みの学習モデルを用いて、判別対象データの判別を実行する処理部である。例えば、判別部24は、学習結果DB16から学習結果のパラメータ等を読み込んで、学習済みの学習モデルを構築する。そして、判別部24は、判別対象データに対して、上述した間引き間隔の特定処理および間引き処理を実行して、間引き後のデータを生成する。その後、判別部24は、間引き後のデータを、学習済みの学習モデルに入力し、出力結果に基づいて判別対象データを判別する。例えば、判別部24は、出力結果が事象Aと事象Bのうち事象Aに属する場合は事象Aに分類し、出力結果として得られる事象Aの確率と事象Bの確率のうち事象Aの確率の方が高い場合は事象Aに分類する。なお、判別部24は、判別結果をディスプレイなどの表示部に表示したり、管理装置に送信したりする。
[全体的な処理の流れ]
図10は、全体的な処理の流れを示すフローチャートである。図10に示すように、処理開始時が指示されると(S101:Yes)、間引き実行部21は、入力データを読み込み(S102)、間引き間隔の算出処理を実行する(S103)。
続いて、間引き実行部21は、間引き間隔の算出結果を用いて、入力データからデータを間引いて、学習データを生成する(S104)。
その後、系列生成部22は、TDAによる特徴ベクトルを生成して(S105)、学習部23は、TDAによる特徴ベクトルを用いて学習処理を実行して学習モデルを生成する(S106)。
[間引き間隔の算出処理]
図11は、間引き間隔の算出処理の流れを示すフローチャートである。なお、この処理は、図10のS103で実行される処理である。
図11に示すように、間引き実行部21は、間引き間隔(dt)の初期値にサンプリング周期(DT)を設定する(S201)。続いて、間引き実行部21は、指定された周期(T)のサイン波の式(例えば式(1))を生成する(S202)。
そして、間引き実行部21は、0≦t<Nとなるような規定値N個の乱数tからtを生成する(S203)。続いて、間引き実行部21は、各tについて、式(3)を用いた半径の2乗を算出し(S204)、半径の2乗の分散値Vを算出する(S205)。
そして、間引き実行部21は、分散値の算出が1回目、または、算出された分散値Vが前回の分散値Vpreよりも大きい場合(S206:No)、今回算出された分散値Vを新たなVpreに更新し(S207)、間引き間隔(dt)を「dt=dt+DT」で更新し(S208)、S203以降を繰り返す。
一方、間引き実行部21は、分散値の算出が2回目以降、かつ、算出された分散値Vが前回の分散値Vpreよりも小さい場合(S206:Yes)、間引き間隔(dt)を「dt=dt−DT」で更新し(S209)、更新後のdtを間引き間隔に設定する。
[効果]
上述したように、学習装置10は、人手による繰り返し作業を行わずに、適切なサンプリング間隔を抽出できるので、疑似アトラクタの生成過程が機械学習に与える悪影響を抑制することができ、分析も高速化することができる。また、学習装置10は、着目する周波数に対する適切なサンプリング間隔を提示するので、データのサンプリング周期が適切であるか否かを判別することもできる。
図12A、図12B、図12Cは、効果を説明する図である。図12Aに示すように、間引き間隔が適切である場合、オーバーサンプリングが抑制されるので、同じようなデータの集中が抑制され、疑似アトラクタの形状が円状になる。つまり、疑似アトラクタは、ある時刻tと次の時刻t+1とさらに次の時刻t+2を次元としており、適切なサンプリング時は、各時刻で同じようなデータが抽出されることを抑制できる。したがって、疑似アトラクタの形状が円状になると、図12Bに示すように、PH変換時に、データ点群はの穴の変化を適切に抽出することができるので、特徴を正確に抽出することができる。また、実施例1による手法では、図12Cに示すように、データ群が円状に分布するので、特徴を正確に抽出することができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[データ種別]
上記実施例では、周期的なデータを用いた例を説明したが、これに限定されるものではない。図13は、非周期的なデータ例を示す図である。図13に示すような、周期的なデータでなく、電流等で時間的な変動がある値で安定するような場合でも、例えば時定数τを用いて、目安となる周波数f=1/(2τ)が算出できるので、間引き間隔も求めることができる。
[数値等]
また、上記実施例で用いた数値、ラベルの設定内容、各種設定値、疑似アトラクタの次元数等は、あくまで一例であり、任意に変更することができる。また、入力データや学習方法などもあくまで一例であり、任意に変更することができる。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、学習処理と判別処理とを別々の装置で実現することもできる。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
図14は、ハードウェア構成例を説明する図である。図14に示すように、学習装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図14に示した各部は、バス等で相互に接続される。
通信装置10aは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。HDD10bは、図2に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ10dは、図2に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図2等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、学習装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、間引き実行部21、系列生成部22、学習部23、判別部24等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、間引き実行部21、系列生成部22、学習部23、判別部24等と同様の処理を実行するプロセスを実行する。
このように学習装置10は、プログラムを読み出して実行することで学習方法を実行する情報処理装置として動作する。また、学習装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、学習装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
10 学習装置
11 通信部
12 記憶部
13 入力データDB
14 学習データDB
15 設定値DB
16 学習結果DB
20 制御部
21 間引き実行部
22 系列生成部
23 学習部
24 判別部

Claims (5)

  1. コンピュータが、
    周期的な性質を有する入力データの基本周期から、サイン波を生成し、
    前記サイン波から生成されたアトラクタの真円度に基づきサンプリング周期を特定し、
    特定されたサンプリング周期で、前記入力データをサンプリングして擬似アトラクタを生成し、
    前記擬似アトラクタを用いて、機械学習を実行する、
    処理を実行することを特徴とする機械学習方法。
  2. データを抽出する各間隔を設定し、
    前記各間隔それぞれを用いて、前記サイン波からデータを抽出して、抽出された各データを用いて各アトラクタを生成する処理を前記コンピュータが実行し、
    前記特定する処理は、前記各間隔に対応する前記各アトラクタの真円度に基づき、前記サンプリング周期を特定することを特徴とする請求項1に記載の機械学習方法。
  3. 前記特定する処理は、前記各間隔に対応する前記各アトラクタの半径の分散値を算出し、前記分散値が最小となる間隔を、前記サンプリング周期と特定することを特徴とする請求項2に記載の機械学習方法。
  4. コンピュータに、
    周期的な性質を有する入力データの基本周期から、サイン波を生成し、
    前記サイン波から生成されたアトラクタの真円度に基づきサンプリング周期を特定し、
    特定されたサンプリング周期で、前記入力データをサンプリングして擬似アトラクタを生成し、
    前記擬似アトラクタを用いて、機械学習を実行する、
    処理を実行させることを特徴とする機械学習プログラム。
  5. 周期的な性質を有する入力データの基本周期から、サイン波を生成する生成部と、
    前記サイン波から生成されたアトラクタの真円度に基づきサンプリング周期を特定する特定部と、
    特定されたサンプリング周期で、前記入力データをサンプリングして擬似アトラクタを生成する生成部と、
    前記擬似アトラクタを用いて、機械学習を実行する学習部と、
    を有することを特徴とする機械学習装置。
JP2018218685A 2018-11-21 2018-11-21 機械学習方法、機械学習プログラムおよび機械学習装置 Active JP7115247B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018218685A JP7115247B2 (ja) 2018-11-21 2018-11-21 機械学習方法、機械学習プログラムおよび機械学習装置
US16/661,358 US11640553B2 (en) 2018-11-21 2019-10-23 Method for analyzing time-series data based on machine learning and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018218685A JP7115247B2 (ja) 2018-11-21 2018-11-21 機械学習方法、機械学習プログラムおよび機械学習装置

Publications (2)

Publication Number Publication Date
JP2020086796A true JP2020086796A (ja) 2020-06-04
JP7115247B2 JP7115247B2 (ja) 2022-08-09

Family

ID=70727276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018218685A Active JP7115247B2 (ja) 2018-11-21 2018-11-21 機械学習方法、機械学習プログラムおよび機械学習装置

Country Status (2)

Country Link
US (1) US11640553B2 (ja)
JP (1) JP7115247B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230309932A1 (en) * 2020-09-03 2023-10-05 Ssst Co., Ltd. Biometric information computing system, server, and data structure
WO2023195928A1 (en) * 2022-04-05 2023-10-12 Singapore University Of Technology And Design System and method of detecting attacks against automatic generation control (agc) of a grid

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014169867A (ja) * 2013-03-01 2014-09-18 Meidensha Corp 部分放電検出装置及び部分放電検出方法
JP2017097643A (ja) * 2015-11-25 2017-06-01 富士通株式会社 機械学習プログラム、機械学習方法及び情報処理装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11142425A (ja) 1997-11-10 1999-05-28 Furuno Electric Co Ltd 流速測定装置および超音波診断装置
WO2006137142A1 (ja) 2005-06-23 2006-12-28 Rion Co., Ltd. エンジン回転数計測方法及びその装置
JP6816481B2 (ja) 2016-12-02 2021-01-20 富士通株式会社 削減条件特定方法、削減条件特定プログラム及び削減条件特定装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014169867A (ja) * 2013-03-01 2014-09-18 Meidensha Corp 部分放電検出装置及び部分放電検出方法
JP2017097643A (ja) * 2015-11-25 2017-06-01 富士通株式会社 機械学習プログラム、機械学習方法及び情報処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SEAN M. KENNEDY ET AL.: ""A Novel Method for Topological Embedding of Time-Series Data"", 2018 26TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO), JPN6022026349, September 2018 (2018-09-01), pages 2350 - 2354, XP033461869, ISSN: 0004811720, DOI: 10.23919/EUSIPCO.2018.8553502 *

Also Published As

Publication number Publication date
US11640553B2 (en) 2023-05-02
US20200160216A1 (en) 2020-05-21
JP7115247B2 (ja) 2022-08-09

Similar Documents

Publication Publication Date Title
Zheng et al. Generalized composite multiscale permutation entropy and Laplacian score based rolling bearing fault diagnosis
Hang et al. Diagnosis of rolling bearing based on classification for high dimensional unbalanced data
JP6950504B2 (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
Olmezogullari et al. Representation of click-stream datasequences for learning user navigational behavior by using embeddings
JPWO2017154284A1 (ja) 情報処理方法および情報処理装置
JP7131351B2 (ja) 学習方法、学習プログラムおよび学習装置
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
KR101977231B1 (ko) 커뮤니티 검출 방법 및 커뮤니티 검출 프레임워크 장치
WO2018036547A1 (zh) 一种数据处理的方法以及装置
CN112086144B (zh) 分子生成方法、装置、电子设备及存储介质
CN113254549A (zh) 人物关系挖掘模型的训练方法、人物关系挖掘方法及装置
JP7115247B2 (ja) 機械学習方法、機械学習プログラムおよび機械学習装置
US11023562B2 (en) Analysis method, analysis device, and recording medium
Xie et al. Event detection in time series by genetic programming
CN115168326A (zh) Hadoop大数据平台分布式能源数据清洗方法及系统
US20210390623A1 (en) Data analysis method and data analysis device
CN114511756A (zh) 基于遗传算法的攻击方法、装置及计算机程序产品
JP7052604B2 (ja) 業務推定方法、情報処理装置、及び業務推定プログラム
CN114238764A (zh) 基于循环神经网络的课程推荐方法、装置及设备
CN115831219B (zh) 一种质量预测方法、装置、设备及存储介质
JP7040065B2 (ja) 検出プログラム、検出方法および検出装置
JP7215350B2 (ja) 脳症判定プログラム、脳症判定方法および情報処理装置
JP6954070B2 (ja) 判別プログラム、判別方法および判別装置
Wang et al. A novel trace clustering technique based on constrained trace alignment
EP3425561B1 (en) State classifying program, state classifying method, and state classifying device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220628

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220711

R150 Certificate of patent or registration of utility model

Ref document number: 7115247

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150