JP2017097643A - 機械学習プログラム、機械学習方法及び情報処理装置 - Google Patents

機械学習プログラム、機械学習方法及び情報処理装置 Download PDF

Info

Publication number
JP2017097643A
JP2017097643A JP2015229626A JP2015229626A JP2017097643A JP 2017097643 A JP2017097643 A JP 2017097643A JP 2015229626 A JP2015229626 A JP 2015229626A JP 2015229626 A JP2015229626 A JP 2015229626A JP 2017097643 A JP2017097643 A JP 2017097643A
Authority
JP
Japan
Prior art keywords
continuous data
data
machine learning
generated
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015229626A
Other languages
English (en)
Other versions
JP6606997B2 (ja
Inventor
裕平 梅田
Yuhei Umeda
裕平 梅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015229626A priority Critical patent/JP6606997B2/ja
Priority to US15/334,405 priority patent/US20170147946A1/en
Publication of JP2017097643A publication Critical patent/JP2017097643A/ja
Application granted granted Critical
Publication of JP6606997B2 publication Critical patent/JP6606997B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/08Computing arrangements based on specific mathematical models using chaos models or non-linear system models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Nonlinear Science (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】連続データから生成された疑似アトラクタによって連続データを分類する技術を提供する。
【解決手段】複数の連続データの各々から、等間隔で取得したN(Nは2以上の自然数)点の値を成分とする、N次元空間上の点の集合である疑似アトラクタを生成しS1、生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、N次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成しS3〜S7、複数の疑似アトラクタの各々について、生成されたベッチ数の連続データを入力とする機械学習を実行するS9。
【選択図】図3

Description

本発明は、機械学習に関する。
機械学習は、時間の経過に伴って連続的に変化するデータ(以下、連続データと呼ぶ)に対しても行われる。
連続データに対する機械学習の方法としては、連続データから抽出された特徴量を入力として使用する方法が知られている。使用される特徴量は、例えば(a)平均値、最大値、最小値などの統計量、(b)分散、尖度など統計量のモーメント、(c)フーリエ変換により計算される周波数のデータ等である。
但し、連続データの変化のルール(すなわち本来の特徴)は必ずしも波形に現れるわけではない。例えばカオス時系列の場合、たとえ変化のルールが同じであったとしても、バタフライ効果によって全く異なる波形が現れることがある。そのため、実際の連続データから抽出された特徴量が変化のルールを反映せず、連続データをその変化のルールに応じて分類することができないことがある。
カオス理論の解析手法として、連続データから等間隔で取得したN(Nは埋め込み次元。一般的にはN=3又は4)点の値を成分とする、N次元空間上の点の集合であるアトラクタを疑似的に生成する手法が存在する。以下では、このようにして生成されたアトラクタを疑似アトラクタと呼ぶ。
David Ruelle, "a Strange Attractor?", Notices of the American Mathematical Society, August 2006, Vol.53, No.7, pp.764-765 J. Jimenez, J. A. Moreno, and G. J. Ruggeri, "Forecasting on chaotic time series: A local optimal linear-reconstruction method", Physical Review A, March 15, 1992, Vol.45, No.6, pp.3553-3558 J. Doyne Farmer and John J. Sidorowich, "Predicting Chaotic Time Series", Physical Review Letters, August 24, 1987, Vol.59, No.8, pp.845-848
上記手法によれば、連続データの変化のルールをN次元空間上の点の相互関係によって表現することができるが、それぞれの点の座標自体は意味を持たない。従って、N次元空間上の点の集合に対し各点の座標を用いて機械学習を行っても、連続データはその本来の特徴とは無関係に分類される。
また、連続データには、ホワイトノイズだけでなく、ホワイトノイズ以外のノイズが含まれている場合があり、連続データから生成される疑似アトラクタにもノイズの影響が残る。そのため、N次元空間上の点の相互関係に基づき単純に機械学習を行った場合、ノイズが原因で分類の精度が低下する。特に、連続データの変化に対する時間分解能が十分ではない場合、ノイズの影響が顕著に現れる。
従って、本発明の目的は、1つの側面では、連続データから生成された疑似アトラクタによって連続データを分類する技術を提供することである。
本発明に係る機械学習方法は、複数の連続データの各々から、等間隔で取得したN(Nは2以上の自然数)点の値を成分とする、N次元空間上の点の集合である疑似アトラクタを生成し、生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、N次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成し、複数の疑似アトラクタの各々について、生成されたベッチ数の連続データを入力とする機械学習を実行する処理を含む。
1つの側面では、連続データから生成された疑似アトラクタによって連続データを分類できるようになる。
図1は、第1の実施の形態の情報処理装置の機能ブロック図である。 図2は、第1連続データ格納部に格納される連続データの一例を示す図である。 図3は、第1の実施の形態の処理フローを示す図である。 図4は、時系列データの一例を示す図である。 図5は、ホモロジーについて説明するための図である。 図6は、パーシステントホモロジーについて説明するための図である。 図7は、パーシステント図の一例を示す図である。 図8は、バーコード図の一例を示す図である。 図9は、パーシステント図及びバーコード図を生成するためのデータの一例を示す図である。 図10は、ノイズが及ぼす影響について説明するための図である。 図11は、ノイズが及ぼす影響について説明するための図である。 図12は、ノイズが及ぼす影響について説明するための図である。 図13は、ノイズが及ぼす影響について説明するための図である。 図14は、ノイズが及ぼす影響について説明するための図である。 図15は、バーコードデータと生成される連続データとの関係について説明するための図である。 図16は、パーシステント区間の一例を示す図である。 図17は、疑似アトラクタの一例を示す図である。 図18は、疑似アトラクタの一例を示す図である。 図19は、バーコードデータの一例を示す図である。 図20は、バーコードデータの一例を示す図である。 図21は、ノイズが除去されたバーコードデータの一例を示す図である。 図22は、ノイズが除去されたバーコードデータの一例を示す図である。 図23は、0次元の穴についてのベッチ時系列を示す図である。 図24は、1次元の穴についてのベッチ時系列を示す図である。 図25は、移動中又は運動中の人の右腕に装着されたジャイロセンサの計測値を表す連続データの3つのグラフを示す図である。 図26は、エレベータAについての連続データのグラフを示す図である。 図27は、エレベータBについての連続データのグラフを示す図である。 図28は、ランニングマシーンについての連続データのグラフを示す図である。 図29は、エレベータAについての疑似アトラクタを示す図である。 図30は、エレベータBについての疑似アトラクタを示す図である。 図31は、ランニングマシーンについての疑似アトラクタを示す図である。 図32は、エレベータAについてのバーコードデータを示す図である。 図33は、エレベータBについてのバーコードデータを示す図である。 図34は、ランニングマシーンについてのバーコードデータを示す図である。 図35は、エレベータAについての、ノイズを除去した場合におけるバーコードデータを示す図である。 図36は、エレベータBについての、ノイズを除去した場合におけるバーコードデータを示す図である。 図37は、ランニングマシーンについての、ノイズを除去した場合におけるバーコードデータを示す図である。 図38は、エレベータAのベッチ時系列を示す図である。 図39は、エレベータBのベッチ時系列を示す図である。 図40は、ランニングマシーンのベッチ時系列を示す図である。 図41は、3つのベッチ時系列が重ねられた状態を示す図である。 図42は、連続データの一例を示す図である。 図43は、疑似アトラクタの一例を示す図である。 図44は、ベッチ時系列の一例を示す図である。 図45は、第2の実施の形態の情報処理装置の機能ブロック図である。 図46は、第2の実施の形態の処理フローを示す図である。 図47は、付加データが付加された連続データの一例を示す図である。 図48は、付加データが付加された連続データの一例を示す図である。 図49は、カオスについて説明するための図である。 図50は、カオスについて説明するための図である。 図51は、カオスについて説明するための図である。 図52は、特徴量について説明するための図である。 図53は、コンピュータの機能ブロック図である。
[実施の形態1]
図1に、第1の実施の形態における情報処理装置1の機能ブロック図を示す。情報処理装置1は、第1連続データ格納部101と、第1生成部103と、疑似アトラクタデータ格納部105と、第2生成部107と、バーコードデータ格納部109と、第3生成部111と、第2連続データ格納部113と、機械学習部115と、学習結果格納部117と、削除部119とを有する。
第1生成部103は、第1連続データ格納部101に格納された連続データから疑似アトラクタを生成し、生成した疑似アトラクタを疑似アトラクタデータ格納部105に格納する。第2生成部107は、疑似アトラクタデータ格納部105に格納された疑似アトラクタから、バーコードデータをパーシステントホモロジー群の元(すなわち穴)の次元毎に生成し、生成したバーコードデータをバーコードデータ格納部109に格納する。削除部119は、バーコードデータ格納部109に格納されたデータのうちノイズに関係するデータを削除する。第3生成部111は、バーコードデータ格納部109に格納されたバーコードデータから連続データを生成し、生成した連続データを第2連続データ格納部113に格納する。機械学習部115は、第2連続データ格納部113に格納された連続データを入力とする機械学習を実行し、機械学習の結果(例えば分類結果)を学習結果格納部117に格納する。
図2に、第1連続データ格納部101に格納される連続データの一例を示す。図2は心拍数の変化を示す時系列データであり、縦軸が心拍数(beats per minute)を表し、横軸は時間を表す。
なお、ここでは連続データとして心拍数の時系列データを例示したが、このような時系列データに限られるわけではない。例えば、心拍数以外の生体データ(脳波、脈拍或いは体温などの時系列データ)、ウェアラブルセンサのデータ(ジャイロセンサ、加速度センサ或いは地磁気センサなどの時系列データ)、金融データ(金利、物価、国際収支或いは株価などの時系列データ)、自然環境のデータ(気温、湿度或いは二酸化炭素濃度などの時系列データ)、又は社会データ(労働統計或いは人口統計などのデータ)等であってもよい。但し、本実施の形態の対象である連続データは、少なくとも以下のルールに従って変化するデータであるとする。
Figure 2017097643
例えば、不規則な時系列データ又は手書き文字の軌跡などの人為的な動きに関するデータは、本実施の形態の対象外であるとする。
なお、本実施の形態の機械学習は、教師有りの機械学習であってもよいし、教師無しの機械学習であってもよい。教師有りの機械学習の場合、第1連続データ格納部101に格納された連続データはラベル付きの連続データであり、機械学習の出力結果とラベルとの比較に基づき計算過程のパラメータが調整される。ラベルは教師データとも呼ばれる。教師有りの機械学習及び教師無しの機械学習はよく知られた技術であるので、ここでは詳細な説明を省略する。
次に、図3乃至図41を用いて、第1の実施の形態の情報処理装置1の動作を説明する。
まず、情報処理装置1の第1生成部103は、第1連続データ格納部101に格納されている未処理の連続データを読み出す。第1連続データ格納部101に未処理の連続データが複数セット格納されている場合には、未処理の1セットの連続データが読み出される。そして、第1生成部103は、ターケンスの埋め込み定理に従って、読み出した連続データから疑似アトラクタを生成し(図3:ステップS1)、生成した疑似アトラクタを疑似アトラクタデータ格納部105に格納する。なお、厳密には、ステップS1において生成される有限個の点集合は「アトラクタ」ではないため、本明細書ではステップS1において生成される点集合を「疑似アトラクタ」と呼ぶ。
図4を用いて、疑似アトラクタの生成について説明する。例えば図4に示すような、関数f(t)(tは時間を表す)で表される連続データを考える。そして、実際の値としてf(1),f(2),f(3),...,f(T)が与えられているとする。本実施の形態における疑似アトラクタは、連続データから遅延時間τ(τ≧1)毎に取り出されたN点の値を成分とする、N次元空間上の点の集合である。ここで、Nは埋め込み次元を表し、一般的にはN=3又は4である。例えばN=3且つτ=1である場合、(T−2)個の点を含む以下の疑似アトラクタが生成される。
Figure 2017097643
ここでは、τ=1であるため1つおきに要素が取り出されているが、例えばτ=2である場合には点(f(1),f(3),f(5))、点(f(2),f(4),f(6))、・・・を含む疑似アトラクタが生成される。
疑似アトラクタの生成過程において、バタフライ効果等による見た目の違いの影響が取り除かれ、疑似アトラクタに元の連続データの変化のルールが反映される。そして、疑似アトラクタ間の類似関係は、ルール間の類似関係と等価である。従って、或る疑似アトラクタと別の疑似アトラクタとが似ていることは、元の連続データの変化のルールが似ていることを意味する。変化のルールが同じであるが現象(見た目)が異なる連続データからは、互いに類似した疑似アトラクタが生成される。変化のルールが異なるが現象が似ている連続データからは、異なる疑似アトラクタが生成される。
また、連続データを直接機械学習の入力とする場合、開始位置を適切にそろえなければならないが、疑似アトラクタを使用すればそのような制約を受けることがない。
図3の説明に戻り、第2生成部107は、ステップS1において生成された疑似アトラクタを疑似アトラクタデータ格納部105から読み出す。そして、第2生成部107は、パーシステントホモロジー(Persistent Homology)の計算処理によって、疑似アトラクタからバーコードデータを穴の次元(以下、穴次元と呼ぶ)毎に生成する(ステップS3)。第2生成部107は、生成したバーコードデータをバーコードデータ格納部109に格納する。
ここで、パーシステントホモロジーについて説明する。まず、「ホモロジー」とは、対象の特徴をm(m≧0)次元の穴の数によって表現する手法である。ここで言う「穴」とはホモロジー群の元のことであり、0次元の穴は連結成分であり、1次元の穴は穴(トンネル)であり、2次元の穴は空洞である。各次元の穴の数はベッチ数と呼ばれる。
図5を用いて、ホモロジーをより具体的に説明する。図5(a)のケースにおいては、対象は1つの点である。この場合、連結成分の数は1であり、穴の数は0であり、空洞の数は0である。図5(b)のケースにおいては、対象は2つの点である。この場合、連結成分の数は2であり、穴の数は0であり、空洞の数は0である。図5(c)のケースにおいては、対象は中身が有る三角形である。この場合、連結成分の数は1であり、穴の数は0であり、空洞の数は0である。図5(d)のケースにおいては、対象は中身が無い四面体である。この場合、連結成分の数は1であり、穴の数は0であり、空洞の数は0である。図5(e)のケースにおいては、対象は三角形のふちであり中身が無い。この場合、連結成分の数は1であり、穴の数は1であり、空洞の数は0である。図5(f)のケースにおいては、対象は中抜きの四面体である。この場合、連結成分の数は1であり、穴の数は0であり、空洞の数は1である。
そして、「パーシステントホモロジー」とは、対象(ここでは、点の集合(Point Cloud))におけるm次元の穴の遷移を特徴付けるための手法であり、パーシステントホモロジーによって点の配置に関する特徴を調べることができる。この手法においては、対象における各点が球状に徐々に膨らまされ、その過程において各穴が発生した時刻(発生時の球の半径で表される)と消滅した時刻(消滅時の球の半径で表される)とが特定される。
図6を用いて、パーシステントホモロジーをより具体的に説明する。ルールとして、1つの球が接した場合には2つの球の中心が線分で結ばれ、3つの球が接した場合には3つの球の中心が線分で結ばれる。ここでは、連結成分及び穴だけを考える。図6(a)のケース(半径r=0)においては、連結成分のみが発生し、穴は発生していない。図6(b)のケース(半径r=r1)においては、穴が発生しており、連結成分の一部が消滅している。図6(c)のケース(半径r=r2)においては、さらに多くの穴が発生しており、連結成分は1つだけ持続している。図6(d)のケース(半径r=r3)においては、連結成分の数は1のままであり、穴が1つ消滅している。
パーシステントホモロジーの計算過程において、ホモロジー群の元(すなわち穴)の発生半径と消滅半径とが計算される。図7に、パーシステントホモロジーの計算によって求められる発生半径と消滅半径とに基づき生成されたパーシステント図(Persistence Diagram)の一例を示す。図7において、横軸は発生半径を表し、縦軸は消滅半径を表す。直線l01上においては発生半径と消滅半径とが等しい。各点の消滅半径は発生半径より長いため、図7に示すように、各点は直線l01より上方に存在する。点から横軸に対して垂線を下した場合、その点と、その垂線と直線l01との交点との距離は、その点に対応する穴が対象においてパーシステントである時間の長さを表す。
また、穴の発生半径と消滅半径とを使用することで、図8に示すようなバーコード図を生成することができる。図8において、横軸は半径を表し、各線分は1つの穴に対応する。線分の左端に対応する半径は穴の発生半径であり、線分の右端に対応する半径は穴の消滅半径である。線分はパーシステント区間と呼ばれる。このようなバーコード図から、例えば半径が0.18である時には2つの穴が存在するということがわかる。
図9に、パーシステント図及びバーコード図を生成するためのデータ(以下、バーコードデータと呼ぶ)の一例を示す。図9の例では、穴次元を表す数値と、穴の発生半径と、穴の消滅半径とが含まれる。ステップS3において、バーコードデータは穴次元毎に生成される。
以上のような処理を実行すれば、或る疑似アトラクタから生成されるバーコードデータと他の疑似アトラクタから生成されるバーコードデータとの類似関係は、疑似アトラクタ間の類似関係と等価である。よって、疑似アトラクタとバーコードデータとの関係は1対1の関係である。
すなわち、疑似アトラクタが同じであれば、生成されるバーコードデータは同じである。つまり、連続データの変化のルールが同じであれば生成されるバーコードデータは同じである。逆に、バーコードデータが同じであれば、疑似アトラクタも同じである。また、疑似アトラクタが類似している場合にはバーコードデータも類似するため、機械学習に必要な条件が満たされる。疑似アトラクタが異なる場合には、バーコードデータも異なる。
なお、パーシステントホモロジーの詳細については、例えば「平岡裕章、『タンパク質構造とトポロジー パーシステントホモロジー群入門』、共立出版」を参照されたい。
図3の説明に戻り、削除部119は、長さが所定長未満であるパーシステント区間のデータをバーコードデータ格納部109から削除する(ステップS5)。なお、パーシステント区間の長さは、消滅半径−発生半径によって算出される。所定長は、例えば、0次元の穴が発生してから消滅するまでの時間をK等分した時間(以下、ブロックと呼ぶ)の長さである。但し、1ブロックの長さに限られるわけではなく、複数ブロックの長さを所定長としてもよい。
発生から消滅までの時間が短い元は、時系列に付加されるノイズによって発生するものがほとんどである。長さが所定長未満であるパーシステント区間のデータを削除すれば、ノイズの影響を緩和することができるので、分類性能を向上させることができるようになる。但し、削除の対象は次元が1以上であるパーシステント区間のデータであるとする。
図10乃至図14を用いて、ノイズが及ぼす影響について説明する。図10(a)に示した疑似アトラクタに対応する連続データに含まれる値が、或る時刻におけるノイズによってズレたとする。その結果、図10(b)に示した疑似アトラクタが得られたとする。図10においては、点b1と、点b2と、点b3とが本来の位置からズレている。
ここでは、点b2のズレによって発生する影響に着目する。図11に示すように、球の半径が0である時点においては、ノイズが無い場合及びノイズが有る場合において連結成分の数は6であり且つ穴の数は0である。
図12に示すように、半径が5である時点においては、ノイズが無い場合及びノイズが有る場合において連結成分の数が3であり且つ穴の数は0である。但し、点b2の球と周りの球との関係は異なる。
図13に示すように、球の半径が6である時点においては、ノイズが無い場合においては連結成分の数が1であり且つ穴の数が0である。一方、ノイズが有る場合においては連結成分の数が1であり且つ穴の数は1である。このように、ノイズが有る場合においては穴が発生しており、ホモロジー群が異なっている。
図14に示すように、球の半径が7である時点においては、ノイズが無い場合及びノイズが有る場合において連結成分の数が1であり且つ穴の数が0である。従って、ノイズが有る場合においては半径が6から7になるまでの期間の一部において穴が発生していたことになる。
図10乃至図14を用いて説明したように、ノイズが発生した場合においては僅かな時間だけ1次元以上の穴が発生することがある。ステップS5の処理を実行すれば、両ケースにおいて生成されるデータはほぼ同じになるので、ノイズの影響を取り除くことができるようになる。
なお、長さが所定長未満であるパーシステント区間のデータが削除されるので、削除後のバーコードデータ間の類似関係は、元のバーコードデータ間の類似関係と厳密には等価ではない。削除が行われない場合には、類似関係は等価である。
図3の説明に戻り、第3生成部111は、バーコードデータ格納部109に格納されたバーコードデータを読み出す。そして、第3生成部111は、読み出されたバーコードデータを統合し、統合されたバーコードデータから連続データを生成する(ステップS7)。第3生成部111は、生成された連続データを第2連続データ格納部113に格納する。
上で述べたように、バーコードデータは穴次元毎に生成されるので、第3生成部111は、複数の穴次元のバーコードデータを統合することで1塊のバーコードデータを生成する。連続データは、パーシステントホモロジーにおける球の半径(すなわち時間)とベッチ数との関係を示すデータである。図15を用いて、バーコードデータと生成される連続データとの関係について説明する。上段のグラフはバーコードデータから生成されるグラフであり、横軸が半径を表す。下段のグラフは連続データから生成されるグラフであり、縦軸はベッチ数を表し、横軸は時間を表す。上で述べたように、ベッチ数は穴の数を表しており、例えば上段のグラフにおいて破線に対応する半径の時には存在している穴の数が10であるので、下段のグラフにおいては破線に対応するベッチ数も10である。ベッチ数は、ブロック毎に計数される。なお、下段のグラフは疑似的な時系列データのグラフであるので、横軸の値自体が意味を持つわけではない。
基本的には、同じバーコードデータからは同じ連続データが得られる。すなわち、元の疑似アトラクタが同じであれば同じ連続データが得られる。但し、異なるバーコードから同じ連続データが得られるケースが極めて稀に発生する。
例えば図16に示すようなバーコードデータを考える。このバーコードデータは1以上の次元の穴に関するデータであるとする。図16(a)のケースにおいては、パーシステント区間p1が時刻t1で開始し且つ時刻t2で終了し、パーシステント区間p2が時刻t2で開始し且つ時刻t3で終了する。一方、図16(b)のケースにおいては、パーシステント区間p4が時刻t1で開始し且つ時刻t3で終了する。両ケースにおけるパーシステント区間p3は全く同じであるとする。
このような場合、両ケースにおけるバーコードデータからは全く同じ連続データが得られるので、連続データによっては両ケースを区別することができない。しかし、このような現象が発生する可能性は極めて低い。また、両ケースの疑似アトラクタは元々似ており、機械学習による分類に与える影響が極めて小さいので、上記のような現象が発生しても問題は無い。
従って、或るバーコードデータから生成される連続データと、別のバーコードデータから生成される連続データとの類似関係は、上で述べた稀なケースが発生しなければ、バーコードデータ間の類似関係と等価である。以上から、データ間の距離の定義は変わるものの、バーコードデータから生成される連続データ間の類似関係は、元の連続データ間の類似関係とほぼ等価である。
なお、疑似アトラクタが表す点集合の画像は疎な画像データであるため、識別が難しく、機械学習によって分類することは困難である。また、上記のようなバーコードデータにおいては、バーコードの本数が一定ではないため、機械学習の入力として扱うことが難しい。しかし、上で述べたような連続データであれば、元の連続データと比べると振動が緩和されており、機械学習の入力として適している。
図3の説明に戻り、機械学習部115は、第2連続データ格納部113に格納された連続データを入力とする機械学習を実行する(ステップS9)。機械学習部115は、機械学習の結果を学習結果格納部117に格納する。機械学習の結果は、連続データの分類結果(すなわち機械学習の出力)を含み、入力から出力を計算する際のパラメータが含まれていてもよい。また、上で述べたように、本実施の形態の機械学習は教師有りの機械学習であってもよいし、教師無しの機械学習であってもよい。
機械学習部115は、未処理の連続データが有るか判定する(ステップS11)。未処理の連続データが有る場合(ステップS11:Yesルート)、ステップS1の処理に戻る。未処理の連続データが無い場合(ステップS11:Noルート)、処理は終了する。
以上のように、パーシステントホモロジーの計算を実行すれば、疑似アトラクタが表す、元の連続データの変化のルールを、バーコードデータに反映することができる。これにより、元の連続データの変化のルールに応じた分類を機械学習によって行うことができるようになる。
パーシステントホモロジーの計算は、位相幾何学の手法であり、点の集合で表される静的な対象(例えば、タンパク質、分子の結晶、センサネットワークなど)の構造の解析等に利用されてきた。これに対し本実施の形態においては、時間の経過に伴って連続的に変化するデータの変化のルールを表す点集合(すなわち疑似アトラクタ)を計算の対象としている。本実施の形態の場合、点集合の構造自体を解析することは目的ではないので、一般的なパーシステントホモロジーの計算とは対象及び目的が全く異なる。
また、パーシステントホモロジーの計算によって生成されたバーコードデータは、バーコードの本数が一定ではないため、そのままでは機械学習の入力とすることが難しい。そこで本実施の形態においては、連続データに由来するバーコードデータを再度連続データに変換することで、機械学習の入力とすることを可能にすると共に、振動を緩和して分類の精度を向上させている。
また、上で述べたように、本実施の形態によれば連続データに含まれるノイズの影響を取り除くことができる。これについては、図17乃至図24に具体例を示す。
図17及び図18に、疑似アトラクタの一例を示す。図17は、時系列データである連続データd1の疑似アトラクタを示す図であり、図18は、時系列データである連続データd2の疑似アトラクタを示す図である。両連続データの変化のルールは同じであるが、ノイズによるズレの状態等が異なっている。
図19及び図20に、疑似アトラクタから生成されるバーコードデータの一例を示す。図19(a)は、図17に示した疑似アトラクタから生成された、0次元の穴についてのバーコードデータであり、図19(b)は、図17に示した疑似アトラクタから生成された、1次元の穴についてのバーコードデータである。図20(a)は、図18に示した疑似アトラクタから生成された、0次元の穴についてのバーコードデータであり、図20(b)は、図18に示した疑似アトラクタから生成された、1次元の穴についてのバーコードデータである。
図21及び図22に、ノイズが除去されたバーコードデータの一例を示す。図21(a)は、図19(a)に示したバーコードデータと同じであり、図21(b)は、図19(b)に示したバーコードデータに対してノイズを除去する処理が実行されたバーコードデータである。図22(a)は、図20(a)に示したバーコードデータと同じであり、図22(b)は、図20(b)に示したバーコードデータに対してノイズを除去する処理が実行されたバーコードデータである。
図23に、バーコードデータから生成された、0次元の穴についての連続データ(ここでは、ベッチ時系列と呼ぶ)を示す。なお、本実施の形態においては0次元の穴についてノイズを除去しないが、1次元の穴についての図である図24と比較できるようにするため、図24と同じ構成の図を示す。図23(a)は、ノイズを除去しない場合における、連続データd1のベッチ時系列であり、図23(b)は、ノイズを除去しない場合における、連続データd2のベッチ時系列であり、図23(c)は、ノイズを除去した場合における、連続データd1のベッチ時系列であり、図23(d)は、ノイズを除去した場合における、連続データd2のベッチ時系列である。
図24に、バーコードデータから生成された、1次元の穴についての連続データ(ここでは、ベッチ時系列と呼ぶ)を示す。図24(a)は、ノイズを除去しない場合における、連続データd1のベッチ時系列であり、図24(b)は、ノイズを除去しない場合における、連続データd2のベッチ時系列であり、図24(c)は、ノイズを除去した場合における、連続データd1のベッチ時系列であり、図24(d)は、ノイズを除去した場合における、連続データd2のベッチ時系列である。図24に示すように、ノイズを除去しない場合、半径が350から400である区間において(a)と(b)のグラフの形状が特に異なり、上下振動が多い。このような連続データに対して機械学習を実行すると、分類の精度が落ちる(例えば、両者を異なるグループに分類することになる)。一方、ノイズを除去した場合、半径が350から400である区間において(c)と(d)のグラフの形状が似ている。従って、誤った分類を行う可能性が低くなる。
以下では、元の連続データから最終的な連続データが生成されるまでのデータ変換を、図25乃至図41を用いてより具体的に説明する。
図25乃至図28に、以下の説明に使用する連続データを示す。図25は、以下の説明に使用する連続データの3つのグラフが重ねられた図である。図25において、縦軸はジャイロセンサの計測値(以下、センサ値と呼ぶ)を表し、横軸は時間を表す。太い実線はエレベータA内での移動時に得られたセンサ値を表すグラフであり、破線はエレベータB内での移動時に得られたセンサ値を表すグラフであり、実線はランニングマシーンでの運動時に得られたセンサ値を表すグラフである。ジャイロセンサは人の右腕に装着されているとする。そして、図26はエレベータAについてのグラフのみを示す図であり、図27はエレベータBについてのグラフのみを示す図であり、図28はランニングマシーンについてのグラフのみを示す図である。図25と同様に、縦軸センサ値を表し、横軸は時間を表す。
図29乃至図31に、疑似アトラクタを示す。図29はエレベータAについての疑似アトラクタを示す図であり、図30はエレベータBについての疑似アトラクタを示す図であり、図31はランニングマシーンについての疑似アトラクタを示す図である。図29乃至図31においては、埋め込み次元は3である。点の座標自体は意味を持たない。
図32乃至図34に、ノイズを除去しない場合におけるバーコードデータを示す。図32(a)はエレベータAについての、0次元の穴のバーコードデータを示す図であり、図32(b)はエレベータAについての、1次元の穴のバーコードデータを示す図である。図33(a)はエレベータBについての、0次元の穴のバーコードデータを示す図であり、図33(b)はエレベータBについての、1次元の穴のバーコードデータを示す図である。図34(a)はランニングマシーンについての、0次元の穴のバーコードデータを示す図であり、図34(b)はランニングマシーンについての、1次元の穴のバーコードデータを示す図である。
図35乃至図37に、ノイズを除去した場合におけるバーコードデータを示す。図35(a)はエレベータAについての、0次元の穴のバーコードデータを示す図であり、図35(b)はエレベータAについての、1次元の穴のバーコードデータを示す図である。図36(a)はエレベータBについての、0次元の穴のバーコードデータを示す図であり、図36(b)はエレベータBについての、1次元の穴のバーコードデータを示す図である。図37(a)はランニングマシーンについての、0次元の穴のバーコードデータを示す図であり、図37(b)はランニングマシーンについての、1次元の穴のバーコードデータを示す図である。
図38乃至図41に、バーコードデータから生成される連続データ(ここでは、ベッチ時系列と呼ぶ)を示す。図38はエレベータAについてのベッチ時系列を示す図であり、図39はエレベータBについてのベッチ時系列を示す図であり、図40はランニングマシーンについてのベッチ時系列を示す図である。図41は、図38乃至図40に示した3つのグラフが重ねられた図である。図38乃至図41において、縦軸はベッチ数を表し、横軸は時間を表す。
図41に示すように、元の連続データの変化を支配するルールが同じであると考えられるエレベータAとエレベータBについては、ベッチ時系列の形状が似ている。しかし、元の連続データの変化を支配するルールが同じではないと考えられるランニングマシーンのベッチ時系列の形状は、エレベータAのベッチ時系列及びエレベータBのベッチ時系列の形状とは異なる。特に、時刻が0から約150までの間、及び、時刻が約380から約450までの間においては、形状が著しく異なっている。
よって、本実施の形態のベッチ時系列を利用することで、元の連続データを本来の変化のルールに応じて適切に分類することが可能になり、分類の精度が向上する。
[実施の形態2]
第1の実施の形態の説明において述べたように、元の連続データ間の類似関係は、バーコードデータから生成される連続データ間の類似関係とほぼ等価である(すなわち、1対1の関係である)。但し、或る連続データを平行移動して(すなわち、バイアスをかけて)別の連続データに重ね合わせることができる場合においては、1対1の関係は成立しない。
例えば図42に示すように、連続データd3と、連続データd3を平行移動した連続データである連続データd4とが有るとする。この場合、図43に示すように、疑似アトラクタ内での点の配置は全く同じであり、両疑似アトラクタを平行移動によって重ね合わせることができる。パーシステントホモロジーの計算結果は点の配置関係の状態を表すため、図44に示すように、両疑似アトラクタから生成されるバーコードデータは完全に一致する。よって、連続データd3と連続データd4とが同じバーコードデータに対応することになる。
そこで以下では、平行移動によって重ね合わせることができる連続データを取り扱う場合においても1対1の関係を成立させるための方法について説明する。
図45に、第2の実施の形態の情報処理装置1の機能ブロック図を示す。第2の実施の形態における情報処理装置1の機能ブロック図を示す。情報処理装置1は、第1連続データ格納部101と、第1生成部103と、疑似アトラクタデータ格納部105と、第2生成部107と、バーコードデータ格納部109と、第3生成部111と、第2連続データ格納部113と、機械学習部115と、学習結果格納部117と、削除部119と、付加部121とを有する。
第1生成部103は、第1連続データ格納部101に格納された連続データから疑似アトラクタを生成し、生成した疑似アトラクタを疑似アトラクタデータ格納部105に格納する。第2生成部107は、疑似アトラクタデータ格納部105に格納された疑似アトラクタから、バーコードデータをパーシステントホモロジー群の元(すなわち穴)の次元毎に生成し、生成したバーコードデータをバーコードデータ格納部109に格納する。削除部119は、バーコードデータ格納部109に格納されたデータのうちノイズに関係するデータを削除する。第3生成部111は、バーコードデータ格納部109に格納されたバーコードデータから連続データを生成し、生成した連続データを第2連続データ格納部113に格納する。機械学習部115は、第2連続データ格納部113に格納された連続データを入力とする機械学習を実行し、機械学習の結果(例えば分類結果)を学習結果格納部117に格納する。付加部121は、第1連続データ格納部101に格納されたデータに基づき付加データを生成し、第2連続データ格納部113に格納された連続データに付加する。
次に、図46乃至図48を用いて、情報処理装置1の動作を説明する。
まず、情報処理装置1の第1生成部103は、第1連続データ格納部101に格納されている未処理の連続データを読み出す。第1連続データ格納部101に未処理の連続データが複数セット格納されている場合には、未処理の1セットの連続データが読み出される。そして、第1生成部103は、ターケンスの埋め込み定理に従って、読み出した連続データから疑似アトラクタを生成し(図46:ステップS21)、生成した疑似アトラクタを疑似アトラクタデータ格納部105に格納する。本処理はステップS1の処理と同じである。
第2生成部107は、ステップS21において生成された疑似アトラクタを疑似アトラクタデータ格納部105から読み出す。そして、第2生成部107は、パーシステントホモロジーの計算処理によって、疑似アトラクタからバーコードデータを穴次元毎に生成する(ステップS23)。第2生成部107は、生成したバーコードデータをバーコードデータ格納部109に格納する。本処理はステップS3の処理と同じである。
バーコードデータがバーコードデータ格納部109に格納された場合、削除部119は、長さが所定長未満であるパーシステント区間のデータをバーコードデータ格納部109から削除する(ステップS25)。本処理はステップS5の処理と同じである。
第3生成部111は、バーコードデータ格納部109に格納されたバーコードデータを読み出す。そして、第3生成部111は、読み出されたバーコードデータを統合し、統合されたバーコードデータから連続データを生成する(ステップS27)。第3生成部111は、生成された連続データを第2連続データ格納部113に格納する。本処理はステップS7の処理と同じである。
付加部121は、ステップS21において読み出された連続データ(以下、元の連続データと呼ぶ)を第1連続データ格納部101から読み出す。そして、付加部121は、元の連続データに含まれる値の平均値を算出し、算出した平均値を正規化する(ステップS29)。平均値の算出及び正規化は良く知られた計算であるので、ここではこれ以上説明しない。
付加部121は、期間中の値がステップS29において正規化された平均値で一定である付加データを生成する(ステップS31)。すなわち、付加データの各時刻における値は、期間中常に正規化された平均値と同じ値である。そして、付加部121は、生成された付加データを第2連続データ格納部113に格納された連続データの前又は後に付加する(ステップS33)。
図47及び図48に、付加データが付加された連続データの一例を示す。図47においては、連続データの前に付加データが付加されており、縦軸がベッチ数を表し、横軸は時間を表す。付加データは時刻0から時刻100までのデータであり、連続データは時刻100から時刻700までのデータである。また、図48においては、連続データの後に付加データが付加されており、縦軸がベッチ数を表し、横軸は時間を表す。付加データは時刻600から時刻700までのデータであり、連続データは時刻0から時刻600までのデータである。
図46の説明に戻り、機械学習部115は、第2連続データ格納部113に格納された連続データを入力とする機械学習を実行する(ステップS35)。機械学習部115は、機械学習の結果を学習結果格納部117に格納する。機械学習の結果は、連続データの分類結果(すなわち機械学習の出力)を含み、入力から出力を計算する際のパラメータが含まれていてもよい。また、上で述べたように、本実施の形態の機械学習は教師有りの機械学習であってもよいし、教師無しの機械学習であってもよい。
機械学習部115は、未処理の連続データが有るか判定する(ステップS37)。未処理の連続データが有る場合(ステップS37:Yesルート)、ステップS21の処理に戻る。未処理の連続データが無い場合(ステップS37:Noルート)、処理は終了する。
以上のような処理を実行すれば、連続データと連続データとを平行移動して重ね合わせることができる場合においても、機械学習においては異なる連続データとして区別することができるようになる。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置1の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
また、上で説明したデータ保持構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
また、図15においては0次、1次、2次の順序でバーコードデータを統合しているが、この順序に限られるわけではない。
また、連続データは、時系列データ以外のデータ(例えば数列又は文字列)であってもよい。
また、第2の実施の形態においては、連続データに付加データを付加するのではなく、連続データと付加データとのセットを機械学習の入力としてもよい。すなわち、多入力学習を行ってもよい。
[付録]
本付録においては、本実施の形態に関連する事項について説明を追加する。
振動が多い時系列は、時刻(すなわちベクトルの要素番号)に対する値がさまざまな値をとるため、ひとつの要素番号に対する意味を決めることが難しい。そのため、振動が多い時系列に対しては、背景技術の欄において説明したような特徴量が使用されてきた。
但し、このような特徴量は、対象がカオス時系列である場合、たとえ変化のルールが同じである時系列であっても全く異なる値になることがある。カオスとは、変化のルールは同じであっても、初期値が異なると見た目が全く異なる変化をする現象のことである。カオスのこのような性質は初期値鋭敏性と呼ばれ、一般的にはバタフライ効果とも呼ばれる。
例えば、時系列が以下のルールで変化するとする。
Figure 2017097643
ここで、iは時刻を表す変数である。このルールに従う場合、初期値が0.23である場合には値が図49に示すように変化し、初期値が0.26である場合には図50に示すように変化する。それぞれの初期値を採用した場合における特徴量は、図51に示すような値になる。従って、上で説明したような特徴量によっては時系列をその変化のルールに応じて分類することができない。
カオス時系列に対しては、力学系の特徴量(例えば最大リアプノフ指数など)を使用することもできる。但し、力学系の特徴量は、あらゆる非カオス時系列において同じ値になるか又は意味が無い値になる。従って、力学系の特徴量を使用したとしても、カオス時系列と非カオス時系列とを同時に扱うことが可能な機械学習の入力を生成することができない。
例えば図52に示すように、カオス用の特徴量と非カオス用の特徴量とが並べられた特徴量を生成することも考えられる。この特徴量は、カオス時系列と非カオス時系列とで分類が分かれている場合には有効である。しかし、カオス時系列と非カオス時系列との差は微妙であることが多い。例えば、x(i+1)=a*x(i)(1−x(i))がルールである時系列は、a=3のときはカオスではないが、a>3のときはカオスである。また、例えば人の行動分類においては、同じ分類にカオスの人と非カオスの人とが含まれる場合がある。従って、現実的には、カオス時系列と非カオス時系列とが完全に別の分類になることは無く、上記のような特徴量も有効ではない。
これに対して、第1の実施の形態及び第2の実施の形態の方法であれば、カオス時系列と非カオス時系列とを同時に扱うことが可能な機械学習の入力を生成することができる。
以上で本付録を終了する。
なお、上で述べた情報処理装置1は、コンピュータ装置であって、図53に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本発明の実施の形態をまとめると、以下のようになる。
本実施の形態に係る機械学習方法は、(A)複数の連続データの各々から、等間隔で取得したN(Nは2以上の自然数)点の値を成分とする、N次元空間上の点の集合である疑似アトラクタを生成し、(B)生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、N次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成し、(C)複数の疑似アトラクタの各々について、生成されたベッチ数の連続データを入力とする機械学習を実行する処理を含む。
このようにすれば、疑似アトラクタを機械学習の入力に適した形式に等価に変換できるので、連続データから生成された疑似アトラクタによって連続データを分類できるようになる。
また、ベッチ数の連続データを生成する処理において、(b1)パーシステントホモロジーの計算処理により、各穴が発生してから消滅するまでの時間を表す第1データを穴の次元毎に生成し、(b2)生成された第1データに基づき、球の半径に対するベッチ数を穴の次元毎に算出し、(b3)穴の次元毎に算出された、球の半径に対するベッチ数に基づき、ベッチ数の連続データを生成してもよい。これにより、より精度が高い分類を行えるようになる。
また、上で述べたベッチ数は、発生時の半径と消滅時の半径との差が所定長以上である穴の数であってもよい。これにより、ノイズの影響を除去できるようになる。
また、本機械学習方法は、(D)複数の連続データの各々から、当該連続データに含まれる値の平均値を算出する処理をさらに含んでもよい。そして、機械学習を実行する処理において、(c1)生成されたベッチ数の連続データと平均値とを入力とする機械学習を実行してもよい。これにより、平行移動により重ね合わせることが可能な連続データを取り扱う場合においても、適切な分類を行えるようになる。
また、複数の連続データの各々はラベル付き連続データであってもよい。そして、機械学習を実行する処理において、(c2)球の半径に対するベッチ数と、ラベルとの関係について機械学習を実行してもよい。これにより、教師有りの機械学習にも対処できるようになる。
また、上で述べた穴は、ホモロジー群の元であってもよい。
なお、上記方法による処理をコンピュータに実行させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
コンピュータに、
複数の連続データの各々から、等間隔で取得したN(Nは2以上の自然数)点の値を成分とする、N次元空間上の点の集合である疑似アトラクタを生成し、
生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、前記N次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成し、
前記複数の疑似アトラクタの各々について、生成された前記ベッチ数の連続データを入力とする機械学習を実行する、
処理を実行させる機械学習プログラム。
(付記2)
前記ベッチ数の連続データを生成する処理において、
前記パーシステントホモロジーの計算処理によって、各穴が発生してから消滅するまでの時間を表す第1データを穴の次元毎に生成し、
生成された前記第1データに基づき、前記球の半径に対する前記ベッチ数を穴の次元毎に算出し、
穴の次元毎に算出された、前記球の半径に対する前記ベッチ数に基づき、前記ベッチ数の連続データを生成する、
付記1記載の機械学習プログラム。
(付記3)
前記ベッチ数は、発生時の半径と消滅時の半径との差が所定長以上である穴の数である、
付記1又は2記載の機械学習プログラム。
(付記4)
前記コンピュータに、
前記複数の連続データの各々から、当該連続データに含まれる値の平均値を算出する
処理をさらに実行させ、
前記機械学習を実行する処理において、
生成された前記ベッチ数の連続データと前記平均値とを入力とする機械学習を実行する、
付記1乃至3のいずれか1つ記載の機械学習プログラム。
(付記5)
前記複数の連続データの各々はラベル付き連続データであり、
前記機械学習を実行する処理において、
前記球の半径に対する前記ベッチ数と、前記ラベルとの関係について機械学習を実行する、
付記1記載の機械学習プログラム。
(付記6)
前記穴は、ホモロジー群の元である
付記1乃至5のいずれか1つ記載の機械学習プログラム。
(付記7)
コンピュータが、
複数の連続データの各々から、等間隔で取得したN(Nは2以上の自然数)点の値を成分とする、N次元空間上の点の集合である疑似アトラクタを生成し、
生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、前記N次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成し、
前記複数の疑似アトラクタの各々について、生成された前記ベッチ数の連続データを入力とする機械学習を実行する、
処理を実行する機械学習方法。
(付記8)
複数の連続データの各々から、等間隔で取得したN(Nは2以上の自然数)点の値を成分とする、N次元空間上の点の集合である疑似アトラクタを生成する生成部と、
前記生成部により生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、前記N次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成する算出部と、
前記複数の疑似アトラクタの各々について、前記生成部により生成された前記ベッチ数の連続データを入力とする機械学習を実行する実行部と、
を有する情報処理装置。
1 情報処理装置 101 第1連続データ格納部
103 第1生成部 105 疑似アトラクタデータ格納部
107 第2生成部 109 バーコードデータ格納部
111 第3生成部 113 第2連続データ格納部
115 機械学習部 117 学習結果格納部
119 削除部 121 付加部

Claims (7)

  1. コンピュータに、
    複数の連続データの各々から、等間隔で取得したN(Nは2以上の自然数)点の値を成分とする、N次元空間上の点の集合である疑似アトラクタを生成し、
    生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、前記N次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成し、
    前記複数の疑似アトラクタの各々について、生成された前記ベッチ数の連続データを入力とする機械学習を実行する、
    処理を実行させる機械学習プログラム。
  2. 前記ベッチ数の連続データを生成する処理において、
    前記パーシステントホモロジーの計算処理により、各穴が発生してから消滅するまでの時間を表す第1データを穴の次元毎に生成し、
    生成された前記第1データに基づき、前記球の半径に対する前記ベッチ数を穴の次元毎に算出し、
    穴の次元毎に算出された、前記球の半径に対する前記ベッチ数に基づき、前記ベッチ数の連続データを生成する、
    請求項1記載の機械学習プログラム。
  3. 前記ベッチ数は、発生時の半径と消滅時の半径との差が所定長以上である穴の数である、
    請求項1又は2記載の機械学習プログラム。
  4. 前記コンピュータに、
    前記複数の連続データの各々から、当該連続データに含まれる値の平均値を算出する
    処理をさらに実行させ、
    前記機械学習を実行する処理において、
    生成された前記ベッチ数の連続データと前記平均値とを入力とする機械学習を実行する、
    請求項1乃至3のいずれか1つ記載の機械学習プログラム。
  5. 前記複数の連続データの各々はラベル付き連続データであり、
    前記機械学習を実行する処理において、
    前記球の半径に対する前記ベッチ数と、前記ラベルとの関係について機械学習を実行する、
    請求項1記載の機械学習プログラム。
  6. コンピュータが、
    複数の連続データの各々から、等間隔で取得したN(Nは2以上の自然数)点の値を成分とする、N次元空間上の点の集合である疑似アトラクタを生成し、
    生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、前記N次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成し、
    前記複数の疑似アトラクタの各々について、生成された前記ベッチ数の連続データを入力とする機械学習を実行する、
    処理を実行する機械学習方法。
  7. 複数の連続データの各々から、等間隔で取得したN(Nは2以上の自然数)点の値を成分とする、N次元空間上の点の集合である疑似アトラクタを生成する生成部と、
    前記生成部により生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、前記N次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成する算出部と、
    前記複数の疑似アトラクタの各々について、前記生成部により生成された前記ベッチ数の連続データを入力とする機械学習を実行する実行部と、
    を有する情報処理装置。
JP2015229626A 2015-11-25 2015-11-25 機械学習プログラム、機械学習方法及び情報処理装置 Active JP6606997B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015229626A JP6606997B2 (ja) 2015-11-25 2015-11-25 機械学習プログラム、機械学習方法及び情報処理装置
US15/334,405 US20170147946A1 (en) 2015-11-25 2016-10-26 Method and apparatus for machine learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015229626A JP6606997B2 (ja) 2015-11-25 2015-11-25 機械学習プログラム、機械学習方法及び情報処理装置

Publications (2)

Publication Number Publication Date
JP2017097643A true JP2017097643A (ja) 2017-06-01
JP6606997B2 JP6606997B2 (ja) 2019-11-20

Family

ID=58720863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015229626A Active JP6606997B2 (ja) 2015-11-25 2015-11-25 機械学習プログラム、機械学習方法及び情報処理装置

Country Status (2)

Country Link
US (1) US20170147946A1 (ja)
JP (1) JP6606997B2 (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018159558A1 (ja) * 2017-03-03 2018-09-07 富士通株式会社 データ生成方法、データ生成装置及びデータ生成プログラム
JP2019016193A (ja) * 2017-07-07 2019-01-31 富士通株式会社 分析方法、分析装置及び分析プログラム
JP2019016194A (ja) * 2017-07-07 2019-01-31 富士通株式会社 状態識別方法、状態識別装置及び状態識別プログラム
JP2019105871A (ja) * 2017-12-08 2019-06-27 富士通株式会社 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
JP2019105870A (ja) * 2017-12-08 2019-06-27 富士通株式会社 判別プログラム、判別方法および判別装置
JP2019105883A (ja) * 2017-12-08 2019-06-27 富士通株式会社 判別プログラム、判別方法および判別装置
JP2019133462A (ja) * 2018-01-31 2019-08-08 富士通株式会社 検出プログラム、検出方法および検出装置
JP2019200738A (ja) * 2018-05-18 2019-11-21 ヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
JP2020036633A (ja) * 2018-08-31 2020-03-12 富士通株式会社 異常判別プログラム、異常判別方法および異常判別装置
JP2020086796A (ja) * 2018-11-21 2020-06-04 富士通株式会社 機械学習方法、機械学習プログラムおよび機械学習装置
JP2020091756A (ja) * 2018-12-06 2020-06-11 富士通株式会社 学習方法、学習プログラムおよび学習装置
JP2020155009A (ja) * 2019-03-22 2020-09-24 富士通株式会社 ノイズ判定方法、ノイズ判定プログラムおよびノイズ判定装置
JP2020166440A (ja) * 2019-03-28 2020-10-08 富士通株式会社 特徴量抽出方法、特徴量抽出プログラムおよび特徴量抽出装置
US11024022B2 (en) 2017-03-03 2021-06-01 Fujitsu Limited Data generation method and data generation device
EP3923228A1 (en) 2020-06-10 2021-12-15 Fujitsu Limited Data analysis method, device and program

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11515004B2 (en) * 2015-05-22 2022-11-29 Csts Health Care Inc. Thermodynamic measures on protein-protein interaction networks for cancer therapy
US10469275B1 (en) * 2016-06-28 2019-11-05 Amazon Technologies, Inc. Clustering of discussion group participants
US11321841B2 (en) * 2017-11-24 2022-05-03 Osaka University Image analysis method, image analysis device, image analysis system, and storage medium

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11024022B2 (en) 2017-03-03 2021-06-01 Fujitsu Limited Data generation method and data generation device
US11120302B2 (en) 2017-03-03 2021-09-14 Fujitsu Limited Data generation apparatus, data generation method, and non-transitory computer-readable storage medium for storing program
WO2018159558A1 (ja) * 2017-03-03 2018-09-07 富士通株式会社 データ生成方法、データ生成装置及びデータ生成プログラム
JP7069581B2 (ja) 2017-07-07 2022-05-18 富士通株式会社 分析方法、分析装置及び分析プログラム
JP2019016193A (ja) * 2017-07-07 2019-01-31 富士通株式会社 分析方法、分析装置及び分析プログラム
JP2019016194A (ja) * 2017-07-07 2019-01-31 富士通株式会社 状態識別方法、状態識別装置及び状態識別プログラム
US11023562B2 (en) 2017-07-07 2021-06-01 Fujitsu Limited Analysis method, analysis device, and recording medium
JP6992291B2 (ja) 2017-07-07 2022-01-13 富士通株式会社 状態識別方法、状態識別装置及び状態識別プログラム
JP2019105871A (ja) * 2017-12-08 2019-06-27 富士通株式会社 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
US11625570B2 (en) 2017-12-08 2023-04-11 Fujitsu Limited Computer-readable recording medium, determination method, and determination apparatus for classifying time series data
JP2019105883A (ja) * 2017-12-08 2019-06-27 富士通株式会社 判別プログラム、判別方法および判別装置
JP2019105870A (ja) * 2017-12-08 2019-06-27 富士通株式会社 判別プログラム、判別方法および判別装置
JP7040065B2 (ja) 2018-01-31 2022-03-23 富士通株式会社 検出プログラム、検出方法および検出装置
JP2019133462A (ja) * 2018-01-31 2019-08-08 富士通株式会社 検出プログラム、検出方法および検出装置
JP2019200738A (ja) * 2018-05-18 2019-11-21 ヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
JP7071213B2 (ja) 2018-05-18 2022-05-18 ヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
JP2020036633A (ja) * 2018-08-31 2020-03-12 富士通株式会社 異常判別プログラム、異常判別方法および異常判別装置
JP7070255B2 (ja) 2018-08-31 2022-05-18 富士通株式会社 異常判別プログラム、異常判別方法および異常判別装置
US11640553B2 (en) 2018-11-21 2023-05-02 Fujitsu Limited Method for analyzing time-series data based on machine learning and information processing apparatus
JP7115247B2 (ja) 2018-11-21 2022-08-09 富士通株式会社 機械学習方法、機械学習プログラムおよび機械学習装置
JP2020086796A (ja) * 2018-11-21 2020-06-04 富士通株式会社 機械学習方法、機械学習プログラムおよび機械学習装置
JP2020091756A (ja) * 2018-12-06 2020-06-11 富士通株式会社 学習方法、学習プログラムおよび学習装置
US11410055B2 (en) 2018-12-06 2022-08-09 Fujitsu Limited Learning of a feature based on betti sequences obtained from time series data
JP7131351B2 (ja) 2018-12-06 2022-09-06 富士通株式会社 学習方法、学習プログラムおよび学習装置
JP2020155009A (ja) * 2019-03-22 2020-09-24 富士通株式会社 ノイズ判定方法、ノイズ判定プログラムおよびノイズ判定装置
JP7293778B2 (ja) 2019-03-22 2023-06-20 富士通株式会社 ノイズ判定方法、ノイズ判定プログラムおよびノイズ判定装置
JP2020166440A (ja) * 2019-03-28 2020-10-08 富士通株式会社 特徴量抽出方法、特徴量抽出プログラムおよび特徴量抽出装置
JP7234742B2 (ja) 2019-03-28 2023-03-08 富士通株式会社 特徴量抽出方法、特徴量抽出プログラムおよび特徴量抽出装置
EP3923228A1 (en) 2020-06-10 2021-12-15 Fujitsu Limited Data analysis method, device and program

Also Published As

Publication number Publication date
JP6606997B2 (ja) 2019-11-20
US20170147946A1 (en) 2017-05-25

Similar Documents

Publication Publication Date Title
JP6606997B2 (ja) 機械学習プログラム、機械学習方法及び情報処理装置
KR102440821B1 (ko) 신경 언어 행동 인식 시스템의 지각 연상 기억
CN107111610B (zh) 用于神经语言行为识别系统的映射器组件
JP2023022060A (ja) タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置
JP6816481B2 (ja) 削減条件特定方法、削減条件特定プログラム及び削減条件特定装置
JP2015230570A (ja) 学習モデル作成装置、判定システムおよび学習モデル作成方法
JP6950504B2 (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
US11037356B2 (en) System and method for executing non-graphical algorithms on a GPU (graphics processing unit)
CN116028605B (zh) 逻辑表达式生成方法、模型训练方法、装置及介质
JP7069581B2 (ja) 分析方法、分析装置及び分析プログラム
JP7131351B2 (ja) 学習方法、学習プログラムおよび学習装置
CN112541052B (zh) 确定问题的答案的方法、装置、设备及存储介质
JP5903394B2 (ja) グラフ視覚化表示装置及び方法及びプログラム
JP6611679B2 (ja) データ生成方法及び計算機システム
JP6992291B2 (ja) 状態識別方法、状態識別装置及び状態識別プログラム
US20210390623A1 (en) Data analysis method and data analysis device
US20200311587A1 (en) Method for extracting features, storage medium, and apparatus for extracting features
US10692256B2 (en) Visualization method, visualization device, and recording medium
CN114882587A (zh) 生成对抗样本的方法、装置、电子设备和介质
JP6402637B2 (ja) 分析プログラム、分析方法及び分析装置
JP7136329B2 (ja) 異常検知装置、制御方法、及びプログラム
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
JP5824412B2 (ja) グラフデータ視覚化装置及び方法及びプログラム
JP7294384B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2019133462A (ja) 検出プログラム、検出方法および検出装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191007

R150 Certificate of patent or registration of utility model

Ref document number: 6606997

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150