JP2017097643A

JP2017097643A - 機械学習プログラム、機械学習方法及び情報処理装置

Info

Publication number: JP2017097643A
Application number: JP2015229626A
Authority: JP
Inventors: 裕平梅田; Yuhei Umeda
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-11-25
Filing date: 2015-11-25
Publication date: 2017-06-01
Anticipated expiration: 2035-11-25
Also published as: JP6606997B2; US20170147946A1

Abstract

【課題】連続データから生成された疑似アトラクタによって連続データを分類する技術を提供する。
【解決手段】複数の連続データの各々から、等間隔で取得したＮ（Ｎは２以上の自然数）点の値を成分とする、Ｎ次元空間上の点の集合である疑似アトラクタを生成しＳ１、生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、Ｎ次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成しＳ３〜Ｓ７、複数の疑似アトラクタの各々について、生成されたベッチ数の連続データを入力とする機械学習を実行するＳ９。
【選択図】図３

Description

本発明は、機械学習に関する。

機械学習は、時間の経過に伴って連続的に変化するデータ（以下、連続データと呼ぶ）に対しても行われる。

連続データに対する機械学習の方法としては、連続データから抽出された特徴量を入力として使用する方法が知られている。使用される特徴量は、例えば（ａ）平均値、最大値、最小値などの統計量、（ｂ）分散、尖度など統計量のモーメント、（ｃ）フーリエ変換により計算される周波数のデータ等である。

但し、連続データの変化のルール（すなわち本来の特徴）は必ずしも波形に現れるわけではない。例えばカオス時系列の場合、たとえ変化のルールが同じであったとしても、バタフライ効果によって全く異なる波形が現れることがある。そのため、実際の連続データから抽出された特徴量が変化のルールを反映せず、連続データをその変化のルールに応じて分類することができないことがある。

カオス理論の解析手法として、連続データから等間隔で取得したＮ（Ｎは埋め込み次元。一般的にはＮ＝３又は４）点の値を成分とする、Ｎ次元空間上の点の集合であるアトラクタを疑似的に生成する手法が存在する。以下では、このようにして生成されたアトラクタを疑似アトラクタと呼ぶ。

David Ruelle, "a Strange Attractor?", Notices of the American Mathematical Society, August 2006, Vol.53, No.7, pp.764-765 J. Jimenez, J. A. Moreno, and G. J. Ruggeri, "Forecasting on chaotic time series: A local optimal linear-reconstruction method", Physical Review A, March 15, 1992, Vol.45, No.6, pp.3553-3558 J. Doyne Farmer and John J. Sidorowich, "Predicting Chaotic Time Series", Physical Review Letters, August 24, 1987, Vol.59, No.8, pp.845-848

上記手法によれば、連続データの変化のルールをＮ次元空間上の点の相互関係によって表現することができるが、それぞれの点の座標自体は意味を持たない。従って、Ｎ次元空間上の点の集合に対し各点の座標を用いて機械学習を行っても、連続データはその本来の特徴とは無関係に分類される。

また、連続データには、ホワイトノイズだけでなく、ホワイトノイズ以外のノイズが含まれている場合があり、連続データから生成される疑似アトラクタにもノイズの影響が残る。そのため、Ｎ次元空間上の点の相互関係に基づき単純に機械学習を行った場合、ノイズが原因で分類の精度が低下する。特に、連続データの変化に対する時間分解能が十分ではない場合、ノイズの影響が顕著に現れる。

従って、本発明の目的は、１つの側面では、連続データから生成された疑似アトラクタによって連続データを分類する技術を提供することである。

本発明に係る機械学習方法は、複数の連続データの各々から、等間隔で取得したＮ（Ｎは２以上の自然数）点の値を成分とする、Ｎ次元空間上の点の集合である疑似アトラクタを生成し、生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、Ｎ次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成し、複数の疑似アトラクタの各々について、生成されたベッチ数の連続データを入力とする機械学習を実行する処理を含む。

１つの側面では、連続データから生成された疑似アトラクタによって連続データを分類できるようになる。

図１は、第１の実施の形態の情報処理装置の機能ブロック図である。図２は、第１連続データ格納部に格納される連続データの一例を示す図である。図３は、第１の実施の形態の処理フローを示す図である。図４は、時系列データの一例を示す図である。図５は、ホモロジーについて説明するための図である。図６は、パーシステントホモロジーについて説明するための図である。図７は、パーシステント図の一例を示す図である。図８は、バーコード図の一例を示す図である。図９は、パーシステント図及びバーコード図を生成するためのデータの一例を示す図である。図１０は、ノイズが及ぼす影響について説明するための図である。図１１は、ノイズが及ぼす影響について説明するための図である。図１２は、ノイズが及ぼす影響について説明するための図である。図１３は、ノイズが及ぼす影響について説明するための図である。図１４は、ノイズが及ぼす影響について説明するための図である。図１５は、バーコードデータと生成される連続データとの関係について説明するための図である。図１６は、パーシステント区間の一例を示す図である。図１７は、疑似アトラクタの一例を示す図である。図１８は、疑似アトラクタの一例を示す図である。図１９は、バーコードデータの一例を示す図である。図２０は、バーコードデータの一例を示す図である。図２１は、ノイズが除去されたバーコードデータの一例を示す図である。図２２は、ノイズが除去されたバーコードデータの一例を示す図である。図２３は、０次元の穴についてのベッチ時系列を示す図である。図２４は、１次元の穴についてのベッチ時系列を示す図である。図２５は、移動中又は運動中の人の右腕に装着されたジャイロセンサの計測値を表す連続データの３つのグラフを示す図である。図２６は、エレベータＡについての連続データのグラフを示す図である。図２７は、エレベータＢについての連続データのグラフを示す図である。図２８は、ランニングマシーンについての連続データのグラフを示す図である。図２９は、エレベータＡについての疑似アトラクタを示す図である。図３０は、エレベータＢについての疑似アトラクタを示す図である。図３１は、ランニングマシーンについての疑似アトラクタを示す図である。図３２は、エレベータＡについてのバーコードデータを示す図である。図３３は、エレベータＢについてのバーコードデータを示す図である。図３４は、ランニングマシーンについてのバーコードデータを示す図である。図３５は、エレベータＡについての、ノイズを除去した場合におけるバーコードデータを示す図である。図３６は、エレベータＢについての、ノイズを除去した場合におけるバーコードデータを示す図である。図３７は、ランニングマシーンについての、ノイズを除去した場合におけるバーコードデータを示す図である。図３８は、エレベータＡのベッチ時系列を示す図である。図３９は、エレベータＢのベッチ時系列を示す図である。図４０は、ランニングマシーンのベッチ時系列を示す図である。図４１は、３つのベッチ時系列が重ねられた状態を示す図である。図４２は、連続データの一例を示す図である。図４３は、疑似アトラクタの一例を示す図である。図４４は、ベッチ時系列の一例を示す図である。図４５は、第２の実施の形態の情報処理装置の機能ブロック図である。図４６は、第２の実施の形態の処理フローを示す図である。図４７は、付加データが付加された連続データの一例を示す図である。図４８は、付加データが付加された連続データの一例を示す図である。図４９は、カオスについて説明するための図である。図５０は、カオスについて説明するための図である。図５１は、カオスについて説明するための図である。図５２は、特徴量について説明するための図である。図５３は、コンピュータの機能ブロック図である。

［実施の形態１］
図１に、第１の実施の形態における情報処理装置１の機能ブロック図を示す。情報処理装置１は、第１連続データ格納部１０１と、第１生成部１０３と、疑似アトラクタデータ格納部１０５と、第２生成部１０７と、バーコードデータ格納部１０９と、第３生成部１１１と、第２連続データ格納部１１３と、機械学習部１１５と、学習結果格納部１１７と、削除部１１９とを有する。

第１生成部１０３は、第１連続データ格納部１０１に格納された連続データから疑似アトラクタを生成し、生成した疑似アトラクタを疑似アトラクタデータ格納部１０５に格納する。第２生成部１０７は、疑似アトラクタデータ格納部１０５に格納された疑似アトラクタから、バーコードデータをパーシステントホモロジー群の元（すなわち穴）の次元毎に生成し、生成したバーコードデータをバーコードデータ格納部１０９に格納する。削除部１１９は、バーコードデータ格納部１０９に格納されたデータのうちノイズに関係するデータを削除する。第３生成部１１１は、バーコードデータ格納部１０９に格納されたバーコードデータから連続データを生成し、生成した連続データを第２連続データ格納部１１３に格納する。機械学習部１１５は、第２連続データ格納部１１３に格納された連続データを入力とする機械学習を実行し、機械学習の結果（例えば分類結果）を学習結果格納部１１７に格納する。

図２に、第１連続データ格納部１０１に格納される連続データの一例を示す。図２は心拍数の変化を示す時系列データであり、縦軸が心拍数（beats per minute）を表し、横軸は時間を表す。

なお、ここでは連続データとして心拍数の時系列データを例示したが、このような時系列データに限られるわけではない。例えば、心拍数以外の生体データ（脳波、脈拍或いは体温などの時系列データ）、ウェアラブルセンサのデータ（ジャイロセンサ、加速度センサ或いは地磁気センサなどの時系列データ）、金融データ（金利、物価、国際収支或いは株価などの時系列データ）、自然環境のデータ（気温、湿度或いは二酸化炭素濃度などの時系列データ）、又は社会データ（労働統計或いは人口統計などのデータ）等であってもよい。但し、本実施の形態の対象である連続データは、少なくとも以下のルールに従って変化するデータであるとする。

例えば、不規則な時系列データ又は手書き文字の軌跡などの人為的な動きに関するデータは、本実施の形態の対象外であるとする。

なお、本実施の形態の機械学習は、教師有りの機械学習であってもよいし、教師無しの機械学習であってもよい。教師有りの機械学習の場合、第１連続データ格納部１０１に格納された連続データはラベル付きの連続データであり、機械学習の出力結果とラベルとの比較に基づき計算過程のパラメータが調整される。ラベルは教師データとも呼ばれる。教師有りの機械学習及び教師無しの機械学習はよく知られた技術であるので、ここでは詳細な説明を省略する。

次に、図３乃至図４１を用いて、第１の実施の形態の情報処理装置１の動作を説明する。

まず、情報処理装置１の第１生成部１０３は、第１連続データ格納部１０１に格納されている未処理の連続データを読み出す。第１連続データ格納部１０１に未処理の連続データが複数セット格納されている場合には、未処理の１セットの連続データが読み出される。そして、第１生成部１０３は、ターケンスの埋め込み定理に従って、読み出した連続データから疑似アトラクタを生成し（図３：ステップＳ１）、生成した疑似アトラクタを疑似アトラクタデータ格納部１０５に格納する。なお、厳密には、ステップＳ１において生成される有限個の点集合は「アトラクタ」ではないため、本明細書ではステップＳ１において生成される点集合を「疑似アトラクタ」と呼ぶ。

図４を用いて、疑似アトラクタの生成について説明する。例えば図４に示すような、関数ｆ（ｔ）（ｔは時間を表す）で表される連続データを考える。そして、実際の値としてｆ（１），ｆ（２），ｆ（３），．．．，ｆ（Ｔ）が与えられているとする。本実施の形態における疑似アトラクタは、連続データから遅延時間τ（τ≧１）毎に取り出されたＮ点の値を成分とする、Ｎ次元空間上の点の集合である。ここで、Ｎは埋め込み次元を表し、一般的にはＮ＝３又は４である。例えばＮ＝３且つτ＝１である場合、（Ｔ−２）個の点を含む以下の疑似アトラクタが生成される。

ここでは、τ＝１であるため１つおきに要素が取り出されているが、例えばτ＝２である場合には点（ｆ（１），ｆ（３），ｆ（５））、点（ｆ（２），ｆ（４），ｆ（６））、・・・を含む疑似アトラクタが生成される。

疑似アトラクタの生成過程において、バタフライ効果等による見た目の違いの影響が取り除かれ、疑似アトラクタに元の連続データの変化のルールが反映される。そして、疑似アトラクタ間の類似関係は、ルール間の類似関係と等価である。従って、或る疑似アトラクタと別の疑似アトラクタとが似ていることは、元の連続データの変化のルールが似ていることを意味する。変化のルールが同じであるが現象（見た目）が異なる連続データからは、互いに類似した疑似アトラクタが生成される。変化のルールが異なるが現象が似ている連続データからは、異なる疑似アトラクタが生成される。

また、連続データを直接機械学習の入力とする場合、開始位置を適切にそろえなければならないが、疑似アトラクタを使用すればそのような制約を受けることがない。

図３の説明に戻り、第２生成部１０７は、ステップＳ１において生成された疑似アトラクタを疑似アトラクタデータ格納部１０５から読み出す。そして、第２生成部１０７は、パーシステントホモロジー（Persistent Homology）の計算処理によって、疑似アトラクタからバーコードデータを穴の次元（以下、穴次元と呼ぶ）毎に生成する（ステップＳ３）。第２生成部１０７は、生成したバーコードデータをバーコードデータ格納部１０９に格納する。

ここで、パーシステントホモロジーについて説明する。まず、「ホモロジー」とは、対象の特徴をｍ（ｍ≧０）次元の穴の数によって表現する手法である。ここで言う「穴」とはホモロジー群の元のことであり、０次元の穴は連結成分であり、１次元の穴は穴（トンネル）であり、２次元の穴は空洞である。各次元の穴の数はベッチ数と呼ばれる。

図５を用いて、ホモロジーをより具体的に説明する。図５（ａ）のケースにおいては、対象は１つの点である。この場合、連結成分の数は１であり、穴の数は０であり、空洞の数は０である。図５（ｂ）のケースにおいては、対象は２つの点である。この場合、連結成分の数は２であり、穴の数は０であり、空洞の数は０である。図５（ｃ）のケースにおいては、対象は中身が有る三角形である。この場合、連結成分の数は１であり、穴の数は０であり、空洞の数は０である。図５（ｄ）のケースにおいては、対象は中身が無い四面体である。この場合、連結成分の数は１であり、穴の数は０であり、空洞の数は０である。図５（ｅ）のケースにおいては、対象は三角形のふちであり中身が無い。この場合、連結成分の数は１であり、穴の数は１であり、空洞の数は０である。図５（ｆ）のケースにおいては、対象は中抜きの四面体である。この場合、連結成分の数は１であり、穴の数は０であり、空洞の数は１である。

そして、「パーシステントホモロジー」とは、対象（ここでは、点の集合（Point Cloud））におけるｍ次元の穴の遷移を特徴付けるための手法であり、パーシステントホモロジーによって点の配置に関する特徴を調べることができる。この手法においては、対象における各点が球状に徐々に膨らまされ、その過程において各穴が発生した時刻（発生時の球の半径で表される）と消滅した時刻（消滅時の球の半径で表される）とが特定される。

図６を用いて、パーシステントホモロジーをより具体的に説明する。ルールとして、１つの球が接した場合には２つの球の中心が線分で結ばれ、３つの球が接した場合には３つの球の中心が線分で結ばれる。ここでは、連結成分及び穴だけを考える。図６（ａ）のケース（半径ｒ＝０）においては、連結成分のみが発生し、穴は発生していない。図６（ｂ）のケース（半径ｒ＝ｒ₁）においては、穴が発生しており、連結成分の一部が消滅している。図６（ｃ）のケース（半径ｒ＝ｒ₂）においては、さらに多くの穴が発生しており、連結成分は１つだけ持続している。図６（ｄ）のケース（半径ｒ＝ｒ₃）においては、連結成分の数は１のままであり、穴が１つ消滅している。

パーシステントホモロジーの計算過程において、ホモロジー群の元（すなわち穴）の発生半径と消滅半径とが計算される。図７に、パーシステントホモロジーの計算によって求められる発生半径と消滅半径とに基づき生成されたパーシステント図（Persistence Diagram）の一例を示す。図７において、横軸は発生半径を表し、縦軸は消滅半径を表す。直線ｌ０１上においては発生半径と消滅半径とが等しい。各点の消滅半径は発生半径より長いため、図７に示すように、各点は直線ｌ０１より上方に存在する。点から横軸に対して垂線を下した場合、その点と、その垂線と直線ｌ０１との交点との距離は、その点に対応する穴が対象においてパーシステントである時間の長さを表す。

また、穴の発生半径と消滅半径とを使用することで、図８に示すようなバーコード図を生成することができる。図８において、横軸は半径を表し、各線分は１つの穴に対応する。線分の左端に対応する半径は穴の発生半径であり、線分の右端に対応する半径は穴の消滅半径である。線分はパーシステント区間と呼ばれる。このようなバーコード図から、例えば半径が０．１８である時には２つの穴が存在するということがわかる。

図９に、パーシステント図及びバーコード図を生成するためのデータ（以下、バーコードデータと呼ぶ）の一例を示す。図９の例では、穴次元を表す数値と、穴の発生半径と、穴の消滅半径とが含まれる。ステップＳ３において、バーコードデータは穴次元毎に生成される。

以上のような処理を実行すれば、或る疑似アトラクタから生成されるバーコードデータと他の疑似アトラクタから生成されるバーコードデータとの類似関係は、疑似アトラクタ間の類似関係と等価である。よって、疑似アトラクタとバーコードデータとの関係は１対１の関係である。

すなわち、疑似アトラクタが同じであれば、生成されるバーコードデータは同じである。つまり、連続データの変化のルールが同じであれば生成されるバーコードデータは同じである。逆に、バーコードデータが同じであれば、疑似アトラクタも同じである。また、疑似アトラクタが類似している場合にはバーコードデータも類似するため、機械学習に必要な条件が満たされる。疑似アトラクタが異なる場合には、バーコードデータも異なる。

なお、パーシステントホモロジーの詳細については、例えば「平岡裕章、『タンパク質構造とトポロジーパーシステントホモロジー群入門』、共立出版」を参照されたい。

図３の説明に戻り、削除部１１９は、長さが所定長未満であるパーシステント区間のデータをバーコードデータ格納部１０９から削除する（ステップＳ５）。なお、パーシステント区間の長さは、消滅半径−発生半径によって算出される。所定長は、例えば、０次元の穴が発生してから消滅するまでの時間をＫ等分した時間（以下、ブロックと呼ぶ）の長さである。但し、１ブロックの長さに限られるわけではなく、複数ブロックの長さを所定長としてもよい。

発生から消滅までの時間が短い元は、時系列に付加されるノイズによって発生するものがほとんどである。長さが所定長未満であるパーシステント区間のデータを削除すれば、ノイズの影響を緩和することができるので、分類性能を向上させることができるようになる。但し、削除の対象は次元が１以上であるパーシステント区間のデータであるとする。

図１０乃至図１４を用いて、ノイズが及ぼす影響について説明する。図１０（ａ）に示した疑似アトラクタに対応する連続データに含まれる値が、或る時刻におけるノイズによってズレたとする。その結果、図１０（ｂ）に示した疑似アトラクタが得られたとする。図１０においては、点ｂ１と、点ｂ２と、点ｂ３とが本来の位置からズレている。

ここでは、点ｂ２のズレによって発生する影響に着目する。図１１に示すように、球の半径が０である時点においては、ノイズが無い場合及びノイズが有る場合において連結成分の数は６であり且つ穴の数は０である。

図１２に示すように、半径が５である時点においては、ノイズが無い場合及びノイズが有る場合において連結成分の数が３であり且つ穴の数は０である。但し、点ｂ２の球と周りの球との関係は異なる。

図１３に示すように、球の半径が６である時点においては、ノイズが無い場合においては連結成分の数が１であり且つ穴の数が０である。一方、ノイズが有る場合においては連結成分の数が１であり且つ穴の数は１である。このように、ノイズが有る場合においては穴が発生しており、ホモロジー群が異なっている。

図１４に示すように、球の半径が７である時点においては、ノイズが無い場合及びノイズが有る場合において連結成分の数が１であり且つ穴の数が０である。従って、ノイズが有る場合においては半径が６から７になるまでの期間の一部において穴が発生していたことになる。

図１０乃至図１４を用いて説明したように、ノイズが発生した場合においては僅かな時間だけ１次元以上の穴が発生することがある。ステップＳ５の処理を実行すれば、両ケースにおいて生成されるデータはほぼ同じになるので、ノイズの影響を取り除くことができるようになる。

なお、長さが所定長未満であるパーシステント区間のデータが削除されるので、削除後のバーコードデータ間の類似関係は、元のバーコードデータ間の類似関係と厳密には等価ではない。削除が行われない場合には、類似関係は等価である。

図３の説明に戻り、第３生成部１１１は、バーコードデータ格納部１０９に格納されたバーコードデータを読み出す。そして、第３生成部１１１は、読み出されたバーコードデータを統合し、統合されたバーコードデータから連続データを生成する（ステップＳ７）。第３生成部１１１は、生成された連続データを第２連続データ格納部１１３に格納する。

上で述べたように、バーコードデータは穴次元毎に生成されるので、第３生成部１１１は、複数の穴次元のバーコードデータを統合することで１塊のバーコードデータを生成する。連続データは、パーシステントホモロジーにおける球の半径（すなわち時間）とベッチ数との関係を示すデータである。図１５を用いて、バーコードデータと生成される連続データとの関係について説明する。上段のグラフはバーコードデータから生成されるグラフであり、横軸が半径を表す。下段のグラフは連続データから生成されるグラフであり、縦軸はベッチ数を表し、横軸は時間を表す。上で述べたように、ベッチ数は穴の数を表しており、例えば上段のグラフにおいて破線に対応する半径の時には存在している穴の数が１０であるので、下段のグラフにおいては破線に対応するベッチ数も１０である。ベッチ数は、ブロック毎に計数される。なお、下段のグラフは疑似的な時系列データのグラフであるので、横軸の値自体が意味を持つわけではない。

基本的には、同じバーコードデータからは同じ連続データが得られる。すなわち、元の疑似アトラクタが同じであれば同じ連続データが得られる。但し、異なるバーコードから同じ連続データが得られるケースが極めて稀に発生する。

例えば図１６に示すようなバーコードデータを考える。このバーコードデータは１以上の次元の穴に関するデータであるとする。図１６（ａ）のケースにおいては、パーシステント区間ｐ１が時刻ｔ１で開始し且つ時刻ｔ２で終了し、パーシステント区間ｐ２が時刻ｔ２で開始し且つ時刻ｔ３で終了する。一方、図１６（ｂ）のケースにおいては、パーシステント区間ｐ４が時刻ｔ１で開始し且つ時刻ｔ３で終了する。両ケースにおけるパーシステント区間ｐ３は全く同じであるとする。

このような場合、両ケースにおけるバーコードデータからは全く同じ連続データが得られるので、連続データによっては両ケースを区別することができない。しかし、このような現象が発生する可能性は極めて低い。また、両ケースの疑似アトラクタは元々似ており、機械学習による分類に与える影響が極めて小さいので、上記のような現象が発生しても問題は無い。

従って、或るバーコードデータから生成される連続データと、別のバーコードデータから生成される連続データとの類似関係は、上で述べた稀なケースが発生しなければ、バーコードデータ間の類似関係と等価である。以上から、データ間の距離の定義は変わるものの、バーコードデータから生成される連続データ間の類似関係は、元の連続データ間の類似関係とほぼ等価である。

なお、疑似アトラクタが表す点集合の画像は疎な画像データであるため、識別が難しく、機械学習によって分類することは困難である。また、上記のようなバーコードデータにおいては、バーコードの本数が一定ではないため、機械学習の入力として扱うことが難しい。しかし、上で述べたような連続データであれば、元の連続データと比べると振動が緩和されており、機械学習の入力として適している。

図３の説明に戻り、機械学習部１１５は、第２連続データ格納部１１３に格納された連続データを入力とする機械学習を実行する（ステップＳ９）。機械学習部１１５は、機械学習の結果を学習結果格納部１１７に格納する。機械学習の結果は、連続データの分類結果（すなわち機械学習の出力）を含み、入力から出力を計算する際のパラメータが含まれていてもよい。また、上で述べたように、本実施の形態の機械学習は教師有りの機械学習であってもよいし、教師無しの機械学習であってもよい。

機械学習部１１５は、未処理の連続データが有るか判定する（ステップＳ１１）。未処理の連続データが有る場合（ステップＳ１１：Ｙｅｓルート）、ステップＳ１の処理に戻る。未処理の連続データが無い場合（ステップＳ１１：Ｎｏルート）、処理は終了する。

以上のように、パーシステントホモロジーの計算を実行すれば、疑似アトラクタが表す、元の連続データの変化のルールを、バーコードデータに反映することができる。これにより、元の連続データの変化のルールに応じた分類を機械学習によって行うことができるようになる。

パーシステントホモロジーの計算は、位相幾何学の手法であり、点の集合で表される静的な対象（例えば、タンパク質、分子の結晶、センサネットワークなど）の構造の解析等に利用されてきた。これに対し本実施の形態においては、時間の経過に伴って連続的に変化するデータの変化のルールを表す点集合（すなわち疑似アトラクタ）を計算の対象としている。本実施の形態の場合、点集合の構造自体を解析することは目的ではないので、一般的なパーシステントホモロジーの計算とは対象及び目的が全く異なる。

また、パーシステントホモロジーの計算によって生成されたバーコードデータは、バーコードの本数が一定ではないため、そのままでは機械学習の入力とすることが難しい。そこで本実施の形態においては、連続データに由来するバーコードデータを再度連続データに変換することで、機械学習の入力とすることを可能にすると共に、振動を緩和して分類の精度を向上させている。

また、上で述べたように、本実施の形態によれば連続データに含まれるノイズの影響を取り除くことができる。これについては、図１７乃至図２４に具体例を示す。

図１７及び図１８に、疑似アトラクタの一例を示す。図１７は、時系列データである連続データｄ１の疑似アトラクタを示す図であり、図１８は、時系列データである連続データｄ２の疑似アトラクタを示す図である。両連続データの変化のルールは同じであるが、ノイズによるズレの状態等が異なっている。

図１９及び図２０に、疑似アトラクタから生成されるバーコードデータの一例を示す。図１９（ａ）は、図１７に示した疑似アトラクタから生成された、０次元の穴についてのバーコードデータであり、図１９（ｂ）は、図１７に示した疑似アトラクタから生成された、１次元の穴についてのバーコードデータである。図２０（ａ）は、図１８に示した疑似アトラクタから生成された、０次元の穴についてのバーコードデータであり、図２０（ｂ）は、図１８に示した疑似アトラクタから生成された、１次元の穴についてのバーコードデータである。

図２１及び図２２に、ノイズが除去されたバーコードデータの一例を示す。図２１（ａ）は、図１９（ａ）に示したバーコードデータと同じであり、図２１（ｂ）は、図１９（ｂ）に示したバーコードデータに対してノイズを除去する処理が実行されたバーコードデータである。図２２（ａ）は、図２０（ａ）に示したバーコードデータと同じであり、図２２（ｂ）は、図２０（ｂ）に示したバーコードデータに対してノイズを除去する処理が実行されたバーコードデータである。

図２３に、バーコードデータから生成された、０次元の穴についての連続データ（ここでは、ベッチ時系列と呼ぶ）を示す。なお、本実施の形態においては０次元の穴についてノイズを除去しないが、１次元の穴についての図である図２４と比較できるようにするため、図２４と同じ構成の図を示す。図２３（ａ）は、ノイズを除去しない場合における、連続データｄ１のベッチ時系列であり、図２３（ｂ）は、ノイズを除去しない場合における、連続データｄ２のベッチ時系列であり、図２３（ｃ）は、ノイズを除去した場合における、連続データｄ１のベッチ時系列であり、図２３（ｄ）は、ノイズを除去した場合における、連続データｄ２のベッチ時系列である。

図２４に、バーコードデータから生成された、１次元の穴についての連続データ（ここでは、ベッチ時系列と呼ぶ）を示す。図２４（ａ）は、ノイズを除去しない場合における、連続データｄ１のベッチ時系列であり、図２４（ｂ）は、ノイズを除去しない場合における、連続データｄ２のベッチ時系列であり、図２４（ｃ）は、ノイズを除去した場合における、連続データｄ１のベッチ時系列であり、図２４（ｄ）は、ノイズを除去した場合における、連続データｄ２のベッチ時系列である。図２４に示すように、ノイズを除去しない場合、半径が３５０から４００である区間において（ａ）と（ｂ）のグラフの形状が特に異なり、上下振動が多い。このような連続データに対して機械学習を実行すると、分類の精度が落ちる（例えば、両者を異なるグループに分類することになる）。一方、ノイズを除去した場合、半径が３５０から４００である区間において（ｃ）と（ｄ）のグラフの形状が似ている。従って、誤った分類を行う可能性が低くなる。

以下では、元の連続データから最終的な連続データが生成されるまでのデータ変換を、図２５乃至図４１を用いてより具体的に説明する。

図２５乃至図２８に、以下の説明に使用する連続データを示す。図２５は、以下の説明に使用する連続データの３つのグラフが重ねられた図である。図２５において、縦軸はジャイロセンサの計測値（以下、センサ値と呼ぶ）を表し、横軸は時間を表す。太い実線はエレベータＡ内での移動時に得られたセンサ値を表すグラフであり、破線はエレベータＢ内での移動時に得られたセンサ値を表すグラフであり、実線はランニングマシーンでの運動時に得られたセンサ値を表すグラフである。ジャイロセンサは人の右腕に装着されているとする。そして、図２６はエレベータＡについてのグラフのみを示す図であり、図２７はエレベータＢについてのグラフのみを示す図であり、図２８はランニングマシーンについてのグラフのみを示す図である。図２５と同様に、縦軸センサ値を表し、横軸は時間を表す。

図２９乃至図３１に、疑似アトラクタを示す。図２９はエレベータＡについての疑似アトラクタを示す図であり、図３０はエレベータＢについての疑似アトラクタを示す図であり、図３１はランニングマシーンについての疑似アトラクタを示す図である。図２９乃至図３１においては、埋め込み次元は３である。点の座標自体は意味を持たない。

図３２乃至図３４に、ノイズを除去しない場合におけるバーコードデータを示す。図３２（ａ）はエレベータＡについての、０次元の穴のバーコードデータを示す図であり、図３２（ｂ）はエレベータＡについての、１次元の穴のバーコードデータを示す図である。図３３（ａ）はエレベータＢについての、０次元の穴のバーコードデータを示す図であり、図３３（ｂ）はエレベータＢについての、１次元の穴のバーコードデータを示す図である。図３４（ａ）はランニングマシーンについての、０次元の穴のバーコードデータを示す図であり、図３４（ｂ）はランニングマシーンについての、１次元の穴のバーコードデータを示す図である。

図３５乃至図３７に、ノイズを除去した場合におけるバーコードデータを示す。図３５（ａ）はエレベータＡについての、０次元の穴のバーコードデータを示す図であり、図３５（ｂ）はエレベータＡについての、１次元の穴のバーコードデータを示す図である。図３６（ａ）はエレベータＢについての、０次元の穴のバーコードデータを示す図であり、図３６（ｂ）はエレベータＢについての、１次元の穴のバーコードデータを示す図である。図３７（ａ）はランニングマシーンについての、０次元の穴のバーコードデータを示す図であり、図３７（ｂ）はランニングマシーンについての、１次元の穴のバーコードデータを示す図である。

図３８乃至図４１に、バーコードデータから生成される連続データ（ここでは、ベッチ時系列と呼ぶ）を示す。図３８はエレベータＡについてのベッチ時系列を示す図であり、図３９はエレベータＢについてのベッチ時系列を示す図であり、図４０はランニングマシーンについてのベッチ時系列を示す図である。図４１は、図３８乃至図４０に示した３つのグラフが重ねられた図である。図３８乃至図４１において、縦軸はベッチ数を表し、横軸は時間を表す。

図４１に示すように、元の連続データの変化を支配するルールが同じであると考えられるエレベータＡとエレベータＢについては、ベッチ時系列の形状が似ている。しかし、元の連続データの変化を支配するルールが同じではないと考えられるランニングマシーンのベッチ時系列の形状は、エレベータＡのベッチ時系列及びエレベータＢのベッチ時系列の形状とは異なる。特に、時刻が０から約１５０までの間、及び、時刻が約３８０から約４５０までの間においては、形状が著しく異なっている。

よって、本実施の形態のベッチ時系列を利用することで、元の連続データを本来の変化のルールに応じて適切に分類することが可能になり、分類の精度が向上する。

［実施の形態２］
第１の実施の形態の説明において述べたように、元の連続データ間の類似関係は、バーコードデータから生成される連続データ間の類似関係とほぼ等価である（すなわち、１対１の関係である）。但し、或る連続データを平行移動して（すなわち、バイアスをかけて）別の連続データに重ね合わせることができる場合においては、１対１の関係は成立しない。

例えば図４２に示すように、連続データｄ３と、連続データｄ３を平行移動した連続データである連続データｄ４とが有るとする。この場合、図４３に示すように、疑似アトラクタ内での点の配置は全く同じであり、両疑似アトラクタを平行移動によって重ね合わせることができる。パーシステントホモロジーの計算結果は点の配置関係の状態を表すため、図４４に示すように、両疑似アトラクタから生成されるバーコードデータは完全に一致する。よって、連続データｄ３と連続データｄ４とが同じバーコードデータに対応することになる。

そこで以下では、平行移動によって重ね合わせることができる連続データを取り扱う場合においても１対１の関係を成立させるための方法について説明する。

図４５に、第２の実施の形態の情報処理装置１の機能ブロック図を示す。第２の実施の形態における情報処理装置１の機能ブロック図を示す。情報処理装置１は、第１連続データ格納部１０１と、第１生成部１０３と、疑似アトラクタデータ格納部１０５と、第２生成部１０７と、バーコードデータ格納部１０９と、第３生成部１１１と、第２連続データ格納部１１３と、機械学習部１１５と、学習結果格納部１１７と、削除部１１９と、付加部１２１とを有する。

第１生成部１０３は、第１連続データ格納部１０１に格納された連続データから疑似アトラクタを生成し、生成した疑似アトラクタを疑似アトラクタデータ格納部１０５に格納する。第２生成部１０７は、疑似アトラクタデータ格納部１０５に格納された疑似アトラクタから、バーコードデータをパーシステントホモロジー群の元（すなわち穴）の次元毎に生成し、生成したバーコードデータをバーコードデータ格納部１０９に格納する。削除部１１９は、バーコードデータ格納部１０９に格納されたデータのうちノイズに関係するデータを削除する。第３生成部１１１は、バーコードデータ格納部１０９に格納されたバーコードデータから連続データを生成し、生成した連続データを第２連続データ格納部１１３に格納する。機械学習部１１５は、第２連続データ格納部１１３に格納された連続データを入力とする機械学習を実行し、機械学習の結果（例えば分類結果）を学習結果格納部１１７に格納する。付加部１２１は、第１連続データ格納部１０１に格納されたデータに基づき付加データを生成し、第２連続データ格納部１１３に格納された連続データに付加する。

次に、図４６乃至図４８を用いて、情報処理装置１の動作を説明する。

まず、情報処理装置１の第１生成部１０３は、第１連続データ格納部１０１に格納されている未処理の連続データを読み出す。第１連続データ格納部１０１に未処理の連続データが複数セット格納されている場合には、未処理の１セットの連続データが読み出される。そして、第１生成部１０３は、ターケンスの埋め込み定理に従って、読み出した連続データから疑似アトラクタを生成し（図４６：ステップＳ２１）、生成した疑似アトラクタを疑似アトラクタデータ格納部１０５に格納する。本処理はステップＳ１の処理と同じである。

第２生成部１０７は、ステップＳ２１において生成された疑似アトラクタを疑似アトラクタデータ格納部１０５から読み出す。そして、第２生成部１０７は、パーシステントホモロジーの計算処理によって、疑似アトラクタからバーコードデータを穴次元毎に生成する（ステップＳ２３）。第２生成部１０７は、生成したバーコードデータをバーコードデータ格納部１０９に格納する。本処理はステップＳ３の処理と同じである。

バーコードデータがバーコードデータ格納部１０９に格納された場合、削除部１１９は、長さが所定長未満であるパーシステント区間のデータをバーコードデータ格納部１０９から削除する（ステップＳ２５）。本処理はステップＳ５の処理と同じである。

第３生成部１１１は、バーコードデータ格納部１０９に格納されたバーコードデータを読み出す。そして、第３生成部１１１は、読み出されたバーコードデータを統合し、統合されたバーコードデータから連続データを生成する（ステップＳ２７）。第３生成部１１１は、生成された連続データを第２連続データ格納部１１３に格納する。本処理はステップＳ７の処理と同じである。

付加部１２１は、ステップＳ２１において読み出された連続データ（以下、元の連続データと呼ぶ）を第１連続データ格納部１０１から読み出す。そして、付加部１２１は、元の連続データに含まれる値の平均値を算出し、算出した平均値を正規化する（ステップＳ２９）。平均値の算出及び正規化は良く知られた計算であるので、ここではこれ以上説明しない。

付加部１２１は、期間中の値がステップＳ２９において正規化された平均値で一定である付加データを生成する（ステップＳ３１）。すなわち、付加データの各時刻における値は、期間中常に正規化された平均値と同じ値である。そして、付加部１２１は、生成された付加データを第２連続データ格納部１１３に格納された連続データの前又は後に付加する（ステップＳ３３）。

図４７及び図４８に、付加データが付加された連続データの一例を示す。図４７においては、連続データの前に付加データが付加されており、縦軸がベッチ数を表し、横軸は時間を表す。付加データは時刻０から時刻１００までのデータであり、連続データは時刻１００から時刻７００までのデータである。また、図４８においては、連続データの後に付加データが付加されており、縦軸がベッチ数を表し、横軸は時間を表す。付加データは時刻６００から時刻７００までのデータであり、連続データは時刻０から時刻６００までのデータである。

図４６の説明に戻り、機械学習部１１５は、第２連続データ格納部１１３に格納された連続データを入力とする機械学習を実行する（ステップＳ３５）。機械学習部１１５は、機械学習の結果を学習結果格納部１１７に格納する。機械学習の結果は、連続データの分類結果（すなわち機械学習の出力）を含み、入力から出力を計算する際のパラメータが含まれていてもよい。また、上で述べたように、本実施の形態の機械学習は教師有りの機械学習であってもよいし、教師無しの機械学習であってもよい。

機械学習部１１５は、未処理の連続データが有るか判定する（ステップＳ３７）。未処理の連続データが有る場合（ステップＳ３７：Ｙｅｓルート）、ステップＳ２１の処理に戻る。未処理の連続データが無い場合（ステップＳ３７：Ｎｏルート）、処理は終了する。

以上のような処理を実行すれば、連続データと連続データとを平行移動して重ね合わせることができる場合においても、機械学習においては異なる連続データとして区別することができるようになる。

以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置１の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。

また、上で説明したデータ保持構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。

また、図１５においては０次、１次、２次の順序でバーコードデータを統合しているが、この順序に限られるわけではない。

また、連続データは、時系列データ以外のデータ（例えば数列又は文字列）であってもよい。

また、第２の実施の形態においては、連続データに付加データを付加するのではなく、連続データと付加データとのセットを機械学習の入力としてもよい。すなわち、多入力学習を行ってもよい。

［付録］
本付録においては、本実施の形態に関連する事項について説明を追加する。

振動が多い時系列は、時刻（すなわちベクトルの要素番号）に対する値がさまざまな値をとるため、ひとつの要素番号に対する意味を決めることが難しい。そのため、振動が多い時系列に対しては、背景技術の欄において説明したような特徴量が使用されてきた。

但し、このような特徴量は、対象がカオス時系列である場合、たとえ変化のルールが同じである時系列であっても全く異なる値になることがある。カオスとは、変化のルールは同じであっても、初期値が異なると見た目が全く異なる変化をする現象のことである。カオスのこのような性質は初期値鋭敏性と呼ばれ、一般的にはバタフライ効果とも呼ばれる。

例えば、時系列が以下のルールで変化するとする。

ここで、ｉは時刻を表す変数である。このルールに従う場合、初期値が０．２３である場合には値が図４９に示すように変化し、初期値が０．２６である場合には図５０に示すように変化する。それぞれの初期値を採用した場合における特徴量は、図５１に示すような値になる。従って、上で説明したような特徴量によっては時系列をその変化のルールに応じて分類することができない。

カオス時系列に対しては、力学系の特徴量（例えば最大リアプノフ指数など）を使用することもできる。但し、力学系の特徴量は、あらゆる非カオス時系列において同じ値になるか又は意味が無い値になる。従って、力学系の特徴量を使用したとしても、カオス時系列と非カオス時系列とを同時に扱うことが可能な機械学習の入力を生成することができない。

例えば図５２に示すように、カオス用の特徴量と非カオス用の特徴量とが並べられた特徴量を生成することも考えられる。この特徴量は、カオス時系列と非カオス時系列とで分類が分かれている場合には有効である。しかし、カオス時系列と非カオス時系列との差は微妙であることが多い。例えば、ｘ（ｉ＋１）＝ａ＊ｘ（ｉ）（１−ｘ（ｉ））がルールである時系列は、ａ＝３のときはカオスではないが、ａ＞３のときはカオスである。また、例えば人の行動分類においては、同じ分類にカオスの人と非カオスの人とが含まれる場合がある。従って、現実的には、カオス時系列と非カオス時系列とが完全に別の分類になることは無く、上記のような特徴量も有効ではない。

これに対して、第１の実施の形態及び第２の実施の形態の方法であれば、カオス時系列と非カオス時系列とを同時に扱うことが可能な機械学習の入力を生成することができる。

以上で本付録を終了する。

なお、上で述べた情報処理装置１は、コンピュータ装置であって、図５３に示すように、メモリ２５０１とＣＰＵ（Central Processing Unit）２５０３とハードディスク・ドライブ（ＨＤＤ：Hard Disk Drive）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施例における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。ＣＰＵ２５０３は、アプリケーション・プログラムの処理内容に応じて表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ２５０１に格納されるが、ＨＤＤ２５０５に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

以上述べた本発明の実施の形態をまとめると、以下のようになる。

本実施の形態に係る機械学習方法は、（Ａ）複数の連続データの各々から、等間隔で取得したＮ（Ｎは２以上の自然数）点の値を成分とする、Ｎ次元空間上の点の集合である疑似アトラクタを生成し、（Ｂ）生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、Ｎ次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成し、（Ｃ）複数の疑似アトラクタの各々について、生成されたベッチ数の連続データを入力とする機械学習を実行する処理を含む。

このようにすれば、疑似アトラクタを機械学習の入力に適した形式に等価に変換できるので、連続データから生成された疑似アトラクタによって連続データを分類できるようになる。

また、ベッチ数の連続データを生成する処理において、（ｂ１）パーシステントホモロジーの計算処理により、各穴が発生してから消滅するまでの時間を表す第１データを穴の次元毎に生成し、（ｂ２）生成された第１データに基づき、球の半径に対するベッチ数を穴の次元毎に算出し、（ｂ３）穴の次元毎に算出された、球の半径に対するベッチ数に基づき、ベッチ数の連続データを生成してもよい。これにより、より精度が高い分類を行えるようになる。

また、上で述べたベッチ数は、発生時の半径と消滅時の半径との差が所定長以上である穴の数であってもよい。これにより、ノイズの影響を除去できるようになる。

また、本機械学習方法は、（Ｄ）複数の連続データの各々から、当該連続データに含まれる値の平均値を算出する処理をさらに含んでもよい。そして、機械学習を実行する処理において、（ｃ１）生成されたベッチ数の連続データと平均値とを入力とする機械学習を実行してもよい。これにより、平行移動により重ね合わせることが可能な連続データを取り扱う場合においても、適切な分類を行えるようになる。

また、複数の連続データの各々はラベル付き連続データであってもよい。そして、機械学習を実行する処理において、（ｃ２）球の半径に対するベッチ数と、ラベルとの関係について機械学習を実行してもよい。これにより、教師有りの機械学習にも対処できるようになる。

また、上で述べた穴は、ホモロジー群の元であってもよい。

なお、上記方法による処理をコンピュータに実行させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）
コンピュータに、
複数の連続データの各々から、等間隔で取得したＮ（Ｎは２以上の自然数）点の値を成分とする、Ｎ次元空間上の点の集合である疑似アトラクタを生成し、
生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、前記Ｎ次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成し、
前記複数の疑似アトラクタの各々について、生成された前記ベッチ数の連続データを入力とする機械学習を実行する、
処理を実行させる機械学習プログラム。

（付記２）
前記ベッチ数の連続データを生成する処理において、
前記パーシステントホモロジーの計算処理によって、各穴が発生してから消滅するまでの時間を表す第１データを穴の次元毎に生成し、
生成された前記第１データに基づき、前記球の半径に対する前記ベッチ数を穴の次元毎に算出し、
穴の次元毎に算出された、前記球の半径に対する前記ベッチ数に基づき、前記ベッチ数の連続データを生成する、
付記１記載の機械学習プログラム。

（付記３）
前記ベッチ数は、発生時の半径と消滅時の半径との差が所定長以上である穴の数である、
付記１又は２記載の機械学習プログラム。

（付記４）
前記コンピュータに、
前記複数の連続データの各々から、当該連続データに含まれる値の平均値を算出する
処理をさらに実行させ、
前記機械学習を実行する処理において、
生成された前記ベッチ数の連続データと前記平均値とを入力とする機械学習を実行する、
付記１乃至３のいずれか１つ記載の機械学習プログラム。

（付記５）
前記複数の連続データの各々はラベル付き連続データであり、
前記機械学習を実行する処理において、
前記球の半径に対する前記ベッチ数と、前記ラベルとの関係について機械学習を実行する、
付記１記載の機械学習プログラム。

（付記６）
前記穴は、ホモロジー群の元である
付記１乃至５のいずれか１つ記載の機械学習プログラム。

（付記７）
コンピュータが、
複数の連続データの各々から、等間隔で取得したＮ（Ｎは２以上の自然数）点の値を成分とする、Ｎ次元空間上の点の集合である疑似アトラクタを生成し、
生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、前記Ｎ次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成し、
前記複数の疑似アトラクタの各々について、生成された前記ベッチ数の連続データを入力とする機械学習を実行する、
処理を実行する機械学習方法。

（付記８）
複数の連続データの各々から、等間隔で取得したＮ（Ｎは２以上の自然数）点の値を成分とする、Ｎ次元空間上の点の集合である疑似アトラクタを生成する生成部と、
前記生成部により生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、前記Ｎ次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成する算出部と、
前記複数の疑似アトラクタの各々について、前記生成部により生成された前記ベッチ数の連続データを入力とする機械学習を実行する実行部と、
を有する情報処理装置。

１情報処理装置１０１第１連続データ格納部
１０３第１生成部１０５疑似アトラクタデータ格納部
１０７第２生成部１０９バーコードデータ格納部
１１１第３生成部１１３第２連続データ格納部
１１５機械学習部１１７学習結果格納部
１１９削除部１２１付加部

Claims

コンピュータに、
複数の連続データの各々から、等間隔で取得したＮ（Ｎは２以上の自然数）点の値を成分とする、Ｎ次元空間上の点の集合である疑似アトラクタを生成し、
生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、前記Ｎ次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成し、
前記複数の疑似アトラクタの各々について、生成された前記ベッチ数の連続データを入力とする機械学習を実行する、
処理を実行させる機械学習プログラム。
前記ベッチ数の連続データを生成する処理において、
前記パーシステントホモロジーの計算処理により、各穴が発生してから消滅するまでの時間を表す第１データを穴の次元毎に生成し、
生成された前記第１データに基づき、前記球の半径に対する前記ベッチ数を穴の次元毎に算出し、
穴の次元毎に算出された、前記球の半径に対する前記ベッチ数に基づき、前記ベッチ数の連続データを生成する、
請求項１記載の機械学習プログラム。
前記ベッチ数は、発生時の半径と消滅時の半径との差が所定長以上である穴の数である、
請求項１又は２記載の機械学習プログラム。
前記コンピュータに、
前記複数の連続データの各々から、当該連続データに含まれる値の平均値を算出する
処理をさらに実行させ、
前記機械学習を実行する処理において、
生成された前記ベッチ数の連続データと前記平均値とを入力とする機械学習を実行する、
請求項１乃至３のいずれか１つ記載の機械学習プログラム。
前記複数の連続データの各々はラベル付き連続データであり、
前記機械学習を実行する処理において、
前記球の半径に対する前記ベッチ数と、前記ラベルとの関係について機械学習を実行する、
請求項１記載の機械学習プログラム。
コンピュータが、
複数の連続データの各々から、等間隔で取得したＮ（Ｎは２以上の自然数）点の値を成分とする、Ｎ次元空間上の点の集合である疑似アトラクタを生成し、
生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、前記Ｎ次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成し、
前記複数の疑似アトラクタの各々について、生成された前記ベッチ数の連続データを入力とする機械学習を実行する、
処理を実行する機械学習方法。
複数の連続データの各々から、等間隔で取得したＮ（Ｎは２以上の自然数）点の値を成分とする、Ｎ次元空間上の点の集合である疑似アトラクタを生成する生成部と、
前記生成部により生成された複数の疑似アトラクタの各々から、パーシステントホモロジーの計算処理により、前記Ｎ次元空間上の球の半径に対する穴の数であるベッチ数の連続データを生成する算出部と、
前記複数の疑似アトラクタの各々について、前記生成部により生成された前記ベッチ数の連続データを入力とする機械学習を実行する実行部と、
を有する情報処理装置。