JP6844327B2

JP6844327B2 - データ生成方法、データ生成装置及びデータ生成プログラム

Info

Publication number: JP6844327B2
Application number: JP2017040325A
Authority: JP
Inventors: 裕平梅田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-03-03
Filing date: 2017-03-03
Publication date: 2021-03-17
Anticipated expiration: 2037-03-03
Also published as: US20190385020A1; JP2018147155A; US11120302B2; WO2018159558A1

Description

本発明は、時系列データの処理技術に関する。

時系列データに対する機械学習が行われている。例えば、人に装着されたウエアラブルセンサにより取得された時系列データを学習データとし、かつ、時系列データが取得された時点における人の状態を教師データとして、学習モデルに対する機械学習をコンピュータに実行させる。そして、機械学習された学習モデルを利用し、新たな時系列データが取得された時点における人の状態をコンピュータに推定させる。

時系列データに対する機械学習に関して、或る文献は以下のような技術を開示する。具体的には、図形化手法に基づき時系列データが図形化され、図形化の結果に対して、位相幾何学に基づくデータ分析手法の一つである位相的データ解析（Topological Data Analysis）が実行される。そして、位相的データ解析の結果に対して、ＤＮＮ（Deep Neural Network）を用いた機械学習が実行される。

但し、上記文献に記載の技術は、単一の時系列データに対する機械学習の技術であるので、複数の時系列データに対する機械学習に適した技術ではない。

富士通株式会社、"人々の安心安全な暮らしを支える新しいAI「時系列ディープラーニング」"、［online］、平成２８年３月１０日、［平成２８年１２月１日検索］、インターネット＜URL：http://journal.jp.fujitsu.com/2016/03/10/01/＞

本発明の目的は、１つの側面では、複数の時系列データに対する機械学習に適した特徴情報を生成することである。

一態様に係るデータ生成方法は、複数の時系列データと、複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、寄与率に対応したベッチ数系列を生成し、複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、特徴画像と、複数の時系列データに対応した分類とを対応付けた機械学習データを生成する処理を含む。

１つの側面では、複数の時系列データに対する機械学習に適した特徴情報を生成できる。

図１は、第１の実施の形態の情報処理装置の機能ブロック図である。図２は、第１の実施の形態のメイン処理フローを示す図である。図３は、時系列データの正規化について説明するための図である。図４は、拡張アトラクタの生成について説明するための図である。図５は、αの値の一例を示す図である。図６は、拡張ベクトル生成処理の処理フローを示す図である。図７は、バーコード図の一例を示す図である。図８は、バーコードデータの一例を示す図である。図９は、バーコードデータとベッチシリーズとの関係について説明するための図である。図１０は、パーシステント区間の一例を示す図である。図１１は、特徴画像について説明するための図である。図１２は、第１の実施の形態のメイン処理フローを示す図である。図１３は、第１の実施の形態におけるＣＮＮの一例を示す模式図である。図１４は、ラベルと重み行列との関係を説明するための図である。図１５は、統計量の算出について説明するための図である。図１６は、関連度のベクトルの生成について説明するための図である。図１７は、第１の実施の形態のメイン処理フローを示す図である。図１８は、第１の関係データについてのパターンを示す図である。図１９は、第２の関係データについてのパターンを示す図である。図２０は、第３の関係データについてのパターン及び第４の関係データについてのパターンを示す図である。図２１は、時系列データの具体例を示す図である。図２２は、時系列データの具体例を示す図である。図２３は、時系列データの具体例を示す図である。図２４は、時系列データの具体例を示す図である。図２５は、時系列データの具体例を示す図である。図２６は、時系列データの具体例を示す図である。図２７は、時系列データの具体例を示す図である。図２８は、時系列データの具体例を示す図である。図２９は、関連度と寄与パラメータとの関係を示す図である。図３０は、第２の実施の形態におけるメイン処理フローを示す図である。図３１は、第２の実施の形態における学習モデルの一例を示す図である。図３２は、第３の実施の形態の情報処理装置の機能ブロック図である。図３３は、第３の実施の形態におけるメイン処理フローを示す図である。図３４は、入力ベクトルの一例を示す図である。図３５は、第３の実施の形態におけるメイン処理フローを示す図である。図３６は、第３の実施の形態におけるメイン処理フローを示す図である。図３７は、第４の実施の形態の情報処理装置の機能ブロック図である。図３８は、第４の実施の形態におけるメイン処理フローを示す図である。図３９は、第４の実施の形態における関連度の算出について説明するための図である。図４０は、コンピュータの機能ブロック図である。

［実施の形態１］
図１は、第１の実施の形態の情報処理装置１の機能ブロック図である。情報処理装置１は、時系列データ格納部１０１と、第１生成部１０３と、画像データ格納部１０５と、機械学習部１０７と、学習データ格納部１０９と、第２生成部１１１と、関連度格納部１１３と、判定部１１５と、判定結果格納部１１７とを含む。

第１生成部１０３、機械学習部１０７、第２生成部１１１および判定部１１５は、例えば、図４０に示したメモリ２５０１にロードされたプログラムが図４０に示したＣＰＵ（Central Processing Unit）２５０３により実行されることで実現される。時系列データ格納部１０１、画像データ格納部１０５、学習データ格納部１０９、関連度格納部１１３および判定結果格納部１１７は、例えば、図４０に示したＨＤＤ（Hard Disk Drive）２５０５又はメモリ２５０１に設けられる。

第１生成部１０３は、時系列データ格納部１０１に格納されているデータに基づき処理を実行し、処理結果を画像データ格納部１０５に格納する。機械学習部１０７は、画像データ格納部１０５に格納されているデータに基づき処理を実行し、処理結果を学習データ格納部１０９に格納する。第２生成部１１１は、学習データ格納部１０９に格納されているデータに基づき処理を実行し、処理結果を関連度格納部１１３に格納する。判定部１１５は、関連度格納部１１３に格納されているデータに基づき処理を実行し、処理結果を判定結果格納部１１７に格納する。

時系列データ格納部１０１に格納されているデータは、例えば、生体データ（心拍数、脳波、脈拍或いは体温などの時系列データ）、ウエアラブルセンサのデータ（ジャイロセンサ、加速度センサ或いは地磁気センサなどの時系列データ）、金融データ（金利、物価、国際収支或いは株価などの時系列データ）、自然環境のデータ（気温、湿度或いは二酸化炭素濃度などの時系列データ）、又は社会データ（労働統計或いは人口統計などのデータ）等である。但し、時系列データは、少なくとも以下のルールに従って変化するデータであるとする。

例えば、不規則な時系列データ又は手書き文字の軌跡などの人為的な動きに関するデータは、本実施の形態の対象外であるとする。また、時系列データ格納部１０１には、複数の時系列データを含むデータセットが複数格納されているとする。

図２は、第１の実施の形態の情報処理装置１が実行する処理の処理フローを示す図である。

第１生成部１０３は、時系列データ格納部１０１に格納されている複数のデータセットのうち１つのデータセットを特定する。そして、第１生成部１０３は、特定したデータセットに含まれる複数の時系列データの各々を、値の平均が０になるように平行移動する（図２：ステップＳ１）。

第１生成部１０３は、ステップＳ１の処理が実行された全時系列データの振幅の幅が同じになるように正規化を実行する（ステップＳ３）。

複数の時系列データが異なる種類の時系列データである場合には軸のスケールが異なるので、時系列データの生の値をそのまま利用することは問題である。例えば図３に示すように、時系列データｔ１の値の変動が時系列データｔ２の値の変動より大きい場合であっても、分類に与える影響に関しても時系列データｔ１の方が大きいとは限らないので、軸のスケールが異なっていると誤った学習が行われる可能性がある。そこで、ステップＳ３の処理により軸のスケールを一致させることで、この問題を解消することができる。

第１生成部１０３は、αの各値について、正規化された複数の時系列データから拡張アトラクタを生成する（ステップＳ７）。第１生成部１０３は、生成した拡張アトラクタをメモリ２５０１に格納する。

例えば、時系列データの数が２つである場合には以下のような拡張アトラクタが生成される。

αは寄与パラメータである。ｘ_i（１≦ｉ≦（ｋ＋２））は第１の時系列データの値であり、ｙ_j（１≦ｊ≦（ｋ＋２））は第２の時系列データの値である。

図４は、拡張アトラクタの生成について説明するための図である。拡張アトラクタの生成はターケンスの埋め込み定理に基づく。第１の時系列データから取り出されたＮ個（Ｎは埋め込み次元である。式（２）の例ではＮ＝３）の値に（１−α）が乗じられ、第２の時系列データから取り出されたＮ個の値にαが乗じられ、それらの値は１つの点の座標の成分になる。式（２）の例ではτ＝１であるため１つおきに要素が取り出されている。但し、Ｎの値およびτの値は式（２）の例には限られない。

寄与パラメータαは、例えば、０≦α≦１を満たす実数であり、時系列データの値の大きさを調整するパラメータである。但し、αの範囲はこのような範囲でなくてもよい。本実施の形態においては、例えば図５に示すように、一定の間隔で設定された複数の値が使用される。

そして、第１生成部１０３は、ステップＳ７において生成された拡張アトラクタを用いて、拡張ベクトル生成処理を実行する（ステップＳ９）。拡張ベクトル生成処理については、図６乃至図１０を用いて説明する。

第１生成部１０３は、寄与パラメータαの値のうち未処理の値を１つ特定する（図６：ステップＳ４１）。

第１生成部１０３は、ステップＳ４１において特定した値についての拡張アトラクタを、メモリ２５０１から読み出す（ステップＳ４３）。

第１生成部１０３は、パーシステントホモロジ処理によって、拡張アトラクタからバーコードデータを穴の次元（以下、穴次元と呼ぶ）毎に生成する（ステップＳ４５）。

「ホモロジ」とは、対象の特徴をｍ（ｍ≧０）次元の穴の数によって表現する手法である。ここで言う「穴」とはホモロジ群の元のことであり、０次元の穴は連結成分であり、１次元の穴は穴（トンネル）であり、２次元の穴は空洞である。各次元の穴の数はベッチ数と呼ばれる。

「パーシステントホモロジ」とは、対象（ここでは、拡張アトラクタ）におけるｍ次元の穴の遷移を特徴付けるための手法であり、パーシステントホモロジによって点の配置に関する特徴を調べることができる。この手法においては、対象における各点が球状に徐々に膨らまされ、その過程において各穴が発生した時刻（発生時の球の半径で表される）と消滅した時刻（消滅時の球の半径で表される）とが特定される。

穴の発生半径と消滅半径とを使用することで、例えば図７に示すようなバーコード図を生成することができる。図７において、横軸は半径を表し、各線分は１つの穴に対応する。線分の左端に対応する半径は穴の発生半径であり、線分の右端に対応する半径は穴の消滅半径である。線分はパーシステント区間と呼ばれる。このようなバーコード図から、例えば半径が０．１８である時には２つの穴が存在するということがわかる。

図８に、バーコード図を生成するためのデータ（以下、バーコードデータと呼ぶ）の一例を示す。図８の例では、穴次元を表す数値と、穴の発生半径と、穴の消滅半径とがバーコードデータに含まれる。ステップＳ４５において、バーコードデータは穴次元毎に生成される。

以上のような処理を実行すれば、或る拡張アトラクタから生成されるバーコードデータと他の拡張アトラクタから生成されるバーコードデータとの類似関係は、拡張アトラクタ間の類似関係と等価である。よって、拡張アトラクタとバーコードデータとの関係は１対１の関係である。

すなわち、拡張アトラクタが同じであれば、生成されるバーコードデータは同じである。逆に、バーコードデータが同じであれば、拡張アトラクタも同じである。また、拡張アトラクタが類似している場合にはバーコードデータも類似するため、機械学習に必要な条件が満たされる。拡張アトラクタが異なる場合には、バーコードデータも異なる。

なお、パーシステントホモロジの詳細については、例えば「平岡裕章、『タンパク質構造とトポロジーパーシステントホモロジー群入門』、共立出版」を参照されたい。

図６の説明に戻り、第１生成部１０３は、長さが所定長未満であるパーシステント区間のデータを、ステップＳ４５において生成されたバーコードデータから削除する（ステップＳ４７）。なお、パーシステント区間の長さは、（消滅半径−発生半径）によって算出される。所定長は、例えば、０次元の穴が発生してから消滅するまでの時間をＫ等分した時間（以下、ブロックと呼ぶ）の長さである。但し、１ブロックの長さに限られるわけではなく、複数ブロックの長さを所定長としてもよい。

発生から消滅までの時間が短い元は、ノイズによって発生するものがほとんどである。長さが所定長未満であるパーシステント区間のデータを削除すれば、ノイズの影響を緩和することができるので、分類性能を向上させることができるようになる。但し、削除の対象は次元が１以上であるパーシステント区間のデータであるとする。

ノイズが発生した場合においては、僅かな時間だけ１次元以上の穴が発生することがある。ステップＳ４７の処理を実行すれば、両ケースにおいて生成されるデータはほぼ同じになるので、ノイズの影響を取り除くことができるようになる。

なお、長さが所定長未満であるパーシステント区間のデータが削除されるので、削除後のバーコードデータ間の類似関係は、元のバーコードデータ間の類似関係と厳密には等価ではない。削除が行われない場合には、類似関係は等価である。

図６の説明に戻り、第１生成部１０３は、バーコードデータを統合し、統合されたバーコードデータから拡張ベクトルを生成する（ステップＳ４８）。拡張ベクトルはベッチ数の系列である。

上で述べたように、バーコードデータは穴次元毎に生成されるので、第１生成部１０３は、複数の穴次元のバーコードデータを統合することで１塊のバーコードデータを生成する。ベッチ数の系列は、パーシステントホモロジにおける球の半径（すなわち時間）とベッチ数との関係を示すデータである。図９を用いて、バーコードデータと生成されるベッチ数の系列との関係について説明する。上段のグラフはバーコードデータから生成されるグラフであり、横軸が半径を表す。下段のグラフはベッチ数の系列から生成されるグラフであり、縦軸はベッチ数を表し、横軸は時間を表す。上で述べたように、ベッチ数は穴の数を表しており、例えば上段のグラフにおいて破線に対応する半径の時には存在している穴の数が１０であるので、下段のグラフにおいては破線に対応するベッチ数も１０である。ベッチ数は、ブロック毎に計数される。なお、下段のグラフは疑似的な時系列データのグラフであるので、横軸の値自体が意味を持つわけではない。

基本的には、同じバーコードデータからは同じ系列が得られる。すなわち、元の点の集合が同じであれば同じ系列が得られる。但し、異なるバーコードから同じ系列が得られるケースが極めて稀に発生する。

例えば図１０に示すようなバーコードデータを考える。このバーコードデータは１以上の次元の穴に関するデータであるとする。図１０（ａ）のケースにおいては、パーシステント区間ｐ１が時刻ｔ１で開始し、かつ、時刻ｔ２で終了し、パーシステント区間ｐ２が時刻ｔ２で開始し、かつ、時刻ｔ３で終了する。一方、図１０（ｂ）のケースにおいては、パーシステント区間ｐ４が時刻ｔ１で開始し、かつ、時刻ｔ３で終了する。両ケースにおけるパーシステント区間ｐ３は全く同じであるとする。

このような場合、両ケースにおけるバーコードデータからは全く同じ系列が得られるので、両ケースを区別することができない。しかし、このような現象が発生する可能性は極めて低い。また、両ケースの点の集合は元々似ており、機械学習による分類に与える影響が極めて小さいので、上記のような現象が発生しても問題は無い。

従って、或るバーコードデータから生成されるベッチ数の系列と、別のバーコードデータから生成されるベッチ数の系列との類似関係は、上で述べた稀なケースが発生しなければ、バーコードデータ間の類似関係と等価である。以上から、データ間の距離の定義は変わるものの、バーコードデータから生成されるベッチ数の系列間の類似関係は、元の拡張アトラクタ間の類似関係とほぼ等価である。

図６の説明に戻り、第１生成部１０３は、αの値のうち未処理の値が有るか判定する（ステップＳ４９）。未処理の値が有る場合（ステップＳ４９：Ｙｅｓルート）、ステップＳ４１の処理に戻る。未処理の値が無い場合（ステップＳ４９：Ｎｏルート）、処理は呼び出し元に戻る。

以上のように、パーシステントホモロジ処理を実行すれば、拡張アトラクタにおける点の位置関係を、バーコードデータに反映することができる。パーシステントホモロジ処理によって生成されたバーコードデータは、バーコードの本数が一定ではないため、そのままでは機械学習の入力とすることが難しい。そこで本実施の形態においては、バーコードデータをベッチ数の系列に変換することで、機械学習の入力とすることを可能にしている

また、上で述べたように、本実施の形態によればノイズの影響を取り除くことができる。

図２の説明に戻り、第１生成部１０３は、ステップＳ９において生成された複数の拡張ベクトルを、αの値の大きさの順に列方向に結合することで特徴画像を生成し（ステップＳ１１）、生成した特徴画像を画像データ格納部１０５に格納する。そして処理は端子Ａを介して図１２のステップＳ１３に移行する。

図１１は、特徴画像の一例を示す図である。正方形の図形はセルを表し、各セルには拡張ベクトルの要素であるベッチ数が格納される。１つの行が１つの拡張ベクトルに対応する。従って、図１１の例においては、１１個の拡張ベクトルが結合されており、特徴画像は１１の行を有する行列に相当する。図１１においては拡張ベクトルの要素の数が１５であるが、数に限定は無い。

図１２の説明に移行し、機械学習部１０７は、ステップＳ１１において生成された特徴画像に対して、ＣＮＮ（Convolutional Neural Network）を用いた機械学習を実行する（ステップＳ１３）。ここでは、機械学習部１０７は、特徴画像とそのラベルとに基づく機械学習を実行する。機械学習部１０７は、機械学習の結果（例えば更新後の重み行列等）を学習データ格納部１０９に格納する。

なお、説明を簡単にするため複数のデータセットのうち１つのデータセットについてステップＳ１乃至Ｓ１３の処理が実行される例を示したが、実際には、複数のデータセットの各々について処理が実行される。そして、機械学習が十分に進んだことが確認されたうえで、ステップＳ１７以降の処理が実行される。

第２生成部１１１は、分類に関する複数のラベルのうち未処理のラベルを１つ特定する（ステップＳ１７）。

図１３は、第１の実施の形態におけるＣＮＮの一例を示す模式図である。第１の実施の形態の機械学習においては、ステップＳ１１において生成された特徴画像を入力として、畳み込み等の演算が実行される。最終特徴層と識別層との間は全結合である。図１３の例においてはラベルの数は２であるが、ラベルの数が３以上であってもよい。

第２生成部１１１は、ステップＳ１７において特定したラベルについて、最終特徴層と識別層との間の重み行列の要素を、学習データ格納部１０９から読み出す。そして、第２生成部１１１は、読み出した要素の絶対値を算出する（ステップＳ１９）。

図１４は、ラベルと重み行列との関係を説明するための図である。ＣＮＮにおいては、最終特徴層における各ユニットの各セルの値に重み行列Ｗ_nにおける重みが乗じられるので、ステップＳ１９においては各セルについての重みが読み出される。なお、重みの絶対値は活性度とも呼ばれる。

第２生成部１１１は、最終特徴層と識別層との間の各重み行列の各行について、ステップＳ１９において算出した絶対値の統計量（例えば、平均値又は最大値）を算出する（ステップＳ２１）。

図１５は、活性度の統計量の算出について説明するための図である。最終特徴層の各ユニットの画像データは、ステップＳ１１において生成された特徴画像を圧縮した画像データに相当するので、縦軸は寄与パラメータαに対応している。後述のように、本実施の形態においては寄与パラメータαと関連度との関係に基づき複数の時系列データの相関関係が特定されるので、図１５に示すように、αの各値について統計量が算出される。従って、例えば最終特徴層のユニット数が２であれば、２つの重み行列それぞれの各行について、ステップＳ１９において算出された絶対値の統計量が算出される。すなわち、最終特徴層の各ユニットについてベクトルが生成される。

第２生成部１１１は、最終特徴層のベクトルについて、ユニット間で要素の値の統計量（例えば、平均、総和又は最大値）を行毎に算出する。そして、第２生成部１１１は、算出した統計量を要素とするベクトルを生成する（ステップＳ２３）。第１の実施の形態においては、ステップＳ２３において生成されたベクトルの各要素の値を関連度として取り扱う。関連度とは、対象の分類に対してセルが及ぼす影響の度合いを表す値である。

図１６は、関連度のベクトルの生成について説明するための図である。ステップＳ２１の処理の結果として生成されたベクトルの要素数（すなわち行数）はユニット間で同一である。従って、ステップＳ２３においては、値の統計量が行毎に関連度として算出され、関連度のベクトルが１つ生成される。

第２生成部１１１は、ステップＳ２３において生成した関連度のベクトルの要素の最大値、最小値、並びに最大値および最小値の位置（例えば要素番号）を特定する（ステップＳ２５）。第２生成部１１１は、関連度のベクトルと、特定した最大値、最小値、並びに最大値および最小値の位置とを関連度格納部１１３に格納する。処理は端子Ｂを介して図１７のステップＳ２７に移行する。

図１７の説明に移行し、判定部１１５は、関連度格納部１１３に格納されている情報を読み出す。そして、判定部１１５は、最小値に対する最大値の割合が所定値以下であるか判定する（図１７：ステップＳ２７）。所定値とは、例えば１．２である。最小値に対する最大値の割合が所定値以下であることは、最大値と最小値との差が比較的小さいことを意味する。

最小値に対する最大値の割合が所定値以下である場合（ステップＳ２７：Ｙｅｓルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、ステップＳ１７において特定されたラベルについての分類に両方の時系列データが独立して影響することを示す第１の関係データを生成し（ステップＳ２８）、第１の関係データを判定結果格納部１１７に格納する。そして処理はステップＳ３７に移行する。

図１８は、第１の関係データについてのパターンを示す図である。図１８において、縦軸は関連度を表し、横軸は寄与パラメータαを表す。最小値に対する最大値の割合が所定値以下である場合には、αの値が比較的小さいとき（すなわち、一方の時系列データの値に乗じられる寄与パラメータの値が比較的大きい場合）と、αの値が比較的大きいとき（すなわち、他方の時系列データの値に乗じられる寄与パラメータの値が比較的大きい場合）とで、関連度が同程度になる。このような場合には、対象のラベルについての分類に両方の時系列データが影響を及ぼしていると考えられる。そして、αの値の大きさが中程度であるとき（仮にαの範囲が０≦α≦１であれば、αが約０．５であるとき）の関連度も両端の関連度と同程度であるので、時系列データの間に時間相関が無いと考えられる。

一方、最小値に対する最大値の割合が所定値以下ではない場合（ステップＳ２７：Ｎｏルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、最大値および最小値が関連度のベクトルの端に位置するか判定する（ステップＳ２９）。

最大値および最小値が関連度のベクトルの端に位置する場合（ステップＳ２９：Ｙｅｓルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、ステップＳ１７において特定されたラベルについての分類に最大値側の時系列データが影響することを示す第２の関係データを生成し（ステップＳ３０）、第２の関係データを判定結果格納部１１７に格納する。そして処理はステップＳ３７に移行する。

図１９（ａ）及び図１９（ｂ）は、第２の関係データについてのパターンを示す図である。図１９（ａ）及び図１９（ｂ）において、縦軸は関連度を表し、横軸は寄与パラメータαを表す。最大値および最小値が関連度のベクトルの端に位置する場合、関連度と寄与パラメータαとの関係はおおよそ図１９（ａ）又は図１９（ｂ）に示すような関係である。このような場合には、対象のラベルについての分類には、関連度の最大値側の時系列データが影響すると考えられる。そして、時系列データ間の時間相関は無いと考えられる。

一方、最大値および最小値の少なくともいずれかが関連度のベクトルの端に位置しない場合（ステップＳ２９：Ｎｏルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、最大値が関連度のベクトルの中央に位置するか判定する（ステップＳ３１）。

最大値が関連度のベクトルの中央に位置する場合（ステップＳ３１：Ｙｅｓルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、ステップＳ１７において特定されたラベルについての分類に両方の時系列データが影響し、かつ、時系列データ間に相関関係があることを示す第３の関係データを生成し（ステップＳ３２）、第３の関係データを判定結果格納部１１７に格納する。そして処理はステップＳ３７に移行する。

図２０（ａ）は、第３の関係データについてのパターンを示す図である。図２０（ａ）において、縦軸は関連度を表し、横軸は寄与パラメータαを表す。最大値が関連度のベクトルの中央に位置する場合、両端の関連度の値が比較的小さくなると考えられ、その場合には対象のラベルについての分類に対して単独の時系列データが影響することはない。そして、最大値が関連度のベクトルの中央に位置することから、時系列データ間に時間相関が有ると考えられる。

一方、最大値が関連度のベクトルの中央に位置しない場合（ステップＳ３１：Ｎｏルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、最小値が関連度のベクトルの中央に位置するか判定する（ステップＳ３３）。

最小値が関連度のベクトルの中央に位置する場合（ステップＳ３３：Ｙｅｓルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、ステップＳ１７において特定されたラベルについての分類に両方の時系列データが影響し、かつ、時系列データ間に相関関係が無いことを示す第４の関係データを生成し（ステップＳ３５）、第４の関係データを判定結果格納部１１７に格納する。一方、最小値が関連度のベクトルの中央に位置しない場合（ステップＳ３３：Ｎｏルート）、処理はステップＳ３７に移行する。

図２０（ｂ）は、第４の関係データについてのパターンを示す図である。図２０（ｂ）において、縦軸は関連度を表し、横軸は寄与パラメータαを表す。最小値が関連度のベクトルの中央に位置する場合、両端の関連度の値が比較的大きくなると考えられ、その場合には対象のラベルについての分類に対して時系列データ単独で影響する。そして、最小値が関連度のベクトルの中央に位置することから、時系列データ間に時間相関が無いと考えられる。

第２生成部１１１は、未処理のラベルが有るか判定する（ステップＳ３７）。未処理のラベルが有る場合（ステップＳ３７：Ｙｅｓルート）、処理は端子Ｃを介して図１２のステップＳ１７に戻る。一方、未処理のラベルが無い場合（ステップＳ３７：Ｎｏルート）、処理は終了する。なお、判定結果格納部１１７に格納された関係データは表示装置に表示され又は他の端末等に送信され、ユーザにより確認される。

以上のように、本実施の形態によれば、複数の時系列データそれぞれの特徴が反映された特徴画像が生成されるようになる。複数の時系列データそのものを機械学習の入力とすることは難しいが、本実施の形態の方法により生成された特徴画像は機械学習に適している。また、特徴画像の生成過程においてノイズが取り除かれるため、機械学習の精度を高めることが可能である。

以下では、時系列データ間の相関関係の特定について、図２１乃至図２９に示した具体例を用いて説明を追加する。

図２１乃至図２８の上段には１つ目の時系列データ（図２１乃至図２８における「第１軸」の時系列データ）が示されており、図２１乃至図２８の下段には２つ目の時系列データ（図２１乃至図２８における「第２軸」の時系列データ）が示されている。線種が同じである時系列データは同じデータセットに含まれる。例えば、図２１の第１軸の太線の時系列データは、図２１の第２軸の太線の時系列データと同じデータセットに含まれる。

まず、図２１、図２２及び図２９（ａ）を用いて、第１の例について説明する。第１の例においては、第１軸の時系列データと第２軸の時系列データとの組合せが図２１に示した組み合わせである場合にラベル１が付与され、第１軸の時系列データと第２軸の時系列データとの組合せが図２２に示した組み合わせである場合にラベル２が付与される。

より具体的には、図２１に示すように、第１軸の全時系列データの振幅は約１であり、第２軸の時系列データの振幅はランダムに与えられている。第１軸の時系列データの位相及び第２軸の時系列データの位相はランダムに与えられている。

また、図２２に示すように、第１軸の全時系列データの振幅は約０．５であり、第２軸の時系列データの振幅はランダムに与えられている。第１軸の時系列データの位相及び第２軸の時系列データの位相はランダムに与えられている。

図２１及び図２２に示した複数のデータセットについて本実施の形態の処理を実行することで算出された関連度のベクトルを図２９（ａ）に示す。図２９（ａ）に示した例においては、最小値（０．０７５）に対する最大値（０．１３８）の割合が所定値（ここでは１．２）より大きく、αの値が最も小さい場合に関連度の最大値が出現し、かつ、αの値が最も大きい場合に関連度の最小値が出現している。このパターンは図１９（ａ）に示したパターンに相当するので、最大値側の時系列データである第１軸の時系列データのみが分類に影響を及ぼす（すなわち、第２軸の時系列データは分類に無関係）ことがわかる。

図２３、図２４及び図２９（ｂ）を用いて、第２の例について説明する。第２の例においては、第１軸の時系列データと第２軸の時系列データとの組合せが図２３に示した組み合わせである場合にラベル１が付与され、第１軸の時系列データと第２軸の時系列データとの組合せが図２４に示した組み合わせである場合にラベル２が付与される。

より具体的には、図２３に示すように、各データセットについて、第１軸の時系列データの振幅は約１であり、かつ、第２軸の時系列データの振幅は約０．５である。第１軸の時系列データの位相及び第２軸の時系列データの位相はランダムに与えられている。

また、図２４に示すように、各データセットにおいて、第１軸の時系列データの振幅は約０．５であり、かつ、第２軸の時系列データの振幅は約１である。第１軸の時系列データの位相及び第２軸の時系列データの位相はランダムに与えられている。

図２３及び図２４に示した複数のデータセットについて本実施の形態の処理を実行することで算出された関連度のベクトルを図２９（ｂ）に示す。図２９（ｂ）に示した例においては、関連度の最大値は０．１０５であり、関連度の最小値は０．０９１である。最小値に対する最大値の割合が所定値（ここでは１．２）以下であるので、このパターンは図１８に示したパターンに相当する。つまり、第１軸の時系列データおよび第２軸の時系列データの両方が分類に影響を及ぼすことがわかる。この場合、少なくともいずれかの時系列データによって分類をすることが可能である。

図２５、図２６及び図２９（ｃ）を用いて、第３の例について説明する。第３の例においては、第１軸の時系列データと第２軸の時系列データとの組合せが図２５に示した組み合わせである場合にラベル１が付与され、第１軸の時系列データと第２軸の時系列データとの組合せが図２６に示した組み合わせである場合にラベル２が付与される。

より具体的には、図２５に示すように、各データセットについて、第１軸の時系列データの振幅と第２軸の時系列データの振幅との両方が約１であるか、又は、第１軸の時系列データの振幅と第２軸の時系列データの振幅との両方が約０．５である。第１軸の時系列データの位相及び第２軸の時系列データの位相はランダムに与えられている。

また、図２６に示すように、各データセットについて、第１軸の時系列データの振幅が約１であり、かつ、第２軸の時系列データの振幅が約０．５であるか、又は、第１軸の時系列データの振幅が約０．５であり、かつ、第２軸の時系列データの振幅が約１である。第１軸の時系列データの位相及び第２軸の時系列データの位相はランダムに与えられている。

図２５及び図２６に示した複数のデータセットについて本実施の形態の処理を実行することで算出された関連度のベクトルを図２９（ｃ）に示す。図２９（ｃ）に示した例においては、関連度の最大値は０．０７４であり、関連度の最小値は０．０５５である。最小値に対する最大値の割合が所定値（ここでは１．２）より大きく、かつ、最小値が中央のセルに近いセルに位置するので、このパターンは図２０（ｂ）に示したパターンに相当する可能性がある。つまり、第１軸の時系列データおよび第２軸の時系列データの両方が分類に影響を及ぼす（すなわち、両方の時系列データが必要である）が両者は時間相関を有しないと考えられる。

図２７、図２８及び図２９（ｄ）を用いて、第４の例について説明する。第４の例においては、第１軸の時系列データと第２軸の時系列データとの組合せが図２７に示した組み合わせである場合にラベル１が付与され、第１軸の時系列データと第２軸の時系列データとの組合せが図２８に示した組み合わせである場合にラベル２が付与される。

より具体的には、図２７に示すように、各データセットについて、第１軸の時系列データの振幅と第２軸の時系列データの振幅との両方が約１であり、第１軸の時系列データの位相と第２軸の時系列データの位相とが同じである。

また、図２８に示すように、各データセットについて、第１軸の時系列データの振幅と第２軸の時系列データの振幅との両方が約１であり、第２軸の時系列データの位相は第１軸の時系列データの位相と半位相分ずれている。

図２７及び図２８に示した複数のデータセットについて本実施の形態の処理を実行することで算出した関連度のベクトルを図２９（ｄ）に示す。図２９（ｄ）に示した例においては、関連度の最大値は０．３２０であり、関連度の最小値は０．１１８である。最小値に対する最大値の割合が所定値（ここでは１．２）より大きく、かつ、最大値が中央のセルに位置するので、このパターンは図２０（ａ）に示したパターンに相当する。つまり、第１軸の時系列データおよび第２軸の時系列データの両方が分類に影響を及ぼし（すなわち、両方の時系列データが必要であり）、かつ、両者は時間相関を有することがわかる。

以上のように、本実施の形態によれば、対象のラベルについて複数の時系列データの相関関係を特定することができるようになる。例えば、２つの時系列データのうち一方のみが分類に影響することが判明した場合、他方の時系列データを値の取得および解析の対象から外すことができるので、分類への悪影響を回避できるとともに、データの取得および解析に要する時間およびコストを短縮することができる。また、例えば、２つの時系列データのうちいずれか一方の時系列データのみで分類が可能である場合、データの取得の容易さ等の観点から時系列データを選択することができるので、データの取得にかかる時間及びコストを減らすことができるようになる。また、解析に要する時間およびコストも削減することができるようになる。また、例えば、２つの時系列データの両方が必要であることが判明した場合、時間軸を揃えて２つの時系列データを取得するべきであるか否かを事前に把握できるので、センサ等の設定を誤ってしまうことを防ぐことができる。

また、第１の実施の形態においてはＣＮＮを用いた機械学習が利用され、特徴画像におけるセル間の関係が考慮されるため、以下で説明する他の実施形態と比較して学習の精度を高めることができるようになる。

［実施の形態２］
第１の実施の形態においては特徴画像に対してＣＮＮを用いた機械学習が実行されるが、機械学習の方法はＣＮＮには限られない。以下では、図３０及び図３１を用いて、特徴画像を直接学習させる方法について説明する。なお、第２の実施の形態の処理において第１の実施の形態の処理と異なる部分は端子Ａ以降の処理であるので、端子Ａ以降の処理のみ以下で説明する。第２の実施の形態における機械学習を、単層の学習モデルを用いた機械学習と呼ぶ。

まず、機械学習部１０７は、ステップＳ１１において生成された特徴画像に対して、単層の学習モデルを用いた機械学習を実行する（図３０：ステップＳ５１）。機械学習部１０７は、機械学習の結果（例えば更新後の重み行列等）を学習データ格納部１０９に格納する。

図３１は、第２の実施の形態における学習モデルの一例を示す図である。第２の実施の形態においては、特徴画像における各セルの値そのものに対する機械学習が実行される。各セルの値には識別層への重みが乗じられる。

ステップＳ５３以降の処理は、複数のデータセットの各々についてステップＳ５１の処理が実行され、かつ、機械学習が十分に進んだことが確認された後に実行される。

第２生成部１１１は、分類に関する複数のラベルのうち未処理のラベルを１つ特定する（ステップＳ５３）。

第２生成部１１１は、ステップＳ５３において特定したラベルについて、特徴画像における各セルについての重みを学習データ格納部１０９から抽出する（ステップＳ５５）。

第２生成部１１１は、特徴画像における各セルについて、分散を算出する（ステップＳ５７）。複数のデータセットについてステップＳ１１までの処理が実行されれば複数の特徴画像が生成されるので、各セルについて、複数の値から分散が算出される。

第２生成部１１１は、特徴画像における各セルについて、算出した分散と抽出した重みの絶対値とに基づき関連度を算出する（ステップＳ５９）。例えば、セル（ｘ，ｙ）の分散をｖ_x,yとし、かつ、重みの絶対値をｗ_x,yとすると、第２生成部１１１は、セル（ｘ，ｙ）の関連度をｖ_x,y＊ｗ_x,yとして算出する。

第２生成部１１１は、各行について関連度の統計量（例えば、平均又は最大値）を算出することで関連度のベクトルを生成し（ステップＳ６１）、生成したベクトルを関連度格納部１１３に格納する。そして処理は端子Ｂを介して図１７のステップＳ２７に移行する。

以上のような処理を実行すれば、例えばＣＮＮを実行することが適切ではない場合においても、複数の時系列データの相関を特定することができるようになる。

［実施の形態３］
第３の実施の形態においては拡張ベクトルから生成されたデータに対してＳＶＭ（Support Vector Machine）を用いた機械学習が実行される。

図３２は、第３の実施の形態の情報処理装置１の機能ブロック図である。情報処理装置１は、時系列データ格納部１０１と、第１生成部１０３と、ベクトルデータ格納部１１９と、機械学習部１０７と、学習データ格納部１０９と、第２生成部１１１と、関連度格納部１１３と、判定部１１５と、判定結果格納部１１７とを含む。

第１生成部１０３、機械学習部１０７、第２生成部１１１および判定部１１５は、例えば、図４０に示したメモリ２５０１にロードされたプログラムが図４０に示したＣＰＵ２５０３により実行されることで実現される。時系列データ格納部１０１、ベクトルデータ格納部１１９、学習データ格納部１０９、関連度格納部１１３および判定結果格納部１１７は、例えば、図４０に示したＨＤＤ２５０５又はメモリ２５０１に設けられる。

第１生成部１０３は、時系列データ格納部１０１に格納されているデータに基づき処理を実行し、処理結果をベクトルデータ格納部１１９に格納する。機械学習部１０７は、ベクトルデータ格納部１１９に格納されているデータに基づき処理を実行し、処理結果を学習データ格納部１０９に格納する。第２生成部１１１は、学習データ格納部１０９に格納されているデータに基づき処理を実行し、処理結果を関連度格納部１１３に格納する。判定部１１５は、関連度格納部１１３に格納されているデータに基づき処理を実行し、処理結果を判定結果格納部１１７に格納する。

図３３は、第３の実施の形態の情報処理装置１が実行する処理の処理フローを示す図である。

第１生成部１０３は、時系列データ格納部１０１に格納されている複数のデータセットのうち１つのデータセットを特定する。そして、第１生成部１０３は、特定したデータセットに含まれる複数の時系列データの各々を、値の平均が０になるように平行移動する（図３３：ステップＳ７１）。

第１生成部１０３は、ステップＳ７１の処理が実行された全時系列データの振幅の幅が同じになるように正規化を実行する（ステップＳ７３）。

第１生成部１０３は、αの各値について、正規化された複数の時系列データから拡張アトラクタを生成する（ステップＳ７７）。第１生成部１０３は、生成した拡張アトラクタをメモリ２５０１に格納する。拡張アトラクタの生成は、第１の実施の形態と同様である。

第１生成部１０３は、ステップＳ７７において生成された拡張アトラクタを用いて、拡張ベクトル生成処理を実行する（ステップＳ７９）。拡張ベクトル生成処理については、図６乃至図１０を用いて説明したとおりであるので、ここでは説明を省略する。

第１生成部１０３は、ステップＳ７９において生成された複数の拡張ベクトルを、αの値の大きさの順に行方向に結合することで入力ベクトルを生成し（ステップＳ８１）、生成した入力ベクトルをベクトルデータ格納部１１９に格納する。そして処理は端子Ｄを介して図３５のステップＳ８３に移行する。

図３４は、入力ベクトルの一例を示す図である。正方形の図形はベクトルの要素を表し、各要素にはベッチ数が格納される。図３４の例では７つの要素を有するベクトルが１つの拡張ベクトルに対応する。このような拡張ベクトルが連結されることで、１つの入力ベクトルが生成される。

図３５の説明に移行し、機械学習部１０７は、ステップＳ８１において生成された入力ベクトルに対して、ＳＶＭを用いた機械学習を実行する（ステップＳ８３）。機械学習部１０７は、機械学習の結果を学習データ格納部１０９に格納する。

なお、説明を簡単にするため複数のデータセットのうち１つのデータセットについてステップＳ７１乃至Ｓ８３の処理が実行される例を示したが、実際には、複数のデータセットの各々について処理が実行される。そして、機械学習が十分に進んだことが確認されたうえで、ステップＳ８５以降の処理が実行される。

第２生成部１１１は、入力ベクトルの各要素について、値の平均値および分散を算出する（ステップＳ８５）。複数のデータセットについてステップＳ８３までの処理が実行されれば複数の入力ベクトルが生成されるので、各要素について、値の平均および分散が算出される。

第２生成部１１１は、ステップＳ８５において算出した平均値を各要素の値とするベクトルを生成する。そして、第２生成部１１１は、ＳＶＭを用いた機械学習の結果を用いて、生成したベクトルの分類スコアを基準分類スコアとして算出する（ステップＳ８７）。

第２生成部１１１は、ステップＳ８７において生成したベクトルの各要素について、当該要素のみ値を（平均＋分散）又は（平均−分散）に変更した場合の分類スコアを、ＳＶＭを用いた機械学習の結果を用いて算出する（ステップＳ８９）。

第２生成部１１１は、各要素の関連度を、ステップＳ８９において算出した分類スコアと基準分類スコアとの差として算出し（ステップＳ９１）、関連度格納部１１３に格納する。そして処理は端子Ｅを介して図３６のステップＳ９３に移行する。

図３６の説明に移行し、判定部１１５は、関連度格納部１１３に格納されている情報を読み出す。そして、判定部１１５は、最小値に対する最大値の割合が所定値以下であるか判定する（図３６：ステップＳ９３）。所定値とは、例えば１．２である。最小値に対する最大値の割合が所定値以下であることは、最大値と最小値との差が比較的小さいことを意味する。

最小値に対する最大値の割合が所定値以下である場合（ステップＳ９３：Ｙｅｓルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、両方の時系列データが分類に独立して影響することを示す第１の関係データを生成し（ステップＳ９５）、第１の関係データを判定結果格納部１１７に格納する。そして処理は終了する。

一方、最小値に対する最大値の割合が所定値以下ではない場合（ステップＳ９３：Ｎｏルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、最大値および最小値が関連度のベクトルの端に位置するか判定する（ステップＳ９７）。

最大値および最小値が関連度のベクトルの端に位置する場合（ステップＳ９７：Ｙｅｓルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、最大値側の時系列データが分類に影響することを示す第２の関係データを生成し（ステップＳ９９）、第２の関係データを判定結果格納部１１７に格納する。そして処理は終了する。

一方、最大値および最小値の少なくともいずれかが関連度のベクトルの端に位置しない場合（ステップＳ９７：Ｎｏルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、最大値が関連度のベクトルの中央に位置するか判定する（ステップＳ１０１）。

最大値が関連度のベクトルの中央に位置する場合（ステップＳ１０１：Ｙｅｓルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、分類に両方の時系列データが影響し、かつ、時系列データ間に相関関係があることを示す第３の関係データを生成し（ステップＳ１０３）、第３の関係データを判定結果格納部１１７に格納する。そして処理は終了する。

一方、最大値が関連度のベクトルの中央に位置しない場合（ステップＳ１０１：Ｎｏルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、最小値が関連度のベクトルの中央に位置するか判定する（ステップＳ１０５）。

最小値が関連度のベクトルの中央に位置する場合（ステップＳ１０５：Ｙｅｓルート）、判定部１１５は、以下の処理を実行する。具体的には、判定部１１５は、分類に両方の時系列データが影響し、かつ、時系列データ間に相関関係が無いことを示す第４の関係データを生成し（ステップＳ１０７）、第４の関係データを判定結果格納部１１７に格納する。そして処理は終了する。また、最小値が関連度のベクトルの中央に位置しない場合（ステップＳ１０５：Ｎｏルート）、処理は終了する。なお、判定結果格納部１１７に格納された関係データは表示装置に表示され又は他の端末等に送信され、ユーザにより確認される。

以上のように、ＳＶＭを用いた機械学習により、汎化性能を高めつつ、複数の時系列データの相関関係を特定することができるようになる。なお、説明を簡単にするためラベルとの関係が述べられていないが、第３の実施の形態においても、各ラベルについて処理が実行されてもよい。

［実施の形態４］
第１乃至第３の実施の形態においては機械学習の結果に基づき関連度が算出されるが、第４の実施の形態においては、機械学習以外の方法で関連度が算出される。

図３７は、第４の実施の形態の情報処理装置１の機能ブロック図である。情報処理装置１は、時系列データ格納部１０１と、第１生成部１０３と、第１データ格納部１２１と、データ処理部１２３と、第２データ格納部１２５と、第２生成部１１１と、関連度格納部１１３と、判定部１１５と、判定結果格納部１１７とを含む。

第１生成部１０３、データ処理部１２３、第２生成部１１１および判定部１１５は、例えば、図４０に示したメモリ２５０１にロードされたプログラムが図４０に示したＣＰＵ２５０３により実行されることで実現される。時系列データ格納部１０１、第１データ格納部１２１、第２データ格納部１２５、関連度格納部１１３および判定結果格納部１１７は、例えば、図４０に示したＨＤＤ２５０５又はメモリ２５０１に設けられる。

第１生成部１０３は、時系列データ格納部１０１に格納されているデータに基づき処理を実行し、処理結果を第１データ格納部１２１に格納する。データ処理部１２３は、第１データ格納部１２１に格納されているデータに基づき処理を実行し、処理結果を第２データ格納部１２５に格納する。第２生成部１１１は、第２データ格納部１２５に格納されているデータに基づき処理を実行し、処理結果を関連度格納部１１３に格納する。判定部１１５は、関連度格納部１１３に格納されているデータに基づき処理を実行し、処理結果を判定結果格納部１１７に格納する。

図３８は、第４の実施の形態の情報処理装置１が実行する処理の処理フローを示す図である。ここでは、ラベルが２つであることを前提として処理を説明する。

第１生成部１０３は、時系列データ格納部１０１に格納されている複数のデータセットのうち１つのデータセットを特定する。そして、第１生成部１０３は、特定したデータセットに含まれる複数の時系列データの各々を、値の平均が０になるように平行移動する（図３８：ステップＳ１１１）。

第１生成部１０３は、ステップＳ１１１の処理が実行された全時系列データの振幅の幅が同じになるように正規化を実行する（ステップＳ１１３）。

第１生成部１０３は、αの各値について、正規化された複数の時系列データから拡張アトラクタを生成する（ステップＳ１１７）。第１生成部１０３は、生成した拡張アトラクタをメモリ２５０１に格納する。拡張アトラクタの生成は、第１の実施の形態と同様である。

第１生成部１０３は、ステップＳ１１７において生成された拡張アトラクタを用いて、拡張ベクトル生成処理を実行する（ステップＳ１１９）。拡張ベクトル生成処理については、図６乃至図１０を用いて説明したとおりであるので、ここでは説明を省略する。

なお、説明を簡単にするため複数のデータセットのうち１つのデータセットについてステップＳ１１１乃至Ｓ１１９の処理が実行される例を示したが、実際には、複数のデータセットの各々について処理が実行されて複数の拡張ベクトルが生成される。

そして、データ処理部１２３は、ステップＳ１１９の処理によって第１データ格納部１２１に格納された複数の拡張ベクトルのうちラベル１の分類に属する拡張ベクトルの各要素の平均および分散を算出する（ステップＳ１２１）。

データ処理部１２３は、ステップＳ１１９の処理によって第１データ格納部１２１に格納された複数の拡張ベクトルのうちラベル２の分類に属する拡張ベクトルの各要素の平均および分散を算出する（ステップＳ１２３）。

データ処理部１２３は、各要素について、ラベル１についての分布とラベル２についての分布とを正規分布と仮定して２つの正規分布が重なる部分の面積Ｓを算出する（ステップＳ１２５）。データ処理部１２３は、各要素についての面積Ｓを第２データ格納部１２５に格納する。ステップＳ１２５においては、例えば図３９に示すような２つの正規分布について、重なっている部分（ハッチされた部分）である面積Ｓが各要素について算出される。なお、図３９において横軸は確率変数を表し、縦軸は確率密度を表す。

第２生成部１１１は、ラベル１に関する関連度を（１−Ｓ）として算出し（ステップＳ１２７）、ラベル１に関する関連度を関連度格納部１１３に格納する。なお、ラベル２に関する関連度も、同様に（１−Ｓ）として算出され、関連度格納部１１３に格納される。ラベルの数が３以上である場合には、ラベル１に関する関連度は、他のラベルに対する関連度の平均値として算出される。例えばラベルの数が３である場合、ラベル１に関する関連度は、ラベル２に対する関連度とラベル３に対する関連度との平均値として算出される。

ステップＳ１２７の処理により、ラベル１及びラベル２について関連度のベクトルが生成される。以降、各ラベルについて図３６に示した端子Ｅ以降の処理が実行される。

以上のような処理を実行すれば、機械学習を実行しない場合においても、複数の時系列データの相関関係を特定することができるようになる。

以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置１の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。

また、上で説明したデータ構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。

なお、上で述べた情報処理装置１は、コンピュータ装置であって、図４０に示すように、メモリ２５０１とＣＰＵ２５０３とＨＤＤ２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施例における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。ＣＰＵ２５０３は、アプリケーション・プログラムの処理内容に応じて表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ２５０１に格納されるが、ＨＤＤ２５０５に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

以上述べた本発明の実施の形態をまとめると、以下のようになる。

本実施の形態の第１の態様に係るデータ生成方法は、（Ａ）複数の時系列データと、複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、寄与率に対応したベッチ数系列を生成し、（Ｂ）複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、（Ｃ）特徴画像と、複数の時系列データに対応した分類とを対応付けた機械学習データを生成する処理を含む。

複数の時系列データに対する機械学習に適した特徴情報を生成できるようになる。

また、本データ生成方法は、（Ｄ）生成された機械学習データに基づき、複数の分類のうち特定の分類への影響の度合いを表す関連度と寄与率との関係についての第１のデータを生成し、（Ｅ）第１のデータに基づき、特定の分類に関して、複数の時系列データの相関関係についての第２のデータを生成する処理をさらに含んでもよい。

特定の分類に関して複数の時系列データの相関関係を特定することができるようになる。

また、機械学習データは、畳み込みニューラルネットワークに基づく機械学習データであってもよい。そして、第１のデータを生成する処理において、（ｄ１）機械学習データに含まれる、最終特徴層と識別層との間の重み行列の要素の絶対値に基づき、特定の分類に対する関連度を複数の寄与率の値それぞれについて算出してもよい。

畳み込みニューラルネットワークに基づく機械学習は、他の機械学習と比較して、特徴画像に含まれる画素間の位置関係が考慮されるので、機械学習の分類性能を向上させることができるようになる。また、最終特徴層と識別層との間の重み行列は識別層における各分類に直接影響するので、上で述べた処理を実行すれば、識別層における特定の分類に対する関連度を適切に算出できるようになる。

また、機械学習データは、単層の学習モデルに基づく機械学習データであってもよい。

第１のデータに対して直接学習を実行できるようになる。

また、第２のデータを生成する処理において、（ｅ１）第１のデータに含まれる関連度の最大値、最小値、並びに最大値及び最小値の位置に基づき、複数の時系列データの各々が独立して特定の分類に影響することを示す第１の関係データ、複数の時系列データのうちいずれかが特定の分類に影響することを示す第２の関係データ、複数の時系列データの各々が特定の分類に影響し、かつ、複数の時系列データが時間相関を有することを示す第３の関係データ、又は複数の時系列データの各々が特定の分類に影響し、かつ、複数の時系列データが時間相関を有しないことを示す第４の関係データを生成してもよい。

また、第２のデータを生成する処理において、（ｅ１１）最小値に対する最大値の割合が所定値以下である場合に、第１の関係データを生成し、（ｅ１２）最大値及び最小値が第１のデータに含まれる関連度の列の端に位置する場合に、第２の関係データを生成し、（ｅ１３）最大値が第１のデータに含まれる関連度の列の中央に位置する場合に、第３の関係データを生成し、（ｅ１４）最小値が第１のデータに含まれる関連度の列の中央に位置する場合に、第４の関係データを生成してもよい。

また、複数の時系列データは正規化された複数の時系列データであってもよい。

複数の時系列データを平等に取り扱うことができるようになる。

本実施の形態の第２の態様に係るデータ生成装置は、（Ｆ）複数の時系列データと、複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、寄与率に対応したベッチ数系列を生成し、複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成する第１生成部（実施の形態における第１生成部１０３は、上記第１生成部の一例である）と、（Ｇ）特徴画像と、複数の時系列データに対応した分類とを対応付けた機械学習データを生成する第２生成部（実施の形態における機械学習部１０７は、第２生成部の一例である）とを有する。

なお、上記方法による処理をプロセッサに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）
コンピュータに、
複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、
複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、
前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する、
処理を実行させるデータ生成プログラム。

（付記２）
前記コンピュータに、
生成された前記機械学習データに基づき、複数の分類のうち特定の分類への影響の度合いを表す関連度と前記寄与率との関係についての第１のデータを生成し、
前記第１のデータに基づき、前記特定の分類に関して、前記複数の時系列データの相関関係についての第２のデータを生成する、
処理をさらに実行させる付記１記載のデータ生成プログラム。

（付記３）
前記機械学習データは、畳み込みニューラルネットワークに基づく機械学習データであり、
前記第１のデータを生成する処理において、
前記機械学習データに含まれる、最終特徴層と識別層との間の重み行列の要素の絶対値に基づき、前記特定の分類に対する関連度を前記複数の寄与率の値それぞれについて算出する、
付記２記載のデータ生成プログラム。

（付記４）
前記機械学習データは、単層の学習モデルに基づく機械学習データである、
付記１記載のデータ生成プログラム。

（付記５）
前記第２のデータを生成する処理において、
前記第１のデータに含まれる関連度の最大値、最小値、並びに最大値及び最小値の位置に基づき、前記複数の時系列データの各々が独立して前記特定の分類に影響することを示す第１の関係データ、前記複数の時系列データのうちいずれかが前記特定の分類に影響することを示す第２の関係データ、前記複数の時系列データの各々が前記特定の分類に影響し、かつ、前記複数の時系列データが時間相関を有することを示す第３の関係データ、又は前記複数の時系列データの各々が前記特定の分類に影響し、かつ、前記複数の時系列データが時間相関を有しないことを示す第４の関係データを生成する、
付記２記載のデータ生成プログラム。

（付記６）
前記第２のデータを生成する処理において、
前記最小値に対する前記最大値の割合が所定値以下である場合に、前記第１の関係データを生成し、
前記最大値及び前記最小値が前記第１のデータに含まれる関連度の列の端に位置する場合に、前記第２の関係データを生成し、
前記最大値が前記第１のデータに含まれる関連度の列の中央に位置する場合に、前記第３の関係データを生成し、
前記最小値が前記第１のデータに含まれる関連度の列の中央に位置する場合に、前記第４の関係データを生成する、
付記５記載のデータ生成プログラム。

（付記７）
前記複数の時系列データは正規化された複数の時系列データである、
付記１乃至６のいずれか１つ記載のデータ生成プログラム。

（付記８）
コンピュータが、
複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、
複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、
前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する、
処理を実行するデータ生成方法。

（付記９）
複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成する第１生成部と、
前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する第２生成部と、
を有するデータ生成装置。

１情報処理装置１０１時系列データ格納部
１０３第１生成部１０５画像データ格納部
１０７機械学習部１０９学習データ格納部
１１１第２生成部１１３関連度格納部
１１５判定部１１７判定結果格納部
１１９ベクトルデータ格納部１２１第１データ格納部
１２３データ処理部１２５第２データ格納部

Claims

コンピュータに、
複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、
複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、
前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する、
処理を実行させるデータ生成プログラム。
前記コンピュータに、
生成された前記機械学習データに基づき、複数の分類のうち特定の分類への影響の度合いを表す関連度と前記寄与率との関係についての第１のデータを生成し、
前記第１のデータに基づき、前記特定の分類に関して、前記複数の時系列データの相関関係についての第２のデータを生成する、
処理をさらに実行させる請求項１記載のデータ生成プログラム。
前記機械学習データは、畳み込みニューラルネットワークに基づく機械学習データであり、
前記第１のデータを生成する処理において、
前記機械学習データに含まれる、最終特徴層と識別層との間の重み行列の要素の絶対値に基づき、前記特定の分類に対する関連度を前記複数の寄与率の値それぞれについて算出する、
請求項２記載のデータ生成プログラム。
前記第２のデータを生成する処理において、
前記第１のデータに含まれる関連度の最大値、最小値、並びに最大値及び最小値の位置に基づき、前記複数の時系列データの各々が独立して前記特定の分類に影響することを示す第１の関係データ、前記複数の時系列データのうちいずれかが前記特定の分類に影響することを示す第２の関係データ、前記複数の時系列データの各々が前記特定の分類に影響し、かつ、前記複数の時系列データが時間相関を有することを示す第３の関係データ、又は前記複数の時系列データの各々が前記特定の分類に影響し、かつ、前記複数の時系列データが時間相関を有しないことを示す第４の関係データを生成する、
請求項２記載のデータ生成プログラム。
前記複数の時系列データは正規化された複数の時系列データである、
請求項１乃至４のいずれか１つ記載のデータ生成プログラム。
コンピュータが、
複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、
複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、
前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する、
処理を実行するデータ生成方法。
複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成する第１生成部と、
前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する第２生成部と、
を有するデータ生成装置。