JP6844327B2 - データ生成方法、データ生成装置及びデータ生成プログラム - Google Patents

データ生成方法、データ生成装置及びデータ生成プログラム Download PDF

Info

Publication number
JP6844327B2
JP6844327B2 JP2017040325A JP2017040325A JP6844327B2 JP 6844327 B2 JP6844327 B2 JP 6844327B2 JP 2017040325 A JP2017040325 A JP 2017040325A JP 2017040325 A JP2017040325 A JP 2017040325A JP 6844327 B2 JP6844327 B2 JP 6844327B2
Authority
JP
Japan
Prior art keywords
data
time series
series data
generated
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017040325A
Other languages
English (en)
Other versions
JP2018147155A (ja
Inventor
裕平 梅田
裕平 梅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017040325A priority Critical patent/JP6844327B2/ja
Priority to PCT/JP2018/007041 priority patent/WO2018159558A1/ja
Publication of JP2018147155A publication Critical patent/JP2018147155A/ja
Priority to US16/554,886 priority patent/US11120302B2/en
Application granted granted Critical
Publication of JP6844327B2 publication Critical patent/JP6844327B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Description

本発明は、時系列データの処理技術に関する。
時系列データに対する機械学習が行われている。例えば、人に装着されたウエアラブルセンサにより取得された時系列データを学習データとし、かつ、時系列データが取得された時点における人の状態を教師データとして、学習モデルに対する機械学習をコンピュータに実行させる。そして、機械学習された学習モデルを利用し、新たな時系列データが取得された時点における人の状態をコンピュータに推定させる。
時系列データに対する機械学習に関して、或る文献は以下のような技術を開示する。具体的には、図形化手法に基づき時系列データが図形化され、図形化の結果に対して、位相幾何学に基づくデータ分析手法の一つである位相的データ解析(Topological Data Analysis)が実行される。そして、位相的データ解析の結果に対して、DNN(Deep Neural Network)を用いた機械学習が実行される。
但し、上記文献に記載の技術は、単一の時系列データに対する機械学習の技術であるので、複数の時系列データに対する機械学習に適した技術ではない。
富士通株式会社、"人々の安心安全な暮らしを支える新しいAI「時系列ディープラーニング」"、[online]、平成28年3月10日、[平成28年12月1日検索]、インターネット<URL:http://journal.jp.fujitsu.com/2016/03/10/01/>
本発明の目的は、1つの側面では、複数の時系列データに対する機械学習に適した特徴情報を生成することである。
一態様に係るデータ生成方法は、複数の時系列データと、複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、寄与率に対応したベッチ数系列を生成し、複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、特徴画像と、複数の時系列データに対応した分類とを対応付けた機械学習データを生成する処理を含む。
1つの側面では、複数の時系列データに対する機械学習に適した特徴情報を生成できる。
図1は、第1の実施の形態の情報処理装置の機能ブロック図である。 図2は、第1の実施の形態のメイン処理フローを示す図である。 図3は、時系列データの正規化について説明するための図である。 図4は、拡張アトラクタの生成について説明するための図である。 図5は、αの値の一例を示す図である。 図6は、拡張ベクトル生成処理の処理フローを示す図である。 図7は、バーコード図の一例を示す図である。 図8は、バーコードデータの一例を示す図である。 図9は、バーコードデータとベッチシリーズとの関係について説明するための図である。 図10は、パーシステント区間の一例を示す図である。 図11は、特徴画像について説明するための図である。 図12は、第1の実施の形態のメイン処理フローを示す図である。 図13は、第1の実施の形態におけるCNNの一例を示す模式図である。 図14は、ラベルと重み行列との関係を説明するための図である。 図15は、統計量の算出について説明するための図である。 図16は、関連度のベクトルの生成について説明するための図である。 図17は、第1の実施の形態のメイン処理フローを示す図である。 図18は、第1の関係データについてのパターンを示す図である。 図19は、第2の関係データについてのパターンを示す図である。 図20は、第3の関係データについてのパターン及び第4の関係データについてのパターンを示す図である。 図21は、時系列データの具体例を示す図である。 図22は、時系列データの具体例を示す図である。 図23は、時系列データの具体例を示す図である。 図24は、時系列データの具体例を示す図である。 図25は、時系列データの具体例を示す図である。 図26は、時系列データの具体例を示す図である。 図27は、時系列データの具体例を示す図である。 図28は、時系列データの具体例を示す図である。 図29は、関連度と寄与パラメータとの関係を示す図である。 図30は、第2の実施の形態におけるメイン処理フローを示す図である。 図31は、第2の実施の形態における学習モデルの一例を示す図である。 図32は、第3の実施の形態の情報処理装置の機能ブロック図である。 図33は、第3の実施の形態におけるメイン処理フローを示す図である。 図34は、入力ベクトルの一例を示す図である。 図35は、第3の実施の形態におけるメイン処理フローを示す図である。 図36は、第3の実施の形態におけるメイン処理フローを示す図である。 図37は、第4の実施の形態の情報処理装置の機能ブロック図である。 図38は、第4の実施の形態におけるメイン処理フローを示す図である。 図39は、第4の実施の形態における関連度の算出について説明するための図である。 図40は、コンピュータの機能ブロック図である。
[実施の形態1]
図1は、第1の実施の形態の情報処理装置1の機能ブロック図である。情報処理装置1は、時系列データ格納部101と、第1生成部103と、画像データ格納部105と、機械学習部107と、学習データ格納部109と、第2生成部111と、関連度格納部113と、判定部115と、判定結果格納部117とを含む。
第1生成部103、機械学習部107、第2生成部111および判定部115は、例えば、図40に示したメモリ2501にロードされたプログラムが図40に示したCPU(Central Processing Unit)2503により実行されることで実現される。時系列データ格納部101、画像データ格納部105、学習データ格納部109、関連度格納部113および判定結果格納部117は、例えば、図40に示したHDD(Hard Disk Drive)2505又はメモリ2501に設けられる。
第1生成部103は、時系列データ格納部101に格納されているデータに基づき処理を実行し、処理結果を画像データ格納部105に格納する。機械学習部107は、画像データ格納部105に格納されているデータに基づき処理を実行し、処理結果を学習データ格納部109に格納する。第2生成部111は、学習データ格納部109に格納されているデータに基づき処理を実行し、処理結果を関連度格納部113に格納する。判定部115は、関連度格納部113に格納されているデータに基づき処理を実行し、処理結果を判定結果格納部117に格納する。
時系列データ格納部101に格納されているデータは、例えば、生体データ(心拍数、脳波、脈拍或いは体温などの時系列データ)、ウエアラブルセンサのデータ(ジャイロセンサ、加速度センサ或いは地磁気センサなどの時系列データ)、金融データ(金利、物価、国際収支或いは株価などの時系列データ)、自然環境のデータ(気温、湿度或いは二酸化炭素濃度などの時系列データ)、又は社会データ(労働統計或いは人口統計などのデータ)等である。但し、時系列データは、少なくとも以下のルールに従って変化するデータであるとする。
Figure 0006844327
例えば、不規則な時系列データ又は手書き文字の軌跡などの人為的な動きに関するデータは、本実施の形態の対象外であるとする。また、時系列データ格納部101には、複数の時系列データを含むデータセットが複数格納されているとする。
図2は、第1の実施の形態の情報処理装置1が実行する処理の処理フローを示す図である。
第1生成部103は、時系列データ格納部101に格納されている複数のデータセットのうち1つのデータセットを特定する。そして、第1生成部103は、特定したデータセットに含まれる複数の時系列データの各々を、値の平均が0になるように平行移動する(図2:ステップS1)。
第1生成部103は、ステップS1の処理が実行された全時系列データの振幅の幅が同じになるように正規化を実行する(ステップS3)。
複数の時系列データが異なる種類の時系列データである場合には軸のスケールが異なるので、時系列データの生の値をそのまま利用することは問題である。例えば図3に示すように、時系列データt1の値の変動が時系列データt2の値の変動より大きい場合であっても、分類に与える影響に関しても時系列データt1の方が大きいとは限らないので、軸のスケールが異なっていると誤った学習が行われる可能性がある。そこで、ステップS3の処理により軸のスケールを一致させることで、この問題を解消することができる。
第1生成部103は、αの各値について、正規化された複数の時系列データから拡張アトラクタを生成する(ステップS7)。第1生成部103は、生成した拡張アトラクタをメモリ2501に格納する。
例えば、時系列データの数が2つである場合には以下のような拡張アトラクタが生成される。
Figure 0006844327
αは寄与パラメータである。xi(1≦i≦(k+2))は第1の時系列データの値であり、yj(1≦j≦(k+2))は第2の時系列データの値である。
図4は、拡張アトラクタの生成について説明するための図である。拡張アトラクタの生成はターケンスの埋め込み定理に基づく。第1の時系列データから取り出されたN個(Nは埋め込み次元である。式(2)の例ではN=3)の値に(1−α)が乗じられ、第2の時系列データから取り出されたN個の値にαが乗じられ、それらの値は1つの点の座標の成分になる。式(2)の例ではτ=1であるため1つおきに要素が取り出されている。但し、Nの値およびτの値は式(2)の例には限られない。
寄与パラメータαは、例えば、0≦α≦1を満たす実数であり、時系列データの値の大きさを調整するパラメータである。但し、αの範囲はこのような範囲でなくてもよい。本実施の形態においては、例えば図5に示すように、一定の間隔で設定された複数の値が使用される。
そして、第1生成部103は、ステップS7において生成された拡張アトラクタを用いて、拡張ベクトル生成処理を実行する(ステップS9)。拡張ベクトル生成処理については、図6乃至図10を用いて説明する。
第1生成部103は、寄与パラメータαの値のうち未処理の値を1つ特定する(図6:ステップS41)。
第1生成部103は、ステップS41において特定した値についての拡張アトラクタを、メモリ2501から読み出す(ステップS43)。
第1生成部103は、パーシステントホモロジ処理によって、拡張アトラクタからバーコードデータを穴の次元(以下、穴次元と呼ぶ)毎に生成する(ステップS45)。
「ホモロジ」とは、対象の特徴をm(m≧0)次元の穴の数によって表現する手法である。ここで言う「穴」とはホモロジ群の元のことであり、0次元の穴は連結成分であり、1次元の穴は穴(トンネル)であり、2次元の穴は空洞である。各次元の穴の数はベッチ数と呼ばれる。
「パーシステントホモロジ」とは、対象(ここでは、拡張アトラクタ)におけるm次元の穴の遷移を特徴付けるための手法であり、パーシステントホモロジによって点の配置に関する特徴を調べることができる。この手法においては、対象における各点が球状に徐々に膨らまされ、その過程において各穴が発生した時刻(発生時の球の半径で表される)と消滅した時刻(消滅時の球の半径で表される)とが特定される。
穴の発生半径と消滅半径とを使用することで、例えば図7に示すようなバーコード図を生成することができる。図7において、横軸は半径を表し、各線分は1つの穴に対応する。線分の左端に対応する半径は穴の発生半径であり、線分の右端に対応する半径は穴の消滅半径である。線分はパーシステント区間と呼ばれる。このようなバーコード図から、例えば半径が0.18である時には2つの穴が存在するということがわかる。
図8に、バーコード図を生成するためのデータ(以下、バーコードデータと呼ぶ)の一例を示す。図8の例では、穴次元を表す数値と、穴の発生半径と、穴の消滅半径とがバーコードデータに含まれる。ステップS45において、バーコードデータは穴次元毎に生成される。
以上のような処理を実行すれば、或る拡張アトラクタから生成されるバーコードデータと他の拡張アトラクタから生成されるバーコードデータとの類似関係は、拡張アトラクタ間の類似関係と等価である。よって、拡張アトラクタとバーコードデータとの関係は1対1の関係である。
すなわち、拡張アトラクタが同じであれば、生成されるバーコードデータは同じである。逆に、バーコードデータが同じであれば、拡張アトラクタも同じである。また、拡張アトラクタが類似している場合にはバーコードデータも類似するため、機械学習に必要な条件が満たされる。拡張アトラクタが異なる場合には、バーコードデータも異なる。
なお、パーシステントホモロジの詳細については、例えば「平岡裕章、『タンパク質構造とトポロジー パーシステントホモロジー群入門』、共立出版」を参照されたい。
図6の説明に戻り、第1生成部103は、長さが所定長未満であるパーシステント区間のデータを、ステップS45において生成されたバーコードデータから削除する(ステップS47)。なお、パーシステント区間の長さは、(消滅半径−発生半径)によって算出される。所定長は、例えば、0次元の穴が発生してから消滅するまでの時間をK等分した時間(以下、ブロックと呼ぶ)の長さである。但し、1ブロックの長さに限られるわけではなく、複数ブロックの長さを所定長としてもよい。
発生から消滅までの時間が短い元は、ノイズによって発生するものがほとんどである。長さが所定長未満であるパーシステント区間のデータを削除すれば、ノイズの影響を緩和することができるので、分類性能を向上させることができるようになる。但し、削除の対象は次元が1以上であるパーシステント区間のデータであるとする。
ノイズが発生した場合においては、僅かな時間だけ1次元以上の穴が発生することがある。ステップS47の処理を実行すれば、両ケースにおいて生成されるデータはほぼ同じになるので、ノイズの影響を取り除くことができるようになる。
なお、長さが所定長未満であるパーシステント区間のデータが削除されるので、削除後のバーコードデータ間の類似関係は、元のバーコードデータ間の類似関係と厳密には等価ではない。削除が行われない場合には、類似関係は等価である。
図6の説明に戻り、第1生成部103は、バーコードデータを統合し、統合されたバーコードデータから拡張ベクトルを生成する(ステップS48)。拡張ベクトルはベッチ数の系列である。
上で述べたように、バーコードデータは穴次元毎に生成されるので、第1生成部103は、複数の穴次元のバーコードデータを統合することで1塊のバーコードデータを生成する。ベッチ数の系列は、パーシステントホモロジにおける球の半径(すなわち時間)とベッチ数との関係を示すデータである。図9を用いて、バーコードデータと生成されるベッチ数の系列との関係について説明する。上段のグラフはバーコードデータから生成されるグラフであり、横軸が半径を表す。下段のグラフはベッチ数の系列から生成されるグラフであり、縦軸はベッチ数を表し、横軸は時間を表す。上で述べたように、ベッチ数は穴の数を表しており、例えば上段のグラフにおいて破線に対応する半径の時には存在している穴の数が10であるので、下段のグラフにおいては破線に対応するベッチ数も10である。ベッチ数は、ブロック毎に計数される。なお、下段のグラフは疑似的な時系列データのグラフであるので、横軸の値自体が意味を持つわけではない。
基本的には、同じバーコードデータからは同じ系列が得られる。すなわち、元の点の集合が同じであれば同じ系列が得られる。但し、異なるバーコードから同じ系列が得られるケースが極めて稀に発生する。
例えば図10に示すようなバーコードデータを考える。このバーコードデータは1以上の次元の穴に関するデータであるとする。図10(a)のケースにおいては、パーシステント区間p1が時刻t1で開始し、かつ、時刻t2で終了し、パーシステント区間p2が時刻t2で開始し、かつ、時刻t3で終了する。一方、図10(b)のケースにおいては、パーシステント区間p4が時刻t1で開始し、かつ、時刻t3で終了する。両ケースにおけるパーシステント区間p3は全く同じであるとする。
このような場合、両ケースにおけるバーコードデータからは全く同じ系列が得られるので、両ケースを区別することができない。しかし、このような現象が発生する可能性は極めて低い。また、両ケースの点の集合は元々似ており、機械学習による分類に与える影響が極めて小さいので、上記のような現象が発生しても問題は無い。
従って、或るバーコードデータから生成されるベッチ数の系列と、別のバーコードデータから生成されるベッチ数の系列との類似関係は、上で述べた稀なケースが発生しなければ、バーコードデータ間の類似関係と等価である。以上から、データ間の距離の定義は変わるものの、バーコードデータから生成されるベッチ数の系列間の類似関係は、元の拡張アトラクタ間の類似関係とほぼ等価である。
図6の説明に戻り、第1生成部103は、αの値のうち未処理の値が有るか判定する(ステップS49)。未処理の値が有る場合(ステップS49:Yesルート)、ステップS41の処理に戻る。未処理の値が無い場合(ステップS49:Noルート)、処理は呼び出し元に戻る。
以上のように、パーシステントホモロジ処理を実行すれば、拡張アトラクタにおける点の位置関係を、バーコードデータに反映することができる。パーシステントホモロジ処理によって生成されたバーコードデータは、バーコードの本数が一定ではないため、そのままでは機械学習の入力とすることが難しい。そこで本実施の形態においては、バーコードデータをベッチ数の系列に変換することで、機械学習の入力とすることを可能にしている
また、上で述べたように、本実施の形態によればノイズの影響を取り除くことができる。
図2の説明に戻り、第1生成部103は、ステップS9において生成された複数の拡張ベクトルを、αの値の大きさの順に列方向に結合することで特徴画像を生成し(ステップS11)、生成した特徴画像を画像データ格納部105に格納する。そして処理は端子Aを介して図12のステップS13に移行する。
図11は、特徴画像の一例を示す図である。正方形の図形はセルを表し、各セルには拡張ベクトルの要素であるベッチ数が格納される。1つの行が1つの拡張ベクトルに対応する。従って、図11の例においては、11個の拡張ベクトルが結合されており、特徴画像は11の行を有する行列に相当する。図11においては拡張ベクトルの要素の数が15であるが、数に限定は無い。
図12の説明に移行し、機械学習部107は、ステップS11において生成された特徴画像に対して、CNN(Convolutional Neural Network)を用いた機械学習を実行する(ステップS13)。ここでは、機械学習部107は、特徴画像とそのラベルとに基づく機械学習を実行する。機械学習部107は、機械学習の結果(例えば更新後の重み行列等)を学習データ格納部109に格納する。
なお、説明を簡単にするため複数のデータセットのうち1つのデータセットについてステップS1乃至S13の処理が実行される例を示したが、実際には、複数のデータセットの各々について処理が実行される。そして、機械学習が十分に進んだことが確認されたうえで、ステップS17以降の処理が実行される。
第2生成部111は、分類に関する複数のラベルのうち未処理のラベルを1つ特定する(ステップS17)。
図13は、第1の実施の形態におけるCNNの一例を示す模式図である。第1の実施の形態の機械学習においては、ステップS11において生成された特徴画像を入力として、畳み込み等の演算が実行される。最終特徴層と識別層との間は全結合である。図13の例においてはラベルの数は2であるが、ラベルの数が3以上であってもよい。
第2生成部111は、ステップS17において特定したラベルについて、最終特徴層と識別層との間の重み行列の要素を、学習データ格納部109から読み出す。そして、第2生成部111は、読み出した要素の絶対値を算出する(ステップS19)。
図14は、ラベルと重み行列との関係を説明するための図である。CNNにおいては、最終特徴層における各ユニットの各セルの値に重み行列Wnにおける重みが乗じられるので、ステップS19においては各セルについての重みが読み出される。なお、重みの絶対値は活性度とも呼ばれる。
第2生成部111は、最終特徴層と識別層との間の各重み行列の各行について、ステップS19において算出した絶対値の統計量(例えば、平均値又は最大値)を算出する(ステップS21)。
図15は、活性度の統計量の算出について説明するための図である。最終特徴層の各ユニットの画像データは、ステップS11において生成された特徴画像を圧縮した画像データに相当するので、縦軸は寄与パラメータαに対応している。後述のように、本実施の形態においては寄与パラメータαと関連度との関係に基づき複数の時系列データの相関関係が特定されるので、図15に示すように、αの各値について統計量が算出される。従って、例えば最終特徴層のユニット数が2であれば、2つの重み行列それぞれの各行について、ステップS19において算出された絶対値の統計量が算出される。すなわち、最終特徴層の各ユニットについてベクトルが生成される。
第2生成部111は、最終特徴層のベクトルについて、ユニット間で要素の値の統計量(例えば、平均、総和又は最大値)を行毎に算出する。そして、第2生成部111は、算出した統計量を要素とするベクトルを生成する(ステップS23)。第1の実施の形態においては、ステップS23において生成されたベクトルの各要素の値を関連度として取り扱う。関連度とは、対象の分類に対してセルが及ぼす影響の度合いを表す値である。
図16は、関連度のベクトルの生成について説明するための図である。ステップS21の処理の結果として生成されたベクトルの要素数(すなわち行数)はユニット間で同一である。従って、ステップS23においては、値の統計量が行毎に関連度として算出され、関連度のベクトルが1つ生成される。
第2生成部111は、ステップS23において生成した関連度のベクトルの要素の最大値、最小値、並びに最大値および最小値の位置(例えば要素番号)を特定する(ステップS25)。第2生成部111は、関連度のベクトルと、特定した最大値、最小値、並びに最大値および最小値の位置とを関連度格納部113に格納する。処理は端子Bを介して図17のステップS27に移行する。
図17の説明に移行し、判定部115は、関連度格納部113に格納されている情報を読み出す。そして、判定部115は、最小値に対する最大値の割合が所定値以下であるか判定する(図17:ステップS27)。所定値とは、例えば1.2である。最小値に対する最大値の割合が所定値以下であることは、最大値と最小値との差が比較的小さいことを意味する。
最小値に対する最大値の割合が所定値以下である場合(ステップS27:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、ステップS17において特定されたラベルについての分類に両方の時系列データが独立して影響することを示す第1の関係データを生成し(ステップS28)、第1の関係データを判定結果格納部117に格納する。そして処理はステップS37に移行する。
図18は、第1の関係データについてのパターンを示す図である。図18において、縦軸は関連度を表し、横軸は寄与パラメータαを表す。最小値に対する最大値の割合が所定値以下である場合には、αの値が比較的小さいとき(すなわち、一方の時系列データの値に乗じられる寄与パラメータの値が比較的大きい場合)と、αの値が比較的大きいとき(すなわち、他方の時系列データの値に乗じられる寄与パラメータの値が比較的大きい場合)とで、関連度が同程度になる。このような場合には、対象のラベルについての分類に両方の時系列データが影響を及ぼしていると考えられる。そして、αの値の大きさが中程度であるとき(仮にαの範囲が0≦α≦1であれば、αが約0.5であるとき)の関連度も両端の関連度と同程度であるので、時系列データの間に時間相関が無いと考えられる。
一方、最小値に対する最大値の割合が所定値以下ではない場合(ステップS27:Noルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最大値および最小値が関連度のベクトルの端に位置するか判定する(ステップS29)。
最大値および最小値が関連度のベクトルの端に位置する場合(ステップS29:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、ステップS17において特定されたラベルについての分類に最大値側の時系列データが影響することを示す第2の関係データを生成し(ステップS30)、第2の関係データを判定結果格納部117に格納する。そして処理はステップS37に移行する。
図19(a)及び図19(b)は、第2の関係データについてのパターンを示す図である。図19(a)及び図19(b)において、縦軸は関連度を表し、横軸は寄与パラメータαを表す。最大値および最小値が関連度のベクトルの端に位置する場合、関連度と寄与パラメータαとの関係はおおよそ図19(a)又は図19(b)に示すような関係である。このような場合には、対象のラベルについての分類には、関連度の最大値側の時系列データが影響すると考えられる。そして、時系列データ間の時間相関は無いと考えられる。
一方、最大値および最小値の少なくともいずれかが関連度のベクトルの端に位置しない場合(ステップS29:Noルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最大値が関連度のベクトルの中央に位置するか判定する(ステップS31)。
最大値が関連度のベクトルの中央に位置する場合(ステップS31:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、ステップS17において特定されたラベルについての分類に両方の時系列データが影響し、かつ、時系列データ間に相関関係があることを示す第3の関係データを生成し(ステップS32)、第3の関係データを判定結果格納部117に格納する。そして処理はステップS37に移行する。
図20(a)は、第3の関係データについてのパターンを示す図である。図20(a)において、縦軸は関連度を表し、横軸は寄与パラメータαを表す。最大値が関連度のベクトルの中央に位置する場合、両端の関連度の値が比較的小さくなると考えられ、その場合には対象のラベルについての分類に対して単独の時系列データが影響することはない。そして、最大値が関連度のベクトルの中央に位置することから、時系列データ間に時間相関が有ると考えられる。
一方、最大値が関連度のベクトルの中央に位置しない場合(ステップS31:Noルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最小値が関連度のベクトルの中央に位置するか判定する(ステップS33)。
最小値が関連度のベクトルの中央に位置する場合(ステップS33:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、ステップS17において特定されたラベルについての分類に両方の時系列データが影響し、かつ、時系列データ間に相関関係が無いことを示す第4の関係データを生成し(ステップS35)、第4の関係データを判定結果格納部117に格納する。一方、最小値が関連度のベクトルの中央に位置しない場合(ステップS33:Noルート)、処理はステップS37に移行する。
図20(b)は、第4の関係データについてのパターンを示す図である。図20(b)において、縦軸は関連度を表し、横軸は寄与パラメータαを表す。最小値が関連度のベクトルの中央に位置する場合、両端の関連度の値が比較的大きくなると考えられ、その場合には対象のラベルについての分類に対して時系列データ単独で影響する。そして、最小値が関連度のベクトルの中央に位置することから、時系列データ間に時間相関が無いと考えられる。
第2生成部111は、未処理のラベルが有るか判定する(ステップS37)。未処理のラベルが有る場合(ステップS37:Yesルート)、処理は端子Cを介して図12のステップS17に戻る。一方、未処理のラベルが無い場合(ステップS37:Noルート)、処理は終了する。なお、判定結果格納部117に格納された関係データは表示装置に表示され又は他の端末等に送信され、ユーザにより確認される。
以上のように、本実施の形態によれば、複数の時系列データそれぞれの特徴が反映された特徴画像が生成されるようになる。複数の時系列データそのものを機械学習の入力とすることは難しいが、本実施の形態の方法により生成された特徴画像は機械学習に適している。また、特徴画像の生成過程においてノイズが取り除かれるため、機械学習の精度を高めることが可能である。
以下では、時系列データ間の相関関係の特定について、図21乃至図29に示した具体例を用いて説明を追加する。
図21乃至図28の上段には1つ目の時系列データ(図21乃至図28における「第1軸」の時系列データ)が示されており、図21乃至図28の下段には2つ目の時系列データ(図21乃至図28における「第2軸」の時系列データ)が示されている。線種が同じである時系列データは同じデータセットに含まれる。例えば、図21の第1軸の太線の時系列データは、図21の第2軸の太線の時系列データと同じデータセットに含まれる。
まず、図21、図22及び図29(a)を用いて、第1の例について説明する。第1の例においては、第1軸の時系列データと第2軸の時系列データとの組合せが図21に示した組み合わせである場合にラベル1が付与され、第1軸の時系列データと第2軸の時系列データとの組合せが図22に示した組み合わせである場合にラベル2が付与される。
より具体的には、図21に示すように、第1軸の全時系列データの振幅は約1であり、第2軸の時系列データの振幅はランダムに与えられている。第1軸の時系列データの位相及び第2軸の時系列データの位相はランダムに与えられている。
また、図22に示すように、第1軸の全時系列データの振幅は約0.5であり、第2軸の時系列データの振幅はランダムに与えられている。第1軸の時系列データの位相及び第2軸の時系列データの位相はランダムに与えられている。
図21及び図22に示した複数のデータセットについて本実施の形態の処理を実行することで算出された関連度のベクトルを図29(a)に示す。図29(a)に示した例においては、最小値(0.075)に対する最大値(0.138)の割合が所定値(ここでは1.2)より大きく、αの値が最も小さい場合に関連度の最大値が出現し、かつ、αの値が最も大きい場合に関連度の最小値が出現している。このパターンは図19(a)に示したパターンに相当するので、最大値側の時系列データである第1軸の時系列データのみが分類に影響を及ぼす(すなわち、第2軸の時系列データは分類に無関係)ことがわかる。
図23、図24及び図29(b)を用いて、第2の例について説明する。第2の例においては、第1軸の時系列データと第2軸の時系列データとの組合せが図23に示した組み合わせである場合にラベル1が付与され、第1軸の時系列データと第2軸の時系列データとの組合せが図24に示した組み合わせである場合にラベル2が付与される。
より具体的には、図23に示すように、各データセットについて、第1軸の時系列データの振幅は約1であり、かつ、第2軸の時系列データの振幅は約0.5である。第1軸の時系列データの位相及び第2軸の時系列データの位相はランダムに与えられている。
また、図24に示すように、各データセットにおいて、第1軸の時系列データの振幅は約0.5であり、かつ、第2軸の時系列データの振幅は約1である。第1軸の時系列データの位相及び第2軸の時系列データの位相はランダムに与えられている。
図23及び図24に示した複数のデータセットについて本実施の形態の処理を実行することで算出された関連度のベクトルを図29(b)に示す。図29(b)に示した例においては、関連度の最大値は0.105であり、関連度の最小値は0.091である。最小値に対する最大値の割合が所定値(ここでは1.2)以下であるので、このパターンは図18に示したパターンに相当する。つまり、第1軸の時系列データおよび第2軸の時系列データの両方が分類に影響を及ぼすことがわかる。この場合、少なくともいずれかの時系列データによって分類をすることが可能である。
図25、図26及び図29(c)を用いて、第3の例について説明する。第3の例においては、第1軸の時系列データと第2軸の時系列データとの組合せが図25に示した組み合わせである場合にラベル1が付与され、第1軸の時系列データと第2軸の時系列データとの組合せが図26に示した組み合わせである場合にラベル2が付与される。
より具体的には、図25に示すように、各データセットについて、第1軸の時系列データの振幅と第2軸の時系列データの振幅との両方が約1であるか、又は、第1軸の時系列データの振幅と第2軸の時系列データの振幅との両方が約0.5である。第1軸の時系列データの位相及び第2軸の時系列データの位相はランダムに与えられている。
また、図26に示すように、各データセットについて、第1軸の時系列データの振幅が約1であり、かつ、第2軸の時系列データの振幅が約0.5であるか、又は、第1軸の時系列データの振幅が約0.5であり、かつ、第2軸の時系列データの振幅が約1である。第1軸の時系列データの位相及び第2軸の時系列データの位相はランダムに与えられている。
図25及び図26に示した複数のデータセットについて本実施の形態の処理を実行することで算出された関連度のベクトルを図29(c)に示す。図29(c)に示した例においては、関連度の最大値は0.074であり、関連度の最小値は0.055である。最小値に対する最大値の割合が所定値(ここでは1.2)より大きく、かつ、最小値が中央のセルに近いセルに位置するので、このパターンは図20(b)に示したパターンに相当する可能性がある。つまり、第1軸の時系列データおよび第2軸の時系列データの両方が分類に影響を及ぼす(すなわち、両方の時系列データが必要である)が両者は時間相関を有しないと考えられる。
図27、図28及び図29(d)を用いて、第4の例について説明する。第4の例においては、第1軸の時系列データと第2軸の時系列データとの組合せが図27に示した組み合わせである場合にラベル1が付与され、第1軸の時系列データと第2軸の時系列データとの組合せが図28に示した組み合わせである場合にラベル2が付与される。
より具体的には、図27に示すように、各データセットについて、第1軸の時系列データの振幅と第2軸の時系列データの振幅との両方が約1であり、第1軸の時系列データの位相と第2軸の時系列データの位相とが同じである。
また、図28に示すように、各データセットについて、第1軸の時系列データの振幅と第2軸の時系列データの振幅との両方が約1であり、第2軸の時系列データの位相は第1軸の時系列データの位相と半位相分ずれている。
図27及び図28に示した複数のデータセットについて本実施の形態の処理を実行することで算出した関連度のベクトルを図29(d)に示す。図29(d)に示した例においては、関連度の最大値は0.320であり、関連度の最小値は0.118である。最小値に対する最大値の割合が所定値(ここでは1.2)より大きく、かつ、最大値が中央のセルに位置するので、このパターンは図20(a)に示したパターンに相当する。つまり、第1軸の時系列データおよび第2軸の時系列データの両方が分類に影響を及ぼし(すなわち、両方の時系列データが必要であり)、かつ、両者は時間相関を有することがわかる。
以上のように、本実施の形態によれば、対象のラベルについて複数の時系列データの相関関係を特定することができるようになる。例えば、2つの時系列データのうち一方のみが分類に影響することが判明した場合、他方の時系列データを値の取得および解析の対象から外すことができるので、分類への悪影響を回避できるとともに、データの取得および解析に要する時間およびコストを短縮することができる。また、例えば、2つの時系列データのうちいずれか一方の時系列データのみで分類が可能である場合、データの取得の容易さ等の観点から時系列データを選択することができるので、データの取得にかかる時間及びコストを減らすことができるようになる。また、解析に要する時間およびコストも削減することができるようになる。また、例えば、2つの時系列データの両方が必要であることが判明した場合、時間軸を揃えて2つの時系列データを取得するべきであるか否かを事前に把握できるので、センサ等の設定を誤ってしまうことを防ぐことができる。
また、第1の実施の形態においてはCNNを用いた機械学習が利用され、特徴画像におけるセル間の関係が考慮されるため、以下で説明する他の実施形態と比較して学習の精度を高めることができるようになる。
[実施の形態2]
第1の実施の形態においては特徴画像に対してCNNを用いた機械学習が実行されるが、機械学習の方法はCNNには限られない。以下では、図30及び図31を用いて、特徴画像を直接学習させる方法について説明する。なお、第2の実施の形態の処理において第1の実施の形態の処理と異なる部分は端子A以降の処理であるので、端子A以降の処理のみ以下で説明する。第2の実施の形態における機械学習を、単層の学習モデルを用いた機械学習と呼ぶ。
まず、機械学習部107は、ステップS11において生成された特徴画像に対して、単層の学習モデルを用いた機械学習を実行する(図30:ステップS51)。機械学習部107は、機械学習の結果(例えば更新後の重み行列等)を学習データ格納部109に格納する。
図31は、第2の実施の形態における学習モデルの一例を示す図である。第2の実施の形態においては、特徴画像における各セルの値そのものに対する機械学習が実行される。各セルの値には識別層への重みが乗じられる。
ステップS53以降の処理は、複数のデータセットの各々についてステップS51の処理が実行され、かつ、機械学習が十分に進んだことが確認された後に実行される。
第2生成部111は、分類に関する複数のラベルのうち未処理のラベルを1つ特定する(ステップS53)。
第2生成部111は、ステップS53において特定したラベルについて、特徴画像における各セルについての重みを学習データ格納部109から抽出する(ステップS55)。
第2生成部111は、特徴画像における各セルについて、分散を算出する(ステップS57)。複数のデータセットについてステップS11までの処理が実行されれば複数の特徴画像が生成されるので、各セルについて、複数の値から分散が算出される。
第2生成部111は、特徴画像における各セルについて、算出した分散と抽出した重みの絶対値とに基づき関連度を算出する(ステップS59)。例えば、セル(x,y)の分散をvx,yとし、かつ、重みの絶対値をwx,yとすると、第2生成部111は、セル(x,y)の関連度をvx,y*wx,yとして算出する。
第2生成部111は、各行について関連度の統計量(例えば、平均又は最大値)を算出することで関連度のベクトルを生成し(ステップS61)、生成したベクトルを関連度格納部113に格納する。そして処理は端子Bを介して図17のステップS27に移行する。
以上のような処理を実行すれば、例えばCNNを実行することが適切ではない場合においても、複数の時系列データの相関を特定することができるようになる。
[実施の形態3]
第3の実施の形態においては拡張ベクトルから生成されたデータに対してSVM(Support Vector Machine)を用いた機械学習が実行される。
図32は、第3の実施の形態の情報処理装置1の機能ブロック図である。情報処理装置1は、時系列データ格納部101と、第1生成部103と、ベクトルデータ格納部119と、機械学習部107と、学習データ格納部109と、第2生成部111と、関連度格納部113と、判定部115と、判定結果格納部117とを含む。
第1生成部103、機械学習部107、第2生成部111および判定部115は、例えば、図40に示したメモリ2501にロードされたプログラムが図40に示したCPU2503により実行されることで実現される。時系列データ格納部101、ベクトルデータ格納部119、学習データ格納部109、関連度格納部113および判定結果格納部117は、例えば、図40に示したHDD2505又はメモリ2501に設けられる。
第1生成部103は、時系列データ格納部101に格納されているデータに基づき処理を実行し、処理結果をベクトルデータ格納部119に格納する。機械学習部107は、ベクトルデータ格納部119に格納されているデータに基づき処理を実行し、処理結果を学習データ格納部109に格納する。第2生成部111は、学習データ格納部109に格納されているデータに基づき処理を実行し、処理結果を関連度格納部113に格納する。判定部115は、関連度格納部113に格納されているデータに基づき処理を実行し、処理結果を判定結果格納部117に格納する。
図33は、第3の実施の形態の情報処理装置1が実行する処理の処理フローを示す図である。
第1生成部103は、時系列データ格納部101に格納されている複数のデータセットのうち1つのデータセットを特定する。そして、第1生成部103は、特定したデータセットに含まれる複数の時系列データの各々を、値の平均が0になるように平行移動する(図33:ステップS71)。
第1生成部103は、ステップS71の処理が実行された全時系列データの振幅の幅が同じになるように正規化を実行する(ステップS73)。
第1生成部103は、αの各値について、正規化された複数の時系列データから拡張アトラクタを生成する(ステップS77)。第1生成部103は、生成した拡張アトラクタをメモリ2501に格納する。拡張アトラクタの生成は、第1の実施の形態と同様である。
第1生成部103は、ステップS77において生成された拡張アトラクタを用いて、拡張ベクトル生成処理を実行する(ステップS79)。拡張ベクトル生成処理については、図6乃至図10を用いて説明したとおりであるので、ここでは説明を省略する。
第1生成部103は、ステップS79において生成された複数の拡張ベクトルを、αの値の大きさの順に行方向に結合することで入力ベクトルを生成し(ステップS81)、生成した入力ベクトルをベクトルデータ格納部119に格納する。そして処理は端子Dを介して図35のステップS83に移行する。
図34は、入力ベクトルの一例を示す図である。正方形の図形はベクトルの要素を表し、各要素にはベッチ数が格納される。図34の例では7つの要素を有するベクトルが1つの拡張ベクトルに対応する。このような拡張ベクトルが連結されることで、1つの入力ベクトルが生成される。
図35の説明に移行し、機械学習部107は、ステップS81において生成された入力ベクトルに対して、SVMを用いた機械学習を実行する(ステップS83)。機械学習部107は、機械学習の結果を学習データ格納部109に格納する。
なお、説明を簡単にするため複数のデータセットのうち1つのデータセットについてステップS71乃至S83の処理が実行される例を示したが、実際には、複数のデータセットの各々について処理が実行される。そして、機械学習が十分に進んだことが確認されたうえで、ステップS85以降の処理が実行される。
第2生成部111は、入力ベクトルの各要素について、値の平均値および分散を算出する(ステップS85)。複数のデータセットについてステップS83までの処理が実行されれば複数の入力ベクトルが生成されるので、各要素について、値の平均および分散が算出される。
第2生成部111は、ステップS85において算出した平均値を各要素の値とするベクトルを生成する。そして、第2生成部111は、SVMを用いた機械学習の結果を用いて、生成したベクトルの分類スコアを基準分類スコアとして算出する(ステップS87)。
第2生成部111は、ステップS87において生成したベクトルの各要素について、当該要素のみ値を(平均+分散)又は(平均−分散)に変更した場合の分類スコアを、SVMを用いた機械学習の結果を用いて算出する(ステップS89)。
第2生成部111は、各要素の関連度を、ステップS89において算出した分類スコアと基準分類スコアとの差として算出し(ステップS91)、関連度格納部113に格納する。そして処理は端子Eを介して図36のステップS93に移行する。
図36の説明に移行し、判定部115は、関連度格納部113に格納されている情報を読み出す。そして、判定部115は、最小値に対する最大値の割合が所定値以下であるか判定する(図36:ステップS93)。所定値とは、例えば1.2である。最小値に対する最大値の割合が所定値以下であることは、最大値と最小値との差が比較的小さいことを意味する。
最小値に対する最大値の割合が所定値以下である場合(ステップS93:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、両方の時系列データが分類に独立して影響することを示す第1の関係データを生成し(ステップS95)、第1の関係データを判定結果格納部117に格納する。そして処理は終了する。
一方、最小値に対する最大値の割合が所定値以下ではない場合(ステップS93:Noルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最大値および最小値が関連度のベクトルの端に位置するか判定する(ステップS97)。
最大値および最小値が関連度のベクトルの端に位置する場合(ステップS97:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最大値側の時系列データが分類に影響することを示す第2の関係データを生成し(ステップS99)、第2の関係データを判定結果格納部117に格納する。そして処理は終了する。
一方、最大値および最小値の少なくともいずれかが関連度のベクトルの端に位置しない場合(ステップS97:Noルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最大値が関連度のベクトルの中央に位置するか判定する(ステップS101)。
最大値が関連度のベクトルの中央に位置する場合(ステップS101:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、分類に両方の時系列データが影響し、かつ、時系列データ間に相関関係があることを示す第3の関係データを生成し(ステップS103)、第3の関係データを判定結果格納部117に格納する。そして処理は終了する。
一方、最大値が関連度のベクトルの中央に位置しない場合(ステップS101:Noルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最小値が関連度のベクトルの中央に位置するか判定する(ステップS105)。
最小値が関連度のベクトルの中央に位置する場合(ステップS105:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、分類に両方の時系列データが影響し、かつ、時系列データ間に相関関係が無いことを示す第4の関係データを生成し(ステップS107)、第4の関係データを判定結果格納部117に格納する。そして処理は終了する。また、最小値が関連度のベクトルの中央に位置しない場合(ステップS105:Noルート)、処理は終了する。なお、判定結果格納部117に格納された関係データは表示装置に表示され又は他の端末等に送信され、ユーザにより確認される。
以上のように、SVMを用いた機械学習により、汎化性能を高めつつ、複数の時系列データの相関関係を特定することができるようになる。なお、説明を簡単にするためラベルとの関係が述べられていないが、第3の実施の形態においても、各ラベルについて処理が実行されてもよい。
[実施の形態4]
第1乃至第3の実施の形態においては機械学習の結果に基づき関連度が算出されるが、第4の実施の形態においては、機械学習以外の方法で関連度が算出される。
図37は、第4の実施の形態の情報処理装置1の機能ブロック図である。情報処理装置1は、時系列データ格納部101と、第1生成部103と、第1データ格納部121と、データ処理部123と、第2データ格納部125と、第2生成部111と、関連度格納部113と、判定部115と、判定結果格納部117とを含む。
第1生成部103、データ処理部123、第2生成部111および判定部115は、例えば、図40に示したメモリ2501にロードされたプログラムが図40に示したCPU2503により実行されることで実現される。時系列データ格納部101、第1データ格納部121、第2データ格納部125、関連度格納部113および判定結果格納部117は、例えば、図40に示したHDD2505又はメモリ2501に設けられる。
第1生成部103は、時系列データ格納部101に格納されているデータに基づき処理を実行し、処理結果を第1データ格納部121に格納する。データ処理部123は、第1データ格納部121に格納されているデータに基づき処理を実行し、処理結果を第2データ格納部125に格納する。第2生成部111は、第2データ格納部125に格納されているデータに基づき処理を実行し、処理結果を関連度格納部113に格納する。判定部115は、関連度格納部113に格納されているデータに基づき処理を実行し、処理結果を判定結果格納部117に格納する。
図38は、第4の実施の形態の情報処理装置1が実行する処理の処理フローを示す図である。ここでは、ラベルが2つであることを前提として処理を説明する。
第1生成部103は、時系列データ格納部101に格納されている複数のデータセットのうち1つのデータセットを特定する。そして、第1生成部103は、特定したデータセットに含まれる複数の時系列データの各々を、値の平均が0になるように平行移動する(図38:ステップS111)。
第1生成部103は、ステップS111の処理が実行された全時系列データの振幅の幅が同じになるように正規化を実行する(ステップS113)。
第1生成部103は、αの各値について、正規化された複数の時系列データから拡張アトラクタを生成する(ステップS117)。第1生成部103は、生成した拡張アトラクタをメモリ2501に格納する。拡張アトラクタの生成は、第1の実施の形態と同様である。
第1生成部103は、ステップS117において生成された拡張アトラクタを用いて、拡張ベクトル生成処理を実行する(ステップS119)。拡張ベクトル生成処理については、図6乃至図10を用いて説明したとおりであるので、ここでは説明を省略する。
なお、説明を簡単にするため複数のデータセットのうち1つのデータセットについてステップS111乃至S119の処理が実行される例を示したが、実際には、複数のデータセットの各々について処理が実行されて複数の拡張ベクトルが生成される。
そして、データ処理部123は、ステップS119の処理によって第1データ格納部121に格納された複数の拡張ベクトルのうちラベル1の分類に属する拡張ベクトルの各要素の平均および分散を算出する(ステップS121)。
データ処理部123は、ステップS119の処理によって第1データ格納部121に格納された複数の拡張ベクトルのうちラベル2の分類に属する拡張ベクトルの各要素の平均および分散を算出する(ステップS123)。
データ処理部123は、各要素について、ラベル1についての分布とラベル2についての分布とを正規分布と仮定して2つの正規分布が重なる部分の面積Sを算出する(ステップS125)。データ処理部123は、各要素についての面積Sを第2データ格納部125に格納する。ステップS125においては、例えば図39に示すような2つの正規分布について、重なっている部分(ハッチされた部分)である面積Sが各要素について算出される。なお、図39において横軸は確率変数を表し、縦軸は確率密度を表す。
第2生成部111は、ラベル1に関する関連度を(1−S)として算出し(ステップS127)、ラベル1に関する関連度を関連度格納部113に格納する。なお、ラベル2に関する関連度も、同様に(1−S)として算出され、関連度格納部113に格納される。ラベルの数が3以上である場合には、ラベル1に関する関連度は、他のラベルに対する関連度の平均値として算出される。例えばラベルの数が3である場合、ラベル1に関する関連度は、ラベル2に対する関連度とラベル3に対する関連度との平均値として算出される。
ステップS127の処理により、ラベル1及びラベル2について関連度のベクトルが生成される。以降、各ラベルについて図36に示した端子E以降の処理が実行される。
以上のような処理を実行すれば、機械学習を実行しない場合においても、複数の時系列データの相関関係を特定することができるようになる。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置1の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
また、上で説明したデータ構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
なお、上で述べた情報処理装置1は、コンピュータ装置であって、図40に示すように、メモリ2501とCPU2503とHDD2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本発明の実施の形態をまとめると、以下のようになる。
本実施の形態の第1の態様に係るデータ生成方法は、(A)複数の時系列データと、複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、寄与率に対応したベッチ数系列を生成し、(B)複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、(C)特徴画像と、複数の時系列データに対応した分類とを対応付けた機械学習データを生成する処理を含む。
複数の時系列データに対する機械学習に適した特徴情報を生成できるようになる。
また、本データ生成方法は、(D)生成された機械学習データに基づき、複数の分類のうち特定の分類への影響の度合いを表す関連度と寄与率との関係についての第1のデータを生成し、(E)第1のデータに基づき、特定の分類に関して、複数の時系列データの相関関係についての第2のデータを生成する処理をさらに含んでもよい。
特定の分類に関して複数の時系列データの相関関係を特定することができるようになる。
また、機械学習データは、畳み込みニューラルネットワークに基づく機械学習データであってもよい。そして、第1のデータを生成する処理において、(d1)機械学習データに含まれる、最終特徴層と識別層との間の重み行列の要素の絶対値に基づき、特定の分類に対する関連度を複数の寄与率の値それぞれについて算出してもよい。
畳み込みニューラルネットワークに基づく機械学習は、他の機械学習と比較して、特徴画像に含まれる画素間の位置関係が考慮されるので、機械学習の分類性能を向上させることができるようになる。また、最終特徴層と識別層との間の重み行列は識別層における各分類に直接影響するので、上で述べた処理を実行すれば、識別層における特定の分類に対する関連度を適切に算出できるようになる。
また、機械学習データは、単層の学習モデルに基づく機械学習データであってもよい。
第1のデータに対して直接学習を実行できるようになる。
また、第2のデータを生成する処理において、(e1)第1のデータに含まれる関連度の最大値、最小値、並びに最大値及び最小値の位置に基づき、複数の時系列データの各々が独立して特定の分類に影響することを示す第1の関係データ、複数の時系列データのうちいずれかが特定の分類に影響することを示す第2の関係データ、複数の時系列データの各々が特定の分類に影響し、かつ、複数の時系列データが時間相関を有することを示す第3の関係データ、又は複数の時系列データの各々が特定の分類に影響し、かつ、複数の時系列データが時間相関を有しないことを示す第4の関係データを生成してもよい。
また、第2のデータを生成する処理において、(e11)最小値に対する最大値の割合が所定値以下である場合に、第1の関係データを生成し、(e12)最大値及び最小値が第1のデータに含まれる関連度の列の端に位置する場合に、第2の関係データを生成し、(e13)最大値が第1のデータに含まれる関連度の列の中央に位置する場合に、第3の関係データを生成し、(e14)最小値が第1のデータに含まれる関連度の列の中央に位置する場合に、第4の関係データを生成してもよい。
また、複数の時系列データは正規化された複数の時系列データであってもよい。
複数の時系列データを平等に取り扱うことができるようになる。
本実施の形態の第2の態様に係るデータ生成装置は、(F)複数の時系列データと、複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、寄与率に対応したベッチ数系列を生成し、複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成する第1生成部(実施の形態における第1生成部103は、上記第1生成部の一例である)と、(G)特徴画像と、複数の時系列データに対応した分類とを対応付けた機械学習データを生成する第2生成部(実施の形態における機械学習部107は、第2生成部の一例である)とを有する。
なお、上記方法による処理をプロセッサに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
コンピュータに、
複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、
複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、
前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する、
処理を実行させるデータ生成プログラム。
(付記2)
前記コンピュータに、
生成された前記機械学習データに基づき、複数の分類のうち特定の分類への影響の度合いを表す関連度と前記寄与率との関係についての第1のデータを生成し、
前記第1のデータに基づき、前記特定の分類に関して、前記複数の時系列データの相関関係についての第2のデータを生成する、
処理をさらに実行させる付記1記載のデータ生成プログラム。
(付記3)
前記機械学習データは、畳み込みニューラルネットワークに基づく機械学習データであり、
前記第1のデータを生成する処理において、
前記機械学習データに含まれる、最終特徴層と識別層との間の重み行列の要素の絶対値に基づき、前記特定の分類に対する関連度を前記複数の寄与率の値それぞれについて算出する、
付記2記載のデータ生成プログラム。
(付記4)
前記機械学習データは、単層の学習モデルに基づく機械学習データである、
付記1記載のデータ生成プログラム。
(付記5)
前記第2のデータを生成する処理において、
前記第1のデータに含まれる関連度の最大値、最小値、並びに最大値及び最小値の位置に基づき、前記複数の時系列データの各々が独立して前記特定の分類に影響することを示す第1の関係データ、前記複数の時系列データのうちいずれかが前記特定の分類に影響することを示す第2の関係データ、前記複数の時系列データの各々が前記特定の分類に影響し、かつ、前記複数の時系列データが時間相関を有することを示す第3の関係データ、又は前記複数の時系列データの各々が前記特定の分類に影響し、かつ、前記複数の時系列データが時間相関を有しないことを示す第4の関係データを生成する、
付記2記載のデータ生成プログラム。
(付記6)
前記第2のデータを生成する処理において、
前記最小値に対する前記最大値の割合が所定値以下である場合に、前記第1の関係データを生成し、
前記最大値及び前記最小値が前記第1のデータに含まれる関連度の列の端に位置する場合に、前記第2の関係データを生成し、
前記最大値が前記第1のデータに含まれる関連度の列の中央に位置する場合に、前記第3の関係データを生成し、
前記最小値が前記第1のデータに含まれる関連度の列の中央に位置する場合に、前記第4の関係データを生成する、
付記5記載のデータ生成プログラム。
(付記7)
前記複数の時系列データは正規化された複数の時系列データである、
付記1乃至6のいずれか1つ記載のデータ生成プログラム。
(付記8)
コンピュータが、
複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、
複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、
前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する、
処理を実行するデータ生成方法。
(付記9)
複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成する第1生成部と、
前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する第2生成部と、
を有するデータ生成装置。
1 情報処理装置 101 時系列データ格納部
103 第1生成部 105 画像データ格納部
107 機械学習部 109 学習データ格納部
111 第2生成部 113 関連度格納部
115 判定部 117 判定結果格納部
119 ベクトルデータ格納部 121 第1データ格納部
123 データ処理部 125 第2データ格納部

Claims (7)

  1. コンピュータに、
    複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、
    複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、
    前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する、
    処理を実行させるデータ生成プログラム。
  2. 前記コンピュータに、
    生成された前記機械学習データに基づき、複数の分類のうち特定の分類への影響の度合いを表す関連度と前記寄与率との関係についての第1のデータを生成し、
    前記第1のデータに基づき、前記特定の分類に関して、前記複数の時系列データの相関関係についての第2のデータを生成する、
    処理をさらに実行させる請求項1記載のデータ生成プログラム。
  3. 前記機械学習データは、畳み込みニューラルネットワークに基づく機械学習データであり、
    前記第1のデータを生成する処理において、
    前記機械学習データに含まれる、最終特徴層と識別層との間の重み行列の要素の絶対値に基づき、前記特定の分類に対する関連度を前記複数の寄与率の値それぞれについて算出する、
    請求項2記載のデータ生成プログラム。
  4. 前記第2のデータを生成する処理において、
    前記第1のデータに含まれる関連度の最大値、最小値、並びに最大値及び最小値の位置に基づき、前記複数の時系列データの各々が独立して前記特定の分類に影響することを示す第1の関係データ、前記複数の時系列データのうちいずれかが前記特定の分類に影響することを示す第2の関係データ、前記複数の時系列データの各々が前記特定の分類に影響し、かつ、前記複数の時系列データが時間相関を有することを示す第3の関係データ、又は前記複数の時系列データの各々が前記特定の分類に影響し、かつ、前記複数の時系列データが時間相関を有しないことを示す第4の関係データを生成する、
    請求項2記載のデータ生成プログラム。
  5. 前記複数の時系列データは正規化された複数の時系列データである、
    請求項1乃至4のいずれか1つ記載のデータ生成プログラム。
  6. コンピュータが、
    複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、
    複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、
    前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する、
    処理を実行するデータ生成方法。
  7. 複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成する第1生成部と、
    前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する第2生成部と、
    を有するデータ生成装置。
JP2017040325A 2017-03-03 2017-03-03 データ生成方法、データ生成装置及びデータ生成プログラム Active JP6844327B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017040325A JP6844327B2 (ja) 2017-03-03 2017-03-03 データ生成方法、データ生成装置及びデータ生成プログラム
PCT/JP2018/007041 WO2018159558A1 (ja) 2017-03-03 2018-02-26 データ生成方法、データ生成装置及びデータ生成プログラム
US16/554,886 US11120302B2 (en) 2017-03-03 2019-08-29 Data generation apparatus, data generation method, and non-transitory computer-readable storage medium for storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017040325A JP6844327B2 (ja) 2017-03-03 2017-03-03 データ生成方法、データ生成装置及びデータ生成プログラム

Publications (2)

Publication Number Publication Date
JP2018147155A JP2018147155A (ja) 2018-09-20
JP6844327B2 true JP6844327B2 (ja) 2021-03-17

Family

ID=63370857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017040325A Active JP6844327B2 (ja) 2017-03-03 2017-03-03 データ生成方法、データ生成装置及びデータ生成プログラム

Country Status (3)

Country Link
US (1) US11120302B2 (ja)
JP (1) JP6844327B2 (ja)
WO (1) WO2018159558A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6834602B2 (ja) 2017-03-03 2021-02-24 富士通株式会社 データ生成方法、データ生成装置及びデータ生成プログラム
US20210182061A1 (en) * 2018-08-22 2021-06-17 Nec Corporation Information processing device, information processing method, and program
JP7467292B2 (ja) * 2020-03-13 2024-04-15 東京エレクトロン株式会社 解析装置、解析方法及び解析プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2755973B2 (ja) 1988-12-02 1998-05-25 能美防災株式会社 火災警報装置
DE68926958T2 (de) 1988-12-02 1997-04-03 Nohmi Bosai Ltd Feueralarmsystem
JP3608043B2 (ja) 2000-07-18 2005-01-05 トヨタ自動車株式会社 観測量学習方法
JP2004310500A (ja) 2003-04-08 2004-11-04 Nippon Steel Corp 時系列連続データの将来予測方法、装置、コンピュータプログラム及び記録媒体
JP3913715B2 (ja) 2003-06-18 2007-05-09 株式会社東芝 不良検出方法
JP4750444B2 (ja) 2005-03-24 2011-08-17 株式会社日立ハイテクノロジーズ 外観検査方法及びその装置
US20070036434A1 (en) * 2005-08-15 2007-02-15 Peter Saveliev Topology-Based Method of Partition, Analysis, and Simplification of Dynamical Images and its Applications
JP4148524B2 (ja) 2005-10-13 2008-09-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 相関性を評価するシステム、および、その方法
JP2008041940A (ja) 2006-08-07 2008-02-21 Hitachi High-Technologies Corp Sem式レビュー装置並びにsem式レビュー装置を用いた欠陥のレビュー方法及び欠陥検査方法
US7987150B1 (en) 2007-02-09 2011-07-26 Siglaz Method and apparatus for automated rule-based sourcing of substrate microfabrication defects
JP5533196B2 (ja) 2010-04-27 2014-06-25 株式会社リコー 座標平面におけるデータ点分布領域の識別方法及びその識別プログラム
KR101808819B1 (ko) 2011-08-16 2017-12-13 삼성전자주식회사 테스트 맵 분류 방법 및 그것을 이용하는 제조 공정 조건 설정 방법
US10650508B2 (en) 2014-12-03 2020-05-12 Kla-Tencor Corporation Automatic defect classification without sampling and feature selection
US9430688B1 (en) * 2015-03-25 2016-08-30 The Boeing Company Overlapping multi-signal classification
JP6606997B2 (ja) * 2015-11-25 2019-11-20 富士通株式会社 機械学習プログラム、機械学習方法及び情報処理装置
JP6816481B2 (ja) * 2016-12-02 2021-01-20 富士通株式会社 削減条件特定方法、削減条件特定プログラム及び削減条件特定装置
JP6834602B2 (ja) * 2017-03-03 2021-02-24 富士通株式会社 データ生成方法、データ生成装置及びデータ生成プログラム

Also Published As

Publication number Publication date
US20190385020A1 (en) 2019-12-19
JP2018147155A (ja) 2018-09-20
US11120302B2 (en) 2021-09-14
WO2018159558A1 (ja) 2018-09-07

Similar Documents

Publication Publication Date Title
JP6606997B2 (ja) 機械学習プログラム、機械学習方法及び情報処理装置
JP6844327B2 (ja) データ生成方法、データ生成装置及びデータ生成プログラム
CN109325396A (zh) 信息处理装置及估计方法、以及学习装置及学习方法
Lan et al. A two-phase learning-based swarm optimizer for large-scale optimization
KR102440385B1 (ko) 멀티 인식모델의 결합에 의한 행동패턴 인식방법 및 장치
JP6816481B2 (ja) 削減条件特定方法、削減条件特定プログラム及び削減条件特定装置
CN113096137B (zh) 一种oct视网膜图像领域适应分割方法及系统
Venturelli et al. A Kriging-assisted multiobjective evolutionary algorithm
EP4040387A1 (en) Exercise recognition method, exercise recognition program, and information processing device
CN113767398A (zh) 用于基于机器学习的视觉设备选择的装置
Shi et al. Learning constructive primitives for real-time dynamic difficulty adjustment in Super Mario Bros
JP6950504B2 (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
Brits Niching strategies for particle swarm optimization
Soni et al. A critical review on nature inspired optimization algorithms
Olmo et al. Association rule mining using a multi-objective grammar-based ant programming algorithm
CN110163103A (zh) 一种基于视频图像的生猪行为识别方法和装置
JP7131351B2 (ja) 学習方法、学習プログラムおよび学習装置
EP4040386A1 (en) Motion recognition method, motion recognition program, and information processing device
JP7238998B2 (ja) 推定装置、学習装置、制御方法及びプログラム
Nema et al. A hybrid cooperative search algorithm for constrained optimization
de Nobel et al. Optimizing stimulus energy for cochlear implants with a machine learning model of the auditory nerve
Malathi A comparative performance analysis of different machine learning techniques
Fidan et al. Classification of dermatological data with self organizing maps and support vector machine
Santos et al. Improving the fitness of high-dimensional biomechanical models via data-driven stochastic exploration
Ariawan et al. Geometry feature extraction of shorea leaf venation based on digital image and classification using random forest

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210208

R150 Certificate of patent or registration of utility model

Ref document number: 6844327

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150