JP6810675B2

JP6810675B2 - 情報処理装置及びプログラム

Info

Publication number: JP6810675B2
Application number: JP2017221038A
Authority: JP
Inventors: 隆慶成田
Original assignee: Tokyo Electron Device Ltd
Current assignee: Tokyo Electron Device Ltd
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2021-01-06
Anticipated expiration: 2037-11-16
Also published as: WO2019097916A1; CN111095309B; JP2019091351A; US11551112B2; CN111095309A; US20200279177A1

Description

本発明は、情報処理装置及びプログラムに関する。

従来、教師データを機械学習することにより判別モデルを生成し、当該判別モデルを利用して、判別対象データのラベルを判別する技術が知られている。このような技術は、例えば、機器に設置されたセンサのセンサデータに基づいて、当該機器の異常を検知するために利用されている。

一般に、判別モデルの生成時には、教師データの前処理（正規化やサイズ調整など）が行われる。同様に、判別対象データのラベルの判別時には、判別対象データの前処理が行われる。データを前処理することにより、判別モデル自体の判別精度や、実際に判別モデルを利用して判別を実行する際の判別精度を向上させることができる。

特開２０１７−１７４０４５号公報

データの適切な前処理方法は、データによって異なる。このため、前処理や前処理方法の構築は、データサイエンティストなどの専門家により行われていた。この結果、判別モデルの生成や、判別対象データのラベルの判別には、多くの手間がかかった。

本発明は、上記の課題に鑑みてなされたものであり、データの前処理を自動化することを目的とする。

一実施形態に係る情報処理装置は、系列データである基準データを基準として、他の系列データを位置合わせする位置合わせ部と、前記他の系列データにおける、前記基準データと対応する部分を、対象データとして抽出する対象データ抽出部と、を備える。

本発明の各実施形態によれば、データの前処理の自動化を実現できる。

判別システムの概略構成の一例を示す図。モデル生成装置のハードウェア構成の一例を示す図。モデル生成装置及び判別装置の機能構成の一例を示す図。系列データＤの一例を示す図。位置合わせされた系列データＤの一例を示す図。図５の各系列データＤ１〜Ｄ２４から抽出された対象データを示す図。図５の系列データＤ３（基準データＤ０）及び系列データＤ４から抽出された対象データをウェーブレット変換した結果を示す図。モデル生成装置の動作の一例を示すフローチャート。判別装置の動作の一例を示すフローチャート。

以下、本発明の各実施形態について、添付の図面を参照しながら説明する。なお、各実施形態に係る明細書及び図面の記載に関して、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重畳した説明を省略する。

一実施形態に係る判別システム１００について、図１〜図９を参照して説明する。本実施形態に係る判別システム１００は、教師データを機械学習することにより判別モデルを生成し、当該判別モデルにより判別対象データのラベルを判別するシステムである。

まず、判別システム１００の概略構成について説明する。図１は、判別システム１００の概略構成の一例を示す図である。図１の判別システム１００は、モデル生成装置１と、判別装置２と、を備える。

モデル生成装置１は、情報処理装置の一例であり、教師データ（ラベルを付与された系列データＤ）が入力され、当該教師データに基づいて、系列データＤのラベルを判別する判別モデルを生成するコンピュータである。モデル生成装置１は、ＰＣ（Personal Computer）、サーバ、スマートフォン、タブレット端末、又はマイコンであるが、これに限られない。系列データＤは、１つ又は複数のデータを含むレコードが、所定の順序で並べられたものであり、時系列データ、一次元配列に変換された画像データ、及びテキストデータを含む。時系列データは、センサデータ及び音声データを含む。系列データＤには、２種類以上のラベルが付与され得る。

判別装置２は、情報処理装置の一例であり、判別対象データ（系列データＤ）が入力され、当該判別対象データのラベルを、モデル生成装置１が生成した判別モデルを利用して判別するコンピュータである。判別装置２は、ＰＣ、サーバ、スマートフォン、タブレット端末、又はマイコンであるが、これに限られない。判別対象データは、ラベルを付与されていてもよいし、ラベルを付与されていなくてもよい。

なお、図１の例では、モデル生成装置１及び判別装置２は、それぞれ異なるコンピュータにより構成されているが、同一のコンピュータにより構成されてもよい。また、判別装置２は、モデル生成装置１が生成した判別モデルとは異なる判別モデルを利用して、系列データＤのラベルを判別してもよい。

次に、モデル生成装置１及び判別装置２のハードウェア構成について説明する。図２は、モデル生成装置１のハードウェア構成の一例を示す図である。図２のモデル生成装置１は、ＣＰＵ（Central Processing Unit）１０１と、ＲＯＭ（Read Only Memory）１０２と、ＲＡＭ（Random Access Memory）１０３と、ＨＤＤ（Hard Disk Drive）１０４と、入力装置１０５と、表示装置１０６と、通信インタフェース１０７と、バス１０８と、を備える。

ＣＰＵ１０１は、プログラムを実行することにより、モデル生成装置１の各構成を制御し、モデル生成装置１の機能を実現する。

ＲＯＭ１０２は、ＣＰＵ１０１が実行するプログラムを含む各種のデータを記憶する。

ＲＡＭ１０３は、ＣＰＵ１０１に作業領域を提供する。

ＨＤＤ１０４は、ＣＰＵ１０１が実行するプログラムを含む各種のデータを記憶する。

入力装置１０５は、モデル生成装置１にユーザの操作に応じた情報を入力する。入力装置１０５は、キーボード、マウス、タッチパネル、及びハードウェアボタンを含む。

表示装置１０６は、ユーザの操作に応じた画面を表示する。表示装置１０６は、液晶ディスプレイ、プラズマディスプレイ、及び有機ＥＬ（Electro Luminescence）ディスプレイを含む。

通信インタフェース１０７は、モデル生成装置１を有線又は無線でインターネットやＬＡＮ（Local Area Network）などのネットワークに接続する。モデル生成装置１は、ネットワークを介して、判別装置２と接続されてもよい。

バス１０８は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、ＨＤＤ１０４、入力装置１０５、表示装置１０６、及び通信インタフェース１０７を相互に接続する。

なお、モデル生成装置１のハードウェア構成は、図２の例に限られない。モデル生成装置１は、ＣＰＵ１０１、ＲＯＭ１０２、及びＲＡＭ１０３を備える任意の構成で有り得る。また、判別装置２のハードウェア構成は、モデル生成装置１と同様であるため、説明を省略する。

次に、モデル生成装置１及び判別装置２の機能構成について説明する。図３は、モデル生成装置１及び判別装置２の機能構成の一例を示す図である。

まず、モデル生成装置１の機能構成について説明する。図３のモデル生成装置１は、系列データ記憶部１１と、基準データ選択部１２と、位置合わせ部１３と、対象データ抽出部１４と、特徴量抽出部１５と、モデル生成部１６と、を備える。系列データ記憶部１１は、ＲＯＭ１０２、ＲＡＭ１０３、及びＨＤＤ１０４などにより実現される。基準データ選択部１２、位置合わせ部１３、対象データ抽出部１４、特徴量抽出部１５、及びモデル生成部１６は、ＣＰＵ１０１がプログラムを実行することにより実現される。

系列データ記憶部１１は、ラベルが付与された系列データＤ（教師データ）を複数記憶する。各系列データＤは、それぞれデータファイルとして保存される。系列データ記憶部１１に記憶される各系列データＤのサイズは同一であってもよいし、異なってもよい。

図４は、系列データＤの一例を示す図である。図４の系列データＤは、加速度センサのセンサデータであり、複数のレコードが計測時刻の順に並べられている。各レコードには、ｘ軸方向、ｙ軸方向、及びｚ軸方向の３つのデータ項目の値（データ）が含まれている。このように、系列データＤには、複数のデータ項目が含まれてもよいし、１つのデータ項目が含まれてもよい。系列データ記憶部１１には、図４のような系列データＤが、ラベルと対応付けて記憶される。

基準データ選択部１２は、系列データ記憶部１１に記憶された複数の系列データＤの中から、基準データＤ０を選択する。基準データＤ０は、位置合わせ部１３による位置合わせの基準となる系列データＤである。基準データ選択部１２は、ランダムに基準データＤ０を選択してもよいし、何らかのアルゴリズムに従って基準データＤ０を選択してもよい。基準データＤ０の選択方法は任意である。

一般に、学習対象となる系列データＤには、特徴的なパターンが含まれる。しかしながら、系列データＤにおけるどのデータ項目に当該パターンが含まれるかはわからない。特徴的なパターンを含まないデータ項目を利用して機械学習を行うと、高精度な判別モデルを生成できないおそれがある。

そこで、図４の例のように、各系列データＤに複数のデータ項目が含まれる場合には、基準データ選択部１２は、複数のデータ項目の中から、１つ又は複数のデータ項目を基準データＤ０として選択してもよい。基準データ選択部１２は、系列データＤ間における類似度が最も高いデータ項目や、系列データＤ間における類似度が閾値以上の１つ又は複数のデータ項目を、基準データＤ０として選択するのが好ましい。類似度は、相互相関や動的時間伸縮法により算出できる。これにより、基準データ選択部１２は、特徴的なパターンが含まれる可能性が高いデータ項目を、基準データＤ０として選択することができる。

なお、基準データ選択部１２は、基準データＤ０を選択する前に、各系列データＤに対して正規化などの前処理を実行してもよい。

位置合わせ部１３は、基準データ選択部１２により選択された基準データＤ０を基準として、系列データ記憶部１１に記憶された他の系列データＤを位置合わせする。基準データ選択部１２により、複数のデータ項目の中から、１つ又は複数のデータ項目を基準データＤ０として選択されている場合には、位置合わせ部１３は、他の系列データＤにおける、基準データ選択部１２により選択されたデータ項目を、基準データＤ０を基準として位置合わせする。

一般に、学習対象となる系列データＤには、特徴的なパターンが含まれる。しかしながら、当該パターンが含まれる位置は、系列データＤによって異なる。このため、各系列データＤの始点を一致させた状態で機械学習を行うと、各系列データＤにおける特徴的なパターンの位置ずれにより、高精度な判別モデルを生成できないおそれがある。

そこで、位置合わせ部１３は、各系列データＤに含まれる特徴的なパターンの位置が、基準データＤ０に含まれる特徴的なパターンの位置と一致するように、各系列データＤを位置合わせする。具体的には、位置合わせ部１３は、基準データＤ０と他の系列データＤとの類似度が高まるように、基準データＤ０を基準として、他の系列データＤの始点を移動させる。この際、位置合わせ部１３は、必要に応じてデータの補間や間引きを行ってもよい。類似度は、相互相関や動的時間伸縮法により算出できる。位置合わせ部１３は、基準データＤ０と他の系列データＤとの類似度が最大となるように、他の系列データＤの始点を移動させるのが好ましい。これにより、位置合わせ部１３は、各系列データＤにおける特徴的なパターンの位置を、基準データＤ０に含まれる特徴的なパターンの位置と一致させることができる。

図５は、位置合わせされた系列データＤの一例を示す図である。図５の例では、「ｏｋ」又は「ｎｇ」というラベルを付与された２４個の系列データＤ１〜Ｄ２４が、系列データＤ３（基準データＤ０）を基準として位置合わせされている。図５からわかるように、他の系列データＤ１，Ｄ２，Ｄ４〜Ｄ２４は、基準データＤ０に対して始点を相対的に移動させることにより、位置合わせされる。

対象データ抽出部１４は、位置合わせ部１３により位置合わせされた他の系列データＤにおける、基準データＤ０と対応（重複）する部分を、対象データとして抽出する。対象データは、後段の処理で利用される対象となるデータである。対象データ抽出部１４により抽出される対象データは、判別モデルを生成するための機械学習に利用されるデータに相当する。

また、対象データ抽出部１４は、各系列データＤから、同一の部分を対象データとして抽出する。さらに、対象データ抽出部１４は、基準データＤ０から、各系列データＤから抽出された対象データと同一の部分を対象データとして抽出する。

この結果、基準データＤ０及び他の系列データＤからそれぞれ、全ての系列データＤが重複する部分が対象データとして抽出される。全ての系列データＤが重複する部分は、位置合わせされた系列データＤのうち始点が最も後ろに位置する系列データＤの始点から、位置合わせされた系列データＤのうち終点が最も前に位置する系列データＤの終点まで、の部分に相当する。

例えば、図５の例では、位置合わせされた系列データＤのうち始点が最も後ろに位置する系列データＤは系列データＤ１０であり、位置合わせされた系列データＤのうち終点が最も前に位置する系列データＤは系列データＤ９である。したがって、各系列データＤ１〜Ｄ２４から、系列データＤ１０の始点から系列データＤ９の終点までの部分（図５における実線で囲まれた部分）が対象データとして抽出される。

図６は、図５の各系列データＤ１〜Ｄ２４から抽出された対象データを示す図である。図６からわかるように、対象データは同一のサイズを有するデータとなる。対象データは、特徴的なパターンを位置合わせされた各系列データＤの重複部分であるため、当該パターンを含む。後段では、この対象データを利用して処理が行われる。

このように、本実施形態によれば、基準データ選択部１２及び位置合わせ部１３により、系列データ記憶部１１に記憶された、サイズや特徴的なパターンの位置が不揃いの複数の系列データＤ（教師データ）から、サイズが同一であり、特徴的なパターンが位置合わせされた複数の対象データを自動的に抽出することができる。モデル生成装置１は、この対象データを利用して判別モデルを生成するため、高精度な判別モデルを生成することができる。

特徴量抽出部１５は、対象データ抽出部１４により抽出された複数の対象データから、それぞれ特徴量を抽出する。特徴量抽出部１５は、例えば、ウェーブレット変換、高速フーリエ変換、ローパスフィルタ、ハイパスフィルタなどの方法により特徴量を抽出することができる。特徴量の抽出方法は任意である。

図７は、図５の系列データＤ３（基準データＤ０）及び系列データＤ４から抽出された対象データをウェーブレット変換した結果を示す図である。図７によれば、２つの対象データには類似するパターンが含まれていることがわかる。ウェーブレット変換により、このようなパターンを特徴量として抽出することができる。

モデル生成部１６は、特徴量抽出部１５が抽出した複数の特徴量と、当該特徴量が抽出された系列データＤに付与されたラベルと、の関係を機械学習することにより、系列データＤのラベルを判別する判別モデルを生成する。具体的には、モデル生成部１６は、予め用意された複数の学習アルゴリズムによりそれぞれ判別モデルを生成し、各学習アルゴリズムにより生成された判別モデルの判別精度を、クロスバリデーションにより計算する。そして、モデル生成部１６は、判別精度が最も高い判別モデルを、系列データＤのラベルの判別モデルとして出力する。これにより、判別精度が高い判別モデルを自動的に生成することができる。

モデル生成部１６は、ランダムフォレスト、サポートベクターマシン、ロジスティック回帰、ディープラーニングなどの、任意の学習アルゴリズムを利用できる。また、ディープラーニングのように、特徴量を抽出できる学習アルゴリズムを利用する場合には、モデル生成部１６は、対象データ抽出部１４が抽出した複数の対象データと、当該特徴量が抽出された系列データＤに付与されたラベルと、の関係を機械学習することにより、系列データＤのラベルを判別する判別モデルを生成してもよい。この場合、特徴量抽出部１５は不要である。また、モデル生成部１６は、特徴量に基づいて判別モデルを生成する学習アルゴリズムと、対象データに基づいて判別モデルを生成する学習アルゴリズムと、を併用してもよい。

次に、判別装置２の機能構成について説明する。図３の判別装置２は、系列データ記憶部２１と、判別モデル記憶部２２と、位置合わせ部２３と、対象データ抽出部２４と、特徴量抽出部２５と、判別部２６と、を備える。系列データ記憶部２１及び判別モデル記憶部２２は、判別装置２のＲＯＭ、ＲＡＭ、及びＨＤＤなどにより実現される。位置合わせ部２３、対象データ抽出部２４、特徴量抽出部２５、及び判別部２６は、判別装置２のＣＰＵがプログラムを実行することにより実現される。

系列データ記憶部２１は、１つ又は複数の系列データＤ（判別対象データ）を記憶する。各系列データＤは、それぞれデータファイルとして保存される。系列データ記憶部２１に記憶される各系列データＤのサイズは同一であってもよいし、異なってもよい。また、系列データＤには、複数のデータ項目が含まれてもよいし、１つのデータ項目が含まれてもよい。また、系列データＤは、ラベルを付与されていてもよいし、ラベルを付与されていなくてもよい。ラベルが付与されていない系列データＤを判別対象データとして利用することにより、ラベルが未知の系列データＤのラベルを判別することができる。また、ラベルが付与された系列データＤを判別対象データとして利用することにより、判別モデルの判別精度を検証することができる。

判別モデル記憶部２２は、系列データＤのラベルを判別する判別モデルを記憶する。判別モデル記憶部２２には、モデル生成装置１が生成した判別モデルが記憶されてもよいし、モデル生成装置１が生成した判別モデルとは異なる判別モデルが記憶されていてもよい。

また、判別モデル記憶部２２は、基準データｄ０を記憶する。基準データｄ０は、位置合わせ部２３による位置合わせの基準となる系列データＤである。基準データｄ０は、特徴的なパターンを含み、かつ、特徴的なパターンと関係のない部分が少ない（サイズが小さい）系列データＤであるのが好ましい。したがって、判別モデル記憶部２２には、基準データｄ０として、対象データ抽出部１４が基準データＤ０から抽出した対象データが記憶されるのが好ましい。なお、判別モデル記憶部２２には、基準データｄ０として、対象データ抽出部１４が他の系列データＤから抽出した対象データが記憶されてもよいし、系列データ記憶部１１に記憶された任意の系列データＤが記憶されてもよい。

位置合わせ部２３は、判別モデル記憶部２２に記憶された基準データｄ０を基準として、系列データ記憶部２１に記憶された系列データＤを位置合わせする。基準データｄ０に含まれるデータ項目と、系列データＤに含まれるデータ項目と、が異なる場合には、位置合わせ部２３は、系列データＤにおける、基準データｄ０と共通のデータ項目を、基準データｄ０を基準として位置合わせする。

位置合わせ部２３は、各系列データＤに含まれる特徴的なパターンの位置が、基準データｄ０に含まれる特徴的なパターンの位置と一致するように、各系列データＤを位置合わせする。具体的には、位置合わせ部２３は、基準データｄ０と系列データＤとの類似度が高まるように、基準データｄ０を基準として、系列データＤの始点を移動させる。この際、位置合わせ部１３は、必要に応じてデータの補間や間引きを行ってもよい。類似度は、相互相関や動的時間伸縮法により算出できる。位置合わせ部２３は、基準データｄ０と系列データＤとの類似度が最大となるように、系列データＤの始点を移動させるのが好ましい。これにより、位置合わせ部２３は、系列データＤにおける特徴的なパターンの位置を、基準データｄ０に含まれる特徴的なパターンの位置と一致させることができる。

なお、位置合わせ部２３は、系列データＤを位置合わせする前に、系列データＤに対して正規化などの前処理を実行してもよい。

対象データ抽出部２４は、位置合わせ部２３により位置合わせされた系列データＤにおける、基準データｄ０と対応（重複）する部分を、対象データとして抽出する。対象データは、後段の処理で利用される対象となるデータである。対象データ抽出部２４により抽出される対象データは、系列データＤのラベルの判別に利用されるデータに相当する。

系列データＤと基準データｄ０とが対応（重複）する部分は、基準データｄ０及び位置合わせされた系列データＤのうち始点が後ろに位置する方の始点から、基準データｄ０及び位置合わせされた系列データＤのうち終点が前に位置する方の終点まで、の部分に相当する。後段では、この対象データを利用して処理が行われる。

このように、本実施形態によれば、位置合わせ部２３により、系列データ記憶部２１に記憶された、サイズや特徴的なパターンの位置が不揃いの系列データＤ（判別対象データ）から、サイズが同一であり、特徴的なパターンが位置合わせされた対象データを自動的に抽出することができる。判別装置２は、この対象データを利用して系列データＤのラベルを判別するため、ラベルを高精度に判別することができる。

特徴量抽出部２５は、対象データ抽出部２４により抽出された対象データから特徴量を抽出する。特徴量抽出部２５は、例えば、ウェーブレット変換、高速フーリエ変換、ローパスフィルタ、ハイパスフィルタなどの方法により特徴量を抽出することができる。特徴量の抽出方法は任意である。

判別部２６は、特徴量抽出部２５により抽出された特徴量を、判別モデル記憶部２２に記憶された判別モデルを入力することにより、系列データＤのラベルを判別する。

次に、モデル生成装置１及び判別装置２の動作について説明する。

まず、モデル生成装置１の動作について説明する。図８は、モデル生成装置１の動作の一例を示すフローチャートである。図８の動作は、モデル生成装置１のユーザが、モデル生成装置１に複数の教師データ（ラベルを付与された系列データＤ）を入力すると開始される。

まず、系列データ記憶部１１が、ユーザにより入力された教師データを記憶する（ステップＳ１０１）。教師データは、ユーザ端末からネットワークを介して入力されてもよいし、ＣＤ−ＲＯＭなどの記憶媒体から入力されてもよい。

次に、基準データ選択部１２が、系列データ記憶部１１から系列データＤ（教師データ）を読み出し、読み出した系列データＤの中から基準データＤ０を選択する（ステップＳ１０２）。基準データ選択部１２は、基準データＤ０の選択を、定期的に実行してもよいし、ユーザからの判別モデルの生成要求に応じて実行してもよいし、系列データ記憶部１１に新たな教師データが追加されるたびに実行してもよい。基準データ選択部１２は、系列データＤ及び選択結果（基準データＤ０として選択された系列データＤを示す情報）を位置合わせ部１３に通知する。

位置合わせ部１３は、基準データ選択部１２から選択結果を通知されると、基準データＤ０を基準として、他の系列データＤを位置合わせする（ステップＳ１０３）。位置合わせ部１３は、系列データＤ及び位置合わせ結果（位置合わせされた他の系列データＤの始点の、基準データＤ０の始点に対する相対位置を示す情報）を対象データ抽出部１４に通知する。

対象データ抽出部１４は、位置合わせ結果を通知されると、基準データＤ０及び他の系列データＤから、対象データをそれぞれ抽出する（ステップＳ１０４）。対象データ抽出部１４は、系列データＤ及び抽出結果（各系列データＤにおける対象データの始点及び終点を示す情報）を特徴量抽出部１５に通知する。また、対象データ抽出部１４は、基準データＤ０から抽出した対象データを判別装置２に送信する。判別装置２の判別モデル記憶部２２は、対象データを受信すると、当該対象データを新たな基準データｄ０として記憶する。

特徴量抽出部１５は、対象データ抽出部１４から抽出結果を通知されると、各対象データから特徴量を抽出する（ステップＳ１０５）。特徴量抽出部１５は、系列データＤ及び抽出結果（各対象データから抽出した特徴量）をモデル生成部１６に通知する。

モデル生成部１６は、特徴量抽出部１５から抽出結果を通知されると、系列データ記憶部１１から各系列データＤのラベルを読み出し、各系列データＤの特徴量とラベルとの関係を機械学習し、判別モデルを生成する（ステップＳ１０６）。モデル生成部１６は、生成した判別モデルを判別装置２に送信する。判別装置２の判別モデル記憶部２２は、判別モデルを受信すると、当該判別モデルを新たな判別モデルとして記憶する。

モデル生成装置１は、以上の動作により、判別モデルを自動的に生成することができる。なお、モデル生成装置１は、各工程で得られた結果を表示装置１０６に表示し、モデル生成装置１のユーザが確認できるようにしてもよい。例えば、表示装置１０６に、教師データの入力画面、図５のような位置合わせ結果、図６のような対象データの抽出結果、生成された判別モデル、判別モデルの判別精度などを表示することが考えられる。

次に、判別装置２の動作について説明する。図９は、判別装置２の動作の一例を示すフローチャートである。図９の動作は、判別装置２のユーザが、判別装置２に判別対象データ（系列データＤ）を入力すると開始される。

まず、系列データ記憶部２１が、ユーザにより入力された判別対象データを記憶する（ステップＳ２０１）。判別対象データは、ユーザ端末からネットワークを介して入力されてもよいし、ＣＤ−ＲＯＭなどの記憶媒体から入力されてもよい。

次に、位置合わせ部２３が、系列データ記憶部２１から系列データＤ（判別対象データ）を読み出し、判別モデル記憶部２２から基準データｄ０を読み出し、基準データｄ０を基準として、系列データＤを位置合わせする（ステップＳ２０２）。位置合わせ部２３は、系列データＤの位置合わせを、定期的に実行してもよいし、ユーザからのラベルの判別要求に応じて実行してもよいし、系列データ記憶部２１に新たな判別対象データが追加されるたびに実行してもよい。位置合わせ部２３は、系列データＤ及び位置合わせ結果（位置合わせされた系列データＤの始点の、基準データｄ０の始点に対する相対位置を示す情報）を対象データ抽出部２４に通知する。

対象データ抽出部２４は、位置合わせ結果を通知されると、系列データＤから対象データを抽出する（ステップＳ２０３）。対象データ抽出部２４は、抽出結果（系列データＤにおける対象データの始点及び終点を示す情報）を特徴量抽出部２５に通知する。

特徴量抽出部２５は、対象データ抽出部２４から抽出結果を通知されると、対象データから特徴量を抽出する（ステップＳ２０４）。特徴量抽出部２５は、抽出結果（対象データから抽出した特徴量）を判別部２６に通知する。

判別部２６は、特徴量抽出部２５から抽出結果を通知されると、判別モデル記憶部２２から判別モデルを読み出し、当該判別モデルに特徴量を入力して、系列データのＤのラベルを判別する（ステップＳ２０５）。

判別装置２は、以上の動作により、系列データＤのラベルを自動的に判別することができる。なお、判別装置２は、各工程で得られた結果を表示装置に表示し、判別装置２のユーザが確認できるようにしてもよい。例えば、表示装置に、判別対象データの入力画面、図５のような位置合わせ結果、図６のような対象データの抽出結果、系列データＤのラベルの判別結果（系列データＤのラベル）などを表示することが考えられる。

以上説明した通り、本実施形態によれば、サイズや特徴的なパターンの位置が不揃いな系列データＤの前処理（位置合わせ及びサイズ調整）を自動化することができる。また、複数の教師データから高精度な判別モデルを自動的に生成することができる。また、判別対象データのラベルを自動的に精度よく判別することができる。

例えば、本実施形態に係る判別システム１００を、工場などに設置された機器の異常検知に利用する場合について考える。この場合、まず、判別システム１００のユーザは、機器の異常を検知するためのセンサ（加速度センサや温度センサなど）を機器に設置し、機器の正常時のセンサデータと、機器の異常時のセンサデータと、を収集する。次に、ユーザは、正常時に収集したセンサデータに「正常」というラベルを付与し、異常時に収集したセンサデータに「異常」というラベルを付与し、教師データとしてモデル生成装置１に入力する。上述の通り、モデル生成装置１は、センサデータ（教師データ）が入力されると、センサデータのラベルが「正常」であるか「異常」であるかを判別する判別モデルを自動的に生成する。すなわち、ユーザは、センサデータの前処理を行うことなく、簡単に判別モデルを手に入れることができる。なお、センサとモデル生成装置１とを直接又はネットワークを介して接続し、センサデータがセンサからモデル生成装置１に自動的に入力されるようにすることも可能である。この場合、入力されたセンサデータに付与すべきラベルをユーザが予め設定しておいてもよい。また、モデル生成部１６が、ｋ−ｍｅａｎｓ法などの、教師なし学習が可能な学習アルゴリズムを利用して、判別モデルを生成してもよい。

その後、ユーザは、センサデータを判別対象データとして定期的に判別装置２に入力する。上述の通り、判別装置２は、センサデータ（判別対象データ）が入力されると、センサデータのラベルが「正常」であるか「異常」であるかを判別モデルに基づいて自動的に判別する。すなわち、ユーザは、センサデータの前処理を行うことなく、センサデータのラベル（機器の状態）をリアルタイムに簡単に判別することができる。なお、センサと判別装置２とを直接又はネットワークを介して接続し、センサデータがセンサから判別装置２に自動的に入力されるようにすることも可能である。

このように、本実施形態によれば、判別モデルの生成や判別対象データのラベルの判別に要する手間を削減できるため、モデル生成装置１及び判別装置２の製造に要する時間やコストを削減できる。結果として、センサデータなどの系列データＤの活用を促進できる。

なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせなど、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更可能であり、その応用形態に応じて適切に定めることができる。

１：モデル生成装置
２：判別装置
１１：系列データ記憶部
１２：基準データ選択部
１３：位置合わせ部
１４：対象データ抽出部
１５：特徴量抽出部
１６：モデル生成部
２１：系列データ記憶部
２２：判別モデル記憶部
２３：位置合わせ部
２４：対象データ抽出部
２５：特徴量抽出部
２６：判別部
１００：判別システム

Claims

系列データである基準データを基準として、相互相関により算出される類似度が高くなるよう他の系列データを位置合わせする位置合わせ部と、
全ての系列データが重複する部分を、対象データとして抽出する対象データ抽出部と、
複数の前記対象データと、複数の前記対象データから抽出された特徴量と、の少なくとも一方に基づいて、前記系列データのラベルを判別する判別モデルを生成するモデル生成部と
を備え、
前記モデル生成部は、予め用意された複数の学習アルゴリズムにより前記判別モデルを生成し、判別精度が最も高い前記判別モデルを出力し、
前記全ての系列データが重複する部分は、位置合わせされた系列データのうち始点が最も後ろに位置する系列データの始点から、位置合わせされた系列データのうち終点が最も前に位置する系列データの終点まで、の部分である、情報処理装置。
前記対象データから特徴量を抽出する特徴量抽出部を更に備える
請求項１に記載の情報処理装置。
複数の系列データの中から、前記基準データを選択する基準データ選択部を更に備える
請求項１または請求項２に記載の情報処理装置。
前記系列データのラベルを判別する判別モデルに基づいて、前記対象データのラベルを判別する判別部を更に備える
請求項１から請求項３までのいずれか１項に記載の情報処理装置。
系列データである基準データを基準として、相互相関により算出される類似度が高くなるよう他の系列データを位置合わせする位置合わせ工程と、
全ての系列データが重複する部分を、対象データとして抽出する対象データ抽出工程と、
複数の前記対象データと、複数の前記対象データから抽出された特徴量と、の少なくとも一方に基づいて、前記系列データのラベルを判別する判別モデルを生成するモデル生成工程と
をコンピュータに実行させ、
前記モデル生成工程は、予め用意された複数の学習アルゴリズムにより前記判別モデルを生成し、判別精度が最も高い前記判別モデルを出力し、
前記全ての系列データが重複する部分は、位置合わせされた系列データのうち始点が最も後ろに位置する系列データの始点から、位置合わせされた系列データのうち終点が最も前に位置する系列データの終点まで、の部分である、プログラム。