JP6950647B2 - データ判定装置、方法、及びプログラム - Google Patents

データ判定装置、方法、及びプログラム Download PDF

Info

Publication number
JP6950647B2
JP6950647B2 JP2018159026A JP2018159026A JP6950647B2 JP 6950647 B2 JP6950647 B2 JP 6950647B2 JP 2018159026 A JP2018159026 A JP 2018159026A JP 2018159026 A JP2018159026 A JP 2018159026A JP 6950647 B2 JP6950647 B2 JP 6950647B2
Authority
JP
Japan
Prior art keywords
data
learning
error
population
multiplier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018159026A
Other languages
English (en)
Other versions
JP2020035042A (ja
Inventor
良尚 石井
良尚 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Central R&D Labs Inc
Original Assignee
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Central R&D Labs Inc filed Critical Toyota Central R&D Labs Inc
Priority to JP2018159026A priority Critical patent/JP6950647B2/ja
Publication of JP2020035042A publication Critical patent/JP2020035042A/ja
Application granted granted Critical
Publication of JP6950647B2 publication Critical patent/JP6950647B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、自己符号化器を用いて多変量データを判定するデータ判定装置、方法、及びプログラムに関する。
近時、自己符号化器(AE:Autoencoder)を用いて、多変量データが正常値であるか正常値以外(以下、「外れ値」ともいう)であるかを判定するデータ判定技術が注目されている(例えば、非特許文献1を参照)。
"Outlier Detection with Autoencoder Ensembles", Junghui Chen et.al., Proceedings of the 2017 SIAM International Conference on Data Mining
ところで、自己符号化器に対して学習を行う際、正常値/外れ値のラベルが予め付与されない多変量データ、いわゆる「解答ラベルなし」の学習データが用いられる。この類のデータの母集団は、学習データの出所やサンプリング結果によって分布(例えば、正常値の存在範囲、正常値と外れ値の存在割合など)が異なることが想定される。
このため、学習に用いる標本データに統計的な偏りが生じていた場合、その偏った標本データ(結果的に、正常値であるか外れ値であるかを問わない)の影響を受け、学習の収束速度の低下、あるいは過学習による判定精度の低下が起こる可能性がある。また、標本データに正常値/外れ値のラベルが付与されていないので、標本データの抽出時に上記した存在割合を意図的に調整することは難しい。
本発明の目的は、自己符号化器に対して学習を行う際、標本データの母集団に統計的な偏りが生じる場合であっても、学習速度及び判定精度の低下を抑制可能なデータ判定装置、方法、及びプログラムを提供することである。
第1の本発明に係るデータ判定装置は、複数の変数からなる多変量データを取得してデータ母集団を形成するデータ取得部と、多変量データの入力に対して、学習パラメータ群により定められる次元圧縮処理及び次元復元処理を順次実行することで、入力の次元数に等しい多変量データを出力する自己符号化器と、前記自己符号化器における多変量データの入出力差の大きさを示す再構成誤差を前記データ母集団の標本データ毎に求め、標本データ毎の前記再構成誤差を用いて前記データ母集団に対する学習誤差を算出する学習誤差算出部と、前記学習誤差算出部により算出された前記学習誤差が小さくなるように前記学習パラメータ群を更新するパラメータ更新部と、を備え、前記学習誤差算出部は、前記データ母集団に応じて定められた標本データ毎の乗数を用いて前記再構成誤差に重み付けして前記学習誤差を算出する。
また、前記学習誤差算出部は、前記再構成誤差が閾値よりも大きい標本データの乗数を、前記データ母集団全体における乗数の平均値よりも小さくなるように定め、前記学習誤差を算出してもよい。
また、前記学習誤差算出部は、前記データ母集団における前記再構成誤差の統計量から前記閾値を設定し、前記学習誤差を算出してもよい。
また、前記学習誤差算出部は、前記再構成誤差が前記閾値よりも大きい標本データの乗数をゼロ値に定め、前記再構成誤差が前記閾値以下である標本データの乗数をゼロ値よりも大きい一律の正値に定めてもよい。
また、前記学習誤差算出部は、前記再構成誤差が大きくなるにつれて乗数が小さくなるルールに従って標本データ毎の乗数を定め、前記学習誤差を算出してもよい。
また、前記学習誤差算出部は、前記多変量データの提供元又は提供環境を示すメタデータに応じて、標本データ毎の乗数の設定方法を変更してもよい。
また、前記データ取得部による取得、前記学習誤差算出部による算出、及び前記パラメータ更新部による更新を順次繰り返すミニバッチ学習を行ってもよい。
第2の本発明に係るデータ判定方法は、複数の変数からなる多変量データを取得してデータ母集団を形成する取得ステップと、多変量データの入力に対して、学習パラメータ群により定められる次元圧縮処理及び次元復元処理を順次実行することで、入力の次元数に等しい多変量データを出力する処理ステップと、前記処理ステップにおける多変量データの入出力差の大きさを示す再構成誤差を前記データ母集団の標本データ毎に求め、標本データ毎の前記再構成誤差を用いて前記データ母集団に対する学習誤差を算出する算出ステップと、算出された前記学習誤差が小さくなるように前記学習パラメータ群を更新する更新ステップと、を1つ又は複数のコンピュータが実行し、前記算出ステップでは、前記データ母集団に応じて定められた標本データ毎の乗数を用いて前記再構成誤差に重み付けして前記学習誤差を算出する。
第3の本発明に係るデータ判定プログラムは、複数の変数からなる多変量データを取得してデータ母集団を形成する取得ステップと、多変量データの入力に対して、学習パラメータ群により定められる次元圧縮処理及び次元復元処理を順次実行することで、入力の次元数に等しい多変量データを出力する処理ステップと、前記処理ステップにおける多変量データの入出力差の大きさを示す再構成誤差を前記データ母集団の標本データ毎に求め、標本データ毎の前記再構成誤差を用いて前記データ母集団に対する学習誤差を算出する算出ステップと、算出された前記学習誤差が小さくなるように前記学習パラメータ群を更新する更新ステップと、を1つ又は複数のコンピュータに実行させ、前記算出ステップでは、前記データ母集団に応じて定められた標本データ毎の乗数を用いて前記再構成誤差を重み付けして前記学習誤差を算出する。
本発明によれば、自己符号化器に対して学習を行う際、標本データの母集団に統計的な偏りが生じる場合であっても、学習速度及び判定精度の低下を抑制することができる。
本発明の一実施形態におけるデータ判定装置が組み込まれたデータ判定システムの全体構成図である。 図1に示す制御部の判定処理に関わる機能ブロック図である。 図1に示す制御部の学習処理に関わる機能ブロック図である。 図3に示す学習処理部の動作説明に供されるフローチャートである。 乗数の設定方法の一例を示す図である。 設定方法の別の例を示す図である。 自己符号化器の学習過程を示す模式図である。図7(a)は学習の終了時における理想的な判別状態、図7(b)は比較例における恒等変換曲線の更新結果、図7(c)は実施例における恒等変換曲線の更新結果をそれぞれ示す。 学習済みの自己符号化器による判定処理の結果を示す図である。図8(a)は図7(b)に示す比較例における散布図であり、図8(b)は図7(c)に示す実施例における散布図である。
以下、本発明におけるデータ判定装置について、データ判定方法及びデータ判定プログラムとの関係において好適な実施形態を挙げ、添付の図面を参照しながら説明する。
[全体構成]
図1は、本発明の一実施形態におけるデータ判定装置12が組み込まれたデータ判定システム10の全体構成図である。データ判定システム10は、走行中の四輪自動車(以下、車両16という)から収集したプローブデータに対して所望の処理を実行し、車両16の状態を判定又は診断するサービスを提供可能に構成されるシステムである。
このデータ判定システム10は、具体的には、データ判定装置12と、ストレージ装置14と、車両16と、ディーラー端末18と、を含んで構成される。データ判定装置12は、プローブデータの処理に関する統括的な制御を行うコンピュータであり、具体的には、通信部20と、制御部22と、記憶部24と、を含んで構成される。
通信部20は、外部装置に対して電気信号を送受信するインターフェースである。制御部22は、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)を含む処理演算装置によって構成される。制御部22は、記憶部24に格納されたプログラムを読み出して実行することで、データベース処理部26、自己符号化器28、判定処理部30、及び学習処理部32として機能する。
記憶部24は、非一過性であり、かつ、コンピュータ読み取り可能な記憶媒体で構成されている。ここで、コンピュータ読み取り可能な記憶媒体は、光磁気ディスク、ROM、CD−ROM、フラッシュメモリ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。本図の例では、記憶部24には、後述する学習パラメータ群34が格納されている。
ストレージ装置14は、プローブデータの判定処理に関わる複数種類のデータベースを構築可能な外部記憶装置であり、データ判定装置12との間でデータのやり取りを行う。具体的には、ストレージ装置14には、車両情報に関するデータベース(以下、車両情報DB36)及び判定結果に関するデータベース(以下、判定結果DB38)が構築されている。
車両16は、ネットワークNW及び中継機器40を介して、データ判定装置12と双方向に通信可能に接続されている。これにより、車両16は、自車に搭載された各種センサから取得可能なプローブデータをデータ判定装置12に提供可能である。プローブデータには、例えば、時刻、位置(緯度/経度)、速度、加速度、ヨーレート、方位、勾配を含む走行状態や、車載機器の作動状態、操作デバイスの操作状態を示すデータが含まれる。
ディーラー端末18は、ネットワークNW及び中継機器42を介して、データ判定装置12と双方向に通信可能に接続されている。これにより、ディーラー端末18は、車両16の状態に関する判定結果をデータ判定装置12から取得可能である。
<概略的な動作>
この実施形態におけるデータ判定システム10は、以上のように構成される。続いて、データ判定システム10の概略的な動作について、図1を参照しながら説明する。
(1)プローブデータの収集
先ず、車両16は、自車に搭載された各種センサからデータを逐次取得し、蓄積されたプローブデータをデータ判定装置12に向けて定期的又は不定期に送信する。そうすると、データ判定装置12は、中継機器40、ネットワークNW及び通信部20を介して、車両16からのプローブデータを取得する。ストレージ装置14は、データ判定装置12からプローブデータを受け取り、車両情報DB36のデータを追加・更新する。
(2)プローブデータの判定
次いで、図示しないディーラーは、ディーラー端末18を用いて、販売店に持ち込まれた車両16の状態に関する判定・診断を要求する操作を行う。そうすると、データ判定装置12は、ディーラー端末18からの要求指令を受け付け、車両情報DB36の中から判定対象となるデータ(以下、判定対象データD1という)を読み出し、判定対象データD1に対して所望の判定処理を行う。
これにより、データ判定装置12(具体的には、判定処理部30)は、例えば、データの提供元(車両16)に関する識別情報、正常値/外れ値の属否、外れ値であると疑われる変数の種類、を含む判定結果データD2を出力する。ストレージ装置14は、データ判定装置12から判定結果データD2を受け取り、判定結果DB38のデータを追加・更新する。
(3)判定結果の提供
次いで、データ判定装置12は、上記の判定処理により得られた判定結果データD2をディーラー端末18に向けて送信する。そうすると、ディーラー端末18は、通信部20、ネットワークNW及び中継機器42を介して、データ判定装置12からの判定結果データD2を取得する。ディーラーは、ディーラー端末18により表示された判定結果を確認することで、車両16の状態を把握することができる。
あるいは、ストレージ装置14は、データ判定装置12から判定結果データD2を受け取り、車両情報DB36に蓄積されたデータの中から「外れ値」を含むプローブデータを削除するデータクレンジング処理を行う。この処理を繰り返すことで、より質の高い学習データD3を得ることができる。
[制御部22の説明]
<判定処理の詳細>
図2は、図1に示す制御部22の判定処理に関わる機能ブロック図である。本図では、自己符号化器28及び判定処理部30の具体的構成を示している。
自己符号化器28は、多変量データの入力に対して、次元圧縮処理及び次元復元処理を順次実行することで、入力の次元数に等しい多変量データを出力する。ここで、「多変量データ」とは、複数の変数から構成されるデータを意味し、具体的な例として、データベース処理部26を通じて車両情報DB36から取得されたプローブデータ(ここでは、判定対象データD1)が挙げられる。
自己符号化器28は、様々な人工知能技術を用いて構築される学習器である。本図の例では、自己符号化器28は、入力層50、中間層52及び出力層54からなる階層型ニューラルネットワークで構成される。例えば、3層構成の場合、入力層50及び中間層52が次元圧縮機能を担い、中間層52及び出力層54が次元復元機能を担う。
自己符号化器28の演算規則は、学習パラメータの集合体である学習パラメータ群34の値によって定められる。学習パラメータ群34は、例えば、ニューロンの活性化関数を記述する係数、シナプス結合の重み付け係数、中間層52の数、各層を構成するニューロンの個数を含んでもよい。学習パラメータ群34は、学習の終了によって各値が確定された状態で記憶部24(図1)に格納され、必要に応じて適時に読み出される。
判定処理部30は、自己符号化器28の入力値及び出力値に基づいて、判定対象データD1の提供元である車両16の状態を判定する。具体的には、判定処理部30は、誤差指標算出部56と、状態判定部58と、を備える。
誤差指標算出部56は、判定対象データD1の入出力誤差を示す指標(以下、誤差指標という)を算出する。具体的には、誤差指標算出部56は、誤差指標として、入出力差分(入力値と出力値の差分)、変数誤差(入出力差分の大きさ)及び再構成誤差(変数誤差の平均値)を算出する。ここで、再構成誤差δは、入力値セットである入力ベクトル{xij}及び出力値セットである出力ベクトル{x’ij}を用いて、以下の式(1)で求められる。
Figure 0006950647
ここで、「i」は多変量データを識別するための添字であり、「j」は多変量データの変数を識別するための添字であり、「M」は多変量データの次元数である。また、関数f(・)は、入出力差分(xij−x’ij)を引数とする変数誤差関数であり、f(0)=0を満たす偶関数(例えば、絶対値を返すL1ノルム関数、2乗値を返すL2ノルム関数)である。つまり、式(1)から理解されるように、再構成誤差δは、変数毎に求めた変数誤差の平均値に相当する。
状態判定部58は、誤差指標算出部56により算出された誤差指標に基づいて、判定対象データD1が示す車両16の状態を判定する。例えば、状態判定部58は、再構成誤差が所定値よりも小さい場合に「判定対象データD1が正常値」(つまり、車両16が正常状態)であると判定し、所定値以上である場合に「判定対象データD1が外れ値」(つまり、車両16が異常状態又は異常疑い)であると判定する。
また、状態判定部58は、判定対象データD1が外れ値である場合、さらに変数誤差を用いて原因分析を行ってもよい。具体的には、状態判定部58は、変数誤差が有意に大きい1つ又は2つ以上の変数を抽出し、当該変数との関連性が高い構成又は機能を特定してもよい。あるいは、状態判定部58は、判定対象データD1の時系列をそれぞれ判定し、判定結果の時間遷移を求めることで、車両16の異常が検出された時点を特定し、あるいは異常の予兆を検知することができる。
<学習処理の詳細>
図3は、図1に示す制御部22の学習処理に関わる機能ブロック図である。本図では、学習処理部32及び自己符号化器28の具体的構成を示している。なお、自己符号化器28に関しては、図2で既に述べたので、その説明を省略する。
学習処理部32は、いわゆる「教師なし学習」に使用される多変量データの集合体(以下、学習データD3)を用いて、自己符号化器28に対する学習処理を実行する。学習データD3は、データベース処理部26を通じて車両情報DB36から読み出されたプローブデータである。このプローブデータは、車両16から実際に収集したデータであってもよいし、実際のデータに基づいて作成した仮想的なデータであってもよい。
学習処理部32は、学習データD3の中から一部のデータ(以下、データ母集団D4という)を抽出し、当該データ母集団D4を処理単位として学習パラメータ群34を更新する「ミニバッチ学習」を行う。あるいは、学習処理部32は、学習データD3のうちの全部を処理単位として学習パラメータ群34を更新する「バッチ学習」を行ってもよい。
学習処理部32は、データ取得部60と、学習誤差算出部62と、パラメータ更新部64と、収束判断部66と、を備える。以下、学習処理部32を構成する各部の動作について、図4のフローチャートを参照しながら説明する。
図4のステップS1において、パラメータ更新部64は、学習パラメータ群34の初期値を付与する。ここで、パラメータ更新部64は、活性化関数を記述する係数、シナプス結合の重み付け係数を含む「可変パラメータ」の初期値のみならず、学習モデルのアーキテクチャを特定するための「固定パラメータ」(いわゆるハイパーパラメータ)の値を付与する。
ステップS2において、データ取得部60は、予め準備された学習データD3の中から複数の多変量データを取得する。具体的には、データ取得部60は、Nfull個の多変量データからなる学習データD3の中から、所定の順番で又は無作為に、N個(1<N≦Nfull)の多変量データを抽出する。これにより、次元数がM、標本数がNであるデータ母集団D4が形成される。N=Nfullの場合は「バッチ学習」に相当し、1<N<Nfullの場合は「ミニバッチ学習」に相当する。なお、N=1である「オンライン学習」を採用しない点に留意する。
ステップS3において、学習誤差算出部62は、ステップS2で取得されたデータ母集団D4の標本データ毎に再構成誤差を算出する。具体的には、学習誤差算出部62は、上記した式(1)を用いて、N個の再構成誤差{δ}(i=1,2,・・・,N)を算出する。なお、変数誤差関数f(・)は、判定処理に用いる関数f(・)と同一の又は異なる関数である。
ステップS4において、学習誤差算出部62は、ステップS3で算出されたN個の再構成誤差を用いて、データ母集団D4に応じた標本データ毎の乗数を定める。この乗数は、後述する学習誤差LEに対する影響度を示すゼロ又は正値のパラメータであり、値が大きいほど影響度が高くなる一方、値が小さいほど影響度が低くなる。ここでは、学習誤差算出部62は、再構成誤差が閾値よりも大きい標本データの乗数(ω)を、データ母集団D4全体における乗数の平均値(ωave)よりも小さくなるように定める。
図5は、乗数の設定方法の一例を示す図である。グラフの横軸は再構成誤差δ(≧0)を示すとともに、グラフの縦軸は乗数ω(≧0)を示す。本図から理解されるように、この設定に関するルールは、2値(0又は1)をとる階段関数(以下、特性曲線70)によって記述される。この特性曲線70によれば、各々の乗数は、0≦δ<δthの場合には一律の正値(例えば、ω=1)に定められ、δ≧δthの場合には乗数の最小値(例えば、ゼロ値)に定められる。この「ゼロ値」とは、完全なゼロのみならず、上記した正値(=1)よりも十分に小さい微小値を含む値である。
閾値δthは、固定値又は可変値のいずれであってもよい。可変値の一例として、データ母集団D4におけるN個の再構成誤差の統計量が挙げられる。この統計量は、具体的には、平均値、中央値、最頻値であってもよいし、上位10%,20%,30%に相当する再構成誤差の値であってもよい。
ところで、乗数の設定方法は、再構成誤差が大きい標本データの乗数をデータ母集団D4の中で相対的に小さくすることが可能であれば、図5に示す例(特性曲線70)に限られない。具体的には、ルールを記述する関数形状を変更してもよいし、テーブルデータを用いてルールを記述してもよい。あるいは、再構成誤差の絶対値と乗数との対応関係を記述してもよいし、再構成誤差の相対値と乗数との対応関係を記述してもよい。
図6(a)に示す特性曲線71〜73は、特性曲線70と同様に、δ=0の場合にω=1であり、δ≧δthの場合にω=0である。ところが、特性曲線71〜73は、0≦δ<δthの範囲において特性曲線70と異なっている。具体的には、特性曲線71ではδに比例してωが減少し、特性曲線72ではδの2乗に比例してωが減少する。つまり、特性曲線71,72のように、再構成誤差(δ)が大きくなるにつれて乗数(ω)が小さくなる関数が用いられてもよい。あるいは、特性曲線73のように、δの増加につれてωが単調に増加し、ωがピークに到達した後に単調に減少する関数が用いられてもよい。
図6(b)に示す特性テーブル74は、再構成誤差の序列と乗数の対応関係を示すテーブルデータである。この「再構成誤差の序列」とは、データ母集団D4のうち再構成誤差が小さい方から順に並べた場合の累積百分率(単位:%)を意味し、0%に近いほど再構成誤差が小さくなり、100%に近いほど再構成誤差が大きくなる。すなわち、この序列は、再構成誤差の「相対値」に相当する。この特性テーブル74によれば、各々の乗数は、0〜50%のクラスに属する場合にはω=1に、51〜80%のクラスに属する場合にはω=0.5に、81〜100%のクラスに属する場合にはω=0に、それぞれ定められる。
このようにして、学習誤差算出部62は、特性曲線70〜73又は特性テーブル74に従って標本データ毎の乗数を定める(ステップS4)。その結果、データ母集団D4を形成する度に、標本データ毎の乗数は、データ分布又は学習進度に応じて適応的(adaptive)に定められることになる。
ところで、学習データD3の種類によって正常値/外れ値の存在割合が異なることが想定される。そこで、学習誤差算出部62は、データ取得部60により多変量データと併せて取得されたメタデータに応じて乗数の設定方法を変更してもよい。メタデータの具体例として、データの提供元(例えば、車種・ユーザ層・使用年数)又はデータの提供環境(例えば、国・地域・気候・走行場所)が挙げられる。
例えば、車両16が新品である場合、車載部品の摩耗が少ない分だけ車両16が正常状態である可能性が高く、外れ値の存在割合が小さくなることが予想される。そこで、学習誤差算出部62は、メタデータが示す使用年数が少ない場合、標準値と比べて閾値δthを大きく設けることで学習速度をより高めることができる。
また、高温多湿な気候である場合、外部環境が厳しい分だけ車両16が異常状態になる可能性が高く、外れ値の存在割合が大きくなることが予想される。そこで、学習誤差算出部62は、メタデータが示す気候が「高温多湿」である場合、標準値と比べて閾値δthを小さく設けることで学習速度をより高めることができる。
図4のステップS5において、学習誤差算出部62は、ステップS4で定められた乗数を用いて、データ母集団D4に対する学習誤差LEを算出する。具体的には、学習誤差算出部62は、標本データ毎の乗数を用いて重み付けした再構成誤差を用いて学習誤差LEを計算する。再構成誤差の重み付け総和を用いる場合、学習誤差LEは、式(2)のように算出される。
Figure 0006950647
既に述べた通り、各々の乗数は、標本データが学習誤差LEに与える影響度を示している。式(2)から理解されるように、乗数がゼロ(ω=0)である再構成誤差は、学習誤差LEに影響を与えない(つまり、影響度が無効化又は最小化される)点に留意する。
ステップS6において、パラメータ更新部64は、ステップS5で算出された学習誤差LEが小さくなるように学習パラメータ群34(上記した可変パラメータ)を更新する。更新アルゴリズムとして、例えば、勾配降下法、確率的勾配降下法、モーメンタム法、RMSroopを含む様々な手法を用いてもよい。
ステップS7において、収束判断部66は、現在の学習時点にて所定の収束条件を満たすか否かを判断する。この収束条件の一例として、[1]学習誤差LEが十分に小さくなったこと、[2]学習誤差LEの更新量が十分に小さくなったこと、[3]学習の繰り返し回数が上限値に到達したこと、などが挙げられる。この収束条件を満たさないと判断された場合(ステップS7:NO)、ステップS2に戻って、以下、ステップS2〜S7を順次繰り返す。一方、収束条件を満たすと判断された場合(ステップS7:YES)、ステップS8に進む。
ステップS8において、学習処理部32は、ステップS6で直近に更新された学習パラメータ群34を記憶部24に記憶させ、自己符号化器28に対する学習処理を終了する。その後、データ判定装置12は、この学習パラメータ群34を読み出して用いることで、判定対象データD1に対して高精度な判定処理を行うことができる。
<学習の結果>
図7は、自己符号化器28の学習過程を示す模式図である。図7(a)は学習の終了時における理想的な判定状態、図7(b)は比較例における恒等変換曲線の更新結果、図7(c)は実施例における恒等変換曲線の更新結果をそれぞれ示す。
図7(a)に示すように、二次元的に表現されたデータ空間領域80内に、14個の標本点P1〜P14があるとする。標本点P1〜P14は、学習処理を通じて形成される恒等変換曲線82(破線で図示)に基づいて、正常値であるか否かが判定される。この恒等変換曲線82は、自己符号化器28により完全な再構成(つまり、恒等変換)が行われる座標の等高線に相当する。
例えば、データ空間領域80のうち、恒等変換曲線82からの距離が許容範囲内である部分領域を正常値領域84と定義し、その残りの領域を外れ値領域86と定義する。この場合、3個の標本点P1,P6,P7(塗り潰しがある丸印)が「外れ値」であると判定され、残りの11個の標本点P2〜P5,P8〜P14(塗り潰しがない丸印)が「正常値」であると判定される。
以下、14個の標本点P1〜P14から無作為に選定された半分(つまり、7個)の標本点P1〜P7を用いて、自己符号化器28に対する学習を行う場合を想定する。なお、標本データに正常値/外れ値のラベルが付与されていないので、標本データを取得する際にデータの分布を意図的に調整することが難しい点に留意する。
図7(b),(c)に示すように、学習が進行していない初期状態では、恒等変換曲線90は、次数が小さい関数形状(例えば、直線)により表現される。標本点P1〜P7の近くに表記した括弧内の数字は、恒等変換曲線90からの距離であり、再構成誤差に概ね対応する値である。例えば、標本点P6の再構成誤差(5.3)が最も大きく、標本点P4の再構成誤差(0.1)が最も小さい。
図7(b)の比較例では、標本点P1〜P7の再構成誤差をすべて用いて学習誤差LEを算出し、学習パラメータ群34を更新する場合を想定する。例えば、閾値δth=10に設定された場合、式(2)においてω=1(i=1,2,・・・,7)となる。その結果、元の恒等変換曲線90から新たな恒等変換曲線92に更新される。
この更新により、「外れ値」であるべき標本点P1の再構成誤差が減少し、偽陰性(False Negative)の判定結果が得られる方向に学習が進行してしまう。同様に、「正常値」であるべき標本点P2の再構成誤差が増加し、擬陽性(False Positive)の判定結果が得られる方向に学習が進行してしまう。つまり、学習に用いる標本データに統計的な偏りが生じていた場合、その偏った標本データ(図7の例では、標本点P1,P2,P6)の影響を受け、学習速度の低下及び過学習を引き起こす可能性がある。
図7(c)の実施例では、標本点P1〜P7の再構成誤差の一部を用いて学習誤差LEを算出し、学習パラメータ群34を更新する場合を想定する。例えば、閾値δth=0.8に設定された場合、式(2)においてω=1(i=3,4,5,7),ω=0(i=1,2,6)となる。その結果、元の恒等変換曲線90から新たな恒等変換曲線94に更新される。
この更新により、「外れ値」であるべき標本点P1の再構成誤差が増加し、正当な判定結果(真陽性;True Positive)が得られる方向に学習が進行する。同様に、「正常値」であるべき標本点P2の再構成誤差が減少し、正当な判定結果(真偽性;True Negative)が得られる方向に学習が進行する。つまり、学習に用いる標本データに統計的な偏りが生じていた場合、その偏った標本データ(標本点P1,P2,P6)の影響度を相対的に低くすることで、学習速度の低下及び過学習が抑制される。
図8は、学習済みの自己符号化器28による判定処理の結果を示す図である。より詳しくは、図8(a)は図7(b)に示す比較例における散布図であり、図8(b)は図7(c)に示す実施例における散布図である。プロットの横軸は中間層52(図2)を構成する1つのニューロンの出力値(以下、単に「ニューロン出力値」ともいう)を示すとともに、プロットの縦軸は再構成誤差を示す。
判定対象データD1及び学習データD3として、ODDS(Outlier Detection DataSets)から公開されている「Satimage-2 dataset」(36次元の多変量データ)を用いた。学習モデルのアーキテクチャは、入力層50及び出力層54のニューロンの個数をそれぞれ36個(M=36)とし、中間層52の層数を1、ニューロンの個数を2個にした。つまり、ニューロン出力値は、次元圧縮処理による出力結果に相当する。
ところで、塗り潰しの色が相対的に薄いプロットは「正常値」を示す一方、塗り潰しの色が相対的に濃いプロットは「外れ値」を示す。各々の散布図において、「正常値」の分布と「外れ値」の分布が縦軸方向に(つまり、再構成誤差の値に応じて)分離された状態であれば、自己符号化器28の次元圧縮機能が高いので、その分だけデータの判定精度が高くなると考えられる。
また、散布図の作成と併せて、ROC(Receiver Operating Characteristic)曲線に基づくAUC(Area Under the Curve)を算出した。このAUCは、分類器の性能を評価するために一般的に用いられる指標である。具体的には、完全に分類可能な場合はAUC=1に相当し、無作為分類の場合はAUC=0.5に相当する。
図8(a)の比較例では、本図から理解されるように、正常値と外れ値が縦軸方向にわたって共存する範囲が広くなっており、1本の境界線(判定の閾値)による区画が困難である。また、AUC=79.33%であり、十分な判定精度が得られなかった。
一方、図8(b)の実施例では、本図から理解されるように、正常値と外れ値が縦軸方向にわたって共存する範囲が狭くなっており、1本の境界線96(判定の閾値)による区画が可能である。また、AUC=99.87%であり、かなり高い判定精度が得られた。
[データ判定装置12による効果]
以上のように、データ判定装置12は、データ母集団D4に応じて定められた標本データ毎の乗数を用いて再構成誤差に重み付けして学習誤差LEを算出する学習誤差算出部62を備えるので、現時点の学習進度において各々の標本データが学習誤差LEに与える影響度のバランスを適応的に調整可能となる。つまり、標本データ毎の乗数を適切に定めることで、データ母集団D4に対する過学習が抑制されるとともに、標本データのばらつきに対する頑健性が高くなる。これにより、自己符号化器28に対して学習を行う際、データ母集団D4に統計的な偏りが生じる場合であっても、学習速度及び判定精度の低下を抑制することができる。
特に、データ取得部60による多変量データの取得(S2)、学習誤差算出部62による学習誤差LEの算出(S5)、及びパラメータ更新部64による学習パラメータ群34の更新(S6)を順次繰り返す「ミニバッチ学習」を行う場合、バッチ学習の場合と比べて統計的な偏りが生じやすくなるので、上記した抑制効果がより顕著に現われる。
また、学習誤差算出部62は、再構成誤差が閾値よりも大きい標本データの乗数を、データ母集団D4全体における乗数の平均値よりも小さくなるように定め、学習誤差LEを算出してもよい。これにより、現時点の学習進度にて外れ値である確度が高い標本データによる影響度を相対的に低くすることができる。
また、学習誤差算出部62は、データ母集団D4における再構成誤差の統計量から閾値を設定してもよい。これにより、データ母集団D4の統計的傾向がより適切に反映された学習誤差LEを算出することができる。
また、学習誤差算出部62は、再構成誤差が閾値よりも大きい標本データの乗数をゼロ値に定め、再構成誤差が閾値以下である標本データの乗数をゼロ値よりも大きい一律の正値に定めてもよい。外れ値である確度が高い標本データによる影響度を最小化するとともに、正常値である確度が高い標本データによる影響度を均等化することで、標本データのばらつきに対する頑健性がさらに高くなる。
また、学習誤差算出部62は、再構成誤差が大きくなるにつれて乗数が小さくなるルールに従って標本データ毎の乗数を定め、学習誤差LEを算出してもよい。正常値である確度が高い標本データほど影響度を高くし、外れ値である確度が高い標本データほど影響度を相対的に低くすることで、標本データのばらつきに対する頑健性がさらに高くなる。
また、学習誤差算出部62は、多変量データの提供元又は提供環境を示すメタデータに応じて、標本データ毎の乗数の設定方法を変更してもよい。正常値/外れ値の存在割合が提供元又は提供環境によって異なることを考慮し、標本データ毎の乗数を適切に定めることで学習速度をより高めることができる。
[変形例]
なお、この発明は、上述した実施形態に限定されるものではなく、この発明の主旨を逸脱しない範囲で自由に変更できることは勿論である。あるいは、技術的に矛盾が生じない範囲で各々の構成を任意に組み合わせてもよい。
例えば、上記した実施形態では、データ判定装置12(1つのコンピュータ)が図4に示すフローチャートの動作を実行しているが、複数のコンピュータが処理機能を分担してこの一連の動作を実行してもよい。
また、上記した実施形態では、車両16(四輪自動車)のプローブデータを用いた学習処理及び判定処理を行っているが、様々な種類の多変量データに適用してもよい。データの提供元は、例えば、[1]他の車両(二輪自動車、電車など)、船舶、ドローン、宇宙機、自律移動ロボットを含む移動体、[2]風力発電機、太陽光発電機、蓄電設備を含む分散型電源、[3]工場、家庭などの様々な施設内にあるIoT(Internet Of Things)機器であってもよい。
10 データ判定システム、12 データ判定装置、20 通信部、22 制御部、24 記憶部、26 データベース処理部、28 自己符号化器、30 判定処理部、32 学習処理部、34 学習パラメータ群、60 データ取得部、62 学習誤差算出部、64 パラメータ更新部、66 収束判断部、D3 学習データ、D4 データ母集団、P1〜P14 標本点。

Claims (11)

  1. 複数の変数からなる多変量データを取得してデータ母集団を形成するデータ取得部と、
    多変量データの入力に対して、学習パラメータ群により定められる次元圧縮処理及び次元復元処理を順次実行することで、入力の次元数に等しい多変量データを出力する自己符号化器と、
    前記自己符号化器における多変量データの入出力差の大きさを示す再構成誤差を前記データ母集団の標本データ毎に求め、標本データ毎の前記再構成誤差を用いて前記データ母集団に対する学習誤差を算出する学習誤差算出部と、
    前記学習誤差算出部により算出された前記学習誤差が小さくなるように前記学習パラメータ群を更新するパラメータ更新部と、
    を備え、
    前記学習誤差算出部は、前記データ母集団に応じて定められた標本データ毎の乗数を用いて前記再構成誤差に重み付けして前記学習誤差を算出し、
    前記学習誤差算出部は、前記再構成誤差が閾値よりも大きい標本データの乗数を、前記データ母集団全体における乗数の平均値よりも小さくなるように定め、前記学習誤差を算出する、
    ことを特徴とするデータ判定装置。
  2. 請求項に記載のデータ判定装置において、
    前記学習誤差算出部は、前記データ母集団における前記再構成誤差の統計量から前記閾値を設定し、前記学習誤差を算出することを特徴とするデータ判定装置。
  3. 請求項又はに記載のデータ判定装置において、
    前記学習誤差算出部は、前記再構成誤差が前記閾値よりも大きい標本データの乗数をゼロ値に定め、前記再構成誤差が前記閾値以下である標本データの乗数をゼロ値よりも大きい一律の正値に定めることを特徴とするデータ判定装置。
  4. 請求項1又は2に記載のデータ判定装置において、
    前記学習誤差算出部は、前記再構成誤差が大きくなるにつれて乗数が小さくなるルールに従って標本データ毎の乗数を定め、前記学習誤差を算出することを特徴とするデータ判定装置。
  5. 複数の変数からなる多変量データを取得してデータ母集団を形成するデータ取得部と、
    多変量データの入力に対して、学習パラメータ群により定められる次元圧縮処理及び次元復元処理を順次実行することで、入力の次元数に等しい多変量データを出力する自己符号化器と、
    前記自己符号化器における多変量データの入出力差の大きさを示す再構成誤差を前記データ母集団の標本データ毎に求め、標本データ毎の前記再構成誤差を用いて前記データ母集団に対する学習誤差を算出する学習誤差算出部と、
    前記学習誤差算出部により算出された前記学習誤差が小さくなるように前記学習パラメータ群を更新するパラメータ更新部と、
    を備え、
    前記学習誤差算出部は、前記データ母集団に応じて定められた標本データ毎の乗数を用いて前記再構成誤差に重み付けして前記学習誤差を算出し、
    前記学習誤差算出部は、前記再構成誤差が大きくなるにつれて乗数が小さくなるルールに従って標本データ毎の乗数を定め、前記学習誤差を算出する、
    ことを特徴とするデータ判定装置。
  6. 請求項1〜5のいずれか1項に記載のデータ判定装置において、
    前記学習誤差算出部は、前記多変量データの提供元又は提供環境を示すメタデータに応じて、標本データ毎の乗数の設定方法を変更することを特徴とするデータ判定装置。
  7. 請求項1〜6のいずれか1項に記載のデータ判定装置において、
    前記データ取得部による取得、前記学習誤差算出部による算出、及び前記パラメータ更新部による更新を順次繰り返すミニバッチ学習を行うことを特徴とするデータ判定装置。
  8. 複数の変数からなる多変量データを取得してデータ母集団を形成する取得ステップと、
    多変量データの入力に対して、学習パラメータ群により定められる次元圧縮処理及び次元復元処理を順次実行することで、入力の次元数に等しい多変量データを出力する処理ステップと、
    前記処理ステップにおける多変量データの入出力差の大きさを示す再構成誤差を前記データ母集団の標本データ毎に求め、標本データ毎の前記再構成誤差を用いて前記データ母集団に対する学習誤差を算出する算出ステップと、
    算出された前記学習誤差が小さくなるように前記学習パラメータ群を更新する更新ステップと、
    を1つ又は複数のコンピュータが実行し、
    前記算出ステップでは、前記データ母集団に応じて定められた標本データ毎の乗数を用いて前記再構成誤差に重み付けして前記学習誤差を算出し、
    前記算出ステップでは、前記再構成誤差が閾値よりも大きい標本データの乗数を、前記データ母集団全体における乗数の平均値よりも小さくなるように定め、前記学習誤差を算出する、
    ことを特徴とするデータ判定方法。
  9. 複数の変数からなる多変量データを取得してデータ母集団を形成する取得ステップと、
    多変量データの入力に対して、学習パラメータ群により定められる次元圧縮処理及び次元復元処理を順次実行することで、入力の次元数に等しい多変量データを出力する処理ステップと、
    前記処理ステップにおける多変量データの入出力差の大きさを示す再構成誤差を前記データ母集団の標本データ毎に求め、標本データ毎の前記再構成誤差を用いて前記データ母集団に対する学習誤差を算出する算出ステップと、
    算出された前記学習誤差が小さくなるように前記学習パラメータ群を更新する更新ステップと、
    を1つ又は複数のコンピュータが実行し、
    前記算出ステップでは、前記データ母集団に応じて定められた標本データ毎の乗数を用いて前記再構成誤差に重み付けして前記学習誤差を算出し、
    前記算出ステップでは、前記再構成誤差が大きくなるにつれて乗数が小さくなるルールに従って標本データ毎の乗数を定め、前記学習誤差を算出する、
    ことを特徴とするデータ判定方法。
  10. 複数の変数からなる多変量データを取得してデータ母集団を形成する取得ステップと、
    多変量データの入力に対して、学習パラメータ群により定められる次元圧縮処理及び次元復元処理を順次実行することで、入力の次元数に等しい多変量データを出力する処理ステップと、
    前記処理ステップにおける多変量データの入出力差の大きさを示す再構成誤差を前記データ母集団の標本データ毎に求め、標本データ毎の前記再構成誤差を用いて前記データ母集団に対する学習誤差を算出する算出ステップと、
    算出された前記学習誤差が小さくなるように前記学習パラメータ群を更新する更新ステップと、
    を1つ又は複数のコンピュータに実行させ、
    前記算出ステップでは、前記データ母集団に応じて定められた標本データ毎の乗数を用いて前記再構成誤差を重み付けして前記学習誤差を算出し、
    前記算出ステップでは、前記再構成誤差が閾値よりも大きい標本データの乗数を、前記データ母集団全体における乗数の平均値よりも小さくなるように定め、前記学習誤差を算出する、
    ことを特徴とするデータ判定プログラム。
  11. 複数の変数からなる多変量データを取得してデータ母集団を形成する取得ステップと、
    多変量データの入力に対して、学習パラメータ群により定められる次元圧縮処理及び次元復元処理を順次実行することで、入力の次元数に等しい多変量データを出力する処理ステップと、
    前記処理ステップにおける多変量データの入出力差の大きさを示す再構成誤差を前記データ母集団の標本データ毎に求め、標本データ毎の前記再構成誤差を用いて前記データ母集団に対する学習誤差を算出する算出ステップと、
    算出された前記学習誤差が小さくなるように前記学習パラメータ群を更新する更新ステップと、
    を1つ又は複数のコンピュータに実行させ、
    前記算出ステップでは、前記データ母集団に応じて定められた標本データ毎の乗数を用いて前記再構成誤差を重み付けして前記学習誤差を算出し、
    前記算出ステップでは、前記再構成誤差が大きくなるにつれて乗数が小さくなるルールに従って標本データ毎の乗数を定め、前記学習誤差を算出する、
    ことを特徴とするデータ判定プログラム。
JP2018159026A 2018-08-28 2018-08-28 データ判定装置、方法、及びプログラム Active JP6950647B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018159026A JP6950647B2 (ja) 2018-08-28 2018-08-28 データ判定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018159026A JP6950647B2 (ja) 2018-08-28 2018-08-28 データ判定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020035042A JP2020035042A (ja) 2020-03-05
JP6950647B2 true JP6950647B2 (ja) 2021-10-13

Family

ID=69668071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018159026A Active JP6950647B2 (ja) 2018-08-28 2018-08-28 データ判定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6950647B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022259333A1 (ja) * 2021-06-07 2022-12-15 日本電気株式会社 学習方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010092266A (ja) * 2008-10-08 2010-04-22 Nec Corp 学習装置、学習方法及びプログラム
JP5271877B2 (ja) * 2009-11-17 2013-08-21 日本電信電話株式会社 複数クラス分類装置、複数クラス分類方法および複数クラス分類プログラム
US10558935B2 (en) * 2013-11-22 2020-02-11 California Institute Of Technology Weight benefit evaluator for training data
JP5844854B2 (ja) * 2014-06-19 2016-01-20 ヤフー株式会社 提供装置、提供方法及び提供プログラム
US11836746B2 (en) * 2014-12-02 2023-12-05 Fair Isaac Corporation Auto-encoder enhanced self-diagnostic components for model monitoring

Also Published As

Publication number Publication date
JP2020035042A (ja) 2020-03-05

Similar Documents

Publication Publication Date Title
CN110287932B (zh) 基于深度学习图像语义分割的道路阻断信息提取方法
CN111950627B (zh) 一种多源信息融合方法及其应用
Jalalkamali Using of hybrid fuzzy models to predict spatiotemporal groundwater quality parameters
CN111461410B (zh) 一种基于迁移学习的空气质量的预测方法及装置
CN113780292B (zh) 一种基于证据推理的语义分割网络模型不确定性量化方法
CN114297036B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN111723780A (zh) 基于高分辨率遥感图像的跨域数据的定向迁移方法及系统
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN107832789B (zh) 基于平均影响值数据变换的特征加权k近邻故障诊断方法
JP6892606B2 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
CN104156943A (zh) 基于非支配邻域免疫算法的多目标模糊聚类图像变化检测方法
CN114548199A (zh) 一种基于深度迁移网络的多传感器数据融合方法
CN116611018A (zh) 基于多源数据融合的装备系统健康管理及故障诊断方法
Li et al. On combination rule in Dempster–Shafer theory using OWA‐based soft likelihood functions and its applications in environmental impact assessment
JP6950647B2 (ja) データ判定装置、方法、及びプログラム
CN114187261A (zh) 一种基于多维注意力机制的无参考立体图像质量评价方法
CN114445121A (zh) 一种广告点击率预测模型构建及广告点击率预测方法
CN112541530B (zh) 针对聚类模型的数据预处理方法及装置
CN109657907B (zh) 地理国情监测数据的质量控制方法、装置和终端设备
CN115346125B (zh) 一种基于深度学习的目标检测方法
CN114757391B (zh) 一种面向服务质量预测的网络数据空间设计与应用方法
CN116011507A (zh) 融合元学习与图神经网络的稀有故障诊断方法
CN116166642A (zh) 基于引导信息的时空数据填补方法、系统、设备及介质
CN113807005A (zh) 基于改进fpa-dbn的轴承剩余寿命预测方法
CN114330090A (zh) 一种缺陷检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200407

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210824

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210906

R150 Certificate of patent or registration of utility model

Ref document number: 6950647

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150