JP7453136B2

JP7453136B2 - 異常検出装置、異常検出方法及び異常検出システム

Info

Publication number: JP7453136B2
Application number: JP2020216561A
Authority: JP
Inventors: ハーシュプラモドブハイプロヒト; 隆遠藤; 洋平川口
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2024-03-19
Anticipated expiration: 2040-12-25
Also published as: JP2022102053A; US20220208184A1; US11869492B2

Description

本開示は、異常検出装置、異常検出方法及び異常検出システムに関する。

工場やデータセンター等の施設に配置されている様々な機器の稼働率を維持し、長寿命化を図るためには、個々の機器についての異常の有無を早期かつ正確に判定することが重要である。そして、機器の異常検出の手段の１つとして、検証対象の機器のファンやモーターから発生する音響信号を解析することが知られている。

信号を解析する手法の一つとして、いわゆるＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）を用いることができる。ＧＡＮとは、2つのニューラルネットワークを互いに競わせて入力データの学習を深めるアーキテクチャで構成される機械学習手段である。ＧＡＮによれば、広範な分野において様々な判別タスクを高精度で行うことができる。

例えば、米国特許出願公開第１６／５３５２７７号明細書（特許文献１）には、「GAN（Generative Adversarial Networks）を利用して、検出結果の精度と信頼性を向上させることができる異常検出方法、デバイス、およびそのシステムが提供される。本開示のいくつかの実施形態に係る異常検出装置は、GAN（Generative Adversarial Networks）ベースのイメージ変換モデルと異常（anomaly）の検出モデルを格納するメモリと、上記画像変換モデルを使用して低難易度の学習画像を高難易度の学習画像に変換し、上記変換された学習画像を用いて前記異常検出モデルを学習させるプロセッサを含むことができる。異常検出が難しい高難易度の学習画像に異常検出モデルを学習させることで、異常検出装置の検出性能が向上することができる」との技術が記載されている。

米国特許出願公開第１６／５３５２７７号明細書

上記の特許文献１には、ＧＡＮを用いることで、画像における異常（例えば、病変等）を検出する手段が開示されている。

しかし、特許文献１に記載の手段は、ＧＡＮを画像処理に適応することに着目しており、音響信号における異常検出への適用は想定されていないため、音響信号に対する高精度の異常検出は期待することができない。

そこで、本開示は、音響信号を生成した機器に関してＧＡＮを用いることで、頑強性（ロバストネス）が高い異常検出手段を提供することを目的とする。

上記の課題を解決するために、代表的な本発明の異常検出装置の一つは、所定の機器の種類毎に、特定の機器を識別するための機器識別情報を格納する機器識別データベースと、前記機器識別情報に基づいて階層条件ベクトルを生成する階層条件ベクトル生成部と、異常検出対象の機器である対象機器から取得した音響信号を分析することで前記音響信号の特徴量を示す対象機器特徴量ベクトルを抽出する抽出部と、前記階層条件ベクトルと、前記対象機器特徴量ベクトルとを解析することで、前記対象機器の周辺環境の背景雑音レベルを示す背景雑音レベル情報と、前記対象機器特徴量ベクトルの真偽を示す真偽判定情報とを出力する階層条件敵対的ニューラルネットワークと、前記背景雑音レベル情報と、前記真偽判定情報とに基づいて、前記対象機器について異常が存在する確率を示す異常スコアを判定する異常判定部とを含む。

本発明によれば、音響信号を生成した機器に関してＧＡＮを用いることで、頑強性（ロバストネス）が高い異常検出手段を提供することができる。
上記以外の課題、構成及び効果は、以下の発明を実施するための形態における説明により明らかにされる。

図１は、本発明の実施形態を実施するためのコンピュータシステムのブロック図である。図２は、本開示の実施形態に係る異常検出システムの論理構成の一例を示す図である。図３は、本開示の実施形態に係る異常検出システムのハードウェア構成の一例を示す図である。図４は、本開示の実施形態に係る生成ネットワークの一例を示す図である。図５は、本開示の実施形態に係る識別ネットワークの一例を示す図である。図６は、本開示の実施形態に係る階層条件ベクトルの構成の一例を示す図である。図７は、本開示の実施形態に係る異常検出装置の訓練段階における論理構成の一例を示す図である。図８は、本開示の実施形態に係る抽出部による対象機器特徴量ベクトル生成処理の一例を示す図である。図９は、本開示の実施形態に係る階層条件ベクトル生成部による階層条件ベクトル生成処理の一例を示す図である。図１０は、本開示の実施形態に係る異常検出装置の訓練段階の流れを示す訓練処理のフローチャートである。図１１は、本開示の実施形態に係る異常検出装置の推論段階における論理構成の一例を示す図である。図１２は、本開示の実施形態に係る背景雑音レベルと、異常判定閾値との関係を示すグラフの一例である。図１３は、本開示の実施形態に係る異常検出装置の推論段階の流れを示す推論処理のフローチャートである。

以下、図面を参照して、本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

音響信号に対する異常検出の精度は、多くの要因に依存する。例えば、検証対象の機器の種類によって発生する音が異なるため、音響信号を解析する際には、当該音響信号を生成した機器の種類（ファン、ポンプ、バルブ等）を示す情報を考慮することが望ましい。更に、検証対象の機器が配置されている環境の背景雑音（他の装置の作動音、人間の声、交通による雑音等）も、音響信号の判定に影響を与えるため、検証対象の機器の周辺環境における背景雑音レベルに対応する最適な異常判定閾値を設定することが重要である。

つまり、音響信号に対する異常検出の精度は、例えば、検証対象の機器の種類を示す機器識別情報や、検証対象の機器が配置されている環境の背景雑音のレベルを示す背景雑音情報等、様々な要因に依存することを前提として検討することが重要となる。
しかし、従来の機械学習ベースの音響信号に対する異常検出手段では、ニューラルネットワークは正常の音響信号のみによって訓練されており、検証対象の機器の種類や、検証対象の機器が配置されている環境の背景雑音等が考慮されていないため、このように訓練したニューラルネットワークを実際の音響信号の異常検出に適用した場合、別個の雑音抑制手段が必要となる上、現場での異常検出精度が限定されてしまう。

従って、上記の問題を解決するために、本開示の実施形態に係る異常検出装置は、検証対象の機器から取得した音響信号を近似した偽ベクトルを生成する生成ネットワークと、入力したベクトルの真偽を判定すると共に、検証対象の機器が配置されている環境における背景雑音のレベルを判定する識別ネットワークとを有する階層条件敵対的ニューラルネットワークを含む。この階層条件敵対的ニューラルネットワークは、機器から取得した
音響信号の特徴量を示す対象機器特徴量ベクトルと、機器のタイプを示すタイプ情報及び機器の識別子を示す識別子情報を含む階層条件ベクトルとに基づいて訓練される。このように、機器に関する情報を含む階層条件ベクトルを用いることにより、生成ネットワークは本物の音響信号に対する類似性がより高い偽ベクトルを生成するように訓練され、識別ネットワークは、より高精度の異常検出を行うように訓練される。

まず、図１を参照して、本開示の実施形態を実施するためのコンピュータシステム３００について説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム３００の主要コンポーネントは、１つ以上のプロセッサ３０２、メモリ３０４、端末インターフェース３１２、ストレージインタフェース３１４、Ｉ／Ｏ（入出力）デバイスインタフェース３１６、及びネットワークインターフェース３１８を含む。これらのコンポーネントは、メモリバス３０６、Ｉ／Ｏバス３０８、バスインターフェースユニット３０９、及びＩ／Ｏバスインターフェースユニット３１０を介して、相互的に接続されてもよい。

コンピュータシステム３００は、プロセッサ３０２と総称される１つ又は複数の汎用プログラマブル中央処理装置（ＣＰＵ）３０２Ａ及び３０２Ｂを含んでもよい。ある実施形態では、コンピュータシステム３００は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム３００は単一のＣＰＵシステムであってもよい。各プロセッサ３０２は、メモリ３０４に格納された命令を実行し、オンボードキャッシュを含んでもよい。

ある実施形態では、メモリ３０４は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体（揮発性又は不揮発性のいずれか）を含んでもよい。メモリ３０４は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ３０４は、異常検出アプリケーション３５０を格納していてもよい。ある実施形態では、異常検出アプリケーション３５０は、後述する機能をプロセッサ３０２上で実行する命令又は記述を含んでもよい。

ある実施形態では、異常検出アプリケーション３５０は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、異常検出アプリケーション３５０は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス（図示せず）が、バスインターフェースユニット３０９、プロセッサ３０２、またはコンピュータシステム３００の他のハードウェアと直接通信するように提供されてもよい。

コンピュータシステム３００は、プロセッサ３０２、メモリ３０４、表示システム３２４、及びＩ／Ｏバスインターフェースユニット３１０間の通信を行うバスインターフェースユニット３０９を含んでもよい。Ｉ／Ｏバスインターフェースユニット３１０は、様々なＩ／Ｏユニットとの間でデータを転送するためのＩ／Ｏバス３０８と連結していてもよい。Ｉ／Ｏバスインターフェースユニット３１０は、Ｉ／Ｏバス３０８を介して、Ｉ／Ｏプロセッサ（ＩＯＰ）又はＩ／Ｏアダプタ（ＩＯＡ）としても知られる複数のＩ／Ｏインタフェースユニット３１２，３１４，３１６、及び３１８と通信してもよい。

表示システム３２４は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置３２６に提供することができる。また、コンピュータシステム３００は、データを収集し、プロセッサ３０２に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。

例えば、コンピュータシステム３００は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム３２４は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置３２６に接続されてもよい。

Ｉ／Ｏインタフェースユニットは、様々なストレージ又はＩ／Ｏデバイスと通信する機能を備える。例えば、端末インタフェースユニット３１２は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザＩ／Ｏデバイス３２０の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザＩ／Ｏデバイス３２０及びコンピュータシステム３００に対して入力データや指示を入力し、コンピュータシステム３００からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザＩ／Ｏデバイス３２０を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。

ストレージインタフェース３１４は、１つ又は複数のディスクドライブや直接アクセスストレージ装置３２２（通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい）の取り付けが可能である。ある実施形態では、ストレージ装置３２２は、任意の二次記憶装置として実装されてもよい。メモリ３０４の内容は、ストレージ装置３２２に記憶され、必要に応じてストレージ装置３２２から読み出されてもよい。Ｉ／Ｏデバイスインタフェース３１６は、プリンタ、ファックスマシン等の他のＩ／Ｏデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース３１８は、コンピュータシステム３００と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク３３０であってもよい。

ある実施形態では、コンピュータシステム３００は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム（クライアント）からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム３００は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。

次に、図２を参照して、本開示の実施形態に係る異常検出システムの論理構成について説明する。

図２は、本開示の実施形態に係る異常検出システム２００の論理構成の一例を示す図である。上述したように、本開示の実施形態に係る異常検出システム２００は、音響信号を生成した機器に関する識別情報と、当該機器が配置されている環境の雑音レベルに関する情報とを考慮する階層条件ＧＡＮを用いることで、頑強性（ロバストネス）が高い異常検出を行うためのシステムである。
図２に示すように、本開示の実施形態に係る異常検出システム２００は、異常検出装置１、センサ部２、及び対象機器３を主に含む。異常検出装置１、センサ部２、及び対象機器３は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネット等、任意の通信ネットワークを介して互いに接続されてもよい。

対象機器３は、工場やデータセンター等の施設に配置されている機器であり、異常検出処理の対象となる音響信号を生成する機器である。対象機器３は、例えばデータセンターに配置されているサーバや、工場に配置されている装置等、作動に伴って音響信号が発生する機器であれば任意の機器であってもよい。

センサ部２は、対象機器３からの音響信号を取得するためのセンサ装置である。センサ部２は、例えば対象機器３の付近や内部等に設置されているマイクロフォンや録音装置であってもよい。センサ部２は、対象機器３から取得した音響信号を、異常検出処理の対象となる音響信号Ｄ０として異常検出装置１に送信してもよい。

図２に示すように、異常検出装置１は、抽出部１２、階層条件ベクトル生成部１３、階層条件敵対的ニューラルネットワーク１４、異常判定部１５、学習データベース（以下、「学習ＤＢ」という）１６、機器識別データベース（以下、「機器識別ＤＢ」という）１７、及びノイズ生成部１８を含む。

抽出部１２は、対象機器３から取得した音響信号Ｄ０を分析することで音響信号Ｄ０の特徴量を示す対象機器特徴量ベクトルＤ１を抽出する機能部である。抽出部１２は、例えば、対象機器３から取得した音響信号Ｄ０を窓関数に通して、周波数スペクトルを計算した結果を、時間、周波数、信号成分の強さの３次元を表すスペクトログラム（例えばＬｏｇ－ＭｅｌＳｐｅｃｔｒｏｇｒａｍ）を音響信号Ｄ０の特徴として抽出してもよい。ある実施形態では、抽出部１２は、対象機器特徴量ベクトルＤ１を音響信号Ｄ０から抽出するためのアルゴリズム及びパラメータを、学習ＤＢ１７から取得してもよい。対象機器特徴量ベクトルＤ１を抽出した後、抽出部１２は、対象機器特徴量ベクトルＤ１を階層条件敵対的ニューラルネットワーク１４に転送する。

学習ＤＢ１７は、対象機器特徴量ベクトルＤ１を抽出するためのアルゴリズム及びパラメータや、階層条件敵対的ニューラルネットワーク１４を訓練するためのパラメータを格納するためのデータベースである。

機器識別ＤＢ１６は、様々な機器に関する識別情報を格納するためのデータベースである。例えば、機器識別ＤＢ１６は、所定の機器の種類毎に、特定の機器を識別するための機器識別情報を格納してもよい。一例として、機器識別ＤＢ１６は、機器のタイプ（ファン、ポンプ、バルブ等）を示すタイプ情報と、機器の識別子を示す識別子情報（特定の機器の製番、型番、ID-N等）を格納してもよい。

階層条件ベクトル生成部１３は、機器識別ＤＢ１６に格納されている機器識別情報に基づいて、階層条件ベクトル（ｈｉｅｒａｒｃｈｉｃａｌｃｏｎｄｉｔｉｏｎａｌｖｅｃｔｏｒ）Ｄ２を生成するための機能部である。ある実施形態では、階層条件ベクトル生成部１３は、機器識別ＤＢ１６に格納されている機器識別情報に基づいて、ワンホットベクトル生成手段によって階層条件ベクトルＤ２を生成してもよい。
この階層条件ベクトルＤ２とは、所定の階層条件（例えば、機器の識別情報）に関する情報を含むデータ構造である。この階層条件ベクトルを用いて階層条件敵対的ニューラルネットワーク１４を訓練することで、より正確な潜在空間表現が可能となり、本物の音響信号Ｄ０に対する類似性がより高い偽ベクトルを生成することができる。
なお、階層条件ベクトルＤ２の構成の詳細については、図６を参照して説明するため、ここではその説明を省略する。

ノイズ生成部１８は、雑音の信号を生成するための機能部である。ある実施形態では、ノイズ生成部１８は、特定の機器（例えば、対象機器等）の正常の音響信号に基づいた雑音ベクトルＤ３を生成してもよい。例えば、ノイズ生成部１８は、雑音ベクトルＤ３を生成し、当該雑音ベクトルＤ３を後述する階層条件敵対的ニューラルネットワーク１４に入力してもよい。後述するように、階層条件敵対的ニューラルネットワーク１４は、この雑音ベクトルＤ３と、階層条件ベクトルＤ２とに基づいて、対象機器特徴量ベクトルＤ１を近似した偽ベクトルを生成することができる。

階層条件敵対的ニューラルネットワーク１４は、階層条件ベクトルＤ２と、対象機器特徴量ベクトルＤ１とを解析することで、対象機器の周辺環境の背景雑音レベルを示す背景雑音レベル情報と、対象機器特徴量ベクトルの真偽を示す真偽判定情報とを生成するためのニューラルネットワークである。
より具体的には、階層条件敵対的ニューラルネットワーク１４は、階層条件ベクトルＤ２と、雑音の信号に基づいて生成された雑音ベクトルＤ３とに基づいて、対象機器特徴量ベクトルＤ１を近似した偽ベクトルＤ６を生成する生成ネットワークと、対象機器特徴量ベクトルＤ１及び偽ベクトルＤ６の真偽を判定する真偽判定を行い、真偽判定情報を生成すると共に、背景雑音レベルを判定する背景雑音判定を行い、背景雑音レベル情報を生成する識別ネットワークとを含む。
訓練段階では、階層条件敵対的ニューラルネットワーク１４は、真偽判定による交差エントロピー損失と、背景雑音判定による交差エントロピー損失とを最小化するように学習される。これらの損失を最小化するためのニューラルネットワークパラメータは、学習ＤＢ１７に格納される。
また、推論段階では、訓練済みの階層条件敵対的ニューラルネットワーク１４を用いて所定の音響信号を解析することで、高精度の異常検出結果を生成することができる。
なお、階層条件敵対的ニューラルネットワーク１４の構成の詳細については後述するため、ここではその説明を省略する。

異常判定部１５は、対象機器特徴量ベクトルにおいて異常が存在するか否かを判定するための機能部である。ある実施形態では、異常判定部１５は、訓練済みの生成ネットワークによって計算される異常スコアεと、訓練済みの識別ネットワークによって判定される異常判定閾値とに基づいて、対象機器特徴量ベクトルＤ１が正常か異常かを示す異常検出結果を生成する。ここでの異常スコアとは、音響信号Ｄ０において異常が存在する確率を示す尺度であり、例えば０～１の範囲内の数値として表現してもよい。

次に、図３を参照して、本開示の実施形態に係る異常検出システム２００のハードウェア構成について説明する。

図３は、本開示の実施形態に係る異常検出システム２００のハードウェア構成の一例を示す図である。上述したように、本開示の実施形態に係る異常検出システム２００は、異常検出装置１、センサ部２、及び対象機器３を主に含む。異常検出装置１、センサ部２、及び対象機器３は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネット等、任意の通信ネットワーク２９を介して互いに接続されてもよい。
なお、異常検出システム２００のそれぞれの機能部は図２を参照して上述したため、ここでは、重複する説明を省略する

異常検出装置１は、一般的なコンピューターデバイス（例えば、図１を参照して説明したコンピュータシステム３００）として実現されてもよい。例えば、図３に示すように、異常検出装置１は、メモリ２１、プロセッサ２５、及びＩ/Ｏデバイス２４を含む。
メモリ２１は、例えば、ＲＡＭ、フラッシュメモリ、ハードディスクドライブ等の任意の記憶装置であってもよい。図３に示すように、メモリ２１は、ノイズ生成部１８、階層条件ベクトル生成部１３、抽出部１２、階層条件敵対的ニューラルネットワーク１４、及び異常判定部１５のそれぞれの機能を実施するためのソフトウェアモジュールを含む。
プロセッサ２５は、例えば１つ又は複数のマイクロプロセッサであり、メモリ２１に格納されているソフトウェアモジュールの指令を実行する。
Ｉ／Ｏデバイス２４は、例えば、キーボード、マウス、タッチ画面等の、ユーザ入力を受け付けるためのデバイスや、ディスプレイ、スピーカ等の、情報を出力するためのデバイスを含んでもよい。

以上、図２及び図３を参照して説明したように構成した異常検出システム２００によれば、音響信号を生成した機器に関する識別情報と、当該機器が配置されている環境の雑音レベルに関する情報とを考慮する階層条件ＧＡＮを用いることで、頑強性（ロバストネス）が高い異常検出手段を提供することができる。

次に、図４を参照して、本開示の実施形態に係る生成ネットワークについて説明する。

図４は、本開示の実施形態に係る生成ネットワーク２６の一例を示す図である。上述したように、本開示の実施形態に係る生成ネットワーク２６は、対象機器の音響信号から抽出した特徴量ベクトルである対象機器特徴量ベクトルＤ１（図４では図示せず）を近似した偽ベクトルＤ６を生成するための生成ネットワークである。

図４に示すように、生成ネットワーク２６は、上述したノイズ生成部（例えば、図２に示すノイズ生成部１８）によって生成される雑音ベクトルＤ３と、機器の種類を示すタイプ情報を含む機器タイプベクトルＤ４と、機器の識別子を示す識別子情報を含む機器識別ベクトルＤ５とを入力する。

生成ネットワーク２６は、雑音ベクトルＤ３と、機器の種類を示すタイプ情報を含む機器タイプベクトルＤ４と、機器の識別子を示す識別子情報を含む機器識別ベクトルＤ５とに基づいて、対象機器特徴量ベクトルＤ１を近似した偽ベクトルＤ６を生成する。後述するように、識別ネットワークは、この偽ベクトルＤ６及び対象機器特徴量ベクトルＤ１の真偽を判定する真偽判定を行う。

以上説明したように、雑音ベクトルＤ３に加えて、機器タイプベクトルＤ４と、機器識別ベクトルＤ５とを生成ネットワーク２６に入力することで、より正確な潜在空間表現が可能となり、生成ネットワーク２６は、対象機器特徴量ベクトルＤ１により近い偽ベクトルＤ６を生成することができる。また、訓練されるにつれて、生成ネットワーク２６は、対象機器特徴量ベクトルＤ１に対する類似度がより高い偽ベクトルを生成するように学習される。
なお、生成ネットワーク２６の訓練段階での処理及び推論段階での処理については後述する。

次に、図５を参照して、本開示の実施形態に係る識別ネットワークについて説明する。

図５は、本開示の実施形態に係る識別ネットワーク２７の一例を示す図である。上述したように、本開示の実施形態に係る識別ネットワーク２７は、対象機器特徴量ベクトルＤ１及び偽ベクトルＤ６の真偽を判定する真偽判定を行い、真偽判定情報５１０を生成すると共に、背景雑音レベルを判定する背景雑音判定を行い、背景雑音レベル情報５２０を生成するため識別ネットワークである。

図５に示すように、識別ネットワーク２７は、対象機器から取得した音響信号の特徴量を示す対象機器特徴量ベクトルＤ１と、上述した生成ネットワーク２６によって生成される、対象機器特徴量ベクトルＤ１を近似した偽ベクトルＤ６と、機器の種類を示すタイプ情報を含む機器タイプベクトルＤ４と、機器の識別子を示す識別子情報を含む機器識別ベクトルＤ５とを入力する。
なお、識別ネットワーク２７は、対象機器特徴量ベクトルＤ１と、偽ベクトルＤ６とを同時に入力せず、どちらのベクトルを入力するかは、図５に示すスイッチ５０５によって制御されてもよい。このスイッチ５０５は、抽出部１２からの対象機器特徴量ベクトルＤ１を識別ネットワーク２７に入力するか、生成ネットワーク２６からの偽ベクトルＤ６を入力するかをランダムに判定するスイッチである。

識別ネットワーク２７は、入力した機器タイプベクトルＤ４と、機器識別ベクトルＤ５と、対象機器特徴量ベクトルＤ１又は偽ベクトルＤ６とを解析することで、対象機器特徴量ベクトルＤ１又は偽ベクトルＤ６に対する真偽判定を行い、真偽判定情報５１０を生成する。
ここでの真偽判定とは、対象機器特徴量ベクトルＤ１又は偽ベクトルＤ６が本物（すなわち、対象機器から取得した音響信号の本物の特徴量ベクトル）か偽物（すなわち、生成ネットワークによって生成された偽物の特徴量ベクトル）かを判定する処理である。この真偽判定の結果は、真偽判定情報５１０に示される。
一例として、識別ネットワーク２７は、真偽判定の結果を二進数（バイナリー）で示したベクトルを真偽判定情報５１０として出力してもよい。例えば、識別ネットワーク２７は、対象のベクトルを「本物」と判定した場合に「１」を、対象のベクトルを「偽物」と判定した場合に「０」を含むベクトルを真偽判定情報５１０として出力してもよい。

また、識別ネットワーク２７は、入力した機器タイプベクトルＤ４と、機器識別ベクトルＤ５と、対象機器特徴量ベクトルＤ１又は偽ベクトルＤ６とを解析することで、対象機器特徴量ベクトルＤ１又は偽ベクトルＤ６に対する背景雑音判定を行い、背景雑音レベル情報５２０を生成する。
ここでの背景雑音とは、対象機器が配置されている環境において、他の装置の作動音、人間の声、交通による騒音等、対象機器以外の発生源から発生する音を意味する。また、ここでの背景雑音判定とは、対象機器特徴量ベクトルＤ１又は偽ベクトルＤ６における背景雑音のレベル（度合い）を判定する処理である。この背景雑音判定の結果は、背景雑音レベル情報５２０に示される。
一例として、識別ネットワーク２７は、対象機器特徴量ベクトルＤ１又は偽ベクトルＤ６における背景雑音のレベルを「Δ_１：低い」（例えば、－６ｄＢ）、「Δ_２：中」（例えば０ｄＢ）、「Δ_３：高」（例えば、６ｄＢ）のいずれか一方に分類すると共に、判定した背景雑音のレベルに応じて適切な異常判定閾値を選択した後、判定した背景雑音のレベルと、選択した異常判定閾値を背景雑音レベル情報５２０として出力してもよい。

また、識別ネットワーク２７は、真偽判定による交差エントロピー損失と、背景雑音判定による交差エントロピー損失とを計算し、これらの交差エントロピー損失を最小化するように学習される。このように、以上説明した識別ネットワーク２７によれば、真偽判定及び背景雑音判定の精度が向上し、推論段階では、より高精度の異常検出を行うことができる。

次に、図６を参照して、本開示の実施形態に係る階層条件ベクトルの構成について説明する。

図６は、本開示の実施形態に係る階層条件ベクトルＤ２の構成の一例を示す図である。上述したように、本開示における階層条件ベクトルＤ２とは、所定の階層条件（例えば、機器の識別情報）に関する情報を含むデータ構造であり、この階層条件ベクトルを用いて階層条件敵対的ニューラルネットワークを訓練することで、より正確な潜在空間表現が可能となり、本物の音響信号Ｄ０に対する類似性がより高い偽ベクトルを生成することができる。
なお、以下では、機器の識別情報を階層条件とした場合を一例として説明するが、本開示はこれに限定されず、異常検出手段が応用される分野に合わせて適切な階層条件を選択してもよい。

上述したように、階層条件ベクトルＤ２は、機器識別ＤＢ（例えば、図２及び図３に示す機器識別ＤＢ１６）に格納されている機器識別情報に基づいて生成される。この機器識別情報には、機器のタイプを示すタイプ情報６１０と、機器の識別子を示す識別子情報６２０とが、特定の機器を識別するための２階層の情報として含まれる。
より具体的には、タイプ情報６１０は、ファン、ポンプ、スライダー、バルブ等、機器の種類を含んでもよい。また、識別子情報６２０は、タイプ情報６１０における危機のタイプ毎に、特定の機器を識別するＩＤ－０～ＩＤ－６を含んでもよい。これにより、任意の機器は、タイプ情報６１０と、識別子情報６２０とで一意に識別することができる（ファン、ＩＤ－３等）。

上述した階層条件ベクトル生成部（例えば、図２及び図３に示す階層条件ベクトル生成部１３）は、このタイプ情報６１０と、識別子情報６２０に基づいて、いわゆるワンホットベクトル（すなわち、１つだけの要素の値が「１」であり、それ以外の要素の値が「０」となるベクトル）生成手段によって階層条件ベクトルＤ２を生成してもよい。
図６に示すように、階層条件ベクトルＤ２は、機器のタイプを示す機器タイプベクトルＤ４と、機器の識別子を示す機器識別ベクトルＤ５とを含む。

また、図６に示すように、機器タイプベクトルＤ４と、機器識別ベクトルＤ５とは二進数（バイナリー）形式のベクトルであり、特定の機器に対応するタイプの要素及び当該機器の識別子に対応する要素の値が「１」となっており、それ以外の要素の値が「０」となる。
一例として、図６に示されている機器タイプベクトルＤ４と、機器識別ベクトルＤ５とは、タイプが「ポンプ」で識別子が「ＩＤ－６」の機器に対応する。

以上説明したように構成した階層条件ベクトルＤ２を用いて階層条件敵対的ニューラルネットワークを訓練することで、より正確な潜在空間表現が可能となり、本物の音響信号Ｄ０に対する類似性がより高い偽ベクトルを生成することができる。

次に、図７を参照して、本開示の実施形態に係る異常検出装置の訓練段階における論理構成について説明する。

図７は、本開示の実施形態に係る異常検出装置１の訓練段階における論理構成の一例を示す図である。ここでの訓練段階とは、生成ネットワーク２６による偽ベクトルＤ６を生成する処理と、識別ネットワーク２７による真偽判定及び背景雑音判定との精度を向上するように階層条件敵対的ニューラルネットワークを学習する段階である。

まず、抽出部１２は、対象機器（図７では図示せず）から取得した音響信号Ｄ０を分析することで、音響信号Ｄ０の特徴量を示す対象機器特徴量ベクトルＤ１を抽出する。また、生成ネットワーク２６は、ノイズ生成部１８によって生成される雑音ベクトルＤ３と、階層条件ベクトル生成部１３によって生成される階層条件ベクトルＤ２とを入力し、これらのベクトルＤ２、Ｄ３に基づいて、対象機器特徴量ベクトルＤ１を近似した偽ベクトルＤ６を生成する。

次に、識別ネットワーク２７は、抽出部１２によって抽出された対象機器特徴量ベクトルＤ１と、偽ベクトルＤ６と、階層条件ベクトルＤ２とを入力し、上述した真偽判定及び背景雑音判定を行うことで、対象機器特徴量ベクトルＤ１及び／又は偽ベクトルＤ６の真偽を示す真偽判定情報５１０と、対象機器特徴量ベクトルＤ１及び／又は偽ベクトルＤ６における背景雑音のレベルを示す背景雑音レベル情報５２０を出力する。

次に、識別ネットワーク２７は、真偽判定による交差エントロピー損失を示す第１の損失ｌ_１と、背景雑音判定による交差エントロピー損失を示す第２の損失ｌ_２を計算する。その後、この第１の損失ｌ_１と第２の損失ｌ_２との和である全体損失Ｌ（Ｌ＝ｌ_１+ｌ_２）は、生成ネットワーク２６及び識別ネットワーク２７に入力される。生成ネットワーク２６及び識別ネットワーク２７は、この全体損失Ｌを最小化するように、パラメータを更新する。更新したニューラルネットワークパラメータは、例えば上述した学習ＤＢに格納されてもよい。
なお、ここでの全体損失Ｌは、第１の損失ｌ_１と第２の損失ｌ_２の加重平均であってもよい。

以上説明した訓練段階では、生成ネットワーク２６及び識別ネットワーク２７が真偽判定及び背景雑音判定の損失を最小化するように学習され、これにより、生成ネットワーク２６による偽ベクトルＤ６を生成する処理と、識別ネットワーク２７による真偽判定及び背景雑音判定の精度が向上する。

次に、図８を参照して、本開示の実施形態に係る抽出部による対象機器特徴量ベクトル生成処理について説明する。

図８は、本開示の実施形態に係る抽出部１２による対象機器特徴量ベクトル生成処理８００の一例を示す図である。図８に示す対象機器特徴量ベクトル生成処理８００は、対象機器特徴量ベクトルを生成するための処理であり、抽出部１２によって行われる。

まず、ステップＳ８０１では、抽出部１２は、対象機器３から取得した音響信号Ｄ０をセンサ部から受信し、アナログーデジタル変換処理を行うことで、アナログの音響信号Ｄ０をデジタルの信号に変換した後、所定の記憶部（例えば、図２に示す学習ＤＢ１７）に保存する。

次に、ステップＳ８０３では、抽出部１２は、ステップＳ８０１で受信され、デジタルの信号に変換された音響信号Ｄ０を、予め定められたフレームサイズに基づいて分割することで、所定の数のフレームを含むフレーム信号を生成する（なお、フレームは重なってもよい）。

次に、ステップＳ８０５では、抽出部１２は、ステップＳ８０３で生成されたフレーム信号と、所定の窓関数とを乗算させることで、窓関数乗算信号（ｗｉｎｄｏｗｆｕｎｃｔｉｏｎｍｕｌｔｉｐｌｉｃａｔｉｏｎｓｉｇｎａｌ）を生成する。ここでの窓関数とは、例えばいわゆるＨａｎｎｉｎｇ窓関数であってもよい。

次に、ステップＳ８０７では、抽出部１２は、ステップＳ８０５で生成された窓関数乗算信号に対して、短時間フーリエ変換を行うことで、当該信号の周波数領域（ｆｒｅｑｕｅｎｃｙｄｏｍａｉｎ）及びパワースペクトグラム（ｐｏｗｅｒｓｐｅｃｔｏｇｒａｍ）を計算する。
一例として、窓関数乗算信号のフレームサイズがＮ個の場合、当該信号の周波数領域はＭ個の複素数のセットであり、複素数のセットにおける各複素数は、Ｍ個の周波数ビンのそれぞれに対応する。そして、抽出部１２は、この周波数領域の信号に基づいてパワースペクトグラムを計算する。

次に、ステップＳ８０９では、抽出部は１２、ステップＳ８０７で生成された信号のパワースペクトグラムと、いわゆるメルフィルタバンクとを乗算させることで、メルパワースペクトグラムを生成する。
なお、ここでは、本開示はメルフィルタバンクに限定されず、例えば1/3オクターブバンドフィルター等、任意のフィルタバンクを用いてもよい。

次に、ステップＳ８１１では、抽出部１２は、ステップＳ８０９で生成されたメルパワースペクトグラムに対して、所定の対数（ｌｏｇａｒｉｔｈｍ）を適用することで、対数メルパワースペクトログラム（ｌｏｇａｒｉｔｈｍｉｃｍｅｌｐｏｗｅｒｓｐｅｃｔｏｇｒａｍ）を生成する。そして、この対数メルパワースペクトログラムにおいて、隣接するフレームを繋げることで、対象機器特徴量ベクトルＤ１を生成する。

以上説明した対象機器特徴量ベクトル生成処理８００によれば、本開示の実施形態に係る階層条件敵対的ニューラルネットワークに入力される対象機器特徴量ベクトルＤ１を生成することができる。

次に、図９を参照して、本開示の実施形態に係る階層条件ベクトル生成部による階層条件ベクトル生成処理について説明する。

図９は、本開示の実施形態に係る階層条件ベクトル生成部による階層条件ベクトル生成処理９００の一例を示す図である。図９に示す階層条件ベクトル生成処理９００は、階層条件ベクトルを生成するための処理であり、階層条件ベクトル生成部１３によって行われる。

まず、ステップＳ９０１及びステップＳ９０２では、階層条件ベクトル生成部１３は、上述した機器識別ＤＢ（例えば、図２及び図３に示す機器識別ＤＢ１６）から、特定の機器に関するタイプ情報及び識別子情報を取得する。

次に、ステップＳ９０３では、階層条件ベクトル生成部１３は、取得したタイプ情報に対して、いわゆるワンホットベクトル生成手段を行うことで、機器タイプベクトルＤ４を生成する。

次に、ステップＳ９０４では、階層条件ベクトル生成部１３は、取得した識別子情報に対して、いわゆるワンホットベクトル生成手段を行うことで、機器識別ベクトルＤ５を生成する。

次に、ステップＳ９０５では、階層条件ベクトル生成部１３は、ステップＳ９０３で生成した機器タイプベクトルＤ４と、ステップＳ９０４で生成した機器識別ベクトルＤ５とを結合することで、階層条件ベクトルＤ２を生成する。

以上説明した階層条件ベクトル生成処理９００によれば、本開示の実施形態に係る階層条件敵対的ニューラルネットワークに入力される階層条件ベクトルＤ２を生成することができる。

次に、図１０を参照して、本開示の実施形態に係る異常検出装置の訓練段階の流れについて説明する。

図１０は、本開示の実施形態に係る異常検出装置の訓練段階の流れを示す訓練処理１０００のフローチャートである。図１０に示す訓練処理１０００は、生成ネットワークによる偽ベクトルを生成する処理と、識別ネットワークによる真偽判定及び背景雑音判定との精度を向上するために行われる処理である。また、この訓練処理１０００は、異常検出装置の各機能部によって行われる。

ます、ステップＳ１００２では、生成ネットワーク２６は、上述したノイズ生成部（例えば、図２及び図３に示すノイズ生成部１８）によって生成される雑音ベクトルＤ３と、階層条件ベクトル生成部によって生成される階層条件ベクトルＤ２とを入力し、これらのベクトルＤ２、Ｄ３に基づいて、対象機器特徴量ベクトルＤ１を近似した偽ベクトルＤ６を生成する。

次に、ステップＳ１００４では、識別ネットワーク２７は、抽出部によって抽出された対象機器特徴量ベクトルＤ１と、ステップＳ１００２で生成ネットワーク２６によって生成された偽ベクトルＤ６と、階層条件ベクトルＤ２とを入力し、上述した真偽判定及び背景雑音判定を行うことで、対象機器特徴量ベクトルＤ１及び／又は偽ベクトルＤ６の真偽を示す真偽判定情報と、対象機器特徴量ベクトルＤ１及び／又は偽ベクトルＤ６における背景雑音のレベルを示す背景雑音レベル情報を出力する。

次に、ステップＳ１００６では、識別ネットワーク２７は、真偽判定による交差エントロピー損失を示す第１の損失ｌ_１を計算する。

次に、ステップＳ１００８では、識別ネットワーク２７は、背景雑音判定による交差エントロピー損失を示す第２の損失ｌ_２を計算する。

次に、ステップＳ１０１０では、識別ネットワーク２７は、ステップＳ１００６で計算した第１の損失ｌ_１と、ステップＳ１００８で計算した第２の損失ｌ_２との和である全体損失Ｌ（Ｌ＝ｌ_１+ｌ_２）を計算する。
なお、ここでの全体損失Ｌは、第１の損失ｌ_１と第２の損失ｌ_２の加重平均であってもよい。

次に、ステップＳ１０１２では、識別ネットワーク２７は、ステップＳ１０１０で計算した全体損失Ｌが、所定の収束条件（ｃｏｎｖｅｒｇｅｎｃｅｃｏｎｄｉｔｉｏｎ）τより少ないか、エポック数Ｃが所定のエポック数上限Ｃｔを超えるか否かを計算する。ここでの収束条件τ及びエポック数上限Ｃｔは、例えばユーザによって設定されてもよく、過去の訓練に基づいて自動的に定められてもよい。
ステップＳ１０１０で計算した全体損失Ｌが、収束条件τより少ないか、エポック数Ｃが所定のエポック数上限Ｃｔを超える場合には、本処理はステップＳ１０１８へ進み、ステップＳ１０１０で計算した全体損失Ｌが、収束条件τ以上か、エポック数Ｃが所定のエポック数上限Ｃｔを超えない場合には、本処理はステップＳ１０１４へ進む。

ステップＳ１０１４では、識別ネットワーク２７は、新たな収束条件を設定する。上述したように、この新たな収束条件は、例えばユーザによって設定されてもよく、過去の訓練に基づいて自動的に定められてもよい。

ステップＳ１０１６では、識別ネットワーク２７は、エポック数Ｃを１で加算した後、ステップＳ１０１０で計算した全体損失を生成ネットワーク２６及び識別ネットワーク２７に入力する。その後、生成ネットワーク２６及び識別ネットワーク２７は、この全体損失Ｌを最小化するように、ニューラルネットワークのパラメータを更新する。

ステップＳ１０１８では、ステップＳ１０１０で計算した全体損失Ｌが、収束条件τより少ないか、エポック数Ｃが所定のエポック数上限Ｃｔを超える場合には、訓練処理１０００が終了し、現在の生成ネットワーク２６及び識別ネットワーク２７のニューラルネットワークパラメータが学習ＤＢ（例えば、図２及び図３に示す学習ＤＢ１７）に格納される。これらのニューラルネットワークパラメータを生成ネットワーク２６及び識別ネットワーク２７に設定することで、訓練済みの生成ネットワーク及び訓練済みの識別ネットワークが得られる。

以上説明した訓練処理１０００によれば、生成ネットワーク２６及び識別ネットワーク２７が真偽判定及び背景雑音判定の損失を最小化するように学習され、これにより、生成ネットワーク２６による偽ベクトルＤ６を生成する処理と、識別ネットワーク２７による真偽判定及び背景雑音判定の精度が向上する。

次に、図１１を参照して、本開示の実施形態に係る異常検出装置の推論段階における論理構成について説明する。

図１１は、本開示の実施形態に係る異常検出装置１の推論段階における論理構成の一例を示す図である。ここでの推論段階とは、上述した訓練処理によって得られた訓練済みの生成ネットワーク２６Ａ及び訓練済みの識別ネットワーク２７Ｂを用いて、検証対象の機器から取得した対象機器特徴量ベクトルを解析することで異常の有無を判定する処理を行う段階である。
なお、推論段階の説明では、上述した訓練段階と同一の用語を用いて説明するが、推論段階における対象機器、音響信号、各種ベクトル等は、訓練段階とは異なってもよい（つまり、訓練段階で説明した階層条件ベクトル、対象機器、音響信号、対象機器特徴量ベクトル、背景雑音レベル、背景雑音レベル情報、及び偽ベクトル等は訓練用に用いられたが、推論段階では、訓練段階とは異なる第２の階層条件ベクトル、第２の対象機器、第２の音響信号、第２の対象機器特徴量ベクトル、第２の背景雑音レベルを示す第２の背景雑音レベル情報、及び第２の偽ベクトルを推論用に用いてもよい）。

まず、訓練済みの識別ネットワーク２７Ｂは、対象機器から取得した音響信号の特徴量を示す対象機器特徴量ベクトルＤ１と、階層条件ベクトルＤ２とを入力した後、対象機器特徴量ベクトルＤ１に対する背景雑音判定を行い、背景雑音レベル情報５２０を生成する。また、ここで、訓練済みの識別ネットワーク２７Ｂは、背景雑音判定によって判定された、検証対象の機器の周辺環境における雑音レベルに応じて、適切な異常判定閾値を選択してもよい。背景雑音レベル情報５２０は、判定した背景雑音レベル（Δ_１、Δ_２、Δ_３）と、選択された異常判定閾値（η_１、η_２、η_３）とを含んでもよい。
なお、異常判定閾値の選択については、図１２を参照して後述するため、ここではその説明を省略する。

訓練済みの生成ネットワーク２６Ａは、階層条件ベクトルＤ２と、雑音の信号に基づいて生成された雑音ベクトルＤ３とに基づいて、対象機器特徴量ベクトルＤ１を近似した偽ベクトルＤ６を生成する。その後、訓練済みの生成ネットワーク２６Ａは、生成した偽ベクトルＤ６と、対象機器特徴量ベクトルＤ１とに基づいて、対象機器特徴量ベクトルＤ１に対する異常スコアεを計算する。
ここでの異常スコアεは、音響信号において異常が存在する確率を示す尺度であり、例えば０～１の範囲内の数値として表現してもよい。ある実施形態では、異常スコアεは、例えば生成した偽ベクトルＤ６と、対象機器特徴量ベクトルＤ１とのユークリッド距離として計算されてもよく、以下の数式１によって求められる。

ここでは、Ｘは、対象機器特徴量ベクトルＤ１であり、Ｘ’は、生成した偽ベクトルＤ６である。

次に、異常判定部１５は、訓練済みの生成ネットワーク２６Ａによって計算された異常スコアεと、訓練済みの識別ネットワーク２７Ｂによって生成された背景雑音レベル情報５２０に含まれる異常判定閾値とに基づいて、対象機器特徴量ベクトルＤ１が正常か異常かを示す異常検出結果を生成する。

以上説明したように、訓練済みの識別ネットワーク２７Ｂ及び訓練済みの生成ネットワーク２６Ａを用いて任意の音響信号を解析することで、検証対象の機器の種類及び検証対象の機器が配置されている環境の背景雑音を考慮した、頑強性（ロバストネス）が高い異常検出結果を生成することができる。

次に、図１２を参照して、本開示の実施形態に係る背景雑音レベルと、異常判定閾値との関係について説明する。

図１２は、本開示の実施形態に係る背景雑音レベルと、異常判定閾値との関係を示すグラフの一例である。
上述したように、本開示では、所定の音響信号において異常が存在するか否かとの判定は、階層条件敵対的ニューラルネットワークによって生成された異常スコアεと、当該音響信号における背景雑音レベルに応じて選択される異常判定閾値ηとに基づいて行われる。
ここでの異常判定閾値ηとは、正常と判定される異常スコアと、異常と判定される異常スコアとの境界を規定する値であり、上述したように、音響信号における背景雑音レベルに応じて選択される。

ある実施形態では、異常判定閾値は、音響信号における背景雑音レベル「Δ_１：低い」（例えば、－６ｄＢ）、「Δ_２：中」（例えば０ｄＢ）、「Δ_３：高」に基づいて、η_１、η_２、η_３との３つの段階の中から選択されてもよい。
例えば、異常判定閾値ηは、以下の数式２に従って選択されてもよい。

異常判定閾値ηが設定された後、音響信号における異常の有無の判定は、ここで選択された異常判定閾値ηと、階層条件敵対的ニューラルネットワークによって生成された異常スコアεとの関係に基づいて行われる。
例えば、上述した背景雑音判定の結果、背景雑音レベルがΔ_１（低い）と判定された場合、異常判定閾値がη_１として選択される。その後、図１２におけるグラフ１２１０に示すように、上述した訓練済みの生成ネットワークによって計算された異常スコアεがη_１の異常判定閾値未満の場合、当該信号が正常と判定され、異常スコアεがη_１の異常判定閾値以上の場合、当該信号が異常と判定される。
また、上述した背景雑音判定の結果、背景雑音レベルがΔ_２（中）と判定された場合、異常判定閾値がη_２として選択される。その後、図１２におけるグラフ１２２０に示すように、上述した訓練済みの生成ネットワークによって計算された異常スコアεがη_２の異常判定閾値未満の場合、当該信号が正常と判定され、異常スコアεがη_２の異常判定閾値以上の場合、当該信号が異常と判定される。
更に、上述した背景雑音判定の結果、背景雑音レベルがΔ_３（高い）と判定された場合、異常判定閾値がη_３として選択される。その後、図１２におけるグラフ１２３０に示すように、上述した訓練済みの生成ネットワークによって計算された異常スコアεがη_３の異常判定閾値未満の場合、当該信号が正常と判定され、異常スコアεがη_３の異常判定閾値以上の場合、当該信号が異常と判定される。

以上説明したように、階層条件敵対的ニューラルネットワークによって生成された異常スコアεと、当該音響信号における背景雑音レベルに応じて選択される異常判定閾値ηとに基づいて所定の音響信号において異常が存在するか否かを判定することで、検証対象の機器の種類及び検証対象の機器が配置されている環境の背景雑音を考慮した、頑強性（ロバストネス）が高い異常検出結果を生成することができる。

次に、図１３を参照して、本開示の実施形態に係る異常検出装置の推論段階の流れについて説明する。

図１３は、本開示の実施形態に係る異常検出装置の推論段階の流れを示す推論処理１３００のフローチャートである。図１３に示す推論処理１３００は、上述した訓練処理によって得られた訓練済みの生成ネットワーク及び訓練済みの識別ネットワークを用いて、検証対象の機器から取得した対象機器特徴量ベクトルを解析することで異常の有無を判定するための処理である。また、この訓練処理１３００は、異常検出装置の各機能部によって行われる。

まず、ステップＳ１３０２では、抽出部１２は、対象機器から取得した音響信号Ｄ０を入力し、分析することで音響信号Ｄ０の特徴量を示す対象機器特徴量ベクトルＤ１を抽出する。

次に、ステップＳ１３０４では、訓練済みの識別ネットワーク２７Ｂは、抽出部によって抽出された対象機器特徴量ベクトルＤ１と、階層条件ベクトルＤ２とを入力した後、対象機器特徴量ベクトルＤ１に対する背景雑音判定を行い、背景雑音レベル情報を生成する。この背景雑音レベル情報は、背景雑音判定によって判定された、検証対象の機器の周辺環境における雑音レベルに対応する最適な異常判定閾値η（例えば、η_１、η_２、η_３）を含んでもよい。

次に、ステップＳ１３０６では、訓練済みの生成ネットワーク２６Ａは、階層条件ベクトルＤ２と、雑音の信号に基づいて生成された雑音ベクトルＤ３とに基づいて、対象機器特徴量ベクトルＤ１を近似した偽ベクトルＤ６を生成する。その後、訓練済みの生成ネットワーク２６Ａは、生成した偽ベクトルＤ６と、対象機器特徴量ベクトルＤ１とに基づいて、対象機器特徴量ベクトルＤ１に対する異常スコアεを計算する。
ここでの異常スコアεの計算は、例えば上述した数式１に従って行われてもよい。

次に、ステップＳ１３０８では、異常判定部は、訓練済みの生成ネットワーク２６Ａによって計算された異常スコアεと、訓練済みの識別ネットワーク２７Ｂによって生成された背景雑音レベル情報に含まれる異常判定閾値ηとに基づいて、対象機器特徴量ベクトルＤ１が正常か異常かを示す異常検出結果を生成する。より具体的には、異常判定部は、ステップＳ１３０６で計算した異常スコアεが選択された異常判定閾値η以上か否かを判定する。
異常スコアεが選択された異常判定閾値η以上の場合、異常判定部は、音響信号Ｄ０において異常が存在すると判定し、音響信号Ｄ０において異常が存在することを示す異常検出結果を出力する。一方、異常スコアεが選択された異常判定閾値ηより少ない場合、異常判定部は、音響信号Ｄ０において異常が存在しないと判定し、音響信号Ｄ０において異常が存在しないことを示す異常検出結果を出力する。
ここで出力される異常検出結果は、例えば、音響信号Ｄ０の発生源となった対象機器の管理者（工場の責任者等）に送信されてもよく、任意の第三者に送信されてもよい。

以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

以上では、本開示の実施形態に係る異常検出の様々な実施形態を音響信号に適用した場合を一例として説明したが、本開示はこれに限定されず、例えば画像や映像等、任意のドメインに対して適用されてもよい。また、本開示における階層条件はドメインのデータセットによって適宜に選択されてもよい。ドメインのデータセットによって適宜に選択された階層条件を用いることで、当該ドメインにおいてより正確な潜在空間表現が可能となり、異常検出の精度を向上させることができる。所定の音、量子化ノイズ（ｑｕａｎｔｉｚａｔｉｏｎｎｏｉｓｅ）、異なる照度値等を異常判定閾値として用いられてもよい。また、この場合、識別ネットワークは、適切な閾値を選択するための分類器（ｃｌａｓｓｉｆｉｅｒ）として用いられてもよい。

１異常検出装置
２センサ部
３対象機器
１２抽出部
１３階層条件ベクトル生成部
１４階層条件敵対的ニューラルネットワーク
１５異常判定部
１６機器識別ＤＢ
１７学習ＤＢ
１８ノイズ生成部
２６生成ネットワーク
２７識別ネットワーク
２６Ａ訓練済みの生成ネットワーク
２７Ｂ訓練済みの識別ネットワーク
２００異常検出システム
５１０真偽判定情報
５２０背景雑音レベル情報
６１０タイプ情報
６２０識別子情報
８００対象機器特徴量ベクトル生成処理
９００階層条件ベクトル生成処理
１０００訓練処理
１３００推論処理
Ｄ０音響信号
Ｄ１対象機器特徴量ベクトル
Ｄ２階層条件ベクトル
Ｄ３雑音ベクトル
Ｄ４機器タイプベクトル
Ｄ５機器識別ベクトル
Ｄ６偽ベクトル

Claims

異常検出装置であって、
機器の種類毎に特定の機器を識別するための機器識別情報を格納する機器識別データベースと、
前記機器識別情報に基づいて階層条件ベクトルを生成する階層条件ベクトル生成部と、
異常検出対象の機器である対象機器から取得した音響信号を分析することで前記音響信号の特徴量を示す対象機器特徴量ベクトルを抽出する抽出部と、
前記階層条件ベクトルと、前記対象機器特徴量ベクトルとを解析することで、前記対象機器の周辺環境の背景雑音レベルを判定する背景雑音判定を行い、判定した背景雑音レベルを示す背景雑音レベル情報を生成する階層条件敵対的ニューラルネットワークと、
少なくとも前記背景雑音レベルに応じて選択される異常判定閾値を用いて、前記対象機器特徴量ベクトルにおいて異常が存在するか否かを判定する異常判定部と、
を含むことを特徴とする異常検出装置。
前記階層条件敵対的ニューラルネットワークは、
前記階層条件ベクトルと、雑音の信号に基づいて生成される雑音ベクトルとに基づいて、前記対象機器特徴量ベクトルを近似した偽ベクトルを生成する生成ネットワークと、
前記対象機器特徴量ベクトル及び前記偽ベクトルの真偽を判定する真偽判定を行い、真偽判定情報を生成すると共に、前記背景雑音レベルを判定する前記背景雑音判定を行い、前記背景雑音レベル情報を生成する識別ネットワークと、
を更に含むことを特徴とする、請求項１に記載の異常検出装置。
前記識別ネットワークは、
前記真偽判定による交差エントロピー損失を示す第１の損失と、前記背景雑音判定による交差エントロピー損失を示す第２の損失とを計算し、
前記第１の損失及び前記第２の損失とを用いて、前記生成ネットワーク及び前記識別ネットワークを訓練することで、訓練済みの生成ネットワーク及び訓練済みの識別ネットワークを生成する、
ことを特徴とする、請求項２に記載の異常検出装置。
前記階層条件ベクトル生成部は、
前記機器識別情報に基づいて、第２の階層条件ベクトルを生成し、
前記抽出部は、
第２の対象機器から取得した第２の音響信号を分析することで前記第２の音響信号の特徴量を示す第２の対象機器特徴量ベクトルを抽出し、
前記訓練済みの識別ネットワークは、
前記第２の階層条件ベクトルと、前記第２の対象機器特徴量ベクトルとを解析することで、前記第２の対象機器の周辺環境の背景雑音レベルを判定する背景雑音判定を行い、第２の背景雑音レベルを示す第２の背景雑音レベル情報を生成し、
前記第２の背景雑音レベルに基づいて、異常判定閾値を選択し、
前記訓練済みの生成ネットワークは、
前記第２の階層条件ベクトルと、前記第２の対象機器の正常の音響信号に基づいて生成される第２の雑音ベクトルとに基づいて、前記第２の対象機器特徴量ベクトルを近似した第２の偽ベクトルを生成し、
前記第２の対象機器特徴量ベクトルと、前記第２の偽ベクトルとに基づいて、前記第２の対象機器特徴量ベクトルに対する異常スコアを計算し、
前記異常判定部は、
前記異常スコアと、前記異常判定閾値とに基づいて、前記第２の対象機器特徴量ベクトルにおいて異常が存在するか否かを示す異常検出結果を生成する、
ことを特徴とする、請求項３に記載の異常検出装置。
前記階層条件ベクトルは、
機器のタイプを示すタイプ情報と、機器の識別子を示す識別子情報とを含む、
ことを特徴とする、請求項１に記載の異常検出装置。
異常検出方法であって、
機器の種類毎に特定の機器を識別するための機器識別情報に基づいて、機器のタイプを示すタイプ情報と、機器の識別子を示す識別子情報とを含む第１の階層条件ベクトルを生成する工程と、
第１の対象機器から第１の音響信号を取得する工程と、
前記第１の音響信号を分析することで前記第１の音響信号の特徴量を示す第１の対象機器特徴量ベクトルを抽出する工程と、
前記第１の対象機器の正常の音響信号に基づいて第１の雑音ベクトルを生成する工程と、
生成ネットワークを用いて、前記第１の階層条件ベクトルと、前記第１の雑音ベクトルとに基づいて、前記第１の対象機器特徴量ベクトルを近似した第１の偽ベクトルを生成する工程と、
識別ネットワークを用いて、前記第１の対象機器特徴量ベクトル及び前記第１の偽ベクトルの真偽を判定する真偽判定を行い、真偽判定情報を生成する工程と、
前記識別ネットワークを用いて、前記第１の階層条件ベクトルと、前記第１の対象機器特徴量ベクトルとを解析することで、前記第１の対象機器の周辺環境の背景雑音レベルを判定する背景雑音判定を行い、第１の背景雑音レベルを示す第１の背景雑音レベル情報を生成する工程と、
前記真偽判定による交差エントロピー損失を示す第１の損失を計算する工程と、
前記背景雑音判定による交差エントロピー損失を示す第２の損失を計算する工程と、
前記第１の損失及び前記第２の損失とを用いて、前記生成ネットワーク及び前記識別ネットワークを訓練することで、訓練済みの生成ネットワーク及び訓練済みの識別ネットワークを生成する工程と、
前記機器識別情報に基づいて、第２の階層条件ベクトルを生成する工程と、
第２の対象機器から第２の音響信号を取得する工程と、
前記第２の音響信号を分析することで前記第２の音響信号の特徴量を示す第２の対象機器特徴量ベクトルを抽出する工程と、
前記第２の対象機器の正常の音響信号に基づいて第２の雑音ベクトルを生成する工程と、
前記訓練済みの識別ネットワークを用いて、前記第２の階層条件ベクトルと、前記第２の対象機器特徴量ベクトルとを解析することで、前記第２の対象機器の周辺環境の背景雑音レベルを判定する背景雑音判定を行い、第２の背景雑音レベルを示す第２の背景雑音レベル情報を生成する工程と、
前記訓練済みの生成ネットワークを用いて、前記第２の階層条件ベクトルと、前記第２の雑音ベクトルとに基づいて、前記第２の対象機器特徴量ベクトルを近似した第２の偽ベクトルを生成する工程と、
前記訓練済みの生成ネットワークを用いて、前記第２の対象機器特徴量ベクトルと、前記第２の偽ベクトルとに基づいて、前記第２の対象機器特徴量ベクトルに対する異常スコアを計算する工程と、
前記第２の背景雑音レベルに基づいて、異常判定閾値を選択する工程と、
前記異常スコアと、前記異常判定閾値とに基づいて、前記第２の対象機器特徴量ベクトルにおいて異常が存在するか否かを示す異常検出結果を生成する工程と、
を含むことを特徴とする異常検出方法。
異常検出システムであって、
検証対象の機器となる対象機器と、
前記対象機器からの音響信号を取得するセンサ部と、
音響信号を解析することで異常の有無を判定する異常検出装置とが通信ネットワークを介して接続されており、
前記異常検出装置は、
機器の種類毎に特定の機器を識別するための機器識別情報を格納する機器識別データベースと、
前記機器識別情報に基づいて階層条件ベクトルを生成する階層条件ベクトル生成部と、
前記センサ部から、前記音響信号を受信し、分析することで前記音響信号の特徴量を示す対象機器特徴量ベクトルを抽出する抽出部と、
前記階層条件ベクトルと、前記対象機器特徴量ベクトルとを解析することで、前記対象機器の周辺環境の背景雑音レベルを判定する背景雑音判定を行い、判定した背景雑音レベルを示す背景雑音レベル情報を生成する階層条件敵対的ニューラルネットワークと、
少なくとも前記背景雑音レベルに応じて選択される異常判定閾値を用いて、前記対象機器特徴量ベクトルにおいて異常が存在するか否かを判定する異常判定部と、
を含むことを特徴とする異常検出システム。
前記階層条件敵対的ニューラルネットワークは、
前記階層条件ベクトルと、雑音の信号に基づいて生成される雑音ベクトルとに基づいて、前記対象機器特徴量ベクトルを近似した偽ベクトルを生成する生成ネットワークと、
前記対象機器特徴量ベクトル及び前記偽ベクトルの真偽を判定する真偽判定を行い、真偽判定情報を生成すると共に、前記背景雑音レベルを判定する前記背景雑音判定を行い、前記背景雑音レベル情報を生成する識別ネットワークと、
を更に含むことを特徴とする、請求項７に記載の異常検出システム。
前記識別ネットワークは、
前記真偽判定による交差エントロピー損失を示す第１の損失と、前記背景雑音判定による交差エントロピー損失を示す第２の損失とを計算し、
前記第１の損失及び前記第２の損失とを用いて、前記生成ネットワーク及び前記識別ネットワークを訓練することで、訓練済みの生成ネットワーク及び訓練済みの識別ネットワークを生成する、
ことを特徴とする、請求項８に記載の異常検出システム。
前記階層条件ベクトル生成部は、
前記機器識別情報に基づいて、第２の階層条件ベクトルを生成し、
前記抽出部は、
第２の対象機器から取得した第２の音響信号を分析することで前記第２の音響信号の特徴量を示す第２の対象機器特徴量ベクトルを抽出し、
前記訓練済みの識別ネットワークは、
前記第２の階層条件ベクトルと、前記第２の対象機器特徴量ベクトルとを解析することで、前記第２の対象機器の周辺環境の背景雑音レベルを判定する背景雑音判定を行い、第２の背景雑音レベルを示す第２の背景雑音レベル情報を生成し、
前記第２の背景雑音レベルに基づいて、異常判定閾値を選択し、
前記訓練済みの生成ネットワークは、
前記第２の階層条件ベクトルと、前記第２の対象機器の正常の音響信号に基づいて生成される第２の雑音ベクトルとに基づいて、前記第２の対象機器特徴量ベクトルを近似した第２の偽ベクトルを生成し、
前記第２の対象機器特徴量ベクトルと、前記第２の偽ベクトルとに基づいて、前記第２の対象機器特徴量ベクトルに対する異常スコアを計算し、
前記異常判定部は、
前記異常スコアと、前記異常判定閾値とに基づいて、前記第２の対象機器特徴量ベクトルにおいて異常が存在するか否かを示す異常検出結果を生成する、
ことを特徴とする、請求項９に記載の異常検出システム。
前記階層条件ベクトルは、
機器のタイプを示すタイプ情報と、機器の識別子を示す識別子情報とを含む、
ことを特徴とする、請求項７に記載の異常検出システム。