JP7472012B2

JP7472012B2 - 異常信号抽出装置

Info

Publication number: JP7472012B2
Application number: JP2020219759A
Authority: JP
Inventors: 佳小里末房; 洋平川口
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2024-04-22
Anticipated expiration: 2040-12-29
Also published as: JP2022104666A

Description

本発明は、異常信号抽出装置に関する。

設備の異常や故障等は、例えば部品の劣化、潤滑剤の減少、異物の混入、過大な負荷、回路の短絡など種々の要因が挙げられるが、多くの場合、設備が使用不能になる前段階の「予兆」として、設備の振動や稼働音の異常に現れることが多い。以下、異常な稼働音を単に「異音」と略称し、正常な設備の稼働音を「正常音」と称する。このため、現在の設備の状態をより正確に把握すべく、設備の稼動音に基づく診断（例えば、異音が発生しているかの検査）を行うことは、設備の不慮の稼働停止を未然に防止する観点からも非常に重要である。

一方で、設備が稼働する現場では、環境雑音が大きい場合があり、このような場合、異音検知の精度が著しく低下する。そのため、異音検知精度の向上や異音そのものの分析のため、稼働音から異音を特定し抽出する（強調するともいう）技術が求められる。

異音発生の検査および異音の抽出（強調）に関し、特許文献１に記載の技術（タイルの劣化診断装置およびタイルの劣化診断方法）が知られている。この特許文献１には、「擦過棒６を有する擦過機構部１と、擦過機構部１を一方向Ｔ１に往復移動させるための往復移動機構部２と、擦過音を捉える擦過音記録部３とを備える。また、擦過機構部１の擦過棒６と、擦過棒６の軸部４を支持する支持機構７と、支持機構７とともに擦過棒６を他方向Ｔ２に進退移動させ、金属球５をタイル面に押し付け／離間するための擦過棒進退機構８とを備える。さらに、擦過棒６を、引張用弾性部材を介して軸部４の一端側に金属球５を接続して形成し、支持機構７を、擦過棒６の軸部４を内部に挿通して擦過棒６を他方向Ｔ２に進退自在に支持する筒状体と、筒状体の一端と擦過棒６の金属球５の間に介設された圧縮用弾性部材とを備えて構成する。」と記載されている。

特開２０１５－２８４６７号公報

一方、異音抽出（強調）の点では、特許文献１は、予め録音したタイルの正常音を時間平均しておき、正常音の時間平均と検査音（検査時の音）とを比較し、乖離した音であった場合に異音と判定し、強調する処理を行うものと考えられる（請求項３、段落００４７,００６２等参照）。しかしながら、正常音が時間変化する非定常音（時間変動音）であった場合、時間平均により正常音の特徴が打ち消される（音の周波数スペクトラムは本来時間方向に凹凸を伴う変化をするにも関わらず、時間平均によってその時間変化が均一化される）ため、かかる技術は使用できないものと考えらえる。

本発明は、正常音が時間変化する非定常音である場合でも、異音を抽出ないし強調することが可能な異常信号抽出装置を提供することにある。

上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、検査時に対象装置から発せられる振動の信号を時間周波数ごとに分割した時間周波数領域データにおける、時間周波数ごとの異常度を推定する異常度推定部と、推定された前記異常度に基づいて、前記振動の信号から異常部分の信号を抽出する異常信号抽出部と、を備える異常信号抽出装置により、達成される。

本発明によれば、検査時における対象装置の振動の信号が時間周波数毎に分割（変換）された時間周波数領域データにおける、時間周波数ごとの異常度を、異常度推定部によって推定し、推定された各々の時間周波数の異常度に基づいて、異常信号抽出部によって、対象装置の振動の信号から異常部分の信号を抽出する。したがって、本発明によれば、対象装置の正常音が時間変化する非定常音である場合でも、異音を抽出ないし強調することができる。

本実施の形態における異音強調システムの全体概要を説明するためのブロック構成図である。異音強調システムにおける学習サブシステム、学習用データベース、および異音強調サブシステムの関係等を説明するためのブロック図である。特徴量ベクトル（Ｄ１）、符号ベクトル（Ｄ２）、復号ベクトル（Ｄ３）およびこれら各データの関係、処理の流れ等を説明する図である。異音強調システムのハードウェア構成等を説明するためのブロック構成図である。実施例１における学習サブシステムＬＳＳのブロック構成図である。実施例１における学習サブシステムＬＳＳの処理の流れの一例を示すフロー図である。特徴量ベクトルＤ１と装置型式ベクトルＤ４とが連結される処理を説明する図である。異音強調サブシステムＤＳＳのブロック構成図である。異音強調サブシステムＤＳＳの処理の流れの他の一例を示すフロー図である。本発明の第２実施例における特徴量ベクトルの生成処理を説明する図である。第２実施例における学習サブシステムＬＳＳのブロック構成図である。第２実施例における学習サブシステムＬＳＳの処理の流れの一例を示すフロー図である。第２実施例における異音強調サブシステムＤＳＳのブロック構成図である。第２実施例における異音強調サブシステムＤＳＳの処理の流れの一例を示すフロー図である。本発明の第３実施例における学習サブシステムＬＳＳのブロック構成図である。第３実施例における異音強調サブシステムＤＳＳのブロック構成図である。第３実施例における異音強調サブシステムＤＳＳの処理の流れの他の一例を示すフロー図である。第５実施例において、抽出された異音の方向を推定して画像表示する場合の一具体例を示す図である。

以下、図面を参照しながら、本発明を適用した実施の形態について説明する。
図１は、本実施の形態における異音強調システム１の概要を示すブロック構成図である。この異音強調システム１は、本発明の「異常信号抽出装置」に対応する。異音強調システム１は、異音の計測対象となる対象装置３の稼働音（以下、「入力音」または「検査音」ともいう）を収音（記録）して、該収音された入力音を所定時間単位でのフレーム（時間周波数）に変換（分割）し、当該分割されたフレーム（時間周波数）の各々に対して異常度を算出し、算出された異常度に基づいて、入力音に含まれる異音を強調（抽出）する処理を行うシステムである。

このような基本構成とすることで、対象装置３から発せられる正常音が非定常波である場合に、当該対象装置３から異音が発せられた際の異常を精度良く検知することができる。

他の側面から言うと、以下に詳述する各実施の形態の異音強調システムでは、検査対象となる各種装置の正常音がいずれも厳密には非定常であること、言い換えれば正常音の定常性を一切仮定しないことを前提としたデータ処理（時間平均を用いない処理）を行うものであり、それゆえに正常音が非定常であっても異音の検知および抽出（強調）が可能となるものである。

以下は、正常音が非定常であることをより明確にするため、対象装置３が複数の異なる種類の装置からなり、当該複数の装置から発せられる音を検査する場合を前提として説明する。

なお、「異常」とは、装置の故障や装置の劣化や異物混入や動作条件の変化に伴い、装置が正常とは異なる状態で動作していることを意味する。それに対して、以降で「異常度」と呼ぶものは、対象装置から発せられる検査音に基づいて定義される指標である。すなわち、「異常度」とは、Distr_observedとDistr_normalとの乖離の程度を表す指標である。ただし、或る短時間（たとえば1秒間）の入力波形の時間周波数領域信号の時間と周波数の各ペアが有する音のレベル（音量）を全ての時間と周波数のペアにわたって列挙することで構成されるベクトルが従う多次元確率分布をDistr_observedと定義する。また、同一の短時間の正常音の入力波形の時間周波数領域信号の時間と周波数の各ペアが有する音のレベル（音量）を同様に全ての時間と周波数のペアにわたって列挙することで構成されるベクトルが従う多次元確率分布をDistr_normalと定義する。

このため、異音強調システム１では、準備段階として、正常状態における対象装置３の稼働音（以下、「正常音」という）を収音（記録）して、該収音された入力音から仮想的な理想状態の波形を生成し、該生成された波形を時間（フレーム）-周波数に変換（分割）する。

ここで、フレーム期間（時間値）は、任意の値に設定することができ、特に制限されないが、一般的には、時間値が長い場合よりも短い場合の方が、精度（波形をサンプリングする分解能）が良くなる一方で処理が重くなる傾向にある。以下は、説明の便宜および実用的な一具体例として、フレーム期間（時間値）が３２ｍ秒に設定されたことを前提とする。

また、異音強調システム１は、分割された各々の時間（フレーム）-周波数の理想状態の波形を記述する多次元の関数を生成する。この関数は、正常音の入力波形の時間周波数領域信号の時間と周波数の各ペアが有する音のレベル（音量）を全ての時間と周波数のペアにわたって列挙することで構成されるベクトルが従う多次元確率分布に関する変数（パラメータ）を含む数式が多次元化されたものであり、正常音モデルと呼ぶこともできる。

かかる正常音モデルは、後述する学習サブシステムＬＳＳでの機械学習時に生成されるものであり、この実施の形態では所定の評価関数、より具体的には「損失関数」として表される。概して、損失関数は、正常音の全体（ひいてはフレームに切り出した場合の各々のフレーム）に共通に適用される関数である。また、損失関数は、収音された正常音の学習に使用される関数であり、正常音の学習が終了した後（この例では異音強調サブシステムＤＳＳによる検査時）には、使用する必要がなくなる。

一具体例では、後述する実施例１および実施例２では、対象装置３の正常音の収音時に、各々の時間－周波数の学習結果に基づいて、時間－周波数ごとに割り当てられる、損失関数のパラメタ（符号化パラメタＤ５Ｅ、復号化パラメタＤ５Ｄ）を生成して保存する。

そして、この後の対象装置３の検査時の収音時に、保存したこれらパラメタＤ５ＥおよびパラメタＤ５Ｄを用いて、検査音に基づくデジタルデータの符号化および復号化を行い、当該検査音の各々の時間周波数ごとに割り当てられた「特徴量ベクトルＤ１」と「復号ベクトルＤ３」との一致度に基づいて、その時間周波数に割り当てられた「異常度」を算出する。

通常、異常が発生する場合には、正常音と比較して、時間周波数領域信号の特定の周波数、または、特定の時間、または、時間と周波数の特定のペアにおいて音量が大きくなる場合が多い。したがって、本実施の形態では、当該異常度が高い時間周波数の音を異常音として抽出ないし強調して、当該強調した波形をディスプレイなどに表示することによって、対象装置３のユーザに対して異常音を提示する。

（異音強調システム１の機能）
以下、異音強調システム１の構成を、主として機能毎に説明する。
図１に示すように、異音強調システム１は、センサ端末２と、特徴量ベクトル抽出部１１と、訓練用データベースＤＢ１と、符号化部１２と、復号化部１３と、装置型式ベクトル生成部１４と、学習部１５と、学習用データベースＤＢ２と、異常度算出部１６と、異音強調部１７と、を備える。

上記のうち、異常度算出部１６は、本発明の「異常度推定部」に対応する。また、異音強調部１７は、本発明の「異常信号抽出部」に対応する。
上記の各ブロックは、互いに異なるハードウェア構成とすることができ、その場合、各ブロックは、図示しないバスやインタフェースを介して互いに接続されることができる。

一方、訓練用データベースＤＢ１および学習用データベースＤＢ２は、単一のハードウェア（例えばハードディスクドライブ）で構成してもよい。また、特徴量ベクトル抽出部１１、符号化部１２、復号化部１３、装置型式ベクトル生成部１４、学習部１５、異常度算出部１６、および異音強調部１７は、同一ないし単一のプロセッサ（ＣＰＵやＭＰＵなど）で構成してもよい。
以下は、異音強調システム１の各機能の理解を容易にする観点から、図１に示す各ブロックが互いに異なるハードウェアで構成されたものと仮定する。

異音強調システム１において、センサ端末２は、例えばマイクロホン（以下、「マイク」と略称する場合がある）を備え、対象装置３の稼働音を入力（収音）し、アナログ音声信号Ｄ０として特徴量ベクトル抽出部１１に出力する。なお、センサ端末２の他の例として、加速度センサを備えることもできる。この場合、センサ端末２は、付加的または代替的に、対象装置３の音以外の振動に由来する信号を含むアナログ信号Ｄ０を、特徴量ベクトル抽出部１１に出力することができる。

また、本実施の形態において、異音の検査対象となる対象装置３は、機械、工場設備、あるいは家庭電気製品などである。対象装置３のより具体的な例としては、バルブ、摺動装置、ロボット、ポンプ、送風機、シリンダ、コンベア、原動機、トランスミッションなど、種々の装置が挙げられる。

さらに、対象装置３は、単独の装置のみならず、例えば一部屋内の全装置といった複数個または複数種類の装置が含まれ得る。本実施の形態の異音強調システム１は、対象装置３を構成する複数の装置から発せられる音（異音の有無など）を同時に検査でき、突発的に正常音が変化し得る対象装置３についても、その異音を抽出（強調）することができるようになっており、その詳細は後述する。
以下では、異音強調の対象である対象装置３を「装置３」と略記する場合がある。また、学習部１５は、例えば、ニューラルネットワークパラメタ更新部と呼ぶこともできる。

特徴量ベクトル抽出部１１は、入力されたアナログ音声信号Ｄ０をデジタル化し、かかるデジタルの音声データを訓練用デジタル入力信号データベースＤＢ１に逐次格納する。以下、説明の便宜のため、訓練用デジタル入力信号データベースＤＢ１を「訓練用データベースＤＢ１」と略記する。

また、特徴量ベクトル抽出部１１は、入力されたアナログ音声信号Ｄ０（またはデジタル化された音声データ）から、横軸を時間軸、縦軸を音量とする波形グラフを生成するとともに、かかる波形グラフをフレーム単位に分割する（切り分ける）ことによって、時間周波数のデータＤ１を生成する（適宜、図１０を参照）。特徴量ベクトル抽出部１１は、生成した時間周波数のデータＤ１を、後述する符号化部１２と学習部１５と異常度算出部１６とに、同時に出力する。
なお、フレームの期間（周期）については特に限定されるものではないが、非制限的な一具体例として、３２ｍ秒とすることができる。

かかる時間周波数のデータＤ１（フレーム毎のデータ）は、入力されたアナログ音声信号Ｄ０ひいては対象装置３が発する音のフレーム毎の特徴量、より詳しくは、当該フレームの周波数毎の音量（音量の配列）を表している（適宜、図３を参照）。また、厳密には、対象装置３が発する音は、その状態や周囲の環境等に応じて刻々と変化することから、時間周波数のデータＤ１は、装置３が正常であっても、各フレーム（ピクセル）毎に変化し得るものであるし、実際に変化する。

上記実情を踏まえて、以下は、特徴量ベクトル抽出部１１から出力される複数フレーム分の時間周波数のデータＤ１を「特徴量ベクトルＤ１」と称する。
訓練用データベースＤＢ１は、主として上述したモデルを作成するために準備段階で使用されるデータベース（この例では物理的に独立したＨＤＤなどの記憶媒体）であり、上述したアナログ音声信号Ｄ０のデジタル音声データが記録（一時的に格納）される。

装置型式ベクトル生成部１４は、上述した対象装置３の種類および型式（「種類」よりも下位の概念を意味する）を表した装置型式ベクトルＤ４を生成する。ここで、装置型式ベクトルＤ４は、対象装置３の種類を識別する装置種類ベクトルの一種であり、対象装置３を構成する装置の種類および型式をＯｎｅ－Ｈｏｔベクトルで表したものである。Ｏｎｅ－Ｈｏｔベクトルとは、ベクトルの全要素のうち所定の一つの要素のみが「１」となっており、他の要素が「０」となっているベクトル表記法である（図７参照）。

より具体的には、仮に、本システムでの検査対象となり得る装置の製品型式の数が１００個ある場合、装置型式ベクトルＤ４の次元数（桁数）は１００になる。一方、工場等の現場に同時に存在し検査対象となる対象装置３の装置数（個数）が３個である場合、装置型式ベクトル生成部１４は、かかる１００次元の中で、現場に存在する装置型式に対応する３個の次元の要素を１とし、それ以外の９７個の次元の要素を０とした、１００次元の装置型式ベクトルＤ４を生成する。
かくして、装置型式ベクトル生成部１４は、生成した装置型式ベクトルＤ４を、符号化部１２と復号化部１３とに同時に供給（出力）する。

符号化部１２は、特徴量ベクトルＤ１と対象装置３の型式を表す装置型式ベクトルＤ４との組を入力とし、かかる入力に応じた符号ベクトルＤ２を出力するニューラルネットワーク（ＮＮ：Neural Network、以下、ニューラルネットワークを「ＮＮ」と略称することがある）としての機能を担う。ここで、符号ベクトルＤ２は、上述した特徴量ベクトルＤ１のデータを圧縮する（符号化する）ことで生成されるデータである。符号化部１２は、生成した符号ベクトルＤ２を、復号化部１３と学習部１５とに同時に出力する。

復号化部１３は、入力した符号ベクトルＤ２と装置型式ベクトルＤ４との入力値に基づいた復号ベクトルＤ３を出力するニューラルネットワークとしての機能を担う。

本実施形態によれば、異常度算出部１６が入力音の各時間周波数の異常度Ｄ６を算出し、各時間周波数の異常度Ｄ６に基づいて異音強調信号Ｄ７を生成、出力するので、正常音が時間変化する非定常音であっても異音を強調することが可能となる。

さらに、本実施形態によれば、異音強調システムは、正常音のみを含む学習データを用いて異音を強調するように訓練できる。大抵、異音は未知であり、異音自体の学習が困難なため、異音を学習の段階で必要としない本手法は有効である。

また、本実施形態によれば、装置型式ベクトルＤ４が符号化部１２と復号化部１３の両方に入力されるので、装置型式ベクトルＤ４の情報が符号ベクトルＤ２に残っていない場合でも、復号ベクトルＤ３を精度良く予測することができる。

したがって、本実施形態によれば、学習部１５が学習処理を反復するに従って、符号ベクトルＤ２の圧縮効率が次第に向上し、符号ベクトルＤ２から装置型式ベクトルＤ４の情報が消滅し、その結果、符号ベクトルＤ２が装置３の型式に依らない共通の分布となるように、符号化部１２のパラメタと復号化部１３のパラメタが学習される。

上述のように、本実施形態では、学習部１５の学習が進むにつれて、符号ベクトルＤ２が装置３の型式に依らず共通の分布となる。このため、本実施形態では、装置型式間で共通する音の特徴を表現するために、符号化部１２および復号化部１３のＮＮ内の写像もできる限り共有されるので、学習処理で探索が必要なパラメタ空間のサイズを小さくすることができる。したがって、本実施形態によれば、学習部１５による学習処理の最適化が進みやすくなる。

かくして、本実施形態では、装置３の発する振動に由来する信号に基づいて、装置３の各時間周波数の異常度を算出し、算出された各時間周波数の異常度から装置３から生じる異音を強調した信号を出力することができる。振動に由来する信号には、振動の信号と音の信号とが含まれる。以下に説明する各実施例で使用するセンサ端末２をマイクロホンから加速度センサまたは変位センサに代えることにより、異音強調システム１は、振動の信号から異常振動を抽出し強調してユーザ等に提示することができる。

図１～図９を参照して、本発明の第１実施例を説明する。図１は、本実施例の全体概要を示す説明図である。異音強調システム１の構成の詳細は後述する。ここでは先に全体構成を簡単に説明する。

異音強調システム１は、例えば、複数種類の対象装置３の発する音（音波）をセンサ端末２によりアナログ波形の音声信号Ｄ０として検出し、検出した音声信号Ｄ０を特徴量ベクトル抽出部１１へ入力する。

特徴量ベクトル抽出部１１は、入力された音声信号Ｄ０をＡ／Ｄ変換および時間-周波数領域に分割（変換）した後に、各領域の特徴量ベクトルＤ１を抽出し、抽出された特徴量ベクトルＤ１を符号化部１２および異常度算出部１６に出力する。

概して、特徴量ベクトルＤ１は、単位時間（フレーム）に含まれる音の周波数成分の配列を表す。この点で、特徴量ベクトル（Ｄ１）は特徴量配列データ（Ｄ１）と、特徴量ベクトル抽出部（１１）は特徴量配列抽出部（１１）と呼ぶこともできる。また、特徴量ベクトルＤ１は、予め設定された単位時間（フレーム）毎に特徴量ベクトル抽出部１１から出力されることになる（適宜、図１０中のフレームＦを参照）。

符号化部１２は、特徴量ベクトル抽出部１１から入力された特徴量ベクトルＤ１と装置型式ベクトル生成部１４から入力された装置型式ベクトルＤ４とに基づいて、符号化ベクトルＤ２を生成する。生成された符号化ベクトルＤ２は、復号化部１３と学習部１５とに入力される。

概して、符号化ベクトルＤ２は、特徴量ベクトルＤ１の情報量が間引かれたもの（上述した音の周波数成分の配列の一部が欠落したもの）であり、特徴量ベクトルＤ１を潜在的に表していることから、「潜在表現ベクトルＤ２」と呼ぶこともできる。

復号化部１３は、符号化部１２から出力された符号ベクトルＤ２と装置型式ベクトル生成部１４から出力された装置型式ベクトルＤ４と、所定のパラメタ（図１中のＤ５Ｄ）に基づいて、復号ベクトルＤ３を生成して出力する。

ここで、復号ベクトルＤ３は、上述した符号化ベクトル（潜在表現ベクトル）Ｄ２を、所定のパラメタ（図１中のＤ５Ｄ）を用いた復号化によって特徴量ベクトルＤ１に出来るだけ近い値を再現（復元）したものである。言い換えると、復号化部１３が出力する復号ベクトルＤ３の理想値は、特徴量ベクトルＤ１と完全同一の値すなわちＤ３＝Ｄ１である。但し、実際には、復号ベクトルＤ３を特徴量ベクトルＤ１と完全同一の値に復元することが難しい場合が多いため、かかる実情を考慮した処理（後述する図６のＳ１１２等）を行う。

異常度算出部１６は、入力音すなわちセンサ端末２から入力された音声信号Ｄ０の異常度を、時間周波数の領域（いわゆるピクセル）毎に算出する機能を有する。本実施例では、異常度算出部１６は、特徴量ベクトル抽出部１１から入力された特徴量ベクトルＤ１と、復号化部１３から入力された復号ベクトルＤ３とに基づいて、対象装置３が発した音の各々の時間周波数の異常度Ｄ６を算出し、出力する。この異常度Ｄ６の値は、フレーム時間（この例では３２ｍ秒）毎に算出、出力される。この意味では、複数フレーム分の異常度（Ｄ６）を、異常度ベクトル（Ｄ６）と呼ぶこともできる。

一具体例では、異常度Ｄ６の値は、入力された音声信号Ｄ０に含まれる全ての周波数の音波（例えば３２ヘルツ毎）に対する異常度が示される。他の具体例では、異常度Ｄ６の値は、入力された音声信号Ｄ０に含まれる全ての周波数成分のうち、特徴量ベクトルＤ１との乖離が閾値を超えた周波数の音波に対する異常度が示される。言い換えると、異常度算出部１６（異常度推定部）は、復号ベクトルＤ３と特徴量ベクトルＤ１との乖離の程度を時間周波数毎に表す異常度Ｄを推定する。

異音強調部１７は、センサ端末２から入力された音声信号Ｄ０と、異常度算出部１６から入力された各々の時間-周波数の異常度Ｄ６とから、対象装置３から生じる異音（波形）を抽出ないし強調する処理を行い、かかる処理後の異音の波形を異音強調信号Ｄ７として出力する。かかる異音強調信号Ｄ７は、例えば入力された音声信号Ｄ０とともにディスプレイ等の画面に表示する、あるいはプリンタで印刷することができる。

学習部１５は、特徴量ベクトル抽出部１１から入力される対象装置３の正常音についての特徴量ベクトルＤ１と、符号化部１２から入力される符号ベクトルＤ２と、復号化部１３から入力される復号ベクトルＤ３と、の関数として定義される所定の損失関数を最小化するように、符号化部１２のニューラルネットワークのパラメタＤ５Ｅと復号化部１３のニューラルネットワークのパラメタＤ５Ｄとを学習し、学習済みのパラメタＤ５ＥおよびパラメタＤ５Ｄを学習用データベースＤＢ２に格納する。ここで、パラメタＤ５ＥおよびパラメタＤ５Ｄは、損失関数を定義するパラメタである。

また、学習済みのパラメタＤ５ＥおよびパラメタＤ５Ｄは、異常音が含まれるアナログ音声信号Ｄ０についての特徴量ベクトルＤ１が符号化部１２および復号化部１３によって符号化および復号化された場合に、復号化部１３で生成された復号ベクトルＤ３を特徴量ベクトルＤ１と乖離させる機能を有する。

学習用データベースＤＢ２に格納された学習済みデータとしてのパラメタＤ５ＥおよびパラメタＤ５Ｄは、対象装置３の異音の検査時（検査音の収音時）に、各々、符号化部１２および学習用データベースＤＢ２によって読み出され、符号化および復号化の処理のパラメタとして利用される。

図２は、異音強調システム１の全体構成および処理の流れを概略して示すブロック図である。異音強調システム１は、学習サブシステムＬＳＳと異音強調サブシステムＤＳＳとに大別することができる。このうち、学習サブシステムＬＳＳは専ら対象装置３の正常音の学習時に使用され、異音強調サブシステムＤＳＳは、主として対象装置３の検査音の検査時に使用されるものである。

概して、学習サブシステムＬＳＳは、符号化部１２のニューラルネットワークのパラメタＤ５Ｅと復号化部１３のニューラルネットワークのパラメタＤ５Ｄと、を機械学習により学習し（Ｓ１）、学習したパラメタＤ５Ｅ、パラメタＤ５Ｄを学習用データベースＤＢ２へ記憶させる。一方、異音強調サブシステムＤＳＳは、学習用データベースＤＢ２から学習済みのパラメタＤ５Ｅ、パラメタＤ５Ｄを読み出し、読み出されたパラメタＤ５Ｅ、パラメタＤ５Ｄを用いて、対象装置３の検査音の異常度（言い換えると異音の有無）を推定し、推定された異音を当該検査音から抽出および強調し、異音強調信号Ｄ７として出力する（Ｓ２）。

図３は、特徴量ベクトルＤ１、符号ベクトルＤ２、復号ベクトルＤ３等の関係を説明するための図である。図３では、対象装置３の入力音の１フレーム分の特徴量ベクトルＤ１、符号ベクトルＤ２、復号ベクトルＤ３、および装置型式ベクトルＤ４およびこれらのデータの流れや符号化（圧縮）、復号化（復元）の処理を模式的に示している。

図３に示すように、特徴量ベクトル抽出部１１から出力された特徴量ベクトルＤ１と、装置型式ベクトル生成部１４から出力された装置型式ベクトルＤ４とは、連結されて一つのベクトル（一まとまりのデータ）となり、符号化部１２へ入力される（図７も参照）。

続いて、図１および図３に示すように、符号化部１２により符号化（データ圧縮）の処理を経て生成された符号ベクトルＤ２は、復号化部１３へ入力される。このとき、復号化部１３には、符号化部１２と同様に、装置型式ベクトル生成部１４から装置型式ベクトルＤ４が入力される。復号化部１３は、符号ベクトルＤ２を復号化したデータと装置型式ベクトルＤ４とを連結させて復号ベクトルＤ３を生成し、生成した復号ベクトルＤ３を出力する。

図４は、主として異音強調システム１のハードウェア構成を説明するためのブロック図である。なお、図４では、図１に示す構成からセンサ端末２を本体（図４中の異音強調装置１００）とは別個の装置とした構成を例示する。図４中、異音強調装置１００は、本発明の「異常信号抽出装置」に対応する。

図４に示す異音強調装置１００は、図１等で上述した特徴量ベクトル抽出部１１、符号化部１２、復号化部１３、装置型式ベクトル生成部１４、学習部１５、異常度算出部１６、および異音強調部１７として機能する演算部１００１と、主記憶装置１００２と、補助記憶装置１００３と、入力部１００４と、出力部１００５と、通信部１００６と、を備える計算機である。

このうち、演算部１００１は、一つまたは複数のマイクロプロセッサ（ＭＰＵ：micro processing unit）あるいはＣＰＵ（central processing unitやＭＰＵなど）を備える。主記憶装置１００２は、例えばＲＡＭ（Random Access Memory）である。補助記憶装置１００３は、例えばＨＤＤ（Hard Disk Drive）である。

入力部１００４は、例えば、キーボード、タッチパネル、ポインティングデバイスなどを含むことができ、異音強調装置１００を使用するユーザからの入力を受け付ける。

出力部１００５は、例えばＬＣＤ（Liquid Crystal Display）などの画像表示デバイス、スピーカなどの音声出力デバイス、プリンタなどの印刷デバイスである。このうち、画像表示デバイスは、図示しないユーザ設定画面を表示して、入力部１００４の操作により各種の情報の入力をユーザに促すことができる。

ユーザが入力可能な情報として、例えば、対象装置３を構成する装置の個数および各装置の型式、学習時におけるフレーム時間の設定値、検査時における検査時間の設定値、異常度の閾値、異常度がその閾値を何回超過したときに検査を終了するか、異常度がその閾値を連続で何回超過したときに終了するか、などが挙げられる。

また、ユーザが入力可能な情報として、学習処理時間（パラメタＤ５ＥやパラメタＤ５Ｄの最適化の計算に使う時間）を入力してもよい。あるいは、学習処理時間の代わりに学習処理の最大反復回数を入力してもよい。さらには、学習処理の１回の反復に用いるサンプルの個数を表す正の整数値（バッチサイズ）を入力してもよい。

また、反復にともなう損失関数の減少幅の閾値をユーザが入力、設定した場合、いわゆる自動終了設定が可能になる。すなわち、損失関数の減少幅が閾値を超えなければ、収束したと判断して学習処理を終了することができる。

また、画像表示デバイスは、異常度算出部１６や異音強調部１７から出力されたデータ（異常度Ｄ６、異音強調信号Ｄ７）を画面上に表示する役割を担う。

なお、出力部１００５が例えばタッチパネル付きディスプレイを備える場合、かかる画像表示デバイスは、入力部１００４と出力部１００５との機能を兼ね備えることができる。

通信部１００６は、例えばモデムや各種（有線または無線）の通信インタフェースを備える。通信部１００６は、通信ネットワークＣＮを介して、センサ端末２と通信する。なお、通信部１００６は、図示せぬ他のコンピュータと通信することもできる。

かかる構成の異音強調装置１００は、ＰＣ（Personal Computer）やスマートホンなどの計算機（通信端末）に所定のコンピュータプログラムを実行させることによって実現することができる。

図４では、一つの計算機から異音強調装置１００を構成する例を示すが、これに代えて、複数の計算機から一つまたは複数の異音強調装置１００を構成してもよい。この「計算機」は、仮想的な計算機であってもよい。

図４に示すように、異音強調装置１００は、通信ネットワークＣＮを介して、一つまたは複数のセンサ端末２と接続されている。このような構成とすることで、例えば異音強調装置１００の設置場所から離れた場所にある対象装置３の異音の検査を行うことができる。また、異音強調装置１００を移動させることなく、異なるセンサ端末２，２（図４を参照）を通じて互いに離れた場所にある対象装置３，３の異音の検査を同時並行的に行うこともできる。

センサ端末２は、例えば、可搬型の録音端末として構成される。なお、センサ端末２と異音強調装置１００とを一体化してもよい。例えば、録音機能を有する異音強調装置１００を可搬型の装置として構成してもよく、この場合、センサ端末２が不要となる。

異音強調装置１００の演算部１００１は、一つまたは複数のマイクロプロセッサ（ＭＰＵやＣＰＵなど）備える。そして、演算部１００１は、補助記憶装置１００３に記憶された所定のコンピュータプログラムを主記憶装置１００２に読み出して実行することにより、図１で述べたような特徴量ベクトル抽出部１１、符号化部１２、復号化部１３、装置型式ベクトル生成部１４、学習部１５、異常度算出部１６、異音強調部１７といった諸機能を実現する。

図４に示すように、異音強調装置１００は、種々の記憶媒体ＭＭと接続され得る。ここで、記憶媒体ＭＭは、例えば、フラッシュメモリまたはハードディスク等の外部メモリであり、異音強調装置１００へコンピュータプログラムまたはデータを転送して記憶させたり、異音強調装置１００からコンピュータプログラムまたはデータを読み出して記憶することができる。記憶媒体ＭＭは、異音強調装置１００に直接的に接続されてもよいし、通信ネットワークＣＮを介して異音強調装置１００に接続されてもよい。

図４に示すように、センサ端末２は、例えば、センサ部２１と、センサ端末２全体の制御を司るＣＰＵ等の制御部２２と、ＨＤＤ等の記憶部２３と、通信ネットワークＣＮを介した通信を行う通信部２４と、を備える。この例では、センサ部２１は、対象装置３の音を検出（収音）する収音部としてのマイクロホンである。したがって、以下はセンサ部２１をマイクロホン２１と呼ぶ場合がある。

センサ部２１により検出された音の情報（信号波形）は、例えば制御部２２によりＡ／Ｄ変換されて、デジタルの音データとして記憶部２３に記憶される。センサ端末２の制御部２２は、記憶部２３に記憶された音データを異音強調装置１００へ向けて送信する。

なお、他の例では、センサ部２１をマイクロホンから加速度センサなどに変更することにより、センサ端末２で対象装置３の振動を検出することができる。この場合、異音強調装置１００は、対象装置３が発する振動の波形から異常振動を抽出および強調することができる。

図５は、図２で概説した学習サブシステムＬＳＳのブロック構成図である。図６は、学習サブシステムＬＳＳの処理フローである。以下、図５および図６を参照して、学習サブシステムＬＳＳのより具体的な構成について説明する。なお、変分オートエンコーダ（Variational auto-encoder：ＶＡＥ）型の構成については、後述する。

図５に示すように、学習サブシステムＬＳＳでは、図１で説明した各部のうち、センサ端末２、特徴量ベクトル抽出部１１、訓練用データベースＤＢ１、装置型式ベクトル生成部１４、符号化部１２、復号化部１３、学習部１５が使用される。すなわち、学習サブシステムＬＳＳは、正常音の学習のために稼働することから、異常度算出部１６および異音強調部１７は使用されない。

まず、特徴量ベクトル抽出部１１の詳細な構成を説明する。図５を参照すると、特徴量ベクトル抽出部１１は、入力音取得部１０１、フレーム分割部１０２、窓関数乗算部１０３、周波数領域信号計算部１０４、パワースペクトログラム計算部１０５、瞬時特徴量計算部１０７、および特徴量時系列算出部１０８の７つの機能ブロックに大別される。

このうち、入力音取得部１０１は、センサ端末２（マイクロホン２１）から入力（取得）された対象装置３の音信号（アナログ入力信号）を、所定（例えば可聴周波数帯域の２倍）のサンプリング周波数でのサンプリング化の処理、Ａ／Ｄ（アナログ／デジタル）変換等の処理を行って、デジタル入力信号に変換する（図６のＳ１０１）。なお、音信号のデジタル化の処理は公知であるため、さらなる詳述は割愛する。

かくして、入力音取得部１０１は、変換後の音データ（以下、「デジタル入力信号」と称する）を、訓練用のデータとして、訓練用デジタル入力信号データベースＤＢ１へ格納する（Ｓ１０２）。このとき、入力音取得部１０１は、例えば予めユーザにより設定されメモリ（例えば補助記憶装置１００３）に記憶された対象装置３の装置数（現場に同時に存在する対象装置３の個数）および各装置の型式の情報から、各装置の型式（以下、単に「装置型式」という）を取得し、取得した装置型式も訓練用デジタル入力信号データベースＤＢ１へ格納（保存）する（Ｓ１０２）。

続いて、フレーム分割部１０２は、訓練用デジタル入力信号データベースＤＢ１に保存されたデータを取り出す、すなわち、デジタル入力信号データおよび装置型式の組を読み込む（Ｓ１０３）。さらに、フレーム分割部１０２は、訓練用デジタル入力信号データベースＤＢ１から取り出したデジタル入力信号に対して、規定した時間ポイント数（以下、「フレームサイズ」という）毎にデジタル入力信号を分割し、各フレーム毎のフレーム信号を生成する（Ｓ１０４）。なお、各フレーム間で音（波形）がオーバーラップしてもよい。フレーム分割部１０２は、生成されたフレーム信号を窓関数乗算部１０３に順次出力する。

窓関数乗算部１０３は、入力されたフレーム信号に窓関数を乗算することにより、窓関数乗算信号を生成し、生成された窓関数乗算信号を周波数領域信号計算部１０４に出力する（Ｓ１０５）。ここで、窓関数には、例えばハニング窓を用いる。

周波数領域信号計算部１０４は、入力された窓関数乗算信号に短時間フーリエ変換を施することにより、周波数領域信号を生成し、生成された周波数領域信号をパワースペクトログラム計算部１０５に出力する（Ｓ１０６）。ここで、周波数領域信号は、フレームサイズがＮとすると、（Ｎ／２＋１）＝Ｍ個の周波数ビン（ＦＦＴビンともいう）それぞれに１個の複素数が対応する、Ｍ個の複素数の組である。この場合、特徴量ベクトルＤ１は、時間フレーム数×周波数ビン数の次元数を持つデータである。

なお、他の例として、周波数領域信号計算部１０４は、短時間フーリエ変換の代わりに、ｃｏｎｓｔａｎｔＱ変換（ＣＱＴ）などの周波数変換手法を用いて周波数領域信号を生成および出力してもよい。

簡明のため、以下は特記しない限り、特徴量ベクトルＤ１は、時間フレーム数×周波数ビン数の次元数を持つデータであることを前提とし、復号ベクトルＤ３についても同様である。

パワースペクトログラム計算部１０５は、入力された周波数領域信号に基づいて、そのパワースペクトログラム（１フレーム分の周波数成分を表すグラフ）を生成し、生成されたパワースペクトログラムを瞬時特徴量計算部１０７に出力する（Ｓ１０７）。

瞬時特徴量計算部１０７は、入力されたパワースペクトログラムに対数を施すことにより、瞬時の特徴量（１フレーム分の周波数成分のうちの音量が大きい周波数帯域）が抽出ないし強調された対数パワースペクトログラムを生成し、生成された対数パワースペクトログラムを特徴量時系列算出部１０８に出力する（Ｓ１０９）。

特徴量時系列算出部１０８は、入力された１フレーム分の対数パワースペクトログラムに対して、隣接するＬフレーム分の対数パワースペクトログラムを連結させることにより、特徴量ベクトルＤ１を生成する（Ｓ１１０）。特徴量時系列算出部１０８は、生成された特徴量ベクトルＤ１を、符号化部１２と学習部１５とに各々出力する（図５を参照）。

このように、本実施例においては、フレーム毎に切り出された短時間パワースペクトログラムの複数フレーム分を特徴量ベクトルＤ１とすることで、対象装置３から発せられる稼働音（正常音または検査音）が定常の場合だけでなく非定常である場合であっても、後に詳述する異音強調サブシステムの処理（Ｓ２）において、高精度に異音を抽出ないし強調することができる。

なお、他の例として、特徴量時系列算出部１０８は、対数パワースペクトログラムの代わりに、それらの時間差分あるいは時間微分の時系列（デルタ）を入力し、隣接するＬフレーム分のデルタを連結させて特徴量ベクトルＤ１を生成し出力してもよい。さらに、これらのいずれかの組み合わせを選んで特徴量の軸方向に連結したものに対して、隣接するＬフレーム分のデータを連結させて特徴量ベクトルＤ１を生成し出力してもよい。

続いて、学習サブシステムＬＳＳでは、装置型式ベクトル生成部１４により、装置型式ベクトルＤ４が生成され、生成された装置型式ベクトルＤ４が、符号化部１２および復号化部１３へ入力される（Ｓ１１１）。

符号化部１２は、特徴量ベクトル抽出部１１（特徴量時系列算出部１０８）からの特徴量ベクトルＤ１と、装置型式ベクトル生成部１４からの装置型式ベクトルＤ４と、符号化のパラメタＤ５Ｅに基づいて、特徴量ベクトルＤ１を符号化（データ圧縮）して符号ベクトルＤ２を生成する。そして、符号化部１２は、生成された符号ベクトルＤ２を復号化部１３および学習部１５に出力する。

復号化部１３は、符号化部１２からの符号ベクトルＤ２と、装置型式ベクトル生成部１４からの装置型式ベクトルＤ４と、復号化のパラメタＤ５Ｄに基づいて、復号ベクトルＤ３を生成し、生成された復号ベクトルＤ３を学習部１５に出力する。

学習部１５は、特徴量ベクトルＤ１と符号ベクトルＤ２と復号ベクトルＤ３との関数として定義される所定の損失関数の値が最小となるように、符号化部１２のニューラルネットワーク（ＮＮ）のパラメタＤ５Ｅと、復号化部１３のニューラルネットワーク（ＮＮ）のパラメタＤ５Ｄを繰り返し学習（演算）する（Ｓ１１２～Ｓ１１５）。学習部１５は、学習（演算）により最終的に決定されたパラメタＤ５Ｅ，Ｄ５Ｄ（以下、パラメタＤ５と総称する場合がある）を、学習用データベースＤＢ２に格納して保存する（Ｓ１１６）。

上記のうち、Ｓ１１２は、復号ベクトルＤ３を特徴量ベクトルＤ１と完全同一の値に復元することが困難ないし不可能なことを考慮したものである。
具体的には、Ｓ１１２において、学習部１５は、現在のパラメタＤ５（Ｄ５ＤおよびＤ５Ｅ）が、収束条件を満たすか否か、または本処理の反復回数Ｃ１が上限値ＴｈＣを超えたか否かを判定する。概して、特徴量ベクトルＤ１と復号ベクトルＤ３との誤差（差分）の絶対値ｇについて、一つ前の反復でのｇと現在の反復でのｇの間の差分の絶対値が許容値以内である場合に、収束条件を満たすものと判定される。

ここで、学習部１５は、収束条件を満たさない、または反復回数Ｃ１が上限値ＴｈＣ以下であると判定した場合（Ｓ１１２、ＮＯ）、各々のニューラルネットワーク（ＮＮ）のパラメタＤ５Ｅ，Ｄ５Ｄを更新し（Ｓ１１３）、収束条件を計算し（Ｓ１１４）、反復回数Ｃ１を１つインクリメントさせてステップＳ１１２へ戻る。

そして、学習部１５は、現在のパラメタＤ５（Ｄ５ＤおよびＤ５Ｅ）が収束条件を満たす、または本処理の反復回数Ｃ１が上限値ＴｈＣを超えた（Ｓ１１２、ＹＥＳ）と判定されるまで、上述したかＳ１１２～Ｓ１１５の処理を繰り返し、Ｓ１１２でＹＥＳと判定された場合、Ｓ１１６に処理を移す。

Ｓ１１６において、学習部１５は、ニューラルネットワーク（ＮＮ）のパラメタＤ５Ｅ，Ｄ５Ｄを学習用データベースＤＢ２に保存する（Ｓ１１６）。Ｓ１１６では、ユーザによって予め入力（設定）された任意のファイル名のファイルとして保存されることができる。かくして、学習サブシステム（機械学習）の一連の処理を終了する。

一具体例では、任意の時期（例えばＳ１１６）において、演算部１００１は、ＬＣＤ等の表示画面に、任意の反復回数Ｃ１に対する損失関数のグラフを表示する処理を行う。かかる処理により、機械学習時における収束の状況が視覚的に分かり、ユーザの便宜が図られる。

（異音強調サブシステムＤＳＳ）
図８は、異音強調サブシステムＤＳＳのブロック構成図である。図９は、異音強調サブシステムＤＳＳの処理フローである。以下、図８および図９を参照して異音強調サブシステムＤＳＳの構成を詳細に説明する。なお、簡明化のため、上述した学習サブシステムＬＳＳと同一の構成については適宜説明を省略する。

図２で上述したように、異音強調サブシステムＤＳＳは、主として対象装置３の検査音の検査時に使用されるものである。通常、対象装置３の検査音の検査は、対象装置３の耐久がある程度進んだ段階で行われることが想定されるが、例えば、学習サブシステムＬＳＳによる学習の完了後に正常に動作するかを確認するための試験的な検査を行ってもよい。また、異音の有無の検査時には、上述した学習時と出来るだけ同じ条件（対象装置３の数/種類、マイクの位置等）とし、他の条件もできるだけ合致させた上で、保存されている上記ファイル名を指定してデータを読み出す。

ここで、図５と図８とを比較して分かるように、異音強調サブシステムＤＳＳは、訓練用データベースＤＢ１を使用しない。また、異音強調サブシステムＤＳＳは、学習部１５を使用せず、学習部１５の代わりに異常度算出部１６および異音強調部１７を使用する。具体的には、学習サブシステムＬＳＳでは正常音の特徴量ベクトルＤ１が符号化部１２と学習部１５とに入力されたが（図５参照）、異音強調サブシステムＤＳＳでは、特徴量ベクトル抽出部１１により生成された検査音の特徴量ベクトルＤ１が、符号化部１２と異常度算出部１６とに入力される（図８を参照）。

異音強調サブシステムＤＳＳは、対象装置３の検査音の入力信号から抽出された特徴量ベクトルＤ１の異常度を算出するために、以下の処理を行う。

まず、対応するニューラルネットワーク（ＮＮ）が、上述した学習サブシステムＬＳＳで学習され保存されたパラメタを読み出してロード（ＲＡＭ等に展開）する。
具体的には、符号化部１２（ＮＮ）が学習用データベースＤＢ２からパラメタＤ５Ｅを読み込み、復号化部１３（ＮＮ）は、同じく学習用データベースＤＢ２からパラメタＤ５Ｄを読み込む（図８および図９のＳ２０１）。

続くステップＳ１０１～Ｓ１１１の内容は既に述べたので、重複した説明は割愛する。なお、異音強調サブシステムＤＳＳでは、訓練用デジタル入力信号データベースＤＢ１を使用しないことから、データの保存（例えばＳ１０２での保存）は、任意に、図４で説明した主記憶装置１００２または補助記憶装置１００３に行えばよい。

かくして、ステップＳ１０１～Ｓ１１１において、異音強調サブシステムＤＳＳは、対象装置３から検出された検査音の音信号Ｄ０についての特徴量ベクトルＤ１を生成し、対象装置３の装置型式ベクトルＤ４と共に符号化部１２のニューラルネットワーク（ＮＮ）へ入力される。なお、以下の記載においても、既に上述した処理についての重複説明は割愛する。

異音強調サブシステムＤＳＳにおいて、符号化部１２は、特徴量ベクトルＤ１と装置型式ベクトルＤ４とから検査音の符号ベクトルＤ２を生成し（適宜、図３、図７を参照）、生成された符号ベクトルＤ２を復号化部１３へ入力する（Ｓ２０２）。復号化部１３は、装置型式ベクトルＤ４と符号ベクトルＤ２とから復号ベクトルＤ３を生成し、生成された復号ベクトルＤ３を異常度算出部１６へ出力する（Ｓ２０３）。

続いて、異常度算出部１６は、入力された特徴量ベクトルＤ１と復号ベクトルＤ３とを比較して、その乖離の程度により、対象装置３の検査音の入力音信号Ｄ０の各時間周波数（各フレームおよび各周波数）の異常度を算出し、その計算結果を異常度Ｄ６として出力する（Ｓ２０４）。

特徴量ベクトルＤ１と復号ベクトルＤ３の各次元は、各時間周波数τ、ｆに対応するので、各時間周波数の異常度Ｄ６として、例えば、各時間周波数に対応する次元における、特徴量ベクトルＤ１の値と復号ベクトルＤ３の値との差の絶対値を、特徴量ベクトルＤ１の値の絶対値で割った値で定義される次式のａ（τ，ｆ）などを用いることができる。

上記式において、ａ（τ，ｆ）は、異常度Ｄ６を表す値であり、特徴量ベクトルＤ１と復号ベクトルＤ３との差分（誤差）が大きいほど大きく１に近づき、これらの差分（誤差）が小さいほど小さく０に近づく。

（変分オートエンコーダ型の構成の場合）
ここで、異音強調サブシステムＤＳＳにおける変分オートエンコーダ（Variational auto-encoder：ＶＡＥ）型の構成を開示する。

符号化部１２は、多層ニューラルネットワーク（ＮＮ）を備える。符号化部１２におけるＮＮの入力層は、特徴量ベクトルの次元数と装置型式ベクトルの次元数を足した個数の素子からなり、それらの素子が、特徴量ベクトルと装置型式ベクトルを連結したベクトルの各要素を受け付ける。

符号化部１２におけるＮＮの入力層は、非線形の活性化関数（例えばランプ関数）を使用し、適当な個数（例えば入力層の素子数と同数）の素子からなる第２層に連結されている。

そして、かかるＮＮの第２層も、非線形の活性化関数を使用し、適当な個数（例えば入力層の素子数と同数）の素子からなる第３層に連結されている。このように多層的に連結される第２層以降のことを中間層と呼ぶ。

符号化部１２におけるＮＮの中間層の最後は、符号ベクトルＤ２の次元数Ｑの２倍の２Ｑ個の素子からなる。それらの素子をＱ個ずつ半分に分け、素子の出力値を、μ＿１，μ＿２，…，μ＿Ｑ，σ＿１，σ＿２，…，σ＿Ｑと定義する。ここで、μ＿１，μ＿２，…，μ＿Ｑを各要素に持つ列ベクトルをμと定義し、σ＿１，σ＿２，…，σ＿Ｑを対角成分の各要素に持つ対角行列をΣと定義する。

そして、符号化部１２におけるＮＮの最終層（出力層）は、μを平均、Σを共分散行列とする多次元正規分布Ｎ（ｚ；μ，Σ）に従って、次元数Ｑの符号ベクトルｚを確率的に生成する。

復号化部１３は、多層のニューラルネットワーク（ＮＮ）を備える。復号化部１３におけるＮＮの入力層は、符号ベクトルＤ２の次元数Ｑと装置型式ベクトルＤ４の次元数を足した個数の素子からなり、それらの素子が、符号ベクトルＤ２と装置型式ベクトルＤ４を連結したベクトルの各要素を受け付ける。

また、復号化部１３におけるＮＮの入力層は、非線形の活性化関数（例えばランプ関数）を使用し、適当な個数（例えば入力層の素子数と同数）の素子からなる第２層に連結されている。

そして、かかるＮＮの第２層も、非線形の活性化関数を使用し、適当な個数（例えば入力層の素子数と同数）の素子からなる第３層に連結されている。このように、復号化部１３は、符号化部１２と同様に、多層的に連結される中間層を有する。

復号化部１３におけるＮＮの最終層（出力層）は、特徴量ベクトルＤ１の次元数と同じ個数の素子からなる。かかる最終層（出力層）の素子の出力値を復号ベクトルＤ３と呼ぶ。

学習部１５は、対象装置３の正常音についての特徴量ベクトルＤ１と符号ベクトルＤ２および復号ベクトルＤ３の関数で定義される損失関数を最小化するように、符号化部１２と復号化部１３のニューラルネットワーク（ＮＮ）のパラメタ（Ｄ５Ｅ、Ｄ５Ｄ）を更新する。学習部１５は、損失関数（評価関数）として、特徴量ベクトルＤ１と復号ベクトルＤ３との間の誤差の大きさ、および、符号ベクトルＤ２の分布と或る定めた分布との非類似度に或る正の定数βを乗算した値、の和を用いる。

特徴量ベクトルＤ１と復号ベクトルＤ３との間の誤差として、例えば、二乗誤差、Ｌ１ノルム、Ｌｐノルムなどを用いることができる。符号ベクトルＤ２の分布との非類似度を測定する分布として、例えばベクトル０を平均とする標準偏差１の等方正規分布や、ベクトル０を平均とする標準偏差１のラプラス分布、を用いることができる。分布の非類似度を測定する値として、カルバック・ライブラー（ＫＬ）ダイバージェンスに－１を乗算した値を用いてもよい。

損失関数の最小化は、例えばＳＧＤ、ＭｏｍｅｎｔｕｍＳＧＤ、ＡｄａＧｒａｄ、ＲＭＳｐｒｏｐ、ＡｄａＤｅｌｔａ、Ａｄａｍなどの公知の最適化アルゴリズムによって行うことができる。

異音強調部１７は、センサ端末２から供給される対象装置３の入力信号Ｄ０（検査音）に対して、上述した特徴量ベクトル抽出部１１の周波数領域信号計算部１０４と同様の処理（短時間フーリエ変換）により、周波数領域信号Ｘ（τ，ｆ）を計算し生成する。

そして、異音強調部１７は、生成された周波数領域信号Ｘ（τ，ｆ）に対して、パワースペクトログラム計算部１０５と同様の処理により、その１フレーム分の周波数成分を表すグラフであるパワースペクトログラムＰ（τ，ｆ）を計算し生成する。さらに、異音強調部１７は、生成されたパワースペクトログラムＰ（τ，ｆ）に、異音度ａ（τ，ｆ）を乗算する時間周波数マスク処理により、異音のパワースペクトログラムＡ（τ，ｆ）を推定する。そして、異音強調部１７は、推定された異音のパワースペクトログラムＡ（τ，ｆ）に、周波数領域信号Ｘ（τ，ｆ）の位相成分Φ（τ，ｆ）＝Ｘ（τ，ｆ）／｜Ｘ（τ，ｆ）｜を乗算し、異音の周波数領域信号を計算する。さらに、異音強調部１７は、異音の周波数領域信号に対して逆フーリエ変換と重畳加算を施すことにより、異音強調信号Ｄ７を生成し、生成した異音強調信号Ｄ７を出力する（Ｓ２０５）。なお、異音のパワースペクトログラムＡ（τ，ｆ）から異音強調信号Ｄ７を計算し生成する他の例として、公知のＧｒｉｆｆｉｎ－Ｌｉｍアルゴリズムなどを使用してもよい。

Ｓ２０５における異音強調信号Ｄ７の出力の態様としては、例えばＬＣＤなどの表示部の表示画面に、パワースペクトログラムあるいは振幅スペクトログラムを表示する。このとき、異常度算出部１６で算出された異常度（Ｄ６）を、時間×周波数の２次元画像として表示することができる。さらには、或る時刻ｔから過去の時間長Ｔ（たとえば１０秒間）の収録音（検査音）のすべての時間周波数にわたっての異常度Ｄ６の総和Ｂ（ｔ）を算出し、横軸を経過時間、縦軸を異常度として、Ｂ（ｔ）、Ｂ（ｔ＋１）、Ｂ（ｔ＋２）、．．．の時間推移をプロットした画面を表示してもよい。

このように、本実施例によれば、異常度算出部１６が入力音Ｄ０に基づく特徴量ベクトルＤ１の各時間周波数の異常度Ｄ６を算出し、各時間周波数の異常度Ｄ６に基づいて異音強調部１７が異音強調信号Ｄ７を生成、出力するので、正常音が時間変化する非定常音であっても異音を強調することができる。さらに、異音強調システム１は、正常音のみを含む学習データを用いて異音を強調するように訓練できるので、異音が未知であっても学習が可能である。

また、異音強調システム１では、装置型式ベクトルＤ４が符号化部１２と復号化部１３の両方に入力されるので、装置型式ベクトルＤ４の情報が符号ベクトルＤ２に残っていない場合でも、復号ベクトルＤ３を精度よく予測できる（図３等を参照）。したがって、異音強調システム１では、学習部１５が学習処理を反復するに従って（図５を参照）、符号ベクトルＤ２の圧縮効率が次第に向上し、ついには符号ベクトルＤ２から装置型式ベクトルＤ４の情報が消滅し、符号ベクトルＤ２が装置３の型式に依らない共通の分布となるように、符号化部１２のパラメタＤ５Ｅと復号化部１３のパラメタＤ５Ｄが学習される。本実施例では、符号ベクトルＤ２が装置３の型式に依らず共通の分布となり、装置型式間で共通する音の特徴を表現するためにニューラルネットワーク内の写像もできる限り共有されるため、学習処理で探索が必要なパラメタ空間のサイズを小さくすることができる。したがって、本実施例によれば、学習処理の最適化が進みやすくなる。

次に、図１０～図１４を参照して、本発明の第２実施例を説明する。なお、本実施例を含む以下の各実施例では、第１実施例との相違を中心に述べる。

図１０は、第２実施例の異音強調システム１Ａ（特徴量ベクトル抽出部１１Ａ）における特徴量ベクトルの生成方法を示す説明図である。図１１は、異音強調システム１Ａにおける学習サブシステムＬＳＳのブロック構成図である。図１２は、学習サブシステムＬＳＳの処理フローである。図１３は、異音強調サブシステムＤＳＳのブロック構成図である。図１４は、異音強調サブシステムＤＳＳの処理フローである。

図１１および図１３を参照すると、本実施例の異音強調システム１Ａの特徴量ベクトル抽出部１１Ａは、信号の流れ方向における特徴量時系列算出部１０８の下流に、中間特徴量ベクトル除外部１１１が追加されている（適宜、第１実施例の図５および図８を参照）。

この中間特徴量ベクトル除外部１１１は、図１０に模式的に示すように、特徴量時系列算出部１０８により算出され出力された特徴量ベクトルＤ１から、所定領域（例えば中間時刻）の複数フレームＤ１Ｍ（以下、中間特徴量ベクトルＤ１Ｍという）を取り除いた特徴量ベクトルＤ１Ｌ（以下、欠損後特徴量ベクトルＤ１Ｌ）を算出する。

図１０では、非制限的な例として、中間特徴量ベクトル除外部１１１が、（特徴量時系列算出部１０８により生成された）特徴量ベクトルＤ１の７フレーム分のデータのうち、時間軸上の中央を中心とする前後３フレーム分のデータを中間特徴量ベクトルＤ１Ｍとして抽出（すなわち特徴量ベクトルＤ１から除外）した例を示している。図１０に模式的に示す特徴量ベクトルＤ１において、横（矢印ｔ）方向に直交する縦方向が周波数領域（帯域）を表し、ハッチングが濃い周波数帯域は物理的な振幅（音量）が大きいことを表している。

なお、中間特徴量ベクトルＤ１Ｍとなる「所定領域」とは、図１０に示す態様すなわち、入力信号Ｄ０の特徴量ベクトルＤ１の時間軸上の中央を中心とする前後所定時間（フレーム）の領域に限られず、他の種々の態様とされ得る。例えば、入力信号Ｄ０の特徴量ベクトルＤ１の全体の時間長さのうち中央を中心とする前後所定割合の領域（フレーム）を「所定領域」として中間特徴量ベクトルＤ１Ｍを出力（抽出等）してもよい。あるいは、対象装置３の状態（例えば稼働音の音量や音波の成分など）が変化する場合において、当該状態変化直前の信号または状態変化直後の信号のいずれか一つを含む領域（フレーム）を「所定領域」として中間特徴量ベクトルＤ１Ｍを出力（抽出等）してもよい。

この第２実施例では、変分補間深層ニューラルネットワーク（ＶＩＤＮＮ）型の構成を開示する。上記の中間特徴量ベクトル除外部１１１は、入力された時系列の特徴量ベクトルＤ１から、その中間時刻の複数フレーム（連続するＫ個のフレーム）である中間特徴量ベクトルＤ１Ｍを取り除くことにより特徴量ベクトルＤ１を欠損させる（図１２のＳ１１７）。ここで、時系列の特徴量ベクトルＤ１から上記の中間特徴量ベクトルＤ１Ｍが取り除かれたもの（データ）を、「欠損後特徴量ベクトルＤ１Ｌ」と称する（図１０を参照）。

そして、中間特徴量ベクトル除外部１１１は、欠損後特徴量ベクトルＤ１Ｌを符号化部１２に出力し、除去（抽出）した中間特徴量ベクトルＤ１Ｍを学習部１５に出力する（図１０、図１１および図１３を参照）。

このときの一具体例では、中間特徴量ベクトル除外部１１１は、中間特徴量ベクトルＤ１Ｍとして、入力された時系列の特徴量ベクトルＤ１において厳密に中央のＫ個の隣接フレームを選択する。

あるいは、他の具体例では、中間特徴量ベクトル除外部１１１は、中間特徴量ベクトルＤ１Ｍとして、入力された時系列の特徴量ベクトルＤ１の中央から前後にずらしたＫ個の隣接フレームを選んでもよい。

さらに他の具体例では、中間特徴量ベクトル除外部１１１は、Ｋ個のフレームを一つのクラスタとした中間特徴量ベクトルＤ１Ｍとして、入力された時系列の特徴量ベクトルＤ１からＣ個（Ｃは２以上の整数）のクラスタを欠損させてもよい。この場合、入力されたＬフレームの特徴量ベクトルＤ１のうち、（Ｃ×Ｋ＝）ＣＫ個のフレームが欠損し、（Ｌ－ＣＫ）フレームが入力特徴量（すなわち欠損後特徴量ベクトルＤ１Ｌ）として残ることになる。

上記のいずれの方法を採るにせよ、中間特徴量ベクトルＤ１Ｍが分離（抽出）されることで欠損した後の前後のフレーム（図１０参照）を入力特徴量Ｄ１Ｌとして残すことで、たとえ正常音の特徴量ベクトルＤ１の時間変化が突発的であったとしても、中間特徴量ベクトルＤ１Ｍの予測を行う（予測値を算出する）構成とする。かかる予測は、基本的には、学習サブシステムＤＳＳによって学習した対象装置３の正常音の特徴量の分布を参照して行うことができる。

なお、本実施例において、中間特徴量ベクトル除外部１１１で欠損させる中間特徴量ベクトルＤ１Ｍを１フレーム分とする、言い換えるとＫ＝１に設定した場合であっても、異音強調の機能は十分に確保される。ただし、Ｋ＝１の場合、装置３の正常／異常にかかわらず、前後のフレームの情報だけで中間特徴量ベクトルＤ１Ｍを高精度に予測ないし補間できる可能性が高くなる。

それに対して、Ｋを２以上に設定する（欠損させる中間特徴量ベクトルＤ１Ｍを２フレーム以上に設定する）場合には、Ｋ＝１の場合に比べて、前後のフレームだけから中間特徴量ベクトルＤ１Ｍを予測することが難しくなる。このため、中間特徴量ベクトルＤ１Ｍの予測値は、装置３の正常／異常にかかわらず、学習した正常音（すなわち正常状態の装置３の稼働音）の特徴量の分布に強く依存することになる。

したがって、検査時（異音強調サブシステムの実行時）に仮に装置３が正常である場合、中間特徴量ベクトルＤ１Ｍの予測値と真値の両方が、学習した正常音の特徴量の分布に従うので、かかる予測値と真値の間の誤差は小さくなる。

それに対して、検査時に装置３が異常である場合（すなわち異音を含む稼働音が入力された場合）には、中間特徴量ベクトルＤ１Ｍの予測値と真値との誤差が大きくなる。すなわち、中間特徴量ベクトルＤ１Ｍの「予測値」は学習した正常音の特徴量の分布に従うのに対して、中間特徴量ベクトルＤ１Ｍの「真値」は、異音が含まれている場合には正常音の特徴量の分布に従わない（乖離する）ので、予測値と真値の間の誤差が大きくなるものである。

上述の理由により、Ｋ＝１の場合に比べてＫが２以上の場合の方が、中間特徴量ベクトルＤ１Ｍの予測値と真値との誤差（乖離）が大きくなることから、発生した誤差（乖離）部分の周波数領域を異音として特定することで、高精度に異音を抽出ないし強調することができる。

付言すると、Ｋ＝１の場合に比べてＫが２以上の場合の方が、例えば装置３が非定常的（または非周期的）に異音を発している事例において、中間特徴量ベクトル除外部１１１が抽出した中間特徴量ベクトルＤ１Ｍ中に異音が含まれる可能性が高くなる。このため、中間特徴量ベクトルＤ１Ｍの予測値および真値間における誤差（乖離）が大きくなり、結果として、異音強調の精度が高くなる。
上述したような理由から、中間特徴量ベクトル除外部１１１で欠損させる中間特徴量ベクトルＤ１Ｍのフレーム数Ｋは、２以上に設定することが望ましい。

図１１に示す本実施例の符号化部１２Ａは、多層のニューラルネットワーク（ＮＮ）を備える。符号化部１２ＡにおけるＮＮの入力層は、欠損後特徴量ベクトルＤ１Ｌの次元数と装置型式ベクトルＤ４の次元数を足した個数の素子からなり、それらの素子が、欠損後特徴量ベクトルＤ１Ｌと装置型式ベクトルＤ４を連結したベクトルの各要素を受け付ける。

符号化部１２ＡにおけるＮＮの入力層は、非線形の活性化関数（例えばランプ関数）を使用し、適当な個数（例えば入力層の素子数と同数）の素子からなる第２層に連結されている。そして、第２層も、非線形の活性化関数を使用し適当な個数（例えば入力層の素子数と同数）の素子からなる第３層に連結されている。このように多層的に連結される第２層以降のことを中間層と呼ぶ。符号化部１２ＡにおけるＮＮの中間層の最後は、符号ベクトルＤ２の次元数Ｑの２倍の２Ｑ個の素子からなる。それらの素子をＱ個ずつ半分に分け、素子の出力値を、μ＿１，μ＿２，…，μ＿Ｑ，σ＿１，σ＿２，…，σ＿Ｑと定義する。ここで、μ＿１，μ＿２，…，μ＿Ｑを各要素に持つ列ベクトルをμと定義し、σ＿１，σ＿２，…，σ＿Ｑを対角成分の各要素に持つ対角行列をΣと定義する。そして、符号化部１２ＡにおけるＮＮの最終層（出力層）は、μを平均、Σを共分散行列とする多次元正規分布Ｎ（ｚ；μ，Σ）に従って、次元数Ｑの符号ベクトルｚを確率的に生成する。

本実施例の復号化部１３Ａは、多層ニューラルネットワーク（ＮＮ）を備える。復号化部１３ＡにおけるＮＮの入力層は、符号ベクトルＤ２の次元数Ｑと装置型式ベクトルＤ４の次元数を足した個数の素子からなり、それらの素子が、符号ベクトルＤ２と装置型式ベクトルＤ４を連結したベクトルの各要素を受け付ける。

また、復号化部１３ＡにおけるＮＮの入力層は、非線形の活性化関数（例えばランプ関数）を使用し、適当な個数（例えば入力層の素子数と同数）の素子からなる第２層に連結されている。

そして、かかるＮＮの第２層も、非線形の活性化関数を使用し、適当な個数（例えば入力層の素子数と同数）の素子からなる第３層に連結されている。このように、復号化部１３Ａは、符号化部１２Ａと同様に、多層的に連結される中間層を有する。

復号化部１３ＡにおけるＮＮの最終層（出力層）は、中間特徴量ベクトルＤ１Ｍの次元数と同じ個数の素子からなる。かかる最終層（出力層）の素子の出力値を復号ベクトルＤ３と呼ぶ。

本実施例の学習部１５Ａは、中間特徴量ベクトルＤ１Ｍと符号ベクトルＤ２および復号ベクトルＤ３の関数で定義される損失関数を最小化するように、符号化部１２ＡのニューラルネットワークのパラメタＤ５Ｅと復号化部１３ＡのニューラルネットワークのパラメタＤ５Ｄとを更新する。学習部１５Ａは、損失関数（評価関数）として、中間特徴量ベクトルＤ１Ｍと復号ベクトルＤ３の間の誤差の大きさ、および、符号ベクトルＤ２の分布と或る定めた分布との非類似度に或る正の定数βを乗算した値、の和を用いる。

中間特徴量ベクトルＤ１Ｍと復号ベクトルＤ３との間の誤差として、例えば、二乗誤差、Ｌ１ノルム、Ｌｐノルムなどを用いることができる。符号ベクトルＤ２の分布との非類似度を測定する分布として、例えばベクトル０を平均とする標準偏差１の等方正規分布や、ベクトル０を平均とする標準偏差１のラプラス分布、を用いることができる。また、分布の非類似度として、カルバック・ライブラー（ＫＬ）ダイバージェンスに－１を乗算した値を用いることができる。

損失関数の最小化は、例えば、ＳＧＤ、ＭｏｍｅｎｔｕｍＳＧＤ、ＡｄａＧｒａｄ、ＲＭＳｐｒｏｐ、ＡｄａＤｅｌｔａ、Ａｄａｍなどの公知の最適化アルゴリズムによって行うことができる。

図１２に示す本実施例における学習サブシステムＬＳＳの処理フローでは、第１実施例の図６と比較して分かるように、特徴量ベクトル抽出部１１Ａが特徴量ベクトルＤ１を算出した処理（Ｓ１１０）の後にＳ１１７の処理が実行される。

かかるＳ１１７において、中間特徴量ベクトル除外部１１１は、特徴量ベクトルＤ１から中間特徴量ベクトルＤ１Ｍを除外して欠損後特徴量ベクトルＤ１Ｌを生成し、欠損後特徴量ベクトルＤ１Ｌと中間特徴量ベクトルＤ１Ｍとを出力する。ここで、欠損後特徴量ベクトルＤ１Ｌは符号化部１２Ａに入力され、中間特徴量ベクトルＤ１Ｍは学習部１５Ａに入力される（図１１を参照）。

また、図１３および図１４に示す異音強調サブシステムＤＳＳのブロック構成および処理フローでは、異常度算出部１６Ａに対し、復号化部１３Ａから出力される復号ベクトルＤ３（Ｓ２０３を参照）と、中間特徴量ベクトル除外部１１１から出力される中間特徴量ベクトルＤ１Ｍ（Ｓ１１７を参照）と、が入力される。

そして、異常度算出部１６Ａは、入力された中間特徴量ベクトルＤ１Ｍと、欠損後特徴量ベクトルＤ１Ｌに基づく復号ベクトルＤ３と、に基づいて、異常度Ｄ６を算出する。

ここで、中間特徴量ベクトルＤ１Ｍと欠損後特徴量ベクトルＤ１Ｌの復号ベクトルＤ３の各次元は、各時間周波数τ、ｆに対応する。
したがって、異常度算出部１６Ａは、各時間周波数の異常度Ｄ６として、例えば、各時間周波数に対応する次元における、中間特徴量ベクトルＤ１Ｍの値と復号ベクトルＤ３の値との差の絶対値を、中間特徴量ベクトルＤ１Ｍの値の絶対値で割った値で定義される次式のａ（τ，ｆ）などを用いることができる。

上式中の異常度ａ（τ，ｆ）は、中間特徴量ベクトルＤ１Ｍと復号ベクトルＤ３との誤差が大きいほど大きく１に近づき、誤差が小さいほど小さく０に近づく。

このように構成される本実施例も、第１実施例と同様の作用効果を奏する。さらに、本実施例では、特徴量ベクトル（特徴量時系列）Ｄ１から中間特徴量ベクトル（中間特徴量時系列）Ｄ１Ｍを除外して欠損後特徴量ベクトル（欠損後特徴量時系列）Ｄ１Ｌを生成し、除外された中間特徴量時系列（中間特徴量ベクトル）Ｄ１Ｍを補間する。したがって、本実施例によれば、音の時間変化が大きい装置３に対しても、装置型式あたりの必要な学習データ数が少なくてすみ、かつ、複数の装置型式について高精度に異音を強調することができる。

次に、図１５～図１７を参照して、本発明の第３実施例を説明する。ここでも、第１実施例との相違を中心に述べる。

上述した実施例１および実施例２では、オートエンコーダ系のＮＮを使用し、概して、時間周波数（各フレームと各周波数ビンとで定義される２次元の離散座標）ごとに割り当てられた「特徴量ベクトルＤ１と復号ベクトルＤ３」との一致度に基づいて、その時間周波数に割り当てられた「異常度」を算出する構成とした。かかるオートエンコーダ型のＮＮでは、復号ベクトルＤ３として、いわば入力信号Ｄ０および特徴量ベクトルＤ１を「似せた信号」が出力される。

これに対し、以下に説明する実施例３のＮＮでは、復号ベクトルＤ３を生成せず、代わりに、（One-hot vectorに変換された形の）分類ラベルを生成する。言い換えると、第３実施例では、信号を入力としてラベルが出力される。
本実施例は、対象装置３と同種の多数の型式の装置の音が学習データとして得られる場合に、高精度に異音を強調することを可能とする。

図１５は、学習サブシステムＬＳＳのブロック構成図である。図１６は、異音強調サブシステムＤＳＳのブロック構成図である。図１７は、異音強調サブシステムＤＳＳの処理フローである。第１実施例との相違点を容易に理解すべく、適宜、図１～図９等を参照されたい。

図５と比較して分かるように、図１５に示す実施例３の学習サブシステムＬＳＳは、上述した符号化部１２および復号化部１３に代えて、型式同定部１５０１を備える。言い換えると、実施例３の学習サブシステムＬＳＳでは、上述した符号ベクトルＤ２および複合ベクトルＤ３の生成を行わない。また、実施例３の学習サブシステムＬＳＳでは、学習部１５０２は、符号化部１２および復号化部１３が使用するパラメタＤ５Ｅ、Ｄ５Ｄに代えて、型式同定部１５０１が使用するパラメタＤ５Ｆを学習し生成する。

型式同定部１５０１は、特徴量ベクトル抽出部１１からの特徴量ベクトルＤ１と、学習部１５０２からのパラメタＤ５Ｆを入力として、型式同定結果Ｄ８を出力する。この例では、型式同定結果Ｄ８は、ワンホット（One-hot）ベクトルである。また、図１５に示すように、本実施例の学習サブシステムＬＳＳにおいて、装置型式ベクトル生成部１４は、生成した装置型式ベクトルＤ４を学習部１５０２に供給する。

図１５に示す本実施例の学習サブシステムＬＳＳの型式同定部１５０１は、多層のニューラルネットワーク（ＮＮ）である。型式同定部１５０１におけるＮＮの第１層（入力層）は、特徴量ベクトルＤ１の次元数の素子からなり、非線形の活性化関数（例えばランプ関数）を使用し、適当な個数（例えば入力層の素子数と同数）の素子からなる第２層に連結されている。かかる構成により、入力されたスカラー値（パラメタＤ１）を第１層の非線形関数を用いて演算し、かかる演算結果（スカラー値）が第２層に伝達（出力）する。

型式同定部１５０１におけるＮＮの第２層も、非線形の活性化関数を使用し、適当な個数（例えば入力層の素子数と同数）の素子からなる第３層に連結され、同様に、入力されたスカラー値を第２層の非線形関数を用いて演算し、かかる演算結果（スカラー値）を第３層に伝達（出力）する。このように多層的に連結される第２層以降のことを中間層と呼ぶ。なお、これら各層は、畳み込み層やプーリング層であってもよい。

型式同定部１５０１におけるＮＮの中間層の最後は、ソフトマックス関数を使用し、最終層（出力層）は、対象装置３の型式の個数と同数の素子からなる。型式同定部１５０１のニューラルネットワークの素子の出力値を、型式同定結果Ｄ８と定義する。

学習部１５０２は、入力された装置型式ベクトルＤ４と型式同定結果Ｄ８の関数として定義される損失関数を最小化するように、型式同定部１５０１のニューラルネットワークのパラメタＤ５Ｆを更新（繰り返し学習）し、更新値（学習値）としてのパラメタＤ５Ｆを型式同定部１５０１に出力する。

一具体例では、損失関数（評価関数）として、装置型式ベクトルＤ４と型式同定結果Ｄ８のバイナリークロスエントロピーないしカテゴリカルクロスエントロピーを用いる。以下、この損失関数（評価関数）の機能を概略する。

対象装置３を構成する装置のうち、学習対象となる１台の装置の型式がＪ番目の型式であると仮定する。ここで、入力信号Ｄ０が正常（正常音）であれば、型式同定結果Ｄ８（One-hotベクトル）のＪ番目の要素（桁）が１に近づき、それ以外の要素（桁）が０に近づくように、学習部１５０２によってパラメタＤ５Ｆが学習される。一方、もし入力信号Ｄ０が異常な装置から発生した音である場合（すなわち異音が含まれている場合）、学習部１５０２の学習結果として、学習型式同定結果Ｄ８（One-hotベクトル）のＪ番目の要素（桁）は、入力信号Ｄ０が正常の場合ほど１には近づかないという性質がある。対象装置３が或る同種の装置の中のどの型式であるかを分類するようにパラメタＤ５Ｆを最適化するので、パラメタＤ５Ｆはおのずと、環境騒音の変化を無視して、対象装置３の型式間の違いに注目するようなニューラルネットワークのパラメタに収束する。それにより、環境騒音の変化に対して頑健に、対象装置３の音だけに注目して高精度に異常度算出、異音検知、異音抽出ができるという効果がある。また、上述した損失関数（評価関数）を用いた場合のかかる性質は、対象装置３と同種の多数の型式の装置の音が学習データとして得られる場合に顕著である。

損失関数の値の最小化は、例えば、ＳＧＤ、ＭｏｍｅｎｔｕｍＳＧＤ、ＡｄａＧｒａｄ、ＲＭＳｐｒｏｐ、ＡｄａＤｅｌｔａ、Ａｄａｍなどの公知の最適化アルゴリズムを用いて行うことができる。

かくして、学習部１５０２は、繰り返しの学習により得られた型式同定部１５０１のニューラルネットワークのパラメタＤ５（Ｄ５Ｆ）を、学習用データベースＤＢ２に格納（保存）する。

図１６は、第３実施例における異音強調サブシステムＤＳＳのブロック構成図であり、図１７は、第３実施例の異音強調サブシステムＤＳＳの処理フローである。

図８に示す第１実施例と比較して分かるように、図１６に示す第３実施例の異音強調サブシステムＤＳＳは、符号化部１２および復号化部１３の代わりに型式同定部１５０１を用いることから、以下の点で相違する。

すなわち、第３実施例の異音強調サブシステムＤＳＳは、特徴量ベクトル抽出部１１から出力された特徴量ベクトルＤ１が上述した型式同定部１５０１に出力され、型式同定部１５０１により算出された型式同定結果Ｄ８（One-hotベクトル）が異常度算出部（１６０１）に出力される点、および装置型式ベクトル生成部１４からの装置型式ベクトルＤ４が異常度算出部（１６０１）に出力される点で、第１実施例とは異なる。

そして、図１７に示すように（適宜、図９を参照）、第３実施例の異音強調サブシステムＤＳＳでは、第１実施例のＳ２０１に代わる処理として、型式同定部１５０１のＮＮが、学習用データベースＤＢ２からパラメタＤ５Ｆを読み込む（Ｓ１７０３）。続くＳ１０１からＳ１１０までの処理は図９で上述した第１実施例と同様であり、説明を省略する。

続いて、第３実施例の学習サブシステムＬＳＳでは、装置型式ベクトル生成部１４により、装置型式ベクトルＤ４が生成され、生成された装置型式ベクトルＤ４（One-hotベクトル）が、異常度算出部１６０１へ入力される（Ｓ１１１）。また、Ｓ１７０１において、異常度算出部１６０１は、型式同定部１５０１から出力される型式同定結果Ｄ８（One-hotベクトル）を受け取る。

そして、異常度算出部１６０１は、入力した装置型式ベクトルＤ４および型式同定結果Ｄ８（すなわち、２つのOne-hotベクトル）に基づいて、異常度Ｄ６を算出および出力する（Ｓ１７０２）。

ここで、One-hotベクトルである装置型式ベクトルＤ４の要素（桁）の中で唯一の「１」であるインデックスをＪとし、型式同定結果Ｄ８のＪ番目の要素の値をｚとする。このとき、時間周波数τ，ｆの異常度ａ（τ，ｆ）は、次式で表すことができる。

続くＳ２０５において、異音強調部１７は、実施例１や実施例２と同様に、異常度Ｄ６（上式におけるａ（τ，ｆ））を乗算する時間周波数マスク処理により、異音強調信号Ｄ７を生成、出力する。

このように構成される第３実施例も、第１実施例と同様の作用効果を奏する。さらに、第３実施例では、対象装置３と同種の多数の型式の装置の音が学習データとして得られる場合、高精度に異音を抽出ないし強調することができる。

次に、本発明の第４実施例を、第１実施例との相違を中心に説明する。本実施例は、センサ端末２が複数のマイクロホンからなるマイクロホンアレーである場合に、歪みを小さく抑えて高精度に異音を強調することを可能とする。

本実施例においては、まず、センサ端末２のマイクロホンアレーを構成する各マイクロホンのチャンネルの入力信号に対して独立に、第１実施例、第２実施例、あるいは、第３実施例で上述したように、異常度算出部（１６、１６Ａ、１６０１）によって異常度（Ｄ６）の算出を行う。この算出処理により、各チャンネルおよび各時間周波数τ、ｆに対する異常度（Ｄ６）が算出される。次に、異常度算出部（１６等）は、この異常度（Ｄ６）を全チャンネルにわたって平均することで、各時間周波数τ、ｆに対する異常度（Ｄ６）を計算する。ここで、全チャンネルの情報を統合する方法は、必ずしも算術平均である必要はなく、中央値、最大値、最小値などを用いてもよい。

このように、異常度算出部が、全チャンネルの異常度（すなわち複数の収音部により収音された対象装置３の検査音に対する各々の異常度）を統合して異常度（Ｄ６）を算出することで、チャンネルごとのぶれに対して頑健に異常度を算出でき、さらに、チャンネルごとのぶれに対して頑健に異音を抽出ないし強調できる効果が得られる。

また、それぞれのマイクロホンのチャンネルの入力信号に対する異常度算出で用いられるモデルのモデルパラメタとして、チャンネル間で共通に学習し、学習用データベースＤＢ２に保存したパラメタ（上述したパラメタＤ５Ｅ、Ｄ５Ｄ、Ｄ５Ｆ）を用いてもよい。この場合、学習サブシステムＬＳＳの実行時にチャンネル数の分だけ訓練用のデータを増やすことができるので、異常度（Ｄ６）算出の精度が高いネットワークパラメタの学習が実現できる。また、この場合、異音強調サブシステムＤＳＳの実行時においても、チャンネルごとのぶれに対して頑健に異常度（Ｄ６）を算出でき、さらに、チャンネルごとのぶれに対して頑健に異音を強調できる効果が得られる。

本実施例では、異音強調部１７として、ビームフォーマを使用するとよい。このビームフォーマは、複数チャンネルの入力信号に対して、異音を強調し、異音以外を抑圧するような空間的フィルタを乗算することによって実行される。異音強調部１７のかかるビームフォーマのより具体的な例として、Minimum Variance Distortion-less Response（ＭＶＤＲ）ビームフォーマやGeneralized Eigen Vector（ＧＥＶ）ビームフォーマなどの公知のビームフォーマを用いることができる。

上記のうち、ＭＶＤＲを使用する場合、異音強調部１７は、まず、以下のように、異音ステアリングベクトルｖ（ｆ）、および、異音以外の空間相関行列Ｒ（ｆ）を計算する。

異音強調部１７は、複数チャンネルの入力信号の各チャンネルｍに対し、パワースペクトログラムＰ＿ｍ（τ，ｆ）に異常度ａ（τ，ｆ）を乗算して、異音のパワースペクトログラムＡ＿ｍ（τ，ｆ）を算出する。そして、異音強調部１７は、かかる異音のパワースペクトログラムＡ＿ｍ（τ，ｆ）に、さらに位相成分Φ＿ｍ（τ，ｆ）を乗算して、異音の周波数領域信号Ｂ＿ｍ（τ，ｆ）を算出する。

また同様に、異音強調部１７は、パワースペクトログラムＰ＿ｍ（τ，ｆ）に１－ａ（τ，ｆ）を乗算して、異音以外のパワースペクトログラムＣ＿ｍ（τ，ｆ）を算出する。そして、異音強調部１７は、かかる異音以外のパワースペクトログラムＣ＿ｍ（τ，ｆ）に、さらに位相成分Φ＿ｍ（τ，ｆ）を乗算して、異音以外の周波数領域信号Ｄ＿ｍ（τ，ｆ）を算出する。

上記のうち、異音ステアリングベクトルｖ（ｆ）は、次式のように計算される。ただし、Ｔはフレーム数である。

また、異音ステアリングベクトルｖ（ｆ）として、次式の異音空間相関行列Ｑ（ｆ）の第一固有ベクトルを用いてもよい。この場合、背景雑音への耐性が高いという利点がある。

異音以外の空間相関行列Ｒ（ｆ）は、次式のように計算される。

ＭＶＤＲビームフォーマの空間的フィルタｗ（ｆ）は、次式に従って計算される。

ＧＥＶビームフォーマの空間的フィルタｗ（ｆ）は、次式に従って計算される。

複数チャンネル入力信号の時間周波数領域信号をｘ（τ，ｆ）＝（ｘ＿１（τ，ｆ），．．．，ｘ＿Ｍ（τ，ｆ））＾Ｔとすると、異音強調信号の時間周波数領域信号ｙ（τ，ｆ）は、次式に従って計算される。

さらに、異音強調部１７は、異音強調信号の周波数領域信号ｙ（τ，ｆ）に対して逆フーリエ変換と重畳加算を施すことにより、異音強調信号Ｄ７を生成し、生成した異音強調信号Ｄ７を出力する（Ｓ２０５）。なお、異音強調信号の周波数領域信号ｙ（τ，ｆ）から異音強調信号Ｄ７を計算し生成する他の例として、公知のＧｒｉｆｆｉｎ－Ｌｉｍアルゴリズムなどを使用してもよい。

総じて、異音強調部１７のビームフォーマは、時間周波数ごとの異常度に基づいて定められる時間周波数マスクに基づくフィルタ係数を用いてマイクロホンアレーの収音方向（指向性）を制御することにより、対象装置３の検査音から、実際に装置３から発生した音の成分の信号を抽出ないし強調する。

このように構成される第４実施例も、第１実施例と同様の作用効果を奏する。さらに、本実施例では、歪みの原因となる非線形フィルタではなく、線形フィルタであるビームフォーミングによって異音を抽出ないし強調するので、歪みを小さく抑えて高精度に異音を抽出ないし強調することを可能とする。

次に、本発明の第５実施例を、第１実施例との相違を中心に述べる。本実施例は、実施例４と同様にセンサ端末２が複数のマイクロホンからなるマイクロホンアレーである場合に、異音の方向を推定することを可能とする。概して、第５実施例では、時間周波数ごとの異常度に基づいて計算される（定められる）時間周波数マスクに基づいて、対象装置３から発せられる異音の方向を推定する方向推定部を備える構成とする。

具体的には、第５実施例では、異音強調サブシステムＤＳＳにおいて、あらかじめ各方向θに対するステアリングベクトルｋ（θ，φ，ｆ）を計算しておく。ステアリングベクトルｋのマイクロホンｍに対応する要素ｋ＿ｍ（θ，φ，ｆ）は、次式に従って計算される。

ただし、ｃは音速であり、ｕは音源方向を表す次式の単位ベクトルである。

また、ｐ＿ｍは、マイクロホンの３次元位置を表す３次元ベクトルである。
ステアリングベクトルｋ（θ，φ，ｆ）と、複数チャンネル入力信号の時間周波数領域信号をｘ（τ，ｆ）＝（ｘ＿１（ｆ），．．．，ｘ＿Ｍ（ｆ））＾Ｔとの内積の絶対値は、方向θ，φから到来する周波数ｆの成分のパワーの近似とみなせる。この値の周波数ｆにわたる総和を計算すると、入力信号に対する方向ヒストグラムが得られる。

また、ステアリングベクトルｋ（θ，φ，ｆ）と、実施例４の異音の周波数領域信号Ｂ＿ｍ（τ，ｆ）をチャンネル方向に並べた複数チャンネル異音信号Ｂ（τ，ｆ）＝（Ｂ＿１（τ，ｆ），．．．，Ｂ＿Ｍ（τ，ｆ））＾Ｔとの内積の絶対値は、方向θ，φから到来する周波数ｆの異音成分のパワーの近似とみなせる。この値の周波数ｆにわたる総和を計算すると、異音強調信号に対する方向ヒストグラムが得られる。

図１８は、入力信号Ｄ０および異音強調部１７の出力した異音強調信号Ｄ７に基づく波形をグラフ化して、ＬＣＤなどの出力部１００５の表示画面中に対比して表示した状態を示す図である。

図１８に示すグラフは、縦軸が音量（Ｐｏｗｅｒ[ｄｂ]）、横軸が基準位置ないし方向（設置されたマイクロホンの収音方向）に対する角度（ｄｅｇ）を示す。また、異音強調信号Ｄ７に基づくグラフの一具体例として、水平方向の方向ヒストグラムにより、異音の到来方向（Direction of arrival）を表示した例を示す。

図１８中、点線Ｈ１は、収音された入力信号Ｄ０の波形全体（全ての周波数領域）の方向ヒストグラムであり、異音かどうかと無関係に、単純に音が大きく聞こえる方向を示している。この例では、基準位置から約２０度の方向から到来する音が最大音量であり、約１５０度の方向から到来する音が最小音量であることが分かる。

一方、図１８中の実線Ｈ２は、入力信号Ｄ０から抽出された異音（一部の周波数帯）の方向ヒストグラムである。図１８に示す例では、異音として抽出（強調）された一部の周波数帯の方向ヒストグラムＨ２は、入力信号Ｄ０の方向ヒストグラムＨ１とは異なり、基準位置から約９０度の方向から到来する音が最大音量であることが分かる。したがって、対象装置３のうち、基準位置から約９０度の方向に配置された装置または装置内部品が異音を発していること、当該装置または装置内部品が検査ないし故障予測の対象として特定することができる。

このように、収音された入力信号Ｄ０の音量の方向ヒストグラムＨ１と、入力信号Ｄ０から抽出された異音の音量の方向ヒストグラムＨ２の両方を表示することにより、どの音が異音なのかをユーザが判断しやすいとの効果が得られる。

なお、簡明のため、図１８では、対象装置３のうちの一つの装置が異音を発していることを前提として説明したが、対象装置３のうちの二つ以上の装置（または２か所以上の部品）が異音を発することもあり得る。そのような場合、同一の画面中に、他の周波数帯の異音の方向ヒストグラムＨ３、Ｈ４・・・として、同時に表示することができる。
また、図１８に示すグラフはあくまで一例であり、他にも様々な形態で表示され得ることは勿論である。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。

例えば、上述した種々の異音強調システムおよび異音強調装置（本発明の異常信号抽出装置）は、ネットワーク上のクラウド（分散処理システム）として構成されることができる。この場合、複数のコンピュータが協働的に動作（連携）して、図１等に示す各ブロックの機能を遂行し、あるいは上述したフローチャート（図６、図９など）の処理を行う。

また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１,１Ａ異音強調システム（異常信号抽出装置）
３対象装置
１１,１１Ａ特徴量ベクトル抽出部
１２、１２Ａ符号化部
１３、１３Ａ復号化部
１４装置型式ベクトル生成部
１５、１５Ａ、１５０２学習部
１６、１６Ａ、１６０１異常度算出部（異常度推定部）
１７異音強調部（異常信号抽出部）
１００異音強調装置（異常信号抽出装置）
１０１入力音取得部
１０２フレーム分割部
１０３窓関数乗算部
１０４周波数領域信号計算部
１０５パワースペクトログラム計算部
１０７瞬時特徴量計算部
１０８特徴量時系列算出部
１５０１型式同定部
Ｃ１反復回数
Ｄ０入力信号
Ｄ１時間周波数のデータ（特徴量ベクトル）
Ｄ１Ｍ中間特徴量ベクトル
Ｄ２符号ベクトル
Ｄ３復号ベクトル
Ｄ４装置型式ベクトル
Ｄ５（Ｄ５Ｅ、Ｄ５Ｄ、Ｄ５Ｆ）ＮＮのパラメタ
Ｄ６時間周波数ごとの異常度
Ｄ７異音強調信号
ＮＮニューラルネットワーク

Claims

検査時に対象装置から発せられる振動の信号を時間周波数ごとに分割した時間周波数領域データにおける、時間周波数ごとの異常度を推定する異常度推定部と、
推定された前記異常度に基づいて、前記振動の信号から異常部分の信号を抽出する異常信号抽出部と、
を備え、
前記異常信号抽出部は、前記時間周波数ごとの前記異常度に基づいて規定される時間周波数マスクを用いたフィルタリングにより、前記異常部分の信号を抽出する、
異常信号抽出装置。
請求項１に記載の異常信号抽出装置において、
前記異常度推定部は、前記対象装置から発せられる正常な前記振動の信号を学習して生成された学習済みデータに基づいて、前記検査時に前記対象装置から発せられる振動の信号に対する前記異常度を推定する、
異常信号抽出装置。
請求項１に記載の異常信号抽出装置において、
前記振動は音であり、
前記異常信号抽出部は、前記検査時に前記対象装置から発せられた音の収音方向の指向性を制御するビームフォーマを備え、
前記ビームフォーマは、前記時間周波数ごとの異常度に基づいて定められる時間周波数マスクに基づくフィルタ係数を用いて前記指向性を制御することにより、前記異常部分の信号を抽出する、
異常信号抽出装置。
請求項３に記載の異常信号抽出装置において、
前記異常度推定部は、複数の収音部により収音された前記音に対する各々の異常度を統合することにより、前記時間周波数毎の異常度を推定する、
異常信号抽出装置。
請求項１に記載の異常信号抽出装置において、
前記時間周波数ごとの異常度に基づいて定められる時間周波数マスクに基づいて、前記対象装置から発せられる異音の方向を推定する方向推定部を備える、
異常信号抽出装置。
請求項２に記載の異常信号抽出装置において、
前記時間周波数領域データの特徴量ベクトルを抽出する特徴量ベクトル抽出部と、
前記特徴量ベクトルを符号化して符号化ベクトルを生成する符号化部と、
前記特徴量ベクトルを復元するように前記符号化ベクトルを復号化する復号化部と、を備え、
前記学習済みデータは、前記正常な前記振動の信号の学習によって生成された、前記符号化部および前記復号化部が使用するパラメタである、
異常信号抽出装置。
請求項６に記載の異常信号抽出装置において、
前記パラメタは、異常音が含まれる前記振動の信号についての前記特徴量ベクトルが前記符号化部および前記復号化部によって符号化および復号化された場合に、生成された復号ベクトルを当該特徴量ベクトルと乖離させるパラメタであり、
前記異常度推定部は、前記復号ベクトルと前記特徴量ベクトルとの乖離の程度を時間周波数毎に表す異常度を推定する、
異常信号抽出装置。
検査時に対象装置から発せられる振動の信号を時間周波数ごとに分割した時間周波数領域データにおける、時間周波数ごとの異常度を推定する異常度推定部と、
推定された前記異常度に基づいて、前記振動の信号から異常部分の信号を抽出する異常信号抽出部と、
前記時間周波数領域データの特徴量ベクトルを抽出する特徴量ベクトル抽出部と、
前記特徴量ベクトルを符号化して符号化ベクトルを生成する符号化部と、
前記特徴量ベクトルを復元するように前記符号化ベクトルを復号化する復号化部と、
を備え、
前記異常度推定部は、前記対象装置から発せられる正常な前記振動の信号を学習して生成された学習済みデータに基づいて、前記検査時に前記対象装置から発せられる振動の信号に対する前記異常度を推定し、
前記学習済みデータは、前記正常な前記振動の信号の学習によって生成された、前記符号化部および前記復号化部が使用するパラメタである、
異常信号抽出装置。