JP2021001964A

JP2021001964A - 異常音検知システム、擬似音生成システム、および擬似音生成方法

Info

Publication number: JP2021001964A
Application number: JP2019115257A
Authority: JP
Inventors: 洋平川口; Yohei Kawaguchi
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2021-01-07
Anticipated expiration: 2039-06-21
Also published as: US20200402527A1; CN112116924B; CN112116924A; JP7385381B2; US11164594B2

Abstract

【課題】送信できる通信量が微小であるという制約下で、どのような音だったかを確かめることができる。【解決手段】端末で入力された音の各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組を計算する統計量計算部と、端末からサーバに統計量の組を送信する統計量送信部と、サーバで統計量の組を受信する統計量受信部と、サーバで受信した統計量の組に基づいて周期定常的な擬似音を再生する擬似音再生部を有する擬似音生成機能を備えた異常音検知システムを構成する。【選択図】図２

Description

本発明は、異常音検知システム、擬似音生成システム、および擬似音生成方法に関する。

機械、設備の異常や故障予兆などの状態は、音に現れることが多い。そこで、設備保守などの目的で、設備の状態を把握するために設備の稼動音に基づく診断は重要である。外部電源供給が困難な環境では、各設備に設置した、マイクを備えた端末が、長期間にわたる電池駆動で間欠的に録音と異常検知を行い、異常有無の結果を遠隔地のサーバに送信するという構成をとる。しかし、異常有無だけをサーバ側に報告、蓄積しても、各時刻にどのような音が発生していたかを事後にユーザが聴いて確かめることができない。

長期間にわたる電池駆動で送信できる通信量は非常に微小であるため、生の音データや通常の圧縮形式の音データを送ることもできない。例えば、音を通信する方法として、特開２０１２−１３８８２６号公報（特許文献１）がある。この公報には、「外部周辺機器から入力された入力信号を受けるビデオ受信部、ビデオ受信部から出力される映像信号を受けて画像圧縮信号を形成するビデオエンコーダ、ビデオ受信部から出力される音声信号を受けて音声圧縮信号を形成するオーディオエンコーダ、ビデオ受信部から出力される７４．２５ＭＨｚのビデオクロックを受けて第１ＳＴＣカウンタ値を形成する第１ＳＴＣカウンタ値生成部、第１ＳＴＣカウンタ値を受けてＰＣＲを生成するＰＣＲ生成部とを有する。第１ＳＴＣカウンタ値生成部は、ビデオクロックの１１サイクル毎に４回のインクリメントを行うカウンタ動作を行ってＳＴＣカウンタ値を生成する。」と記載されている。

特開２０１２−１３８８２６号公報

前記のとおり、電池駆動で送信できる通信量は非常に限られるため、生の音データや通常の圧縮形式の音データを送ることもできない。特許文献１で開示された発明には、「音声圧縮信号を形成するオーディオエンコーダ」と記載されているが、長期間にわたる電池駆動には用いることができない。一般的なオーディオエンコーダは、高速フーリエ変換（FFT）や離散コサイン変換（DCT）を行い、周波数ごとに異なる量子化ビット数で量子化することにより、圧縮する。しかし、その送信データの通信量は、電池駆動で送信できる通信量を超過せざるをえない。

そこで、本発明は、送信できる音データの通信量が微小であっても、異常音等の対象の音を判定することにある。

本発明の異常音検知システムの好ましい例では、音データに含まれる異常音を判定する異常音検知システムであって、前記異常音検知システムは：端末と、サーバとを有し、前記端末は：前記音データを入力して、対数メルスペクトログラムを算出する対数メルスペクトログラム算出部と、対数メルスペクトログラムとその時間差分信号の組から、各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組を計算する統計量計算部と、前記統計量の組を送信する統計量送信部とを有し、前記サーバは：前記統計量の組を受信する統計量受信部と、前記統計量の組から生成した擬似対数メルスペクトログラムとその時間差分信号の組から、特徴量ベクトルを抽出する特徴量ベクトル生成部と、前記特徴量ベクトルを用いて正常音モデルを学習する正常音モデル学習部とを有し、前記端末が、前記対数メルスペクトログラムとその時間差分信号の組から特徴量ベクトルを抽出し、前記サーバから正常音モデルを受信し、前記特徴量ベクトルが前記正常音モデルから生成される確率を算出し、該確率が所定の確率未満であれば異常音を含むと判定して前記サーバへ報告するように構成する。

また、本発明の他の特徴として、前記異常音検知システムにおいて、前記端末の前記対数メルスペクトログラム算出部の前段に、入力した前記音データから生成したパワースペクトログラムから非定常音を除去し、周期定常的な音を抽出する非定常成分除去部を更に備える。

また、本発明の更に他の特徴として、前記異常音検知システムの前記サーバにおいて、事前に診断対象の設備から録音した非圧縮の稼動音、および、そこから計算した各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組に基づいて、統計量の組から非圧縮の音のスペクトログラムへの写像を学習し、学習した写像に基づいて、サーバが受信した統計量の組から擬似パワースペクトログラムを生成する擬似スペクトログラム直接復元部を更に備える。

本発明の擬似音生成システムの好ましい例では、前記擬似音生成システムは：端末と、サーバとを有し、前記端末は：音データを入力して、対数メルスペクトログラムを算出する対数メルスペクトログラム算出部と、対数メルスペクトログラムとその時間差分信号の組から、各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組を計算する統計量計算部と、前記統計量の組を送信する統計量送信部とを有し、前記サーバは：前記統計量の組を受信する統計量受信部と、前記統計量の組から生成した擬似対数メルスペクトログラムに対してメルフィルタバンクの擬似逆行列を乗算して擬似パワースペクトログラムを算出する擬似スペクトログラム復元部と、前記擬似パワースペクトログラムに各周波数の位相成分を生成して組合せて時間領域のデジタル出力信号を出力する周波数−時間領域変換部と、前記時間領域のデジタル出力信号を再生する擬似音再生部とを有して構成する。

本発明の擬似音生成方法の好ましい例では、マイクロホン、AD変換器を備えた端末が、入力した音響信号からパワースペクトログラムを計算し、前記パワースペクトログラムから対数メルスペクトログラムを算出し、前記対数メルスペクトログラムとその時間差分信号の組から、各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組を計算し、前記統計量の組をサーバへ送信し、前記サーバが、前記統計量の組を前記端末から受信し、前記統計量の組から擬似対数メルスペクトログラムを生成し、前記擬似対数メルスペクトログラムに対してメルフィルタバンクの擬似逆行列を乗算して擬似パワースペクトログラムを算出し、前記擬似パワースペクトログラムに各周波数の位相成分を生成して組合せて時間領域のデジタル出力信号を生成し、前記時間領域のデジタル出力信号を擬似音として再生することを特徴とする。

本発明によれば、送信可能な通信量が微小であっても、端末からサーバに必要十分なデータを送信し、受信したデータから生成した擬似音を再生することにより、音を確かめることが可能となる。

擬似音生成機能を備えた異常音検知システムのハードウェア構成を示すブロック図である。実施例１の音響監視端末と音響監視サーバの処理の構成を示すブロック図である。実施例２の音響監視端末と音響監視サーバの処理の構成を示すブロック図である。実施例３の音響監視端末と音響監視サーバの処理の構成を示すブロック図である。統計量の組からパワースペクトログラムを復元する写像を学習する処理の構成を示す図である。擬似スペクトログラム直接復元部の内部構成を示す図である。実施例４の音響監視端末と音響監視サーバの処理の構成を示すブロック図である。

以下、実施例を、図面を用いて説明する。

図１は、擬似音生成機能を備えた異常音検知システムのハードウェア構成を示すブロック図である。
マイクロホン１０１は設置した対象設備１１０の稼動音を、例えば所定の周期ごとに、またはユーザが指定した時刻ごとに、入力としてアナログ入力信号をAD変換器１０２に送る。
AD変換器１０２は入力されたアナログ入力信号をデジタル入力信号に変換し、音響監視端末１０３に送る。
音響監視端末１０３はデジタル入力信号を入力として、各周波数の振幅時系列の直流成分、周期成分、および、独立同分布成分それぞれの統計量(圧縮データ)に変換し、遠隔地の音響監視サーバ１０４に、無線ネットワークを含むネットワーク１２０を介して送る。
音響監視サーバ１０４は前記統計量を入力として、対象設備の稼動音を模擬した擬似音をデジタル出力信号としてDA変換器１０５に送る。
DA変換器１０５は入力されたデジタル出力信号をアナログ出力信号に変換し、ヘッドホン１０６に送り、ヘッドホン１０６から擬似音を出力する。

音響監視端末１０３は、電池と無線通信部を備えた汎用の計算機端末上に構成することができ、また音響監視サーバ１０４は、汎用の計算機上に構成することができて、それぞれの記憶部に記憶されている異常音検知プログラムをＲＡＭへロードしてＣＰＵで実行することによりそれぞれ以下の各機能部を実現する。

図２は、本実施例の処理の構成を示すブロック図である。本実施例の処理は音響監視端末１０３側の処理と音響監視サーバ１０４側の処理に分かれる。

まず、音響監視端末１０３側では、音響信号録音部２０１が、マイクロホン１０１により稼動音を取得し、AD変換器１０２によりアナログ入力信号をデジタル入力信号に変換した音響信号を、FFTフレームサイズ単位にメモリに格納する。

周波数変換部２０２は、デジタル入力信号をフレームごとに分割し、そのフレームに窓関数を乗算し、窓関数乗算後の信号に短時間フーリエ変換を施して、周波数領域信号を出力する。周波数領域信号は、フレームサイズがNであれば、(N / 2 + 1) = K個の周波数ビンそれぞれに1個の複素数が対応する、K個の複素数の組である。

パワー計算部２０３は、周波数領域信号からパワースペクトログラムX｛Xは、縦軸が周波数を表し、横軸が時間を表す。フレームサイズ(単位期間)ごとに作成した周波数スペクトル(K個の周波数ビンに分けた各周波数の強さ(振幅)の成分より成る)を各列に配列して、横軸(時間軸)方向に、解析期間Tだけ時系列に配置したK行×T列の行列である。｝を計算して出力する。

対数メルスペクトログラム算出部２０４は、パワースペクトログラムXから対数メルスペクトログラムYを計算して出力する。
ここで、一般に人間の耳には実際の周波数の音がそのまま聞こえるわけではなく、ずれが生じ、可聴域の上限に近い音は実際の音よりも低めに聞こえる。このずれを人間の知覚する音の高さを測る尺度に調整した周波数をメル(尺度)周波数という。メル尺度で等間隔な特定の周波数帯のみを抽出するフィルタであるメルフィルタバンクを、パワースペクトログラムXに適用して、対数メルスペクトログラムYを計算する。

すなわち、対数メルスペクトログラム算出部２０４は、パワースペクトログラムXに対してメルフィルタバンクの各フィルタをかけ、フィルタ後のパワーを足し合わせて対数を取ることで、下限周波数から上限周波数までをメル(尺度)周波数で等間隔にM個のメル周波数ビン数に分割したM行×T列の行列である対数メルスペクトログラムYにスムージングする。

なお、対数メルスペクトログラム算出部２０４が計算するYは、対数メルスペクトログラムの代わりに、オクターブバンドスペクトログラム、1/3オクターブバンドスペクトログラム、ガンマトーンスペクトログラムなどの、周波数パワー特性を表す任意のスペクトログラムであってよい。

Δ(時間差分)計算部２０５は、対数メルスペクトログラムYから、その時間差分信号Δを計算し、対数メルスペクトログラムYとΔの組を出力する。
M行×T列の行列である対数メルスペクトログラムYの各成分値をy(m,t)と表すと、その時間差分信号Δは、M行×(T-1)列の行列となり、その成分値δy(m,t)=y(m,t)-y(m,t-1) と算出される。

統計量計算部２０６は、対数メルスペクトログラムYと時間差分信号Δの組から、各メル周波数ビンmの統計量の組を計算し、出力する。
統計量の組は、例えば、メル周波数ビンmの行の対数メルスペクトログラムYの各成分値y(m,t)の平均値μ(m)、標準偏差σ(m)、および、時間差分信号Δのメル周波数ビンmの行の各成分値δy(m,t)の標準偏差σΔ(m)である。平均値μ(m)は振幅時系列の直流成分を表し、標準偏差σ(m)は独立同分布成分を表す。σΔ(m) / σ(m)が振幅時系列の周期成分を表す。

統計量送信部２０７は、統計量の組を、通信パケットに変換し、送信する。

次に、音響監視サーバ１０４側では、統計量受信部２０８が、受信した通信パケットを統計量の組に変換し、例えば受信した日時であるタイムスタンプとともにタイムスタンプ-統計量DB２０９に格納する。

擬似対数メルスペクトログラム生成部２１０は、ユーザが指定した時刻に対応するタイムスタンプの統計量の組をタイムスタンプ−統計量DB２０９から読み出し、読みだされた統計量の組 (μ(m)、σ(m)、σΔ(m)) から擬似対数メルスペクトログラムZを計算し、出力する。設備の稼動音が周期定常的な音であると仮定すれば、擬似対数メルスペクトログラムZの各成分z(m,t)は、数式(１)で計算できる。ただし、γは0〜1の定数パラメタ、ω = 2 sin＾-1 (0.5 σΔ(m) / σ(m))、φは任意、rは正規分布N(0, σ(m))に従う確率変数である。

また、統計量計算部２０６は、対数メルスペクトログラムYから、Δ(時間差分)計算部２０５を介さずに各メル周波数ビンmの統計量の組を計算し、出力してもよい。
この場合、統計量の組は、例えば、メル周波数ビンmの行の対数メルスペクトログラムYの各成分値y(m,t)の平均値μ(m)、および、y(m, t)に対する時間t方向のフーリエ変換によって得られる振幅スペクトラムが最大である交流成分の角周波数ω(m)、および、その振幅a(m)、および、残差e(m, t)の標準偏差σ_e(m)である。ただし、残差e(m, t)は数式(２)であらわされる。

この場合、擬似対数メルスペクトログラムZの各成分z(m,t)は、数式(３)で計算できる。

ただし、φ(m)は任意、rは正規分布N(0, σ_e(m))に従う確率変数である。

擬似スペクトログラム復元部２１１は、擬似対数メルスペクトログラムZから擬似パワースペクトログラム＾Xを計算し、出力する。例えば、擬似対数メルスペクトログラムZに対してメルフィルタバンクの擬似逆行列を乗算することで擬似パワースペクトログラム＾Xが計算できる。

周波数−時間領域変換部２１２は、擬似パワースペクトログラム＾Xを入力として、それが持っていない各周波数の位相成分を生成し、擬似パワースペクトログラム＾Xと生成された位相成分とを組みあわせて時間領域のデジタル出力信号を出力する。位相成分の生成には、例えば、Griffin-Limアルゴリズムを用いる。
ここで、擬似パワースペクトログラム＾Xは周波数領域信号レベルであり、位相成分は消失しているので、Griffin-Limアルゴリズムを使用して位相成分を生成して時間領域の音響信号(時間領域擬似音)を復元する。

擬似音再生部２１３は、デジタル出力信号(時間領域擬似音)をDA変換器１０５によりアナログ出力信号に変換し、ヘッドホン１０６から出力する。

前述したように送信可能な通信量が微小な場合、生の音データや通常の圧縮形式の音データを端末からサーバに送ることができないので、それを用いて異常検知のための正常音モデルの学習を行うことができない。生の音データが得られるのは初期設置時・初期校正時の録音のみである。そこで、従来は初期設置時・初期校正時の音データのみを用いて正常音モデルを学習していた。しかし、本実施例は、送受信するのが統計量の組だけであるため、通常時も継続して擬似音を蓄積できる。そして、その擬似音もしくはそれから計算される特徴量ベクトルに基づいて正常音モデルを学習できる。例えば、このような逐次的な学習は、季節変動があっても異常検知の誤りを起こさないという効果をもたらす。また、多数データを用いて学習できるので、精度を著しく向上させる効果をもたらす。この効果をもたらす一連の処理を以降に示す。

まず、音響監視サーバ１０４側では、Δ(時間差分)計算部２１４は、擬似対数メルスペクトログラムZから、その時間差分信号Δを計算し、擬似対数メルスペクトログラムZとΔの組を出力する。
M行×T列の行列である擬似対数メルスペクトログラムZの各成分値をz(m,t)と表すと、その時間差分信号Δは、M行×(T-1)列の行列となり、その成分値δz(m,t)=z(m,t) - z(m,t-1) と算出される。

特徴量ベクトル作成部２１５は、擬似対数メルスペクトログラムZ (メル周波数ビンM個のM×T次元) とΔ(メル周波数ビンM個のM×(T-1)次元) の組を入力として、それらを行方向(上下方向)に連結した2M×(T-1)次元の行列とする。例えば、擬似対数メルスペクトログラムZの１列(t=0)を除いてM×(T-1)次元の行列としてΔの列数と合わせて、それら２つの行列を行方向(上下方向)に連結して2M×(T-1)次元の行列を構成する。
そして、その2M×(T-1)次元の行列の中から、2M×Ｌ次元の特徴量ベクトルを、1列ずつずらしながら、(T-L) 個｛この場合には、例えば(T-L)通りある。｝だけ抽出する。

正常音モデル学習部２１６は、多数の特徴量ベクトルを用いて、正常状態の分布を表す正常音モデルを学習し、学習した正常音モデルを音響監視端末１０３の異常検知部２１８に送信する。学習では、過学習を避けるため、一つの擬似対数メルスペクトログラムZから (T-L) 個抽出された特徴量ベクトルだけでなく、多数の擬似対数メルスペクトログラムZ｛擬似対数メルスペクトログラムZは、音響監視端末１０３から送られてくる統計量の組から随時、なるべく多く作成されて、正常音モデルの学習に使用される。｝から抽出された特徴量ベクトルを用いる。

正常音モデルとして、混合ガウス分布(GMM)、1クラスサポートベクター分類器、部分空間法、局所部分空間法、k-meansクラスタリング、Deep Neural Network (DNN) autoencoder、Convolutional Neural Network (CNN) autoencoder、Long Short Term Memory (LSTM) autoencoder、variational autoencoder (VAE) などを用いてよい。

各正常音モデルには、それぞれのモデルに適したアルゴリズムが知られており、それを用いる。例えば、GMMであればEMアルゴリズムにより、あらかじめ定めたクラスタ数の個数だけのガウス分布の組み合わせによるあてはめがなされる。学習された正常音モデルは、算出されたモデルパラメタによって規定される。そのモデルパラメタ全てを図示していない正常音モデルデータベースに格納する。
正常音モデルデータベースに格納されるモデルパラメタは、例えばGMMの場合、Q個の各クラスタq = 1、・・・Qの平均ベクトル（2M×Ｌ次元）μq、各クラスタの共分散行列（2M×L×2M×Ｌ次元）Γq、各クラスタの重み係数（１次元）πqである。
音響監視端末１０３の異常検知部２１８で異常検知処理を実行する際に、正常音モデルデータベースから該当する正常音モデルが読み出されて送信される。

次に、音響監視端末１０３では、特徴量ベクトル作成部２１７が、Δ(時間差分)計算部２０５から入力された対数メルスペクトログラムY (メル周波数ビンM個のM×T次元) とΔ(メル周波数ビンM個のM×(T-1)次元) の組を入力として、それらを行方向(上下方向)に連結した2M×(T-1)次元の行列として｛例えば対数メルスペクトログラムYの１列(t=0)を除いてM×(T-1)次元の行列としてΔの列数と合わせて、それら２つの行列を行方向(上下方向)に連結して2M×(T-1)次元の行列を構成する。｝、その2M×(T-1)次元の行列の中から、2M×Ｌ次元の特徴量ベクトルｖを、1列ずつずらしながら、(T-L) 個｛(T-L)通りある｝だけ抽出する。

異常検知部２１８は、事前に学習した正常音モデルを音響監視サーバ１０４の正常音モデルデータベース(図示はしていない)から読み出し、特徴量ベクトル作成部２１７から入力された特徴量ベクトルｖが正常に属するか異常に属するかを判定する。すなわち、入力された稼動音から作成された特徴量ベクトルｖが正常音モデルから十分な確率で生成されうるかどうかを判定する。

例えば、正常音モデルがGMMの場合、2M×Ｌ次元の特徴量ベクトルｖが正常音モデル（モデルパラメタΘ=((μ₁、Γ₁、π₁)、・・・(μ_q、Γ_q、π_q) 、(μ_Q、Γ_Q、π_Q)）から生成される確率ｐ(ｖ｜Θ)を、数式(４)により計算する。

ここで、

異常検知部２１８は、該確率ｐ(ｖ｜Θ)が、例えば所定の確率以上であれば、診断対象の機械設備の稼動音(音響信号)は正常音であると判定する。例えば該確率が所定の確率未満であれば、異常音を含むと判定する。

正常音モデルとしてDeep Neural Network (DNN) autoencoderを用いた場合は、SGD、Momentum SGD、AdaGrad、RMSprop、AdaDelta、Adamなどの最適化アルゴリズムによって、正常音の特徴量ベクトルを入力した際に、入力した特徴量ベクトルと出力される特徴量ベクトルとの間の距離が小さくなるように内部パラメタが最適化される。異常音の特徴量ベクトルを入力した場合、その間の距離が大きくなることが期待されるので、この距離が所定の値未満であれば、異常音を含むと判定する。

異常通知部２１９は、異常検知部２１８が診断対象の機械設備の稼動音(音響信号)は異常音を含むと判定した場合には、音響監視サーバ１０４へ異常報告をする。

音響監視サーバ１０４の異常表示部２２０は、診断対象の機械設備が異常音を発している旨を図示していない表示部に表示して報告すると共に、または外部の監視システムへ通知する。または、異常音を含む確率（異常確率）として出力することでもよい。

本実施例の擬似音生成機能を備えた異常音検知システムは、送信可能な通信量が微小であっても、入力音の各周波数の振幅時系列の直流成分、周期成分、および、独立同分布成分それぞれの統計量を計算して送信する端末と、端末からの前記統計量を受信して前記統計量に基づいて擬似音を再生することで、どのような稼動音だったかを事後にユーザが聴いて確かめることが可能となる。さらに、通常時も継続して擬似音を蓄積できることから、逐次的な学習により、季節変動があっても異常検知の誤りを起こさないという効果をもたらす。また、多数データを用いて学習できるので、精度を著しく向上させる効果をもたらす。

実施例２では、周囲の雑音などの非定常な音が混入する場合であっても精度良く擬似音を生成することができる擬似音生成機能を備えた異常音検知システムの例を開示する。本実施例の実施例１との違いは、音響監視端末での処理フローに非定常音を除去する非定常成分除去部を備えることで、周期定常的な音のみを抽出して、そこから精度良く統計量の組を推定し、そこから精度良く擬似音を生成することができる点である。

図３は、実施例２の構成を示すブロック図である。
非定常成分除去部３０１は、パワー計算部２０３から送られたパワースペクトログラムXから非定常音を除去し、周期定常的な音のみを抽出し、対数メルスペクトログラム算出部２０４に送る。具体的な処理方法として、Harmonic/Percussive Sound Separation (HPSS) やNearest Neighbor filter (NN filter) を用いることができる。

HPSSは、入力されたパワースペクトログラムXを時間変化が緩やかな成分と時間変化が急峻な成分に分解するアルゴリズムである。時間変化が急峻な成分として分解された音は除去したき非定常音であり、時間変化が緩やかな成分は所望する周期定常的な音に近い。さらに、HPSSによって抽出された時間変化が緩やかな成分を、NN filterによってパワースペクトログラムXの中で繰り返し発生する成分と稀にしか発生しない成分に分解する。繰り返し発生する成分を、所望する周期定常的な音と判断する。

マイクロホンアレーを用いる場合は、遅延和アレー、MDVRビームフォーマ、GEVビームフォーマによって対象設備の方向の音のみ抽出することで対象設備の音のみを抽出することもできる。また、NN filterが出力する周期定常的な成分とそれ以外の成分とのSN比に基づく時間周波数マスクに基づいてMDVRビームフォーマやGEVビームフォーマの適応を制御することができる。このような構成をとることにより、残響が大きい環境であってもMDVRビームフォーマやGEVビームフォーマにより高精度に対象設備の音のみを抽出でき、さらに、周期定常的な音のみを高精度に抽出して、そこから精度良く統計量の組を推定し、そこから精度良く擬似音を生成することができる。

実施例３では、微細な調波構造を有する稼動音であっても精度良く擬似音を生成することができる擬似音生成機能を備えた異常音検知システムの例を開示する。本実施例の実施例１との違いは、初期設置時・初期校正時の録音に基づいて統計量の組からスペクトログラムを復元する写像をあらかじめ学習しておき、音響監視サーバがその写像を使って統計量の組からスペクトログラムを復元する擬似スペクトログラム直接復元部を有することである。

図４は、実施例３の構成を示すブロック図である。
擬似スペクトログラム直接復元部４０１は、ユーザが指定した時刻に対応するタイムスタンプの統計量の組をタイムスタンプ-統計量DB２０９から読み出し、読みだされた統計量の組 (μ(m)、σ(m)、σΔ(m)) から擬似パワースペクトログラム＾Xを計算し、出力する。

実施例１では、擬似スペクトログラム復元部２１１において、擬似対数メルスペクトログラムZに対してメルフィルタバンクの擬似逆行列を乗算して擬似パワースペクトログラム＾Xを復元していた。しかし、未知の変数の個数 (パワースペクトログラムの周波数ビンの個数K) の方が、既知の変数の個数 (対数メルスペクトログラムのメル周波数ビンの個数M) よりも多いという、不良設定問題であるため、本来は復元することはできない。対象の設備の稼動音が微細な調波構造を有していないのであれば、それでも十分有用な擬似音を生成できる。しかし、対象の設備の稼動音が微細な調波構造を有する場合には不十分である。実施例３では、この問題を解消するため、初期設置時・初期校正時は非圧縮の生の音が録音できる｛例えば、音響監視端末１０３において評価対象の設備の稼動音を記録媒体に録音して、その記録媒体を音響監視サーバ１０４に接続して学習処理を実行する。｝ことに着目し、その生の音に基づいて統計量の組からパワースペクトログラムを復元する写像をあらかじめ学習しておく。その写像は、不良設定問題において不足した情報を補うことができる。

対数メルスペクトログラム算出部４０２は、対数メルスペクトログラム算出部２０４と同様に、擬似スペクトログラム直接復元部４０１から送られた擬似パワースペクトログラム＾Xから、(擬似)対数メルスペクトログラムZを計算し、計算した(擬似) 対数メルスペクトログラムZをΔ計算部２１４に出力する。

図５は、統計量の組からパワースペクトログラムを復元する写像を学習する処理の構成を示している。学習処理は音響監視サーバが行う。初期設置時・初期校正時に録音した非圧縮の生の音をパワースペクトログラムに変換し、音響監視端末と同様の対数メルスペクトログラム算出２０４、Δ計算２０５、統計量計算２０６を施し、統計量の組 (μ(m), σ(m), σΔ(m)) を得る。並行して、振幅時系列位相の抽出５０１が、パワースペクトログラムの各周波数kに対し、振幅時系列の位相を抽出する。具体的には、各周波数kに対し、X(k, :) にFFTを施して、最大ピークの周波数の位相 φ(k) を得る。

前記の写像は、例えば多層ニューラルネットワークでモデル化できる。統計量の組 (μ(m), σ(m), σΔ(m)) を入力とし、擬似パワースペクトログラム＾X(k, t)を出力するような多層ニューラルネットワークを用意する。ただし、中間層で各周波数kに分岐し、分岐の後ろの層の各kに対応する素子でφ(k)の入力を受け付ける。また、学習の教師信号を、生の音をパワースペクトログラムX(k, t)とし、出力される擬似パワースペクトログラム＾X(k, t)との差が小さくなるように多層ニューラルネットワークの学習を行う。

図６は、擬似スペクトログラム直接復元部４０１の内部構成を示している。図５と比較しやすいように、擬似スペクトログラム直接復元部４０１の外側の処理も合わせて示している。学習を終えた多層ニューラルネットワークに統計量の組 (μ(m), σ(m), σΔ(m)) を入力する。また、ランダム位相生成部６０１が各周波数kの位相φ(k)をランダムに生成し、多層ニューラルネットワークの中間層の各周波数kの分岐の後ろの素子に入力する。

本実施例の擬似音生成機能を備えた異常音検知システムは、微細な調波構造を有する対象設備の稼動音であっても精度良く擬似音を生成することができる。また、一連の学習処理と復元処理はいずれも音響監視サーバで行われるので、音響監視端末の消費電力は増加しないという利点がある。また、圧縮前の生の音に近い音が正常音モデルの学習に用いられるので、異常検知の精度が向上するという利点がある。

実施例４では、周囲の雑音などの非定常な音が混入する場合であっても、異常検知が可能な擬似音生成機能を備えた異常音検知システムの例を開示する。本実施例の実施例１との違いは、音響監視サーバ側の擬似音生成のみならず、音響監視端末側の異常検知にも、統計量の組から生成した擬似音(擬似対数メルスペクトログラム)を用いる点である。

図７は、実施例４の構成を示すブロック図である。
擬似対数メルスペクトログラム生成部７０１は、統計量計算部２０６から送られた統計量の組 (μ(m)、σ(m)、σΔ(m)) から擬似対数メルスペクトログラムZを計算し、Δ(時間差分)計算部７０２に出力する。設備の稼動音が周期定常的な音であると仮定すれば、擬似対数メルスペクトログラムZの各成分z(m,t)は数式(１)で計算できる。
ただし、γは0〜1の定数パラメタ、ω = 2 sin＾-1 (0.5 σΔ(m) / σ(m))、 φは任意、rは正規分布N(0, σ(m))に従う確率変数である。

Δ(時間差分)計算部７０２は、擬似対数メルスペクトログラム生成部７０１から送られた擬似対数メルスペクトログラムからその時間差分信号Δを計算し、擬似対数メルスペクトログラムとΔの組を、特徴量ベクトル作成部２１７に出力する。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD（Solid State Drive）等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。

上記実施例による擬似音生成機能を備えた異常音検知システムは、設備の稼動音に含まれるであろう異常音を判定する例であった。応用例によれば、これに限らず、特定の場所や環境において採取された音データに、通常時に学習しておいた正常音モデルから十分な確率で生成されない異常音を含むと判定するようなシステムにも適用できる。

１０１マイクロホン
１０２ AD変換器
１０３音響監視端末
１０４音響監視サーバ
１０５ DA変換器
１０６ヘッドホン
１１０対象設備
１２０ネットワーク
２０１音響信号録音部
２０２周波数変換部
２０３パワー計算部
２０４対数メルスペクトログラム算出部
２０５ Δ(時間差分)計算部
２０６統計量計算部
２０７統計量送信部
２０８統計量受信部
２０９タイムスタンプ−統計量DB
２１０擬似対数メルスペクトログラム生成部
２１１擬似スペクトログラム復元部
２１２周波数−時間領域変換部
２１３擬似音再生部
２１４ Δ(時間差分)計算部
２１５特徴量ベクトル作成部
２１６正常音モデル学習部
２１７特徴量ベクトル作成部
２１８異常検知部
２１９異常通知部
２２０異常表示部
３０１非定常成分除去部
４０１擬似スペクトログラム直接復元部
４０２対数メルスペクトログラム算出部
５０１振幅時系列位相の抽出
６０１ランダム位相生成部
７０１擬似対数メルスペクトログラム生成部
７０２ Δ(時間差分)計算部

Claims

音データに含まれる異常音を判定する異常音検知システムであって、前記異常音検知システムは、端末と、サーバと、を有し、
前記端末は：
前記音データを入力して、対数メルスペクトログラムを算出する対数メルスペクトログラム算出部と、
対数メルスペクトログラムから、各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組を計算する統計量計算部と、
前記統計量の組を送信する統計量送信部と、
を有し、
前記サーバは：
前記統計量の組を受信する統計量受信部と、
前記統計量の組から生成した擬似対数メルスペクトログラムから、特徴量ベクトルを抽出する特徴量ベクトル生成部と、
前記特徴量ベクトルを用いて正常音モデルを学習する正常音モデル学習部と、
を有し、
前記端末が、前記対数メルスペクトログラムから特徴量ベクトルを抽出し、前記サーバから正常音モデルを受信し、前記特徴量ベクトルが前記正常音モデルから生成される確率または距離に相当する値を算出し、該確率または距離に相当する値が所定の値未満であれば異常音を含むと判定して前記サーバへ報告することを特徴とする異常音検知システム。
前記対数メルスペクトログラム算出部が、対数メルスペクトログラムに代えて、オクターブバンドスペクトログラム、1/3オクターブバンドスペクトログラム、ガンマトーンスペクトログラム、または周波数パワー特性を表す任意のスペクトログラムを算出することを特徴とする請求項１に記載の異常音検知システム。
前記端末の前記対数メルスペクトログラム算出部の前段に、入力した前記音データから生成したパワースペクトログラムから非定常音を除去し、周期定常的な音を抽出する非定常成分除去部を更に備えることを特徴とする請求項１に記載の異常音検知システム。
前記サーバにおいて、
事前に診断対象の設備から録音した非圧縮の稼動音、および、そこから計算した各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組に基づいて、統計量の組から非圧縮の音のスペクトログラムへの写像を学習し、
学習した写像に基づいて、サーバが受信した統計量の組から擬似パワースペクトログラムを生成する擬似スペクトログラム直接復元部を更に備えることを特徴とする請求項１に記載の異常音検知システム。
前記学習した写像は、多層ニューラルネットワークでモデル化され、ランダム位相生成部が各周波数kの位相φ(k)をランダムに生成し、多層ニューラルネットワークの中間層の各周波数kの分岐の後ろの素子に入力する構成となることを特徴とする請求項４に記載の異常音検知システム。
前記端末が、前記統計量計算部が算出した統計量の組から擬似対数メルスペクトログラムを生成して、前記擬似対数メルスペクトログラムとその時間差分信号の組から特徴量ベクトルを抽出し、前記サーバから正常音モデルを受信し、前記特徴量ベクトルが前記正常音モデルから生成される確率を算出し、該確率が所定の確率未満であれば異常音を含むと判定して前記サーバへ報告することを特徴とする請求項１に記載の異常音検知システム。
擬似音生成システムは、端末と、サーバと、を有し、
前記端末は：
音データを入力して、対数メルスペクトログラムを算出する対数メルスペクトログラム算出部と、
対数メルスペクトログラムから、各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組を計算する統計量計算部と、
前記統計量の組を送信する統計量送信部と、
を有し、
前記サーバは：
前記統計量の組を受信する統計量受信部と、
前記統計量の組から生成した擬似対数メルスペクトログラムに対してメルフィルタバンクの擬似逆行列を乗算して擬似パワースペクトログラムを算出する擬似スペクトログラム復元部と、
前記擬似パワースペクトログラムに各周波数の位相成分を生成して組合せて時間領域のデジタル出力信号を出力する周波数−時間領域変換部と、
前記時間領域のデジタル出力信号を再生する擬似音再生部と、
を有することを特徴とする擬似音生成システム。
前記対数メルスペクトログラム算出部が、対数メルスペクトログラムに代えて、オクターブバンドスペクトログラム、1/3オクターブバンドスペクトログラム、ガンマトーンスペクトログラム、または周波数パワー特性を表す任意のスペクトログラムを算出することを特徴とする請求項７に記載の擬似音生成システム。
前記端末の前記対数メルスペクトログラム算出部の前段に、入力した前記音データから生成したパワースペクトログラムから非定常音を除去し、周期定常的な音を抽出する非定常成分除去部を更に備えることを特徴とする請求項７に記載の擬似音生成システム。
前記サーバにおいて、
事前に診断対象の設備から録音した非圧縮の稼動音、および、そこから計算した各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組に基づいて、統計量の組から非圧縮の音のスペクトログラムへの写像を学習し、
学習した写像に基づいて、サーバが受信した統計量の組から擬似パワースペクトログラムを生成する擬似スペクトログラム直接復元部を更に備えることを特徴とする請求項７に記載の擬似音生成システム。
前記学習した写像は、多層ニューラルネットワークでモデル化され、ランダム位相生成部が各周波数kの位相φ(k)をランダムに生成し、多層ニューラルネットワークの中間層の各周波数kの分岐の後ろの素子に入力する構成となることを特徴とする請求項１０に記載の擬似音生成システム。
マイクロホン、AD変換器を備えた端末が、
入力した音響信号からパワースペクトログラムを計算し、
前記パワースペクトログラムから対数メルスペクトログラムを算出し、
前記対数メルスペクトログラムから、各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組を計算し、
前記統計量の組をサーバへ送信し、
前記サーバが、
前記統計量の組を前記端末から受信し、
前記統計量の組から擬似対数メルスペクトログラムを生成し、
前記擬似対数メルスペクトログラムに対してメルフィルタバンクの擬似逆行列を乗算して擬似パワースペクトログラムを算出し、
前記擬似パワースペクトログラムに各周波数の位相成分を生成して組合せて時間領域のデジタル出力信号を生成し、
前記時間領域のデジタル出力信号を擬似音として再生する、
ことを特徴とする擬似音生成方法。
前記端末が前記パワースペクトログラムから算出する対数メルスペクトログラムに代えて、オクターブバンドスペクトログラム、1/3オクターブバンドスペクトログラム、ガンマトーンスペクトログラム、または周波数パワー特性を表す任意のスペクトログラムを算出することを特徴とする請求項１２に記載の擬似音生成方法。