JP2021071586A

JP2021071586A - 音抽出システム及び音抽出方法

Info

Publication number: JP2021071586A
Application number: JP2019197987A
Authority: JP
Inventors: 洋平川口; Yohei Kawaguchi; 佳小里末房; Kaori Suefusa
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2021-05-06
Anticipated expiration: 2039-10-30
Also published as: JP7373358B2

Abstract

【課題】入力信号から外来の雑音を除去し、診断対象の音を選択的に抽出すること。【解決手段】ユーザにマイクロホン１０２を移動させて診断対象１０５からの距離が異なる複数の位置で録音させることで、可搬端末１０１は、複数の入力音を距離と対応付けて取得し、複数の入力音についてそれぞれ特徴量を求め、特徴量と対応する距離との組み合わせを複数用いて、診断対象１０５の音の特徴量を抽出する。抽出した診断対象１０５の音の特徴量は、正常音モデルと比較することで、診断対象１０５の異常の検知に用いることができる。【選択図】図１

Description

本発明は、音抽出システム及び音抽出方法に関する。

設備の異常や故障予兆などの状態は、音に現れることが多い。そこで、設備の状態を把握するために設備の稼動音に基づく診断は重要である。ただし、診断対象以外に由来する雑音の影響で診断を誤りうることがある。したがって、入力信号から、外来の雑音を除去し、診断対象の音を選択的に抽出する音抽出処理が求められる。

音抽出の問題を解決する方法として、特開２００９−１２８９０６（特許文献１）がある。この公報には、「制約付き非負行列因数分解（ＮＭＦ）を混成信号に適用する工程であって、前記ＮＭＦは雑音除去モデルによって制約され、前記雑音除去モデルはトレーニング音響信号とトレーニング雑音信号とのトレーニング基礎マトリクスおよび該トレーニング基礎マトリクスの重みの統計値とからなり、前記適用により前記混成信号の内の前記音響信号の基底行列の重みを生成する工程と、前記音響信号を再構成するために、該音響信号の基底行列の重みと、前記トレーニング音響信号と前記トレーニング雑音信号とのトレーニング基礎マトリクスとの積を取る工程と、を含む、音響信号と雑音信号とを含む混成信号の雑音を除去するための方法。」と記載されている。

特開２００９−１２８９０６号公報

特許文献１で開示された発明は、雑音が混合した信号から、ＮＭＦを使って音声と雑音に分離する。ただし、抽出したい音声と、除去したい雑音の両方の学習データが与えられている条件でしか機能しない。例えば、診断対象の設備の稼働音に異常があったとしても、異常時の音を事前に学習することは困難であるため、特許文献１の技術で抽出することはできないのである。雑音を小さく、診断対象の音を大きくする方法として、診断対象にマイクロホンをできるだけ近づけて録音するという方法がある。ただし、環境雑音が著しく大きい場合にはそれでも不十分である。

そこで、本発明では、入力信号から外来の雑音を除去し、診断対象の音を選択的に抽出する音抽出処理を課題とする。

上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。すなわち、診断対象からの距離が異なる複数の位置で録音した複数の入力音を距離と対応付けて取得し、複数の入力音についてそれぞれ特徴量を求め、特徴量と対応する距離との組み合わせを複数用いて、診断対象の音の特徴量を抽出する。

本発明によれば、入力信号から外来の雑音を除去し、診断対象の音を選択的に抽出することができる。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

実施例のハードウェア構成の説明図。実施例の正常音モデルの学習時の処理に係る機能ブロック図。実施例の異常検知実行時の処理に係る機能ブロック図。複数距離入力音取得部による録音に係る処理手順を示すフローチャート。距離別の正常音モデルの学習時の処理に係る機能ブロック図。距離別の異常検知実行時の処理に係る機能ブロック図。距離−音量制約付き音抽出部による音抽出の処理手順を示すフローチャート。音抽出の第１の変形例を示すフローチャート。音抽出の第２の変形例を示すフローチャート。

以下、実施例を、図面を用いて説明する。

図１は、実施例のハードウェア構成の説明図である。図１に示すように、可搬端末１０１は、マイクロホン１０２、ＡＤ変換器１０３、測距センサ１０４を備えており、ユーザが持って移動することが可能な端末であり、例えばタブレット端末である。

マイクロホン１０２はアナログ入力信号をＡＤ変換器１０３に送る。ＡＤ変換器１０３はアナログ入力信号をデジタル出力信号に変換し、可搬端末１０１に送る。測距センサ１０４は診断対象１０５からの距離を計測し、可搬端末１０１に送る。可搬端末１０１に測距センサ１０４が接続されていない場合は、ユーザ自身が別途距離を測ることで代替してもよい。なお、診断対象１０５は、例えば工場の設備として設置された装置などである。

可搬端末１０１は、そのディスプレイを通して、診断対象１０５からの距離の指示値（短距離ｒ１、長距離ｒ２など）と、現在の診断対象１０５からの距離ｒを表示する。これらの表示により、ユーザは容易に距離ｒを指示値にすることができる。また、録音停止中であれば、録音可否と録音開始ボタンを表示する。距離ｒと指示値との差の絶対値が閾値ｅｐｓ以上であれば録音不可の表示をする。そうでなければ録音可の表示をして録音開始ボタンを有効にして押下を可能とする。これにより、正確な距離で安定的に録音することができる。録音開始後、録音中は、全録音時間Ｔ、録音開始からの経過時間ｔ、残りの録音時間（Ｔ−ｔ）を表示する。この表示は、録音条件の安定化、及び録音中のユーザの心理負担の軽減の効果を有する。

ユーザは、診断対象１０５からの距離が、短距離ｒ１、長距離ｒ２などの異なる複数の位置に可搬端末１０１を移動させて録音を行う。この録音結果は、診断対象１０５の音と背景雑音１０６とを含むものであり、診断対象１０５の音の正常音モデルの学習と、診断対象１０５の異常検知に用いられる。

具体的には、まず、診断対象１０５である装置が適正に動作している状態で、短距離ｒ１での録音と長距離ｒ２での録音を行い、複数距離の録音結果から診断対象１０５の音の特徴を抽出し、正常音モデルとして学習する。その後、診断対象１０５の異常検知を実行するときに、改めて短距離ｒ１での録音と長距離ｒ２での録音を行い、複数距離の録音結果から診断対象１０５の音の特徴を抽出し、正常音モデルと比較することで異常の検知を行う。

図２は、実施例の正常音モデルの学習時の処理に係る機能ブロック図である。正常音モデルの学習時の一連の処理は可搬端末１０１上において行っても良く、別のコンピュータやサーバ上で行っても良い。複数距離入力音取得部２０１は、診断対象１０５から複数の距離で録音されたデジタル入力音を距離に対応付けて取得する。デジタル入力音としては、ＡＤ変換器１０３が出力するデジタル出力信号を用いる。距離は、測距センサ１０４の出力を用いることができる。例えば、診断対象１０５からの距離が、短距離ｒ１、長距離ｒ２、などと異なる複数の位置に可搬端末１０１を移動させて、ユーザに録音を実行させることで複数の距離とデジタル入力音とを対応付けて取得すればよい。

複数距離入力音取得部２０１は、デジタル入力音と距離時系列を出力する。複数距離入力音取得部２０１が出力するデジタル入力音は、時間軸に沿って信号値を示す時間領域の信号である。距離時系列は、デジタル入力信号の時間軸に録音時の距離を値として与えたものである。短距離ｒ１での録音と長距離ｒ２での録音は個別に行われ、時間的な連続性を有さないが、複数距離入力音取得部２０１は、それぞれの録音結果を連続させて１つのデジタル入力音として出力する。このとき、距離時系列は、連続した時系列に対してそれぞれの録音距離を示す１つのデータとなる。

前処理部２０２は、デジタル入力音をフレームごとに分割し、そのフレームに窓関数を乗算し、窓関数乗算後の信号に短時間フーリエ変換を施して、周波数領域信号を計算する。周波数領域信号は、フレームサイズがＮであれば、（Ｎ／２＋１）＝Ｍ個の周波数ビンそれぞれに１個の複素数が対応する、Ｍ個の複素数の組である。さらに、周波数領域信号から入力音スペクトログラム（パワースペクトログラムまたは振幅スペクトログラム）を計算する。

距離−音量制約付き音抽出部２０３は、入力音スペクトログラムおよび距離時系列を元に、診断対象抽出音スペクトログラムを抽出する。正常音モデル学習部２０４は、過去に得られた多数の診断対象抽出音スペクトログラムを元に、連続するＬフレームからなる特徴量ベクトルの正常時の分布のモデルを学習し、そのモデルを正常音モデルデータベース２０５に格納する。

正常音モデルとして、混合ガウス分布（ＧＭＭ）、１クラスサポートベクター分類器、部分空間法、局所部分空間法、k-meansクラスタリング、Deep Neural Network (ＤＮＮ) autoencoder、Convolutional Neural Network (ＣＮＮ) autoencoder、Long Short Term Memory (ＬＳＴＭ) autoencoder、variational autoencoder (ＶＡＥ) などを用いてよい。

各正常音モデルには、それぞれのモデルに適したアルゴリズムが知られており、それを用いて学習を行う。例えば、ＧＭＭであればＥＭアルゴリズムにより、あらかじめ定めたクラスタ数の個数だけのガウス分布の組み合わせによるあてはめがなされる。学習された正常音モデルは、算出されたモデルパラメタによって規定される。そのモデルパラメタ全てを図示していない正常音モデルデータベースに格納する。

図３は、実施例の異常検知実行時の処理に係る機能ブロック図である。異常検知実行時の一連の処理は、可搬端末１０１上において行われる。複数距離入力音取得部２０１から距離−音量制約付き音抽出部２０３までの処理は図２と同一である。

異常検知部３０１は、正常音モデルデータベース２０５から正常音モデルを読み出し、診断対象抽出音スペクトログラムに対して異常検知処理を実行する。すなわち、連続するＬフレームからなる特徴量ベクトルの時系列を計算し、その時系列が正常音モデルから十分な確率で生成されうるかどうかを判定する。

例えば、正常音モデルがＧＭＭの場合、Ｍ×Ｌ次元の特徴量ベクトルｖが正常音モデル（モデルパラメタΘ=((μ1、Γ1、π1)、・・・(μq、Γq、πq) 、(μQ、ΓQ、πQ)）から生成される確率ｐ(ｖ｜Θ)を、次式により計算する。

ここで、

例えば、前記確率p(v | Θ)の負の対数尤度 - log p(v | Θ) を推定異常度と定義し、出力する。

正常音モデルとしてDeep Neural Network (ＤＮＮ) autoencoderを用いた場合は、SGD、Momentum SGD、AdaGrad、RMSprop、AdaDelta、Adamなどの最適化アルゴリズムによって、正常音の特徴量ベクトルを入力した際に、入力した特徴量ベクトルと出力される特徴量ベクトルとの間の復元誤差が小さくなるように内部パラメタが最適化される。異常音の特徴量ベクトルを入力した場合、その間の復元誤差が大きくなることが期待される。したがって復元誤差を推定異常度と定義し、出力する。

異常表示部３０２は、前記推定異常度の値を表示し、さらに推定異常度の値が一定以上である場合には異常である旨を表示する。

図４は、複数距離入力音取得部２０１による録音に係る処理手順を示すフローチャートの例を示している。この例では、短距離ｒ１と長距離ｒ２の２通りの距離でユーザに録音をさせるよう制御する場合を示しているが、短距離ｒ１及び長距離ｒ２と同様の手順で３通り以上の距離で録音させても良い。

まず、Ｓ４０１において、複数距離入力音取得部２０１は、短距離ｒ１での録音を指示する出力を行い、Ｓ４０２に進む。
Ｓ４０２において、複数距離入力音取得部２０１は、ｔに０を代入し、Ｓ４０３に進む。
Ｓ４０３において、複数距離入力音取得部２０１は、ｔ＜ＴであればＳ４０４に進み、そうでなければＳ４０８に進む。
Ｓ４０４において、測距センサ１０４で測距を実行し、現在の距離ｒを取得し、Ｓ４０５に進む。
Ｓ４０５において、複数距離入力音取得部２０１は、｜ｒ−ｒ１｜＜ｅｐｓであればＳ４０６に進み、そうでなければＳ４０１に戻る。
Ｓ４０６において、マイクロホン１０２とＡＤ変換器１０３を用いて録音を実行し、Ｓ４０７に進む。
Ｓ４０７において、複数距離入力音取得部２０１は、ｔに対して、前回からの経過時間Δｔを加算し、Ｓ４０３に戻る。

次に、Ｓ４０８において、複数距離入力音取得部２０１は、長距離ｒ２での録音を指示し、Ｓ４０９に進む。
Ｓ４０９において、複数距離入力音取得部２０１は、ｔに０を代入し、Ｓ４１０に進む。
Ｓ４１０において、複数距離入力音取得部２０１は、ｔ＜ＴであればＳ４１１に進み、そうでなければ処理を終了する。
Ｓ４１１において、測距センサ１０４で測距を実行し、現在の距離ｒを取得し、Ｓ４１２に進む。
Ｓ４１２において、複数距離入力音取得部２０１は、｜ｒ−ｒ２｜＜ｅｐｓであればＳ４１３に進み、そうでなければＳ４０８に戻る。
Ｓ４１３において、マイクロホン１０２とＡＤ変換器１０３を用いて録音を実行し、Ｓ４１４に進む。
Ｓ４１４において、複数距離入力音取得部２０１は、ｔに対して、前回からの経過時間Δｔを加算し、Ｓ４１０に戻る。

ここで、正常音モデルのモデルパラメタの規模を抑えることができる変形例を開示する。図２及び図３に示した構成との違いは、距離毎に異なる正常音モデルを学習し、異常検知処理においても、その時の距離に対応した正常音モデルを用いる点である。

図５は、距離別の正常音モデルの学習時の処理に係る機能ブロック図である。複数距離入力音取得部２０１から距離−音量制約付き音抽出部２０３までの処理は図２と同一である。距離毎正常音モデル学習部５０１は、距離−音量制約付き音抽出部２０３が出力した診断対象抽出音スペクトログラムと複数距離入力音取得部２０１が出力した距離時系列とを用いて、距離毎に別の正常音モデルを学習し、距離毎正常音モデルデータベース５０２に格納する。各モデルの学習のアルゴリズムは正常音モデル学習部２０４と同一でよい。

図６は、距離別の異常検知実行時の処理に係るブロック図である。複数距離入力音取得部２０１から距離−音量制約付き音抽出部２０３までの処理は図２と同一である。距離毎異常検知部６０１は、距離−音量制約付き音抽出部２０３が出力した診断対象抽出音スペクトログラムと複数距離入力音取得部２０１が出力した距離時系列とを用いて、診断対象抽出音スペクトログラムを、録音時の距離毎に分割し、分割したスペクトログラムに対応した距離の正常音モデルを用いて異常検知を行い、推定異常度を出力する。

統合異常検知部６０２は、分割したスペクトログラム間にわたっての推定異常度を統合する。もし、事前に距離ｄ毎のＲＯＣ（Receiver Operating Characteristic）曲線におけるＡＵＣ（Area under the curve）をｗ＿ｄとして計算している場合は、各距離ｄの異常度に、ｗ＿ｄが大きいほど大きくなる重み係数を乗算した値の総和を統合推定異常度として出力する。重み係数は例えば、−１．０／ｌｏｇ（ｗ＿ｄ）である。

異常表示部６０３は、前記統合推定異常度の値を表示し、さらに統合推定異常度の値が一定以上である場合には異常である旨を表示する。

図７は、距離−音量制約付き音抽出部２０３による音抽出の処理手順を示すフローチャートである。まず、Ｓ７０１において、距離−音量制約付き音抽出部２０３は、入力音スペクトログラムを行列Ｘとし、行列Ｘに対する教師なしＮＭＦの初期化を実行する。例えば、各音源のアクティベーションと基底を乱数で初期化し、Ｓ７０２に進む。
Ｓ７０２において、距離−音量制約付き音抽出部２０３は、行列Ｘに対する教師なしＮＭＦを実行し、Ｓ７０３に進む。
Ｓ７０３において、距離−音量制約付き音抽出部２０３は、教師なしＮＭＦで得られたアクティベーションを録音時の距離ｄ毎に分割し、Ｓ７０４に進む。アクティベーションは、入力音スペクトログラムにおける時間成分を示し、入力音の時間と距離の関係は距離時系列として与えられている。したがって、距離時系列から距離に対応する時間帯を特定し、距離に応じた時間帯でアクティベーションを分割することができる。

Ｓ７０４において、距離−音量制約付き音抽出部２０３は、基底ｋを選択して、Ｓ７０５に進む。
Ｓ７０５において、距離−音量制約付き音抽出部２０３は、選択した基底ｋについて、分割した時間内にわたるアクティベーションの平均値ａ＿｛ｋ，ｄ｝を計算し、Ｓ７０６に進む。すなわち、ａ＿｛ｋ，ｄ｝は、距離ｄで録音した時間帯における基底ｋのアクティベーションの平均値となる。
Ｓ７０６において、距離−音量制約付き音抽出部２０３は、ａ＿｛ｋ，ｄ｝の大小順序が距離の逆数１／ｄの大小順序と一致するか否かを判定する。判定の結果、一致するならば（Ｓ７０６；Ｙｅｓ）、Ｓ７０７に進む。また、一致しなければ（Ｓ７０６；Ｎｏ）、Ｓ７０８に進む。
Ｓ７０７において、距離−音量制約付き音抽出部２０３は、選択した基底ｋを診断対象１０５の成分とみなして集合Ｓに格納し、Ｓ７０８に進む。
Ｓ７０８において、距離−音量制約付き音抽出部２０３は、全ての基底ｋを選択したかを判定する。判定の結果、未選択の基底ｋが残っていれば（Ｓ７０８；Ｎｏ）、Ｓ７０４に進む。そして、全ての基底ｋが選択済みであれば（Ｓ７０８；Ｙｅｓ）、Ｓ７０９に進む。

Ｓ７０９において、距離−音量制約付き音抽出部２０３は、診断対象音スペクトログラム復元を行う。具体的には、距離−音量制約付き音抽出部２０３は、集合Ｓの全要素ｋにわたって、アクティベーションＷ＿ｋと基底ベクトルＨ＿ｋとの乗算Ｗ＿ｋＨ＿ｋの総和＾Ｘを計算する。距離−音量制約付き音抽出部２０３は、＾Ｘを診断対象抽出音として出力し、処理を終了する。

図８は、音抽出の第１の変形例を示すフローチャートである。まず、Ｓ８０１において、距離−音量制約付き音抽出部２０３は、最長距離で録音した時刻のスペクトログラムである行列Ｘ＿ｆａｒに対する教師なしＮＭＦの初期化を行い、Ｓ８０２に進む。
Ｓ８０２において、距離−音量制約付き音抽出部２０３は、行列Ｘ＿ｆａｒに対する教師なしＮＭＦを行い、行列Ｘ＿ｆａｒに対する背景雑音のアクティベーションの初期解Ｗ＿ｆａｒ＿ｉｎｉと背景雑音の基底ベクトルＨ＿ｆａｒ＿ｉｎｉを出力し、Ｓ８０３に進む。

Ｓ８０３において、距離−音量制約付き音抽出部２０３は、入力音スペクトログラムである行列Ｘに対する半教師有りＮＭＦの初期化を行う。すなわち、背景雑音のアクティベーションとして、最長距離で録音した時刻の初期解をＷ＿ｆａｒ＿ｉｎｉとし、それ以外の時刻の初期解はＷ＿ｆａｒ＿ｉｎｉの時間平均値とする。背景雑音の基底ベクトルにＨ＿ｆａｒ＿ｉｎｉを格納する。診断対象音のアクティベーションとして、最長距離で録音した時刻の初期解に十分小さい正の値を格納し、それ以外の時刻の初期解には乱数を格納する。診断対象音の基底ベクトルに初期解として乱数を格納し、Ｓ８０４に進む。

Ｓ８０４において、距離−音量制約付き音抽出部２０３は、行列Ｘに対する半教師有りＮＭＦを実行し、Ｓ８０５に進む。
Ｓ８０５において、距離−音量制約付き音抽出部２０３は、図７のＳ７０９と同様に診断対象音スペクトログラム復元を行い、処理を終了する。

図９は、音抽出の第２の変形例を示すフローチャートである。図９は、図８のＳ８０４に対応するＳ９０１において行列Ｘに対する距離正則化付き半教師有りＮＭＦを実行する以外は図８と同じである。距離正則化とは、ＮＭＦの繰り返し処理毎に、距離がｒ倍である時刻のアクティベーションの平均値の比率が１／ｒとなるように、アクティベーションを距離毎に定数倍する処理である。

上述してきたように、本実施例に係る音抽出システム及び音抽出方法は、診断対象からの距離が異なる複数の位置で録音した複数の入力音を距離と対応付けて取得し、複数の入力音についてそれぞれ特徴量を求め、特徴量と対応する距離との組み合わせを複数用いて、診断対象の音の特徴量を抽出する。このため、入力信号から外来の雑音を除去し、診断対象の音を選択的に抽出することができる。

そして、本実施例に係る音抽出システム及び音抽出方法は、抽出したい音と、除去したい雑音の両方の学習データが事前に与えられている条件を必要としない。例えば、事前に学習できる音が雑音の混ざった正常時の診断対象の音のみであってもよい。また、診断対象の正常時の音だけでなく、事前の学習が困難な異常音も抽出することができる。

また、本実施例に係る音抽出システム及び音抽出方法は、同一のマイクロホンを移動させて複数の位置で録音した複数の入力音を用いて診断対象の音を抽出することができる。このため、可搬の端末装置単体で運用することが可能である。また、録音を行うべき位置をマイクロホンの位置との関係を出力してユーザを誘導することで、録音条件の安定化、及び録音中のユーザの心理負担の軽減の効果を奏することができる。

また、本実施例に係る音抽出システム及び音抽出方法は、抽出された診断対象の音の特徴量に基づいて推定異常度を計算することで、診断対象の異常を検知することができる。また、推定異常度に応じた表示により、ユーザに異常を認識させることができる。異常推定度は、例えば、抽出した診断対象の音の特徴量と診断対象の適正動作時の音の特徴量とを比較して求めればよい。さらに、診断対象の適正動作時の音の特徴量を正常音モデルとして予め学習することも可能である。

また、本実施例に係る音抽出システム及び音抽出方法は、複数の距離に対応する複数の特徴量に共通して存在し、距離に応じた大小関係を示す特徴成分を診断対象の音の特徴量として抽出することができる。すなわち、複数の距離で録音するので、短距離で録音した時刻に音量が大きく、長距離で録音した時刻に音量が小さい成分を診断対象音であると特定することができ、その成分だけを抽出することができる。また、大小関係のみではなく、距離に応じた変化を示す特徴成分を診断対象の音の特徴量として抽出することも可能である。

また、本実施例に係る音抽出システム及び音抽出方法は、複数の入力音についてそれぞれ周波数領域信号を計算し、それぞれの周波数領域信号からスペクトログラムを計算して、該スペクトログラムを特徴量として用いることができる。

本実施例では説明を省略したが、診断対象は、複数の動作モードを有する装置であってもよい。この場合、複数の動作モードのいずれかで適正に動作している状態で録音を行い、正常音モデルを学習する。

また、本実施例では、正常音モデルの学習を含めて説明を行ったが、正常音モデルは予め与えられていてもよい。また、本実施例では、診断対象の音を抽出したのち、異常の検知まで行う構成を例示して説明を行ったが、例えば抽出した診断対象音スペクトログラムから診断対象の音を再構成し、再構成した診断対象の音をユーザが聞いて異常の有無を判断することも可能である。また、本実施例では、指定した距離でそれぞれ録音を行う場合を例示したが、録音を継続したまま録音位置を移動させて、診断対象の音を抽出してもよい。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD（Solid State Drive）等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１０１・・・可搬端末、１０２・・・マイクロホン、１０３・・・ＡＤ変換器、１０４・・・測距センサ、１０５・・・診断対象、１０６・・・背景雑音、２０１・・・複数距離入力音取得部、２０２・・・前処理部、２０３・・・距離−音量制約付き音抽出部、２０４・・・正常音モデル学習部、２０５・・・正常音モデルデータベース、３０１・・・異常検知部、３０２・・・異常表示部、５０１・・・距離毎正常音モデル学習部、５０２・・・距離毎正常音モデルデータベース、６０１・・・距離毎異常検知部、６０２・・・統合異常検知部、６０３・・・異常表示部

Claims

診断対象からの距離が異なる複数の位置で録音した複数の入力音を前記距離と対応付けて取得する複数距離入力音取得部と、
前記複数の入力音についてそれぞれ特徴量を求める前処理部と、
前記特徴量と対応する距離との組み合わせを複数用いて、前記診断対象の音の特徴量を抽出する音抽出部と、
を備えたことを特徴とする音抽出システム。
前記複数距離入力音取得部は、同一のマイクロホンを移動させて前記複数の位置で録音した複数の入力音を取得することを特徴とする請求項１に記載の音抽出システム。
前記複数距離入力音取得部は、マイクロホンと前記複数の位置との関係を出力して前記複数の位置への誘導を行い、前記マイクロホンを移動させて前記複数の位置で録音した複数の入力音を取得することを特徴とする請求項１に記載の音抽出システム。
前記音抽出部により抽出された前記診断対象の音の特徴量に基づいて、前記診断対象の異常を示す推定異常度を計算する異常検知部をさらに備えたことを特徴とする請求項１に記載の音抽出システム。
前記音抽出部により抽出された前記診断対象の音の特徴量に基づいて、前記診断対象の異常を示す推定異常度を計算する異常検知部と、
前記推定異常度に応じた表示を行う異常表示部と
をさらに備えたことを特徴とする請求項１に記載の音抽出システム。
前記音抽出部により抽出された前記診断対象の音の特徴量と前記診断対象の適正動作時の音の特徴量とを比較して、前記診断対象の異常を示す推定異常度を計算する異常検知部をさらに備えたことを特徴とする請求項１に記載の音抽出システム。
前記診断対象の適正動作時の音の特徴量を学習する学習部と、
前記音抽出部により抽出された前記診断対象の音の特徴量と前記適正動作時の音の特徴量とを比較して、前記診断対象の異常を示す推定異常度を計算する異常検知部と
をさらに備えたことを特徴とする請求項１に記載の音抽出システム。
前記音抽出部は、前記複数の距離に対応する複数の特徴量に共通して存在し、前記距離に応じた大小関係を示す特徴成分を前記診断対象の音の特徴量として抽出することを特徴とする請求項１に記載の音抽出システム。
前記音抽出部は、前記複数の距離に対応する複数の特徴量に共通して存在し、前記距離に応じた変化を示す特徴成分を前記診断対象の音の特徴量として抽出することを特徴とする請求項１に記載の音抽出システム。
前記前処理部は、前記複数の入力音についてそれぞれ周波数領域信号を計算し、それぞれの周波数領域信号からスペクトログラムを計算して、該スペクトログラムを前記特徴量とすることを特徴とする請求項１に記載の音抽出システム。
診断対象からの距離が異なる複数の位置で録音した複数の入力音を前記距離と対応付けて取得する複数距離入力音取得ステップと、
前記複数の入力音についてそれぞれ特徴量を求める前処理ステップと、
前記特徴量と対応する距離との組み合わせを複数用いて、前記診断対象の音の特徴量を抽出する音抽出ステップと
を含むことを特徴とする音抽出方法。