JP7304301B2 - Acoustic diagnostic method, acoustic diagnostic system, and acoustic diagnostic program - Google Patents

Acoustic diagnostic method, acoustic diagnostic system, and acoustic diagnostic program Download PDF

Info

Publication number
JP7304301B2
JP7304301B2 JP2020017101A JP2020017101A JP7304301B2 JP 7304301 B2 JP7304301 B2 JP 7304301B2 JP 2020017101 A JP2020017101 A JP 2020017101A JP 2020017101 A JP2020017101 A JP 2020017101A JP 7304301 B2 JP7304301 B2 JP 7304301B2
Authority
JP
Japan
Prior art keywords
sound
spectrogram
harmonic
sudden
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020017101A
Other languages
Japanese (ja)
Other versions
JP2021124887A (en
Inventor
佳小里 末房
洋平 川口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020017101A priority Critical patent/JP7304301B2/en
Publication of JP2021124887A publication Critical patent/JP2021124887A/en
Application granted granted Critical
Publication of JP7304301B2 publication Critical patent/JP7304301B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Description

本発明は、音響診断方法、音響診断システム、及び音響診断プログラムに関する。 The present invention relates to an acoustic diagnostic method, an acoustic diagnostic system, and an acoustic diagnostic program.

設備の異常や故障予兆などの状態は、音に現れることが多い。そこで、設備の状態を把握するために、設備の稼働音に基づく音響診断は重要である。音響診断では、稼働音の本質的な特徴を埋め込んだ特徴抽出方法が求められる。 Equipment abnormalities and signs of failure often appear in sounds. Acoustic diagnosis based on the operation sound of equipment is therefore important in order to grasp the condition of the equipment. Acoustic diagnosis requires a feature extraction method that embeds the essential features of operating sounds.

設備の状態を音響診断する方法として、特許文献1には、「昇降機診断システムは、計測データ(センサデータ)から特徴量を求め、診断対象となる昇降機の計測データに基づき当該昇降機の運転状態を特定し、診断対象の昇降機の種別又は識別子と当該昇降機について特定した運転状態との組み合わせに対応する、正常モデルと診断用閾値との組み合わせを選択し、診断対象の昇降機について取得した計測データから求めた特徴量と正常モデルとに基づき、特徴量が正常状態で観測される確率を求め、求めた確率を診断対象の昇降機について取得した閾値と比較することにより昇降機の状態を診断する。昇降機診断システムは、例えば、複雑度の異なる複数の正常モデルを学習し、学習した複数の正常モデルのうち複雑度が最小のものを選択する。」と記載されている。 As a method of acoustically diagnosing the state of equipment, Patent Document 1 describes, "Elevator diagnosis system obtains feature amounts from measurement data (sensor data), and determines the operating state of the elevator based on the measurement data of the elevator to be diagnosed. select the combination of the normal model and diagnostic threshold corresponding to the combination of the type or identifier of the elevator to be diagnosed and the operating state specified for the elevator, and obtain from the measurement data acquired for the elevator to be diagnosed Based on the feature value and the normal model, the probability that the feature value is observed in the normal state is obtained, and the state of the elevator is diagnosed by comparing the obtained probability with the threshold obtained for the elevator to be diagnosed.Elevator diagnosis system , for example, learns a plurality of normal models with different degrees of complexity, and selects the one with the lowest complexity among the plurality of trained normal models.”

特開2018-95429号公報JP 2018-95429 A

上述の特許文献1に開示された技術は、音響センサで計測した信号そのものから特徴量を抽出し、学習済みの正常モデルに入力することで設備の状態を推定する。しかしながら、この従来技術では、対象設備音の周波数構造が時間変化する場合、または、環境雑音が大きい場合、特徴量空間が複雑になることから、大量の学習データを要したり、精度よく状態推定ができなかったりするという問題がある。 The technique disclosed in the above-mentioned Patent Literature 1 extracts a feature amount from the signal itself measured by the acoustic sensor and inputs it into a learned normal model, thereby estimating the state of the facility. However, in this prior art, when the frequency structure of the target equipment sound changes over time, or when the environmental noise is large, the feature amount space becomes complicated. There is a problem that it can not be done.

本発明は、上述の点を考慮してなされたものであって、設備の状態を診断する音響診断において、大量の学習データを要さず、精度よく状態推定し得るようにすることを1つの目的とする。 The present invention has been made in consideration of the above points, and one of the objects of the present invention is to enable accurate state estimation without requiring a large amount of learning data in acoustic diagnosis for diagnosing the state of equipment. aim.

上記課題を解決するために、本発明においては、一態様として、音響診断システムが実行する音響診断方法は、診断対象設備の稼働音を含む入力音を取得する入力音取得工程と、前記入力音のスペクトログラムを計算する前処理工程と、前記スペクトログラムを、調波音-突発音音源分離により、調波音スペクトログラム及び突発音スペクトログラムへ分離する音源分離工程と、前記調波音スペクトログラム及び前記突発音スペクトログラムを連結した特徴量ベクトルを生成する特徴量ベクトル生成工程と、前記特徴量ベクトルと学習モデルに基づいて前記診断対象設備の状態を推定する状態推定工程とを含むようにした。 In order to solve the above problems, in one aspect of the present invention, a sound diagnosis method executed by a sound diagnosis system includes an input sound acquisition step of acquiring an input sound including an operation sound of equipment to be diagnosed; a source separation step of separating the spectrogram into a harmonic sound spectrogram and a sudden sound spectrogram by harmonic sound-sudden sound source separation; and concatenating the harmonic sound spectrogram and the sudden sound spectrogram. The method includes a feature amount vector generation step of generating a feature amount vector, and a state estimation step of estimating the state of the facility to be diagnosed based on the feature amount vector and the learning model.

本発明によれば、例えば、設備の状態を診断する音響診断において、大量の学習データを要さず、精度よく状態推定できる。 According to the present invention, for example, in acoustic diagnosis for diagnosing the state of equipment, it is possible to accurately estimate the state without requiring a large amount of learning data.

実施形態1に係る音響診断システムの状態推定モデルの学習時の構成を示すブロック図である。FIG. 3 is a block diagram showing the configuration of the state estimation model of the acoustic diagnosis system according to Embodiment 1 during learning; 実施形態1に係る音響診断システムの状態推定モデルの学習時の処理を示すフローチャートである。5 is a flow chart showing processing during learning of the state estimation model of the acoustic diagnosis system according to the first embodiment. 実施形態1に係る音響診断システムの状態推定実行時の構成を示すブロック図である。2 is a block diagram showing the configuration of the acoustic diagnostic system according to Embodiment 1 when state estimation is executed; FIG. 実施形態1に係る音響診断システムの状態推定実行時の処理を示すフローチャートである。5 is a flow chart showing processing during state estimation execution of the acoustic diagnostic system according to the first embodiment. 実施形態2に係る音響診断システムの正常音モデルの学習時の構成を示すブロック図である。FIG. 11 is a block diagram showing the configuration of the acoustic diagnostic system according to Embodiment 2 during learning of a normal sound model; 実施形態2に係る音響診断システムの異常検知実行時の構成を示すブロック図である。FIG. 11 is a block diagram showing the configuration of the acoustic diagnosis system according to the second embodiment when abnormality detection is executed; 実施形態3に係る音響診断システムの状態推定モデルの学習時の構成を示すブロック図である。FIG. 12 is a block diagram showing the configuration of the state estimation model of the acoustic diagnosis system according to Embodiment 3 during learning; 実施形態3に係る音響診断システムの状態推定モデルの学習時の処理を示すフローチャートである。10 is a flowchart showing processing during learning of a state estimation model of the acoustic diagnosis system according to Embodiment 3; 実施形態3に係る音響診断システムの状態推定実行時の構成を示すブロック図である。FIG. 12 is a block diagram showing the configuration of the acoustic diagnostic system according to the third embodiment when state estimation is executed; 実施形態3に係る音響診断システムの状態推定実行時の処理を示すフローチャートである。11 is a flow chart showing processing during state estimation execution of the acoustic diagnostic system according to the third embodiment. 実施形態4に係る音響診断システムの状態推定モデルの学習時の構成を示すブロック図である。FIG. 12 is a block diagram showing the configuration of the state estimation model of the acoustic diagnosis system according to the fourth embodiment during learning; 実施形態4に係る音響診断システムの状態推定モデルの学習時の処理を示すフローチャートである。FIG. 12 is a flowchart showing processing during learning of the state estimation model of the acoustic diagnosis system according to the fourth embodiment; FIG. 実施形態4に係る音響診断システムの状態推定実行時の構成を示すブロック図である。FIG. 12 is a block diagram showing the configuration of the acoustic diagnostic system according to the fourth embodiment when state estimation is executed; 実施形態4に係る音響診断システムの状態推定実行時の処理を示すフローチャートである。FIG. 16 is a flow chart showing processing during execution of state estimation of the acoustic diagnosis system according to the fourth embodiment; FIG. 実施形態5に係る音響診断システムの状態推定モデルの学習時の構成を示すブロック図である。FIG. 12 is a block diagram showing the configuration of the state estimation model of the acoustic diagnosis system according to Embodiment 5 during learning; 実施形態5に係る音響診断システムの状態推定実行時の構成を示すブロック図である。FIG. 14 is a block diagram showing the configuration of the acoustic diagnostic system according to Embodiment 5 when state estimation is executed; 音響診断システムを実現するコンピュータのハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the computer which implement|achieves an acoustic diagnostic system.

以下、本発明の好適な実施形態を説明する。以下において、同一又は類似の要素及び処理に同一の符号を付し、重複説明を省略する。また、後出の実施形態では、既出の実施形態との差異のみを説明し、重複説明を省略する。 Preferred embodiments of the present invention are described below. In the following, the same or similar elements and processes are denoted by the same reference numerals, and overlapping descriptions are omitted. Further, in the embodiments described later, only differences from the previously described embodiments will be described, and redundant description will be omitted.

また、以下の説明及び各図で示す構成及び処理は、本発明の理解及び実施に必要な程度で実施形態の概要を例示するものであり、本発明に係る実施の態様を限定することを意図する趣旨ではない。また、各実施形態及び各変形例は、本発明の趣旨を逸脱せず、整合する範囲内で、一部又は全部を組合せることができる。 In addition, the configuration and processing shown in the following description and drawings are intended to illustrate the outline of the embodiments to the extent necessary for understanding and implementing the present invention, and are intended to limit the embodiments according to the present invention. not intended to do so. Moreover, each embodiment and each modification can be combined in whole or in part without departing from the gist of the present invention and within a matching range.

[実施形態1]
<実施形態1の音響診断システム1の状態推定モデルの学習時の構成>
図1は、実施形態1に係る音響診断システム1の状態推定モデルの学習時の構成を示すブロック図である。音響診断システム1は、状態推定モデルの学習時の構成として、入力音取得部11、前処理部12、調波音-突発音音源分離部13、ベクトル連結部14、状態推定モデル学習部15、及び状態推定モデルデータベース16を有する。
[Embodiment 1]
<Configuration during learning of the state estimation model of the acoustic diagnostic system 1 of the first embodiment>
FIG. 1 is a block diagram showing the configuration during learning of the state estimation model of the acoustic diagnosis system 1 according to the first embodiment. The acoustic diagnosis system 1 includes an input sound acquisition unit 11, a preprocessing unit 12, a harmonic sound-sudden sound source separation unit 13, a vector connection unit 14, a state estimation model learning unit 15, and a It has a state estimation model database 16 .

入力音取得部11は、マイクロホンを介して取得又は収録された音響診断対象の設備の稼働音を含むアナログ入力音をデジタル入力音(時間領域デジタル入力音)に変換する。 The input sound acquisition unit 11 converts an analog input sound including an operation sound of equipment for acoustic diagnosis acquired or recorded via a microphone into a digital input sound (time domain digital input sound).

前処理部12は、入力音取得部11によって変換されたデジタル入力音をフレームごとに分割し、そのフレームに窓関数を乗算し、この窓関数乗算後信号にフーリエ変換を施して、周波数領域信号を計算する。周波数領域信号の計算では、高速フーリエ変換(FFT:Fast Fourier Transform)、短時間フーリエ変換(STFT:Short-Time Fourier Transform)などの他、他の周波数解析手法が用いられてもよい。 The preprocessing unit 12 divides the digital input sound converted by the input sound acquisition unit 11 into frames, multiplies the frames by a window function, performs Fourier transform on the window function multiplied signal, and obtains a frequency domain signal. to calculate In calculating the frequency domain signal, a Fast Fourier Transform (FFT), a Short-Time Fourier Transform (STFT), or other frequency analysis techniques may be used.

前処理部12によって計算された周波数領域信号は、フレームサイズがNであれば、(N/2+1)=M個の周波数ビンそれぞれに1個の複素数が対応する、M個の複素数の組である。さらに、前処理部12は、周波数領域信号から入力音スペクトログラム(パワースペクトログラム又は振幅スペクトログラム)を計算する。 The frequency domain signal calculated by the preprocessor 12 is a set of M complex numbers, one complex number corresponding to each of (N/2+1)=M frequency bins, if the frame size is N. . Furthermore, the preprocessing unit 12 calculates an input sound spectrogram (power spectrogram or amplitude spectrogram) from the frequency domain signal.

調波音-突発音音源分離(HPSS:Harmonic/Percussive Sound Separation)部13は、前処理部12によって計算された入力音スペクトログラムを調波音成分と突発音成分に分離する。HPSSとしては、メディアンフィルタを利用したもの(Fitzgerald, D. (2010). Harmonic/Percussive Separation using Median Filtering. 13th International Conference on Digital Audio Effects (DAFX10), Graz, Austria, 2010.)や、スペクトログラムの時間変化に基づくもの(橘秀幸, 小野順貴, 嵯峨山茂樹.(2009). スペクトルの時間変化に基づく音楽音響信号からの歌声成分の強調と抑圧. 研究報告音楽情報科学 (MUS), 2009(12), 1-6.)、スペクトログラムの滑らかさの異方性に基づくもの(Tachibana, H., Ono, N., Kameoka, H., & Sagayama, S. (2014). Harmonic/percussive sound separation based on anisotropic smoothness of spectrograms. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 22(12), 2059-2073.)などを用いてよい。例えば、スペクトログラムの時間変化に基づくHPSSを利用する場合、目的関数は式(1)、制約条件は式(2)のように定義される。 Harmonic/Percussive Sound Separation (HPSS) section 13 separates the input sound spectrogram calculated by preprocessing section 12 into harmonic sound components and sudden sound components. As HPSS, there are those using median filters (Fitzgerald, D. (2010). Harmonic/Percussive Separation using Median Filtering. 13th International Conference on Digital Audio Effects (DAFX10), Graz, Austria, 2010.) and spectrogram time Based on changes (Hideyuki Tachibana, Nobutaka Ono, Shigeki Sagayama.(2009). Enhancement and suppression of singing voice components from music audio signals based on spectral temporal changes. Research Report Music Information Science (MUS), 2009(12) ), 1-6.), based on anisotropy of spectrogram smoothness (Tachibana, H., Ono, N., Kameoka, H., & Sagayama, S. (2014). Harmonic/percussive sound separation based on anisotropic smoothness of spectrograms. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 22(12), 2059-2073.) may be used. For example, when using HPSS based on the time change of the spectrogram, the objective function is defined as Equation (1), and the constraint is defined as Equation (2).

Figure 0007304301000001
Figure 0007304301000001
Figure 0007304301000002
Figure 0007304301000002

ここで、入力信号、調波音成分、突発音成分のスペクトログラムをそれぞれWt,k、Ht,k、Pt,kと表記し、tとkはそれぞれ時間インデックスと周波数インデックスを表す。 Here, the spectrograms of the input signal, harmonic components, and sudden components are denoted by W t,k , H t,k , and P t,k , respectively, where t and k represent the time index and frequency index, respectively.

上記の最適化問題は、式(3)、式(4)を反復して求めることにより近似的に求められる。

Figure 0007304301000003
Figure 0007304301000004
The above optimization problem can be approximated by iteratively obtaining equations (3) and (4).
Figure 0007304301000003
Figure 0007304301000004

ベクトル連結部14は、調波音成分のベクトル(調波音スペクトログラム)と突発音成分のベクトル(突発音スペクトログラム)を連結し、特徴量ベクトルを生成する。状態推定モデル学習部15は、ベクトル連結部14によって得られた複数の特徴量ベクトルをもとにモデル学習し、学習した状態推定モデルを状態推定モデルデータベース16に格納する。 The vector connecting unit 14 connects a vector of harmonic sound components (harmonic sound spectrogram) and a vector of sudden sound components (sudden sound spectrogram) to generate a feature quantity vector. The state estimation model learning unit 15 performs model learning based on the plurality of feature amount vectors obtained by the vector connection unit 14 and stores the learned state estimation model in the state estimation model database 16 .

なお、状態推定モデルとして、Support Vector Classifier(SVC)、1-Class Support Vector Classifier、Multi-Class Support Vector Classifier、Hidden Markov Model(HMM)、Nearest Neighbor Classifierなどを用いてよい。 Support Vector Classifier (SVC), 1-Class Support Vector Classifier, Multi-Class Support Vector Classifier, Hidden Markov Model (HMM), Nearest Neighbor Classifier, etc. may be used as the state estimation model.

<実施形態1の状態推定モデルの学習処理>
図2は、実施形態1に係る音響診断システム1の状態推定モデルの学習時の処理を示すフローチャートである。
<Learning processing of the state estimation model of the first embodiment>
FIG. 2 is a flowchart showing processing during learning of the state estimation model of the acoustic diagnosis system 1 according to the first embodiment.

ステップS11では、入力音取得部11は、マイクロホンを介して取得又は収録された、音響診断対象の設備の稼働音を含む学習用のアナログ入力音を、デジタル入力音(時間領域デジタル入力音)に変換する。 In step S11, the input sound acquisition unit 11 converts analog input sounds for learning, including operating sounds of the facility to be acoustically diagnosed, which are acquired or recorded via a microphone, into digital input sounds (time-domain digital input sounds). Convert.

次にステップS12では、前処理部12は、入力音取得部11によって変換されたデジタル入力音をフレームごとに分割する。次にステップS13では、前処理部12は、ステップS12で分割されたフレームに窓関数を乗算する。次にステップS14では、前処理部12は、ステップS13での窓関数乗算後信号にフーリエ変換を施して、周波数領域信号を計算する。次にステップS15では、前処理部12は、ステップS14で計算された周波数領域信号から入力音スペクトログラムを計算する。 Next, in step S12, the preprocessing unit 12 divides the digital input sound converted by the input sound acquiring unit 11 into frames. Next, in step S13, the preprocessing unit 12 multiplies the frame divided in step S12 by a window function. Next, in step S14, the preprocessing unit 12 performs Fourier transform on the signal after multiplication with the window function in step S13 to calculate a frequency domain signal. Next, in step S15, the preprocessing unit 12 calculates an input sound spectrogram from the frequency domain signal calculated in step S14.

次にステップS16では、調波音-突発音音源分離部13は、前処理部12によって計算された入力音スペクトログラムを調波音スペクトログラムと突発音スペクトログラムに分離する。次にステップS17では、ベクトル連結部14は、調波音スペクトログラムと突発音スペクトログラムをベクトル連結した特徴量ベクトルを生成する。次にステップS18では、状態推定モデル学習部15は、ベクトル連結部14によって得られた特徴量ベクトルをもとに状態推定モデルを学習し、状態推定モデルデータベース16に格納する。 Next, in step S16, the harmonic sound-sudden sound source separation unit 13 separates the input sound spectrogram calculated by the preprocessing unit 12 into a harmonic sound spectrogram and a sudden sound spectrogram. Next, in step S17, the vector connecting unit 14 generates a feature amount vector obtained by vector connecting the harmonic sound spectrogram and the sudden sound spectrogram. Next, in step S<b>18 , the state estimation model learning unit 15 learns a state estimation model based on the feature amount vector obtained by the vector connection unit 14 and stores it in the state estimation model database 16 .

<実施形態1の音響診断システム1の状態推定実行時の構成>
図3は、実施形態1に係る音響診断システム1の状態推定実行時の構成を示すブロック図である。音響診断システム1は、状態推定実行時の構成として、入力音取得部11、前処理部12、調波音-突発音音源分離部13、ベクトル連結部14、状態推定モデルデータベース16、状態推定部21、及び状態推定結果出力部22を有する。
<Configuration of Acoustic Diagnosis System 1 of Embodiment 1 When State Estimation is Executed>
FIG. 3 is a block diagram showing the configuration of the acoustic diagnostic system 1 according to the first embodiment when state estimation is executed. The acoustic diagnostic system 1 includes an input sound acquisition unit 11, a preprocessing unit 12, a harmonic sound-sudden sound source separation unit 13, a vector connection unit 14, a state estimation model database 16, a state estimation unit 21, as a configuration for executing state estimation. , and a state estimation result output unit 22 .

状態推定部21は、状態推定モデルデータベース16から状態推定モデルを読み出し、ベクトル連結部14で生成された特徴量ベクトルを入力として状態推定処理を実行する。すなわち、状態推定部21は、連続するLフレームからなる特徴量ベクトルの時系列を計算し、特徴量ベクトルから推定される各状態クラスに対しその時系列がどの程度の確率で生成されうるかを計算する。 The state estimating unit 21 reads a state estimating model from the state estimating model database 16 and executes state estimating processing with the feature amount vector generated by the vector connecting unit 14 as an input. That is, the state estimating unit 21 calculates the time series of the feature vector consisting of L consecutive frames, and calculates the probability of generating the time series for each state class estimated from the feature vector. .

状態推定結果出力部22は、状態推定部21による推定結果を出力する。例えば、状態推定結果出力部22は、各状態クラスと、対応する確率とを出力してもよいし、最大確率の状態クラスを出力してもよい。 The state estimation result output unit 22 outputs the estimation result by the state estimation unit 21 . For example, the state estimation result output unit 22 may output each state class and the corresponding probability, or may output the state class with the maximum probability.

<実施形態1の状態推定実行時処理>
図4は、実施形態1に係る音響診断システム1の状態推定実行時の処理を示すフローチャートである。本処理において、ステップS11では、入力音取得部11は、マイクロホンを介して取得又は収録された、音響診断対象の設備の稼働音を含む診断用のアナログ入力音を、デジタル入力音(時間領域デジタル入力音)に変換する。
<State Estimation Execution Processing of Embodiment 1>
FIG. 4 is a flow chart showing the processing during state estimation execution of the acoustic diagnosis system 1 according to the first embodiment. In this process, in step S11, the input sound acquisition unit 11 acquires or records analog input sounds for diagnosis including operating sounds of equipment for acoustic diagnosis, which are acquired or recorded via a microphone, as digital input sounds (time domain digital input sound).

また、ステップS17に続きステップS21では、状態推定部21は、状態推定モデルデータベース16から読み出した状態推定モデルをもとに、ベクトル連結部14で生成された特徴量ベクトルを入力として状態推定処理を実行する。次にステップS22では、状態推定結果出力部22は、ステップS21で推定された状態推定結果を出力する。 Further, in step S21 subsequent to step S17, the state estimation unit 21 inputs the feature amount vector generated by the vector connection unit 14 based on the state estimation model read out from the state estimation model database 16, and performs state estimation processing. Execute. Next, in step S22, the state estimation result output unit 22 outputs the state estimation result estimated in step S21.

<実施形態1の効果>
本実施形態によれば、機械等の人工の設備音は本質的に調波音成分と突発音成分のどちらかに属すると仮定できるため、調波音-突発音音源分離(HPSS)を利用することにより、対象音が複雑な場合であっても状態推定に効果的な特徴量を得ることができる。
<Effect of Embodiment 1>
According to this embodiment, since it can be assumed that artificial equipment sounds such as machines essentially belong to either harmonic sound components or sudden sound components, by using harmonic sound-sudden sound source separation (HPSS) , it is possible to obtain effective feature amounts for state estimation even when the target sound is complex.

また、対象音の特徴が対象の状態により異なる場合(例えば、正常状態では定常状態であった音が異常状態では非定常音に変化するように、調波音成分及び突発音成分の分布が変化する場合など)であっても、HPSSにより分離した調波音成分と突発音成分のベクトルを結合することで、変化に対応可能な特徴量を得ることができ、異音検知精度を高めることができる。 In addition, when the characteristics of the target sound differ depending on the state of the target (for example, the distribution of the harmonic sound component and the sudden sound component changes so that the sound that is steady in the normal state changes to a non-stationary sound in the abnormal state) , etc.), by combining the vectors of the harmonic sound component and the sudden sound component separated by HPSS, it is possible to obtain a feature amount that can cope with changes, and to improve the accuracy of abnormal sound detection.

[実施形態2]
<実施形態2の音響診断システム1Bの状態推定モデルの学習時の構成>
図5は、実施形態2に係る音響診断システム1Bの正常音モデルの学習時の構成を示すブロック図である。音響診断システム1Bは異常検知システムであり、実施形態1との違いは、音響診断により推定する設備の状態を正常か異常の二つに限定している点である。このため、音響診断システム1Bは、正常音モデルの学習時の構成として、音響診断システム1と比較して、状態推定モデル学習部15及び状態推定モデルデータベース16のそれぞれに代えて、正常音モデル学習部15B及び正常音モデルデータベース16Bを有する。
[Embodiment 2]
<Configuration during learning of the state estimation model of the acoustic diagnostic system 1B of the second embodiment>
FIG. 5 is a block diagram showing the configuration of the acoustic diagnosis system 1B according to the second embodiment during normal sound model learning. The acoustic diagnosis system 1B is an anomaly detection system, and differs from the first embodiment in that the state of equipment estimated by acoustic diagnosis is limited to two, normal or abnormal. For this reason, compared to the acoustic diagnostic system 1, the acoustic diagnostic system 1B has a normal sound model learning configuration instead of the state estimation model learning unit 15 and the state estimation model database 16 as a configuration for learning a normal sound model. It has a section 15B and a normal sound model database 16B.

正常音モデル学習部15Bは、ベクトル連結部14によって得られた複数の特徴量ベクトルをもとに、連続するLフレームからなる特徴量ベクトルの正常時の分布をモデル学習し、学習した正常音モデルを正常音モデルデータベース16Bに格納する。 The normal sound model learning unit 15B performs model learning of the normal distribution of the feature amount vectors composed of consecutive L frames based on the plurality of feature amount vectors obtained by the vector connecting unit 14, and generates the learned normal sound model. is stored in the normal sound model database 16B.

なお、正常音モデルとして、混合ガウス分布(GMM)、1クラスサポートベクター分類器、部分空間法、局所部分空間法、k-meansクラスタリング、Deep Neural Network(DNN) autoencoder、Convolutional Neural Network(CNN) autoencoder、Long Short Term Memory(LSTM) autoencoder、variational autoencoder(VAE)などを用いてよい。 As normal sound models, Gaussian mixture distribution (GMM), one-class support vector classifier, subspace method, local subspace method, k-means clustering, Deep Neural Network (DNN) autoencoder, Convolutional Neural Network (CNN) autoencoder , Long Short Term Memory (LSTM) autoencoder, variational autoencoder (VAE), etc. may be used.

各正常音モデルには、それぞれのモデルに適したアルゴリズムが知られており、それを用いて学習する。例えば、GMMであればEMアルゴリズムにより、あらかじめ定めたクラスタ数の個数だけのガウス分布の組み合わせによる当てはめがなされる。学習された正常音モデルは、算出されたモデルパラメタによって規定される。そのモデルパラメタ全てを正常音モデルデータベース16Bに格納される。 Algorithms suitable for each normal sound model are known and used for learning. For example, in the case of GMM, an EM algorithm is used to apply a combination of Gaussian distributions corresponding to a predetermined number of clusters. A learned normal sound model is defined by the calculated model parameters. All the model parameters are stored in the normal sound model database 16B.

<実施形態2の音響診断システム1Bの状態推定実行時の構成>
図6は、実施形態2に係る音響診断システム1Bの異常検知実行時の構成を示すブロック図である。音響診断システム1Bは、状態推定実行時の構成として、音響診断システム1と比較して、状態推定部21、状態推定結果出力部22、及び状態推定モデルデータベース16のそれぞれに代えて、異常検知部21B、異常度出力部22B、及び正常音モデルデータベース16Bを有する。
<Configuration of Acoustic Diagnosis System 1B of Embodiment 2 at State Estimation Execution>
FIG. 6 is a block diagram showing the configuration of the acoustic diagnosis system 1B according to the second embodiment when abnormality detection is executed. Compared to the acoustic diagnostic system 1, the acoustic diagnostic system 1B has an abnormality detection unit instead of the state estimation unit 21, the state estimation result output unit 22, and the state estimation model database 16 as a configuration for executing state estimation. 21B, an anomaly level output unit 22B, and a normal sound model database 16B.

異常検知部21Bは、正常音モデルデータベース16Bから正常音モデルを読み出し、診断対象スペクトログラムに対して状態推定処理を実行する。すなわち、連続するLフレームからなる特徴量ベクトルの時系列を計算し、その時系列が正常音モデルから十分な確率で生成されうるかどうかを判定する。 The abnormality detection unit 21B reads a normal sound model from the normal sound model database 16B, and executes state estimation processing on the spectrogram to be diagnosed. That is, it calculates a time series of feature amount vectors consisting of L consecutive frames, and determines whether or not the time series can be generated from the normal sound model with a sufficient probability.

異常検知部21Bは、例えば、正常音モデルがGMMの場合、M×L次元の特徴量ベクトルvが正常音モデル(モデルパラメタΘ=((μ1,Γ1,π1)、・・・(μq,Γq,πq)、(μQ,ΓQ,πQ))から生成される確率p(v|Θ)を、式(5)、式(6)により計算する。 For example, when the normal sound model is GMM, the abnormality detection unit 21B detects that the M×L-dimensional feature amount vector v is the normal sound model (model parameters Θ=((μ1, Γ1, π1), . . . (μq, Γq , πq), (μQ, ΓQ, πQ)) is calculated by equations (5) and (6).

Figure 0007304301000005
Figure 0007304301000005
Figure 0007304301000006
Figure 0007304301000006

この場合、異常検知部21Bは、例えば、確率p(v|Θ)の負の対数尤度“-log(p(v|Θ))”を推定異常度として出力する。 In this case, the anomaly detection unit 21B outputs, for example, the negative logarithmic likelihood “-log(p(v|Θ))” of probability p(v|Θ) as the estimated anomaly degree.

また、異常検知部21Bは、正常音モデルとしてDeep Neural Network(DNN) autoencoderを用いた場合は、学習時に、SGD、Momentum SGD、AdaGrad、RMSprop、AdaDelta、Adamなどの最適化アルゴリズムによって、入力した正常音の特徴量ベクトルと出力される特徴量ベクトルとの間の復元誤差が所定値未満となるように内部パラメタが最適化される。よって、異常音の特徴量ベクトルを入力した場合、入力した異常音の特徴量ベクトルと出力される特徴量ベクトルとの間の復元誤差が所定値以上になることが期待される。よって、異常検知部21Bは、この復元誤差を推定異常度として出力する。 In addition, when a Deep Neural Network (DNN) autoencoder is used as a normal sound model, the anomaly detection unit 21B uses an optimization algorithm such as SGD, Momentum SGD, AdaGrad, RMSprop, AdaDelta, Adam, etc., to perform input normal The internal parameters are optimized such that the restoration error between the sound feature amount vector and the output feature amount vector is less than a predetermined value. Therefore, when a feature amount vector of an abnormal sound is input, it is expected that the restoration error between the input feature amount vector of the abnormal sound and the output feature amount vector is greater than or equal to a predetermined value. Therefore, the abnormality detection unit 21B outputs this restoration error as the estimated degree of abnormality.

異常度出力部22Bは、推定異常度の値、及び、推定異常度の値が一定以上であれば異常である旨を出力する。 The degree-of-abnormality output unit 22B outputs the value of the estimated degree of abnormality and, if the value of the estimated degree of abnormality is equal to or higher than a certain value, outputs that there is an abnormality.

なお、実施形態2の音響診断システム1Bの状態推定モデルの学習時の処理では、実施形態1の音響診断システム1の状態推定モデルの学習時の処理(図2)において、ステップS18で、正常音モデル学習部15Bが、ベクトル連結部14によって得られた特徴量ベクトルをもとに正常音モデルを学習し、正常音モデルデータベース16Bに格納する。 In the process of learning the state estimation model of the acoustic diagnostic system 1B of the second embodiment, in the process of learning the state estimation model of the acoustic diagnostic system 1 of the first embodiment (FIG. 2), in step S18, normal sound The model learning unit 15B learns a normal sound model based on the feature vector obtained by the vector connecting unit 14, and stores the normal sound model in the normal sound model database 16B.

また、実施形態2の音響診断システム1Bの状態推定実行時の処理では、実施形態1の音響診断システム1の状態推定実行時の処理(図4)において、ステップS21で、異常検知部21Bは、正常音モデルデータベース16Bから読み出した状態推定モデルをもとに、ベクトル連結部14で生成された特徴量ベクトルを入力として異常検知処理を実行する。また、ステップS22では、異常度出力部22Bは、ステップS21Bで推定された異常検知結果を出力する。 Further, in the process of executing the state estimation of the acoustic diagnostic system 1B of the second embodiment, in the process of executing the state estimation of the acoustic diagnostic system 1 of the first embodiment (FIG. 4), in step S21, the abnormality detection unit 21B Based on the state estimation model read out from the normal sound model database 16B, the feature amount vector generated by the vector connecting unit 14 is input, and the abnormality detection process is executed. Also, in step S22, the abnormality degree output unit 22B outputs the abnormality detection result estimated in step S21B.

<実施形態2の効果>
本実施形態によれば、診断対象音が正常音であるか異常音であるかを判別することができる。
<Effect of Embodiment 2>
According to the present embodiment, it is possible to determine whether a sound to be diagnosed is a normal sound or an abnormal sound.

[実施形態3]
<実施形態3の音響診断システム1Cの状態推定モデルの学習時の構成>
図7は、実施形態3に係る音響診断システム1Cの状態推定モデルの学習時の構成を示すブロック図である。本実施形態は、低頻度成分を雑音として除去することで状態推定精度を高めることを目的とする。音響診断システム1Cは、実施形態1と比較して、状態推定モデルの学習時の構成として、調波音-突発音音源分離部13の前段に最近傍フィルタリング部12Cを有し、低頻度な成分(音声、作業音、流水音などの突発的あるいは不規則な音)を不要な雑音として除去する点が異なる。
[Embodiment 3]
<Configuration during learning of the state estimation model of the acoustic diagnostic system 1C of the third embodiment>
FIG. 7 is a block diagram showing the configuration during learning of the state estimation model of the acoustic diagnostic system 1C according to the third embodiment. This embodiment aims to improve the state estimation accuracy by removing low-frequency components as noise. Compared to the first embodiment, the acoustic diagnosis system 1C has a nearest neighborhood filtering unit 12C in front of the harmonic sound-sudden sound source separation unit 13 as a configuration for learning the state estimation model, and filters low frequency components ( The difference is that sudden or irregular sounds such as voices, work sounds, running water sounds, etc., are removed as unnecessary noise.

最近傍フィルタリング部12Cは、前処理部12によって出力された入力音スペクトログラムに対し最近傍フィルタをかけ、低頻度成分と高頻度成分に分離し、低頻度成分を除去した低頻度成分除去後スペクトログラムを出力する。調波音-突発音音源分離部13は、最近傍フィルタリング部12Cによって低頻度成分が除去された低頻度成分除去後スペクトログラムを調波音スペクトログラムと突発音スペクトログラムに分離する。 The nearest neighbor filtering unit 12C applies a nearest neighbor filter to the input sound spectrogram output by the preprocessing unit 12, separates it into a low frequency component and a high frequency component, and generates a low frequency component-removed spectrogram obtained by removing the low frequency component. Output. The harmonic sound-sudden sound source separation unit 13 separates the low frequency component-removed spectrogram from which the low frequency components have been removed by the nearest neighborhood filtering unit 12C into a harmonic sound spectrogram and a sudden sound spectrogram.

<実施形態3の状態推定モデルの学習処理>
図8は、実施形態3に係る音響診断システム1Cの状態推定モデルの学習時の処理を示すフローチャートである。実施形態3に係る音響診断システム1Cの状態推定モデルの学習時の処理は、実施形態1に係る音響診断システム1の状態推定モデルの学習時の処理(図2)と比較して、次の点が異なる。
<Learning processing of the state estimation model of the third embodiment>
FIG. 8 is a flowchart showing processing during learning of the state estimation model of the acoustic diagnosis system 1C according to the third embodiment. The processing during learning of the state estimation model of the acoustic diagnostic system 1C according to the third embodiment differs from the processing during learning of the state estimation model of the acoustic diagnostic system 1 according to the first embodiment (FIG. 2) in the following points. is different.

すなわち、ステップS15に続きステップS15Cでは、最近傍フィルタリング部12Cは、前処理部12によって出力された入力音スペクトログラムに対し最近傍フィルタをかけ、低頻度成分と高頻度成分に分離し、低頻度成分を除去した低頻度成分除去後スペクトログラムを出力する。ステップS15Cに続きステップS16では、調波音-突発音音源分離部13は、最近傍フィルタリング部12Cによって低頻度成分が除去された低頻度成分除去後スペクトログラムを調波音スペクトログラムと突発音スペクトログラムに分離する。 That is, in step S15C subsequent to step S15, the nearest neighbor filtering unit 12C applies a nearest neighbor filter to the input sound spectrogram output by the preprocessing unit 12, separates it into low frequency components and high frequency components, Output the spectrogram after removing the low-frequency components. In step S16 following step S15C, the harmonic sound-sudden sound source separation unit 13 separates the low frequency component-removed spectrogram from which the low frequency components have been removed by the nearest neighbor filtering unit 12C into a harmonic sound spectrogram and a sudden sound spectrogram.

<実施形態3の音響診断システム1Cの状態推定実行時の構成>
図9は、実施形態3に係る音響診断システム1Cの状態推定実行時の構成を示すブロック図である。音響診断システム1Cは、音響診断システム1と比較して、状態推定実行時の構成として、調波音-突発音音源分離部13の前段に最近傍フィルタリング部12Cを有する点が異なる。
<Configuration of Acoustic Diagnosis System 1C of Embodiment 3 During State Estimation Execution>
FIG. 9 is a block diagram showing the configuration of the acoustic diagnostic system 1C according to the third embodiment when state estimation is executed. The acoustic diagnostic system 1C differs from the acoustic diagnostic system 1 in that it has a nearest neighbor filtering section 12C in front of the harmonic sound-sudden sound source separation section 13 as a configuration for executing state estimation.

<実施形態3の音響診断システム1Cの状態推定実行時の処理>
図10は、実施形態3に係る音響診断システム1Cの状態推定実行時の処理を示すフローチャートである。実施形態3に係る音響診断システム1Cの状態推定実行時の処理は、実施形態1に係る音響診断システム1の状態推定実行時の処理(図4)と比較して、次の点が異なる。
<Processing when estimating the state of the acoustic diagnostic system 1C of the third embodiment>
FIG. 10 is a flow chart showing the processing during state estimation execution of the acoustic diagnostic system 1C according to the third embodiment. The state estimation execution process of the acoustic diagnostic system 1C according to the third embodiment differs from the state estimation execution process (FIG. 4) of the acoustic diagnostic system 1 according to the first embodiment in the following points.

すなわち、ステップS15Cでは、最近傍フィルタリング部12Cは、前処理部12によって計算された入力音スペクトログラムに対し低頻度成分を除去した低頻度成分除去後スペクトログラムを出力する。次にステップS16では、調波音-突発音音源分離部13は、最近傍フィルタリング部12Cによって出力された低頻度成分除去後スペクトログラムを調波音スペクトログラムと突発音スペクトログラムに分離する。 That is, in step S15C, the nearest neighbor filtering unit 12C outputs a low-frequency-component-removed spectrogram obtained by removing low-frequency components from the input sound spectrogram calculated by the preprocessing unit 12. FIG. Next, in step S16, the harmonic sound-sudden sound source separation unit 13 separates the spectrogram after the low-frequency component removal output by the nearest neighbor filtering unit 12C into a harmonic sound spectrogram and a sudden sound spectrogram.

<実施形態3の効果>
本実施形態によれば、例えば診断対象の装置らしくない環境雑音と仮定できる低頻度の成分(音声、作業音、流水音など突発的あるいは不規則な音)を、HPSSの前段のNNフィルタで雑音除去することで、対象音の特徴量の複雑さを低減し、特徴量に基づく音響診断の精度を向上させることができる。
<Effect of Embodiment 3>
According to this embodiment, for example, low-frequency components (sudden or irregular sounds such as voices, work sounds, and running water sounds) that can be assumed to be environmental noises that are not likely to be diagnostic target devices are filtered by the NN filter in the preceding stage of the HPSS. By removing it, the complexity of the feature amount of the target sound can be reduced, and the accuracy of acoustic diagnosis based on the feature amount can be improved.

[実施形態4]
本実施形態では、複数チャンネルのマイクロホンを介して取得又は収録された音声データを利用し、歪みの無いフィルタリングにより状態推定精度を高める。実施形態3と比較して、本実施形態では、診断に用いるデータを単チャンネルから複数チャンネルに拡張し、無歪のフィルタリングを実現する点で異なる。
[Embodiment 4]
In the present embodiment, speech data acquired or recorded via microphones of multiple channels is used, and the state estimation accuracy is enhanced by filtering without distortion. Compared with Embodiment 3, this embodiment is different in that the data used for diagnosis is extended from a single channel to multiple channels, and distortion-free filtering is realized.

<実施形態4の音響診断システム1Dの状態推定モデルの学習時の構成>
図11は、実施形態4に係る音響診断システム1Dの状態推定モデルの学習時の構成を示すブロック図である。
<Configuration during learning of the state estimation model of the acoustic diagnostic system 1D of the fourth embodiment>
FIG. 11 is a block diagram showing the configuration during learning of the state estimation model of the acoustic diagnostic system 1D according to the fourth embodiment.

音響診断システム1Dは、状態推定モデルの学習時の構成として、多チャンネル入力音取得部11D、前処理部12、最近傍フィルタリング部12C、調波音-突発音音源分離部13、ステアリングベクトル生成部13D1,13D6、雑音生成部13D2,13D7、空間共分散行列計算部13D3,13D8、フィルタ計算部13D4,13D9、フィルタリング部13D5,13D10、ベクトル連結部14、状態推定モデル学習部15、及び状態推定モデルデータベース16を有する。 The acoustic diagnostic system 1D includes a multi-channel input sound acquisition unit 11D, a preprocessing unit 12, a nearest neighbor filtering unit 12C, a harmonic sound-sudden sound source separation unit 13, and a steering vector generation unit 13D1 as a configuration for learning the state estimation model. , 13D6, noise generation units 13D2, 13D7, spatial covariance matrix calculation units 13D3, 13D8, filter calculation units 13D4, 13D9, filtering units 13D5, 13D10, vector connection unit 14, state estimation model learning unit 15, and state estimation model database 16.

多チャンネル入力音取得部11Dは、複数チャンネルのマイクロホンで収録したアナログ入力音をデジタル入力音に変換する。 The multi-channel input sound acquisition unit 11D converts analog input sounds recorded by multi-channel microphones into digital input sounds.

ステアリングベクトル生成部13D1は、調波音スペクトログラムを目的音としたときのステアリングベクトルを生成する。また、ステアリングベクトル生成部13D6は、突発音スペクトログラムを目的音としたときのステアリングベクトルを生成する。ステアリングベクトル生成部13D1,13D6は、図11では、異なる構成として示しているが、単一の構成であってもよい。 The steering vector generator 13D1 generates a steering vector when the harmonic sound spectrogram is the target sound. Also, the steering vector generation unit 13D6 generates a steering vector when the sudden sound spectrogram is used as the target sound. Although the steering vector generators 13D1 and 13D6 are shown as different configurations in FIG. 11, they may have a single configuration.

雑音生成部13D2は、調波音-突発音音源分離部13によって分離された突発音スペクトログラムと、最近傍フィルタリング部12Cによって分離された低頻度成分スペクトログラムを混合し、雑音を生成する。また、雑音生成部13D7は、調波音-突発音音源分離部13によって分離された調波音スペクトログラムと、最近傍フィルタリング部12Cによって分離された低頻度成分スペクトログラムを混合し、雑音を生成する。雑音生成部13D2,13D7は、図11では、異なる構成として示しているが、単一の構成であってもよい。 The noise generation unit 13D2 mixes the sudden sound spectrogram separated by the harmonic sound-sudden sound source separation unit 13 and the low frequency component spectrogram separated by the nearest neighbor filtering unit 12C to generate noise. The noise generation unit 13D7 also mixes the harmonic sound spectrogram separated by the harmonic sound-sudden sound source separation unit 13 and the low-frequency component spectrogram separated by the nearest neighbor filtering unit 12C to generate noise. Although the noise generators 13D2 and 13D7 are shown as different configurations in FIG. 11, they may have a single configuration.

空間共分散行列計算部13D3は、雑音生成部13D2によって生成された雑音の空間共分散行列を求める。また、空間共分散行列計算部13D8は、雑音生成部13D7によって生成された雑音の空間共分散行列を求める。空間共分散行列計算部13D3,13D8は、図11では、異なる構成として示しているが、単一の構成であってもよい。 The spatial covariance matrix calculator 13D3 obtains the spatial covariance matrix of the noise generated by the noise generator 13D2. Also, the spatial covariance matrix calculator 13D8 obtains the spatial covariance matrix of the noise generated by the noise generator 13D7. Spatial covariance matrix calculators 13D3 and 13D8 are shown as different configurations in FIG. 11, but may have a single configuration.

フィルタ計算部13D4は、調波音を目的音としたステアリングベクトルと突発音を雑音とした空間共分散行列から調波音を強調するフィルタを求める。また、フィルタ計算部13D9は、突発音を目的音としたステアリングベクトルと調波音を雑音とした空間共分散行列から突発音を強調するフィルタを求める。フィルタの計算にはMinimum Variance distortionless Response(MVDR)などを用いてよい。フィルタ計算部13D4,13D9は、図11では、異なる構成として示しているが、単一の構成であってもよい。 The filter calculator 13D4 obtains a filter for emphasizing the harmonic sound from the steering vector with the harmonic sound as the target sound and the spatial covariance matrix with the sudden sound as noise. The filter calculator 13D9 obtains a filter for emphasizing the sudden sound from the steering vector with the sudden sound as the target sound and the spatial covariance matrix with the harmonic sound as noise. Minimum Variance Distortionless Response (MVDR) or the like may be used for filter calculation. Although the filter calculation units 13D4 and 13D9 are shown as different configurations in FIG. 11, they may have a single configuration.

フィルタリング部13D5は、多チャンネル入力音取得部11Dによって取得された入力音に対し、フィルタ計算部13D4によって計算された調波音を強調するフィルタを適用し、無歪の調波音成分を求める。また、フィルタリング部13D10は、多チャンネル入力音取得部11Dによって取得された入力音に対し、フィルタ計算部13D9によって計算された突発音を強調するフィルタを適用し、無歪の突発音成分を求める。フィルタリング部13D5,13D10は、図11では、異なる構成として示しているが、単一の構成であってもよい。 The filtering unit 13D5 applies the filter for emphasizing the harmonic sound calculated by the filter calculating unit 13D4 to the input sound obtained by the multichannel input sound obtaining unit 11D, and obtains undistorted harmonic sound components. Further, the filtering unit 13D10 applies the filter for emphasizing the sudden sound calculated by the filter calculating unit 13D9 to the input sound acquired by the multi-channel input sound acquiring unit 11D, and obtains undistorted sudden sound components. Although the filtering units 13D5 and 13D10 are shown as different configurations in FIG. 11, they may have a single configuration.

ベクトル連結部14は、フィルタリング部13D5によって計算された無歪の調波音成分と、フィルタリング部13D10によって計算された無歪の突発音成分を連結する。 The vector connecting unit 14 connects the undistorted harmonic sound component calculated by the filtering unit 13D5 and the undistorted sudden sound component calculated by the filtering unit 13D10.

<実施形態4の音響診断システム1Dの状態推定モデルの学習時の処理>
図12は、実施形態4に係る音響診断システム1Dの状態推定モデルの学習時の処理を示すフローチャートである。実施形態4に係る音響診断システム1Dの状態推定モデルの学習時の処理は、実施形態3に係る音響診断システム1Cの状態推定モデルの学習時の処理(図8)と比較して、次の点が異なる。
<Processing during learning of the state estimation model of the acoustic diagnosis system 1D of the fourth embodiment>
FIG. 12 is a flowchart showing processing during learning of the state estimation model of the acoustic diagnosis system 1D according to the fourth embodiment. The processing during learning of the state estimation model of the acoustic diagnostic system 1D according to the fourth embodiment differs from the processing during learning of the state estimation model of the acoustic diagnostic system 1C according to the third embodiment (FIG. 8) in the following points. is different.

ステップS11Dでは、多チャンネル入力音取得部11Dは、多チャンネルマイクロホンを介して取得又は収録された音響診断対象の設備の稼働音を含む学習用のアナログ入力音を、デジタル入力音(時間領域デジタル入力音)に変換する。 In step S11D, the multi-channel input sound acquisition unit 11D acquires or records analog input sounds for learning, including operating sounds of the facility to be acoustically diagnosed, acquired or recorded via the multi-channel microphones as digital input sounds (time-domain digital input sound).

また、ステップS16に続きステップS16D1では、ステアリングベクトル生成部13D1は調波音スペクトログラムを用いて調波音スペクトログラムを目的音としたときのステアリングベクトルを生成する。また、ステップS16D1では、ステアリングベクトル生成部13D6は突発音スペクトログラムを用いて突発音スペクトログラムを目的音としたときのステアリングベクトルを生成する。 In step S16D1 following step S16, the steering vector generator 13D1 uses the harmonic sound spectrogram to generate a steering vector when the harmonic sound spectrogram is the target sound. Also, in step S16D1, the steering vector generator 13D6 uses the sudden sound spectrogram to generate a steering vector when the sudden sound spectrogram is used as the target sound.

また、ステップS16に続きステップS16D2では、雑音生成部13D2が突発音スペクトログラムと低頻度成分スペクトログラムを混合して雑音を生成し、空間共分散行列計算部13D3が雑音生成部13D2によって生成された雑音の空間共分散行列を求める。また、ステップS16D2では、雑音生成部13D7は調波音スペクトログラムと低頻度成分スペクトログラムを混合して雑音を生成し、空間共分散行列計算部13D8は雑音生成部13D7によって生成された雑音の空間共分散行列を求める。 Further, in step S16D2 following step S16, the noise generator 13D2 mixes the sudden sound spectrogram and the low frequency component spectrogram to generate noise, and the spatial covariance matrix calculator 13D3 generates noise generated by the noise generator 13D2. Find the spatial covariance matrix. In step S16D2, the noise generator 13D7 mixes the harmonic sound spectrogram and the low-frequency component spectrogram to generate noise, and the spatial covariance matrix calculator 13D8 generates the spatial covariance matrix of the noise generated by the noise generator 13D7. Ask for

次にステップS16D3では、フィルタ計算部13D4は、ステアリングベクトル生成部13D1によって生成されたステアリングベクトルと、空間共分散行列計算部13D3によって計算された空間共分散行列から調波音を強調するフィルタを求める。また、ステップS16D3では、フィルタ計算部13D9は、ステアリングベクトル生成部13D6によって生成されたステアリングベクトルと、空間共分散行列計算部13D8によって計算された空間共分散行列から突発音を強調するフィルタを求める。 Next, in step S16D3, the filter calculator 13D4 obtains a filter that emphasizes harmonics from the steering vector generated by the steering vector generator 13D1 and the spatial covariance matrix calculated by the spatial covariance matrix calculator 13D3. Also, in step S16D3, the filter calculator 13D9 obtains a filter that emphasizes the sudden sound from the steering vector generated by the steering vector generator 13D6 and the spatial covariance matrix calculated by the spatial covariance matrix calculator 13D8.

次にステップS16D4では、フィルタリング部13D5は、多チャンネル入力音取得部11Dからの入力音に対してフィルタ計算部13D4によって計算された調波音を強調するフィルタを適用することで、無歪の調波音成分を求める。また、ステップS16D4では、フィルタリング部13D10は、多チャンネル入力音取得部11Dからの入力音に対してフィルタ計算部13D9によって計算された突発音を強調するフィルタを適用することで、無歪の突発音成分を求める。 Next, in step S16D4, the filtering unit 13D5 applies the filter for emphasizing the harmonic sound calculated by the filter calculating unit 13D4 to the input sound from the multichannel input sound acquiring unit 11D, thereby obtaining undistorted harmonic sound. ask for ingredients. Further, in step S16D4, the filtering unit 13D10 applies the filter for emphasizing the sudden sound calculated by the filter calculating unit 13D9 to the input sound from the multi-channel input sound acquiring unit 11D, thereby obtaining an undistorted sudden sound. ask for ingredients.

次にステップS17では、ベクトル連結部14は、ステップS16D4で求められた無歪の調波音成分及び無歪の突発音成分をベクトル連結する。 Next, in step S17, the vector connecting unit 14 vector-connects the undistorted harmonic sound component and the undistorted sudden sound component obtained in step S16D4.

<実施形態4の音響診断システム1Dの状態推定実行時の構成>
図13は、実施形態4に係る音響診断システム1Dの状態推定実行時の構成を示すブロック図である。音響診断システム1Dは、状態推定実行時の構成として、音響モデル学習時の構成と比較して、状態推定モデル学習部15及び状態推定モデルデータベース16のそれぞれに代えて、状態推定部21、状態推定結果出力部22、及び状態推定モデルデータベース16を有する。
<Configuration of Acoustic Diagnosis System 1D of Embodiment 4 When State Estimation is Executed>
FIG. 13 is a block diagram showing the configuration of the acoustic diagnostic system 1D according to the fourth embodiment when state estimation is executed. Compared to the configuration for acoustic model learning, the acoustic diagnostic system 1D includes a state estimation unit 21, a state estimation unit 21, and a state estimation model database 16 instead of the state estimation model learning unit 15 and the state estimation model database 16. It has a result output unit 22 and a state estimation model database 16 .

<実施形態4の音響診断システム1Dの状態推定実行時の処理>
図14は、実施形態4に係る音響診断システムの状態推定実行時の処理を示すフローチャートである。実施形態4に係る音響診断システム1Dの状態推定実行時の処理は、状態推定モデルの学習時の処理(図12)と比較して、ステップS18に代えてステップS21及びS22が実行される点が異なる。
<Processing when estimating the state of the acoustic diagnostic system 1D of the fourth embodiment>
FIG. 14 is a flow chart showing processing when state estimation is executed in the acoustic diagnosis system according to the fourth embodiment. The processing of the acoustic diagnosis system 1D according to the fourth embodiment when performing state estimation is different from the processing when learning the state estimation model (FIG. 12) in that steps S21 and S22 are executed instead of step S18. different.

<実施形態4の効果>
本実施形態では、多チャンネルマイクロホンを用いて取得又は収録された音響診断対象の設備の稼働音を含む対象音を高頻度成分と低頻度成分とに分離し、高頻度成分をH成分(調波音成分)とP成分(突発音成分)に分離する。H成分のステアリングベクトルを生成し、P成分及び低頻度成分を用いてH成分に対する雑音の空間共分散行列を求める。また、P成分のステアリングベクトルを生成し、H成分及び低頻度成分を用いてP成分に対する雑音の空間共分散行列を求める。そして、これらのステアリングベクトル及び空間共分散行列を用いて対象音を強調するフィルタを生成し、フィルタリングすることで、異常検知の精度を高めることができる。
<Effect of Embodiment 4>
In this embodiment, the target sound including the operating sound of the facility for acoustic diagnosis acquired or recorded using a multi-channel microphone is separated into a high frequency component and a low frequency component, and the high frequency component is an H component (harmonic sound component) and P component (sudden sound component). A steering vector for the H component is generated, and the spatial covariance matrix of the noise for the H component is determined using the P component and the low frequency component. Also, a P-component steering vector is generated, and a spatial covariance matrix of noise for the P-component is obtained using the H component and the low-frequency component. Then, by using these steering vectors and spatial covariance matrices to generate a filter that emphasizes the target sound and perform filtering, it is possible to improve the accuracy of abnormality detection.

[実施形態5]
本実施形態では、HPSSによって入力音が音源分離された調波音及び突発音の何れか一方を強調するフィルタを計算し、多チャンネルの対象音に対し、調波音及び突発音の何れか一方からステアリングベクトルを生成し、他方から空間共分散行列を生成し、調波音及び突発音の何れか一方を強調するフィルタリングを行って、状態推定精度を高める。
[Embodiment 5]
In this embodiment, a filter for emphasizing either the harmonic sound or the sudden sound whose sound source is separated by the HPSS is calculated, and steering is performed from either the harmonic sound or the sudden sound for the multi-channel target sound. A vector is generated and a spatial covariance matrix is generated from the other, and filtering is performed to emphasize either the harmonic sound or the burst sound to improve the state estimation accuracy.

本実施形態は、目的音を調波音及び突発音の何れか一方に限定し、フィルタリング後のスペクトログラムのベクトルを連結しない点で実施形態4と異なる。特に、目的音が調波音及び突発音の何れであるかが明らかであり、設備の状態に関わらず目的音が調波音及び突発音の何れであるかが変化しない場合に、本実施形態は有効である。 This embodiment differs from the fourth embodiment in that the target sound is limited to either one of the harmonic sound and the sudden sound, and the vectors of the spectrogram after filtering are not concatenated. In particular, this embodiment is effective when it is clear whether the target sound is a harmonic sound or a sudden sound, and whether the target sound is a harmonic sound or a sudden sound does not change regardless of the state of the equipment. is.

<実施形態5の音響診断システム1Eの状態推定モデルの学習時の構成>
図15は、実施形態5に係る音響診断システム1Eの状態推定モデルの学習時の構成を示すブロック図である。
<Configuration during learning of the state estimation model of the acoustic diagnostic system 1E of the fifth embodiment>
FIG. 15 is a block diagram showing the configuration during learning of the state estimation model of the acoustic diagnostic system 1E according to the fifth embodiment.

音響診断システム1Eは、状態推定モデルの学習時の構成として、多チャンネル入力音取得部11D、前処理部12、最近傍フィルタリング部12C、調波音-突発音音源分離部13、ステアリングベクトル生成部13E1、空間共分散行列計算部13E2、フィルタ計算部13E3、フィルタリング部13E4、状態推定モデル学習部15、及び状態推定モデルデータベース16を有する。 The acoustic diagnostic system 1E includes a multi-channel input sound acquisition unit 11D, a preprocessing unit 12, a nearest neighbor filtering unit 12C, a harmonic sound-sudden sound source separation unit 13, and a steering vector generation unit 13E1 as a configuration for learning the state estimation model. , a spatial covariance matrix calculation unit 13E2, a filter calculation unit 13E3, a filtering unit 13E4, a state estimation model learning unit 15, and a state estimation model database 16.

ステアリングベクトル生成部13E1は、調波音-突発音音源分離部13によって入力音が分離された調波音スペクトログラムを用いて調波音スペクトログラムを目的音としたときのステアリングベクトルを生成する。空間共分散行列計算部13E2は、突発音スペクトログラムから空間共分散行列を計算する。 The steering vector generation unit 13E1 uses the harmonic sound spectrogram obtained by separating the input sound by the harmonic sound-sudden sound source separation unit 13 to generate a steering vector when the harmonic sound spectrogram is used as the target sound. The spatial covariance matrix calculator 13E2 calculates a spatial covariance matrix from the sudden sound spectrogram.

フィルタ計算部13E3は、調波音を目的音としたステアリングベクトルと突発音を雑音とした空間共分散行列から調波音を強調するフィルタを求める。フィルタリング部13E4は、多チャンネル入力音取得部11Dによって取得された入力音に対し、フィルタ計算部13E3によって計算された調波音を強調するフィルタを適用し、無歪の調波音成分を求める。 The filter calculator 13E3 obtains a filter for emphasizing the harmonic sound from the steering vector with the harmonic sound as the target sound and the spatial covariance matrix with the sudden sound as noise. The filtering unit 13E4 applies the filter for emphasizing the harmonic sound calculated by the filter calculating unit 13E3 to the input sound obtained by the multichannel input sound obtaining unit 11D, and obtains undistorted harmonic sound components.

<実施形態5の音響診断システム1Eの状態推定実行時の構成>
図16は、実施形態5に係る音響診断システム1Eの状態推定実行時の構成を示すブロック図である。音響診断システム1Eは、状態推定実行時の構成として、音響モデル学習時の構成と比較して、状態推定モデル学習部15及び状態推定モデルデータベース16に代えて、状態推定部21、状態推定結果出力部22、及び状態推定モデルデータベース16を有する。
<Configuration of Acoustic Diagnosis System 1E of Embodiment 5 When State Estimation is Executed>
FIG. 16 is a block diagram showing the configuration of the acoustic diagnostic system 1E according to the fifth embodiment when state estimation is executed. Compared to the configuration for acoustic model learning, the acoustic diagnostic system 1E includes a state estimating unit 21 and a state estimation result output instead of the state estimating model learning unit 15 and the state estimating model database 16 as the configuration for executing state estimation, compared to the configuration for acoustic model learning. It has a part 22 and a state estimation model database 16 .

なお、図15及び図16では、調波音スペクトログラムからステアリングベクトルを生成し、突発音スペクトログラムから空間共分散行列を計算し、これらから目的音の調波音を強調した無歪の調波音成分を求めるとしている。しかしこれに限らず、突発音スペクトログラムからステアリングベクトルを生成し、調波音スペクトログラムから空間共分散行列を計算し、これらから目的音の突発音を強調した無歪の突発音成分を求めるとしてもよい。 In FIGS. 15 and 16, it is assumed that the steering vector is generated from the harmonic sound spectrogram, the spatial covariance matrix is calculated from the sudden sound spectrogram, and undistorted harmonic sound components are obtained by emphasizing the harmonic sound of the target sound. there is However, the present invention is not limited to this, and a steering vector may be generated from the sudden sound spectrogram, a spatial covariance matrix may be calculated from the harmonic sound spectrogram, and undistorted sudden sound components emphasizing the sudden sound of the target sound may be obtained from these.

なお、実施形態5の音響診断システム1Eの状態推定モデルの学習時の処理では、実施形態4の音響診断システム1Dの状態推定モデルの学習時の処理(図12)及び状態推定実行時の処理(図14)において、ステップS16D1で、ステアリングベクトル生成部16D1が、調波音-突発音音源分離部13によって分離された調波音スペクトログラムからステアリングベクトルを生成する。また、ステップS16D2で、空間共分散行列計算部13E2が、調波音-突発音音源分離部13によって分離された突発音スペクトログラムから空間共分散行列を計算する。 It should be noted that in the processing during learning of the state estimation model of the acoustic diagnostic system 1E of the fifth embodiment, the processing during learning of the state estimation model of the acoustic diagnostic system 1D of the fourth embodiment (FIG. 12) and the processing during execution of state estimation ( 14), in step S16D1, the steering vector generator 16D1 generates a steering vector from the harmonic sound spectrogram separated by the harmonic sound-sudden sound source separator 13. In FIG. Further, in step S16D2, the spatial covariance matrix calculator 13E2 calculates a spatial covariance matrix from the sudden sound spectrogram separated by the harmonic sound-sudden sound source separator 13. FIG.

<実施形態5の効果>
本実施形態では、対象音と周辺雑音がそれぞれ調波音成分と突発音成分に分離される場合、調波音成分を用いて対象音のステアリングベクトルを生成し、突発音成分を用いて雑音の空間共分散行列を求めることができる。それらを用いて対象音を強調するフィルタを生成し、フィルタリングすることで異常検知の精度を高めることができる。
<Effect of Embodiment 5>
In this embodiment, when the target sound and the ambient noise are separated into harmonic sound components and sudden sound components, respectively, the harmonic sound components are used to generate the steering vector of the target sound, and the sudden sound components are used to generate the spatial coherence of the noise. A variance matrix can be obtained. By using them to generate a filter that emphasizes the target sound and filtering, it is possible to improve the accuracy of anomaly detection.

<音響診断システム1,1B,1C,1D,1Eを実現するコンピュータ5000>
図17は、音響診断システム1,1B,1C,1D,1Eを実現するコンピュータ5000のハードウェア構成を示す図である。
<Computer 5000 realizing acoustic diagnostic systems 1, 1B, 1C, 1D, and 1E>
FIG. 17 is a diagram showing the hardware configuration of a computer 5000 that implements the acoustic diagnostic systems 1, 1B, 1C, 1D and 1E.

音響診断システム1,1B,1C,1D,1Eを実現するコンピュータ5000は、CPU(Central Processing Unit)に代表されるプロセッサ5300、RAM(Random Access Memory)等のメモリ5400、入力装置5600(例えば単チャンネルマイクロホン、多チャンネルマイクロホン、キーボード、マウス、タッチパネル等の接続インターフェース)、及び出力装置5700(例えば外部ディスプレイモニタに接続されたビデオグラフィックカード)が、メモリコントローラ5500を通して相互接続される。コンピュータ5000において、所定のプログラムがI/O(Input/Output)コントローラ5200を介してSSDやHDD等の外部記憶装置5800から読み出されて、プロセッサ5300及びメモリ5400の協働により実行されることにより、音響診断システムが実現される。あるいは、音響診断システムを実現するためのプログラムは、ネットワークインターフェース5100を介した通信により外部のコンピュータから取得されてもよい。また、音響診断システムを実現するためのプログラムは記録媒体に記録され、媒体読み取り装置によって読み取られて取得されてもよい。 A computer 5000 that implements the acoustic diagnostic systems 1, 1B, 1C, 1D, and 1E includes a processor 5300 represented by a CPU (Central Processing Unit), a memory 5400 such as a RAM (Random Access Memory), an input device 5600 (for example, a single channel connection interfaces such as microphones, multi-channel microphones, keyboards, mice, touch panels, etc.) and output devices 5700 (eg, a video graphics card connected to an external display monitor) are interconnected through memory controller 5500 . In the computer 5000, a predetermined program is read from an external storage device 5800 such as an SSD or HDD via an I/O (Input/Output) controller 5200, and executed by cooperation of a processor 5300 and a memory 5400. , an acoustic diagnostic system is realized. Alternatively, the program for implementing the acoustic diagnostic system may be acquired from an external computer through communication via network interface 5100. FIG. Also, the program for realizing the acoustic diagnostic system may be recorded on a recording medium and read and acquired by a medium reading device.

本発明は上記した実施形態に限定されるものではなく、様々な変形例を含む。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、矛盾しない限りにおいて、ある実施形態の構成の一部を他の実施形態の構成で置き換え、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、構成の追加、削除、置換、統合、又は分散をすることが可能である。また実施形態で示した構成及び処理は、処理効率又は実装効率に基づいて適宜分散、統合、又は入れ替えることが可能である。 The present invention is not limited to the above-described embodiments, and includes various modifications. For example, the above-described embodiments have been described in detail in order to explain the present invention in an easy-to-understand manner, and are not necessarily limited to those having all the configurations described. Also, as long as there is no contradiction, it is possible to replace part of the configuration of one embodiment with the configuration of another embodiment, and to add the configuration of another embodiment to the configuration of one embodiment. Moreover, it is possible to add, delete, replace, integrate, or distribute a part of the configuration of each embodiment. Also, the configurations and processes shown in the embodiments can be appropriately distributed, integrated, or replaced based on processing efficiency or implementation efficiency.

1,1B,1C,1D,1E:音響診断システム、11:入力音取得部、11D:多チャンネル入力音取得部、12:前処理部、12C:最近傍フィルタリング部、13:調波音-突発音音源分離部、13D1,13D6,13E1:ステアリングベクトル生成部、13D2,13D7:雑音生成部、13D3,13D8,13E2:空間共分散行列計算部、13D4,13D9,13E3:フィルタ計算部、13D5,13D10,13E4:フィルタリング部、14:ベクトル連結部、15:状態推定モデル学習部、15B:正常音モデル学習部、16:状態推定モデルデータベース、16B:正常音モデルデータベース、21:状態推定部、21B:異常検知部、22:状態推定結果出力部、22B:異常度出力部、5000:コンピュータ
1, 1B, 1C, 1D, 1E: acoustic diagnosis system, 11: input sound acquisition unit, 11D: multi-channel input sound acquisition unit, 12: preprocessing unit, 12C: nearest neighbor filtering unit, 13: harmonic sound-sudden sound Sound source separation unit 13D1, 13D6, 13E1: steering vector generation unit 13D2, 13D7: noise generation unit 13D3, 13D8, 13E2: spatial covariance matrix calculation unit 13D4, 13D9, 13E3: filter calculation unit 13D5, 13D10, 13E4: filtering unit, 14: vector connecting unit, 15: state estimation model learning unit, 15B: normal sound model learning unit, 16: state estimation model database, 16B: normal sound model database, 21: state estimation unit, 21B: abnormality Detection unit, 22: state estimation result output unit, 22B: abnormality degree output unit, 5000: computer

Claims (12)

音響診断システムが実行する音響診断方法であって、
診断対象設備の稼働音を含む入力音を取得する入力音取得工程と、
前記入力音のスペクトログラムを計算する前処理工程と、
前記スペクトログラムを、調波音-突発音音源分離により、調波音スペクトログラム及び突発音スペクトログラムへ分離する音源分離工程と、
前記調波音スペクトログラム及び前記突発音スペクトログラムを連結した特徴量ベクトルを生成する特徴量ベクトル生成工程と、
前記特徴量ベクトルと学習モデルに基づいて前記診断対象設備の状態を推定する状態推定工程と
を含んだことを特徴とする音響診断方法。
An acoustic diagnostic method performed by an acoustic diagnostic system, comprising:
an input sound acquisition step of acquiring an input sound including the operation sound of the equipment to be diagnosed;
a preprocessing step of calculating a spectrogram of the input sound;
a sound source separation step of separating the spectrogram into a harmonic sound spectrogram and a sudden sound spectrogram by harmonic sound-sudden sound source separation;
a feature vector generation step of generating a feature vector connecting the harmonic sound spectrogram and the sudden sound spectrogram;
and a state estimation step of estimating the state of the facility to be diagnosed based on the feature quantity vector and the learning model.
前記状態推定工程によって推定された前記診断対象設備の状態を出力する状態推定結果出力工程
を含んだことを特徴とする請求項1に記載の音響診断方法。
The acoustic diagnosis method according to claim 1, further comprising a state estimation result outputting step of outputting the state of the facility to be diagnosed estimated by the state estimating step.
学習用の前記入力音から生成された前記特徴量ベクトルに基づいて前記学習モデルを生成する学習モデル生成工程
を含んだことを特徴とする請求項1に記載の音響診断方法。
2. The acoustic diagnostic method according to claim 1, further comprising: a learning model generating step of generating the learning model based on the feature vector generated from the input sound for learning.
前記学習モデルは、学習用の前記入力音から生成された前記特徴量ベクトルの正常時の分布をモデル学習した正常音モデルであり、
前記状態推定工程において、診断用の前記入力音から生成された前記特徴量ベクトルと前記学習モデルに基づいて前記診断対象設備が正常か否かを推定する
ことを特徴とする請求項3に記載の音響診断方法。
The learning model is a normal sound model obtained by performing model learning of the normal distribution of the feature vector generated from the input sound for learning,
4. The apparatus according to claim 3, wherein in the state estimation step, it is estimated whether or not the facility to be diagnosed is normal based on the feature vector generated from the input sound for diagnosis and the learning model. Acoustic diagnostic method.
前記前処理工程によって計算された前記スペクトログラムを高頻度成分スペクトログラム及び低頻度成分スペクトログラムへ分離する頻度分離工程
を含み、
前記音源分離工程において、前記頻度分離工程によって分離された前記低頻度成分スペクトログラムが除去されたスペクトログラムを、前記調波音スペクトログラム及び前記突発音スペクトログラムへ分離する
ことを特徴とする請求項1~4の何れか1項に記載の音響診断方法。
a frequency separation step of separating the spectrogram calculated by the preprocessing step into a high frequency component spectrogram and a low frequency component spectrogram;
5. The sound source separation step, wherein the spectrogram from which the low-frequency component spectrogram is removed is separated into the harmonic sound spectrogram and the sudden sound spectrogram in the sound source separation step. or 1. The acoustic diagnostic method according to 1.
前記入力音取得工程において、多チャンネルの前記入力音を取得し、
前記前処理工程によって計算された前記スペクトログラムを高頻度成分スペクトログラム及び低頻度成分スペクトログラムへ分離し、前記高頻度成分スペクトログラムを前記音源分離工程へ入力する頻度分離工程と、
前記音源分離工程によって前記高頻度成分スペクトログラムが分離された前記調波音スペクトログラム及び前記突発音スペクトログラムのうち、前記調波音スペクトログラムから第1のステアリングベクトルを生成し、前記突発音スペクトログラムから第2のステアリングベクトルを生成するステアリングベクトル生成工程と、
前記突発音スペクトログラム及び前記低頻度成分スペクトログラムから第1の空間共分散行列を計算し、前記調波音スペクトログラム及び前記低頻度成分スペクトログラムから第2の空間共分散行列を計算する空間共分散行列計算工程と、
前記第1のステアリングベクトル及び前記第1の空間共分散行列から第1のフィルタを計算し、前記第2のステアリングベクトル及び前記第2の空間共分散行列から第2のフィルタを計算するフィルタ計算工程と、
前記入力音取得工程によって取得された多チャンネルの前記入力音に対し前記第1のフィルタを適用することで無歪の前記調波音スペクトログラムを求め、前記入力音に対し前記第2のフィルタを適用することで無歪の前記突発音スペクトログラムを求めるフィルタリング工程と、
を含み、
前記特徴量ベクトル生成工程において、前記フィルタリング工程によって求められた前記調波音スペクトログラム及び前記突発音スペクトログラムを連結して前記特徴量ベクトルを生成する
ことを特徴とする請求項1~4の何れか1項に記載の音響診断方法。
acquiring the multi-channel input sound in the input sound acquiring step;
a frequency separation step of separating the spectrogram calculated by the preprocessing step into a high-frequency component spectrogram and a low-frequency component spectrogram, and inputting the high-frequency component spectrogram to the sound source separation step;
Of the harmonic sound spectrogram and the sudden sound spectrogram from which the high-frequency component spectrogram is separated by the sound source separation step, generating a first steering vector from the harmonic sound spectrogram and generating a second steering vector from the sudden sound spectrogram. a steering vector generation step for generating
a spatial covariance matrix calculation step of calculating a first spatial covariance matrix from the sudden sound spectrogram and the low frequency component spectrogram, and calculating a second spatial covariance matrix from the harmonic sound spectrogram and the low frequency component spectrogram; ,
calculating a first filter from the first steering vector and the first spatial covariance matrix, and calculating a second filter from the second steering vector and the second spatial covariance matrix; and,
Obtaining the undistorted harmonic sound spectrogram by applying the first filter to the multi-channel input sound obtained by the input sound obtaining step, and applying the second filter to the input sound. a filtering step of obtaining said sudden sound spectrogram without distortion by
including
5. The feature vector generating step generates the feature vector by connecting the harmonic sound spectrogram and the sudden sound spectrogram obtained by the filtering step. The acoustic diagnostic method described in .
音響診断システムが行う音響診断方法であって、
診断対象設備の稼働音を含む多チャンネルの入力音を取得する入力音取得工程と、
前記入力音のスペクトログラムを計算する前処理工程と、
前記スペクトログラムを高頻度成分スペクトログラム及び低頻度成分スペクトログラムへ分離する頻度分離工程と、
前記スペクトログラムから前記低頻度成分スペクトログラムが除去された除去後スペクトログラムを、調波音-突発音音源分離により、調波音スペクトログラム及び突発音スペクトログラムへ分離する音源分離工程と、
前記調波音スペクトログラム及び前記突発音スペクトログラムのうちの第1のスペクトログラムからステアリングベクトルを生成するステアリングベクトル生成工程と、
前記調波音スペクトログラム及び前記突発音スペクトログラムのうちの第2のスペクトログラムから空間共分散行列を計算する空間共分散行列計算工程と、
前記ステアリングベクトル及び前記空間共分散行列からフィルタを計算するフィルタ計算工程と、
前記入力音取得工程によって取得された多チャンネルの前記入力音に対し前記フィルタを適用することで、無歪の前記第1のスペクトログラムを求めるフィルタリング工程と、
前記フィルタリング工程によって求められた無歪の前記第1のスペクトログラムと学習モデルに基づいて前記診断対象設備の状態を推定する状態推定工程と
を含んだことを特徴とする音響診断方法。
An acoustic diagnostic method performed by an acoustic diagnostic system,
an input sound acquisition step of acquiring multi-channel input sounds including operating sounds of equipment to be diagnosed;
a preprocessing step of calculating a spectrogram of the input sound;
a frequency separation step of separating the spectrogram into a high frequency component spectrogram and a low frequency component spectrogram;
A sound source separation step of separating the post-removal spectrogram obtained by removing the low-frequency component spectrogram from the spectrogram into a harmonic sound spectrogram and a sudden sound spectrogram by harmonic sound-sudden sound source separation;
generating a steering vector from a first one of the harmonic sound spectrogram and the sudden sound spectrogram;
a spatial covariance matrix calculation step of calculating a spatial covariance matrix from a second one of the harmonic sound spectrogram and the sudden sound spectrogram;
a filter calculation step of calculating a filter from the steering vector and the spatial covariance matrix;
a filtering step of obtaining the undistorted first spectrogram by applying the filter to the multi-channel input sound obtained by the input sound obtaining step;
A sound diagnosis method, comprising: a state estimation step of estimating a state of the facility to be diagnosed based on the undistorted first spectrogram obtained by the filtering step and a learning model.
前記状態推定工程によって推定された前記診断対象設備の状態を出力する状態推定結果出力工程
を含んだことを特徴とする請求項7に記載の音響診断方法。
The acoustic diagnosis method according to claim 7, further comprising a state estimation result outputting step of outputting the state of the facility to be diagnosed estimated by the state estimating step.
学習用の前記入力音から生成された無歪の前記第1のスペクトログラムに基づいて前記学習モデルを生成する学習モデル生成工程
を含んだことを特徴とする請求項7に記載の音響診断方法。
8. The acoustic diagnostic method according to claim 7, further comprising a learning model generation step of generating the learning model based on the undistorted first spectrogram generated from the input sound for learning.
診断対象設備の状態を診断する音響診断システムであって、
診断対象設備の稼働音を含む入力音を取得する入力音取得部と、
前記入力音のスペクトログラムを計算する前処理部と、
前記スペクトログラムを、調波音-突発音音源分離により、調波音スペクトログラム及び突発音スペクトログラムへ分離する音源分離部と、
前記調波音スペクトログラム及び前記突発音スペクトログラムを連結した特徴量ベクトルを生成する特徴量ベクトル生成部と、
前記特徴量ベクトルと学習モデルに基づいて前記診断対象設備の状態を推定する状態推定部と
を備えたことを特徴とする音響診断システム。
An acoustic diagnostic system for diagnosing the state of equipment to be diagnosed,
an input sound acquisition unit that acquires input sounds including operation sounds of equipment to be diagnosed;
a preprocessing unit that calculates a spectrogram of the input sound;
a sound source separation unit that separates the spectrogram into a harmonic sound spectrogram and a sudden sound spectrogram by harmonic sound-sudden sound source separation;
a feature vector generation unit that generates a feature vector connecting the harmonic sound spectrogram and the sudden sound spectrogram;
A sound diagnosis system, comprising: a state estimating unit that estimates a state of the facility to be diagnosed based on the feature quantity vector and the learning model.
診断対象設備の状態を診断する音響診断システムであって、
診断対象設備の稼働音を含む多チャンネルの入力音を取得する入力音取得部と、
前記入力音のスペクトログラムを計算する前処理部と、
前記スペクトログラムを高頻度成分スペクトログラム及び低頻度成分スペクトログラムへ分離する頻度分離部と、
前記スペクトログラムから前記低頻度成分スペクトログラムが除去された除去後スペクトログラムを、調波音-突発音音源分離により、調波音スペクトログラム及び突発音スペクトログラムへ分離する音源分離部と、
前記調波音スペクトログラム及び前記突発音スペクトログラムのうちの第1のスペクトログラムからステアリングベクトルを生成するステアリングベクトル生成部と、
前記調波音スペクトログラム及び前記突発音スペクトログラムのうちの第2のスペクトログラムから空間共分散行列を計算する空間共分散行列計算部と、
前記ステアリングベクトル及び前記空間共分散行列からフィルタを計算するフィルタ計算部と、
前記入力音取得部によって取得された多チャンネルの前記入力音に対し前記フィルタを適用することで、無歪の前記第1のスペクトログラムを求めるフィルタリング部と、
前記フィルタリング部によって求められた無歪の前記第1のスペクトログラムと学習モデルに基づいて前記診断対象設備の状態を推定する状態推定部と
を備えたことを特徴とする音響診断システム。
An acoustic diagnostic system for diagnosing the state of equipment to be diagnosed,
an input sound acquisition unit that acquires multi-channel input sounds including operating sounds of equipment to be diagnosed;
a preprocessing unit that calculates a spectrogram of the input sound;
a frequency separator that separates the spectrogram into a high frequency component spectrogram and a low frequency component spectrogram;
a sound source separation unit that separates the post-removal spectrogram obtained by removing the low-frequency component spectrogram from the spectrogram into a harmonic sound spectrogram and a sudden sound spectrogram by harmonic sound-sudden sound source separation;
a steering vector generator that generates a steering vector from a first spectrogram of the harmonic sound spectrogram and the sudden sound spectrogram;
a spatial covariance matrix calculator that calculates a spatial covariance matrix from a second one of the harmonic sound spectrogram and the sudden sound spectrogram;
a filter calculator that calculates a filter from the steering vector and the spatial covariance matrix;
a filtering unit that obtains the undistorted first spectrogram by applying the filter to the multi-channel input sound acquired by the input sound acquisition unit;
A sound diagnosis system, comprising: a state estimating section for estimating a state of the facility to be diagnosed based on the undistorted first spectrogram obtained by the filtering section and a learning model.
請求項10又は11に記載の音響診断システムとしてコンピュータを機能させるための音響診断プログラム。 An acoustic diagnostic program for causing a computer to function as the acoustic diagnostic system according to claim 10 or 11.
JP2020017101A 2020-02-04 2020-02-04 Acoustic diagnostic method, acoustic diagnostic system, and acoustic diagnostic program Active JP7304301B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020017101A JP7304301B2 (en) 2020-02-04 2020-02-04 Acoustic diagnostic method, acoustic diagnostic system, and acoustic diagnostic program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020017101A JP7304301B2 (en) 2020-02-04 2020-02-04 Acoustic diagnostic method, acoustic diagnostic system, and acoustic diagnostic program

Publications (2)

Publication Number Publication Date
JP2021124887A JP2021124887A (en) 2021-08-30
JP7304301B2 true JP7304301B2 (en) 2023-07-06

Family

ID=77459030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020017101A Active JP7304301B2 (en) 2020-02-04 2020-02-04 Acoustic diagnostic method, acoustic diagnostic system, and acoustic diagnostic program

Country Status (1)

Country Link
JP (1) JP7304301B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004317248A (en) 2003-04-15 2004-11-11 Ricoh Co Ltd Sound identification method, noise evaluation device, noise evaluation method, noise evaluation program and recording medium
JP2016095231A (en) 2014-11-14 2016-05-26 積水化学工業株式会社 Analysis data creating method, frequency filter creating method, abnormal sound generation position locating method, analysis data creating device, frequency filter creating device, and abnormal sound generation position locating device
JP2017090606A (en) 2015-11-09 2017-05-25 日本電信電話株式会社 Abnormal sound detection device, abnormal sound detection learning device, method thereof, and program
CN106847306A (en) 2016-12-26 2017-06-13 华为技术有限公司 The detection method and device of a kind of abnormal sound signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004317248A (en) 2003-04-15 2004-11-11 Ricoh Co Ltd Sound identification method, noise evaluation device, noise evaluation method, noise evaluation program and recording medium
JP2016095231A (en) 2014-11-14 2016-05-26 積水化学工業株式会社 Analysis data creating method, frequency filter creating method, abnormal sound generation position locating method, analysis data creating device, frequency filter creating device, and abnormal sound generation position locating device
JP2017090606A (en) 2015-11-09 2017-05-25 日本電信電話株式会社 Abnormal sound detection device, abnormal sound detection learning device, method thereof, and program
CN106847306A (en) 2016-12-26 2017-06-13 华为技术有限公司 The detection method and device of a kind of abnormal sound signal

Also Published As

Publication number Publication date
JP2021124887A (en) 2021-08-30

Similar Documents

Publication Publication Date Title
US10504539B2 (en) Voice activity detection systems and methods
US11282505B2 (en) Acoustic signal processing with neural network using amplitude, phase, and frequency
KR101153093B1 (en) Method and apparatus for multi-sensory speech enhamethod and apparatus for multi-sensory speech enhancement ncement
US8438026B2 (en) Method and system for generating training data for an automatic speech recognizer
JP4746533B2 (en) Multi-sound source section determination method, method, program and recording medium thereof
JP3154487B2 (en) A method of spectral estimation to improve noise robustness in speech recognition
JP6371516B2 (en) Acoustic signal processing apparatus and method
JP5634959B2 (en) Noise / dereverberation apparatus, method and program thereof
JP2009535674A (en) Method and apparatus for speech dereverberation based on stochastic model of sound source and room acoustics
JP6174856B2 (en) Noise suppression device, control method thereof, and program
JP6348427B2 (en) Noise removal apparatus and noise removal program
JP4705414B2 (en) Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium
JP5994639B2 (en) Sound section detection device, sound section detection method, and sound section detection program
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
CN112466276A (en) Speech synthesis system training method and device and readable storage medium
JP2017134321A (en) Signal processing method, signal processing device, and signal processing program
JP5974901B2 (en) Sound segment classification device, sound segment classification method, and sound segment classification program
JP7304301B2 (en) Acoustic diagnostic method, acoustic diagnostic system, and acoustic diagnostic program
JP2021071586A (en) Sound extraction system and sound extraction method
CN107919136B (en) Digital voice sampling frequency estimation method based on Gaussian mixture model
JP2003044077A (en) Method, device and program for extracting audio feature amount
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
Bonifaco et al. Comparative analysis of filipino-based rhinolalia aperta speech using mel frequency cepstral analysis and Perceptual Linear Prediction
JP6139430B2 (en) Signal processing apparatus, method and program
Patil et al. Audio environment identification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220629

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230531

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230626

R150 Certificate of patent or registration of utility model

Ref document number: 7304301

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150