JP2020183904A

JP2020183904A - 異音判定装置、異音判定方法および異音判定システム

Info

Publication number: JP2020183904A
Application number: JP2019088442A
Authority: JP
Inventors: 亮太藤井; Ryota Fujii
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2020-11-12
Anticipated expiration: 2039-05-08
Also published as: WO2020226002A1; JP7253721B2

Abstract

【課題】対象機器から収音される音に定常音だけでなく突発音などの外乱音が含まれる場合でも、収音された音に異音が含まれるか否かの識別精度を向上し、対象機器の異常の有無を適切に検知する。【解決手段】異音判定装置は、対象機器から発せられる音の所定期間分の音データを記憶するメモリと、所定期間分の音データを用い、所定期間より短い１フレーム期間ごとに１フレーム期間の音データに対応する音が定常音あるいは突発音であるかを判定するプロセッサと、を備える。メモリは、学習モード中に定常音と判定された１以上の１フレーム期間の音データの中から少なくとも１つの定常音を正常音として記憶する。プロセッサは、学習モード時と異なる運用モード中に定常音と判定された１フレーム期間の音データとメモリに記憶された正常音の音データとの比較に応じて、対象機器から発せられる音に異音が含まれるか否かを識別する。【選択図】図２

Description

本開示は、対象機器から発せられた異音を判定する異音判定装置、異音判定方法および異音判定システムに関する。

建物内の設備機器あるいは工場の機器など、営業時間中に常時稼働している機器が異常の発生により停止した場合、生産ができなくなることによる生産効率の低下やもしくは害の発生など、甚大な被害が起きる場合がある。このような機器の異常を事前に発見するために、異常傾向を電流、振動、音などを検知可能なセンサを用いて監視することは有効であると考えられている。

例えば特許文献１には、鉄塔もしくは送電線などの対象機器から発せられる異音を判定する異音判定装置が示される。通常、風切り音などによって発生する外乱音は、異音でない。この異音判定装置は、外乱音がある中で異音を効率良く判断するために、異音を含む複数の音データと異音を含まない複数の音データとの２種類のサンプルデータを用いて、異音の有無を判定する。

特開２０１４−１４５６４５号公報

しかし、特許文献１の異音判定装置では、不定期に発生する、多様な音を含む外乱音が検査の対象機器から発せられた異音と類似した周波数スペクトルを有する場合に、検査の対象機器から発せられた音に異音が含まれるか否かの識別が困難となる。

また、異音の有無の識別のために、異音を含む複数の音データと異音を含まない複数の音データとをそれぞれサンプルデータとして収音する場合、多くの手間がかかる。また、異音の有無の識別精度を確保する上で、十分なサンプルデータの量は、検査の対象機器の種類あるいはその設置環境によって大きく変動するので、サンプルデータの的確な量の判断が困難である。

本開示は、上述した従来の状況に鑑みて案出され、対象機器から収音される音に定常音だけでなく突発音などの外乱音が含まれる場合でも、収音された音に異音が含まれるか否かの識別精度を向上し、対象機器の異常の有無を適切に検知する異音判定装置、異音判定方法および異音判定システムを提供することを目的とする。

本開示は、対象機器から発せられる音を収音するマイクに接続される入力部と、前記対象機器から発せられる音の所定期間分の音データを記憶するメモリと、前記所定期間分の音データを用い、前記所定期間より短い１フレーム期間ごとに前記１フレーム期間の音データに対応する音が定常音あるいは突発音であるかを判定するプロセッサと、を備え、前記メモリは、学習モード中に前記定常音と判定された１以上の前記１フレーム期間の音データの中から少なくとも１つの定常音を正常音として記憶し、前記プロセッサは、前記学習モード時と異なる運用モード中に前記定常音と判定された前記１フレーム期間の音データと前記メモリに記憶された前記正常音の音データとの比較に応じて、前記対象機器から発せられる音に異音が含まれるか否かを識別する、異音判定装置を提供する。

また、本開示は、異常判定装置により実行される異音判定方法であって、対象機器から発せられる音を収音するマイクから、前記対象機器から発せられる音の所定期間分の音データを入力するステップと、入力された前記所定期間分の音データを用い、前記所定期間より短い１フレーム期間ごとに前記１フレーム期間の音データに対応する音が定常音あるいは突発音であるかを判定するステップと、学習モード中に前記定常音と判定された１以上の前記１フレーム期間の音データの中から正常音として記憶された少なくとも１つの定常音を取得するステップと、前記学習モード時と異なる運用モード中に前記定常音と判定された前記１フレーム期間の音データと取得された前記正常音の音データとの比較に応じて、前記対象機器から発せられる音に異音が含まれるか否かを識別するステップと、を有する、異音判定方法を提供する。

また、本開示は、対象機器から発せられる音を収音するマイクに接続される入力部と、前記対象機器から発せられる音の所定期間分の音データを記憶するメモリと、前記所定期間分の音データを用い、前記所定期間より短い１フレーム期間ごとに前記１フレーム期間の音データに対応する音が定常音あるいは突発音であるかを判定するプロセッサと、を備え、前記メモリは、学習モード中に前記定常音と判定された１以上の前記１フレーム期間の音データの中から少なくとも１つの定常音を正常音として記憶し、前記プロセッサは、前記学習モード時と異なる運用モード中に前記定常音と判定された前記１フレーム期間の音データと前記メモリに記憶された前記正常音の音データとの比較に応じて、前記対象機器から発せられる音に異音が含まれるか否かを識別する、異音判定システムを提供する。

本開示によれば、対象機器から収音される音に定常音だけでなく突発音などの外乱音が含まれる場合でも、収音された音に異音が含まれるか否かの識別精度を向上させ、対象機器の異常の有無を適切に検知することができる。

実施の形態１に係る異音判定システムの概略構成の一例を示す図異音判定システムのハードウェア構成を示す図音データの学習動作手順を示すフローチャートステップＳ４における定常音抽出手順を示すフローチャートステップＳ５における最小定常検出手順を示すフローチャート学習モード時に収音された音の音圧レベルおよび周波数分布の時間変化を表す特性図音データの運用動作手順を示すフローチャートステップＳ１６における正常異常識別手順を示すフローチャート運用モード時に収音された正常状態および異常状態のそれぞれにおける音の音圧レベルと周波数分布との時間変化をそれぞれ表す特性図実施の形態２に係る異音判定システムの概略構成の一例を示す図異音判定システムのハードウェア構成を示す図音データの学習動作手順を示すフローチャート音データの運用動作手順を示すフローチャートステップＳ６５における正常異常識別手順を示すフローチャート

以下、適宜図面を参照しながら、本開示に係る異音判定装置、異音判定方法および異音判定システムを具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（実施の形態１）
図１は、実施の形態１に係る異音判定システム５の概略構成の一例を示す図である。異音判定システム５は、マイク１０と、ＡＤ変換器２０と、情報処理装置３０とを含む構成である。マイク１０は、監視などの目的のために定常的に行われる検査の対象機器１００から発せられる音を収音する。検査の対象機器として、例えば企業もしくはデータセンタなどに設置されたサーバ、工場などに設置されたコンプレッサ、モータなどが挙げられる。検査の対象機器１００から異音が頻繁に発せられる場合、情報処理装置３０は、対象機器１００が異常状態にあると判断する。

マイク１０は、検査の対象機器１００が設置された、例えば機械室に設置される。マイク１０は、対象機器１００に受音面を向けて対象機器１００が発する音を収音し、入力した音波を電気信号に変換して音信号として出力する。マイク１０は、１つであってもよいし、複数であってもよい。例えばマイクは、高音質小型エレクトレットコンデンサーマイクロホン（ＥＣＭ：Electret Condenser Microphone）の単体や、複数のＥＣＭで構成されるマイクアレイでもよい。

ＡＤ変換器２０は、マイク１０と同じ機械室に設置される。ＡＤ変換器２０は、１つもしくは複数のマイク１０で収音された音を入力し、アナログ形式の音信号を同時にあるいは時分割でアナログデジタル変換し、デジタル形式の音データを出力する。ＡＤ変換器２０は、所定の量子化ビットおよびサンプリング周波数でアナログ信号をデジタル信号に変換する。ＡＤ変換器２０の数は、マイク１０の数と同数であってもよいし、マイク１０の数よりも少なくてもよい。

情報処理装置３０は、検査の対象機器１００の状態を定常的に監視する監視装置である。情報処理装置３０は、例えばＰＣ（Personal Computer）もしくはタブレット端末で構成される。情報処理装置３０は、対象機器が設置された機械室と異なる監視室に設置される。

情報処理装置３０は、機械室とは別室である監視室に配置される。なお、マイク１０、ＡＤ変換器２０および情報処理装置３０のいずれも、同じ室内である機械室あるいは監視室に配置されてもよい。

図２は、異音判定システム５のハードウェア構成を示す図である。情報処理装置３０は、ＡＤ変換器２０と接続され、ＡＤ変換器２０から出力されるデジタル形式の音データを入力する。情報処理装置３０は、入力した音データを基に、検査の対象機器１００が発する音に異音が含まれているか否かを判定する（異音判定処理）。

この異音判定処理において、情報処理装置３０は、予めディープラーニングなどの機械学習を行って学習済みモデルを生成しておく。なお、情報処理装置３０は、別のコンピュータが生成した学習済みモデルを複製して使用してもよい。ここでは、学習済みモデルは、所定時間分の音データの中からフレーム単位で定常音を抽出する定常音抽出処理（図４参照）を実行するプログラムとして生成される。また、学習済みモデルは、対象機器から発せられる音に異音が含まれるか否かを判定する正常異常識別処理（図８参照）を実行するプロクラムとして生成される。情報処理装置３０は、生成した学習済みモデルを用いて、定常音抽出処理および正常異常識別処理を行う。なお、情報処理装置３０は、機械学習による学習済みモデルを用いることなく、相互相関関数を用いて定常音抽出処理および正常異常識別処理を行ってもよい。また、情報処理装置３０は、１つのコンピュータなどの装置によって処理を実行する構成であってもよいし、複数のコンピュータなどの装置によって処理を実行する構成であってもよく、物理的な装置構成に限定されない。

情報処理装置３０は、プロセッサ３０１と、メモリ３０２と、ストレージ３０３と、通信部３０４と、操作部３０５と、ディスプレイ３０６と、入力部３０７とを有する。

プロセッサ３０１は、例えばＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）などの各種処理デバイスを用いて構成され、音データに関する処理を統括的に実行する。

メモリ３０２は、ＲＡＭ（Random Access Memory）などのメモリデバイスを有し、プロセッサ３０１のワーキングメモリとして使用され、データ処理時の演算などにおいて一時記憶に利用する。また、メモリ３０２は、ＲＯＭ（Read Only Memory）などのメモリデバイスを有し、プロセッサ３０１の処理を実行するための各種実行プログラム、機械学習などの処理に関する各種設定データを記憶する。

ストレージ３０３は、例えばＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスクドライブなどの各種ストレージデバイスを用いて構成され、対象の音データ、機械学習により生成した学習モデルなどのデータを格納する。

通信部３０４は、有線または無線の通信を行うインタフェースである。

操作部３０５は、ユーザの操作を受付けるものであり、マウス、キーボード、タッチパッド、タッチパネル、マイクロホン、又はその他の入力デバイスを含んでよい。

ディスプレイ３０６は、異音が含まれる旨の判定の結果、プロセッサ３０１により生成される異音検知通知を表示する。ディスプレイ３０６は、液晶表示デバイス、有機ＥＬデバイス、又はその他の表示デバイスを含んでよい。なお、ディスプレイは、情報処理装置３０によって制御可能な遠隔の監視モニタであってもよい。また、操作部３０５およびディスプレイ３０６は、一体化されたタッチパネルであってもよい。

入力部３０７は、マイク１０によって収音され、ＡＤ変換器２０から出力されるデジタル形式の音データを入力する。

次に、実施の形態１に係る異音判定システム５の動作を示す。

異音判定システム５は、学習モードおよび運用モードで動作し、異音判定処理を行う。学習モードとは、対象機器から発せられる音に含まれる定常音のうち最小の定常音を学習して検出し、その検出結果を学習結果として情報処理装置３０内に記憶する動作モードである。一方、運用モードとは、学習モード以外の実際の運用環境において、学習モードで記憶された学習結果を用いて、対象機器から発せられる音に異音が含まれるか否かを判定する動作モードである。

（学習モード）
プロセッサ３０１は、学習モード時、マイク１０で収音された音に含まれる複数の定常音を抽出し、抽出した複数の定常音のうち、最小定常音の音データをストレージ３０３に記憶する。複数の定常音は、検査の対象機器１００が正常状態である時に発する音を含む。学習は、検査の対象機器１００が設置された初期状態において１回だけ行われてもよいし、メンテナンスなどにおいて定期的に行われてもよい。

図３は、音データの学習動作手順を示すフローチャートである。マイク１０は、検査の対象機器１００から発せられる音を主に収音する。プロセッサ３０１は、マイク１０で収音され、ＡＤ変換器２０によってアナログデジタル変換された音データを入力する（Ｓ１）。プロセッサ３０１は、入力した音データをストレージ３０３に蓄積する。プロセッサ３０１は、所定時間が経過し、マイク１０による録音が終了したか否かを判別する（Ｓ２）。マイク１０による録音は、所定時間行われる。所定時間は、３０分、１時間、１日などの任意の一定時間である。また、所定時間は、一定時間でなく、ユーザ（管理者を含む）が手動で停止するまでの時間であってもよい。また、所定時間は、運用モード時の録音時間（一定時間）に揃えることが、異音判定処理を行う上で好ましい。

ステップＳ２で録音が終了していない場合、プロセッサ３０１の処理は、ステップＳ１に戻る。一方、ステップＳ２で録音が終了した場合、プロセッサ３０１は、ストレージ３０３に蓄積された時系列の音データに対し、周波数解析を行う（Ｓ３）。この周波数解析は、例えばＦＦＴ（Fast Fourier Transform）で１００ｍｓ単位の音データに対して行われる。プロセッサ３０１は、周波数解析の結果を基に、音データに含まれる定常音をフレーム単位に抽出する定常音抽出処理を行う（Ｓ４）。フレーム（１フレーム）は、例えば音データが定常音であるか突発音であるかを判定するための音の長さである。１フレームの長さは、検査の対象機器の種類などによって異なり、例えば１０ｍｓ〜５００ｍｓの範囲で任意に設定される。また、１フレームは、突発音の時間幅（例えばパルス的な突発音の場合にパルス幅）より広く設定される。この定常音を抽出する処理は、機械学習による学習済みモデルを用いて行われる。なお、この処理は、相互相関関数を用いて行われてもよい。

プロセッサ３０１は、抽出した１つ以上の定常音の音データをストレージ３０３に蓄積する。プロセッサ３０１は、１つ以上の定常音の中から、音のスペクトルパワーが最小である定常音（以下、最小定常音という）を検出する最小定常音検出処理を行う（Ｓ５）。プロセッサ３０１は、この最小定常音を、検査の対象機器１００が正常状態である時の定常音（正常音）であるとしてストレージ３０３に記憶する（Ｓ６）。なお、プロセッサ３０１は、通信部３０４を介して接続される外部のストレージに最小定常音の音データを記憶してもよい。この後、プロセッサ３０１は、学習モード時の動作を終了する。

図４は、ステップＳ４における定常音抽出手順を示すフローチャートである。プロセッサ３０１は、ストレージ３０３に蓄積された音データのうち、一定時間分の音データを読み出す。一定時間は、例えば１０秒、３０分、所定フレーム分（２０フレームや５０フレーム）の時間であってもよい。プロセッサ３０１は、一定時間分の音データのスペクトルパワーを積算し、この積算値を１フレーム期間で除することで、１フレーム当たりの平均スペクトルパワーを算出する（Ｓ２１）。

プロセッサ３０１は、一定時間分の音データの中で、１フレーム期間の音データのスペクトルパワーが平均スペクトルパワーを上回っているか否かを順に判別する（Ｓ２２）。１フレーム期間の音データのスペクトルパワーは、フレーム単位で各周波数の音響パワーを算出して平均化したものである。１フレーム期間の音データのスペクトルパワーが平均スペクトルパワー以下である場合、プロセッサ３０１は、１フレーム期間の音データが定常音であると判定する（Ｓ２３）。

プロセッサ３０１は、定常音であると判定された１フレームの音データが、ストレージ３０３に既に記憶された定常音の音データと類似する周波数特性を有するか否かを判別する（Ｓ２４）。この音データの類似性の判断は、機械学習による学習済みモデルを用いて行われる。なお、この類似性の判断は、相互相関関数を用いて行われてもよい。

１フレームの音データが、ストレージ３０３に記憶された定常音の音データと類似すると判別された場合、プロセッサ３０１は、ステップＳ２６の処理に進む。一方、ステップＳ２４で１フレームの音データが、ストレージ３０３に記憶された定常音の音データと類似しないと判別された場合、プロセッサ３０１は、この１フレームの音データを新規の定常音であるとしてストレージ３０３に記憶する（Ｓ２５）。

ステップＳ２４，Ｓ２５の処理後、プロセッサ３０１は、一定時間分のフレーム単位の音データを全て処理したか否かを判別する（Ｓ２７）。例えば、１フレーム期間が０．５秒（５００ｍｓ）、一定時間が３０分である場合、プロセッサ３０１は、３６００（＝６０／０．５×３０）分のフレームの音データに対し、定常音の抽出処理を行うことになる。一定時間分のフレーム単位の音データを全て処理していない場合、プロセッサ３０１の処理は、ステップＳ２２に戻る。一方、ステップＳ２７で一定時間分のフレーム単位の音データを全て処理した場合、プロセッサ３０１は、本定常音抽出処理を終了し、メインの処理に復帰する。

また、ステップＳ２２で１フレーム期間の音データのスペクトルパワーが平均スペクトルパワーを上回っている場合、プロセッサ３０１は、この１フレームの音データが突発音であると判定する（Ｓ２６）。プロセッサ３０１の処理は、ステップＳ２７に進む。

なお、１フレームの音データが突発音を含んでいても、１つの突発音のパワーが小さく、ステップＳ２２でスペクトルパワーが平均スペクトルパワー以下である場合、プロセッサ３０１は、定常音であると判定する。一方、１つの突発音のパワーが小さくても、１フレームの音データが多くの突発音を含み、スペクトルパワーが平均スペクトルパワーを上回っている場合、プロセッサ３０１は、突発音であると判定する。

図５は、ステップＳ５における最小定常音検出手順を示すフローチャートである。プロセッサ３０１は、ストレージ３０３に蓄積された、一定時間分の定常音の音データを読み出す。プロセッサ３０１は、１以上の定常音のスペクトルパワーを相互に比較する（Ｓ３１）。プロセッサ３０１は、比較の結果、最もスペクトルパワーが最小である定常音を最小定常音としてストレージ３０３に記憶する（Ｓ３２）。この後、プロセッサ３０１は、本処理を終了し、メインの処理に復帰する。

このように、プロセッサ３０１は、１つ以上の定常音のスペクトルパワーを相互に比較し、１以上の定常音の中から最小定常音を選択することで、外乱音を含む定常音を選択しないようにする。したがって、プロセッサ３０１は、運用モード時において正常異常識別処理における比較の対象から外乱音を含む定常音を排除できる。

図６は、学習モード時に収音された音の音圧レベルおよび周波数分布の時間変化を表す特性図である。特性図ｇｈ１は音圧レベルの時間変化を表す。特性図ｇｈ２は周波数分布の時間変化を表す。特性図ｇｈ１，ｇｈ２の横軸は時間を表す。特性図ｇｈ１の縦軸は、音圧レベルを表す。特性図ｇｈ２の縦軸は周波数を表す。また、特性図ｇｈ２は、音圧レベルを色の変化で表わす。ここでは、音圧レベルが高い領域は黄色（図中、濃いドット）で表される。音圧レベルが中間の領域は赤色（図中、中間ドット）で表される。音圧レベルが低い領域は赤紫色（図中、淡いドット）で表される。

学習モード時、音データは、一定時間（例えば３０分）収音され、ストレージ３０３に蓄積される。特性図ｇｈ１，ｇｈ２は、３０分のうち、１０秒分の音データを示す。ここで、音データの状態を判定する区間を１フレームとし、１フレームを０．５秒（５００ｍｓｅｃ）に設定する場合を想定する。なお、１フレームは、例えば１０ｍｓ〜５００ｍｓの中で任意に設定可能である。１フレームが５００ｍｓｅｃである場合、１０秒分の音データは、２０フレーム分の音データで表される。

第１フレームＦ１（０〜５００ｍｓ）では、音圧レベルが低い定常的な音データが継続している。したがって、第１フレームＦ１は、音のスペクトルパワーが極めて小さい定常音の区間である。第２フレームＦ２（５００〜１０００ｍｓ）は、第１フレームＦ１（０〜５００ｍｓ）と同じ状況である。

第３フレームＦ３（１０００〜１５００ｍｓ）では、１０００ｍを僅かに経過して時点で音圧レベルが高い突発音が発生している。したがって、第３フレームＦ３は、音のスペクトルパワーが大きい突発音の区間である。第４フレームＦ４（１５００〜２０００ｍｓ）は、第１フレームＦ１（０〜５００ｍｓ）と同じ状況である。

第５フレームＦ５（２０００〜２５００ｍｓ）では、音圧レベルが少し高い連続的な音データが発生している。このような連続的な音データとして、例えばモータ音が挙げられる。第５フレームＦ５は、連続的な音データによる音のスペクトルパワーはそれほど大きくなく、スペクトルパワーが少し大きな定常音の区間である。第６フレームＦ６（２５００〜３０００ｍｓ）では、第５フレームＦ５に引き続き、音圧レベルが少し高い連続的な音データが発生している状態において、さらに、２５００ｍを僅かに経過して時点で音圧レベルが高い突発音が発生している。したがって、第６フレームＦ６は、音のスペクトルパワーが大きい突発音の区間である。第７フレームＦ７（３０００〜３５００ｍｓ）および第８フレームＦ８（３５００〜４０００ｍｓ）は、第５フレームＦ５（２０００〜２５００ｍｓ）と同じ状況である。

第９フレームＦ９（４０００〜４５００ｍｓ）では、音圧レベルが少し高い連続的な音データが無くなり、第１フレームＦ１（０〜５００ｍｓ）と同様、音圧レベルが低い定常的な音データが継続している。したがって、第９フレームＦ９は、音のスペクトルパワーが極めて小さい定常音の区間である。第１０フレームＦ１０（４５００〜５０００ｍｓ）は、第９フレームＦ９と同じ状況である。

第１１フレームＦ１１（５０００〜５５００ｍｓ）では、音圧レベルが極めて高い突発音が頻繁に発生している。したがって、第１１フレームＦ１１は、音のスペクトルパワーが極めて大きい突発音の区間である。第１２フレームＦ１２（５５００〜６０００ｍｓ）では、音圧レベルがやや高い突発音が発生している。第１２フレームＦ１２は、音のスペクトルパワーが平均スペクトルパワーを超えて突発音の区間と判定される。平均スペクトルパワーは、例えば一定時間（３０分）あるいは２０フレーム分（１０秒）内に算出される音のスペクトルパワーの平均値である。

第１３フレームＦ１３（６０００〜６５００ｍｓ）および第１４フレームＦ１４（６５００〜７０００ｍｓ）は、第９フレームＦ９と同じ状況である。

第１５フレームＦ１５（７０００〜７５００ｍｓ）および第１６フレームＦ１６（７５００〜８０００ｍｓ）は、音圧レベルが高い連続的な音データが発生している。第５フレームＦ５は、連続的な音データによる音のスペクトルパワーは大きく、スペクトルパワーが平均スペクトルパワーを超える大きな非定常音の区間である。

第１７フレーム（８０００〜８５００ｍｓ）〜第２０フレーム（９５００〜１００００ｍｓ）は、第１４フレームＦ１４と同じ状況である。

このように、各フレームにおいて、音のスペクトルパワーが平均スペクトルパワーを超えていない場合、連続的に少し高い音が発生しても、音データは、定常音であると判定される。一方、各フレームにおいて、音のスペクトルパワーが平均パワーを超えている場合、音データは、突発音であると判定される。プロセッサ３０１は、定常音であると判定された、複数の音データを全てストレージ３０３に蓄積し、正常状態の音データを取得する際に用いる。

（運用モード）
運用モード時、プロセッサ３０１は、一定時間（例えば、３０分、１日）ごとに、学習モード時と同様の処理で最小定常音を検出する。プロセッサ３０１は、現時点の最小定常音と、ストレージ３０３に記憶された、検査の対象機器１００が正常状態である時の最小定常音とを比較する。プロセッサ３０１は、この比較結果を基に、対象機器１００の正常状態／異常状態を判定する。

図７は、音データの運用動作手順を示すフローチャートである。運用動作は、定期あるいは不定期に行われる。運用モード時、マイク１０は、検査の対象機器１００から発せられる音を収音する。プロセッサ３０１は、マイク１０で収音され、ＡＤ変換器２０によってアナログデジタル変換された音データを入力する（Ｓ１１）。プロセッサ３０１は、入力した音データをストレージ３０３に蓄積する。

プロセッサ３０１は、マイク１０による収音を開始してから一定時間が経過したか否かを判別する（Ｓ１２）。一定時間は、定常音の抽出精度を上げるため長めの時間に設定され、例えば３０分、１時間、１日などの任意の一定時間である。また、一定時間は、学習モード時の所定時間に揃えることが、異音判定処理を行う上で好ましい。一定時間が経過していない場合、プロセッサ３０１は、ステップＳ１１の処理に戻る。なお、ここでは、プロセッサ３０１が自動（例えばタイマ開始）で運用動作を開始する場合を示したが、ユーザが任意の時期に手動で運用動作の開始を指示してもよい。ユーザ（管理者を含む）が運用開始を指示すると、プロセッサ３０１が操作部３０５を介してこの指示を受け付けてもよい。

ステップＳ１２で一定時間が経過した場合、プロセッサ３０１は、ストレージ３０３に蓄積された時系列の音データに対し、周波数解析を行う（Ｓ１３）。この周波数解析は、学習モード時と同様である。

プロセッサ３０１は、周波数解析の結果を基に、音データに含まれる、フレーム単位に定常音を抽出する定常音抽出処理を行う（Ｓ１４）。この定常音抽出処理は、学習モード時と同様である。プロセッサ３０１は、抽出した１つ以上の定常音の音データをストレージ３０３に蓄積する。プロセッサ３０１は、１つ以上の定常音の中から最小定常音を検出する最小定常音検出処理を行う（Ｓ１５）。この最小定常音検出処理は、学習モード時と同様である。

プロセッサ３０１は、ステップＳ１５で検出された最小定常音を基に、検査の対象機器１００が正常状態であるか異常状態であるかを識別する正常異常識別処理を行う（Ｓ１６）。この正常異常識別処理では、最小定常音どうしを比較することで、連続的に発生する外乱音や頻度の少ない突発音が含まれる定常音は、比較の対象から外れる。したがって、正常異常の識別精度を高めることができる。この正常異常識別処理の詳細については後述する。

プロセッサ３０１は、運用動作を終了するか否かを判別する（Ｓ１７）。運用動作の終了は、ユーザ（管理者を含む）が手動で停止を指示し、プロセッサ３０１が操作部３０５を介してこの指示を受け付けることで認識される。なお、運用動作の終了は、プロセッサ３０１が自動（例えばタイマ終了）で行ってもよい。この場合、ユーザの手動操作を省くことができる。運用動作を終了しない場合、プロセッサ３０１は、ステップＳ１１の処理に戻り、同様の処理を繰り返す。なお、プロセッサ３０１は、ステップＳ１３の処理に戻り、同様の処理を繰り返してもよい。この場合、ステップＳ１１，Ｓ１２で蓄積された一定時間の音データに対し、繰り返し異音判定が行われることになる。一方、ステップＳ１７で運用動作を終了する場合、プロセッサ３０１は本運用動作を終了する。

図８は、ステップＳ１６における正常異常識別手順を示すフローチャートである。プロセッサ３０１は、学習モード時にストレージ３０３に正常音であるとして記憶された、最小定常音の音データを読み込む（Ｓ４１）。プロセッサ３０１は、ステップＳ１５で検出された、現時点の最小定常音の音データと、正常音の音データとの類似度を算出する（Ｓ４２）。この類似度の算出は、機械学習による学習済みモデルや相互相関関数を用いて行われてよい。

プロセッサ３０１は、ステップＳ４２で算出された類似度が閾値ＴＨ１以上であるか否かを判別する（Ｓ４３）。閾値ＴＨ１は、プロセッサ３０１が定常音の音データが類似するか否かを判別するための値である。類似度が閾値ＴＨ１未満である場合、プロセッサ３０１は、検査の対象機器１００が異常音を発していると判定する（Ｓ４４）。プロセッサ３０１は、通知処理を行う（Ｓ４５）。この通知処理では、プロセッサ３０１は、ディスプレイ３０６に異常状態である旨の異常検知通知を表示する。なお、プロセッサ３０１は、通信部３０４を介してネットワークに接続された遠隔の監視装置（図示せず）に対し、検査の対象機器１００が異常音を発して異常状態にある旨の異常検知通知を通知してもよい。この後、プロセッサ３０１は、本運用動作を終了してメインの処理に復帰する。

ステップＳ４３で類似度が閾値ＴＨ１以上である場合、プロセッサ３０１は、検査の対象機器１００が正常音を発していると判定する（Ｓ４６）。この場合、検査の対象機器１００が正常状態であるので、プロセッサ３０１は、通知処理を行わない。なお、検査の対象機器１００が正常状態である場合、プロセッサ３０１は、ディスプレイ３０６に正常である旨を表示するなど、通知処理を行ってもよい。

図９は、運用モード時に収音された正常状態および異常状態における音の音圧レベルおよび周波数分布の時間変化をそれぞれ表す特性図である。

正常状態の特性図ｇｈ３は音圧レベルの時間変化を表す。正常状態の特性図ｇｈ４は周波数分布の時間変化を表す。正常状態の特性図ｇｈ３，ｇｈ４の横軸は時間を表す。正常状態の特性図ｇｈ３の縦軸は、音圧レベルを表す。正常状態の特性図ｇｈ４の縦軸は周波数を表す。また、正常状態の特性図ｇｈ４は、音圧レベルを色の変化で表わす。ここでは、音圧レベルが高い領域は黄色（図中、濃いドット）で表される。音圧レベルが中間の領域は赤色（図中、中間ドット）で表される。音圧レベルが低い領域は赤紫色（図中、淡いドット）で表される。

同様に、異常状態の特性図ｇｈ５は音圧レベルの時間変化を表す。異常状態の特性図ｇｈ６は周波数分布の時間変化を表す。異常状態の特性図ｇｈ５，ｇｈ６の横軸は時間を表す。異常状態の特性図ｇｈ５の縦軸は、音圧レベルを表す。異常状態の特性図ｇｈ６の縦軸は周波数を表す。また、異常状態の特性図ｇｈ６は、音圧レベルを色の変化で表わす。ここでは、音圧レベルが高い領域は黄色（図中、濃いドット）で表される。音圧レベルが中間の領域は赤色（図中、中間ドット）で表される。音圧レベルが低い領域は赤紫色（図中、淡いドット）で表される。

なお、図９に示す音データの特性では、対象機器の正常状態と異常状態とで、突発音が同一のタイミングで発生しているが、この特性は、一例である。多くの場合、突発音の発生タイミングは、対象機器の正常状態と異常状態とで異なってもよい。

運用モード時、音データは、一定時間（例えば３０分）収音され、ストレージ３０３に蓄積される。特性図ｇｈ３，ｇｈ４および特性図ｇｈ５，ｇｈ６は、３０分のうち、１０秒分の音データを示す。学習モード時と同様、１フレームが５００ｍｓｅｃである場合、１０秒分の音データは、２０フレーム分の音データで表される。

図９では、一例として、運用モード時、対象機器の正常状態における音データは、学習モード時の図６に示す音データと同一である。したがって、正常状態で収音された音データの各フレームにおける音圧レベルおよび周波数分布の時間変化についての説明を省略する。ここでは、対象機器の異常状態における音データの特性を、正常状態における音データの特性とフレーム単位で比較して説明する。

第１フレームＦ３１（０〜５００ｍｓ）では、正常状態において、音圧レベルが低い定常的な音データが継続している。一方、異常状態においては、音圧レベルが少し高い異音が間欠的に発生し、音圧レベルが低い定常的な音データに重畳している。ただし、第１フレームＦ３１において、異常状態の音データは、周辺のフレームと同等のスペクトルパワーを有するために定常音であると判定される。つまり、第１フレームＦ３１は、正常状態において、音のスペクトルパワーが極めて小さい定常音の区間であり、異常状態においても、音のスペクトルパワーが小さい定常音の区間である。

第２フレームＦ３２（５００〜１０００ｍｓ）は、第１フレームＦ３１（０〜５００ｍｓ）とほぼ同じ状況である。

第３フレームＦ３３（１０００〜１５００ｍｓ）では、正常状態において、１０００ｍを僅かに経過して時点で音圧レベルが高い突発音が発生している。また、異常状態においては、音圧レベルが少し高い異音が間欠的に発生している音データに、音圧レベルが高い突発音が重畳している。したがって、第３フレームＦ３３は、正常状態および異常状態のいずれにおいても、音のスペクトルパワーが大きい突発音の区間である。第４フレームＦ３４（１５００〜２０００ｍｓ）は、第１フレームＦ３１と同じ状況である。

第５フレームＦ３５（２０００〜２５００ｍｓ）では、正常状態において、音圧レベルが少し高い連続的な音データが発生している。このような連続的な音データとして、例えばモータ音が挙げられる。第５フレームＦ３５は、連続的な音データによる音のスペクトルパワーはそれほど大きくなく、スペクトルパワーが少し大きな定常音の区間である。また、異常状態においては、音圧レベルが少し高い異音が間欠的に発生し、音圧レベルが少し高い連続的な音データに重畳している。第５フレームＦ３５は、正常状態および異常状態のいずれにおいても、定常音の区間である。

第６フレームＦ３６（２５００〜３０００ｍｓ）では、正常状態において、第５フレームＦ３５に引き続き、音圧レベルが少し高い連続的な音データが発生している状態において、さらに、２５００ｍｓを僅かに経過して時点で音圧レベルが高い突発音が発生している。また、異常状態においては、音圧レベルが少し高い異音が間欠的に発生している、音圧レベルが少し高い連続的な音データに、音圧レベルが高い突発音が重畳している。したがって、第６フレームＦ３６は、正常状態および異常状態のいずれにおいても、音のスペクトルパワーが大きい突発音の区間である。第７フレームＦ３７（３０００〜３５００ｍｓ）および第８フレームＦ３８（３５００〜４０００ｍｓ）は、第５フレームＦ３５と同じ状況である。

第９フレームＦ３９（４０００〜４５００ｍｓ）では、正常状態において、音圧レベルが少し高い連続的な音データが無くなり、第１フレームＦ３１（０〜５００ｍｓ）と同様、音圧レベルが低い定常的な音データが継続している。また、異常状態においては、音圧レベルが少し高い異音が間欠的に発生し、音圧レベルが低い定常的な音データに重畳している。第９フレームＦ３９は、正常状態および異常状態のいずれにおいても、定常音の区間である。第１０フレームＦ４０（４５００〜５０００ｍｓ）は、第９フレームＦ３９とほぼ同じ状況である。

第１１フレームＦ４１（５０００〜５５００ｍｓ）では、正常状態において、音圧レベルが極めて高い突発音が頻繁に発生している。また、異常状態においては、音圧レベルが極めて高い突発音が頻繁に発生し、かつ音圧レベルが少し高い異音が間欠的に発生している。したがって、第１１フレームＦ４１は、正常状態および異常状態のいずれにおいても、音のスペクトルパワーが極めて大きい突発音の区間である。

第１２フレームＦ４２（５５００〜６０００ｍｓ）では、正常状態において、音圧レベルがやや高い突発音が発生している。また、異常状態においては、音圧レベルがやや高い突発音が発生し、かつ音圧レベルが少し高い異音が間欠的に発生している。したがって、第１２フレームＦ４２は、正常状態および異常状態のいずれにおいても、音のスペクトルパワーが平均スペクトルパワーを超えて突発音の区間と判定される。

第１３フレームＦ４３（６０００〜６５００ｍｓ）および第１４フレームＦ４４（６５００〜７０００ｍｓ）は、第９フレームＦ９と同じ状況である。

第１５フレームＦ４５（７０００〜７５００ｍｓ）および第１６フレームＦ４６（７５００〜８０００ｍｓ）は、正常状態において、音圧レベルが高い連続的な音データが発生している。また、異常状態においては、音圧レベルが高い連続的な音データが発生し、かつ音圧レベルが少し高い異音が間欠的に発生している。第１５フレームＦ４５および第１６フレームＦ４６は、正常状態および異常状態のいずれにおいても、連続的な音データによる音のスペクトルパワーが平均スペクトルパワーを超えて大きく、非定常音の区間である。

第１７フレームＦ４７（８０００〜８５００ｍｓ）、第１８フレームＦ４８（８５００〜９０００ｍｓ）および第１９フレームＦ４９（９０００〜９５００ｍｓ）は、第１３フレームＦ４３および第１４フレームＦ４４と同じ状況である。

第２０フレームＦ５０（９５００〜１００００ｍｓ）は、正常状態および異常状態のいずれにおいても、音圧レベルが低い定常的な音データが継続している。また、異常状態において、異音が発生していない。第２０フレームＦ５０は、正常状態および異常状態のいずれにおいても、音のスペクトルパワーが極めて小さい定常音の区間である。

ここで、プロセッサ３０１は、第２０フレームＦ５０の最小定常音を用いて正常異常識別処理を行った場合、対象機器が異常状態であっても、現時点の最小定常音と学習モード時に記憶した正常音との類似度が閾値ＴＨ１以上となり、正常状態であると判定してしまうことになる。この場合、プロセッサ３０１は、第２０フレームＦ５０を除くフレームの最小定常音を用いて正常異常識別処理を行うことが望ましい。また、第２０フレームＦ５０の音データが存在しても、異音判定処理は、ストレージ３０３に一定時間蓄積された音データを用いて、プロセッサ３０１によって繰り返し実行されており、別のタイミングで異音判定は可能である。

このように、実施の形態１における異音判定システム５では、プロセッサ３０１は、対象機器１００が発する音の音データから定常音を抽出し、予め記憶しておいた正常状態における定常音と比較することで、対象機器１００の正常異常識別処理を行う。定常音どうしを比較することで、マイクで収音される音に外乱音が含まれる環境においても、プロセッサ３０１は、正常異常の識別精度を向上できる。特に、プロセッサ３０１は、正常状態における最小定常音と現時点の最小定常音とを比較することで、対象機器１００が発する音データに、外乱音（例えば突発音や音圧レベルが少し高い連続的なモータ音など）が含まれる場合においても、対象機器１００の異常状態を適正に検出できる。また、プロセッサ３０１は、対象機器１００の設置時など、始動初期における最小定常音を学習することで、対象機器１００が良好な状態で正常音を学習できる。また、異音判定システム５は、対象機器１００が様々な環境に設置されても対応可能である。なお、異音判定システムは、１つのマイクおよび１台のＡＤ変換器を含む構成に限らず、任意の数のマイクおよび任意の数のＡＤ変換器を含む構成であってもよい。

以上により、情報処理装置３０（異音判定装置の一例）は、対象機器１００から発せられる音を収音するマイク１０に接続される入力部３０７と、対象機器１００から発せられる音の所定期間分の音データを記憶するストレージ３０３（メモリの一例）と、所定期間分の音データを用い、所定期間より短い１フレーム期間ごとに１フレーム期間の音データに対応する音が定常音あるいは突発音であるかを判定するプロセッサ３０１と、を備える。ストレージ３０３は、学習モード中に定常音と判定された１以上の１フレーム期間の音データの中から少なくとも１つの定常音を正常音として記憶する。プロセッサ３０１は、学習モード時と異なる運用モード中に定常音と判定された１フレーム期間の音データとストレージ３０３に記憶された正常音の音データとの比較に応じて、対象機器１００から発せられる音に異音が含まれるか否かを判定（識別の一例）する。

これにより、情報処理装置３０は、対象機器１００から収音される音に定常音だけでなく突発音などの外乱音が含まれる場合でも、収音された音に異音が含まれるか否かの識別精度を向上させ、対象機器の異常の有無を適切に検知できる。

また、プロセッサ３０１は、対象機器１００から発せられる音に異音が含まれると識別した場合に、対象機器１００から発せられる音に異音が含まれる旨の異音検知通知をディスプレイ３０６に表示する。これにより、ユーザ（管理者を含む）は、対象機器の異常状態に気付くことができる。

また、プロセッサ３０１は、学習モード中に定常音と判定された１以上の１フレーム期間の音データのスペクトルパワーが最小となる最小定常音の音データを検出し、その検出された最小定常音の音データを正常音の音データとしてストレージ３０３に保存する。これにより、情報処理装置３０は、学習モードにおいて、外乱音などが最も少ない状態でマイクにより収音された１フレーム期間の音を、対象機器が発する音の正常音として記憶できる。したがって、情報処理装置３０は、対象機器から発せられる音に異音が含まれるか否かを識別する際、比較の対象となる正常音を、外乱音が最も少ない状態で得ることができる。

また、プロセッサ３０１は、運用モード中に定常音と判定された１以上の１フレーム期間の音データのスペクトルパワーが最小となる最小定常音の音データを検出し、その検出された最小定常音の音データと正常音の音データとの比較に応じて、対象機器１００から発せられる音に異音が含まれるか否かを識別する。これにより、情報処理装置３０は、運用モードにおいて、外乱音などが抑えられた、現時点の最小定常音と正常音として記憶された最小定常音とを比較することで、対象機器の正常状態／異常状態の識別精度を向上できる。

（実施の形態２）
実施の形態１では、一定時間内で抽出された複数の定常音のうち最小定常音を用いて正常異常識別処理が行われたが、実施の形態２では、最小定常音だけを用いることなく１以上の定常音を用いて正常異常識別処理を行う場合を示す。

また、実施の形態２の異音判定システムにおいて、実施の形態１と同一の構成要素については同一の符号を付すことで、その説明を省略する。

図１０は、実施の形態２における異音判定システム５Ａの概略構成の一例を示す図である。異音判定システム５Ａは、２つのマイク１０Ａ、１０Ｂ、ＡＤ変換器２０、情報処理装置３０、およびクラウドサーバ５０を含む構成である。２つのマイク１０Ａ、１０ＢおよびＡＤ変換器２０は、検査の対象機器１００Ａ，１００Ｂが設置された機械室に置かれる。情報処理装置３０は、ユーザ（管理者を含む）が所在する監視室に置かれる。

図１１は、異音判定システム５Ａのハードウェア構成を示す図である。２つのマイク１０Ａ、１０Ｂは、実施の形態１におけるマイク１０と同一の仕様を有する。マイク１０Ａは、対象機器１００Ａが発する音を主に収音する。マイク１０Ｂは、対象機器１００Ｂが発する音を主に収音する。なお、マイクの数は、検査の対象機器の数に対応した任意の数であってよい。

ＡＤ変換器２０は、２つのマイク１０Ａ、１０Ｂで収音された音をそれぞれアナログデジタル変換し、デジタル形式の音データを出力する。このアナログデジタル変換は、２つのマイク１０Ａ、１０Ｂからの音信号に対し、時分割あるいは同時に行われてよい。

情報処理装置３０は、クラウドサーバ５０に接続可能な端末装置であり、実施の形態１と同一の構成を有する。情報処理装置３０は、ＡＤ変換器２０から出力される音データを、ネットワーク機器４１を介して受信する。情報処理装置３０は、２つのマイク１０Ａ、１０Ｂによる音データをストレージ３０３に一定時間（例えば、３０分、１時間など）蓄積する。情報処理装置３０は、ストレージ３０３に蓄積した一定時間分の音データを、ネットワーク機器４５を介してクラウドサーバ５０に送信する。なお、情報処理装置３０は、ストレージ３０３に蓄積された一定時間分の音データのうち、正常異常識別処理に必要な長さ分の音データだけを送信してもよい。また、情報処理装置３０は、正常異常識別つ処理の結果を表示可能なディスプレイとしても機能する。

クラウドサーバ５０は、プロセッサ５０１、メモリ５０２、ストレージ５０３、通信部５０４を有する。プロセッサ５０１は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）などの各種処理デバイスを有し、音データに関する処理を実行する。メモリ５０２は、ＲＡＭ（Random Access Memory）などのメモリデバイスを有し、プロセッサ５０１のワーキングメモリとして使用され、データ処理時の演算などにおいて一時記憶に利用する。また、メモリ５０２は、ＲＯＭ（Read Only Memory）などのメモリデバイスを有し、プロセッサ３０１の処理を実行するための各種実行プログラム、機械学習などの処理に関する各種設定データを記憶する。ストレージ５０３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスクドライブなどの各種ストレージデバイスを有し、対象機器の音データや、機械学習により生成した学習済みモデルなどのデータを格納する。ストレージ５０３は、様々な環境で収音された音データを蓄積するために、情報処理装置３０に内蔵されたストレージ３０３と比べ、大容量の記憶媒体である。通信部５０４は、有線又は無線の通信を行うインタフェースであり、クラウドＮＷに接続された情報処理装置３０とネットワーク機器４５を介して通信を行い、音データや学習済みモデルなどのデータを送受信する。

ネットワーク機器４１は、社内ＬＡＮ（Local Area Network）などのイントラネットに接続された２つのマイク１０Ａ，１０Ｂと情報処理装置３０との間で送受信されるデータを中継する。なお、ＡＤ変換器２０がネットワークＩ／Ｆ（Interface）を備える場合、ネットワーク機器４１は省略可能である。

ネットワーク機器４５は、イーサネット（登録商標）などの通信プロトコルに則って、情報処理装置３０とクラウドサーバ５０との間で送受信されるデータを中継する。

次に、異音判定システム５Ａの動作を示す。

（学習モード）
学習は、検査の対象機器１００Ａ，１００Ｂが設置された初期状態において１回だけ行われてもよいし、メンテナンスなどにおいて定期的または不定期に行われてもよい。音データの学習モード時、マイク１０Ａ，１０Ｂは、それぞれ検査の対象機器１００Ａ，１００Ｂから発せられる音を主に収音する。マイク１０Ａ，１０Ｂによる録音は、所定時間行われる。所定時間は、３０分、１時間、１日などの任意の一定時間である。また、所定時間は、一定時間でなく、ユーザや管理者が手動で停止する時間であってもよい。

図１２は、音データの学習動作手順を示すフローチャートである。ステップＳ５１〜Ｓ５４の処理は、前記実施の形態１の図３におけるステップＳ１〜Ｓ４の処理と同様である。

クラウドサーバ５０のプロセッサ５０１は、マイク１０Ａ，１０Ｂで収音され、ＡＤ変換器２０によってアナログデジタル変換された音データを、情報処理装置３０およびネットワーク機器４５を介して受信する（Ｓ５１）。

プロセッサ５０１は、受信した音データをストレージ５０３に蓄積する。プロセッサ５０１は、所定時間が経過し、マイク１０による録音が終了したか否かを判別する（Ｓ５２）。録音が終了していない場合、プロセッサ５０１は、ステップＳ５１の処理に戻る。

ステップＳ５２で録音が終了した場合、プロセッサ５０１は、ストレージ５０３に蓄積された時系列の音データに対し、周波数解析を行う（Ｓ５３）。この周波数解析は、前記実施の形態１と同様である。

プロセッサ５０１は、周波数解析の結果を基に、音データに含まれる定常音をフレーム単位に抽出する定常音抽出処理を行う（Ｓ５４）。この定常音抽出処理は、前記実施の形態１と同様である。

プロセッサ５０１は、抽出した１以上の定常音の音データをストレージ５０３に全て蓄積する（Ｓ５５）。この後、プロセッサ５０１は、本学習動作を終了する。

（運用モード）
運用モード時、プロセッサ５０１は、学習モード時と同様の処理で定常音を検出する。プロセッサ５０１は、現時点の定常音と、ストレージ５０３に記憶された、検査の対象機器１００Ａ，１００Ｂが正常状態である時の１以上の定常音とを比較する。プロセッサ５０１は、この比較結果を基に、対象機器１００Ａ，１００Ｂの正常状態／異常状態を識別する。

図１３は、音データの運用動作手順を示すフローチャートである。運用動作は、定期あるいは不定期に行われる。運用モード時、マイク１０Ａ，１０Ｂは、検査の対象機器１００Ａ，１００Ｂから発せられる音を主に収音する。

運用動作において、ステップＳ６１〜Ｓ６４，Ｓ６５，Ｓ６６の処理は、前記実施の形態１の図７におけるステップＳ１１〜Ｓ１４，Ｓ１６，Ｓ１７の処理と同様である。

クラウドサーバ５０のプロセッサ５０１は、マイク１０Ａ，１０Ｂで収音され、ＡＤ変換器２０によってアナログデジタル変換された音データを、情報処理装置３０およびネットワーク機器４５を介して受信する（Ｓ６１）。プロセッサ５０１は、受信した音データをストレージ５０３に蓄積する。

プロセッサ５０１は、マイク１０Ａ，１０Ｂによる収音を開始してから一定時間（例えば３０分、１日など）が経過したか否かを判別する（Ｓ６２）。ステップＳ６２で一定時間が経過した場合、プロセッサ５０１は、ストレージ５０３に蓄積された時系列の音データに対し、周波数解析を行う（Ｓ６３）。この周波数解析は、学習モード時と同様である。

プロセッサ５０１は、周波数解析の結果を基に、音データに含まれる定常音をフレーム単位に抽出する定常音抽出処理を行う（Ｓ６４）。この定常音抽出処理は、学習モード時と同様である。

プロセッサ５０１は、ステップＳ６４で抽出された１以上の定常音を基に、検査の対象機器１００Ａ，１００Ｂが正常状態であるか異常状態であるかを識別する正常異常識別処理を行う（Ｓ６５）。正常異常識別処理は、対象機器１００Ａ，１００Ｂそれぞれに対して行われる。この正常異常識別処理の詳細については後述する。

プロセッサ５０１は、運用動作を終了するか否かを判別する（Ｓ６６）。運用動作の終了は、ユーザ（管理者を含む）が手動で停止を指示し、プロセッサ３０１が操作部３０５を介してこの指示を受け付けることで認識される。プロセッサ５０１は、情報処理装置３０から停止指示を受信する。なお、運用動作の終了は、プロセッサ５０１が自動（例えばタイマ終了）で行ってもよい。この場合、ユーザの手動操作を省くことができる。運用動作を終了しない場合、プロセッサ５０１は、ステップＳ６１の処理に戻り、同様の処理を繰り返す。一方、運用動作を終了する場合、プロセッサ５０１は本運用動作を終了する。

図１４は、ステップＳ６５における正常異常識別手順を示すフローチャートである。プロセッサ５０１は、学習モード時にストレージ５０３に記憶された、１以上の定常音の音データを読み込む（Ｓ７１）。プロセッサ５０１は、ステップＳ６４で抽出された、現時点の定常音の音データと、ストレージ５０３に記憶した定常音の音データとの類似度を算出する（Ｓ７２）。この類似度の算出は、機械学習による学習済みモデルや相互相関関数を用いて行われる。

プロセッサ５０１は、ステップＳ７２で算出された類似度が閾値ＴＨ２以上となる定常音が少なくとも１つ以上あるか否かを判別する（Ｓ７３）。閾値ＴＨ２は、プロセッサ５０１が定常音の音データが類似するか否かを判別するための値である。閾値ＴＨ２は、閾値ＴＨ１と同じ値であってもよいし、異なる値であってもよい。類似度が閾値ＴＨ２未満である場合、プロセッサ５０１は、検査の対象機器１００Ａ，１００Ｂが異常音を発していると判定する（Ｓ７４）。プロセッサ５０１は、通知処理を行う（Ｓ７５）。

この通知処理では、プロセッサ５０１は、通信部５０４、クラウドＮＷおよびネットワーク機器４５を介して対象機器１００Ａ，１００Ｂの少なくとも一方が異常状態である旨を表すデータを情報処理装置３０に送信する。情報処理装置３０は、クラウドサーバ５０から対象機器１００Ａ，１００Ｂの少なくとも一方が異常である旨を表すデータを受信すると、ディスプレイ３０６に対象機器１００Ａ，１００Ｂの少なくとも一方が異常状態である旨を表示する。なお、クラウドサーバ５０がディスプレイを備える場合、自装置のディスプレイに対象機器１００Ａ，１００Ｂが異常状態である旨を表示してもよい。この後、プロセッサ５０１は、本運用動作を終了してメインの処理に復帰する。

ステップＳ７３で類似度が閾値ＴＨ２以上である場合、プロセッサ５０１は、検査の対象機器１００Ａ，１００Ｂが正常音を発していると判定する（Ｓ７６）。この場合、検査の対象機器１００Ａ，１００Ｂが正常状態であるので、プロセッサ５０１は、通知処理を行わない。なお、検査の対象機器１００Ａ，１００Ｂが正常状態である場合、プロセッサ５０１は、通信部５０４、クラウドＮＷおよびネットワーク機器４５を介して対象機器１００Ａ，１００Ｂが正常状態である旨を表すデータを情報処理装置３０に送信してもよい。情報処理装置３０は、クラウドサーバ５０から対象機器１００Ａ，１００Ｂが正常状態である旨を表すデータを受信すると、ディスプレイ３０６に対象機器１００Ａ，１００Ｂが正常状態である旨を表示する。

このように、実施の形態２における異音判定システム５Ａでは、クラウドサーバ５０のプロセッサ５０１は、学習モード時、１以上の定常音をストレージ５０３に蓄積しておく。プロセッサ５０１は、運用モード時、マイク１０Ａ，１０Ｂにより収音された音データの定常音がストレージ５０３に蓄積された複数の定常音のいずれかと類似する場合、つまり、１以上の定常音の中に類似度が高い定常音が存在する場合、対象機器１００Ａ，１００Ｂが正常状態であると判定する。また、クラウドサーバ５０は、複数の定常音の中に類似度が高い定常音が存在しない場合、対象機器１００Ａ，１００Ｂが異常状態であると判定する。したがって、クラウドサーバ５０は、対象機器が他の環境に置かれた場合でも、いずれかの定常音と類似する場合、対象機器１００Ａ，１００Ｂの正常異常を識別できる。

以上により、プロセッサ５０１は、学習モード中に定常音と判定された１以上の１フレーム期間の音データの中から２つ以上の定常音を正常音としてストレージ５０３に保存する。これにより、クラウドサーバ５０のプロセッサ５０１は、学習モードにおいて、１以上の定常音を正常音としてストレージ５０３に記憶できる。したがって、プロセッサ５０１は、対象機器１００Ａ，１００Ｂから発せられる音に異音が含まれるか否かを識別する際、比較の対象となる正常音を多く得ることができる。この場合、クラウドサーバ５０は、学習モード時に複数の定常音の中からスペクトルパワーが最小である最小定常音を選択する処理を省くことができる。

また、プロセッサ５０１は、運用モード中に定常音と判定された１フレーム期間の音データとストレージ５０３に記憶された２つ以上の正常音の音データとの比較に応じて、対象機器１００Ａ，１００Ｂから発せられる音に異音が含まれるか否かを識別する。これにより、クラウドサーバ５０のプロセッサ５０１は、複数の定常音の中に類似度が高い定常音が存在する場合、対象機器１００Ａ，１００Ｂが正常状態であると識別する。一方、プロセッサ５０１は、複数の定常音の中に類似度が高い定常音が存在しない場合、対象機器１００Ａ，１００Ｂが異常状態であると識別する。この場合、クラウドサーバ５０のプロセッサ５０１は、運用モード時に複数の定常音の中からスペクトルパワーが最小である最小定常音を選択する処理を省くことができる。

なお、クラウドサーバは、前記実施の形態１と同様、抽出された複数の定常音の中から最小定常音を正常音として学習し、運用モード時、現時点の最小定常音と正常音とを比較することで、対象機器１００Ａ，１００Ｂの正常異常を識別してもよい。

また、実施の形態２では、クラウドサーバ５０が学習動作および運用動作を行う場合を示したが、情報処理装置３０が、クラウドサーバ５０と同様の学習動作および運用動作を行ってもよい。この場合、クラウドサーバ５０を省くことができる。

（実施の形態２の変形例）
また、クラウドサーバ５０のプロセッサ５０１は、学習モード時、様々な環境（例えば、対象機器が設置された種々の場所）でマイク１０，１０Ｂにより収音された正常音をストレージ５０３に蓄積してもよい。運用モード時、クラウドサーバ５０のプロセッサ５０１は、ストレージ５０３に蓄積された多くの正常音の音データを用いて、様々な環境において、対象機器１００Ａ，１００Ｂの正常異常状態を識別できる。

このように、ストレージ５０３は、複数の異なる環境に置かれた、対象機器１００Ａ，１００Ｂから発せられる音の所定期間分の音データを記憶すると共に、環境ごとに、学習モード中に定常音と判定された１以上の１フレーム期間の音データの中から少なくとも１つの定常音を正常音として記憶する。プロセッサ５０１は、学習モード時と異なる運用モード中に定常音と判定された１フレーム期間の音データとストレージ５０３に環境ごとに記憶された正常音の音データとの比較に応じて、対象機器１００Ａ，１００Ｂから発せられる音に異音が含まれるか否かを識別する。

これにより、対象機器が様々な環境に置かれた場合であっても、クラウドサーバ５０は、様々な環境に対応して対象機器１００Ａ，１００Ｂの異常状態または正常状態を識別できる。

以上、図面を参照しながら実施の形態について説明したが、本開示はかかる例に限定されないことはいうまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した実施の形態における各構成要素を任意に組み合わせてもよい。

本開示は、異常判定装置において、対象機器から収音される音に定常音だけでなく突発音などの外乱音が含まれる場合でも、収音された音に異音が含まれるか否かの識別精度を向上させることができ、有用である。

５異音判定システム
１０、１０Ａ、１０Ｂマイク
２０ＡＤ変換器
３０情報処理装置
５０クラウドサーバ
１００対象機器
３０１、５０１プロセッサ
３０２、５０２メモリ
３０３、５０３ストレージ
３０４、５０４通信部
３０５操作部
３０６ディスプレイ
３０７入力部

Claims

対象機器から発せられる音を収音するマイクに接続される入力部と、
前記対象機器から発せられる音の所定期間分の音データを記憶するメモリと、
前記所定期間分の音データを用い、前記所定期間より短い１フレーム期間ごとに前記１フレーム期間の音データに対応する音が定常音あるいは突発音であるかを判定するプロセッサと、を備え、
前記メモリは、学習モード中に前記定常音と判定された１以上の前記１フレーム期間の音データの中から少なくとも１つの定常音を正常音として記憶し、
前記プロセッサは、前記学習モード時と異なる運用モード中に前記定常音と判定された前記１フレーム期間の音データと前記メモリに記憶された前記正常音の音データとの比較に応じて、前記対象機器から発せられる音に異音が含まれるか否かを識別する、
異音判定装置。
前記プロセッサは、前記対象機器から発せられる音に異音が含まれると識別した場合に、前記対象機器から発せられる音に異音が含まれる旨の異音検知通知をディスプレイに表示する、
請求項１に記載の異音判定装置。
前記プロセッサは、前記学習モード中に前記定常音と判定された１以上の前記１フレーム期間の音データのパワーが最小となる音データを検出し、その検出された音データを前記正常音の音データとして前記メモリに保存する、
請求項１に記載の異音判定装置。
前記プロセッサは、前記運用モード中に前記定常音と判定された１以上の前記１フレーム期間の音データのパワーが最小となる音データを検出し、その検出された音データと前記正常音の音データとの比較に応じて、前記対象機器から発せられる音に異音が含まれるか否かを識別する、
請求項３に記載の異音判定装置。
前記プロセッサは、前記学習モード中に前記定常音と判定された１以上の前記１フレーム期間の音データの中から２つ以上の定常音を前記正常音として前記メモリに保存する、
請求項１に記載の異音判定装置。
前記プロセッサは、前記運用モード中に前記定常音と判定された前記１フレーム期間の音データと前記メモリに記憶された２つ以上の前記正常音の音データとの比較に応じて、前記対象機器から発せられる音に異音が含まれるか否かを識別する、
請求項５に記載の異音判定装置。
前記メモリは、複数の異なる環境に置かれた、前記対象機器から発せられる音の所定期間分の音データを記憶すると共に、前記環境ごとに、学習モード中に前記定常音と判定された１以上の前記１フレーム期間の音データの中から少なくとも１つの定常音を正常音として記憶し、
前記プロセッサは、前記学習モード時と異なる運用モード中に前記定常音と判定された前記１フレーム期間の音データと前記メモリに前記環境ごとに記憶された前記正常音の音データとの比較に応じて、前記対象機器から発せられる音に異音が含まれるか否かを識別する、
請求項１に記載の異音判定装置。
異常判定装置により実行される異音判定方法であって、
対象機器から発せられる音を収音するマイクから、前記対象機器から発せられる音の所定期間分の音データを入力するステップと、
入力された前記所定期間分の音データを用い、前記所定期間より短い１フレーム期間ごとに前記１フレーム期間の音データに対応する音が定常音あるいは突発音であるかを判定するステップと、
学習モード中に前記定常音と判定された１以上の前記１フレーム期間の音データの中から正常音として記憶された少なくとも１つの定常音を取得するステップと、
前記学習モード時と異なる運用モード中に前記定常音と判定された前記１フレーム期間の音データと取得された前記正常音の音データとの比較に応じて、前記対象機器から発せられる音に異音が含まれるか否かを識別するステップと、を有する、
異音判定方法。
対象機器から発せられる音を収音するマイクに接続される入力部と、
前記対象機器から発せられる音の所定期間分の音データを記憶するメモリと、
前記所定期間分の音データを用い、前記所定期間より短い１フレーム期間ごとに前記１フレーム期間の音データに対応する音が定常音あるいは突発音であるかを判定するコントローラと、を備え、
前記メモリは、学習モード中に前記定常音と判定された１以上の前記１フレーム期間の音データの中から少なくとも１つの定常音を正常音として記憶し、
前記コントローラは、前記学習モード時と異なる運用モード中に前記定常音と判定された前記１フレーム期間の音データと前記メモリに記憶された前記正常音の音データとの比較に応じて、前記対象機器から発せられる音に異音が含まれるか否かを識別する、
異音判定システム。