JP7407382B2

JP7407382B2 - 音データ処理方法、音データ処理装置及びプログラム

Info

Publication number: JP7407382B2
Application number: JP2020533417A
Authority: JP
Inventors: 亮太藤井
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2018-07-31
Filing date: 2019-07-18
Publication date: 2024-01-04
Anticipated expiration: 2039-07-18
Also published as: US20240046953A1; WO2020026829A1; US20210304786A1; JPWO2020026829A1; US11830518B2

Description

本開示は、対象の音データの機械学習に関連する処理を行う音データ処理方法、音データ処理装置及びプログラムに関する。

各種施設等において、対象物又は対象空間等の音を収音し、取得した音データを解析して異常の検知、設備の稼働状況のモニタ、製品の良否判定などを行うシステムが従来より用いられている。この種のシステムにおいて、例えば、対象物の音データの異常を検知し、異常音が発生した際の故障判定等を行う装置がある。最近では、取得した音データの異常を検知するために、統計的手法に基づく機械学習処理を用いて異常音の判定を行うことも種々検討されている。

例えば、特許文献１には、与えられた機械音の正常動作時の学習データを用いて、機械の異常音を検出する装置が開示されている。特許文献１の装置は、入力された周波数領域の信号を音の性質が互いに異なる２種以上の信号に分離し、この２種以上の信号のそれぞれについて所定の音響特徴量を抽出し、抽出された音響特徴量及び事前に学習された２種以上の信号の正常時のモデルを用いて、２種以上の信号のそれぞれの異常度を計算し、これらの異常度を統合した統合異常度を用いて周波数領域の信号が異常であるかを判定するものである。

日本国特開２０１７－０９０６０６号公報

機械学習を実施する際には、より好適な学習モデルを生成して判定結果の精度を向上させることが肝要である。好適な学習モデルの生成のためには、学習用のデータとして、大量のデータ、適切な特徴を持つデータが必要となる。しかしながら、対象の音データの異常検知等の分類判定に適応するように、大量の音データ、適切な特徴を持つ音データを学習用のデータとして適宜取得することは困難な場合がある。

本開示は、上述した従来の状況に鑑みて案出され、音データの機械学習を実施する際に適切な学習用のデータを用いて好適な学習モデルを生成することを可能にする音データ処理方法、音データ処理装置及びプログラムを提供することを目的とする。

本開示は、対象の音データを入力して取得し、前記音データの処理を行う処理部を有する音データ処理装置における音データ処理方法であって、前記取得した対象の正常音データを用いて、前記対象の模擬的な異常音となる模擬異常音データを生成するステップと、前記取得した正常音データと前記生成した模擬異常音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成するステップと、を有する、音データ処理方法を提供する。

また、本開示は、対象の音データを入力して取得し、前記音データの処理を行う処理部を有する音データ処理装置であって、前記処理部は、前記取得した対象の正常音データを用いて、前記対象の模擬的な異常音となる模擬異常音データを生成する模擬異常音生成部と、前記取得した正常音データと前記生成した模擬異常音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成する機械学習部と、を有する、音データ処理装置を提供する。

また、本開示は、コンピュータである音データ処理装置に、対象の音データを取得するステップと、前記取得した対象の正常音データを用いて、前記対象の模擬的な異常音となる模擬異常音データを生成するステップと、前記取得した正常音データと前記生成した模擬異常音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成するステップと、を実行させるための、プログラムを提供する。

本開示は、対象の音データを取得し、前記音データの処理を行う処理部を有する音データ処理装置における音データ処理方法であって、前記取得した対象音データに基づき、前記対象音データに類似する類似音となる複数の類似音データを生成するステップと、前記複数の類似音データのうち機械学習において学習矛盾が生じるデータを判断するステップと、前記取得した対象音データと、前記生成した前記複数の類似音データのうち前記学習矛盾が生じないと判断された類似音データとを学習用の音データとして用いて前記機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成するステップと、を有する、音データ処理方法を提供する。

また、本開示は、対象の音データを取得し、前記音データの処理を行う処理部を有する音データ処理装置であって、前記処理部は、前記取得した対象音データに基づき、前記対象音データに類似する類似音となる複数の類似音データを生成し、前記複数の類似音データのうち機械学習において学習矛盾が生じるデータを判断する類似環境生成部と、前記取得した対象音データ、前記生成した前記複数の類似音データのうち前記学習矛盾が生じないと判断された類似音データを学習用の音データとして用いて前記機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成する機械学習部と、を有する、音データ処理装置を提供する。

また、本開示は、コンピュータである音データ処理装置に、対象の音データを取得するステップと、前記取得した対象音データに基づき、前記対象音データに類似する類似音となる複数の類似音データを生成するステップと、前記複数の類似音データのうち機械学習において学習矛盾が生じるデータを判断するステップと、前記取得した対象音データ、前記生成した前記複数の類似音データのうち前記学習矛盾が生じないと判断された類似音データを学習用の音データとして用いて前記機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成するステップと、を実行させるための、プログラムを提供する。

本開示によれば、音データの機械学習を実施する際に適切な学習用のデータを用いて好適な学習モデルを生成可能にすることができる。

本実施の形態に係る音データ処理装置の構成の一例を示すブロック図実施の形態１に係る音データ処理装置における学習時の機能的構成を示すブロック図実施の形態１に係る類似環境生成部の処理を示すフローチャート本実施の形態に係る音データ処理装置における運用時の機能的構成を示すブロック図機械学習を用いた音データの異常判定処理を概念的に説明する図実施の形態１に係る音データの異常判定処理を概念的に説明する図実施の形態２に係る音データ処理装置における学習時の機能的構成を示すブロック図実施の形態２に係る正常音加工部の処理を示すフローチャート実施の形態２に係る異常音選択部の処理を示すフローチャート実施の形態２に係るミキシング部の処理を示すフローチャート実施の形態２に係る音データの異常判定処理を概念的に説明する図実施の形態３に係る音データ処理装置における学習時の機能的構成を示すブロック図検査対象を選択するユーザインタフェース（ＵＩ）の表示画面の一例を示す図実施の形態３に係る音データ処理装置の学習時の処理を示すフローチャート異常種類のケース１における模擬異常音の生成処理を説明する図異常種類のケース２における模擬異常音の生成処理を説明する図異常種類のケース３における模擬異常音の生成処理を説明する図

以下、適宜図面を参照しながら、本開示に係る構成を具体的に開示した各実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（本実施の形態に係る背景）
音データの機械学習を行う場合、学習用のデータが十分に得られない場合がある。機械学習では、一般的に学習のための多くのデータを必要とする。特にディープラーニング技術は、その階層の深さを活かすために大量のデータ（数万～数百万）を必要とする。しかし、利用シーンによっては学習用のデータが安易に得られないケースがある。特に音データは画像データよりも既存のデータとして得られるサンプルデータが少なく、設備検査の打音などのインターネットを用いて学習用のデータを検索収集する環境も整っていない。例えば、機械の稼動音、設備検査の打音などの音データの機械学習を行う場合、十分な量の学習用のデータを得られないという課題がある。

多くの学習用のデータを得るために、限られた学習用のデータを有効に使う方法として、データの水増し（Data Argumentation）がある。データの水増しは、既存の学習用のデータに対して、ノイズ付加を行ったり、画像であれば反転、回転などの加工を行い、バリエーションをもたせる手法である。しかし、音データに関しては画像データと同様の水増しは容易に適用できない。例えば、音声波形にＳＴＦＴ（Short Time Fourier Transform）処理を実施してスペクトログラム画像として変換し、画像と同様に扱ってデータ加工を行うことが考えられるが、データの精度が悪化して適切な学習が行えない場合がある。つまり、音データの機械学習においては、音声の特徴を捉えた上で学習用のデータの水増しを行う必要がある。

また、音データの機械学習を用いたユースケースの中では、目的音の音データがほとんど得られないことがある。例えば、機械の稼動音の場合、正常音は稼働時に録音すればデータの収集が常時可能であるが、異常音は異常が発生した時に録音しないと得られない。このような異常音の取得が困難な状況において、機械学習を用いた異常音の検知を行おうとする場合、正常音の学習用のデータのみで異常を検知するシステムを構築する必要がある。

正常音の学習用のデータのみで異常を検知する方法として、上述した特許文献１等の記載のように、学習した値と評価値との差分を算出し、差分値が所定の閾値を超えるかどうか、すなわち正常値との乖離度を評価することによって異常検知する方法がある。しかし、この方法では、異音として検知できるのは正常値から大きく異なる音であり、例えば正常音とは小さな差であるが異常な音であるというユースケースの場合は、異音検知が困難である。

上述した背景を鑑み、本実施の形態では、学習用のデータとして、大量の音データ、適切な特徴を持つ音データを利用可能とし、音データの機械学習を実施する際に好適な学習モデルを生成して運用時に適切な評価を実施可能にするシステムの一例を以下に示す。

本実施の形態では、対象の音データの処理を行うシステムの構成例として、取得した音データを用いた機械学習を行って学習モデルを生成し、生成した学習モデルを用いて音データの分類判定としての異常判定を行う音データ処理装置及び音データ処理方法の一例を示す。ここでは、対象の音データの一例として、データセンター又は工場等の設備におけるファン、モータ等の機械音を想定し、音データにおける異常音を判定して異音検知を行う場合を例示する。

（音データ処理装置の構成）
図１は、本実施の形態に係る音データ処理装置の構成の一例を示すブロック図である。音データ処理装置は、１つ又は複数のマイクロホン（マイク）１０、ＡＤ変換器２０、情報処理装置３０、５０を含む構成である。情報処理装置３０、５０は、例えばプロセッサ及びメモリを有するＰＣ（Personal Computer）等のコンピュータにより構成され、本実施の形態に係る機械学習等に関する各種の情報処理を実行する。

マイクロホン１０は、対象物又は対象空間等において生じる音波を入力して電気信号のオーディオ信号として出力するコンデンサマイクロホン等の集音デバイスを有して構成される。ＡＤ変換器２０は、所定の量子化ビット及びサンプリング周波数によってアナログのオーディオ信号をディジタルの音データに変換する。

情報処理装置３０は、ＡＤ変換器２０と接続され、マイクロホン１０にて収音しＡＤ変換器２０にてディジタルデータに変換した対象の音データを入力する。情報処理装置３０は、有線又は無線のネットワーク又は通信回線等の通信路４０を介して情報処理装置５０と接続される。図示例では、情報処理装置３０が現場に配置されるローカルコンピュータの端末装置として機能し、情報処理装置５０が他所に配置されるリモートコンピュータのサーバ装置として機能し、複数の情報処理装置によって本実施の形態に係る処理を分散して実行する構成となっている。情報処理装置５０は、ネットワーク上のクラウドコンピュータであってもよい。情報処理装置３０は、主として機械学習による学習モデルを用いた運用時の異音検知処理を実行する検知用装置として機能する。情報処理装置５０は、主として機械学習を行って学習モデルを生成する学習時の機械学習処理を実行する学習用装置として機能する。なお、情報処理装置３０、５０は、１つのコンピュータ等の装置によって処理を実行する構成としてもよいし、或いは３つ以上のコンピュータ等の装置によって処理を実行する構成であってもよく、物理的な装置構成には限定されない。

情報処理装置３０は、処理部３０１、記憶部３０２、格納部３０３、通信インタフェース（通信ＩＦ）３０４を有する。処理部３０１は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）等の各種処理デバイスを有し、音データに関する処理を実行する。記憶部３０２は、ＲＡＭ（Random Access Memory）等のメモリデバイスを有し、処理部３０１のワーキングメモリとして使用され、データ処理時の演算等において一時記憶に利用する。また、記憶部３０２は、ＲＯＭ（Read Only Memory）等のメモリデバイスを有し、処理部３０１の処理を実行するための各種実行プログラム、機械学習等の処理に関する各種設定データを記憶する。格納部３０３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスクドライブ等の各種ストレージデバイスを有し、対象の音データ、機械学習により生成した学習モデル等のデータを格納する。通信インタフェース３０４は、有線又は無線の通信を行うインタフェースであり、通信路４０を介して情報処理装置５０と通信を行い、音データ、学習モデル等のデータを送受信する。

情報処理装置５０は、処理部５０１、記憶部５０２、格納部５０３、通信インタフェース（通信ＩＦ）５０４を有する。処理部５０１は、ＣＰＵ、ＤＳＰ、ＦＰＧＡ等の各種処理デバイスを有し、音データに関する処理を実行する。記憶部５０２は、ＲＡＭ等のメモリデバイスを有し、処理部５０１のワーキングメモリとして使用され、データ処理時の演算等において一時記憶に利用する。また、記憶部５０２は、ＲＯＭ等のメモリデバイスを有し、処理部５０１の処理を実行するための各種実行プログラム、機械学習等の処理に関する各種設定データを記憶する。格納部５０３は、ＨＤＤ、ＳＳＤ、光ディスクドライブ等の各種ストレージデバイスを有し、対象の音データ、機械学習により生成した学習モデル、異常音データベース（異常音ＤＢ）、正常音データベース（正常音ＤＢ）、汎用音データベース（汎用音ＤＢ）等のデータを格納する。異常音データベースは、異常状態の音データを集めたデータベースである。正常音データベースは、正常状態の音データを集めたデータベースである。汎用音データベースは、日常発生する汎用的な各種の音データを集めたデータベースである。通信インタフェース５０４は、有線又は無線の通信を行うインタフェースであり、通信路４０を介して情報処理装置３０と通信を行い、音データ、学習モデル等のデータを送受信する。

本実施の形態では、マイクロホン１０により収音した対象の音データを取得し、情報処理装置３０、５０によって音データの処理を実行する。学習時には、情報処理装置３０、５０によって音データの機械学習を実行し、学習モデルを生成する。運用時には、情報処理装置３０、５０によって学習モデルを用いて音データの異常判定を行い、異音を検知する。

以下に、本実施の形態に係る音データの機械学習を含む処理を実行する音データ処理方法及び装置について、いくつかの実施の形態を例示する。

（実施の形態１）
実施の形態１では、取得した音データの類似環境を作成することにより、対象の音データの類似音を生成して学習用のデータの水増しを行い、音データの学習及び評価を行う例を示す。

図２は、実施の形態１に係る音データ処理装置における学習時の機能的構成を示すブロック図である。音データ処理装置は、機械学習の学習時において、類似環境生成部２０１、機械学習部２０２の機能を有する。類似環境生成部２０１、機械学習部２０２は、情報処理装置３０、５０の処理部３０１、５０１の処理によって各部の機能が実現される。

類似環境生成部２０１は、実環境で取得される学習対象の音データの類似環境を生成し、対象の音データとして取得した対象音データ２５１を用いて、類似音の音データである類似音データ２５３を自動生成することにより、学習用データの水増しを行う。機械学習部２０２は、処理部に搭載した人工知能（ＡＩ：Artificial Intelligent）を用いて、ディープラーニング等の機械学習を実行する。機械学習部２０２は、取得した対象音データ２５１、対象音データ２５１に基づいて生成した類似音データ２５３、汎用音データベース（汎用音ＤＢ）２５４を用いて、機械学習処理を実施し、学習結果としての学習モデル２５２を生成する。汎用音データベース２５４は、環境音、人の声などの各種の汎用的な日常音を含む汎用音データを蓄積したものである。

機械学習部２０２における機械学習処理は、１つ以上の統計的分類技術を用いて行っても良い。統計的分類技術としては、例えば、線形分類器（linear classifiers）、サポートベクターマシン（support vector machines）、二次分類器（quadratic classifiers）、カーネル密度推定（kernel estimation）、決定木（decision trees）、人工ニューラルネットワーク（artificial neural networks）、ベイジアン技術及び／又はネットワーク（Bayesian techniques and/or networks）、隠れマルコフモデル（hidden Markov models）、バイナリ分類子（binary classifiers）、マルチクラス分類器（multi-class classifiers）クラスタリング（a clustering technique）、ランダムフォレスト（a random forest technique）、ロジスティック回帰（a logistic regression technique）、線形回帰（a linear regression technique）、勾配ブースティング（a gradient boosting technique）などが挙げられる。ただし、使用される統計的分類技術はこれらに限定されない。

図３は、実施の形態１に係る類似環境生成部２０１の処理を示すフローチャートである。類似環境生成部２０１は、マイクロホン１０等によって取得された対象音データ２５１を、学習用の音データとして入力し（Ｓ１１）、対象音データ２５１に関する類似音の生成処理を行い（Ｓ１２）、類似音データ２５３を生成する。このとき、類似環境生成部２０１は、フィルタ２１１、音量変化パラメータ２１２などを用いて、音データの周波数特性、音量、音質等を変化させて元の音データに類似する複数の音データを生成する。すなわち、類似環境生成部２０１は、対象音データ２５１の周波数特性、音量のうちの少なくとも一つを変化させることにより、類似音データ２５３を生成する。

フィルタ２１１は、例えばローパスフィルタ（ＬＰＦ）、ハイパスフィルタ（ＨＰＦ）等の音データの周波数特性を変化させるフィルタである。音量変化パラメータ２１２は、音データの周波数帯域全体の音量、又は特定の周波数の強調や低減等のための所定周波数帯域の音量など、音データの音量を変化させるパラメータである。類似環境生成部２０１は、上記の処理により、元の音データに関する各種バリエーションを作り出し、複数の類似音データ２５３を自動生成する。なお、類似環境生成部２０１において、複数の異なるアプローチによって学習用のデータの水増しを行う手段を持ち、対象の音データのパターンに応じて適切な水増し手段を選択し、学習用の音データを追加生成することも可能である。

次に、類似環境生成部２０１は、生成した類似音データ２５３について、学習矛盾が生じているかの判断を行う（Ｓ１３）。学習矛盾の判断は、例えば生成した複数の音データの周波数の一致度を判定し、学習用の音データのラベルが異なるのに周波数が一致するものが存在する場合に、学習矛盾が生じていると判断する。続いて、類似環境生成部２０１は、学習矛盾する音データを破棄する（Ｓ１４）。これにより、生成した類似音データ２５３の中から、異なるラベルの音データで同じ周波数のものを取り除き、学習用の音データにおける学習矛盾を解消する。このようにして、類似環境生成部２０１は、対象音データ２５１に対して類似音データ２５３を生成して加えることによって、対象音データ２５１の特徴に応じた適切な学習用の音データの水増しを行う。そして、類似環境生成部２０１は、データ水増しされた学習用の音データを出力する（Ｓ１５）。

機械学習部２０２は、対象音データ２５１と類似音データ２５３を含むデータ水増しされた学習用の音データを用いて、機械学習処理を実施して学習モデル２５２を生成する。

図４は、本実施の形態に係る音データ処理装置における運用時の機能的構成を示すブロック図である。音データ処理装置は、機械学習による学習モデルを用いた運用時において、判定部４０１の機能を有する。判定部４０１は、情報処理装置３０、５０の処理部３０１、５０１の処理によって各部の機能が実現される。判定部４０１の機能は、一般的な機械学習による学習モデルを用いた運用時の処理を用いることができる。

判定部４０１は、検査対象の音データである検査音データ４５１を入力し、機械学習によって生成された学習モデル４５２を用いて、音データの正常或いは異常を尤度等によって判定し、判定結果４５３を出力する。学習モデル４５２は、学習用の音データについて、正常と異常のそれぞれを異なるラベリング（クラスタリング）として学習した結果である。したがって、判定部４０１は、判定対象の検査音データ４５１について、正常尤度と異常尤度とを算出し、正常と異常のどちらに近いかを判定する。そして、判定部４０１は、検査音データ４５１の判定結果４５３に基づき、対象の音データについて異常か否かを示す異常判定結果４５４を出力する。この異常判定結果４５４によって対象音の異音検知が実行される。

図５は、機械学習を用いた音データの異常判定処理を概念的に説明する図である。図５において、（Ａ）は単純な閾値による音データの分類の一例を、（Ｂ）は機械学習を用いた学習モデルによる音データの分類の一例をそれぞれ示している。図５では説明を分かりやすくするためにデータの分類を二次元空間上で簡易的に示している。それぞれの検査音の音データを円マークで示し、ドットハッチングは正常音、斜線ハッチングは異常音を表している。

図５の（Ａ）のように、単純な閾値を用いた直線状の境界Ｂ１による分類では、正常音を誤って異常音として分類してしまうことがある。これに対し、図５の（Ｂ）のように、ニューラルネットワークを用いた機械学習の学習モデルに基づく境界Ｂ２による分類では、正常音と異常音とを的確に分類でき、より確からしい判定結果が得られる。

図６は、実施の形態１に係る音データの異常判定処理を概念的に説明する図である。図６において、（Ａ）は比較例としてデータ水増しを行わない学習モデルによる音データの分類の一例を、（Ｂ）は実施の形態１のように類似音の生成によりデータ水増しを行った学習モデルによる音データの分類の一例をそれぞれ示している。図６では説明を分かりやすくするためにデータの分類を二次元空間上で簡易的に示している。それぞれの検査音の音データを円マークで示し、ドットハッチングは正常音、斜線ハッチングは異常音を表している。また、破線の円マークは、データ水増しにより追加した正常音及び異常音の音データを表している。

図６の（Ａ）のように、学習時に得られた音データのみを用いて機械学習を行った結果の学習モデルでは、データのバリエーションが少ないため、境界Ｂ３が適切に決定されない場合がある。この場合、運用時に取得される音データにおいて、正常音が誤って異常音として判定され、判定結果に誤り（ＮＧ）が生じる。特に、学習時の音データの特徴の分布に偏りがあり、環境変化によって運用時の音データの特徴が学習時の音データと少し乖離している場合などに、誤判定が生じやすい。これに対し、図６の（Ｂ）のように、学習時に得られた音データに対して自動生成された類似音の音データを追加して学習用のデータの水増しを行い、機械学習を行った結果の学習モデルでは、多数の学習データに基づくより適切な境界Ｂ４が決定される。この場合、運用時に取得される音データに対して的確に正常音と異常音を分類でき、より確からしい判定結果が得られる。したがって、異音検知を精度良く実行できる。

上述したように、本実施の形態では、実環境で取得した対象の音データに基づいて類似環境の音データに相当する類似音データを自動生成することによって、学習用のデータの水増しを行う。これにより、画像と同様なデータ加工によって適切な学習用のデータの水増しができない音データにおいて、多数の学習用データが得られない場合であっても、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成することが可能になる。また、学習時に取得した実環境の音データの類似環境を生成することによって、運用時に環境の変化が生じた場合にも対応可能であり、環境変化に対しても確度の高い判定結果を得られる学習モデルを生成可能である。これにより、機械学習による学習モデルを用いた音データの異常判定結果等の分類判定の精度を向上することができる。

（実施の形態２）
実施の形態２では、学習用のデータとして正常音のみしか得られない場合に、異常音データベースを用いて模擬的な異常音を生成することにより、目的とする学習用のデータとしての異常音の音データを作り出して学習用のデータの水増しを行い、音データの学習及び評価を行う例を示す。

図７は、実施の形態２に係る音データ処理装置における学習時の機能的構成を示すブロック図である。音データ処理装置は、機械学習の学習時において、正常音加工部６０１、異常音選択部６０２、ミキシング部６０３、機械学習部６０４の機能を有する。ここで、正常音加工部６０１、異常音選択部６０２、及びミキシング部６０３が模擬異常音データ６５３を生成する模擬異常音生成部としての機能を実現する。正常音加工部６０１、異常音選択部６０２、ミキシング部６０３、機械学習部６０４は、情報処理装置３０、５０の処理部３０１、５０１の処理によって各部の機能が実現される。

正常音加工部６０１は、学習対象の音データとして得られる正常音データ６５１を用いて、模擬的な異常音を生成するためのデータ加工処理を行う。異常音選択部６０２は、異常音データベース（異常音ＤＢ）６５４を用いて、対象の音データの種類、特徴に応じて適切な異常音データを選択する。異常音データベース６５４は、異常発生時の音データとして、各種の異常音に相当する音データを蓄積したものである。例えば、モータ音の場合、回転数が変化している音、部材がこすれている音などを予め収集して格納する。異常音データベース６５４は、検査対象に対して適合するような異常状態を表す音データを格納してもよい。

ミキシング部６０３は、加工後の正常音データと選択した異常音データとのミキシング処理を行い、模擬的な異常音の音データである模擬異常音データ６５３を生成することにより、学習用データの水増しを行う。機械学習部６０４は、処理部に搭載した人工知能を用いて、ディープラーニング等の機械学習を実行する。機械学習部６０４は、取得した正常音データ６５１、正常音データ６５１に基づいて生成した模擬異常音データ６５３を用いて、機械学習処理を実施し、学習結果としての学習モデル６５２を生成する。

機械学習部６０４における機械学習処理は、１つ以上の統計的分類技術を用いて行っても良い。統計的分類技術としては、例えば、線形分類器（linear classifiers）、サポートベクターマシン（support vector machines）、二次分類器（quadratic classifiers）、カーネル密度推定（kernel estimation）、決定木（decision trees）、人工ニューラルネットワーク（artificial neural networks）、ベイジアン技術及び／又はネットワーク（Bayesian techniques and/or networks）、隠れマルコフモデル（hidden Markov models）、バイナリ分類子（binary classifiers）、マルチクラス分類器（multi-class classifiers）クラスタリング（a clustering technique）、ランダムフォレスト（a random forest technique）、ロジスティック回帰（a logistic regression technique）、線形回帰（a linear regression technique）、勾配ブースティング（a gradient boosting technique）などが挙げられる。ただし、使用される統計的分類技術はこれらに限定されない。

図８は、実施の形態２に係る正常音加工部６０１の処理を示すフローチャートである。正常音加工部６０１は、マイクロホン１０等によって取得された正常音データ６５１を、学習用の正常音の音データとして入力し（Ｓ２１）、異常音のミキシング用に加工するための音データのデータ加工処理を行う。このとき、正常音加工部６０１は、検査対象の音データの種類に基づき、ローパスフィルタ（ＬＰＦ）、ハイパスフィルタ（ＨＰＦ）等の周波数特性を変化させるフィルタを選択する（Ｓ２２）。そして、正常音加工部６０１は、選択したフィルタを適用し、例えば特定周波数の除去、周波数移動等の処理によって音データを加工する（Ｓ２３）。ここでは、音データ処理装置は予め検査対象が何であるかわかっている状態を想定し、検査対象の音データの特性に応じた処理を行う。例えば、定常的な音の対象音に対して特定周波数を低減して除去する、対象音のピーク周波数が１００Ｈｚであるものをピッチ変換して２００Ｈｚにずらすなどの加工処理を実行する。また、検査対象の音データの特徴に応じて、対象音の音データの音量調整を行ってもよい。そして、正常音加工部６０１は、加工処理後の正常音の音データを出力する（Ｓ２４）。

想定される模擬的な異常音を作成するには、正常音に対して異常音を加えて生成する、正常音から異常音を差し引いて生成する、正常音の一部の特性を変化させて生成するなど、各種の生成方法がある。そこで、正常音加工部６０１は、正常音の環境に合わせて目的の異常音を生成するために、異常音とのミキシング用に正常音を加工する、正常音から異常音となるように加工する、等の処理を行う。例えば、異常音を加えるために正常音の一部周波数を低減させる。或いは、異常音を差し引くために正常音の周波数特性を変化させる。或いは、正常状態の音から少し高くなった状態が異常状態である場合、正常音の周波数を少し高くシフトさせる。また、設備検査の打音において、響く音が正常状態、響かない音が異常状態である場合に、正常音から響く音の成分を打ち消すようにフィルタ処理する。これらの各種データ加工処理により、異常音を生成するための前処理を実行する。

図９は、実施の形態２に係る異常音選択部６０２の処理を示すフローチャートである。異常音選択部６０２は、異常音データベース６５４のリスト情報と検査対象の種類等に関する検査対象情報とを入力する（Ｓ３１）。そして、異常音選択部６０２は、検査対象の音データの特性に応じて、異常音データベース６５４を使用するか否か、すなわち異常音データベース６５４の音データを用いて異常音のミキシングを行うか、それとも正常音の加工のみで対応するかを判定する（Ｓ３２）。ここで、異常音データベース６５４を使用しない場合、異常音選択部６０２は無音の音データを出力する（Ｓ３３）。一方、異常音データベース６５４を使用する場合、異常音選択部６０２は、検査対象の音データの種類に基づき、異常音データベース６５４からミキシング用に適合する異常音の音データを選択する（Ｓ３４）。そして、異常音選択部６０２は、選択した異常音の音データを出力する（Ｓ３５）。

図１０は、実施の形態２に係るミキシング部６０３の処理を示すフローチャートである。ミキシング部６０３は、ミキシング用の音データとして、正常音加工部６０１にて加工された正常音の音データを入力し（Ｓ４１）、異常音選択部６０２にて選択された異常音の音データを入力する（Ｓ４２）。そして、ミキシング部６０３は、加工後の正常音と異常音との加算処理（重畳処理）を行って音データをミキシングする（Ｓ４３）。これにより、模擬的な異常音の音データを生成する。このとき、ミキシング部６０３は、加算処理として、正常音と異常音の波形同士を乗算し、加工後の正常音と異常音とを加える、加工後の正常音から異常音を差し引く、異常音を使用せずに無音とし加工後の正常音をそのまま異常音として用いる、などの処理を実行する。そして、ミキシング部６０３は、生成した模擬異常音の音データを出力する（Ｓ４４）。このようにして、ミキシング部６０３は、正常音データ６５１に対して異常音データベース６５４からの異常音データを重畳して模擬異常音データ６５３を生成して加えることによって、対象音データの特徴に応じた適切な学習用の音データの水増しを行う。なお、ミキシング部６０３は、加算処理において複数パターンの音量調整を行い、異なる複数の模擬異常音データを生成し、学習用のデータにバリエーションを持たせるようにしてもよい。

機械学習部６０４は、対象の正常音データ６５１と模擬異常音データ６５３を含むデータ水増しされた学習用の音データを用いて、機械学習処理を実施して学習モデル６５２を生成する。

音データ処理装置の運用時の機能的構成については、図４に示した実施の形態１と同様である。音データ処理装置は、機械学習による学習モデルを用いた運用時において、判定部４０１の機能を有する。判定部４０１は、検査対象の音データである検査音データ４５１を入力し、機械学習によって生成された学習モデル４５２を用いて、音データの正常或いは異常を尤度等によって判定し、判定結果４５３を出力する。そして、判定部４０１は、検査音データ４５１の判定結果４５３に基づき、対象の音データについて異常か否かを示す異常判定結果４５４を出力する。この異常判定結果４５４によって対象音の異音検知が実行される。

図１１は、実施の形態２に係る音データの異常判定処理を概念的に説明する図である。図１１において、（Ａ）は比較例としてデータ水増しを行わない学習モデルによる音データの分類の一例を、（Ｂ）は実施の形態２のように模擬異常音の生成によりデータ水増しを行った学習モデルによる音データの分類の一例をそれぞれ示している。図１１では説明を分かりやすくするためにデータの分類を二次元空間上で簡易的に示している。それぞれの検査音の音データを円マークで示し、ドットハッチングは正常音、斜線ハッチングは異常音を表している。また、破線の円マークは、データ水増しにより追加した異常音の音データを表している。

図１１の（Ａ）のように、学習時に得られた正常音の音データのみを用いて機械学習を行った結果の学習モデルでは、異常音の学習結果が無いため、判定基準がどのように決定されるかは不定となり、境界Ｂ５が適切に決定されない場合がある。この場合、運用時に取得される音データにおいて、異常音が誤って正常音として判定され、判定結果に誤り（ＮＧ）が生じる。特に、正常音の特徴に近い異常音が発生する場合は、正常音のみの学習では適切な判定基準の決定が困難であり、誤判定が生じやすい。これに対し、図１１の（Ｂ）のように、学習時に得られた音データに対して自動生成された模擬異常音の音データを追加して学習用のデータの水増しを行い、機械学習を行った結果の学習モデルでは、異常音の特徴を考慮したより適切な境界Ｂ６が決定される。この場合、運用時に取得される音データに対して的確に正常音と異常音を分類でき、より確からしい判定結果が得られる。したがって、異音検知を精度良く実行できる。

上述したように、本実施の形態では、実環境で取得した対象の正常時の音データに基づいて模擬的な異常音に相当する模擬異常音データを自動生成することによって、学習用のデータの水増しを行う。これにより、実際の異常時の学習用データが得られない場合であっても、正常音と共に異常音を模擬的に学習でき、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成することが可能になる。また、模擬的な異常音データを用いた機械学習によって、例えば正常音と異常音との特徴の差が小さいユースケースであっても、微妙な差による異常判定が可能となり、異音検知の検知精度を向上できる。これにより、機械学習による学習モデルを用いた音データの異常判定結果等の分類判定の精度を向上することができる。

（実施の形態３）
実施の形態３では、実施の形態２における処理を一部変更し、対象の音データに基づき設定される異常種類に応じて、模擬的な異常音を生成する例を示す。ここでは実施の形態２と異なる部分を中心に説明し、同様の構成及び機能については説明を省略する。

図１２は、実施の形態３に係る音データ処理装置における学習時の機能的構成を示すブロック図である。音データ処理装置は、機械学習の学習時において、正常音加工部７０１、異常音選択部７２１、異常音加工部７２２、ミキシング部７０３、機械学習部７０４の機能を有する。ここで、正常音加工部７０１、異常音選択部７２１、異常音加工部７２２、及びミキシング部７０３が模擬異常音データ７５３を生成する模擬異常音生成部としての機能を実現する。正常音加工部７０１、異常音選択部７２１、異常音加工部７２２、ミキシング部７０３、機械学習部７０４は、情報処理装置３０、５０の処理部３０１、５０１の処理によって各部の機能が実現される。

正常音加工部７０１は、検査対象（すなわち学習対象）の音データとして得られる正常音データ６５１を用いて、模擬的な異常音を生成するためのデータ加工処理を行う。異常音選択部７２１は、異常音データベース（異常音ＤＢ）６５４を用いて、検査対象の音データの種類、特徴に応じて適切な異常音データを選択する。異常音加工部７２２は、選択された異常音データを用いて、模擬的な異常音を生成するためのデータ加工処理を行う。ミキシング部７０３は、加工後の正常音データと異常音データとのミキシング処理を行い、模擬的な異常音の音データである模擬異常音データ７５３を生成することにより、学習用データの水増しを行う。機械学習部７０４は、実施の形態２と同様、処理部に搭載した人工知能を用いて、ディープラーニング等の機械学習を実行する。機械学習部７０４は、取得した正常音データ６５１、正常音データ及び／又は異常音データに基づいて生成した模擬異常音データ７５３を用いて、機械学習処理を実施し、学習結果としての学習モデル７５２を生成する。

実施の形態３では、音データ処理装置は、検査対象の音データの種類に応じた異常種類７５６を設定し、異常種類ごとに異なる処理を行って模擬的な異常音を生成する。音データ処理装置は、設定した異常種類７５６に応じて、正常音加工部７０１、異常音選択部７２１及び異常音加工部７２２の動作を切り替える。異常種類によって、正常音に対して異常が発生した場合の異常音の態様が異なる。一般的に、異常種類は、対象機器、対象物、対象空間など、検査対象によって対応付けられる。例えば、モータ等の回転体を含む機器、ファンベルト等の駆動機構を含む機器など、それぞれの対象機器ごとに異常発生時の音の特性に特徴がある。以下では、模擬異常音の生成処理を行う検査対象の音データの種類の一例として、対象機器の種類によって異常種類を設定する例を示す。

音データ処理装置は、液晶ディスプレイ、有機ＥＬ（Electro-Luminescence）ディスプレイ等の表示装置による表示部を有する。音データ処理装置は、表示部に表示する表示画面等を含むユーザインタフェース（ＵＩ）を有し、ユーザ操作による選択入力を受け付け可能となっている。音データ処理装置は、ユーザインタフェース（ＵＩ）７５５を用いて、対象機器の選択入力を受け付け、対象機器に応じた異常種類７５６の設定を行う。なお、ユーザ操作により異常種類７５６を直接入力して設定してもよい。また、音データ処理装置は、音データの識別情報などに基づき、検査対象の音データの種類、特徴に応じた異常種類７５６を設定してもよい。

異常種類７５６としては、例えば以下のケース１～４がある。
ケース１：異音の混入（正常時の音から異なる音が発生する）。ケース１は、例えば回転体のベアリング異常、ファンベルト異常、駆動系の異常接触などによって発生する異常である。
ケース２：ピーク周波数の変動（正常時の音のピーク周波数が上昇又は低下する）。ケース２は、例えば回転体の回転数の変化などによって発生する異常である。
ケース３：ピーク周波数の欠落（正常時の音のピーク周波数が欠落する）。ケース３は、例えば駆動系の接触部の変化などによって発生する異常である。
ケース４：音量の変化（正常時の音のレベルが上昇又は低下する）。ケース４は、例えば回転体又は駆動系の摩擦の増加又は減少などによって発生する異常である。

図１３は、検査対象を選択するユーザインタフェース（ＵＩ）の表示画面の一例を示す図である。ユーザインタフェースの表示画面における設定画面７６１には、ユーザ操作により検査対象としての対象機器の種類を選択して設定入力するための対象設定入力部７６２が設けられる。対象設定入力部７６２は、例えば対象機器としてモータ、コンプレッサ、ベルト、アーム等の検査対象種類の名称がリスト表示されるプルダウンメニュー表示を有する。ユーザが対象設定入力部７６２において所定の対象機器を選択入力すると、音データ処理装置は、検査対象の対象機器を設定し、この対象機器に応じた音の異常種類を設定する。このようなユーザインタフェースを用いることによって、異常種類又は対象機器の設定の際の操作性を良好にすることができる。

図１４は、実施の形態３に係る音データ処理装置の学習時の処理を示すフローチャートである。音データ処理装置は、ユーザインタフェース７５５を用いて、対象機器の設定を入力し（Ｓ５１）、対象機器に応じた異常種類７５６を設定する（Ｓ５２）。そして、音データ処理装置は、正常音加工部７０１、異常音選択部７２１及び異常音加工部７２２において、異常種類７５６に応じて動作モードを切り替え、正常音の加工と、異常音の選択及び加工との少なくとも一方を実行する（Ｓ５３）。この際、正常音及び／又は異常音の処理として、ピークシフト、フィルタリング、レベル増減、ミキシングレベル設定等を実行する。異常種類に応じた処理の具体例は後述する。続いて、音データ処理装置は、ミキシング部７０３において、正常音と異常音とのミキシング処理を行い（Ｓ５４）、模擬異常音データ７５３を生成して出力する（Ｓ５５）。

図１５は、異常種類のケース１における模擬異常音の生成処理を説明する図である。図１５において、（Ａ）は正常音の時間波形の一例、（Ｂ）は異常音の時間波形の一例を示し、横軸は時間、縦軸は音量レベルを表している。また、（Ｃ）は正常音の所定時間における周波数特性の一例、（Ｄ）は異常音の所定時間における周波数特性の一例を示し、横軸は周波数、縦軸は信号レベルを表している。ケース１の場合、ベアリング異常、ファンベルト異常、駆動系の異常接触などが発生した際に、正常音に対して異音が付加される。図示例は、正常音に対してパルス状の音が間欠的に付加された例であり、異常音の周波数特性において、ホワイトノイズのように全帯域において信号レベルが上昇している。なお、所定の周波数帯域（例えば１ｋＨｚ付近など）のみに異音成分が付加されるような場合もあり得る。

ケース１では、異常音選択部７２１、異常音加工部７２２、及びミキシング部７０３が主として動作し、正常音に対して異常音を付加する処理を実行する。音データ処理装置は、異常音選択部７２１が異常音データベース６５４から適切な異常音データを選択し、異常音加工部７２２が選択された異常音データの加工処理を行い、ミキシングレベルを設定する。異常音データの加工処理としては、ピークシフト等の処理を実行する。そして、ミキシング部７０３が設定したミキシングレベルに従って正常音データと異常音データとを混合し、模擬異常音データ７５３を出力する。なお、正常音加工部７０１において正常音データの加工処理を適宜行ってから異常音データとミキシングしてもよい。

図１６は、異常種類のケース２における模擬異常音の生成処理を説明する図である。図１６において、（Ａ）は正常音の時間波形の一例、（Ｂ）は異常音の時間波形の一例を示し、横軸は時間、縦軸は音量レベルを表している。また、（Ｃ）は正常音の所定時間における周波数特性の一例、（Ｄ）は異常音の所定時間における周波数特性の一例を示し、横軸は周波数、縦軸は信号レベルを表している。ケース２の場合、モータ等の回転体の異常により回転数の変化などが発生した際に、音のピーク周波数が変動し、ピークが生じる周波数成分の帯域が移動する。図示例は、正常音において４ｋＨｚの帯域にピークがある状態で、異常音ではピーク周波数が４ｋＨｚから２ｋＨｚに変動し、２ｋＨｚの帯域に強いピークが生じて４ｋＨｚのピークが無くなっている。

ケース２では、正常音加工部７０１及びミキシング部７０３が主として動作し、正常音のピークシフトを行う処理を実行する。音データ処理装置は、正常音加工部７０１が正常音データ６５１の加工処理を行い、正常音データのピーク周波数を変動させ、模擬異常音データ７５３を出力する。なお、ミキシング部７０３においてピークシフト後の正常音データに異常音データを混合してもよい。

図１７は、異常種類のケース３における模擬異常音の生成処理を説明する図である。図１７において、（Ａ）は正常音の時間波形の一例、（Ｂ）は異常音の時間波形の一例を示し、横軸は時間、縦軸は音量レベルを表している。また、（Ｃ）は正常音の所定時間における周波数特性の一例、（Ｄ）は異常音の所定時間における周波数特性の一例を示し、横軸は周波数、縦軸は信号レベルを表している。ケース３の場合、駆動系の接触部の変化などが発生し、特定部位が新たに接触又は離間するなど接触状態が変化した際に、音のピーク周波数に欠落が生じる。図示例は、正常音において２ｋＨｚ付近の帯域にピークがある状態で、異常音では２ｋＨｚ付近のピークが無くなっている。

ケース３では、正常音加工部７０１及びミキシング部７０３が主として動作し、正常音のフィルタリングを行う処理を実行する。音データ処理装置は、正常音加工部７０１が正常音データ６５１の加工処理を行い、正常音データにおける所定周波数をフィルタにより減衰させ、模擬異常音データ７５３を出力する。なお、ミキシング部７０３においてフィルタリング後の正常音データに異常音データを混合してもよい。

また、ケース４の場合、モータ等の回転体、又はファンベルト或いはギア等の駆動系の摩擦の増加又は減少などが発生した際に、音量レベルが上昇又は低下して変動する。例えば、部材間に注入するグリスの不足又は過剰によって摩擦が変動し、対象機器の音の音量が増減する。

ケース４では、正常音加工部７０１及びミキシング部７０３が主として動作し、正常音のレベル増減を行う処理を実行する。音データ処理装置は、正常音加工部７０１が正常音データ６５１の加工処理を行い、正常音データの音量レベルをフィルタ利得の変更により増減させ、模擬異常音データ７５３を出力する。なお、ミキシング部７０３においてレベル調整後の正常音データに異常音データを混合してもよい。

上述したように、本実施の形態では、音データの機械学習を行う対象となる対象機器等の種類によって異なる、それぞれの異常種類を設定し、この異常種類に応じてそれぞれの処理を行って模擬的な異常音を生成する。これにより、異常種類ごとに特性が異なる異常状態における模擬異常音を生成でき、異常種類の各態様に合わせた適切な模擬異常音データを生成可能となる。

（実施の形態４）
実施の形態４として、前述した実施の形態１、実施の形態２、実施の形態３のうちの少なくとも二つを組み合わせた態様の機能構成を採用することもできる。この実施の形態４では、例えば対象の正常音のみが取得可能な環境において、図７に示した実施の形態２の機能ブロックによって模擬異常音の音データを生成し、この模擬異常音を含む学習用の音データを元にして、さらに図２に示した実施の形態１の機能ブロックによって類似音の音データを生成し、模擬異常音及び類似音を含む学習用の音データを用いて機械学習を行う。このようにして、模擬異常音及び類似音を生成して学習用の音データの水増しを行い、大量の学習用データを用いた機械学習を可能とし、より的確な異音検知を実行できるようにする。

また、変形例として、実施の形態１、２、３、４のいずれかの機能構成による機械学習を一旦実行した後、学習用の音データを追加して追加学習を実行し、より最適化した学習モデルを生成することも可能である。例えば、実施の形態２の機能ブロックによって模擬異常音を生成して機械学習を行った後、実際の異常音を取得できた場合、取得した異常音を用いた追加学習、さらに実施の形態１のように類似の異常音を生成して用いた追加学習などを実行する。或いは、実施の形態１の機能ブロックによって類似音を生成して機械学習を行った後、追加取得した正常音や異常音を用いた追加学習、さらに実施の形態２の模擬異常音の生成や実施の形態１の類似音の生成によって追加したデータによる追加学習などを実行する。

このように、複数種類の学習用データの水増し処理の組み合わせを行うことによって、より多くの適切な学習用データを使用した学習モデルの生成が可能となる。また、さらに取得した学習用データによる追加学習を組み合わせることによって、より多くの適切な学習用データを使用した学習モデルの生成が可能となる。したがって、機械学習による学習モデルを用いた音データの異常判定結果等の分類判定の精度を向上することができる。

以上のように、本実施の形態の音データ処理方法は、対象の音データを入力して取得し、音データの処理を行う処理部３０１、５０１を有する情報処理装置３０、５０を含む音データ処理装置における音データ処理方法であって、類似環境生成部２０１において、取得した対象音データ２５１に基づき、対象音データ２５１に類似する類似音となる類似音データ２５３を生成するステップと、機械学習部２０２において、取得した対象音データ２５１と生成した類似音データ２５３とを学習用の音データとして用いて機械学習を行い、対象の音データに関する分類判定を行うための学習モデル２５２を生成するステップと、を有する。これにより、多数の学習用データが得られない場合であっても、類似音データを生成して使用することによって、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成することができる。また、十分な量の学習用のデータを用いて生成した学習モデルによって異常音判定等の分類判定の運用を実行でき、対象の音データに関する分類判定の精度を向上できる。

また、本実施の形態の音データ処理方法は、類似音データを生成するステップにおいて、対象音データ２５１の類似環境を生成し、対象音データ２５１の周波数特性、音量のうちの少なくとも一つを変化させて複数の類似音データ２５３を生成する。これにより、実環境で取得した対象音データに基づいて対象音データに類似する複数の類似音データを生成できる。また、類似環境による類似音データを学習用のデータに用いることによって、運用時の環境変化にも対応でき、対象の音データに関する分類判定の精度を向上できる。

また、本実施の形態の音データ処理方法は、類似音データを生成するステップにおいて、対象音データ２５１の周波数特性を変化させるフィルタを用いて類似音データ２５３を生成する。これにより、対象音データの周波数特性を変化させて対象音データに関する類似音データを生成可能となる。

また、本実施の形態の音データ処理方法は、類似音データを生成するステップにおいて、対象音データ２５１の周波数帯域全体の音量、又は特定の周波数帯域の音量を変化させる音量変化パラメータを用いて類似音データ２５３を生成する。これにより、対象音データの周波数帯域全体の音量、又は特定の周波数帯域の音量を変化させて対象音データに関する類似音データを生成可能となる。

また、本実施の形態の音データ処理方法は、類似音データを生成するステップにおいて、生成した複数の類似音データ２５３について、機械学習において学習矛盾が生じるデータを破棄する。これにより、例えば異なるラベルの音データで同じ周波数のものなど、学習矛盾が生じるデータを除去でき、適切な機械学習を実行可能となる。

また、本実施の形態の音データ処理方法は、学習モデルを生成するステップにおいて、対象の音データに関する分類判定として、対象の音データの異常音を判定して異音検知を行うための学習モデル２５２を生成する。これにより、実環境で取得した対象音データと自動生成した類似音データとを含む十分な量の適切な学習用のデータを用いて機械学習を行い、異常音判定結果による異音検知に対応する学習モデルを生成可能となる。

また、本実施の形態の音データ処理方法は、学習モデルを生成するステップにおいて、対象音データ２５１及び類似音データ２５３とともに、汎用的な音を含む汎用音データを蓄積した汎用音データベース２５４を学習用の音データとして用いて機械学習を行う。これにより、汎用音データを含む十分な量の適切な学習用のデータを用いて機械学習を行い、より好ましい学習モデルを生成でき、対象の音データに関する分類判定の精度を向上できる。

本実施の形態の音データ処理装置は、対象の音データを入力して取得し、音データの処理を行う処理部３０１、５０１を有する情報処理装置３０、５０を含む音データ処理装置であって、処理部３０１、５０１は、取得した対象音データ２５１に基づき、対象音データ２５１に類似する類似音となる類似音データ２５３を生成する類似環境生成部２０１と、取得した対象音データ２５１と生成した類似音データ２５３とを学習用の音データとして用いて機械学習を行い、対象の音データに関する分類判定を行うための学習モデル２５２を生成する機械学習部２０２と、を有する。これにより、多数の学習用データが得られない場合であっても、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成でき、対象の音データに関する分類判定の精度を向上できる。

本実施の形態のプログラムは、コンピュータである情報処理装置３０、５０を含む音データ処理装置に、対象の音データを取得するステップと、取得した対象音データ２５１に基づき、対象音データ２５１に類似する類似音となる類似音データ２５３を生成するステップと、取得した対象音データ２５１と生成した類似音データ２５３とを学習用の音データとして用いて機械学習を行い、対象の音データに関する分類判定を行うための学習モデル２５２を生成するステップと、を実行させるためのプログラムである。

本実施の形態の音データ処理方法は、対象の音データを入力して取得し、音データの処理を行う処理部３０１、５０１を有する情報処理装置３０、５０を含む音データ処理装置における音データ処理方法であって、取得した対象の正常音データ６５１を用いて、対象の模擬的な異常音となる模擬異常音データ６５３を生成するステップと、取得した正常音データ６５１と生成した模擬異常音データ６５３とを学習用の音データとして用いて機械学習を行い、対象の音データの異常音を判定して異音検知を行うための学習モデル６５２を生成するステップと、を有する。これにより、実際の異常時の学習用データが得られない場合であっても、模擬異常音データを生成して使用することによって、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成することができる。また、模擬的な異常音の音データを含む機械学習によって生成した学習モデルによって異常音判定の運用を実行でき、対象の音データに関する異音検知の精度を向上できる。

また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、正常音加工部６０１、７０１により、正常音データ６５１のデータ加工処理を実行する。これにより、取得した正常音データを加工処理して模擬的な異常音データを生成可能となる。

また、本実施の形態の音データ処理方法は、データ加工処理として、正常音データのピークシフト、フィルタリング、音量変更のうちの少なくとも一つの処理を実行する。これにより、正常音のピーク周波数の変動、ピーク周波数の欠落、音量の変化等の各異常状態に対応する模擬的な異常音データを生成可能となる。

また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、正常音データ６５１と、予め保持している異常音データベース６５４から選択した異常音データとを用いて、ミキシング部６０３により、正常音データと異常音データとのミキシング処理を行って模擬異常音データ６５３を生成する。これにより、実環境で取得した正常音データと予め用意した異常音データとの加算等を行ってミキシング処理し、模擬的な異常音データを生成可能となる。

また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、正常音加工部６０１により、ミキシング部６０３にてミキシング処理を行うための、正常音データと異常音データとの少なくとも一方のデータ加工処理を実行する。これにより、実環境で取得した正常音データを加工処理し、模擬異常音データを生成するためのミキシング用の音データを生成可能となる。

また、本実施の形態の音データ処理方法は、データ加工処理において、フィルタを用いて正常音データ６５１における特定周波数の除去、周波数移動のうちの少なくとも一つの処理を行う。これにより、正常音データの周波数特性を変更して加工処理し、模擬異常音データを生成、又は模擬異常音データの生成時のミキシング用のデータを生成できる。

また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、異常種類７５６を設定し、異常種類７５６に応じて、正常音データのみ、又は正常音データ及び異常音データを用いた処理を行い、模擬異常音データを生成する。この際、対象の音データの種類に基づいて異常種類７５６を設定してよい。これにより、異常種類ごとの異常状態における模擬異常音を生成し、異常種類の各態様に合わせた適切な模擬異常音データを生成可能となる。

また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、異常音選択部６０２により、ミキシング部６０３にてミキシング処理を行うための異常音データベース６５４からの異常音データの選択処理を実行する。これにより、予め蓄積した異常音データベースから、模擬異常音データを生成するためのミキシング用の音データを生成可能となる。

また、本実施の形態の音データ処理方法は、選択処理において、対象の音データの種類に基づき、異常音データベース６５４から適合する異常音データを選択する。これにより、対象の音データの種類に基づいて異常音データを選択し、模擬異常音データを生成するための適切なミキシング用の音データを抽出できる。

また、本実施の形態の音データ処理方法は、選択処理において、対象の音データの特性に応じて異常音データベース６５４の使用の有無を判定し、異常音データベース６５４を使用しない場合、無音の音データを出力する。これにより、異常音データベースを使用せずに加工後の正常音データによって模擬異常音データを生成する際に、異常音データとして無音の音データをミキシング用として出力することで、適切な模擬異常音データを生成可能となる。

本実施の形態の音データ処理装置は、対象の音データを入力して取得し、音データの処理を行う処理部３０１、５０１を有する情報処理装置３０、５０を含む音データ処理装置であって、処理部３０１、５０１は、取得した対象の正常音データ６５１を用いて、対象の模擬的な異常音となる模擬異常音データ６５３を生成する模擬異常音生成部（正常音加工部６０１、異常音選択部６０２、ミキシング部６０３）と、取得した正常音データ６５１と生成した模擬異常音データ６５３とを学習用の音データとして用いて機械学習を行い、対象の音データの異常音を判定して異音検知を行うための学習モデル６５２を生成する機械学習部６０４と、を有する。これにより、実際の異常時の学習用データが得られない場合であっても、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成でき、対象の音データに関する異常検知の精度を向上できる。

本実施の形態のプログラムは、コンピュータである情報処理装置３０、５０を含む音データ処理装置に、対象の音データを取得するステップと、取得した対象の正常音データ６５１を用いて、対象の模擬的な異常音となる模擬異常音データ６５３を生成するステップと、取得した正常音データ６５１と生成した模擬異常音データ６５３とを学習用の音データとして用いて機械学習を行い、対象の音データの異常音を判定して異音検知を行うための学習モデル６５２を生成するステップと、を実行させるためのプログラムである。

以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上記実施形態における各構成要素を任意に組み合わせてもよい。

また、本開示は、上述した実施の形態に係る音データ処理方法及び音データ処理装置の機能を実現するプログラムを、ネットワーク或いは各種記憶媒体を介してコンピュータである情報処理装置に供給し、この情報処理装置のプロセッサが読み出して実行するプログラム、及びこのプログラムが記憶された記録媒体も適用範囲としてよい。

なお、本出願は、２０１８年７月３１日出願の日本特許出願（特願２０１８－１４４４３６、及び特願２０１８－１４４４３７）に基づくものであり、その内容は本出願の中に参照として援用される。

本開示は、データの機械学習を実施する際に適切な学習用のデータを用いて好適な学習モデルを生成することを可能にする音データ処理方法、音データ処理装置及びプログラムとして有用である。

１０マイクロホン
２０ＡＤ変換器
３０情報処理装置（端末装置）
４０通信路
５０情報処理装置（サーバ装置）
２０１類似環境生成部
２０２、６０４機械学習部
２５１対象音データ
２５２、４５２、６５２学習モデル
２５３類似音データ
２５４汎用音データベース
３０１、５０１処理部
３０２、５０２記憶部
３０３、５０３格納部
３０４、５０４通信インタフェース
４０１判定部
４５１検査音データ
４５３判定結果
４５４異常判定結果
６０１正常音加工部
６０２異常音選択部
６０３ミキシング部
６５１正常音データ
６５３模擬異常音データ
６５４異常音データベース

Claims

対象の音データを取得し、前記音データの処理を行う処理部を有する音データ処理装置における音データ処理方法であって、
前記取得した対象音データに基づき、前記対象音データに類似する類似音となる複数の類似音データを生成するステップと、
前記複数の類似音データのうち機械学習において学習矛盾が生じるデータを判断するステップと、
前記取得した対象音データと、前記生成した前記複数の類似音データのうち前記学習矛盾が生じないと判断された類似音データとを学習用の音データとして用いて前記機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成するステップと、
を有する、音データ処理方法。
請求項１に記載の音データ処理方法であって、
前記学習矛盾が生じるデータを判断するステップにおいて、
前記複数の類似音データのうち前記学習矛盾が生じると判断されたデータを破棄する、
音データ処理方法。
請求項２に記載の音データ処理方法であって、
前記類似音データを生成するステップにおいて、
前記対象音データの周波数特性、音量のうちの少なくとも一つを変化させて複数の前記類似音データを生成する、
音データ処理方法。
請求項３に記載の音データ処理方法であって、
前記類似音データを生成するステップにおいて、
前記対象音データの周波数特性を変化させるフィルタを用いて前記類似音データを生成する、
音データ処理方法。
請求項３に記載の音データ処理方法であって、
前記類似音データを生成するステップにおいて、
前記対象音データの周波数帯域全体の音量、又は特定の周波数帯域の音量を変化させる音量変化パラメータを用いて前記類似音データを生成する、
音データ処理方法。
請求項１に記載の音データ処理方法であって、
前記学習モデルを生成するステップにおいて、
前記対象の音データに関する分類判定として、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成する、
音データ処理方法。
請求項１に記載の音データ処理方法であって、
前記学習モデルを生成するステップにおいて、
前記対象音データ及び前記類似音データとともに、汎用的な音を含む汎用音データを蓄積した汎用音データベースを前記学習用の音データとして用いて機械学習を行う、
音データ処理方法。
対象の音データを取得し、前記音データの処理を行う処理部を有する音データ処理装置であって、
前記処理部は、
前記取得した対象音データに基づき、前記対象音データに類似する類似音となる複数の類似音データを生成し、前記複数の類似音データのうち機械学習において学習矛盾が生じるデータを判断する類似環境生成部と、
前記取得した対象音データ、前記生成した前記複数の類似音データのうち前記学習矛盾が生じないと判断された類似音データを学習用の音データとして用いて前記機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成する機械学習部と、
を有する、音データ処理装置。
コンピュータである音データ処理装置に、
対象の音データを取得するステップと、
前記取得した対象音データに基づき、前記対象音データに類似する類似音となる複数の類似音データを生成するステップと、
前記複数の類似音データのうち機械学習において学習矛盾が生じるデータを判断するステップと、
前記取得した対象音データ、前記生成した前記複数の類似音データのうち前記学習矛盾が生じないと判断された類似音データを学習用の音データとして用いて前記機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成するステップと、
を実行させるための、プログラム。