JP7407382B2 - 音データ処理方法、音データ処理装置及びプログラム - Google Patents

音データ処理方法、音データ処理装置及びプログラム Download PDF

Info

Publication number
JP7407382B2
JP7407382B2 JP2020533417A JP2020533417A JP7407382B2 JP 7407382 B2 JP7407382 B2 JP 7407382B2 JP 2020533417 A JP2020533417 A JP 2020533417A JP 2020533417 A JP2020533417 A JP 2020533417A JP 7407382 B2 JP7407382 B2 JP 7407382B2
Authority
JP
Japan
Prior art keywords
sound data
learning
sound
similar
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020533417A
Other languages
English (en)
Other versions
JPWO2020026829A1 (ja
Inventor
亮太 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2020026829A1 publication Critical patent/JPWO2020026829A1/ja
Application granted granted Critical
Publication of JP7407382B2 publication Critical patent/JP7407382B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Description

本開示は、対象の音データの機械学習に関連する処理を行う音データ処理方法、音データ処理装置及びプログラムに関する。
各種施設等において、対象物又は対象空間等の音を収音し、取得した音データを解析して異常の検知、設備の稼働状況のモニタ、製品の良否判定などを行うシステムが従来より用いられている。この種のシステムにおいて、例えば、対象物の音データの異常を検知し、異常音が発生した際の故障判定等を行う装置がある。最近では、取得した音データの異常を検知するために、統計的手法に基づく機械学習処理を用いて異常音の判定を行うことも種々検討されている。
例えば、特許文献1には、与えられた機械音の正常動作時の学習データを用いて、機械の異常音を検出する装置が開示されている。特許文献1の装置は、入力された周波数領域の信号を音の性質が互いに異なる2種以上の信号に分離し、この2種以上の信号のそれぞれについて所定の音響特徴量を抽出し、抽出された音響特徴量及び事前に学習された2種以上の信号の正常時のモデルを用いて、2種以上の信号のそれぞれの異常度を計算し、これらの異常度を統合した統合異常度を用いて周波数領域の信号が異常であるかを判定するものである。
日本国特開2017-090606号公報
機械学習を実施する際には、より好適な学習モデルを生成して判定結果の精度を向上させることが肝要である。好適な学習モデルの生成のためには、学習用のデータとして、大量のデータ、適切な特徴を持つデータが必要となる。しかしながら、対象の音データの異常検知等の分類判定に適応するように、大量の音データ、適切な特徴を持つ音データを学習用のデータとして適宜取得することは困難な場合がある。
本開示は、上述した従来の状況に鑑みて案出され、音データの機械学習を実施する際に適切な学習用のデータを用いて好適な学習モデルを生成することを可能にする音データ処理方法、音データ処理装置及びプログラムを提供することを目的とする。
本開示は、対象の音データを入力して取得し、前記音データの処理を行う処理部を有する音データ処理装置における音データ処理方法であって、前記取得した対象の正常音データを用いて、前記対象の模擬的な異常音となる模擬異常音データを生成するステップと、前記取得した正常音データと前記生成した模擬異常音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成するステップと、を有する、音データ処理方法を提供する。
また、本開示は、対象の音データを入力して取得し、前記音データの処理を行う処理部を有する音データ処理装置であって、前記処理部は、前記取得した対象の正常音データを用いて、前記対象の模擬的な異常音となる模擬異常音データを生成する模擬異常音生成部と、前記取得した正常音データと前記生成した模擬異常音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成する機械学習部と、を有する、音データ処理装置を提供する。
また、本開示は、コンピュータである音データ処理装置に、対象の音データを取得するステップと、前記取得した対象の正常音データを用いて、前記対象の模擬的な異常音となる模擬異常音データを生成するステップと、前記取得した正常音データと前記生成した模擬異常音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成するステップと、を実行させるための、プログラムを提供する。
本開示は、対象の音データを取得し、前記音データの処理を行う処理部を有する音データ処理装置における音データ処理方法であって、前記取得した対象音データに基づき、前記対象音データに類似する類似音となる複数の類似音データを生成するステップと、前記複数の類似音データのうち機械学習において学習矛盾が生じるデータを判断するステップと、前記取得した対象音データと前記生成した前記複数の類似音データのうち前記学習矛盾が生じないと判断された類似音データとを学習用の音データとして用いて前記機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成するステップと、を有する、音データ処理方法を提供する。
また、本開示は、対象の音データを取得し、前記音データの処理を行う処理部を有する音データ処理装置であって、前記処理部は、前記取得した対象音データに基づき、前記対象音データに類似する類似音となる複数の類似音データを生成し、前記複数の類似音データのうち機械学習において学習矛盾が生じるデータを判断する類似環境生成部と、前記取得した対象音データ前記生成した前記複数の類似音データのうち前記学習矛盾が生じないと判断された類似音データを学習用の音データとして用いて前記機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成する機械学習部と、を有する、音データ処理装置を提供する。
また、本開示は、コンピュータである音データ処理装置に、対象の音データを取得するステップと、前記取得した対象音データに基づき、前記対象音データに類似する類似音となる複数の類似音データを生成するステップと、前記複数の類似音データのうち機械学習において学習矛盾が生じるデータを判断するステップと、前記取得した対象音データ前記生成した前記複数の類似音データのうち前記学習矛盾が生じないと判断された類似音データを学習用の音データとして用いて前記機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成するステップと、を実行させるための、プログラムを提供する。
本開示によれば、音データの機械学習を実施する際に適切な学習用のデータを用いて好適な学習モデルを生成可能にすることができる。
本実施の形態に係る音データ処理装置の構成の一例を示すブロック図 実施の形態1に係る音データ処理装置における学習時の機能的構成を示すブロック図 実施の形態1に係る類似環境生成部の処理を示すフローチャート 本実施の形態に係る音データ処理装置における運用時の機能的構成を示すブロック図 機械学習を用いた音データの異常判定処理を概念的に説明する図 実施の形態1に係る音データの異常判定処理を概念的に説明する図 実施の形態2に係る音データ処理装置における学習時の機能的構成を示すブロック図 実施の形態2に係る正常音加工部の処理を示すフローチャート 実施の形態2に係る異常音選択部の処理を示すフローチャート 実施の形態2に係るミキシング部の処理を示すフローチャート 実施の形態2に係る音データの異常判定処理を概念的に説明する図 実施の形態3に係る音データ処理装置における学習時の機能的構成を示すブロック図 検査対象を選択するユーザインタフェース(UI)の表示画面の一例を示す図 実施の形態3に係る音データ処理装置の学習時の処理を示すフローチャート 異常種類のケース1における模擬異常音の生成処理を説明する図 異常種類のケース2における模擬異常音の生成処理を説明する図 異常種類のケース3における模擬異常音の生成処理を説明する図
以下、適宜図面を参照しながら、本開示に係る構成を具体的に開示した各実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
(本実施の形態に係る背景)
音データの機械学習を行う場合、学習用のデータが十分に得られない場合がある。機械学習では、一般的に学習のための多くのデータを必要とする。特にディープラーニング技術は、その階層の深さを活かすために大量のデータ(数万~数百万)を必要とする。しかし、利用シーンによっては学習用のデータが安易に得られないケースがある。特に音データは画像データよりも既存のデータとして得られるサンプルデータが少なく、設備検査の打音などのインターネットを用いて学習用のデータを検索収集する環境も整っていない。例えば、機械の稼動音、設備検査の打音などの音データの機械学習を行う場合、十分な量の学習用のデータを得られないという課題がある。
多くの学習用のデータを得るために、限られた学習用のデータを有効に使う方法として、データの水増し(Data Argumentation)がある。データの水増しは、既存の学習用のデータに対して、ノイズ付加を行ったり、画像であれば反転、回転などの加工を行い、バリエーションをもたせる手法である。しかし、音データに関しては画像データと同様の水増しは容易に適用できない。例えば、音声波形にSTFT(Short Time Fourier Transform)処理を実施してスペクトログラム画像として変換し、画像と同様に扱ってデータ加工を行うことが考えられるが、データの精度が悪化して適切な学習が行えない場合がある。つまり、音データの機械学習においては、音声の特徴を捉えた上で学習用のデータの水増しを行う必要がある。
また、音データの機械学習を用いたユースケースの中では、目的音の音データがほとんど得られないことがある。例えば、機械の稼動音の場合、正常音は稼働時に録音すればデータの収集が常時可能であるが、異常音は異常が発生した時に録音しないと得られない。このような異常音の取得が困難な状況において、機械学習を用いた異常音の検知を行おうとする場合、正常音の学習用のデータのみで異常を検知するシステムを構築する必要がある。
正常音の学習用のデータのみで異常を検知する方法として、上述した特許文献1等の記載のように、学習した値と評価値との差分を算出し、差分値が所定の閾値を超えるかどうか、すなわち正常値との乖離度を評価することによって異常検知する方法がある。しかし、この方法では、異音として検知できるのは正常値から大きく異なる音であり、例えば正常音とは小さな差であるが異常な音であるというユースケースの場合は、異音検知が困難である。
上述した背景を鑑み、本実施の形態では、学習用のデータとして、大量の音データ、適切な特徴を持つ音データを利用可能とし、音データの機械学習を実施する際に好適な学習モデルを生成して運用時に適切な評価を実施可能にするシステムの一例を以下に示す。
本実施の形態では、対象の音データの処理を行うシステムの構成例として、取得した音データを用いた機械学習を行って学習モデルを生成し、生成した学習モデルを用いて音データの分類判定としての異常判定を行う音データ処理装置及び音データ処理方法の一例を示す。ここでは、対象の音データの一例として、データセンター又は工場等の設備におけるファン、モータ等の機械音を想定し、音データにおける異常音を判定して異音検知を行う場合を例示する。
(音データ処理装置の構成)
図1は、本実施の形態に係る音データ処理装置の構成の一例を示すブロック図である。音データ処理装置は、1つ又は複数のマイクロホン(マイク)10、AD変換器20、情報処理装置30、50を含む構成である。情報処理装置30、50は、例えばプロセッサ及びメモリを有するPC(Personal Computer)等のコンピュータにより構成され、本実施の形態に係る機械学習等に関する各種の情報処理を実行する。
マイクロホン10は、対象物又は対象空間等において生じる音波を入力して電気信号のオーディオ信号として出力するコンデンサマイクロホン等の集音デバイスを有して構成される。AD変換器20は、所定の量子化ビット及びサンプリング周波数によってアナログのオーディオ信号をディジタルの音データに変換する。
情報処理装置30は、AD変換器20と接続され、マイクロホン10にて収音しAD変換器20にてディジタルデータに変換した対象の音データを入力する。情報処理装置30は、有線又は無線のネットワーク又は通信回線等の通信路40を介して情報処理装置50と接続される。図示例では、情報処理装置30が現場に配置されるローカルコンピュータの端末装置として機能し、情報処理装置50が他所に配置されるリモートコンピュータのサーバ装置として機能し、複数の情報処理装置によって本実施の形態に係る処理を分散して実行する構成となっている。情報処理装置50は、ネットワーク上のクラウドコンピュータであってもよい。情報処理装置30は、主として機械学習による学習モデルを用いた運用時の異音検知処理を実行する検知用装置として機能する。情報処理装置50は、主として機械学習を行って学習モデルを生成する学習時の機械学習処理を実行する学習用装置として機能する。なお、情報処理装置30、50は、1つのコンピュータ等の装置によって処理を実行する構成としてもよいし、或いは3つ以上のコンピュータ等の装置によって処理を実行する構成であってもよく、物理的な装置構成には限定されない。
情報処理装置30は、処理部301、記憶部302、格納部303、通信インタフェース(通信IF)304を有する。処理部301は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)等の各種処理デバイスを有し、音データに関する処理を実行する。記憶部302は、RAM(Random Access Memory)等のメモリデバイスを有し、処理部301のワーキングメモリとして使用され、データ処理時の演算等において一時記憶に利用する。また、記憶部302は、ROM(Read Only Memory)等のメモリデバイスを有し、処理部301の処理を実行するための各種実行プログラム、機械学習等の処理に関する各種設定データを記憶する。格納部303は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスクドライブ等の各種ストレージデバイスを有し、対象の音データ、機械学習により生成した学習モデル等のデータを格納する。通信インタフェース304は、有線又は無線の通信を行うインタフェースであり、通信路40を介して情報処理装置50と通信を行い、音データ、学習モデル等のデータを送受信する。
情報処理装置50は、処理部501、記憶部502、格納部503、通信インタフェース(通信IF)504を有する。処理部501は、CPU、DSP、FPGA等の各種処理デバイスを有し、音データに関する処理を実行する。記憶部502は、RAM等のメモリデバイスを有し、処理部501のワーキングメモリとして使用され、データ処理時の演算等において一時記憶に利用する。また、記憶部502は、ROM等のメモリデバイスを有し、処理部501の処理を実行するための各種実行プログラム、機械学習等の処理に関する各種設定データを記憶する。格納部503は、HDD、SSD、光ディスクドライブ等の各種ストレージデバイスを有し、対象の音データ、機械学習により生成した学習モデル、異常音データベース(異常音DB)、正常音データベース(正常音DB)、汎用音データベース(汎用音DB)等のデータを格納する。異常音データベースは、異常状態の音データを集めたデータベースである。正常音データベースは、正常状態の音データを集めたデータベースである。汎用音データベースは、日常発生する汎用的な各種の音データを集めたデータベースである。通信インタフェース504は、有線又は無線の通信を行うインタフェースであり、通信路40を介して情報処理装置30と通信を行い、音データ、学習モデル等のデータを送受信する。
本実施の形態では、マイクロホン10により収音した対象の音データを取得し、情報処理装置30、50によって音データの処理を実行する。学習時には、情報処理装置30、50によって音データの機械学習を実行し、学習モデルを生成する。運用時には、情報処理装置30、50によって学習モデルを用いて音データの異常判定を行い、異音を検知する。
以下に、本実施の形態に係る音データの機械学習を含む処理を実行する音データ処理方法及び装置について、いくつかの実施の形態を例示する。
(実施の形態1)
実施の形態1では、取得した音データの類似環境を作成することにより、対象の音データの類似音を生成して学習用のデータの水増しを行い、音データの学習及び評価を行う例を示す。
図2は、実施の形態1に係る音データ処理装置における学習時の機能的構成を示すブロック図である。音データ処理装置は、機械学習の学習時において、類似環境生成部201、機械学習部202の機能を有する。類似環境生成部201、機械学習部202は、情報処理装置30、50の処理部301、501の処理によって各部の機能が実現される。
類似環境生成部201は、実環境で取得される学習対象の音データの類似環境を生成し、対象の音データとして取得した対象音データ251を用いて、類似音の音データである類似音データ253を自動生成することにより、学習用データの水増しを行う。機械学習部202は、処理部に搭載した人工知能(AI:Artificial Intelligent)を用いて、ディープラーニング等の機械学習を実行する。機械学習部202は、取得した対象音データ251、対象音データ251に基づいて生成した類似音データ253、汎用音データベース(汎用音DB)254を用いて、機械学習処理を実施し、学習結果としての学習モデル252を生成する。汎用音データベース254は、環境音、人の声などの各種の汎用的な日常音を含む汎用音データを蓄積したものである。
機械学習部202における機械学習処理は、1つ以上の統計的分類技術を用いて行っても良い。統計的分類技術としては、例えば、線形分類器(linear classifiers)、サポートベクターマシン(support vector machines)、二次分類器(quadratic classifiers)、カーネル密度推定(kernel estimation)、決定木(decision trees)、人工ニューラルネットワーク(artificial neural networks)、ベイジアン技術及び/又はネットワーク(Bayesian techniques and/or networks)、隠れマルコフモデル(hidden Markov models)、バイナリ分類子(binary classifiers)、マルチクラス分類器(multi-class classifiers)クラスタリング(a clustering technique)、ランダムフォレスト(a random forest technique)、ロジスティック回帰(a logistic regression technique)、線形回帰(a linear regression technique)、勾配ブースティング(a gradient boosting technique)などが挙げられる。ただし、使用される統計的分類技術はこれらに限定されない。
図3は、実施の形態1に係る類似環境生成部201の処理を示すフローチャートである。類似環境生成部201は、マイクロホン10等によって取得された対象音データ251を、学習用の音データとして入力し(S11)、対象音データ251に関する類似音の生成処理を行い(S12)、類似音データ253を生成する。このとき、類似環境生成部201は、フィルタ211、音量変化パラメータ212などを用いて、音データの周波数特性、音量、音質等を変化させて元の音データに類似する複数の音データを生成する。すなわち、類似環境生成部201は、対象音データ251の周波数特性、音量のうちの少なくとも一つを変化させることにより、類似音データ253を生成する。
フィルタ211は、例えばローパスフィルタ(LPF)、ハイパスフィルタ(HPF)等の音データの周波数特性を変化させるフィルタである。音量変化パラメータ212は、音データの周波数帯域全体の音量、又は特定の周波数の強調や低減等のための所定周波数帯域の音量など、音データの音量を変化させるパラメータである。類似環境生成部201は、上記の処理により、元の音データに関する各種バリエーションを作り出し、複数の類似音データ253を自動生成する。なお、類似環境生成部201において、複数の異なるアプローチによって学習用のデータの水増しを行う手段を持ち、対象の音データのパターンに応じて適切な水増し手段を選択し、学習用の音データを追加生成することも可能である。
次に、類似環境生成部201は、生成した類似音データ253について、学習矛盾が生じているかの判断を行う(S13)。学習矛盾の判断は、例えば生成した複数の音データの周波数の一致度を判定し、学習用の音データのラベルが異なるのに周波数が一致するものが存在する場合に、学習矛盾が生じていると判断する。続いて、類似環境生成部201は、学習矛盾する音データを破棄する(S14)。これにより、生成した類似音データ253の中から、異なるラベルの音データで同じ周波数のものを取り除き、学習用の音データにおける学習矛盾を解消する。このようにして、類似環境生成部201は、対象音データ251に対して類似音データ253を生成して加えることによって、対象音データ251の特徴に応じた適切な学習用の音データの水増しを行う。そして、類似環境生成部201は、データ水増しされた学習用の音データを出力する(S15)。
機械学習部202は、対象音データ251と類似音データ253を含むデータ水増しされた学習用の音データを用いて、機械学習処理を実施して学習モデル252を生成する。
図4は、本実施の形態に係る音データ処理装置における運用時の機能的構成を示すブロック図である。音データ処理装置は、機械学習による学習モデルを用いた運用時において、判定部401の機能を有する。判定部401は、情報処理装置30、50の処理部301、501の処理によって各部の機能が実現される。判定部401の機能は、一般的な機械学習による学習モデルを用いた運用時の処理を用いることができる。
判定部401は、検査対象の音データである検査音データ451を入力し、機械学習によって生成された学習モデル452を用いて、音データの正常或いは異常を尤度等によって判定し、判定結果453を出力する。学習モデル452は、学習用の音データについて、正常と異常のそれぞれを異なるラベリング(クラスタリング)として学習した結果である。したがって、判定部401は、判定対象の検査音データ451について、正常尤度と異常尤度とを算出し、正常と異常のどちらに近いかを判定する。そして、判定部401は、検査音データ451の判定結果453に基づき、対象の音データについて異常か否かを示す異常判定結果454を出力する。この異常判定結果454によって対象音の異音検知が実行される。
図5は、機械学習を用いた音データの異常判定処理を概念的に説明する図である。図5において、(A)は単純な閾値による音データの分類の一例を、(B)は機械学習を用いた学習モデルによる音データの分類の一例をそれぞれ示している。図5では説明を分かりやすくするためにデータの分類を二次元空間上で簡易的に示している。それぞれの検査音の音データを円マークで示し、ドットハッチングは正常音、斜線ハッチングは異常音を表している。
図5の(A)のように、単純な閾値を用いた直線状の境界B1による分類では、正常音を誤って異常音として分類してしまうことがある。これに対し、図5の(B)のように、ニューラルネットワークを用いた機械学習の学習モデルに基づく境界B2による分類では、正常音と異常音とを的確に分類でき、より確からしい判定結果が得られる。
図6は、実施の形態1に係る音データの異常判定処理を概念的に説明する図である。図6において、(A)は比較例としてデータ水増しを行わない学習モデルによる音データの分類の一例を、(B)は実施の形態1のように類似音の生成によりデータ水増しを行った学習モデルによる音データの分類の一例をそれぞれ示している。図6では説明を分かりやすくするためにデータの分類を二次元空間上で簡易的に示している。それぞれの検査音の音データを円マークで示し、ドットハッチングは正常音、斜線ハッチングは異常音を表している。また、破線の円マークは、データ水増しにより追加した正常音及び異常音の音データを表している。
図6の(A)のように、学習時に得られた音データのみを用いて機械学習を行った結果の学習モデルでは、データのバリエーションが少ないため、境界B3が適切に決定されない場合がある。この場合、運用時に取得される音データにおいて、正常音が誤って異常音として判定され、判定結果に誤り(NG)が生じる。特に、学習時の音データの特徴の分布に偏りがあり、環境変化によって運用時の音データの特徴が学習時の音データと少し乖離している場合などに、誤判定が生じやすい。これに対し、図6の(B)のように、学習時に得られた音データに対して自動生成された類似音の音データを追加して学習用のデータの水増しを行い、機械学習を行った結果の学習モデルでは、多数の学習データに基づくより適切な境界B4が決定される。この場合、運用時に取得される音データに対して的確に正常音と異常音を分類でき、より確からしい判定結果が得られる。したがって、異音検知を精度良く実行できる。
上述したように、本実施の形態では、実環境で取得した対象の音データに基づいて類似環境の音データに相当する類似音データを自動生成することによって、学習用のデータの水増しを行う。これにより、画像と同様なデータ加工によって適切な学習用のデータの水増しができない音データにおいて、多数の学習用データが得られない場合であっても、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成することが可能になる。また、学習時に取得した実環境の音データの類似環境を生成することによって、運用時に環境の変化が生じた場合にも対応可能であり、環境変化に対しても確度の高い判定結果を得られる学習モデルを生成可能である。これにより、機械学習による学習モデルを用いた音データの異常判定結果等の分類判定の精度を向上することができる。
(実施の形態2)
実施の形態2では、学習用のデータとして正常音のみしか得られない場合に、異常音データベースを用いて模擬的な異常音を生成することにより、目的とする学習用のデータとしての異常音の音データを作り出して学習用のデータの水増しを行い、音データの学習及び評価を行う例を示す。
図7は、実施の形態2に係る音データ処理装置における学習時の機能的構成を示すブロック図である。音データ処理装置は、機械学習の学習時において、正常音加工部601、異常音選択部602、ミキシング部603、機械学習部604の機能を有する。ここで、正常音加工部601、異常音選択部602、及びミキシング部603が模擬異常音データ653を生成する模擬異常音生成部としての機能を実現する。正常音加工部601、異常音選択部602、ミキシング部603、機械学習部604は、情報処理装置30、50の処理部301、501の処理によって各部の機能が実現される。
正常音加工部601は、学習対象の音データとして得られる正常音データ651を用いて、模擬的な異常音を生成するためのデータ加工処理を行う。異常音選択部602は、異常音データベース(異常音DB)654を用いて、対象の音データの種類、特徴に応じて適切な異常音データを選択する。異常音データベース654は、異常発生時の音データとして、各種の異常音に相当する音データを蓄積したものである。例えば、モータ音の場合、回転数が変化している音、部材がこすれている音などを予め収集して格納する。異常音データベース654は、検査対象に対して適合するような異常状態を表す音データを格納してもよい。
ミキシング部603は、加工後の正常音データと選択した異常音データとのミキシング処理を行い、模擬的な異常音の音データである模擬異常音データ653を生成することにより、学習用データの水増しを行う。機械学習部604は、処理部に搭載した人工知能を用いて、ディープラーニング等の機械学習を実行する。機械学習部604は、取得した正常音データ651、正常音データ651に基づいて生成した模擬異常音データ653を用いて、機械学習処理を実施し、学習結果としての学習モデル652を生成する。
機械学習部604における機械学習処理は、1つ以上の統計的分類技術を用いて行っても良い。統計的分類技術としては、例えば、線形分類器(linear classifiers)、サポートベクターマシン(support vector machines)、二次分類器(quadratic classifiers)、カーネル密度推定(kernel estimation)、決定木(decision trees)、人工ニューラルネットワーク(artificial neural networks)、ベイジアン技術及び/又はネットワーク(Bayesian techniques and/or networks)、隠れマルコフモデル(hidden Markov models)、バイナリ分類子(binary classifiers)、マルチクラス分類器(multi-class classifiers)クラスタリング(a clustering technique)、ランダムフォレスト(a random forest technique)、ロジスティック回帰(a logistic regression technique)、線形回帰(a linear regression technique)、勾配ブースティング(a gradient boosting technique)などが挙げられる。ただし、使用される統計的分類技術はこれらに限定されない。
図8は、実施の形態2に係る正常音加工部601の処理を示すフローチャートである。正常音加工部601は、マイクロホン10等によって取得された正常音データ651を、学習用の正常音の音データとして入力し(S21)、異常音のミキシング用に加工するための音データのデータ加工処理を行う。このとき、正常音加工部601は、検査対象の音データの種類に基づき、ローパスフィルタ(LPF)、ハイパスフィルタ(HPF)等の周波数特性を変化させるフィルタを選択する(S22)。そして、正常音加工部601は、選択したフィルタを適用し、例えば特定周波数の除去、周波数移動等の処理によって音データを加工する(S23)。ここでは、音データ処理装置は予め検査対象が何であるかわかっている状態を想定し、検査対象の音データの特性に応じた処理を行う。例えば、定常的な音の対象音に対して特定周波数を低減して除去する、対象音のピーク周波数が100Hzであるものをピッチ変換して200Hzにずらすなどの加工処理を実行する。また、検査対象の音データの特徴に応じて、対象音の音データの音量調整を行ってもよい。そして、正常音加工部601は、加工処理後の正常音の音データを出力する(S24)。
想定される模擬的な異常音を作成するには、正常音に対して異常音を加えて生成する、正常音から異常音を差し引いて生成する、正常音の一部の特性を変化させて生成するなど、各種の生成方法がある。そこで、正常音加工部601は、正常音の環境に合わせて目的の異常音を生成するために、異常音とのミキシング用に正常音を加工する、正常音から異常音となるように加工する、等の処理を行う。例えば、異常音を加えるために正常音の一部周波数を低減させる。或いは、異常音を差し引くために正常音の周波数特性を変化させる。或いは、正常状態の音から少し高くなった状態が異常状態である場合、正常音の周波数を少し高くシフトさせる。また、設備検査の打音において、響く音が正常状態、響かない音が異常状態である場合に、正常音から響く音の成分を打ち消すようにフィルタ処理する。これらの各種データ加工処理により、異常音を生成するための前処理を実行する。
図9は、実施の形態2に係る異常音選択部602の処理を示すフローチャートである。異常音選択部602は、異常音データベース654のリスト情報と検査対象の種類等に関する検査対象情報とを入力する(S31)。そして、異常音選択部602は、検査対象の音データの特性に応じて、異常音データベース654を使用するか否か、すなわち異常音データベース654の音データを用いて異常音のミキシングを行うか、それとも正常音の加工のみで対応するかを判定する(S32)。ここで、異常音データベース654を使用しない場合、異常音選択部602は無音の音データを出力する(S33)。一方、異常音データベース654を使用する場合、異常音選択部602は、検査対象の音データの種類に基づき、異常音データベース654からミキシング用に適合する異常音の音データを選択する(S34)。そして、異常音選択部602は、選択した異常音の音データを出力する(S35)。
図10は、実施の形態2に係るミキシング部603の処理を示すフローチャートである。ミキシング部603は、ミキシング用の音データとして、正常音加工部601にて加工された正常音の音データを入力し(S41)、異常音選択部602にて選択された異常音の音データを入力する(S42)。そして、ミキシング部603は、加工後の正常音と異常音との加算処理(重畳処理)を行って音データをミキシングする(S43)。これにより、模擬的な異常音の音データを生成する。このとき、ミキシング部603は、加算処理として、正常音と異常音の波形同士を乗算し、加工後の正常音と異常音とを加える、加工後の正常音から異常音を差し引く、異常音を使用せずに無音とし加工後の正常音をそのまま異常音として用いる、などの処理を実行する。そして、ミキシング部603は、生成した模擬異常音の音データを出力する(S44)。このようにして、ミキシング部603は、正常音データ651に対して異常音データベース654からの異常音データを重畳して模擬異常音データ653を生成して加えることによって、対象音データの特徴に応じた適切な学習用の音データの水増しを行う。なお、ミキシング部603は、加算処理において複数パターンの音量調整を行い、異なる複数の模擬異常音データを生成し、学習用のデータにバリエーションを持たせるようにしてもよい。
機械学習部604は、対象の正常音データ651と模擬異常音データ653を含むデータ水増しされた学習用の音データを用いて、機械学習処理を実施して学習モデル652を生成する。
音データ処理装置の運用時の機能的構成については、図4に示した実施の形態1と同様である。音データ処理装置は、機械学習による学習モデルを用いた運用時において、判定部401の機能を有する。判定部401は、検査対象の音データである検査音データ451を入力し、機械学習によって生成された学習モデル452を用いて、音データの正常或いは異常を尤度等によって判定し、判定結果453を出力する。そして、判定部401は、検査音データ451の判定結果453に基づき、対象の音データについて異常か否かを示す異常判定結果454を出力する。この異常判定結果454によって対象音の異音検知が実行される。
図11は、実施の形態2に係る音データの異常判定処理を概念的に説明する図である。図11において、(A)は比較例としてデータ水増しを行わない学習モデルによる音データの分類の一例を、(B)は実施の形態2のように模擬異常音の生成によりデータ水増しを行った学習モデルによる音データの分類の一例をそれぞれ示している。図11では説明を分かりやすくするためにデータの分類を二次元空間上で簡易的に示している。それぞれの検査音の音データを円マークで示し、ドットハッチングは正常音、斜線ハッチングは異常音を表している。また、破線の円マークは、データ水増しにより追加した異常音の音データを表している。
図11の(A)のように、学習時に得られた正常音の音データのみを用いて機械学習を行った結果の学習モデルでは、異常音の学習結果が無いため、判定基準がどのように決定されるかは不定となり、境界B5が適切に決定されない場合がある。この場合、運用時に取得される音データにおいて、異常音が誤って正常音として判定され、判定結果に誤り(NG)が生じる。特に、正常音の特徴に近い異常音が発生する場合は、正常音のみの学習では適切な判定基準の決定が困難であり、誤判定が生じやすい。これに対し、図11の(B)のように、学習時に得られた音データに対して自動生成された模擬異常音の音データを追加して学習用のデータの水増しを行い、機械学習を行った結果の学習モデルでは、異常音の特徴を考慮したより適切な境界B6が決定される。この場合、運用時に取得される音データに対して的確に正常音と異常音を分類でき、より確からしい判定結果が得られる。したがって、異音検知を精度良く実行できる。
上述したように、本実施の形態では、実環境で取得した対象の正常時の音データに基づいて模擬的な異常音に相当する模擬異常音データを自動生成することによって、学習用のデータの水増しを行う。これにより、実際の異常時の学習用データが得られない場合であっても、正常音と共に異常音を模擬的に学習でき、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成することが可能になる。また、模擬的な異常音データを用いた機械学習によって、例えば正常音と異常音との特徴の差が小さいユースケースであっても、微妙な差による異常判定が可能となり、異音検知の検知精度を向上できる。これにより、機械学習による学習モデルを用いた音データの異常判定結果等の分類判定の精度を向上することができる。
(実施の形態3)
実施の形態3では、実施の形態2における処理を一部変更し、対象の音データに基づき設定される異常種類に応じて、模擬的な異常音を生成する例を示す。ここでは実施の形態2と異なる部分を中心に説明し、同様の構成及び機能については説明を省略する。
図12は、実施の形態3に係る音データ処理装置における学習時の機能的構成を示すブロック図である。音データ処理装置は、機械学習の学習時において、正常音加工部701、異常音選択部721、異常音加工部722、ミキシング部703、機械学習部704の機能を有する。ここで、正常音加工部701、異常音選択部721、異常音加工部722、及びミキシング部703が模擬異常音データ753を生成する模擬異常音生成部としての機能を実現する。正常音加工部701、異常音選択部721、異常音加工部722、ミキシング部703、機械学習部704は、情報処理装置30、50の処理部301、501の処理によって各部の機能が実現される。
正常音加工部701は、検査対象(すなわち学習対象)の音データとして得られる正常音データ651を用いて、模擬的な異常音を生成するためのデータ加工処理を行う。異常音選択部721は、異常音データベース(異常音DB)654を用いて、検査対象の音データの種類、特徴に応じて適切な異常音データを選択する。異常音加工部722は、選択された異常音データを用いて、模擬的な異常音を生成するためのデータ加工処理を行う。ミキシング部703は、加工後の正常音データと異常音データとのミキシング処理を行い、模擬的な異常音の音データである模擬異常音データ753を生成することにより、学習用データの水増しを行う。機械学習部704は、実施の形態2と同様、処理部に搭載した人工知能を用いて、ディープラーニング等の機械学習を実行する。機械学習部704は、取得した正常音データ651、正常音データ及び/又は異常音データに基づいて生成した模擬異常音データ753を用いて、機械学習処理を実施し、学習結果としての学習モデル752を生成する。
実施の形態3では、音データ処理装置は、検査対象の音データの種類に応じた異常種類756を設定し、異常種類ごとに異なる処理を行って模擬的な異常音を生成する。音データ処理装置は、設定した異常種類756に応じて、正常音加工部701、異常音選択部721及び異常音加工部722の動作を切り替える。異常種類によって、正常音に対して異常が発生した場合の異常音の態様が異なる。一般的に、異常種類は、対象機器、対象物、対象空間など、検査対象によって対応付けられる。例えば、モータ等の回転体を含む機器、ファンベルト等の駆動機構を含む機器など、それぞれの対象機器ごとに異常発生時の音の特性に特徴がある。以下では、模擬異常音の生成処理を行う検査対象の音データの種類の一例として、対象機器の種類によって異常種類を設定する例を示す。
音データ処理装置は、液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置による表示部を有する。音データ処理装置は、表示部に表示する表示画面等を含むユーザインタフェース(UI)を有し、ユーザ操作による選択入力を受け付け可能となっている。音データ処理装置は、ユーザインタフェース(UI)755を用いて、対象機器の選択入力を受け付け、対象機器に応じた異常種類756の設定を行う。なお、ユーザ操作により異常種類756を直接入力して設定してもよい。また、音データ処理装置は、音データの識別情報などに基づき、検査対象の音データの種類、特徴に応じた異常種類756を設定してもよい。
異常種類756としては、例えば以下のケース1~4がある。
ケース1:異音の混入(正常時の音から異なる音が発生する)。ケース1は、例えば回転体のベアリング異常、ファンベルト異常、駆動系の異常接触などによって発生する異常である。
ケース2:ピーク周波数の変動(正常時の音のピーク周波数が上昇又は低下する)。ケース2は、例えば回転体の回転数の変化などによって発生する異常である。
ケース3:ピーク周波数の欠落(正常時の音のピーク周波数が欠落する)。ケース3は、例えば駆動系の接触部の変化などによって発生する異常である。
ケース4:音量の変化(正常時の音のレベルが上昇又は低下する)。ケース4は、例えば回転体又は駆動系の摩擦の増加又は減少などによって発生する異常である。
図13は、検査対象を選択するユーザインタフェース(UI)の表示画面の一例を示す図である。ユーザインタフェースの表示画面における設定画面761には、ユーザ操作により検査対象としての対象機器の種類を選択して設定入力するための対象設定入力部762が設けられる。対象設定入力部762は、例えば対象機器としてモータ、コンプレッサ、ベルト、アーム等の検査対象種類の名称がリスト表示されるプルダウンメニュー表示を有する。ユーザが対象設定入力部762において所定の対象機器を選択入力すると、音データ処理装置は、検査対象の対象機器を設定し、この対象機器に応じた音の異常種類を設定する。このようなユーザインタフェースを用いることによって、異常種類又は対象機器の設定の際の操作性を良好にすることができる。
図14は、実施の形態3に係る音データ処理装置の学習時の処理を示すフローチャートである。音データ処理装置は、ユーザインタフェース755を用いて、対象機器の設定を入力し(S51)、対象機器に応じた異常種類756を設定する(S52)。そして、音データ処理装置は、正常音加工部701、異常音選択部721及び異常音加工部722において、異常種類756に応じて動作モードを切り替え、正常音の加工と、異常音の選択及び加工との少なくとも一方を実行する(S53)。この際、正常音及び/又は異常音の処理として、ピークシフト、フィルタリング、レベル増減、ミキシングレベル設定等を実行する。異常種類に応じた処理の具体例は後述する。続いて、音データ処理装置は、ミキシング部703において、正常音と異常音とのミキシング処理を行い(S54)、模擬異常音データ753を生成して出力する(S55)。
図15は、異常種類のケース1における模擬異常音の生成処理を説明する図である。図15において、(A)は正常音の時間波形の一例、(B)は異常音の時間波形の一例を示し、横軸は時間、縦軸は音量レベルを表している。また、(C)は正常音の所定時間における周波数特性の一例、(D)は異常音の所定時間における周波数特性の一例を示し、横軸は周波数、縦軸は信号レベルを表している。ケース1の場合、ベアリング異常、ファンベルト異常、駆動系の異常接触などが発生した際に、正常音に対して異音が付加される。図示例は、正常音に対してパルス状の音が間欠的に付加された例であり、異常音の周波数特性において、ホワイトノイズのように全帯域において信号レベルが上昇している。なお、所定の周波数帯域(例えば1kHz付近など)のみに異音成分が付加されるような場合もあり得る。
ケース1では、異常音選択部721、異常音加工部722、及びミキシング部703が主として動作し、正常音に対して異常音を付加する処理を実行する。音データ処理装置は、異常音選択部721が異常音データベース654から適切な異常音データを選択し、異常音加工部722が選択された異常音データの加工処理を行い、ミキシングレベルを設定する。異常音データの加工処理としては、ピークシフト等の処理を実行する。そして、ミキシング部703が設定したミキシングレベルに従って正常音データと異常音データとを混合し、模擬異常音データ753を出力する。なお、正常音加工部701において正常音データの加工処理を適宜行ってから異常音データとミキシングしてもよい。
図16は、異常種類のケース2における模擬異常音の生成処理を説明する図である。図16において、(A)は正常音の時間波形の一例、(B)は異常音の時間波形の一例を示し、横軸は時間、縦軸は音量レベルを表している。また、(C)は正常音の所定時間における周波数特性の一例、(D)は異常音の所定時間における周波数特性の一例を示し、横軸は周波数、縦軸は信号レベルを表している。ケース2の場合、モータ等の回転体の異常により回転数の変化などが発生した際に、音のピーク周波数が変動し、ピークが生じる周波数成分の帯域が移動する。図示例は、正常音において4kHzの帯域にピークがある状態で、異常音ではピーク周波数が4kHzから2kHzに変動し、2kHzの帯域に強いピークが生じて4kHzのピークが無くなっている。
ケース2では、正常音加工部701及びミキシング部703が主として動作し、正常音のピークシフトを行う処理を実行する。音データ処理装置は、正常音加工部701が正常音データ651の加工処理を行い、正常音データのピーク周波数を変動させ、模擬異常音データ753を出力する。なお、ミキシング部703においてピークシフト後の正常音データに異常音データを混合してもよい。
図17は、異常種類のケース3における模擬異常音の生成処理を説明する図である。図17において、(A)は正常音の時間波形の一例、(B)は異常音の時間波形の一例を示し、横軸は時間、縦軸は音量レベルを表している。また、(C)は正常音の所定時間における周波数特性の一例、(D)は異常音の所定時間における周波数特性の一例を示し、横軸は周波数、縦軸は信号レベルを表している。ケース3の場合、駆動系の接触部の変化などが発生し、特定部位が新たに接触又は離間するなど接触状態が変化した際に、音のピーク周波数に欠落が生じる。図示例は、正常音において2kHz付近の帯域にピークがある状態で、異常音では2kHz付近のピークが無くなっている。
ケース3では、正常音加工部701及びミキシング部703が主として動作し、正常音のフィルタリングを行う処理を実行する。音データ処理装置は、正常音加工部701が正常音データ651の加工処理を行い、正常音データにおける所定周波数をフィルタにより減衰させ、模擬異常音データ753を出力する。なお、ミキシング部703においてフィルタリング後の正常音データに異常音データを混合してもよい。
また、ケース4の場合、モータ等の回転体、又はファンベルト或いはギア等の駆動系の摩擦の増加又は減少などが発生した際に、音量レベルが上昇又は低下して変動する。例えば、部材間に注入するグリスの不足又は過剰によって摩擦が変動し、対象機器の音の音量が増減する。
ケース4では、正常音加工部701及びミキシング部703が主として動作し、正常音のレベル増減を行う処理を実行する。音データ処理装置は、正常音加工部701が正常音データ651の加工処理を行い、正常音データの音量レベルをフィルタ利得の変更により増減させ、模擬異常音データ753を出力する。なお、ミキシング部703においてレベル調整後の正常音データに異常音データを混合してもよい。
上述したように、本実施の形態では、音データの機械学習を行う対象となる対象機器等の種類によって異なる、それぞれの異常種類を設定し、この異常種類に応じてそれぞれの処理を行って模擬的な異常音を生成する。これにより、異常種類ごとに特性が異なる異常状態における模擬異常音を生成でき、異常種類の各態様に合わせた適切な模擬異常音データを生成可能となる。
(実施の形態4)
実施の形態4として、前述した実施の形態1、実施の形態2、実施の形態3のうちの少なくとも二つを組み合わせた態様の機能構成を採用することもできる。この実施の形態4では、例えば対象の正常音のみが取得可能な環境において、図7に示した実施の形態2の機能ブロックによって模擬異常音の音データを生成し、この模擬異常音を含む学習用の音データを元にして、さらに図2に示した実施の形態1の機能ブロックによって類似音の音データを生成し、模擬異常音及び類似音を含む学習用の音データを用いて機械学習を行う。このようにして、模擬異常音及び類似音を生成して学習用の音データの水増しを行い、大量の学習用データを用いた機械学習を可能とし、より的確な異音検知を実行できるようにする。
また、変形例として、実施の形態1、2、3、4のいずれかの機能構成による機械学習を一旦実行した後、学習用の音データを追加して追加学習を実行し、より最適化した学習モデルを生成することも可能である。例えば、実施の形態2の機能ブロックによって模擬異常音を生成して機械学習を行った後、実際の異常音を取得できた場合、取得した異常音を用いた追加学習、さらに実施の形態1のように類似の異常音を生成して用いた追加学習などを実行する。或いは、実施の形態1の機能ブロックによって類似音を生成して機械学習を行った後、追加取得した正常音や異常音を用いた追加学習、さらに実施の形態2の模擬異常音の生成や実施の形態1の類似音の生成によって追加したデータによる追加学習などを実行する。
このように、複数種類の学習用データの水増し処理の組み合わせを行うことによって、より多くの適切な学習用データを使用した学習モデルの生成が可能となる。また、さらに取得した学習用データによる追加学習を組み合わせることによって、より多くの適切な学習用データを使用した学習モデルの生成が可能となる。したがって、機械学習による学習モデルを用いた音データの異常判定結果等の分類判定の精度を向上することができる。
以上のように、本実施の形態の音データ処理方法は、対象の音データを入力して取得し、音データの処理を行う処理部301、501を有する情報処理装置30、50を含む音データ処理装置における音データ処理方法であって、類似環境生成部201において、取得した対象音データ251に基づき、対象音データ251に類似する類似音となる類似音データ253を生成するステップと、機械学習部202において、取得した対象音データ251と生成した類似音データ253とを学習用の音データとして用いて機械学習を行い、対象の音データに関する分類判定を行うための学習モデル252を生成するステップと、を有する。これにより、多数の学習用データが得られない場合であっても、類似音データを生成して使用することによって、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成することができる。また、十分な量の学習用のデータを用いて生成した学習モデルによって異常音判定等の分類判定の運用を実行でき、対象の音データに関する分類判定の精度を向上できる。
また、本実施の形態の音データ処理方法は、類似音データを生成するステップにおいて、対象音データ251の類似環境を生成し、対象音データ251の周波数特性、音量のうちの少なくとも一つを変化させて複数の類似音データ253を生成する。これにより、実環境で取得した対象音データに基づいて対象音データに類似する複数の類似音データを生成できる。また、類似環境による類似音データを学習用のデータに用いることによって、運用時の環境変化にも対応でき、対象の音データに関する分類判定の精度を向上できる。
また、本実施の形態の音データ処理方法は、類似音データを生成するステップにおいて、対象音データ251の周波数特性を変化させるフィルタを用いて類似音データ253を生成する。これにより、対象音データの周波数特性を変化させて対象音データに関する類似音データを生成可能となる。
また、本実施の形態の音データ処理方法は、類似音データを生成するステップにおいて、対象音データ251の周波数帯域全体の音量、又は特定の周波数帯域の音量を変化させる音量変化パラメータを用いて類似音データ253を生成する。これにより、対象音データの周波数帯域全体の音量、又は特定の周波数帯域の音量を変化させて対象音データに関する類似音データを生成可能となる。
また、本実施の形態の音データ処理方法は、類似音データを生成するステップにおいて、生成した複数の類似音データ253について、機械学習において学習矛盾が生じるデータを破棄する。これにより、例えば異なるラベルの音データで同じ周波数のものなど、学習矛盾が生じるデータを除去でき、適切な機械学習を実行可能となる。
また、本実施の形態の音データ処理方法は、学習モデルを生成するステップにおいて、対象の音データに関する分類判定として、対象の音データの異常音を判定して異音検知を行うための学習モデル252を生成する。これにより、実環境で取得した対象音データと自動生成した類似音データとを含む十分な量の適切な学習用のデータを用いて機械学習を行い、異常音判定結果による異音検知に対応する学習モデルを生成可能となる。
また、本実施の形態の音データ処理方法は、学習モデルを生成するステップにおいて、対象音データ251及び類似音データ253とともに、汎用的な音を含む汎用音データを蓄積した汎用音データベース254を学習用の音データとして用いて機械学習を行う。これにより、汎用音データを含む十分な量の適切な学習用のデータを用いて機械学習を行い、より好ましい学習モデルを生成でき、対象の音データに関する分類判定の精度を向上できる。
本実施の形態の音データ処理装置は、対象の音データを入力して取得し、音データの処理を行う処理部301、501を有する情報処理装置30、50を含む音データ処理装置であって、処理部301、501は、取得した対象音データ251に基づき、対象音データ251に類似する類似音となる類似音データ253を生成する類似環境生成部201と、取得した対象音データ251と生成した類似音データ253とを学習用の音データとして用いて機械学習を行い、対象の音データに関する分類判定を行うための学習モデル252を生成する機械学習部202と、を有する。これにより、多数の学習用データが得られない場合であっても、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成でき、対象の音データに関する分類判定の精度を向上できる。
本実施の形態のプログラムは、コンピュータである情報処理装置30、50を含む音データ処理装置に、対象の音データを取得するステップと、取得した対象音データ251に基づき、対象音データ251に類似する類似音となる類似音データ253を生成するステップと、取得した対象音データ251と生成した類似音データ253とを学習用の音データとして用いて機械学習を行い、対象の音データに関する分類判定を行うための学習モデル252を生成するステップと、を実行させるためのプログラムである。
本実施の形態の音データ処理方法は、対象の音データを入力して取得し、音データの処理を行う処理部301、501を有する情報処理装置30、50を含む音データ処理装置における音データ処理方法であって、取得した対象の正常音データ651を用いて、対象の模擬的な異常音となる模擬異常音データ653を生成するステップと、取得した正常音データ651と生成した模擬異常音データ653とを学習用の音データとして用いて機械学習を行い、対象の音データの異常音を判定して異音検知を行うための学習モデル652を生成するステップと、を有する。これにより、実際の異常時の学習用データが得られない場合であっても、模擬異常音データを生成して使用することによって、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成することができる。また、模擬的な異常音の音データを含む機械学習によって生成した学習モデルによって異常音判定の運用を実行でき、対象の音データに関する異音検知の精度を向上できる。
また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、正常音加工部601、701により、正常音データ651のデータ加工処理を実行する。これにより、取得した正常音データを加工処理して模擬的な異常音データを生成可能となる。
また、本実施の形態の音データ処理方法は、データ加工処理として、正常音データのピークシフト、フィルタリング、音量変更のうちの少なくとも一つの処理を実行する。これにより、正常音のピーク周波数の変動、ピーク周波数の欠落、音量の変化等の各異常状態に対応する模擬的な異常音データを生成可能となる。
また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、正常音データ651と、予め保持している異常音データベース654から選択した異常音データとを用いて、ミキシング部603により、正常音データと異常音データとのミキシング処理を行って模擬異常音データ653を生成する。これにより、実環境で取得した正常音データと予め用意した異常音データとの加算等を行ってミキシング処理し、模擬的な異常音データを生成可能となる。
また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、正常音加工部601により、ミキシング部603にてミキシング処理を行うための、正常音データと異常音データとの少なくとも一方のデータ加工処理を実行する。これにより、実環境で取得した正常音データを加工処理し、模擬異常音データを生成するためのミキシング用の音データを生成可能となる。
また、本実施の形態の音データ処理方法は、データ加工処理において、フィルタを用いて正常音データ651における特定周波数の除去、周波数移動のうちの少なくとも一つの処理を行う。これにより、正常音データの周波数特性を変更して加工処理し、模擬異常音データを生成、又は模擬異常音データの生成時のミキシング用のデータを生成できる。
また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、異常種類756を設定し、異常種類756に応じて、正常音データのみ、又は正常音データ及び異常音データを用いた処理を行い、模擬異常音データを生成する。この際、対象の音データの種類に基づいて異常種類756を設定してよい。これにより、異常種類ごとの異常状態における模擬異常音を生成し、異常種類の各態様に合わせた適切な模擬異常音データを生成可能となる。
また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、異常音選択部602により、ミキシング部603にてミキシング処理を行うための異常音データベース654からの異常音データの選択処理を実行する。これにより、予め蓄積した異常音データベースから、模擬異常音データを生成するためのミキシング用の音データを生成可能となる。
また、本実施の形態の音データ処理方法は、選択処理において、対象の音データの種類に基づき、異常音データベース654から適合する異常音データを選択する。これにより、対象の音データの種類に基づいて異常音データを選択し、模擬異常音データを生成するための適切なミキシング用の音データを抽出できる。
また、本実施の形態の音データ処理方法は、選択処理において、対象の音データの特性に応じて異常音データベース654の使用の有無を判定し、異常音データベース654を使用しない場合、無音の音データを出力する。これにより、異常音データベースを使用せずに加工後の正常音データによって模擬異常音データを生成する際に、異常音データとして無音の音データをミキシング用として出力することで、適切な模擬異常音データを生成可能となる。
本実施の形態の音データ処理装置は、対象の音データを入力して取得し、音データの処理を行う処理部301、501を有する情報処理装置30、50を含む音データ処理装置であって、処理部301、501は、取得した対象の正常音データ651を用いて、対象の模擬的な異常音となる模擬異常音データ653を生成する模擬異常音生成部(正常音加工部601、異常音選択部602、ミキシング部603)と、取得した正常音データ651と生成した模擬異常音データ653とを学習用の音データとして用いて機械学習を行い、対象の音データの異常音を判定して異音検知を行うための学習モデル652を生成する機械学習部604と、を有する。これにより、実際の異常時の学習用データが得られない場合であっても、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成でき、対象の音データに関する異常検知の精度を向上できる。
本実施の形態のプログラムは、コンピュータである情報処理装置30、50を含む音データ処理装置に、対象の音データを取得するステップと、取得した対象の正常音データ651を用いて、対象の模擬的な異常音となる模擬異常音データ653を生成するステップと、取得した正常音データ651と生成した模擬異常音データ653とを学習用の音データとして用いて機械学習を行い、対象の音データの異常音を判定して異音検知を行うための学習モデル652を生成するステップと、を実行させるためのプログラムである。
以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上記実施形態における各構成要素を任意に組み合わせてもよい。
また、本開示は、上述した実施の形態に係る音データ処理方法及び音データ処理装置の機能を実現するプログラムを、ネットワーク或いは各種記憶媒体を介してコンピュータである情報処理装置に供給し、この情報処理装置のプロセッサが読み出して実行するプログラム、及びこのプログラムが記憶された記録媒体も適用範囲としてよい。
なお、本出願は、2018年7月31日出願の日本特許出願(特願2018-144436、及び特願2018-144437)に基づくものであり、その内容は本出願の中に参照として援用される。
本開示は、データの機械学習を実施する際に適切な学習用のデータを用いて好適な学習モデルを生成することを可能にする音データ処理方法、音データ処理装置及びプログラムとして有用である。
10 マイクロホン
20 AD変換器
30 情報処理装置(端末装置)
40 通信路
50 情報処理装置(サーバ装置)
201 類似環境生成部
202、604 機械学習部
251 対象音データ
252、452、652 学習モデル
253 類似音データ
254 汎用音データベース
301、501 処理部
302、502 記憶部
303、503 格納部
304、504 通信インタフェース
401 判定部
451 検査音データ
453 判定結果
454 異常判定結果
601 正常音加工部
602 異常音選択部
603 ミキシング部
651 正常音データ
653 模擬異常音データ
654 異常音データベース

Claims (9)

  1. 対象の音データを取得し、前記音データの処理を行う処理部を有する音データ処理装置における音データ処理方法であって、
    前記取得した対象音データに基づき、前記対象音データに類似する類似音となる複数の類似音データを生成するステップと、
    前記複数の類似音データのうち機械学習において学習矛盾が生じるデータを判断するステップと、
    前記取得した対象音データと前記生成した前記複数の類似音データのうち前記学習矛盾が生じないと判断された類似音データとを学習用の音データとして用いて前記機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成するステップと、
    を有する、音データ処理方法。
  2. 請求項1に記載の音データ処理方法であって、
    前記学習矛盾が生じるデータを判断するステップにおいて、
    前記複数の類似音データのうち前記学習矛盾が生じると判断されたデータを破棄する、
    音データ処理方法。
  3. 請求項2に記載の音データ処理方法であって、
    前記類似音データを生成するステップにおいて、
    前記対象音データの周波数特性、音量のうちの少なくとも一つを変化させて複数の前記類似音データを生成する、
    音データ処理方法。
  4. 請求項に記載の音データ処理方法であって、
    前記類似音データを生成するステップにおいて、
    前記対象音データの周波数特性を変化させるフィルタを用いて前記類似音データを生成する、
    音データ処理方法。
  5. 請求項に記載の音データ処理方法であって、
    前記類似音データを生成するステップにおいて、
    前記対象音データの周波数帯域全体の音量、又は特定の周波数帯域の音量を変化させる音量変化パラメータを用いて前記類似音データを生成する、
    音データ処理方法。
  6. 請求項1に記載の音データ処理方法であって、
    前記学習モデルを生成するステップにおいて、
    前記対象の音データに関する分類判定として、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成する、
    音データ処理方法。
  7. 請求項1に記載の音データ処理方法であって、
    前記学習モデルを生成するステップにおいて、
    前記対象音データ及び前記類似音データとともに、汎用的な音を含む汎用音データを蓄積した汎用音データベースを前記学習用の音データとして用いて機械学習を行う、
    音データ処理方法。
  8. 対象の音データを取得し、前記音データの処理を行う処理部を有する音データ処理装置であって、
    前記処理部は、
    前記取得した対象音データに基づき、前記対象音データに類似する類似音となる複数の類似音データを生成し、前記複数の類似音データのうち機械学習において学習矛盾が生じるデータを判断する類似環境生成部と、
    前記取得した対象音データ前記生成した前記複数の類似音データのうち前記学習矛盾が生じないと判断された類似音データを学習用の音データとして用いて前記機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成する機械学習部と、
    を有する、音データ処理装置。
  9. コンピュータである音データ処理装置に、
    対象の音データを取得するステップと、
    前記取得した対象音データに基づき、前記対象音データに類似する類似音となる複数の類似音データを生成するステップと、
    前記複数の類似音データのうち機械学習において学習矛盾が生じるデータを判断するステップと、
    前記取得した対象音データ前記生成した前記複数の類似音データのうち前記学習矛盾が生じないと判断された類似音データを学習用の音データとして用いて前記機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成するステップと、
    を実行させるための、プログラム。
JP2020533417A 2018-07-31 2019-07-18 音データ処理方法、音データ処理装置及びプログラム Active JP7407382B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2018144436 2018-07-31
JP2018144436 2018-07-31
JP2018144437 2018-07-31
JP2018144437 2018-07-31
PCT/JP2019/028229 WO2020026829A1 (ja) 2018-07-31 2019-07-18 音データ処理方法、音データ処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2020026829A1 JPWO2020026829A1 (ja) 2021-08-02
JP7407382B2 true JP7407382B2 (ja) 2024-01-04

Family

ID=69230818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020533417A Active JP7407382B2 (ja) 2018-07-31 2019-07-18 音データ処理方法、音データ処理装置及びプログラム

Country Status (3)

Country Link
US (2) US11830518B2 (ja)
JP (1) JP7407382B2 (ja)
WO (1) WO2020026829A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023046893A (ja) * 2021-09-24 2023-04-05 株式会社デンソー 異音検出装置
JP2023169558A (ja) 2022-05-17 2023-11-30 トヨタ自動車株式会社 車両評価システム
WO2024075634A1 (ja) * 2022-10-04 2024-04-11 ヤマハ株式会社 音波形の特性分布に係る表示方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134367A (ja) 2008-12-08 2010-06-17 Mitsubishi Electric Corp 電気機器
WO2015011791A1 (ja) 2013-07-24 2015-01-29 株式会社日立製作所 異常検知評価システム
JP2015161745A (ja) 2014-02-26 2015-09-07 株式会社リコー パターン認識システムおよびプログラム
WO2017171051A1 (ja) 2016-04-01 2017-10-05 日本電信電話株式会社 異常音検出学習装置、音響特徴量抽出装置、異常音サンプリング装置、これらの方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56104246A (en) 1980-01-23 1981-08-19 Rion Co Ltd Product inspecting apparatus by sound discrimination
JP6377592B2 (ja) * 2015-11-09 2018-08-22 日本電信電話株式会社 異常音検出装置、異常音検出学習装置、これらの方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134367A (ja) 2008-12-08 2010-06-17 Mitsubishi Electric Corp 電気機器
WO2015011791A1 (ja) 2013-07-24 2015-01-29 株式会社日立製作所 異常検知評価システム
JP2015161745A (ja) 2014-02-26 2015-09-07 株式会社リコー パターン認識システムおよびプログラム
WO2017171051A1 (ja) 2016-04-01 2017-10-05 日本電信電話株式会社 異常音検出学習装置、音響特徴量抽出装置、異常音サンプリング装置、これらの方法及びプログラム

Also Published As

Publication number Publication date
US20240046953A1 (en) 2024-02-08
WO2020026829A1 (ja) 2020-02-06
US20210304786A1 (en) 2021-09-30
JPWO2020026829A1 (ja) 2021-08-02
US11830518B2 (en) 2023-11-28

Similar Documents

Publication Publication Date Title
US20200233397A1 (en) System, method and computer-accessible medium for machine condition monitoring
JP7407382B2 (ja) 音データ処理方法、音データ処理装置及びプログラム
US11022633B2 (en) Enhanced system and method for conducting PCA analysis on data signals
Scanlon et al. Residual life prediction of rotating machines using acoustic noise signals
US6687654B2 (en) Techniques for distributed machinery monitoring
KR101539896B1 (ko) 유도전동기 오류 진단 방법
KR102209401B1 (ko) 컨볼루션 신경망을 이용한 기어박스의 결함상태 판별 장치 및 방법
WO2020009210A1 (ja) 異常予測システム及び異常予測方法
Chen et al. Multiple fault condition recognition of gearbox with sequential hypothesis test
EP2208981B1 (en) Monitoring of rotating machines
Haj Mohamad et al. Rolling element bearing diagnostics using extended phase space topology
US20220155258A1 (en) Stamping quality inspection system and stamping quality inspection method
JP2012018066A (ja) 異常検査装置
JP2015114294A (ja) 音響装置の検査装置及び音響装置の検査方法並びに音響装置の検査プログラム
Unal et al. Fault diagnosis of rolling bearings using data mining techniques and boosting
US20230030911A1 (en) Abnormal sound detection method and apparatus
Huang et al. Research on fan vibration fault diagnosis based on image recognition
Singh et al. Faulty voice diagnosis of automotive gearbox based on acoustic feature extraction and classification technique
Grandhi et al. Machine-learning based fault diagnosis of electrical motors using acoustic signals
CN116907029A (zh) 检测室外机内风扇异常的方法、控制装置以及空调室外机
Martins et al. Improved variational mode decomposition for combined imbalance-and-misalignment fault recognition and severity quantification
Decker et al. Does your model think like an engineer? explainable ai for bearing fault detection with deep learning
JP4513796B2 (ja) 異常監視装置
Lee et al. Octave-band filtering for convolutional neural network-based diagnostics for rotating machinery
Wißbrock et al. Discussion of Features for Acoustic Anomaly Detection under Industrial Disturbing Noise in an End-of-Line Test of Geared Motors

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210125

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231207

R151 Written notification of patent or utility model registration

Ref document number: 7407382

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151