JP7385381B2 - 異常音検知システム、擬似音生成システム、および擬似音生成方法 - Google Patents

異常音検知システム、擬似音生成システム、および擬似音生成方法 Download PDF

Info

Publication number
JP7385381B2
JP7385381B2 JP2019115257A JP2019115257A JP7385381B2 JP 7385381 B2 JP7385381 B2 JP 7385381B2 JP 2019115257 A JP2019115257 A JP 2019115257A JP 2019115257 A JP2019115257 A JP 2019115257A JP 7385381 B2 JP7385381 B2 JP 7385381B2
Authority
JP
Japan
Prior art keywords
spectrogram
pseudo
mel
statistics
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019115257A
Other languages
English (en)
Other versions
JP2021001964A (ja
Inventor
洋平 川口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019115257A priority Critical patent/JP7385381B2/ja
Priority to CN202010459129.4A priority patent/CN112116924B/zh
Priority to US16/892,936 priority patent/US11164594B2/en
Publication of JP2021001964A publication Critical patent/JP2021001964A/ja
Application granted granted Critical
Publication of JP7385381B2 publication Critical patent/JP7385381B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M13/00Testing of machine parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、異常音検知システム、擬似音生成システム、および擬似音生成方法に関する。
機械、設備の異常や故障予兆などの状態は、音に現れることが多い。そこで、設備保守などの目的で、設備の状態を把握するために設備の稼動音に基づく診断は重要である。外部電源供給が困難な環境では、各設備に設置した、マイクを備えた端末が、長期間にわたる電池駆動で間欠的に録音と異常検知を行い、異常有無の結果を遠隔地のサーバに送信するという構成をとる。しかし、異常有無だけをサーバ側に報告、蓄積しても、各時刻にどのような音が発生していたかを事後にユーザが聴いて確かめることができない。
長期間にわたる電池駆動で送信できる通信量は非常に微小であるため、生の音データや通常の圧縮形式の音データを送ることもできない。例えば、音を通信する方法として、特開2012-138826号公報(特許文献1)がある。この公報には、「外部周辺機器から入力された入力信号を受けるビデオ受信部、ビデオ受信部から出力される映像信号を受けて画像圧縮信号を形成するビデオエンコーダ、ビデオ受信部から出力される音声信号を受けて音声圧縮信号を形成するオーディオエンコーダ、ビデオ受信部から出力される74.25MHzのビデオクロックを受けて第1STCカウンタ値を形成する第1STCカウンタ値生成部、第1STCカウンタ値を受けてPCRを生成するPCR生成部とを有する。第1STCカウンタ値生成部は、ビデオクロックの11サイクル毎に4回のインクリメントを行うカウンタ動作を行ってSTCカウンタ値を生成する。」と記載されている。
特開2012-138826号公報
前記のとおり、電池駆動で送信できる通信量は非常に限られるため、生の音データや通常の圧縮形式の音データを送ることもできない。特許文献1で開示された発明には、「音声圧縮信号を形成するオーディオエンコーダ」と記載されているが、長期間にわたる電池駆動には用いることができない。一般的なオーディオエンコーダは、高速フーリエ変換(FFT)や離散コサイン変換(DCT)を行い、周波数ごとに異なる量子化ビット数で量子化することにより、圧縮する。しかし、その送信データの通信量は、電池駆動で送信できる通信量を超過せざるをえない。
そこで、本発明は、送信できる音データの通信量が微小であっても、異常音等の対象の音を判定することにある。
本発明の異常音検知システムの好ましい例では、音データに含まれる異常音を判定する異常音検知システムであって、前記異常音検知システムは:端末と、サーバとを有し、前記端末は:前記音データを入力して、対数メルスペクトログラムを算出する対数メルスペクトログラム算出部と、対数メルスペクトログラムとその時間差分信号の組から、各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組を計算する統計量計算部と、前記統計量の組を送信する統計量送信部とを有し、前記サーバは:前記統計量の組を受信する統計量受信部と、前記統計量の組から生成した擬似対数メルスペクトログラムとその時間差分信号の組から、特徴量ベクトルを抽出する特徴量ベクトル生成部と、前記特徴量ベクトルを用いて正常音モデルを学習する正常音モデル学習部とを有し、前記端末が、前記対数メルスペクトログラムとその時間差分信号の組から特徴量ベクトルを抽出し、前記サーバから正常音モデルを受信し、前記特徴量ベクトルが前記正常音モデルから生成される確率を算出し、該確率が所定の確率未満であれば異常音を含むと判定して前記サーバへ報告するように構成する。
また、本発明の他の特徴として、前記異常音検知システムにおいて、前記端末の前記対数メルスペクトログラム算出部の前段に、入力した前記音データから生成したパワースペクトログラムから非定常音を除去し、周期定常的な音を抽出する非定常成分除去部を更に備える。
また、本発明の更に他の特徴として、前記異常音検知システムの前記サーバにおいて、事前に診断対象の設備から録音した非圧縮の稼動音、および、そこから計算した各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組に基づいて、統計量の組から非圧縮の音のスペクトログラムへの写像を学習し、学習した写像に基づいて、サーバが受信した統計量の組から擬似パワースペクトログラムを生成する擬似スペクトログラム直接復元部を更に備える。
本発明の擬似音生成システムの好ましい例では、前記擬似音生成システムは:端末と、サーバとを有し、前記端末は:音データを入力して、対数メルスペクトログラムを算出する対数メルスペクトログラム算出部と、対数メルスペクトログラムとその時間差分信号の組から、各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組を計算する統計量計算部と、前記統計量の組を送信する統計量送信部とを有し、前記サーバは:前記統計量の組を受信する統計量受信部と、前記統計量の組から生成した擬似対数メルスペクトログラムに対してメルフィルタバンクの擬似逆行列を乗算して擬似パワースペクトログラムを算出する擬似スペクトログラム復元部と、前記擬似パワースペクトログラムに各周波数の位相成分を生成して組合せて時間領域のデジタル出力信号を出力する周波数-時間領域変換部と、前記時間領域のデジタル出力信号を再生する擬似音再生部とを有して構成する。
本発明の擬似音生成方法の好ましい例では、マイクロホン、AD変換器を備えた端末が、入力した音響信号からパワースペクトログラムを計算し、前記パワースペクトログラムから対数メルスペクトログラムを算出し、前記対数メルスペクトログラムとその時間差分信号の組から、各周波数の振幅時系列の直流成分、交流成分、雑音成分のそれぞれの大きさを表す統計量の組を計算し、前記統計量の組をサーバへ送信し、前記サーバが、前記統計量の組を前記端末から受信し、前記統計量の組から擬似対数メルスペクトログラムを生成し、前記擬似対数メルスペクトログラムに対してメルフィルタバンクの擬似逆行列を乗算して擬似パワースペクトログラムを算出し、前記擬似パワースペクトログラムに各周波数の位相成分を生成して組合せて時間領域のデジタル出力信号を生成し、前記時間領域のデジタル出力信号を擬似音として再生することを特徴とする。
本発明によれば、送信可能な通信量が微小であっても、端末からサーバに必要十分なデータを送信し、受信したデータから生成した擬似音を再生することにより、音を確かめることが可能となる。
擬似音生成機能を備えた異常音検知システムのハードウェア構成を示すブロック図である。 実施例1の音響監視端末と音響監視サーバの処理の構成を示すブロック図である。 実施例2の音響監視端末と音響監視サーバの処理の構成を示すブロック図である。 実施例3の音響監視端末と音響監視サーバの処理の構成を示すブロック図である。 統計量の組からパワースペクトログラムを復元する写像を学習する処理の構成を示す図である。 擬似スペクトログラム直接復元部の内部構成を示す図である。 実施例4の音響監視端末と音響監視サーバの処理の構成を示すブロック図である。
以下、実施例を、図面を用いて説明する。
図1は、擬似音生成機能を備えた異常音検知システムのハードウェア構成を示すブロック図である。
マイクロホン101は設置した対象設備110の稼動音を、例えば所定の周期ごとに、またはユーザが指定した時刻ごとに、入力としてアナログ入力信号をAD変換器102に送る。
AD変換器102は入力されたアナログ入力信号をデジタル入力信号に変換し、音響監視端末103に送る。
音響監視端末103はデジタル入力信号を入力として、各周波数の振幅時系列の直流成分、周期成分、および、独立同分布成分それぞれの統計量(圧縮データ)に変換し、遠隔地の音響監視サーバ104に、無線ネットワークを含むネットワーク120を介して送る。
音響監視サーバ104は前記統計量を入力として、対象設備の稼動音を模擬した擬似音をデジタル出力信号としてDA変換器105に送る。
DA変換器105は入力されたデジタル出力信号をアナログ出力信号に変換し、ヘッドホン106に送り、ヘッドホン106から擬似音を出力する。
音響監視端末103は、電池と無線通信部を備えた汎用の計算機端末上に構成することができ、また音響監視サーバ104は、汎用の計算機上に構成することができて、それぞれの記憶部に記憶されている異常音検知プログラムをRAMへロードしてCPUで実行することによりそれぞれ以下の各機能部を実現する。
図2は、本実施例の処理の構成を示すブロック図である。本実施例の処理は音響監視端末103側の処理と音響監視サーバ104側の処理に分かれる。
まず、音響監視端末103側では、音響信号録音部201が、マイクロホン101により稼動音を取得し、AD変換器102によりアナログ入力信号をデジタル入力信号に変換した音響信号を、FFTフレームサイズ単位にメモリに格納する。
周波数変換部202は、デジタル入力信号をフレームごとに分割し、そのフレームに窓関数を乗算し、窓関数乗算後の信号に短時間フーリエ変換を施して、周波数領域信号を出力する。周波数領域信号は、フレームサイズがNであれば、(N / 2 + 1) = K個の周波数ビンそれぞれに1個の複素数が対応する、K個の複素数の組である。
パワー計算部203は、周波数領域信号からパワースペクトログラムX{Xは、縦軸が周波数を表し、横軸が時間を表す。フレームサイズ(単位期間)ごとに作成した周波数スペクトル(K個の周波数ビンに分けた各周波数の強さ(振幅)の成分より成る)を各列に配列して、横軸(時間軸)方向に、解析期間Tだけ時系列に配置したK行×T列の行列である。}を計算して出力する。
対数メルスペクトログラム算出部204は、パワースペクトログラムXから対数メルスペクトログラムYを計算して出力する。
ここで、一般に人間の耳には実際の周波数の音がそのまま聞こえるわけではなく、ずれが生じ、可聴域の上限に近い音は実際の音よりも低めに聞こえる。このずれを人間の知覚する音の高さを測る尺度に調整した周波数をメル(尺度)周波数という。メル尺度で等間隔な特定の周波数帯のみを抽出するフィルタであるメルフィルタバンクを、パワースペクトログラムXに適用して、対数メルスペクトログラムYを計算する。
すなわち、対数メルスペクトログラム算出部204は、パワースペクトログラムXに対してメルフィルタバンクの各フィルタをかけ、フィルタ後のパワーを足し合わせて対数を取ることで、下限周波数から上限周波数までをメル(尺度)周波数で等間隔にM個のメル周波数ビン数に分割したM行×T列の行列である対数メルスペクトログラムYにスムージングする。
なお、対数メルスペクトログラム算出部204が計算するYは、対数メルスペクトログラムの代わりに、オクターブバンドスペクトログラム、1/3オクターブバンドスペクトログラム、ガンマトーンスペクトログラムなどの、周波数パワー特性を表す任意のスペクトログラムであってよい。
Δ(時間差分)計算部205は、対数メルスペクトログラムYから、その時間差分信号Δを計算し、対数メルスペクトログラムYとΔの組を出力する。
M行×T列の行列である対数メルスペクトログラムYの各成分値をy(m,t)と表すと、その時間差分信号Δは、M行×(T-1)列の行列となり、その成分値δy(m,t)=y(m,t)-y(m,t-1) と算出される。
統計量計算部206は、対数メルスペクトログラムYと時間差分信号Δの組から、各メル周波数ビンmの統計量の組を計算し、出力する。
統計量の組は、例えば、メル周波数ビンmの行の対数メルスペクトログラムYの各成分値y(m,t)の平均値μ(m)、標準偏差σ(m)、および、時間差分信号Δのメル周波数ビンmの行の各成分値δy(m,t)の標準偏差σΔ(m)である。平均値μ(m)は振幅時系列の直流成分を表し、標準偏差σ(m)は独立同分布成分を表す。σΔ(m) / σ(m)が振幅時系列の周期成分を表す。
統計量送信部207は、統計量の組を、通信パケットに変換し、送信する。
次に、音響監視サーバ104側では、統計量受信部208が、受信した通信パケットを統計量の組に変換し、例えば受信した日時であるタイムスタンプとともにタイムスタンプ-統計量DB209に格納する。
擬似対数メルスペクトログラム生成部210は、ユーザが指定した時刻に対応するタイムスタンプの統計量の組をタイムスタンプ-統計量DB209から読み出し、読みだされた統計量の組 (μ(m)、σ(m)、σΔ(m)) から擬似対数メルスペクトログラムZを計算し、出力する。設備の稼動音が周期定常的な音であると仮定すれば、擬似対数メルスペクトログラムZの各成分z(m,t)は、数式(1)で計算できる。 ただし、γは0~1の定数パラメタ、ω = 2 sin^-1 (0.5 σΔ(m) / σ(m))、φは任意、rは正規分布N(0, σ(m))に従う確率変数である。
Figure 0007385381000001
また、統計量計算部206は、対数メルスペクトログラムYから、Δ(時間差分)計算部205を介さずに各メル周波数ビンmの統計量の組を計算し、出力してもよい。
この場合、統計量の組は、例えば、メル周波数ビンmの行の対数メルスペクトログラムYの各成分値y(m,t)の平均値μ(m)、および、y(m, t)に対する時間t方向のフーリエ変換によって得られる振幅スペクトラムが最大である交流成分の角周波数ω(m)、および、その振幅a(m)、および、残差e(m, t)の標準偏差σ_e(m)である。ただし、残差e(m, t)は数式(2)であらわされる。
Figure 0007385381000002
この場合、擬似対数メルスペクトログラムZの各成分z(m,t)は、数式(3)で計算できる。
Figure 0007385381000003
ただし、φ(m)は任意、rは正規分布N(0, σ_e(m))に従う確率変数である。
擬似スペクトログラム復元部211は、擬似対数メルスペクトログラムZから擬似パワースペクトログラム^Xを計算し、出力する。例えば、擬似対数メルスペクトログラムZに対してメルフィルタバンクの擬似逆行列を乗算することで擬似パワースペクトログラム^Xが計算できる。
周波数-時間領域変換部212は、擬似パワースペクトログラム^Xを入力として、それが持っていない各周波数の位相成分を生成し、擬似パワースペクトログラム^Xと生成された位相成分とを組みあわせて時間領域のデジタル出力信号を出力する。位相成分の生成には、例えば、Griffin-Limアルゴリズムを用いる。
ここで、擬似パワースペクトログラム^Xは周波数領域信号レベルであり、位相成分は消失しているので、Griffin-Limアルゴリズムを使用して位相成分を生成して時間領域の音響信号(時間領域擬似音)を復元する。
擬似音再生部213は、デジタル出力信号(時間領域擬似音)をDA変換器105によりアナログ出力信号に変換し、ヘッドホン106から出力する。
前述したように送信可能な通信量が微小な場合、生の音データや通常の圧縮形式の音データを端末からサーバに送ることができないので、それを用いて異常検知のための正常音モデルの学習を行うことができない。生の音データが得られるのは初期設置時・初期校正時の録音のみである。そこで、従来は初期設置時・初期校正時の音データのみを用いて正常音モデルを学習していた。しかし、本実施例は、送受信するのが統計量の組だけであるため、通常時も継続して擬似音を蓄積できる。そして、その擬似音もしくはそれから計算される特徴量ベクトルに基づいて正常音モデルを学習できる。例えば、このような逐次的な学習は、季節変動があっても異常検知の誤りを起こさないという効果をもたらす。また、多数データを用いて学習できるので、精度を著しく向上させる効果をもたらす。この効果をもたらす一連の処理を以降に示す。
まず、音響監視サーバ104側では、Δ(時間差分)計算部214は、擬似対数メルスペクトログラムZから、その時間差分信号Δを計算し、擬似対数メルスペクトログラムZとΔの組を出力する。
M行×T列の行列である擬似対数メルスペクトログラムZの各成分値をz(m,t)と表すと、その時間差分信号Δは、M行×(T-1)列の行列となり、その成分値δz(m,t)=z(m,t) - z(m,t-1) と算出される。
特徴量ベクトル作成部215は、擬似対数メルスペクトログラムZ (メル周波数ビンM個のM×T次元) とΔ(メル周波数ビンM個のM×(T-1)次元) の組を入力として、それらを行方向(上下方向)に連結した2M×(T-1)次元の行列とする。例えば、擬似対数メルスペクトログラムZの1列(t=0)を除いてM×(T-1)次元の行列としてΔの列数と合わせて、それら2つの行列を行方向(上下方向)に連結して2M×(T-1)次元の行列を構成する。
そして、その2M×(T-1)次元の行列の中から、2M×L次元の特徴量ベクトルを、1列ずつずらしながら、(T-L) 個{この場合には、例えば(T-L)通りある。}だけ抽出する。
正常音モデル学習部216は、多数の特徴量ベクトルを用いて、正常状態の分布を表す正常音モデルを学習し、学習した正常音モデルを音響監視端末103の異常検知部218に送信する。学習では、過学習を避けるため、一つの擬似対数メルスペクトログラムZから (T-L) 個抽出された特徴量ベクトルだけでなく、多数の擬似対数メルスペクトログラムZ{擬似対数メルスペクトログラムZは、音響監視端末103から送られてくる統計量の組から随時、なるべく多く作成されて、正常音モデルの学習に使用される。}から抽出された特徴量ベクトルを用いる。
正常音モデルとして、混合ガウス分布(GMM)、1クラスサポートベクター分類器、部分空間法、局所部分空間法、k-meansクラスタリング、Deep Neural Network (DNN) autoencoder、Convolutional Neural Network (CNN) autoencoder、Long Short Term Memory (LSTM) autoencoder、variational autoencoder (VAE) などを用いてよい。
各正常音モデルには、それぞれのモデルに適したアルゴリズムが知られており、それを用いる。例えば、GMMであればEMアルゴリズムにより、あらかじめ定めたクラスタ数の個数だけのガウス分布の組み合わせによるあてはめがなされる。学習された正常音モデルは、算出されたモデルパラメタによって規定される。そのモデルパラメタ全てを図示していない正常音モデルデータベースに格納する。
正常音モデルデータベースに格納されるモデルパラメタは、例えばGMMの場合、Q個の各クラスタq = 1、・・・Qの平均ベクトル(2M×L次元)μq、各クラスタの共分散行列(2M×L×2M×L次元)Γq、各クラスタの重み係数(1次元)πqである。
音響監視端末103の異常検知部218で異常検知処理を実行する際に、正常音モデルデータベースから該当する正常音モデルが読み出されて送信される。
次に、音響監視端末103では、特徴量ベクトル作成部217が、Δ(時間差分)計算部205から入力された対数メルスペクトログラムY (メル周波数ビンM個のM×T次元) とΔ(メル周波数ビンM個のM×(T-1)次元) の組を入力として、それらを行方向(上下方向)に連結した2M×(T-1)次元の行列として{例えば対数メルスペクトログラムYの1列(t=0)を除いてM×(T-1)次元の行列としてΔの列数と合わせて、それら2つの行列を行方向(上下方向)に連結して2M×(T-1)次元の行列を構成する。}、その2M×(T-1)次元の行列の中から、2M×L次元の特徴量ベクトルvを、1列ずつずらしながら、(T-L) 個{(T-L)通りある}だけ抽出する。
異常検知部218は、事前に学習した正常音モデルを音響監視サーバ104の正常音モデルデータベース(図示はしていない)から読み出し、特徴量ベクトル作成部217から入力された特徴量ベクトルvが正常に属するか異常に属するかを判定する。すなわち、入力された稼動音から作成された特徴量ベクトルvが正常音モデルから十分な確率で生成されうるかどうかを判定する。
例えば、正常音モデルがGMMの場合、2M×L次元の特徴量ベクトルvが正常音モデル(モデルパラメタΘ=((μ1、Γ1、π1)、・・・(μq、Γq、πq) 、(μQ、ΓQ、πQ))から生成される確率p(v|Θ)を、数式(4)により計算する。
Figure 0007385381000004
ここで、
Figure 0007385381000005
異常検知部218は、該確率p(v|Θ)が、例えば所定の確率以上であれば、診断対象の機械設備の稼動音(音響信号)は正常音であると判定する。例えば該確率が所定の確率未満であれば、異常音を含むと判定する。
正常音モデルとしてDeep Neural Network (DNN) autoencoderを用いた場合は、SGD、Momentum SGD、AdaGrad、RMSprop、AdaDelta、Adamなどの最適化アルゴリズムによって、正常音の特徴量ベクトルを入力した際に、入力した特徴量ベクトルと出力される特徴量ベクトルとの間の距離が小さくなるように内部パラメタが最適化される。異常音の特徴量ベクトルを入力した場合、その間の距離が大きくなることが期待されるので、この距離が所定の値未満であれば、異常音を含むと判定する。
異常通知部219は、異常検知部218が診断対象の機械設備の稼動音(音響信号)は異常音を含むと判定した場合には、音響監視サーバ104へ異常報告をする。
音響監視サーバ104の異常表示部220は、診断対象の機械設備が異常音を発している旨を図示していない表示部に表示して報告すると共に、または外部の監視システムへ通知する。または、異常音を含む確率(異常確率)として出力することでもよい。
本実施例の擬似音生成機能を備えた異常音検知システムは、送信可能な通信量が微小であっても、入力音の各周波数の振幅時系列の直流成分、周期成分、および、独立同分布成分それぞれの統計量を計算して送信する端末と、端末からの前記統計量を受信して前記統計量に基づいて擬似音を再生することで、どのような稼動音だったかを事後にユーザが聴いて確かめることが可能となる。さらに、通常時も継続して擬似音を蓄積できることから、逐次的な学習により、季節変動があっても異常検知の誤りを起こさないという効果をもたらす。また、多数データを用いて学習できるので、精度を著しく向上させる効果をもたらす。
実施例2では、周囲の雑音などの非定常な音が混入する場合であっても精度良く擬似音を生成することができる擬似音生成機能を備えた異常音検知システムの例を開示する。本実施例の実施例1との違いは、音響監視端末での処理フローに非定常音を除去する非定常成分除去部を備えることで、周期定常的な音のみを抽出して、そこから精度良く統計量の組を推定し、そこから精度良く擬似音を生成することができる点である。
図3は、実施例2の構成を示すブロック図である。
非定常成分除去部301は、パワー計算部203から送られたパワースペクトログラムXから非定常音を除去し、周期定常的な音のみを抽出し、対数メルスペクトログラム算出部204に送る。具体的な処理方法として、Harmonic/Percussive Sound Separation (HPSS) やNearest Neighbor filter (NN filter) を用いることができる。
HPSSは、入力されたパワースペクトログラムXを時間変化が緩やかな成分と時間変化が急峻な成分に分解するアルゴリズムである。時間変化が急峻な成分として分解された音は除去したき非定常音であり、時間変化が緩やかな成分は所望する周期定常的な音に近い。さらに、HPSSによって抽出された時間変化が緩やかな成分を、NN filterによってパワースペクトログラムXの中で繰り返し発生する成分と稀にしか発生しない成分に分解する。繰り返し発生する成分を、所望する周期定常的な音と判断する。
マイクロホンアレーを用いる場合は、遅延和アレー、MDVRビームフォーマ、GEVビームフォーマによって対象設備の方向の音のみ抽出することで対象設備の音のみを抽出することもできる。また、NN filterが出力する周期定常的な成分とそれ以外の成分とのSN比に基づく時間周波数マスクに基づいてMDVRビームフォーマやGEVビームフォーマの適応を制御することができる。このような構成をとることにより、残響が大きい環境であってもMDVRビームフォーマやGEVビームフォーマにより高精度に対象設備の音のみを抽出でき、さらに、周期定常的な音のみを高精度に抽出して、そこから精度良く統計量の組を推定し、そこから精度良く擬似音を生成することができる。
実施例3では、微細な調波構造を有する稼動音であっても精度良く擬似音を生成することができる擬似音生成機能を備えた異常音検知システムの例を開示する。本実施例の実施例1との違いは、初期設置時・初期校正時の録音に基づいて統計量の組からスペクトログラムを復元する写像をあらかじめ学習しておき、音響監視サーバがその写像を使って統計量の組からスペクトログラムを復元する擬似スペクトログラム直接復元部を有することである。
図4は、実施例3の構成を示すブロック図である。
擬似スペクトログラム直接復元部401は、ユーザが指定した時刻に対応するタイムスタンプの統計量の組をタイムスタンプ-統計量DB209から読み出し、読みだされた統計量の組 (μ(m)、σ(m)、σΔ(m)) から擬似パワースペクトログラム^Xを計算し、出力する。
実施例1では、擬似スペクトログラム復元部211において、擬似対数メルスペクトログラムZに対してメルフィルタバンクの擬似逆行列を乗算して擬似パワースペクトログラム^Xを復元していた。しかし、未知の変数の個数 (パワースペクトログラムの周波数ビンの個数K) の方が、既知の変数の個数 (対数メルスペクトログラムのメル周波数ビンの個数M) よりも多いという、不良設定問題であるため、本来は復元することはできない。対象の設備の稼動音が微細な調波構造を有していないのであれば、それでも十分有用な擬似音を生成できる。しかし、対象の設備の稼動音が微細な調波構造を有する場合には不十分である。実施例3では、この問題を解消するため、初期設置時・初期校正時は非圧縮の生の音が録音できる{例えば、音響監視端末103において評価対象の設備の稼動音を記録媒体に録音して、その記録媒体を音響監視サーバ104に接続して学習処理を実行する。}ことに着目し、その生の音に基づいて統計量の組からパワースペクトログラムを復元する写像をあらかじめ学習しておく。その写像は、不良設定問題において不足した情報を補うことができる。
対数メルスペクトログラム算出部402は、対数メルスペクトログラム算出部204と同様に、擬似スペクトログラム直接復元部401から送られた擬似パワースペクトログラム^Xから、(擬似)対数メルスペクトログラムZを計算し、計算した(擬似) 対数メルスペクトログラムZをΔ計算部214に出力する。
図5は、統計量の組からパワースペクトログラムを復元する写像を学習する処理の構成を示している。学習処理は音響監視サーバが行う。初期設置時・初期校正時に録音した非圧縮の生の音をパワースペクトログラムに変換し、音響監視端末と同様の対数メルスペクトログラム算出204、Δ計算205、統計量計算206を施し、統計量の組 (μ(m), σ(m), σΔ(m)) を得る。並行して、振幅時系列位相の抽出501が、パワースペクトログラムの各周波数kに対し、振幅時系列の位相を抽出する。具体的には、各周波数kに対し、X(k, :) にFFTを施して、最大ピークの周波数の位相 φ(k) を得る。
前記の写像は、例えば多層ニューラルネットワークでモデル化できる。統計量の組 (μ(m), σ(m), σΔ(m)) を入力とし、擬似パワースペクトログラム^X(k, t)を出力するような多層ニューラルネットワークを用意する。ただし、中間層で各周波数kに分岐し、分岐の後ろの層の各kに対応する素子でφ(k)の入力を受け付ける。また、学習の教師信号を、生の音をパワースペクトログラムX(k, t)とし、出力される擬似パワースペクトログラム^X(k, t)との差が小さくなるように多層ニューラルネットワークの学習を行う。
図6は、擬似スペクトログラム直接復元部401の内部構成を示している。図5と比較しやすいように、擬似スペクトログラム直接復元部401の外側の処理も合わせて示している。学習を終えた多層ニューラルネットワークに統計量の組 (μ(m), σ(m), σΔ(m)) を入力する。また、ランダム位相生成部601が各周波数kの位相φ(k)をランダムに生成し、多層ニューラルネットワークの中間層の各周波数kの分岐の後ろの素子に入力する。
本実施例の擬似音生成機能を備えた異常音検知システムは、微細な調波構造を有する対象設備の稼動音であっても精度良く擬似音を生成することができる。また、一連の学習処理と復元処理はいずれも音響監視サーバで行われるので、音響監視端末の消費電力は増加しないという利点がある。また、圧縮前の生の音に近い音が正常音モデルの学習に用いられるので、異常検知の精度が向上するという利点がある。
実施例4では、周囲の雑音などの非定常な音が混入する場合であっても、異常検知が可能な擬似音生成機能を備えた異常音検知システムの例を開示する。本実施例の実施例1との違いは、音響監視サーバ側の擬似音生成のみならず、音響監視端末側の異常検知にも、統計量の組から生成した擬似音(擬似対数メルスペクトログラム)を用いる点である。
図7は、実施例4の構成を示すブロック図である。
擬似対数メルスペクトログラム生成部701は、統計量計算部206から送られた統計量の組 (μ(m)、σ(m)、σΔ(m)) から擬似対数メルスペクトログラムZを計算し、Δ(時間差分)計算部702に出力する。設備の稼動音が周期定常的な音であると仮定すれば、擬似対数メルスペクトログラムZの各成分z(m,t)は数式(1)で計算できる。
ただし、γは0~1の定数パラメタ、ω = 2 sin^-1 (0.5 σΔ(m) / σ(m))、 φは任意、rは正規分布N(0, σ(m))に従う確率変数である。
Δ(時間差分)計算部702は、擬似対数メルスペクトログラム生成部701から送られた擬似対数メルスペクトログラムからその時間差分信号Δを計算し、擬似対数メルスペクトログラムとΔの組を、特徴量ベクトル作成部217に出力する。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
上記実施例による擬似音生成機能を備えた異常音検知システムは、設備の稼動音に含まれるであろう異常音を判定する例であった。応用例によれば、これに限らず、特定の場所や環境において採取された音データに、通常時に学習しておいた正常音モデルから十分な確率で生成されない異常音を含むと判定するようなシステムにも適用できる。
101 マイクロホン
102 AD変換器
103 音響監視端末
104 音響監視サーバ
105 DA変換器
106 ヘッドホン
110 対象設備
120 ネットワーク
201 音響信号録音部
202 周波数変換部
203 パワー計算部
204 対数メルスペクトログラム算出部
205 Δ(時間差分)計算部
206 統計量計算部
207 統計量送信部
208 統計量受信部
209 タイムスタンプ-統計量DB
210 擬似対数メルスペクトログラム生成部
211 擬似スペクトログラム復元部
212 周波数-時間領域変換部
213 擬似音再生部
214 Δ(時間差分)計算部
215 特徴量ベクトル作成部
216 正常音モデル学習部
217 特徴量ベクトル作成部
218 異常検知部
219 異常通知部
220 異常表示部
301 非定常成分除去部
401 擬似スペクトログラム直接復元部
402 対数メルスペクトログラム算出部
501 振幅時系列位相の抽出
601 ランダム位相生成部
701 擬似対数メルスペクトログラム生成部
702 Δ(時間差分)計算部

Claims (8)

  1. 音データに含まれる異常音を判定する異常音検知システムであって、前記異常音検知システムは、端末と、サーバと、を有し、
    前記端末は:
    前記音データを入力して、メル周波数ビンごとに、対数メルスペクトログラムを算出する対数メルスペクトログラム算出部と、
    対数メルスペクトログラムのメル周波数ビンごとの時間方向の平均値、メル周波数ビンごとの時間方向の標準偏差、対数メルスペクトログラムのメル周波数ビンごとに、時間方向の差分をとった標準偏差のそれぞれの大きさを表す統計量の組を計算する統計量計算部と、
    前記統計量の組を送信する統計量送信部と、
    を有し、
    前記サーバは:
    前記統計量の組を受信する統計量受信部と、
    前記統計量の組から生成した擬似対数メルスペクトログラムから、特徴量ベクトルを抽出する特徴量ベクトル生成部と、
    前記特徴量ベクトルを用いて正常音モデルを学習する正常音モデル学習部と、
    を有し、
    前記端末が、前記対数メルスペクトログラムから特徴量ベクトルを抽出し、前記サーバから正常音モデルを受信し、前記特徴量ベクトルが前記正常音モデルから生成される確率または距離に相当する値を算出し、該確率または距離に相当する値に基づいて異常音を含む否かを判定して前記サーバへ報告することを特徴とする異常音検知システム。
  2. 前記端末の前記対数メルスペクトログラム算出部の前段に、入力した前記音データから生成したパワースペクトログラムから非定常音を除去し、周期定常的な音を抽出する非定常成分除去部を更に備えることを特徴とする請求項1に記載の異常音検知システム。
  3. 前記端末が、前記統計量計算部が算出した統計量の組から擬似対数メルスペクトログラムを生成して、前記擬似対数メルスペクトログラムとその時間差分信号の組から特徴量ベクトルを抽出し、前記サーバから正常音モデルを受信し、前記特徴量ベクトルが前記正常音モデルから生成される確率を算出し、該確率が所定の確率未満であれば異常音を含むと判定して前記サーバへ報告することを特徴とする請求項1に記載の異常音検知システム。
  4. 擬似音生成システムは、端末と、サーバと、を有し、
    前記端末は:
    音データを入力して、メル周波数ビンごとに、対数メルスペクトログラムを算出する対数メルスペクトログラム算出部と、
    対数メルスペクトログラムのメル周波数ビンごとの時間方向の平均値、メル周波数ビンごとの時間方向の標準偏差、対数メルスペクトログラムのメル周波数ビンごとに、時間方向の差分をとった標準偏差のそれぞれの大きさを表す統計量の組を計算する統計量計算部と、
    前記統計量の組を送信する統計量送信部と、
    を有し、
    前記サーバは:
    前記統計量の組を受信する統計量受信部と、
    前記統計量の組から生成した擬似対数メルスペクトログラムに対してメルフィルタバンクの擬似逆行列を乗算して擬似パワースペクトログラムを算出する擬似スペクトログラム復元部と、
    前記擬似パワースペクトログラムに各周波数の位相成分を生成して組合せて時間領域のデジタル出力信号を出力する周波数-時間領域変換部と、
    前記時間領域のデジタル出力信号を再生する擬似音再生部と、を有することを特徴とする擬似音生成システム。
  5. 前記端末の前記対数メルスペクトログラム算出部の前段に、入力した前記音データから生成したパワースペクトログラムから非定常音を除去し、周期定常的な音を抽出する非定常成分除去部を更に備えることを特徴とする請求項4に記載の擬似音生成システム。
  6. 前記サーバにおいて、
    事前に診断対象の設備から録音した非圧縮の稼動音、および、対数メルスペクトログラムのメル周波数ビンごとの時間方向の平均値、メル周波数ビンごとの時間方向の標準偏差、対数メルスペクトログラムのメル周波数ビンごとに、時間方向の差分をとった標準偏差を表す統計量の組に基づいて、統計量の組から非圧縮の音のスペクトログラムへの写像を学習し、
    学習した写像に基づいて、サーバが受信した統計量の組から擬似パワースペクトログラムを生成する擬似スペクトログラム直接復元部を更に備えることを特徴とする請求項4に記載の擬似音生成システム。
  7. 前記学習した写像は、多層ニューラルネットワークでモデル化され、ランダム位相生成部が各周波数kの位相φ(k)をランダムに生成し、多層ニューラルネットワークの中間層の各周波数kの分岐の後ろの素子に入力する構成となることを特徴とする請求項6に記載の擬似音生成システム。
  8. マイクロホン、AD変換器を備えた端末が、
    入力した音響信号からパワースペクトログラムを計算し、
    前記パワースペクトログラムからメル周波数ビンごとに、対数メルスペクトログラムを算出し、
    前記対数メルスペクトログラムのメル周波数ビンごとの時間方向の平均値、メル周波数ビンごとの時間方向の標準偏差、対数メルスペクトログラムの時間方向のメル周波数ビンごとに、差分をとった標準偏差のそれぞれの大きさを表す統計量の組を計算し、
    前記統計量の組をサーバへ送信し、
    前記サーバが、
    前記統計量の組を前記端末から受信し、
    前記統計量の組から擬似対数メルスペクトログラムを生成し、
    前記擬似対数メルスペクトログラムに対してメルフィルタバンクの擬似逆行列を乗算して擬似パワースペクトログラムを算出し、
    前記擬似パワースペクトログラムに各周波数の位相成分を生成して組合せて時間領域のデジタル出力信号を生成し、
    前記時間領域のデジタル出力信号を擬似音として再生する、
    ことを特徴とする擬似音生成方法。
JP2019115257A 2019-06-21 2019-06-21 異常音検知システム、擬似音生成システム、および擬似音生成方法 Active JP7385381B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019115257A JP7385381B2 (ja) 2019-06-21 2019-06-21 異常音検知システム、擬似音生成システム、および擬似音生成方法
CN202010459129.4A CN112116924B (zh) 2019-06-21 2020-05-27 异常音检测系统、伪音生成系统及伪音生成方法
US16/892,936 US11164594B2 (en) 2019-06-21 2020-06-04 Abnormal sound detection system, artificial sound creation system, and artificial sound creating method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019115257A JP7385381B2 (ja) 2019-06-21 2019-06-21 異常音検知システム、擬似音生成システム、および擬似音生成方法

Publications (2)

Publication Number Publication Date
JP2021001964A JP2021001964A (ja) 2021-01-07
JP7385381B2 true JP7385381B2 (ja) 2023-11-22

Family

ID=73798897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019115257A Active JP7385381B2 (ja) 2019-06-21 2019-06-21 異常音検知システム、擬似音生成システム、および擬似音生成方法

Country Status (3)

Country Link
US (1) US11164594B2 (ja)
JP (1) JP7385381B2 (ja)
CN (1) CN112116924B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112397055B (zh) * 2021-01-19 2021-07-27 北京家人智能科技有限公司 一种异常声音检测方法、装置和电子设备
CN112767960B (zh) * 2021-02-05 2022-04-26 云从科技集团股份有限公司 一种音频降噪方法、系统、设备及介质
CN113077810A (zh) * 2021-03-19 2021-07-06 杨予诺 一种基于β-VAE算法的声源分离方法
CN113488072A (zh) * 2021-06-10 2021-10-08 东台科创机械实业有限公司 一种无线检测车辆异响的装置和方法
CN113326899A (zh) * 2021-06-29 2021-08-31 西藏新好科技有限公司 一种基于深度学习模型的仔猪被压检测方法
CN113724725B (zh) * 2021-11-04 2022-01-18 北京百瑞互联技术有限公司 一种蓝牙音频啸叫检测抑制方法、装置、介质及蓝牙设备
CN114299907A (zh) * 2022-01-19 2022-04-08 东风汽车集团股份有限公司 一种减振器总成异响检测方法
CN116825131A (zh) * 2022-06-24 2023-09-29 南方电网调峰调频发电有限公司储能科研院 融合频带自向下注意力机制的电厂设备状态听觉监测方法
CN114927141B (zh) * 2022-07-19 2022-10-25 中国人民解放军海军工程大学 异常水声信号的检测方法及系统
CN115424635B (zh) * 2022-11-03 2023-02-10 南京凯盛国际工程有限公司 一种基于声音特征的水泥厂设备故障诊断方法
CN116222997B (zh) * 2023-03-07 2024-04-05 华北电力大学(保定) 基于波束形成及时空网络的托辊故障声源距离估计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140090A (ja) 2000-11-02 2002-05-17 Toshiba Corp 異常監視装置
JP2002257625A (ja) 2001-03-06 2002-09-11 Kobe Steel Ltd 異常診断装置
JP2003501925A (ja) 1999-06-07 2003-01-14 エリクソン インコーポレイテッド パラメトリックノイズモデル統計値を用いたコンフォートノイズの生成方法及び装置
JP2009175077A (ja) 2008-01-28 2009-08-06 Koga:Kk 異音判定装置
WO2018150616A1 (ja) 2017-02-15 2018-08-23 日本電信電話株式会社 異常音検出装置、異常度計算装置、異常音生成装置、異常音検出学習装置、異常信号検出装置、異常信号検出学習装置、これらの方法及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09166483A (ja) * 1995-12-19 1997-06-24 Hitachi Ltd 機器監視方法及びその装置
CN101236742B (zh) * 2008-03-03 2011-08-10 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
US10026407B1 (en) * 2010-12-17 2018-07-17 Arrowhead Center, Inc. Low bit-rate speech coding through quantization of mel-frequency cepstral coefficients
JP5572541B2 (ja) 2010-12-27 2014-08-13 株式会社日立超エル・エス・アイ・システムズ ビデオエンコーダシステム
CN102664006B (zh) * 2012-04-14 2014-05-14 中国人民解放军国防科学技术大学 基于时频域分析的异常人声检测方法
CN104392717A (zh) * 2014-12-08 2015-03-04 常州工学院 一种基于声道谱高斯混合建模的快速语音转换系统及其方法
JP6420198B2 (ja) * 2015-04-23 2018-11-07 日本電信電話株式会社 閾値推定装置、音声合成装置、その方法及びプログラム
JP6377592B2 (ja) * 2015-11-09 2018-08-22 日本電信電話株式会社 異常音検出装置、異常音検出学習装置、これらの方法及びプログラム
US10147415B2 (en) * 2017-02-02 2018-12-04 Microsoft Technology Licensing, Llc Artificially generated speech for a communication session
CN106941005A (zh) * 2017-02-24 2017-07-11 华南理工大学 一种基于语音声学特征的声带异常检测方法
EP3424432B1 (en) * 2017-07-04 2020-09-30 Tata Consultancy Services Limited Systems and methods for detecting pulmonary abnormalities using lung sounds
US20200233397A1 (en) * 2019-01-23 2020-07-23 New York University System, method and computer-accessible medium for machine condition monitoring

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003501925A (ja) 1999-06-07 2003-01-14 エリクソン インコーポレイテッド パラメトリックノイズモデル統計値を用いたコンフォートノイズの生成方法及び装置
JP2002140090A (ja) 2000-11-02 2002-05-17 Toshiba Corp 異常監視装置
JP2002257625A (ja) 2001-03-06 2002-09-11 Kobe Steel Ltd 異常診断装置
JP2009175077A (ja) 2008-01-28 2009-08-06 Koga:Kk 異音判定装置
WO2018150616A1 (ja) 2017-02-15 2018-08-23 日本電信電話株式会社 異常音検出装置、異常度計算装置、異常音生成装置、異常音検出学習装置、異常信号検出装置、異常信号検出学習装置、これらの方法及びプログラム

Also Published As

Publication number Publication date
CN112116924B (zh) 2024-02-13
US11164594B2 (en) 2021-11-02
CN112116924A (zh) 2020-12-22
US20200402527A1 (en) 2020-12-24
JP2021001964A (ja) 2021-01-07

Similar Documents

Publication Publication Date Title
JP7385381B2 (ja) 異常音検知システム、擬似音生成システム、および擬似音生成方法
CN102246228B (zh) 声音识别系统
JP6485711B2 (ja) 音場再現装置および方法、並びにプログラム
CN111768795A (zh) 语音信号的噪声抑制方法、装置、设备及存储介质
KR20060044629A (ko) 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템
WO2022012195A1 (zh) 音频信号处理方法和相关装置
US9767846B2 (en) Systems and methods for analyzing audio characteristics and generating a uniform soundtrack from multiple sources
CN103299548B (zh) 执行增强的∑-δ调制
Bjorck et al. Automatic detection and compression for passive acoustic monitoring of the african forest elephant
TW201432672A (zh) 增強回響化語音的方法與裝置
CN109637509B (zh) 一种音乐自动生成方法、装置及计算机可读存储介质
KR102062454B1 (ko) 음악 장르 분류 장치 및 방법
Tran et al. Denoising induction motor sounds using an autoencoder
Suhaimy et al. Classification of ambulance siren sound with MFCC-SVM
JP7294422B2 (ja) 音モデル生成装置、音信号処理システム、音モデル生成方法、およびプログラム
CN113327624A (zh) 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法
US20230419984A1 (en) Apparatus and method for clean dialogue loudness estimates based on deep neural networks
CN113792657B (zh) 提取声学信号识别与盲解卷积算法的齿轮箱故障的方法
US11869492B2 (en) Anomaly detection system and method using noise signal and adversarial neural network
Shu et al. RNN based noise annoyance measurement for urban noise evaluation
US20230067510A1 (en) Signal processing apparatus, signal processing method, and program
JP2013182161A (ja) 音響処理装置およびプログラム
Singh et al. An Efficient Method and Hardware System for Monitoring of Illegal Logging Events in Forest
Alsaif et al. Predict Drilling Equipment Failure Using AI-Based Sound Waive Analysis Methodology
Yan Audio compression via nonlinear transform coding and stochastic binary activation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231110

R150 Certificate of patent or registration of utility model

Ref document number: 7385381

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150