JP2004198383A - Apparatus for analyzing sound source - Google Patents

Apparatus for analyzing sound source Download PDF

Info

Publication number
JP2004198383A
JP2004198383A JP2002370798A JP2002370798A JP2004198383A JP 2004198383 A JP2004198383 A JP 2004198383A JP 2002370798 A JP2002370798 A JP 2002370798A JP 2002370798 A JP2002370798 A JP 2002370798A JP 2004198383 A JP2004198383 A JP 2004198383A
Authority
JP
Japan
Prior art keywords
sound
waveform
sound source
source analyzer
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002370798A
Other languages
Japanese (ja)
Inventor
Koji Udagawa
浩二 宇田川
Yumiko Kurosawa
由美子 黒澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2002370798A priority Critical patent/JP2004198383A/en
Publication of JP2004198383A publication Critical patent/JP2004198383A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To identify sound sources by totally determining various characteristics of sound features observed on the frequency or the time waveform which sound posseses. <P>SOLUTION: A sound source analyzing apparatus is provided with a waveform extraction part 1 for computing/extracting the waveform of sound 4 to be evaluated; a spatial distance computing part 2 for computing a spatial distance of the waveform of the sound 4 on a reference space 2a, according to possible cause represented by a plurality of preregistered reference waveforms; and a cause identifying part 3 for identifying the characteristics of the sound source, on the basis of distance computation results that are output from the spatial distance computing part 2. A broadband noise component N is mixed with the plurality of reference waveforms in the spatial distance computing part 2. The sound waveform itself to be evaluated is developed on the multidimensional space for the number of waveform data points, and the sound sources are identified by the statistical distance on the multidimensional space. Accordingly, sound source analysis with high accuracy becomes possible, while synthesizing not only the limited features based on intention of an analyst, such as frequency information or duration, but also a variety of sound features. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、分析対象である各種装置類から放射される音の発生原因を同定する音源分析装置に係り、特に、複写機やプリンタなどの事務機器から発生する衝撃音の発生原因を同定する際に有効な音源分析装置の改良に関する。
【0002】
【従来の技術】
近年、オフィスにおける快適性あるいは知的生産性の向上を支援するためにオフィス環境の向上が求められている。複写機やプリンタ等のオフィス機器に対しても、知的作業を妨げない静粛性が強く求められ、騒音低減を目指した製品開発が進められている。
【0003】
図17は一般的な電子写真方式のプリンタが稼動中に発生する騒音の時間波形を示している。
この図において、横軸は時間、縦軸は音圧を表しており、騒音の音圧が時間変動する状況を示している。
ここで、丸印で示した部分は衝撃音と呼ばれ、数10〜数100ms程度の短時間に高い音圧の音が発生している。このような音は、ソレノイドなどに代表される機構部位の衝突、用紙位置合わせ部における紙と部品との衝突、あるいは、紙自身の座屈などにより生じることが明らかになっている。
【0004】
図18は図17の時間方向を拡大して、衝撃音の部分のみの時間音圧波形を表示したものである。
一般的に、このような衝撃音は、短時間に大きな音圧変動を示すことから人に認知されやすく、不快感を与える大きな原因になっており、製品開発時でもこのような衝撃音の低減に注力した騒音対策が行われている。
しかしながら、電子写真方式の複写機やプリンタなどでは、一般的な家電製品などと比べて機構部品数が桁違いに多く、様々な音が様々なタイミングで稼動するという特徴に起因して、このような衝撃音の発生位置や発生原因を同定することは非常に難しい。
【0005】
音源位置を同定する方法には、音圧だけでなく音の粒子速度も考慮した音響インテンシティを計測することにより、エネルギとしての音の流れを把握する方法、多数のマイクロホンによる同時計測を行い、各マイクロホン間の波形差や位相差情報などを基に音源位置を推定する方法などが知られている。
しかしながら、これらの方法は空間分解能が音の波長に依存するという原理的な問題を有しており、複写機やプリンタ内部の音源同定に用いるには空間分解能が不足している。
例えば、近年の複写機やプリンタでは、小型化の要請から各部品が非常に近い位置に収められており、音源分析で要求される分解能は10mm以下のオーダーであることが多いのに対して、周波数500Hzの音の波長は680mmであり、原理的にこれ以下の分解能を得ることは難しく、実用に供さない。
【0006】
また、音源近傍に生じるエバネッセント波を計測することにより、対象音の波長以下の分解能を得ることを可能にした近接場音響ホログラフィなどの方式も提案されている。
ところが、この方式では、分解能は音源から測定位置までの距離に依存し、マイクロホンを音源近傍に近づけられる場合には有効であるが、電子写真方式の複写機やプリンタなどのように、筐体内に多数の機械稼働部を含有していて、その内部の音源位置などを知りたい場合には、音源近傍にマイクロホンを近づけられないため、正確な音源同定ができない。
【0007】
このような音源探査技術の問題から、現状では衝撃音が時間波形上で急峻なピークを有するという特徴を生かして、衝撃音の発生タイミングと機械の動作タイミングとを比較して、音源を推定していく方法が主体になっている。
【0008】
【特許文献1】
特開2000−275096号公報(発明の実施の形態の欄,図1)
【特許文献2】
特開平9−81180号公報(発明の実施の形態の欄,図1)
【0009】
【発明が解決しようとする課題】
しかしながら、例えば用紙位置合わせ部周辺では、位置合わせ用の機構部品が動作する音、用紙が位置合わせ部材に衝突する音、用紙が座屈する音、位置合わせ部材が初期位置に戻る音など、非常に短時間に色々な衝撃音が発生するため、動作タイミングを調べただけでは、音源を同定することができない場合も多い。このようなケースでは、音源の可能性がある部品をひとつずつ取り外したり、衝撃を吸収する材料を貼りつけたり、衝突速度を下げたりして、衝撃音の音圧レベルがどう変わるかを調べるという、試行錯誤的な対症療法に終始しており、発生原因の同定に膨大な時間を要している。
【0010】
このような問題を解消するため、音の発生位置を明らかにするのではなく、音の持つ質的な特徴を分析することにより、音の発生原因を推定する方法が提案されている。
例えば、特許文献1では、パワースペクトル分析とニューラルネットワークとを用いて、音源の種別を判定する音源種別識別装置が開示されている。
このような音質に着目した分析は音の波長や音源との距離に依存することによる分解能不足の問題を解消し得る有望なアプローチであると考えられる。
【0011】
確かに、この種の音源種別識別装置によれば、周波数的に特徴のある音源は判別することができる。
しかしながら、この音源種別識別装置も次のような不具合を有している。
つまり、例えば、同一材料の金属板同士が衝突した場合に生じる衝撃音について、金属板の支持形態が変わった場合などには、発生する音の周波数的な特徴は変わらずに、残響時間などの時間軸上の特徴が大きく変わることが知られているが、このような種類の音についてはその差異を識別することはできない。
また、衝撃音が発生してから消滅するまでの時間が数10〜数100msと短いことにより、基本的にFFT解析などの周波数分析の適用が難しいという問題も有している。
【0012】
この問題を解決するものとして、例えば特許文献2所載の技術が提案されている。
この特許文献2には、音源の周波数成分の識別に加え、音源の継続時間の差異についての測定を採用した音源認識装置が開示されている。
この音源認識装置では、継続時間の差異を測定することにより、上記のような支持形態の違いなどによる差異を識別することが可能になるが、衝撃音の時間的な特徴は、単なる継続時間だけではなく、例えば同じ継続時間でも、衝突部材の表面硬度などが異なると、音圧振幅の立ち上がり曲線や減衰曲線などの過渡的な特性上に大きな差異が生じることが報告されており、単に継続時間を測定しただけでは、時間特性上に表れる種々の特徴を総合的に判断して精度良く識別することはできない。
【0013】
本発明は、以上の技術的課題を解決するためになされたものであって、音の持っている周波数波形あるいは時間波形上で観測される種々の音質的特徴を総合的に判断して音源の識別を行う音源識別装置を提供することにある。
【0014】
【課題を解決するための手段】
すなわち、本発明は、図1に示すように、評価すべき音4の波形を演算・抽出する波形抽出部1と、予め登録された複数の基準波形で表される原因別基準空間2a上における評価すべき音波形の空間距離を演算する空間距離演算部2と、該空間距離演算部2から出力される距離演算結果から音源の特徴を識別する原因識別部3を備え、前記空間距離演算部2における複数の基準波形に広帯域雑音成分Nを混合したことを特徴とするものである。
尚、評価すべき音4は、分析対象5である各種装置類などから放射されるものである。
【0015】
このような技術的手段において、評価すべき音4の波形には、時間波形、周波数波形、あるいは、両者を併用した波形など各種波形が含まれる。
ここで、波形抽出部1は、デジタル化された音響信号から評価する音4の時間波形や周波数波形を演算・抽出するものであればよく、代表的には、波形抽出部1としては、音響信号から評価すべき音4の時間波形(例えば時間−音圧波形)を抽出する時間波形演算部を備えている。
前記時間波形演算部では、波形の立ち上がり部や最大値部などの時間軸上の特徴から決められる所定位置を基準に所定長の波形データが切り出される。
【0016】
この際、波形を切り出す前処理として、デジタル化された音響信号にA特性などの聴感補正を加えることや、低周波の暗騒音成分を除去するためのハイパスフィルタを通すこともできる。
このような前処理を加えることにより、暗騒音成分を除去して評価すべき音4のみの波形ベクトルを抽出することが可能になる。
【0017】
具体的な波形切り出し手段としては、トリガー機能のついたデータロガーなどで波形を切り出す手段や、デジタル化された音響信号をコンピュータに取り込み、ソフトウエア上で切り出すなどの手段を用いることができる。
さらに、切り出された時間波形の振幅を最大値や最小値が所定の大きさになるように振幅を基準化してもよい。
なお、上記聴感補正、ハイパスフィルタ、振幅の基準化などの処理はデジタルフィルタやソフトウエアとして構成することができる。
【0018】
また、前記時間波形演算部に音圧レベル演算機能を備えさせ、時間−音圧波形から時間−音圧レベル波形を演算して、これを時間波形として用いることも可能である。
この場合、波形抽出部1は、時間−音圧レベル波形を抽出する時間波形演算部を備えている態様である。
【0019】
さらに、波形抽出部1には、時間波形演算部とは別に、あるいは、更に加えて周波数波形を演算する周波数波形演算部を設けることは可能である。
ここで、前記周波数波形演算部では、例えば時間波形演算部で切り出された時間波形を周波数分析して周波数波形が演算される。
尚、波形抽出部1に時間波形演算部を備えていない態様にあっては、FFTアナライザ等を用いて周波数波形を演算してもよい。
周波数分析としては、FFT解析、ウエーブレット解析、一般化調和解析などの一般的な周波数分析手段を用いることができる。
また、周波数解析する時間波形にハニング、ハミング、フラットトップなどの窓関数処理を施してもよい。
このような処理を施すことにより、折り返し誤差や漏れ誤差などの周波数分析上の問題を軽減し、実状に即した周波数波形が演算できる。
【0020】
また、波形抽出部1には、時間波形演算部又は周波数波形演算部にて演算された時間波形又は周波数波形を波形ベクトルとして作成する波形ベクトル作成部を設けるようにすればよい。
このとき、波形ベクトルとしては、時間波形、周波数波形に対して夫々単独の波形ベクトルを作成するようにしてもよいし、周波数波形と時間波形とをつなぎ合わせた波形ベクトルを作成するように構成してもよい。
例えば両波形をつなぎ合わせた波形ベクトルを作成する場合には、抽出された時間波形および周波数波形は前記波形ベクトル作成部において、最終的に1つの波形としてまとめられ、波形ベクトルとして前記空間距離演算部2に出力される。
【0021】
なお、波形抽出部1においては、例えばマイクロホンから出力される音響信号、あるいはA/D変換器から出力されるデジタル信号を記憶・格納しておくデータ記憶部を設けることも可能である。
このような構成にすることにより、音の収録だけを先に実施して、音源分析の演算を後で一括して実施するというオフライン処理が可能になる。
【0022】
また、前記空間距離演算部2では、予め登録された発生原因別の複数の基準波形から定義される原因別基準空間2aにおいて、評価すべき音4の波形ベクトルがその重心位置からどの程度離れているかという空間上の距離が演算される。
空間距離を演算するための距離の測度としては、統計学上の判別分析やクラスター分析で用いられる一般的な距離の測度、例えば、ユークリッドの距離、標準化ユークリッドの距離、ミンコフスキーの距離、マハラノビスの距離などを用いることができるが、変数群間に複雑な相関が存在しているような場合でも、実状に即した空間距離が得られる点でマハラノビスの距離を用いることが好ましい。
【0023】
更に、空間距離演算部2では、少なくとも1つ以上の発生原因毎にこのような基準空間が予め定義・登録されており、評価すべき音4の波形が各原因別空間でどの程度の距離を有しているのかが演算される。
一般的に基準空間を定義するためのデータはその空間を代表するデータ群を用いて表される。
例えば、金属の衝突音の基準空間を定義する際には、いろいろな条件で金属の衝突音を発生・採取し、これらの衝撃音波形データを用いて上記基準空間特徴ベクトルが演算される。
【0024】
これに対して、本発明の音源分析装置では、基準空間を定義するためのデータとして、該基準空間を代表するデータに広帯域雑音成分Nを混合したデータを用いるという特徴を有している。
例えば、金属の衝突音の基準空間を定義する際には、いろいろな条件で発生・採取した金属の衝突音波形に広帯域雑音成分波形を混合・重畳させたデータを用いて上記基準空間特徴ベクトルが演算される。
これによりいろいろな背景音が存在する環境でも精度の高い音源分析が可能になる。
【0025】
例えば本発明に係る音源分析装置を用いて複写機やプリンタなどの事務機器で生じる衝撃音を分析する際、(1)ファン音や用紙搬送時の擦過音、(2)事務機器が設置されている周囲環境のざわめきや空調音などの背景音などが混入される。
これらの混入音の影響を調べた結果、評価すべき衝撃音の振幅に対して、20%以下の振幅の背景音であれば、混入による影響は無視できる程度に小さいが、これを越える背景音が混入された場合には、前記空間距離の演算結果に大きな影響を及ぼすことが確認された。
これらの背景音の特徴を調べた結果、いずれも比較的広帯域に成分を有する雑音成分に近いことが明らかになり、このような広帯域雑音成分Nを予め基準空間データに混入させておくことにより、背景音の影響を軽減できることを見い出した。
【0026】
基準空間データに混合する広帯域雑音成分Nとしては、ホワイトノイズ、ピンクノイズ、ブラウンノイズなどの任意のものを用いることが可能であるが、背景音に対する類似性の高さから、1/fで振幅が高周波成分を減衰させたピンクノイズを用いることが望ましい。
また、混合比率も任意であるが、一般的な複写機やプリンタにおける主要な衝撃音に対する背景音の振幅比率を実測した結果10〜40%であったことから、より高いロバストネスを得るためには、混合比率を該10〜40%の範囲で変動させることが望ましい。
【0027】
このような距離演算はコンピュータなどのソフトウエアとして構成することができる。
具体的には各基準空間特徴ベクトルをメモリや外部記憶装置に保存しておき、評価すべき音4の波形ベクトルとの行列演算をすればよい。
演算された各空間距離演算結果は前記原因識別部3に出力される。
【0028】
前記原因識別部3では、空間距離演算部2から出力された距離データに基づいて、発生原因の推定が行われる。
基本的には距離が小さい原因別空間に属する音であると判定するのが妥当である。
この際、単純に最も距離が小さい空間に属すると判定してもよいし、各距離データをあらかじめより上位のグループ毎にまとめて、各グル−プ毎に順次判定してもよい。
【0029】
例えば、空間距離演算部2で、(1)金属の衝突、(2)プラスチックの衝突、(3)シート材(例えば紙)の衝突、(4)シート材(例えば紙)の座屈という4つの原因別空間に対する距離D1,D2,D3,D4が演算されて出力された場合、単純に最も小さい距離を示した原因系に属すると判定してもよいし、機構部品の衝突に関わる原因系に関する距離D1,D2のグループとシート材に関わる原因系である距離D3,D4とグループに先ず大別して、それぞれの平均距離を算出・比較して、どちらのグループに属するかを推定するという、知的な推定処理を用いることも可能である。
【0030】
【発明の実施の形態】
以下、添付図面に示す実施の形態に基づいてこの発明を詳細に説明する。
図2は本発明が適用された音源分析装置の実施の一形態を示す。
同図において、音源分析装置10は、例えば複写機やプリンタ等の事務機器20からの騒音を捉えるマイクロホン11と、このマイクロホン11に接続されるA/D(アナログ/デジタル)変換器12と、このA/D変換器12で変換されたデータを一時的に記憶するデータ記憶器13と、このデータ記憶器13からのデータに基づいて所定の演算処理を行うコンピュータシステム19とを備えている。
尚、コンピュータシステム19は、コンピュータ本体19a、入力手段としてのキーボード19b、マウス19c、出力手段としてのディスプレイ装置19dなどで構成されている。
【0031】
このコンピュータ本体19a内のハードウエア資源としては、演算制御手段としてのCPU、主記憶手段としてのRAM、補助記憶手段としてのハードディスク、入出力制御装置など(いずれも図示せず)を有し、コンピュータ本体19a内のソフトウエア資源としては、オペレーティングシステム、音響解析ソフトウェア、数値解析ソフトウエアなど(いずれも図示せず)を有している。
そして、これらハードウエア資源とソフトウエア資源との経堂作業により、次の図3に示す各機能部、具体的には、波形ベクトル抽出部14、空間距離演算部15、原因識別部16及び結果表示部17を実現している。
【0032】
本実施の形態において、マイクロホン11は複写機やプリンタ等の事務機器20から放射される音を検知して電気信号に変換する。
マイクロホン11の電気信号出力はA/D変換器12に入力され、デジタル信号に変換される。
A/D変換器12の出力はデータ記憶器13に入力されて一時的に記憶される。
ここで、データ記憶器13としては、データを一時的に記憶できるものであれば適宜選定して差し支えなく、例えば図2に示すように、A/D変換器12が内蔵されたDAT(Digital Audio Taperecorder)を用いることができる他、MD(Mini Disc)、パーソナルコンピュータに接続されたハードディスク装置や磁気記録装置などを用いることができる。
尚、データ記憶器13として、内部にA/D変換器12が内蔵されている態様のものを用いる場合には、前記A/D変換器12を別途用意しなくてもよい。
このような構成にすることにより、音の収録だけを先に実施して、音源分析の演算を後で一括して実施するというオフライン処理が可能になる。
【0033】
また、データ記憶器13に記憶された音響データは波形ベクトル抽出部14に入力される。
波形ベクトル抽出部14は、図4に示すように、時間波形演算部31、周波数波形演算部32、及び、波形ベクトル作成部33を備えている。
本実施の形態において、時間波形演算部31は、図5に示すように、聴感補正部311、波形切り出し部312、振幅基準化部313を備えている。
【0034】
先ず、聴感補正部311において、特に暗騒音に多く含まれる数10Hz以下の低周波成分をカットするため、例えばA特性聴感補正処理が行われる。
次に、波形切り出し部312において、音響データから音圧値が最大のポイントを探査して、その位置を基準に前方側、後方側に夫々複数のデータ、両者を合わせて例えば計n(例えば256)データが抽出される。このとき、前方データ、後方データの数については適宜配分して差し支えない。
そして、抽出された波形は振幅基準化部313において、振幅を最大値が一定の値になるように基準化され、例えばn点の時間波形データとして、周波数波形演算部32及び波形ベクトル作成部33へ出力される。
【0035】
図4において、周波数波形演算部32では、時間波形演算部31から出力された時間波形データにハニング窓関数などをかける窓関数処理が施された後、FFT解析などの周波数解析を用いて周波数パワースペクトル波形が演算される。
得られた所定数n/2(例えば128)の周波数パワースペクトル波形は波形ベクトル作成部33に出力される。
波形ベクトル作成部33では、時間波形演算部31から得られた所定数nの時間波形データと周波数波形演算部32で得られた所定数n/2の周波数波形データから、両者の合計数(n+n/2=(3/2)n=k)(例えば384)の合成波形を作成し、合計数k次元の波形ベクトルとして、空間距離演算部15に出力する。
【0036】
空間距離演算部15では、図3に示すように、次のような6通りの原因別空間に対応する6個の個別空間距離演算部41〜46を備えている。
一般的な複写機やプリンタで生じる衝撃音について、その発生原因をひとつひとつ丹念に調べた結果、その発生原因は先ず大きく、(a)機構部品同士の衝突による音と、(b)紙に関わる音に大別できる。
そして、機構部品同士の衝突に関しては、衝突する部材の材質から、さらに、(a1)金属部材とプラスチック部材の衝突、(a2)金属部材同士の衝突、(a3)プラスチック部材同士の衝突に分類できる。また、紙に関わる音については、(b1)紙と機構部品の衝突、(b2)紙自身の座屈、(b3)用紙走行時に紙が段差や隙間を通過する際に、紙の終端部がはじかれる音に分けられることが判明した。
【0037】
衝撃音の発生が問題になった際に、この6種類の音のどれに該当する音なのかが明らかになれば、非常に有用である。
例えば前述した用紙位置合わせ部周辺で生じる、(1)位置合わせ用の機構部品が動作する音、(2)用紙が位置合わせ部材に衝突する音、(3)用紙が座屈する音、(4)位置合わせ部材が初期位置に戻る音についても、先ず、(1)の音は機構部品(金属)が位置決め部材(プラスチック)に衝突する音であることから、(a1)に該当し、(2)の音は(b1)、(3)の音は(b2)、(4)の音は機構部品を駆動するソレノイドが元に戻るときに金属でできたストッパに衝突する音であることから、(a2)に該当する音であり、問題の音が主に上記6通りの原因のどれに属する音なのかが明らかになれば、音源を必要十分な的確さで同定することができる。
【0038】
そこで、上記6通りの発生原因について、機械内部で生じるいろいろな発生条件を模擬して衝撃音を発生させ、その原因を代表する衝撃音のサンプルデータをそれぞれ数百種類(例えば300種類)ずつ採取した。
ここで、該サンプルデータに対して最大振幅を10〜40%の範囲で適宜変えたピンクノイズ信号を人工的に生成し、該サンプルデータに混合(ミックスペースト)して、基準空間用データを作成した。
このようにして作成した全ての基準空間データ群について、上記波形ベクトル抽出部14と同様の処理を行い、予めその原因空間を特徴づける所定数k次元(例えば384次元)の特徴ベクトルY及びk×kの特徴行列(相関係数行列の逆行列)Aを求める。
【0039】
これを6通りの原因系全てについて実施し、6種類の原因別空間を特徴づける6通りの特徴ベクトルYa1,Ya2,・・・,Yb2,Yb3と特徴行列Aa1,Aa2,・・・,Ab2,Ab3を求めた。
この特徴ベクトルと特徴行列とは予め演算されてメモリ上に格納されている。各個別空間距離演算部41〜46では、前記の特徴ベクトルと特徴行列、及び、波形ベクトル抽出部14から入力された波形ベクトルから、例えばマハラノビスの距離が演算される。
【0040】
ここで、マハラノビスの距離について補足説明する。
予め登録された複数の基準波形から、変数群数k(ひとつの波形を構成する点数)相当のk行k列の相関係数行列Rを求め、その逆行列Aを演算しておく。
評価すべき音の波形ベクトルを(x1,・・・ ,xk)とすると、マハラノビスの距離D2は、図6の(1)式から演算される。
すなわち、マハラノビスの距離D2は、評価すべき音の波形ベクトルと複数の基準波形から予め求められた相関係数行列の逆行列(基準空間特徴ベクトル)の行列積として演算される。
このようにして演算されるマハラノビスの距離は、該基準波形によって定義された基準空間における重心位置からの距離を表し、基準空間を構成する全ての変数群間の相関状態が総合的に評価されるため、変数群間に複雑な相関が存在しているような場合でも、実状に即した空間距離が得られる。
【0041】
このように、図6の(1)式に基づいて、マハラノビスの距離が演算されると、各個別空間距離演算部41〜46で演算された6通りのマハラノビスの距離Da1,Da2,・・・,Db2,Db3は原因識別部16に出力される。
原因識別部16では、空間距離演算部15から出力された6通りのマハラノビスの距離Da1,Da2,・・・,Db2,Db3から、次のようにして発生原因の推定が行われる。
【0042】
まず、機構部品の衝突音に関わるグループDa1,Da2,Da3と、紙に関わる音のグループDb1,Db2,Db3の2グループに分けられ、それぞれの平均距離Da=(Da1+Da2+Da3)/3と、Db=(Db1+Db2+Db3)/3とが演算される。
そして、DaとDbとを比較して小さい方のグループに属する音であると識別される。
次に、DaとDbとの比較で値が小さい方のグループについて、3通りのマハラノビス距離の値から詳細な原因識別が行われる。
例えば、Da<Dbならば、Da1,Da2,Da3を比較して最も距離値が小さい原因群に属する音であると識別される。
このようにして原因識別部16で得られた原因識別結果は結果表示部17に出力され、本装置の利用者に表示される。
【0043】
本実施の形態では、波形ベクトル抽出部14は、時間波形と周波数波形とを併用した波形ベクトルを演算・出力するようになっているが、これに限られるものではなく、例えば時間波形として、音圧変動を表す時間波形ベクトルを用いてもよいし、あるいは、音圧レベル変動を表す時間波形ベクトルを用いてもよいし、これら両者を用いるようにしてもよい。
更にまた、波形ベクトル抽出部14としては、時間波形、あるいは、周波数波形のみを抽出するようにしてもよい。
【0044】
【実施例】
◎実施例1
本実施例は、実施の形態に係る音源分析装置をより具現化したものである。
本実施例では、データ記憶器13として、A/D変換器12が内蔵されたDAT(Digital Audio Taperecorder)を用い、サンプリング周波数48kHzの音響データを収録した。
データ記憶器13に記憶された音響データは波形ベクトル抽出部14に入力される。
このとき、波形ベクトル抽出部14の時間波形演算部31では、聴感補正部311による聴感補正(A特性聴感補正処理)が行われる。この場合、例えば図7に示すように、数10Hz以下の低周波数成分がカットされる。
しかる後、波形切り出し部312において、音響データから音圧値が最大のポイントを探査して、その位置を基準に前方100データ、後方155データ、計256データが抽出される。このときの状態を図8に示す。
【0045】
抽出された波形は振幅基準化部313において、振幅を最大値が一定の値になるように基準化され、256点の時間波形データとして、周波数波形演算部32および波形ベクトル作成部33へ出力される。
この後、周波数波形演算部32では、時間波形演算部31から出力された時間波形データにハニング窓関数をかける処理が施された後、FFT解析を用いて周波数パワースペクトル波形が演算される。このときの状態を図9に示す。
得られた128点の周波数パワースペクトル波形は波形ベクトル作成部33に出力される。
この後、波形ベクトル作成部33では、時間波形演算部31から得られた256点の時間波形データと周波数波形演算部32で得られた128点の周波数波形データから、256+128=384点の合成波形を作成し、384次元の波形ベクトルとして、空間距離演算部15に出力する。このときの波形ベクトル例を図10に示す。
尚、時間波形として、音圧レベル波形を抽出する場合には、例えば聴感補正部311による聴感補正後の波形を二乗平滑化するようにすればよく、例えば図11に示すような音圧レベル波形が得られる。
【0046】
更に、本実施例では、衝撃音の6通りの発生原因について、機械内部で生ずるいろいろな発生条件を模擬して衝撃音を発生させ、その原因を代表する衝撃音のサンプルデータをそれぞれ300種類ずつ採取した。ここで、該サンプルデータに対して最大振幅を10,20,30,40%の4通りに変えたピンクノイズ信号を人工的に生成し、該サンプルデータに混合(ミックスペースト)して、基準空間用データを作成した。
ここで用いた衝撃音サンプルデータの一例を図12に、混合したピンクノイズ信号の一例を図13に、これらを混合した基準空間用データの一例を図14に示す。
このようにして作成した全300個のデータについて、上記波形ベクトル抽出部14と同様の処理を行い、予めその原因空間を特徴づける384次元の特徴ベクトルYおよび384×384の特徴行列(相関係数行列の逆行列)Aを求めた。
【0047】
本実施例に係る音源分析装置の原因識別能力を調べるため、予め原因が分かっている2種類の音を対象に原因識別を試みた。
具体的には、本実施例において用いられる6通りの発生原因の中でも、特に、聴感上の印象や音圧波形が類似していて、原因識別の難しい(1)金属部材とプラスチック部材の衝突音と、(2)プラスチック部材同士の衝突音について、それぞれ発生原因が明らかなサンプル音を100個ずつ集め、前者の金属部材とプラスチック部材の衝突音100個の中から80個をランダムに選んで、金属部材とプラスチック部材の衝突音を表す特徴ベクトルおよび特徴行列を演算した。
【0048】
なお、本実施例において基準空間データにピンクノイズを混合させたことにより、大きな背景音が存在する環境でも精度の高い音源分析が可能になることを検証するため、この検証試験は人が頻繁に出入りする一般オフィス環境下にて実施した。
残った金属部材とプラスチック部材の衝突音20個とプラスチック部材同士の衝突音100個とについて、それぞれの波形ベクトルを求め、前記特徴ベクトルおよび特徴行列から、金属部材とプラスチック部材の衝突音に関する空間におけるマハラノビスの距離を求めた。
【0049】
基準空間データにピンクノイズを混入しない態様の音源分析装置(比較例)を用いた場合の演算結果を図15に、基準空間データにピンクノイズを混入した本実施例による演算結果を図16に示す。
前者の比較例では、金属部材とプラスチック部材の衝突音検証用20音、および、プラスチック部材同士の衝突音検証用100音について、マハラノビスの距離の分布範囲が広がり、両者が重なり合って十分な識別ができていないのに対して、本実施例では、金属部材とプラスチック部材の衝突音検証用20音のマハラノビスの距離が全て2以下であり、この基準空間の重心に近い似た音であることが示された。
一方、プラスチック部材同士の衝突音検証用100音はマハラノビス距離が全て50を超えており、この空間の重心から離れていることが示され、例えば、マハラノビスの距離10を閾値とすると、この両者を完全に識別できることが検証された。
【0050】
このような音源分析装置を用いて、実際の複写機・プリンタから放射される衝撃音の音源分析を行った結果、前記6通りの衝撃音について、80%を上回る再現率と精度で発生原因の識別ができることを確認した。
【0051】
【発明の効果】
以上説明したように、本発明の音源分析装置によれば、評価すべき音の波形自体を波形データ点数分の多次元の空間に展開し、その多次元空間上での統計的な距離によって音源を識別しているので、周波数情報や継続時間などの分析者の意図による限られた特徴だけでなく、音のいろいろな特徴を総合した精度の高い音源分析が可能になる。
また、本発明によれば、基準空間データに広帯域雑音成分波形を混合させたことにより、いろいろな背景音が存在する環境でも精度の高い音源分析が可能になる。
【図面の簡単な説明】
【図1】本発明に係る音源分析装置の概要を示す説明図である。
【図2】本発明が適用された音源分析装置の実施の一形態を示す説明図である。
【図3】本実施の形態に係る音源分析装置の各機能部を示すブロック図である。
【図4】本実施の形態で用いられる波形ベクトル抽出部の構成例を示す説明図である。
【図5】本実施の形態で用いられる時間波形演算部の構成例を示す説明図である。
【図6】本実施の形態で用いられるマハラノビスの距離を求める数式を示す説明図である。
【図7】実施例において、聴感補正部により聴感補正処理した後の波形の一例を示す説明図である。
【図8】実施例において、波形切り出し部で切り出したピーク部周辺の波形の一例を示す説明図である。
【図9】実施例において、周波数波形演算部で周波数分析して得られた周波数波形の一例を示す説明図である。
【図10】実施例において、時間波形と周波数波形とをつなぎ合わせて得た波形ベクトルの一例を示す説明図である。
【図11】実施例において、音圧波形を二乗平滑化して得た音圧レベル波形の一例を示す説明図である。
【図12】実施例において、基準空間データ用衝撃音サンプルの時間−音圧波形を示す説明図である。
【図13】実施例において、基準空間データに混合するピンクノイズサンプルの時間−音圧波形を示す説明図である。
【図14】実施例において、ピンクノイズ混合済みの基準空間データの時間−音圧波形を示す説明図である。
【図15】比較例に係る音源分析装置による、金属部材とプラスチック部材の衝突音とプラスチック部材同士の衝突音との識別結果を示す散布図である。
【図16】実施例に係る音源分析装置による、金属部材とプラスチック部材の衝突音とプラスチック部材同士の衝突音との識別結果を示す散布図である。
【図17】一般的なプリンタから生ずる騒音の時間−音圧波形の一例を示す説明図である。
【図18】図17の衝撃音の部分のみを拡大した時間−音圧波形を示す説明図である。
【符号の説明】
1…波形抽出部,2…空間距離演算部,2a…原因別基準空間,3…原因識別部,4…音,5…分析対象,N…広帯域雑音成分,11…マイクロホン,12…A/D変換器,13…データ記憶器,14…波形ベクトル抽出部,15…空間距離演算部,16…原因識別部,17…結果表示部,31…時間波形演算部,32…周波数波形演算部,33…波形ベクトル作成部,311…聴感補正部,312…波形切り出し部,313…振幅基準化部,41〜46…個別空間距離演算部
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a sound source analyzer that identifies the cause of generation of sound radiated from various devices to be analyzed, and particularly to the case of identifying the cause of generation of impact sound generated from office equipment such as a copying machine or a printer. The present invention relates to an improvement of a sound source analyzer that is effective for a computer.
[0002]
[Prior art]
2. Description of the Related Art In recent years, an office environment has been required to be improved in order to support comfort or intellectual productivity in an office. Office machines such as copiers and printers are also required to be quiet so as not to hinder intellectual work, and product development aimed at noise reduction is being promoted.
[0003]
FIG. 17 shows a time waveform of noise generated during operation of a general electrophotographic printer.
In this figure, the horizontal axis represents time, and the vertical axis represents sound pressure, showing the situation where the sound pressure of noise varies with time.
Here, a portion indicated by a circle is called an impact sound, and a sound having a high sound pressure is generated in a short time of about several tens to several hundreds ms. It has been clarified that such a noise is caused by a collision of a mechanical portion represented by a solenoid or the like, a collision between a paper and a component in a paper alignment portion, or a buckling of the paper itself.
[0004]
FIG. 18 is an enlarged view of the time direction of FIG. 17 showing a time-sound pressure waveform of only an impact sound portion.
Generally, such impulsive sounds are easily recognized by humans because they exhibit large sound pressure fluctuations in a short period of time, and are a major cause of discomfort. Noise countermeasures are being implemented.
However, electrophotographic copiers and printers have many orders of magnitude more mechanical parts than general home appliances, and various sounds operate at various timings. It is very difficult to identify the location and the cause of the generation of an impulsive sound.
[0005]
The method of identifying the sound source position includes measuring the sound intensity taking into account not only the sound pressure but also the particle velocity of the sound, thereby grasping the flow of sound as energy, performing simultaneous measurement with multiple microphones, There is known a method of estimating the position of a sound source based on information such as waveform differences and phase differences between microphones.
However, these methods have a fundamental problem that the spatial resolution depends on the sound wavelength, and the spatial resolution is insufficient for use in identifying a sound source inside a copying machine or a printer.
For example, in recent copiers and printers, each component is placed in a very close position due to the demand for miniaturization, and the resolution required for sound source analysis is often on the order of 10 mm or less, The wavelength of a sound having a frequency of 500 Hz is 680 mm, and it is difficult in principle to obtain a resolution lower than this, which is not practical.
[0006]
In addition, a method such as near-field acoustic holography has been proposed which can obtain a resolution equal to or less than the wavelength of a target sound by measuring an evanescent wave generated near a sound source.
However, in this method, the resolution depends on the distance from the sound source to the measurement position, and is effective when the microphone can be brought close to the vicinity of the sound source. When a large number of machine operating parts are included and it is desired to know the position of the sound source inside the machine operating part, the microphone cannot be brought close to the sound source, so that accurate sound source identification cannot be performed.
[0007]
Due to the problem of such sound source detection technology, at present, the sound source is estimated by comparing the impact sound generation timing with the machine operation timing, taking advantage of the characteristic that the impact sound has a steep peak on the time waveform. The main method is to go.
[0008]
[Patent Document 1]
Japanese Patent Application Laid-Open No. 2000-275096 (column of the embodiment of the invention, FIG. 1)
[Patent Document 2]
Japanese Patent Application Laid-Open No. 9-81180 (column of embodiment of the invention, FIG. 1)
[0009]
[Problems to be solved by the invention]
However, for example, in the vicinity of the sheet positioning unit, there are very sounds such as a sound of operation of the mechanical parts for positioning, a sound of the sheet colliding with the positioning member, a sound of the sheet buckling, and a sound of the positioning member returning to the initial position. Since various impact sounds are generated in a short period of time, it is often impossible to identify the sound source only by examining the operation timing. In such cases, removing the components that could be sound sources one by one, pasting a material that absorbs shock, or reducing the speed of the collision, and examining how the sound pressure level of the impact sound changes, It has been a trial-and-error symptomatic treatment, and it takes an enormous amount of time to identify the cause.
[0010]
In order to solve such a problem, there has been proposed a method of estimating a cause of sound generation by analyzing a qualitative characteristic of the sound instead of clarifying a sound generation position.
For example, Patent Literature 1 discloses a sound source type identification device that determines the type of a sound source using power spectrum analysis and a neural network.
Such analysis focusing on sound quality is considered to be a promising approach that can solve the problem of insufficient resolution due to the dependence on the sound wavelength and the distance to the sound source.
[0011]
Certainly, according to this type of sound source type identification device, a sound source having a characteristic in frequency can be determined.
However, this sound source type identification device also has the following disadvantages.
That is, for example, regarding the impact sound generated when metal plates of the same material collide with each other, when the supporting form of the metal plate is changed, the frequency characteristics of the generated sound are not changed, and the reverberation time and the like are not changed. It is known that the characteristics on the time axis change greatly, but it is not possible to identify the difference between these types of sounds.
Further, since the time from the generation of the impact sound to the disappearance thereof is as short as several tens to several hundreds of ms, there is also a problem that it is basically difficult to apply frequency analysis such as FFT analysis.
[0012]
As a solution to this problem, for example, a technique described in Patent Document 2 has been proposed.
Patent Document 2 discloses a sound source recognition device that employs measurement of a difference in duration of a sound source in addition to identification of a frequency component of the sound source.
In this sound source recognition device, by measuring the difference in the duration, it is possible to identify the difference due to the above-described difference in the support form, etc. Rather, for example, it has been reported that even if the surface hardness of the collision member is different even for the same duration, a large difference occurs in transient characteristics such as a rising curve and an attenuation curve of the sound pressure amplitude. , It is not possible to judge various characteristics appearing on the time characteristic comprehensively to identify them with high accuracy.
[0013]
The present invention has been made in order to solve the above technical problem, and comprehensively judges various sound quality characteristics observed on a frequency waveform or a time waveform of a sound to determine a sound source. It is to provide a sound source identification device for performing identification.
[0014]
[Means for Solving the Problems]
That is, according to the present invention, as shown in FIG. 1, a waveform extraction unit 1 for calculating and extracting a waveform of a sound 4 to be evaluated, and a cause-specific reference space 2a represented by a plurality of reference waveforms registered in advance. A spatial distance calculating unit for calculating a spatial distance of a sound waveform to be evaluated; a cause identifying unit for identifying a feature of a sound source from a distance calculating result output from the spatial distance calculating unit; 2 wherein a plurality of reference waveforms are mixed with a wideband noise component N.
The sound 4 to be evaluated is emitted from various devices to be analyzed 5 and the like.
[0015]
In such technical means, the waveform of the sound 4 to be evaluated includes various waveforms such as a time waveform, a frequency waveform, and a waveform using both of them.
Here, the waveform extraction unit 1 may be any unit that calculates and extracts the time waveform and the frequency waveform of the sound 4 to be evaluated from the digitized audio signal. A time waveform calculator is provided for extracting a time waveform (for example, time-sound pressure waveform) of the sound 4 to be evaluated from the signal.
In the time waveform calculation unit, waveform data of a predetermined length is cut out based on a predetermined position determined from a characteristic on the time axis such as a rising portion or a maximum value portion of the waveform.
[0016]
At this time, as a pre-process for cutting out the waveform, the digitized acoustic signal may be subjected to audibility correction such as A-characteristics, or may be passed through a high-pass filter for removing low-frequency background noise components.
By adding such preprocessing, it becomes possible to remove the background noise component and extract the waveform vector of only the sound 4 to be evaluated.
[0017]
As a specific waveform extracting means, a means for extracting a waveform by a data logger having a trigger function or the like, a means for taking a digitized acoustic signal into a computer, and extracting it on software can be used.
Further, the amplitude of the extracted time waveform may be normalized so that the maximum value or the minimum value has a predetermined value.
The processing such as the audibility correction, the high-pass filter, and the normalization of the amplitude can be configured as a digital filter or software.
[0018]
It is also possible to provide the time waveform calculation section with a sound pressure level calculation function, calculate a time-sound pressure level waveform from a time-sound pressure waveform, and use this as a time waveform.
In this case, the waveform extracting unit 1 includes a time waveform calculating unit that extracts a time-sound pressure level waveform.
[0019]
Further, the waveform extracting unit 1 can be provided with a frequency waveform calculating unit for calculating a frequency waveform separately from or in addition to the time waveform calculating unit.
Here, the frequency waveform calculator calculates a frequency waveform by performing frequency analysis on the time waveform cut out by the time waveform calculator, for example.
In a mode in which the waveform extracting unit 1 does not include the time waveform calculating unit, the frequency waveform may be calculated using an FFT analyzer or the like.
As the frequency analysis, general frequency analysis means such as FFT analysis, wavelet analysis, and generalized harmonic analysis can be used.
Further, a window function process such as Hanning, Hamming, flat top, etc. may be applied to the time waveform for frequency analysis.
By performing such processing, problems in frequency analysis such as aliasing errors and leakage errors can be reduced, and a frequency waveform according to actual conditions can be calculated.
[0020]
Further, the waveform extracting unit 1 may be provided with a waveform vector creating unit that creates a time waveform or a frequency waveform calculated by the time waveform calculating unit or the frequency waveform calculating unit as a waveform vector.
At this time, as the waveform vector, a single waveform vector may be created for each of the time waveform and the frequency waveform, or a configuration may be made such that a waveform vector obtained by connecting the frequency waveform and the time waveform is created. You may.
For example, when creating a waveform vector by connecting both waveforms, the extracted time waveform and frequency waveform are finally combined into one waveform in the waveform vector creation unit, and the spatial distance calculation unit is used as a waveform vector. 2 is output.
[0021]
The waveform extracting unit 1 may be provided with a data storage unit that stores and stores, for example, an acoustic signal output from a microphone or a digital signal output from an A / D converter.
With such a configuration, it is possible to perform off-line processing in which only recording of sound is performed first, and calculation of sound source analysis is collectively performed later.
[0022]
Further, in the spatial distance calculation unit 2, in the cause-specific reference space 2a defined from a plurality of reference waveforms for each cause registered in advance, how far the waveform vector of the sound 4 to be evaluated is from the center of gravity of the sound 4 The distance in the space of squid is calculated.
As the distance measure for calculating the spatial distance, general distance measures used in statistical discriminant analysis and cluster analysis, for example, Euclidean distance, standardized Euclidean distance, Minkowski distance, Mahalanobis distance Although it is possible to use a Mahalanobis distance, it is preferable to use a Mahalanobis distance because a spatial distance according to the actual situation can be obtained even when a complicated correlation exists between the variable groups.
[0023]
Further, in the spatial distance calculation unit 2, such a reference space is defined and registered in advance for at least one or more causes of occurrence, and how long the waveform of the sound 4 to be evaluated is in the space for each cause. It is calculated whether it has.
Generally, data for defining a reference space is represented using a data group representing the space.
For example, when defining a reference space for a metal collision sound, a metal collision sound is generated and collected under various conditions, and the reference space feature vector is calculated using these shock sound waveform data.
[0024]
On the other hand, the sound source analyzer of the present invention has a feature that data obtained by mixing a wideband noise component N with data representing the reference space is used as data for defining the reference space.
For example, when defining the reference space of a metal collision sound, the reference space feature vector is obtained by using data obtained by mixing and superimposing a broadband noise component waveform on a metal collision sound waveform generated and collected under various conditions. It is calculated.
This enables highly accurate sound source analysis even in an environment where various background sounds exist.
[0025]
For example, when analyzing the impact sound generated in office equipment such as a copying machine or a printer using the sound source analyzer according to the present invention, (1) a fan sound or a rubbing noise during paper transport, (2) office equipment is installed. Background sounds such as the noise of the surrounding environment and the air-conditioning sound.
As a result of examining the effects of these mixed sounds, if the background sound has an amplitude of 20% or less with respect to the amplitude of the impact sound to be evaluated, the effect of the mixed sound is negligibly small, but the background sound exceeds this. It has been confirmed that, when mixed, there is a great effect on the calculation result of the spatial distance.
As a result of examining the characteristics of these background sounds, it is clear that each of them is close to a noise component having a component in a relatively wide band. By mixing such a wide band noise component N in the reference space data in advance, We found that the effect of background sound could be reduced.
[0026]
As the broadband noise component N to be mixed with the reference space data, any one of white noise, pink noise, brown noise and the like can be used, but the amplitude is 1 / f due to the high similarity to the background sound. It is desirable to use pink noise in which high frequency components are attenuated.
The mixing ratio is also arbitrary, but since the ratio of the amplitude of the background sound to the main impact sound in a general copying machine or printer was measured to be 10 to 40%, in order to obtain higher robustness, It is desirable to change the mixing ratio in the range of 10 to 40%.
[0027]
Such distance calculation can be configured as software such as a computer.
Specifically, each reference space feature vector may be stored in a memory or an external storage device, and a matrix operation with a waveform vector of the sound 4 to be evaluated may be performed.
The calculated spatial distance calculation results are output to the cause identification unit 3.
[0028]
The cause identification unit 3 estimates the cause of occurrence based on the distance data output from the spatial distance calculation unit 2.
Basically, it is appropriate to determine that the sound belongs to the cause-specific space having a short distance.
At this time, it may be simply determined that the data belongs to the space having the shortest distance, or the respective distance data may be grouped in advance into higher-order groups and sequentially determined for each group.
[0029]
For example, in the spatial distance calculation unit 2, there are four collisions: (1) metal collision, (2) plastic collision, (3) sheet material (for example, paper) collision, and (4) sheet material (for example, paper) buckling. When the distances D1, D2, D3, and D4 to the cause-specific space are calculated and output, it may be simply determined that the cause belongs to the cause system indicating the smallest distance, or the cause system related to the collision of the mechanical parts may be determined. First, the group of distances D1 and D2 and the group of distances D3 and D4, which are causal systems related to the sheet material, are roughly classified, and the average distances are calculated and compared to estimate which group the group belongs to. It is also possible to use a simple estimation process.
[0030]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, the present invention will be described in detail based on embodiments shown in the accompanying drawings.
FIG. 2 shows an embodiment of a sound source analyzer to which the present invention is applied.
In FIG. 1, a sound source analyzer 10 includes a microphone 11 that captures noise from office equipment 20 such as a copying machine or a printer, an A / D (analog / digital) converter 12 connected to the microphone 11, A data storage 13 for temporarily storing the data converted by the A / D converter 12 and a computer system 19 for performing a predetermined arithmetic processing based on the data from the data storage 13 are provided.
The computer system 19 includes a computer body 19a, a keyboard 19b as input means, a mouse 19c, a display device 19d as output means, and the like.
[0031]
The hardware resources in the computer main body 19a include a CPU as operation control means, a RAM as main storage means, a hard disk as auxiliary storage means, an input / output control device (all not shown), and the like. The software resources in the main body 19a include an operating system, acoustic analysis software, numerical analysis software, and the like (all not shown).
Then, through the work of these hardware resources and software resources, the respective functional units shown in FIG. 3, specifically, the waveform vector extracting unit 14, the spatial distance calculating unit 15, the cause identifying unit 16, and the result display The unit 17 is realized.
[0032]
In the present embodiment, the microphone 11 detects a sound radiated from the office equipment 20 such as a copying machine or a printer and converts the sound into an electric signal.
The electric signal output of the microphone 11 is input to the A / D converter 12 and is converted into a digital signal.
The output of the A / D converter 12 is input to the data storage 13 and is temporarily stored.
Here, the data storage unit 13 may be appropriately selected as long as it can temporarily store data. For example, as shown in FIG. 2, a DAT (Digital Audio) having the A / D converter 12 built therein is used. In addition to using a tape recorder, an MD (Mini Disc), a hard disk device connected to a personal computer, a magnetic recording device, or the like can be used.
When the data storage device 13 has a configuration in which the A / D converter 12 is built in, the A / D converter 12 does not need to be separately prepared.
With such a configuration, it is possible to perform off-line processing in which only recording of sound is performed first, and calculation of sound source analysis is collectively performed later.
[0033]
The acoustic data stored in the data storage 13 is input to the waveform vector extraction unit 14.
The waveform vector extraction unit 14 includes a time waveform calculation unit 31, a frequency waveform calculation unit 32, and a waveform vector creation unit 33, as shown in FIG.
In the present embodiment, the time waveform calculation unit 31 includes an audibility correction unit 311, a waveform cutout unit 312, and an amplitude standardization unit 313, as shown in FIG.
[0034]
First, in the audibility correction unit 311, for example, an A-characteristic audibility correction process is performed to cut low-frequency components of several tens Hz or less that are particularly included in background noise.
Next, in the waveform cutout unit 312, a point having the maximum sound pressure value is searched from the acoustic data, and a plurality of data are respectively arranged on the front side and the rear side with reference to the position. ) Data is extracted. At this time, the numbers of front data and rear data may be appropriately allocated.
Then, the extracted waveform is normalized by an amplitude reference unit 313 so that the maximum value becomes a constant value. For example, the frequency waveform calculation unit 32 and the waveform vector creation unit 33 are used as time waveform data at n points. Output to
[0035]
In FIG. 4, the frequency waveform calculator 32 performs a window function process of applying a Hanning window function or the like to the time waveform data output from the time waveform calculator 31, and then uses the frequency analysis such as FFT analysis to perform frequency power analysis. A spectrum waveform is calculated.
The obtained predetermined number n / 2 (for example, 128) frequency power spectrum waveforms are output to the waveform vector creation unit 33.
The waveform vector creating unit 33 calculates the total number (n + n) of the predetermined number n of the time waveform data obtained from the time waveform calculating unit 31 and the predetermined number n / 2 of the frequency waveform data obtained by the frequency waveform calculating unit 32. A composite waveform of / 2 = (3/2) n = k) (for example, 384) is created and output to the spatial distance calculation unit 15 as a total k-dimensional waveform vector.
[0036]
As shown in FIG. 3, the space distance calculation unit 15 includes six individual space distance calculation units 41 to 46 corresponding to the following six types of cause-specific spaces.
As a result of carefully examining the causes of the impulsive noises that occur in ordinary copiers and printers, the causes were the first to be loud, with (a) sound caused by collision between mechanical parts and (b) sound related to paper. Can be roughly divided into
Then, regarding the collision between the mechanical components, from the material of the colliding member, it can be further classified into (a1) collision between the metal member and the plastic member, (a2) collision between the metal members, and (a3) collision between the plastic members. . In addition, regarding the sound related to paper, (b1) collision between paper and mechanical parts, (b2) buckling of paper itself, (b3) when paper passes through a step or gap during paper running, It turned out that it could be divided into popping sounds.
[0037]
It is very useful if it becomes clear which of these six types of sounds corresponds to when the generation of an impact sound becomes a problem.
For example, the sound generated around the paper positioning unit described above, (1) the sound of the mechanism mechanism for positioning, (2) the sound of the paper colliding with the positioning member, (3) the sound of the paper buckling, (4) Regarding the sound of the positioning member returning to the initial position, first, the sound of (1) corresponds to (a1) because the mechanical component (metal) collides with the positioning member (plastic), and (2) The sound of (b1) is the sound of (b), the sound of (3) is (b2), and the sound of (4) is a sound that collides with the stopper made of metal when the solenoid driving the mechanical parts returns to its original position. If it is clear which of the above six causes the sound in question is the sound corresponding to a2), the sound source can be identified with necessary and sufficient accuracy.
[0038]
Therefore, for the above-mentioned six causes, impulsive sounds are generated by simulating various generating conditions generated inside the machine, and several hundred kinds (for example, 300 kinds) of sample data of the impulsive sounds representative of the causes are collected. did.
Here, a pink noise signal whose maximum amplitude is appropriately changed in the range of 10 to 40% is artificially generated with respect to the sample data, and mixed with the sample data (mix paste) to generate reference space data. did.
The same processing as that of the waveform vector extracting unit 14 is performed on all the reference space data groups created in this way, and a predetermined number k-dimensional (for example, 384-dimensional) feature vectors Y and k × The characteristic matrix A of k (the inverse matrix of the correlation coefficient matrix) is obtained.
[0039]
This is performed for all six cause systems, and six feature vectors Ya1, Ya2,..., Yb2, Yb3 characterizing the six types of cause-specific spaces and feature matrices Aa1, Aa2,. Ab3 was determined.
The feature vector and the feature matrix are calculated in advance and stored in the memory. Each of the individual spatial distance calculation units 41 to 46 calculates, for example, a Mahalanobis distance from the feature vector and the feature matrix and the waveform vector input from the waveform vector extraction unit 14.
[0040]
Here, the Mahalanobis distance is supplementarily described.
From a plurality of reference waveforms registered in advance, a correlation coefficient matrix R of k rows and k columns corresponding to the number of variable groups k (the number of points constituting one waveform) is obtained, and its inverse matrix A is calculated.
The waveform vector of the sound to be evaluated is (x 1 , ..., x k ), The distance D of Mahalanobis Two Is calculated from equation (1) in FIG.
That is, the distance D of Mahalanobis Two Is calculated as a matrix product of an inverse matrix (reference space feature vector) of a correlation coefficient matrix previously obtained from a waveform vector of a sound to be evaluated and a plurality of reference waveforms.
The Mahalanobis distance calculated in this way represents the distance from the position of the center of gravity in the reference space defined by the reference waveform, and the correlation state between all the variable groups constituting the reference space is comprehensively evaluated. Therefore, even when there is a complicated correlation between the variable groups, a spatial distance that matches the actual situation can be obtained.
[0041]
As described above, when the Mahalanobis distance is calculated based on the equation (1) in FIG. 6, the six Mahalanobis distances Da1, Da2,... Calculated by the individual space distance calculation units 41 to 46 are calculated. , Db2, Db3 are output to the cause identification unit 16.
The cause identification unit 16 estimates the cause of occurrence from the six Mahalanobis distances Da1, Da2,..., Db2, Db3 output from the spatial distance calculation unit 15 as follows.
[0042]
First, there are two groups, namely, groups Da1, Da2, Da3 relating to the collision sound of the mechanical parts, and groups Db1, Db2, Db3 relating to the paper. (Db1 + Db2 + Db3) / 3 is calculated.
Then, Da and Db are compared to identify the sound belonging to the smaller group.
Next, for the group having a smaller value in the comparison between Da and Db, detailed cause identification is performed from three values of the Mahalanobis distance.
For example, if Da <Db, Da1, Da2, and Da3 are compared and identified as a sound belonging to the cause group having the smallest distance value.
The cause identification result obtained by the cause identification unit 16 in this way is output to the result display unit 17 and displayed to the user of the present apparatus.
[0043]
In the present embodiment, the waveform vector extraction unit 14 calculates and outputs a waveform vector using both a time waveform and a frequency waveform. However, the present invention is not limited to this. A time waveform vector representing pressure fluctuation may be used, a time waveform vector representing sound pressure level fluctuation may be used, or both of them may be used.
Furthermore, the waveform vector extraction unit 14 may extract only a time waveform or a frequency waveform.
[0044]
【Example】
◎ Example 1
The present embodiment is a further embodiment of the sound source analyzer according to the embodiment.
In the present embodiment, a DAT (Digital Audio Taperecorder) in which the A / D converter 12 is incorporated is used as the data storage 13, and audio data with a sampling frequency of 48 kHz is recorded.
The acoustic data stored in the data storage 13 is input to the waveform vector extraction unit 14.
At this time, in the time waveform calculation unit 31 of the waveform vector extraction unit 14, the audibility correction (A-characteristic audibility correction processing) is performed by the audibility correction unit 311. In this case, for example, as shown in FIG. 7, low frequency components of several tens Hz or less are cut.
Thereafter, in the waveform cutout unit 312, a point having the maximum sound pressure value is searched from the acoustic data, and a total of 256 data, 100 data in front and 155 data in back, are extracted based on the position. FIG. 8 shows the state at this time.
[0045]
The extracted waveform is normalized by an amplitude reference unit 313 so that the maximum value becomes a constant value, and is output to the frequency waveform calculation unit 32 and the waveform vector creation unit 33 as 256-point time waveform data. You.
Thereafter, the frequency waveform calculator 32 performs a process of applying a Hanning window function to the time waveform data output from the time waveform calculator 31, and then calculates a frequency power spectrum waveform using FFT analysis. The state at this time is shown in FIG.
The obtained 128 frequency power spectrum waveforms are output to the waveform vector creation unit 33.
Thereafter, the waveform vector creation unit 33 calculates 256 + 128 = 384 composite waveforms from the 256 time waveform data obtained from the time waveform calculation unit 31 and the 128 frequency waveform data obtained from the frequency waveform calculation unit 32. And outputs it to the spatial distance calculation unit 15 as a 384-dimensional waveform vector. FIG. 10 shows an example of the waveform vector at this time.
When a sound pressure level waveform is extracted as a time waveform, for example, the waveform after the audibility correction by the audibility correction unit 311 may be square-smoothed. For example, a sound pressure level waveform as shown in FIG. Is obtained.
[0046]
Further, in the present embodiment, with respect to the six causes of the impulsive sound, impulsive sounds are generated by simulating various generating conditions that occur inside the machine, and 300 kinds of sample data of the impulsive sound representative of the cause are generated. Collected. Here, a pink noise signal whose maximum amplitude is changed to four types of 10, 20, 30, and 40% is artificially generated with respect to the sample data, mixed with the sample data (mix paste), and mixed with a reference space. Data was created.
FIG. 12 shows an example of the impact sound sample data used here, FIG. 13 shows an example of the mixed pink noise signal, and FIG. 14 shows an example of the reference space data obtained by mixing these.
The same processing as that performed by the waveform vector extraction unit 14 is performed on all 300 pieces of data created in this manner, and a 384-dimensional feature vector Y and a 384 × 384 feature matrix (correlation coefficient) that characterize the cause space in advance. A) was obtained.
[0047]
In order to investigate the cause identification ability of the sound source analyzer according to the present embodiment, an attempt was made to identify the cause of two types of sounds whose causes are known in advance.
Specifically, among the six causes used in the present embodiment, particularly, the auditory impression and the sound pressure waveform are similar, and it is difficult to identify the cause. (1) The collision sound between the metal member and the plastic member And, (2) for the collision sound between the plastic members, each of the 100 sample sounds whose cause is apparent are collected by 100, and 80 out of the 100 collision sounds of the former metal member and the plastic member are randomly selected, A feature vector and a feature matrix representing a collision sound between a metal member and a plastic member were calculated.
[0048]
In addition, in order to verify that high-accuracy sound source analysis can be performed even in an environment where a loud background sound exists, this verification test is frequently performed by a person. The test was conducted in a general office environment.
For each of the remaining 20 collision sounds between the metal member and the plastic member and the 100 collision sounds between the plastic members, respective waveform vectors are obtained. Mahalanobis distance was determined.
[0049]
FIG. 15 shows a calculation result when a sound source analyzer (comparative example) in which pink noise is not mixed into the reference space data is shown in FIG. 15, and a calculation result according to the present embodiment in which pink noise is mixed into the reference space data is shown in FIG. .
In the former comparative example, the distribution range of the Mahalanobis distance is widened for 20 sounds for verifying the collision sound between the metal member and the plastic member and 100 sounds for verifying the collision sound between the plastic members, and the two overlap and sufficient identification is possible. In contrast, in the present embodiment, the distance between the Mahalanobis of the 20 sounds for verifying the collision sound between the metal member and the plastic member is all 2 or less, and the sound is similar to the center of gravity of the reference space. Indicated.
On the other hand, the 100 sounds for collision sound verification between the plastic members all have a Mahalanobis distance exceeding 50, which indicates that they are far from the center of gravity of this space. It was verified that it could be completely identified.
[0050]
Using such a sound source analyzer, a sound source analysis of an impact sound radiated from an actual copier / printer resulted in the occurrence of the above-mentioned six types of impact sounds with a recall rate and accuracy exceeding 80%. Confirmed that it can be identified.
[0051]
【The invention's effect】
As described above, according to the sound source analyzer of the present invention, the sound waveform itself to be evaluated is developed in a multidimensional space corresponding to the number of waveform data points, and the sound source is calculated based on the statistical distance in the multidimensional space. , It is possible to perform high-accuracy sound source analysis that combines not only limited features such as frequency information and duration but also various features of sound.
Further, according to the present invention, by mixing the wideband noise component waveform with the reference spatial data, highly accurate sound source analysis can be performed even in an environment where various background sounds exist.
[Brief description of the drawings]
FIG. 1 is an explanatory diagram showing an outline of a sound source analyzer according to the present invention.
FIG. 2 is an explanatory diagram showing one embodiment of a sound source analyzer to which the present invention is applied.
FIG. 3 is a block diagram showing each functional unit of the sound source analyzer according to the present embodiment.
FIG. 4 is an explanatory diagram illustrating a configuration example of a waveform vector extraction unit used in the present embodiment.
FIG. 5 is an explanatory diagram illustrating a configuration example of a time waveform calculation unit used in the present embodiment.
FIG. 6 is an explanatory diagram showing a mathematical expression for calculating a Mahalanobis distance used in the present embodiment.
FIG. 7 is an explanatory diagram illustrating an example of a waveform after the audibility correction processing is performed by the audibility correction unit in the example.
FIG. 8 is an explanatory diagram showing an example of a waveform around a peak portion cut out by a waveform cutout unit in the example.
FIG. 9 is an explanatory diagram showing an example of a frequency waveform obtained by performing a frequency analysis by a frequency waveform calculation unit in the embodiment.
FIG. 10 is an explanatory diagram showing an example of a waveform vector obtained by joining a time waveform and a frequency waveform in the embodiment.
FIG. 11 is an explanatory diagram showing an example of a sound pressure level waveform obtained by square-smoothing a sound pressure waveform in the example.
FIG. 12 is an explanatory diagram showing a time-sound pressure waveform of an impact sound sample for reference space data in the example.
FIG. 13 is an explanatory diagram showing a time-sound pressure waveform of a pink noise sample mixed with reference space data in the example.
FIG. 14 is an explanatory diagram showing a time-sound pressure waveform of reference space data in which pink noise has been mixed in the example.
FIG. 15 is a scatter diagram illustrating a result of discrimination between a collision sound between a metal member and a plastic member and a collision sound between plastic members by a sound source analyzer according to a comparative example.
FIG. 16 is a scatter diagram showing a result of identification of a collision sound between a metal member and a plastic member and a collision sound between plastic members by the sound source analyzer according to the embodiment.
FIG. 17 is an explanatory diagram showing an example of a time-sound pressure waveform of noise generated from a general printer.
FIG. 18 is an explanatory diagram showing a time-sound pressure waveform obtained by enlarging only the impact sound portion of FIG. 17;
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Waveform extraction part, 2 ... Spatial distance calculation part, 2a ... Reference space by cause, 3 ... Cause identification part, 4 ... Sound, 5 ... Analysis target, N ... Broadband noise component, 11 ... Microphone, 12 ... A / D Converter 13 Data storage unit 14 Waveform vector extraction unit 15 Spatial distance calculation unit 16 Cause identification unit 17 Result display unit 31 Time waveform calculation unit 32 Frequency waveform calculation unit 33 ... Waveform vector creation unit, 311 audibility correction unit, 312 waveform extraction unit, 313 amplitude reference unit, 41 to 46 individual space distance calculation unit

Claims (11)

評価すべき音の波形を演算・抽出する波形抽出部と、
予め登録された複数の基準波形で表される原因別基準空間上における評価すべき音波形の空間距離を演算する空間距離演算部と、
該空間距離演算部から出力される距離演算結果から音源の特徴を識別する原因識別部とを備え、
前記空間距離演算部における複数の基準波形に広帯域雑音成分を混合したことを特徴とする音源分析装置。
A waveform extracting unit for calculating and extracting a waveform of a sound to be evaluated;
A spatial distance calculation unit that calculates a spatial distance of a sound waveform to be evaluated on a cause-specific reference space represented by a plurality of pre-registered reference waveforms,
A cause identification unit that identifies a feature of the sound source from the distance calculation result output from the spatial distance calculation unit,
A sound source analyzer, wherein a plurality of reference waveforms in the spatial distance calculator are mixed with a wideband noise component.
請求項1記載の音源分析装置において、
前記広帯域雑音成分がピンクノイズであることを特徴とする音源分析装置。
The sound source analyzer according to claim 1,
A sound source analyzer, wherein the broadband noise component is pink noise.
請求項1記載の音源分析装置において、
前記広帯域雑音成分の混合比率を基準波形毎に10〜40%の範囲で変えたことを特徴とする音源分析装置。
The sound source analyzer according to claim 1,
A sound source analyzer wherein a mixing ratio of the wideband noise component is changed in a range of 10 to 40% for each reference waveform.
請求項1記載の音源分析装置において、
前記空間距離演算部で演算される距離として、統計的な距離の測度を用いることを特徴とする音源分析装置。
The sound source analyzer according to claim 1,
A sound source analyzer, wherein a statistical distance measure is used as the distance calculated by the spatial distance calculation unit.
請求項4記載の音源分析装置において、
前記空間距離演算部で演算される距離が、マハラノビスの距離であることを特徴とする音源分析装置。
The sound source analyzer according to claim 4,
A sound source analyzer, wherein the distance calculated by the spatial distance calculation unit is a Mahalanobis distance.
請求項1記載の音源分析装置において、
前記空間距離演算部が、(1)機構部品の衝突により生じる音、(2)シート材に関わる音の2系統の原因別空間距離演算部を備えていることを特徴とする音源分析装置。
The sound source analyzer according to claim 1,
The sound source analyzer according to claim 1, wherein the spatial distance calculation unit includes two causes of spatial distance calculation units: (1) a sound generated by a collision of a mechanical component, and (2) a sound related to a sheet material.
請求項6記載の音源分析装置において、
前記空間距離演算部が、(1)金属部材とプラスチック部材の衝突音、(2)金属部材同士の衝突音、(3)プラスチック部材同士の衝突音、(4)シート材と機構部品の衝突音、(5)シート材自身の座屈音、(6)シート材の終端部がはじかれる音の6種類の原因別空間距離演算部を備えていることを特徴とする音源分析装置。
The sound source analyzer according to claim 6,
The spatial distance calculation unit is (1) a collision sound between a metal member and a plastic member, (2) a collision sound between metal members, (3) a collision sound between plastic members, (4) a collision sound between a sheet material and a mechanical component. And (5) a buckling sound of the sheet material itself, and (6) a sound distance analysis unit for each of the six causes: a sound of the end of the sheet material being repelled.
請求項1記載の音源分析装置において、
前記波形抽出部が、時間−音圧波形を抽出する時間波形演算部を備えており、評価すべき音の時間領域での音圧変動を表す時間波形ベクトルを演算・出力することを特徴とする音源分析装置。
The sound source analyzer according to claim 1,
The waveform extracting unit includes a time waveform calculating unit that extracts a time-sound pressure waveform, and calculates and outputs a time waveform vector representing a sound pressure variation in a time domain of a sound to be evaluated. Sound source analyzer.
請求項1記載の音源分析装置において、
前記波形抽出部が、時間−音圧レベル波形を抽出する時間波形演算部を備えており、評価すべき音の時間領域での音圧レベル変動を表す時間波形ベクトルを演算・出力することを特徴とする音源分析装置。
The sound source analyzer according to claim 1,
The waveform extracting section includes a time waveform calculating section for extracting a time-sound pressure level waveform, and calculates and outputs a time waveform vector representing a sound pressure level variation in a time domain of a sound to be evaluated. Sound source analyzer.
請求項1記載の音源分析装置において、
前記波形抽出部が、周波数−音圧レベル波形を抽出する周波数波形演算部を備えており、評価すべき音の周波数領域での音圧レベル変動を表す周波数波形ベクトルを演算・出力することを特徴とする音源分析装置。
The sound source analyzer according to claim 1,
The waveform extracting unit includes a frequency waveform calculating unit that extracts a frequency-sound pressure level waveform, and calculates and outputs a frequency waveform vector representing a sound pressure level variation in a frequency domain of a sound to be evaluated. Sound source analyzer.
請求項1記載の音源分析装置において、
前記波形抽出部が、時間−音圧波形又は時間−音圧レベル波形を抽出する時間波形演算部と、周波数−音圧レベル波形を抽出する周波数波形演算部とを備えており、評価すべき音の時間波形と周波数波形とを併用した波形ベクトルを演算・出力することを特徴とする音源分析装置。
The sound source analyzer according to claim 1,
The waveform extracting unit includes a time waveform calculating unit that extracts a time-sound pressure waveform or a time-sound pressure level waveform, and a frequency waveform calculating unit that extracts a frequency-sound pressure level waveform, and a sound to be evaluated is provided. A sound source analyzer that calculates and outputs a waveform vector using both the time waveform and the frequency waveform.
JP2002370798A 2002-12-20 2002-12-20 Apparatus for analyzing sound source Pending JP2004198383A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002370798A JP2004198383A (en) 2002-12-20 2002-12-20 Apparatus for analyzing sound source

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002370798A JP2004198383A (en) 2002-12-20 2002-12-20 Apparatus for analyzing sound source

Publications (1)

Publication Number Publication Date
JP2004198383A true JP2004198383A (en) 2004-07-15

Family

ID=32766618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002370798A Pending JP2004198383A (en) 2002-12-20 2002-12-20 Apparatus for analyzing sound source

Country Status (1)

Country Link
JP (1) JP2004198383A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5292477B2 (en) * 2010-01-22 2013-09-18 株式会社日立製作所 Diagnostic device and diagnostic method
JP2022107097A (en) * 2021-01-08 2022-07-21 Necプラットフォームズ株式会社 System, information processing device, method, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5292477B2 (en) * 2010-01-22 2013-09-18 株式会社日立製作所 Diagnostic device and diagnostic method
JP2022107097A (en) * 2021-01-08 2022-07-21 Necプラットフォームズ株式会社 System, information processing device, method, and program
JP7332639B2 (en) 2021-01-08 2023-08-23 Necプラットフォームズ株式会社 System, information processing device, method, and program

Similar Documents

Publication Publication Date Title
Virtanen Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria
JP4157581B2 (en) Voice recognition device
JP4912778B2 (en) Method and system for modeling the trajectory of a signal source
Virtanen Sound source separation using sparse coding with temporal continuity objective
US8036884B2 (en) Identification of the presence of speech in digital audio data
Xie et al. Copy-move detection of digital audio based on multi-feature decision
Singh et al. Detection of ai-synthesized speech using cepstral & bispectral statistics
Alluri et al. IIIT-H Spoofing Countermeasures for Automatic Speaker Verification Spoofing and Countermeasures Challenge 2019.
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
Attorresi et al. Combining automatic speaker verification and prosody analysis for synthetic speech detection
Al-Karawi et al. Model selection toward robustness speaker verification in reverberant conditions
CN113252323B (en) Breaker mechanical fault identification method and system based on human ear hearing characteristics
Ferreira et al. Real-time blind source separation system with applications to distant speech recognition
Ick et al. Blind acoustic room parameter estimation using phase features
Korycki Time and spectral analysis methods with machine learning for the authentication of digital audio recordings
Singh et al. Linear Prediction Residual based Short-term Cepstral Features for Replay Attacks Detection.
US9401684B2 (en) Methods, systems, and computer readable media for synthesizing sounds using estimated material parameters
Lin et al. A multiscale chaotic feature extraction method for speaker recognition
JP2004198383A (en) Apparatus for analyzing sound source
Singh et al. Replay attack detection using excitation source and system features
Maximos et al. Real-time drums transcription with characteristic bandpass filtering
JP4127211B2 (en) Sound source discrimination device and its discrimination method
JP2004205215A (en) Sound source diagnosing device
Patil et al. Significance of cmvn for replay spoof detection
Xie et al. Image processing and classification procedure for the analysis of australian frog vocalisations