JP4547042B2 - 音判定装置、音検知装置及び音判定方法 - Google Patents
音判定装置、音検知装置及び音判定方法 Download PDFInfo
- Publication number
- JP4547042B2 JP4547042B2 JP2010509053A JP2010509053A JP4547042B2 JP 4547042 B2 JP4547042 B2 JP 4547042B2 JP 2010509053 A JP2010509053 A JP 2010509053A JP 2010509053 A JP2010509053 A JP 2010509053A JP 4547042 B2 JP4547042 B2 JP 4547042B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- frequency signal
- frequency
- time
- phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Description
本発明は、時間−周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定する音判定装置に関し、特に、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を時間−周波数領域ごとに判定する音判定装置に関する。
第1の従来技術として、入力音声信号(混合音)からピッチ周期の抽出を行い、ピッチ周期が抽出されない場合には雑音であると判定するものがある(例えば、特許文献1参照)。第1の従来技術では、音声候補と判定された入力音声から音声を認識する。
図1は、特許文献1に記載された第1の従来技術に係る雑音除去装置の構成を示すブロック図である。
この雑音除去装置は、認識部2501と、ピッチ抽出部2502と、判定部2503と、周期範囲記憶部2504とを備える。
認識部2501は、入力音声信号(混合音)から音声部分(抽出音)と推定される信号区間の音声認識候補を出力する処理部である。ピッチ抽出部2502は、入力音声信号からピッチ周期を抽出する処理部である。判定部2503は、認識部2501で出力された信号区間に対する音声認識候補とピッチ抽出部2502で抽出された該区間の信号のピッチ抽出結果とから音声認識結果を出力する処理部である。周期範囲記憶部2504は、ピッチ抽出部2502によって抽出されるピッチ周期に対する周期範囲を記憶している記憶装置である。この雑音除去装置では、ピッチ周期が予め設定されたピッチ周期に対する設定周期の範囲内であれば、該信号区間の信号は音声候補であると判定し、ピッチ周期に対する設定周期の範囲外であれば雑音であると判定している。
また、第2の従来技術として、3つの判定手段の判定結果に基づいて人の声の入力の有無を最終的に判定するものがある(例えば、特許文献2参照)。第1の判定手段は、入力信号(混合音)から調波構造をもつ信号成分を検出した場合に、人の声(抽出音)が入力されたと判定する。第2の判定手段は、入力信号の周波数重心が所定の周波数範囲内である場合に、人の声が入力されたと判定する。第3の判定手段は、ノイズレベル記憶手段に記憶された雑音レベルに対する入力信号のパワー比が所定のしきい値を超えた場合に、人の声が入力されたと判定する。
また、第3の従来技術として、オーディオ信号において、位相がランダムに変化する部分は雑音により支配されていると判断することにより、効率的にオーディオ信号の符号化を行う符号化方法がある(例えば、特許文献3)。
第1の従来技術の構成では、ピッチ周期は時間区間ごとに抽出される。このため、時間−周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定することができない。また、エンジン音(エンジンの回転数に応じてピッチ周期が変化する音)などのようにピッチ周期が変化する音を判定することはできない。
また、第2の従来技術の構成では、調波構造や周波数重心などのスペクトル形状により抽出音を判定している。このため、大きな雑音が混合するとスペクトル形状が歪むため、抽出音を判定することができない。特に、雑音によりスペクトル形状は失われているが、時間−周波数領域ごとに見れば抽出音が部分的に存在する場合に、この部分の周波数信号を抽出音の周波数信号として判定することができない。
また、第3の従来技術の構成では、オーディオ信号の符号化を対象としているため、混合音から抽出音のみを抽出する技術に適用することが困難である。
本発明は、前記従来の課題を解決するもので、時間−周波数領域ごとに、混合音に含まれる抽出音の周波数信号を判定できる音判定装置等を提供することを目的とする。特に、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を時間−周波数領域ごと判定する音判定装置等を提供することを目的とする。
本発明にある局面に係る雑音除去装置は、抽出音と雑音とを含む混合音を受付けて、所定の時間幅に含まれる複数の時刻の各々について、前記混合音の周波数信号を時刻ごとに求める周波数分析部と、前記所定の時間幅に含まれる複数の時刻の前記周波数信号において、第1のしきい値以上の数から構成され、かつ周波数信号間の位相距離が第2のしきい値以下である周波数信号の各々を、前記抽出音の周波数信号とに判定する抽出音判定部とを備え、前記位相距離は、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で表したときの、周波数信号の位相間の位相の距離であり、前記所定の時間幅の時間長は、前記窓関数の時間窓幅の2〜4倍の長さに設定されている。
この構成によると、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)における距離(所定の時間幅のおける位相ψ´(t)の時間形状を計る1つの指標)を用いる。このことにより、時間−周波数領域ごとに、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音との区別ができる。また、音色のある音(もしくは音色のない音)の周波数信号を判定することができる。
さらに、位相距離を求める時間幅を、窓関数の時間窓幅(時間分解能に対応)の2〜4倍の時間長に設定する。これにより、時間分解能(窓関数の時間窓幅)に基づいて位相距離を求める時間幅を決定できるので、様々な時間分解能で、抽出音の周波数信号を判定することができる。特に、周波数構造が時間的に変化する抽出音を判定する場合には適切な時間分解能が複数存在するため、適切な時間分解能を用いることで抽出音の周波数信号を正確に判定することができる。例えば、音声のように短時間で周波数構造が大きく変化する抽出音に対しては時間分解能を細かくして、アイドリング状態でのエンジン音のように周波数構造がゆるやかに変化する抽出音に対しては時間分解能を粗くして(周波数分解能を細かくして)、抽出音の周波数信号を判定する。
なお、抽出音に適切でない時間分解能(窓関数の時間窓幅)で抽出音の周波数信号を判定した場合には、混合音などの影響で位相が歪むため必然的に位相距離が大きくなる。このため、この場合にも雑音の周波数信号を誤って抽出音の周波数信号として判定することはない。
好ましくは、前記周波数分析部は、複数の時間窓幅の窓関数を用いて前記窓関数ごとに、前記所定の時間幅に含まれる複数の時刻の周波数信号から1/f(fは分析周波数)の時間間隔の時刻の周波数信号を求め、前記抽出音判定部は、前記窓関数ごとに求められた周波数信号の各々について、前記抽出音の判定を行い、前記音判定装置は、さらに、同じ時刻において、少なくとも1つの前記窓関数から求められた周波数信号から前記抽出音の周波数信号が判定されたときに、抽出音検知フラグを作成して出力する音検知部を備える。
この構成によると、複数の時間分解能(窓関数の時間窓幅)での判定結果から、抽出音に適切な時間分解能での判定結果を用いて抽出音を検出できるので、正確に抽出音を検出して利用者に知らせることができる。例えば、車両検知装置に組み込んだ場合には、エンジン音(抽出音)を正確に検出して、運転者に車両の接近を知らせることができる。
好ましくは、前記抽出音判定部は、第1のしきい値以上の数から構成され、かつ周波数信号間の前記位相距離が第2のしきい値以下である前記周波数信号の集まりを複数作成して、前記周波数信号の集まり同士の前記位相距離が第3のしきい値以上になる前記周波数信号の集まり同士を、異なる種類の抽出音の周波数信号として判定する。
この構成によると、同じ時間−周波数領域に複数の種類の抽出音が存在する場合に、それぞれを区別して判定することができる。例えば、複数の車両のエンジン音を区別して判定できる。このため、本発明の雑音除去装置を、車両検知装置に適用した場合には、運転者に複数の異なる車両が存在していることを知らせることができ、運転者は安全に運転できる。また、複数の人の音声を区別して判定できるため、音声出力装置に適用した場合には複数の人の音声を分離して聞かせることができる。
さらに好ましくは、前記抽出音判定部は、前記所定の時間幅に含まれる複数の時刻の周波数信号から1/f(fは分析周波数)の時間間隔の時刻の周波数信号を選択して、前記選択された時刻の周波数信号を用いて前記位相距離を求める。
この構成によると、1/f(fは分析周波数)の時間間隔の周波数信号では、ψ´(t)=mod2π(ψ(t)−2πft)=ψ(t)となり、位相距離をψ(t)を用いた簡単な計算で求めることができる。
さらに好ましくは、上述の音判定装置は、さらに、時刻tの周波数信号の位相ψ(t)(ラジアン)を、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に補正する位相補正部を備え、前記抽出音判定部は、補正された前記周波数信号の位相ψ´(t)を用いて前記位相距離を求める。
この構成によると、ψ´(t)=mod2π(ψ(t)−2πft)で表される補正を行う。このことで、1/f(fは分析周波数)の時間間隔よりも細かい時間間隔の周波数信号において、位相ψ´(t)を用いた簡単な計算により位相距離を求めることができる。このため、1/fの時間間隔が大きくなる低い周波数帯域においても、短い時間領域ごとにψ´(t)を用いた簡単な計算で抽出音を判定することができる。
本発明の他の局面に係る音検知装置は、上述の音判定装置と、前記音判定装置において、前記混合音の周波数信号に含まれる周波数信号が前記抽出音の周波数信号と判定されたときに、抽出音検知フラグを作成して出力する音検知部とを備える。
この構成によると、時間−周波数領域ごとに、抽出音を検出して利用者に知らせることができる。例えば、本発明の雑音除去装置を車両検知装置に組み込んだ場合には、抽出音としてエンジン音を検出して、運転者に車両の接近を知らせることができる。
好ましくは、前記周波数分析部は、マイクロホンごとに集音される複数の前記混合音を受付けて、前記混合音ごとに周波数信号を求め、前記抽出音判定部は、前記混合音の各々について前記抽出音の判定を行い、前記音検知部は、同じ時刻において、少なくとも1つの前記混合音の周波数信号に含まれる周波数信号が前記抽出音の周波数信号と判定されたときに、抽出音検知フラグを作成して出力する。
この構成によると、雑音の影響で、1つのマイクロホンで集音した混合音からは抽出音が検出できなくても、他のマイクロホンで抽出音を検出できる可能性が広がる。このため、検知ミスを少なくすることができる。例えば、本発明の雑音除去装置を車両検知装置に組み込んだ場合には、マイクロホンの位置に依存する風雑音の影響が少ない、マイクロホンで集音した混合音を利用できる。このため、抽出音としてのエンジン音を正確に検出して、運転者に車両の接近を知らせることができる。このとき、雑音の大きい混合音による悪い影響が出てくると考えられるかもしれない。しかし、本発明の特徴である、雑音の大きい時間−周波数領域では位相の時間変化が不規則になり自動的に雑音を除去できるという性質をうまく利用することで、この悪い影響を除去できている。
本発明のさらに他の局面に係る音抽出装置は、上述の音判定装置と、前記音判定装置において、前記混合音の周波数信号に含まれる周波数信号が前記抽出音の周波数信号と判定されたときに、前記抽出音の周波数信号と判定された前記周波数信号を出力する音抽出部とを備える。
この構成によると、時間−周波数領域ごとに判定された抽出音の周波数信号を利用できる。このため、例えば、本発明の雑音除去装置を音出力装置に組み込めば、雑音が除去された後のきれいな抽出音が再現できる。また、本発明の雑音除去装置を音源方向検知装置に組み込めば、雑音が除去された後の正確な音源方向を求めることができる。また、本発明の雑音除去装置を音識別装置に組み込めば、周囲に雑音が存在する場合でも正確に音識別を行うことができる。
なお、本発明は、このような特徴的な手段を備える音判定装置として実現することができるだけでなく、音判定装置に含まれる特徴的な手段をステップとする音判定方法として実現したり、音判定方法に含まれる特徴的なステップをコンピュータに実行させる音判定プログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc-Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明の音判定装置等によれば、時間−周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定することができる。特に、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を、時間−周波数領域ごと判定することができる。
例えば、本発明は、時間−周波数領域ごとに判定された音声の周波数信号を入力して、逆周波数変換により抽出音を出力する音声出力装置に適用できる。また、2以上のマイクロホンから入力された混合音の各々に対して、時間−周波数領域ごとに判定された抽出音の周波数信号を入力して、抽出音の音源方向を出力する音源方向検知装置に適用できる。さらに、時間−周波数領域ごとに判定された抽出音の周波数信号を入力して、音声認識や音識別を行う音識別装置に適用できる。さらにまた、時間−周波数領域ごとに判定された風雑音の周波数信号を入力して、パワーの大きさを出力する風音レベル判定装置に適用できる。また、時間−周波数領域ごとに判定されたタイヤ摩擦による走行音の周波数信号を入力して、パワーの大きさから車両を検知する車両検知装置に適用できる。さらに、時間−周波数領域ごとに判定されたエンジン音の周波数信号を検知して、車両の接近を知らせる車両検知装置に適用できる。さらにまた、時間−周波数領域ごとに判定されたサイレン音の周波数信号を検知して、緊急車両の接近を知らせる緊急車両検知装置等に適用できる。
本発明の特徴の1つは、入力した混合音を周波数分析した後に、分析した周波数信号の位相の時間変化が、(1/f)(fは分析周波数)で規則的に繰り返されるか否かにより、分析周波数fにおいて、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を時間−周波数領域ごとに判定することである。
ここで、図2を用いて本発明で用いる位相の定義を行う。図2(a)には、入力した混合音が示されている。横軸は時間を表しており、縦軸は振幅を表している。この例では周波数fの正弦波を用いている。また、図2(b)には、離散フーリエ変換を用いて周波数分析を行う場合の基底波形(周波数fの正弦波)の概念図が示されている。横軸と縦軸は図2(a)と同じである。この基底波形と入力した混合音との畳み込み処理を行うことで周波数信号(位相)を求める。この例では、基底波形を時間軸方向に移動させながら入力した混合音と畳み込み処理を行うことで、時刻ごとの周波数信号(位相)を求めている。この処理で求めた結果を図2(c)に示す。横軸は時間を表しており縦軸は位相を表している。この例では、入力した混合音は周波数fの正弦波であるため、周波数fでの位相のパターンは、1/fの時刻の周期で規則的に繰り返されている。
本発明では、図2に示すように、基底波形を時間軸方向に移動させながら求めた位相を、本発明における「位相」の定義とする。
図3Aおよび図3Bは、本発明の特徴を説明する概念図である。図3Aは、バイク音(エンジン音)を周波数fで周波数分析した結果を模式的に示した図である。図3Bは、暗騒音を周波数fで周波数分析した結果を模式的に示した図である。両図ともに横軸は時間軸であり縦軸は周波数軸である。図3Aに示すように、周波数の時間変化などの影響により周波数信号の振幅(パワー)の大きさは変化するものの、周波数信号の位相は、規則的に1/fの時間間隔(fは分析周波数)で等角速度で0〜2π(ラジアン)まで変化する。例えば、100Hzの周波数信号では、位相は10ms間隔の間に2π(ラジアン)回転して、200Hzの周波数信号では、位相は5ms間隔の間に2π(ラジアン)回転する。一方、図3Bに示すように、暗騒音などの音色のない音における周波数信号の位相の時間変化は不規則になる。また、混合音が原因で歪んだ部分においても位相の時間変化は乱れて不規則になる。このように、周波数信号の位相の時間変化が規則的な、時間−周波数領域の周波数信号を判定することで、風雑音、雨音、暗騒音などの音色のない音と区別して、エンジン音、サイレン音、音声などの音色のある音の周波数信号を判定することができる。または、音色のある音と区別して、音色のない音の周波数信号を判定することができる。
ここで、音色のある音と音色のない音との音源の性質の違いと位相との関係について説明する。
図4A(a)は、周波数fの、音色のある音(エンジン音、サイレン音、音声、正弦波)の位相を模式的に示した図である。図4A(b)は、周波数fの基準波形を示す図である。図4A(c)は、周波数fの、音色のある音の優勢な音波形を示す図である。図4A(d)は、基準波形からの位相差を示す図である。図4A(c)に示した音波形の、図4A(b)に示した基準波形からの位相差を示す図である。
図4B(a)は、周波数fの、音色のない音(暗騒音、風雑音、雨音、白色雑音)の位相を模式的に示した図である。図4B(b)は、周波数fの基準波形を示す図である。図4B(c)は、周波数fの、音色のない音の音波形(音A、音B、音C)を示す図である。図4B(d)は、基準波形からの位相差を示す図である。図4B(c)に示した音波形の、図4B(b)に示した基準波形からの位相差を示す図である。
音色のある音(エンジン音、サイレン音、音声、正弦波)は、図4A(a)と図4A(c)とに示すように、周波数fにおいて、周波数fの優勢な正弦波から構成される音波形になる。一方、音色のない音(暗騒音、風雑音、雨音、白色雑音)は、図4B(a)と図4B(c)とに示すように、周波数fにおいて、周波数fの複数の正弦波が混合された音波形になる。
ここで、音色のない音の場合には、複数の音波形を示している理由を説明する。
つまり、暗騒音は、短い時間区間(数百ミリ秒以下のオーダー)の中で、複数の重なった遠方に存在する音(同じ周波数の音)で構成されるためである。
また、空気の乱流により、風雑音は発生するが、乱流は、短い時間区間(数百ミリ秒以下のオーダー)の中で、複数の重なった渦巻き音(同じ周波数帯域の音)で構成されるためである。
また、雨音は、短い時間間隔(数百ミリ秒以下のオーダー)の中で、複数の重なった雨粒の音(同じ周波数帯域の音)で構成されるためである。
図4A(c)と図4B(c)において、横軸は時間を表しており縦軸は振幅を表している。
はじめに、図4A(b)、図4A(c)、図4A(d)を用いて、音色のある音の位相について検討を行う。ここでは、図4A(b)に示すような周波数fの正弦波を基準波形として準備する。横軸は時間を表しており縦軸は振幅を表している。この基準波形は、図2(b)に示された離散フーリエ変換の基底波形を時間軸方向に移動させずに固定させたものに対応する。図4A(c)は、音色のある音の周波数fにおける優勢な音波形である。図4A(d)には、図4A(b)に示された基準波形と図4A(c)に示された音波形との位相差が示されている。図4A(d)からわかるように、音色のある音の場合は、図4A(b)に示された基準波形と図4A(c)に示された優勢な音波形との位相差の時間的なゆらぎは小さくなる。ここで、本発明で定義した位相との関係を考えると、図4A(d)に示された位相差に、図2(b)に示された基底波形が時間軸方向にt移動したときの位相増加分2πftを加えた値が本発明で定義した位相になる。音色のある音では、図4A(d)に示された位相差はほぼ一定の値をもつ。このため、この位相差に2πftを加えて求められる本発明における位相のパターンは、図2(c)に示すように1/fの時刻の周期で規則的に繰り返されることになる。
次に、図4B(b)、図4B(c)、図4B(d)を用いて、音色のない音の位相について検討を行う。ここでも、図4A(b)と同様に、図4B(b)に示すような周波数fの正弦波を基準波形として準備する。横軸は時間を表しており縦軸は振幅を表している。図4B(c)は、音色のない音の周波数fにおける、混合された複数の正弦波の音波形(音A、音B、音C)である。これらの音波形は数百ミリ秒以下のオーダーの短い時間間隔で混合されている。図4B(d)には、図4B(b)に示された基準波形と図4B(c)に示された複数の音が混合された音波形との位相差が示されている。図4B(d)のはじめの時刻では、音Aの振幅が音Bと音Cの振幅よりも大きいために音Aの位相差が現れている。また、真ん中の時刻では、音Bの振幅が音Aと音Cの振幅よりも大きいために音Bの位相差が現れている。また、終わりの時刻では、音Cの振幅が音Aと音Bの振幅よりも大きいために音Cの位相差が現れている。このように、音色のない音の場合は、数百ミリ秒以下のオーダーの短い時間間隔において、図4B(b)に示された基準波形と図4B(c)に示された複数の音が混合された音波形との位相差の時間的なゆらぎは大きくなる。ここで、本発明で定義した位相との関係を考えると、図4B(d)に示された位相差に、図2(b)に示された基底波形が時間軸方向にt移動したときの位相増加分2πftを加えた値が本発明で定義した位相である。このため、音色のない音では、本発明における位相のパターンは、1/fの時刻の周期で規則的に繰り返されることはない。
このように、図4A(d)又は図4B(d)に示すような基準波形からの位相差を用いて、基準波形からの位相差の時間的なゆらぎの大小により位相距離を求めて、音色のある音と音色のない音の判定を行うことができる。また、図2(c)に示すような基底波形を時間軸方向に移動させながら求めた本発明における位相を用いて、位相が1/f(fは分析周波数)の時刻での周期的に繰り返される時間波形からのずれにより位相距離を求めて、音色のある音と音色のない音の判定を行うことができる。これらのいずれの方法も、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で表したときの位相間の距離である位相距離を用いて、音色のある音と音色のない音の判定を行う具体的な方法を示したものである。
さらに、サイレン音のように機械的で正弦波に近い音と、バイク音(エンジン音)のように物理機構的な音とは、位相の時間変化の規則的な度合いが異なると考えられる。このため位相の時間変化の規則的な度合いを不等号で表すと、
また、本発明では、位相距離を用いることにより、雑音と抽出音との周波数信号のパワーの大小に関係なく抽出音の周波数信号を判定することができる。例えば、ある時間−周波数領域での雑音の周波数信号のパワーが大きい場合でも、位相の規則性を用いることで、この雑音よりもパワーが大きい時間−周波数領域の抽出音の周波数信号を判定できることはもちろん、この雑音よりもパワーが小さい時間−周波数領域の抽出音の周波数信号も判定することができる。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図5は、本発明の実施の形態1における雑音除去装置の外観図である。雑音除去装置100は、周波数分析部と、抽出音判定部と、音抽出部と備えるものであり、コンピュータを構成する1つの部品であるCPU上で、これらの処理部の機能を実現するためのプログラムを実行することにより実現される。なお、各種中間データや実行結果データ等は、メモリに記憶される。
図5は、本発明の実施の形態1における雑音除去装置の外観図である。雑音除去装置100は、周波数分析部と、抽出音判定部と、音抽出部と備えるものであり、コンピュータを構成する1つの部品であるCPU上で、これらの処理部の機能を実現するためのプログラムを実行することにより実現される。なお、各種中間データや実行結果データ等は、メモリに記憶される。
図6及び図7は、本発明の実施の形態1における雑音除去装置の構成を示すブロック図である。
図6において、雑音除去装置100は、FFT分析部2402(周波数分析部)と、雑音除去処理部101(抽出音判定部と音抽出部とから構成される)とを含む。FFT分析部2402および雑音除去処理部101は、コンピュータ上で各処理部の機能を実現するためのプログラムを実行することにより実現される。
FFT分析部2402は、入力された混合音2401に対して高速フーリエ変換処理を施し、混合音2401の周波数信号を求める処理部である。このとき、混合音2401の周波数信号は、混合音2401に所定の時間窓幅の窓関数を掛け合わせて、窓関数が掛け合わされた後の混合音2401から求められる。以下では、FFT分析部2402で求められた周波数信号の周波数帯域の個数をMとして、それらの周波数帯域を指定する番号を記号j(j=1〜M)で表すこととする。
雑音除去処理部101は、抽出音判定部101(j)(j=1〜M)と、音抽出部202(j)(j=1〜M)とを含む。雑音除去処理部101は、FFT分析部2402が求めた周波数信号に対して、周波数帯域j(j=1〜M)ごとに、抽出音判定部101(j)(j=1〜M)と音抽出部202(j)(j=1〜M)とを用いて混合音から抽出音の周波数信号を取り出すことで雑音の除去を行う処理部である。
抽出音判定部101(j)(j=1〜M)は、所定の時間幅に含まれる1/f(fは分析周波数)の時間間隔の時刻から選択される複数の時刻の周波数信号を用いて、分析の対象とする時刻の周波数信号と、分析の対象とする時刻とは異なる複数の時刻における周波数信号との位相距離を求める。このとき、位相距離を求めるときに用いた周波数信号の数は第1のしきい値以上の数から構成されている。また、位相距離は、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で示したときの、周波数信号の位相の距離である。また、所定の時間幅の時間長は、窓関数の時間窓幅の、2〜4倍の長さに設定されている。そして、位相距離が第2のしきい値以下になる分析の対象とする時刻の周波数信号を抽出音の周波数信号2408と判定する。
最後に、音抽出部202(j)(j=1〜M)は、抽出音判定部101(j)(j=1〜M)が判定した抽出音の周波数信号2408を取り出すことで混合音から雑音の除去を行う。
これらの処理を、所定の時間幅の時刻を移動させながら行うことにより、時間−周波数領域ごとに抽出音の周波数信号2408を取り出すことができる。
図7に、抽出音判定部101(j)(j=1〜M)の構成を示すブロック図を示す。
抽出音判定部101(j)(j=1〜M)は、周波数信号選択部200(j)(j=1〜M)と、位相距離判定部201(j)(j=1〜M)とから構成される。
周波数信号選択部200(j)(j=1〜M)は、位相距離を求める際に用いる周波数信号として、所定の時間幅の周波数信号から第1のしきい値以上の数から構成される周波数信号を選択する処理部である。このとき、所定の時間幅の時間長は、窓関数の時間窓幅の、2〜4倍の長さに設定されている。位相距離判定部201(j)(j=1〜M)は、周波数信号選択部200(j)(j=1〜M)が選択した周波数信号の位相を用いて位相距離を計算して、位相距離が第2のしきい値以下になる周波数信号を抽出音の周波数信号2408と判定する処理部である。
次に、以上のように構成された雑音除去装置100の動作について説明する。
以下では、j番目の周波数帯域について説明を行う。他の周波数帯域についても同様の処理が行なわれる。ここでは、周波数帯域の中心周波数と分析周波数(位相距離を求めるψ´(t)=mod2π(ψ(t)−2πft)における周波数f)とが一致する場合を例にして説明を行う。この場合、周波数fに抽出音が存在するか否かを判定することができる。他の方法として、周波数帯域を含む複数の周波数を分析周波数として抽出音の判定を行ってもよい。この場合は、中心周波数の周辺の周波数に抽出音が存在するか否かを判定することができる。
図8及び図9は、雑音除去装置100の動作手順を示すフローチャートである。
ここでは、混合音2401として、音声(有声音)と白色雑音との混合音(コンピュータ上で混合して作成したもの)を用いた場合を一例として説明を行う。この例では、混合音2401から白色雑音(音色のない音)を除去して音声(音色のある音)の周波数信号を抽出することを目的とする。
図10に、音声と白色雑音との混合音2401のスペクトログラムの一例を示す。横軸は時間軸であり縦軸は周波数軸である。色の濃度は周波数信号のパワーの大きさを表しており、濃い色は周波数信号のパワーが大きいことを示している。ここでは、50Hz〜1000Hzの周波数範囲の0秒〜5秒のスペクトログラムが表示されている。ここでの表示には、周波数信号の位相成分の表示は省略されている。
図11に、図10に示した混合音2401を作成するときに用いた音声のスペクトログラムを示す。表示の方法は図10と同様であるため、その詳細な説明は繰り返さない。
図10と図11とから、混合音2401において、音声の周波数信号のパワーが大きい部分においてのみ音声を観測することができる。このとき音声の調波構造が部分的に失われていることがわかる。
初めに、FFT分析部2402は、混合音2401を受付けて、混合音2401に対して高速フーリエ変換処理を施すことにより、混合音2401の周波数信号を求める(ステップS300)。この例では、高速フーリエ変換処理により複素空間上での周波数信号を求めている。この例における高速フーリエ変換処理の条件としては、サンプリング周波数=16000Hzでサンプリングされた混合音2401を時間窓幅ΔT=64ms(1024pt)のハニング窓を用いることで処理している。また、時間軸方向には1pt(0.0625ms)の時間シフトを行いながら各時刻における周波数信号を求めている。この処理結果における周波数信号のパワーの大きさのみを表示したものが図10である。
次に、雑音除去処理部101は、FFT分析部2402が求めた周波数信号に対して、周波数帯域jごとに、抽出音判定部101(j)を用いて混合音から抽出音の周波数信号を時間−周波数領域ごとに判定する(ステップS301(j))。そして、音抽出部202(j)を用いて抽出音判定部101(j)が判定した抽出音の周波数信号を取り出すことで雑音の除去を行う(ステップS302(j))。この後の説明はj番目の周波数帯域に関してのみ行う。他の周波数帯域に対する処理も同様である。この例では、j番目の周波数帯域の中心周波数はfである。
抽出音判定部101(j)は、窓関数(ハニング窓)の時間窓幅の2倍〜4倍の長さの所定の時間幅(ここでは3倍の192ms)における1/fの時間間隔の全ての時刻における周波数信号を用いて、分析の対象とする時刻の周波数信号と、分析の対象とする時刻とは異なる全ての時刻における周波数信号との位相距離を求める。ここでは、第1のしきい値として、所定の時間幅に含まれる1/fの時間間隔の周波数信号の数の30%の値を用いており、この例では、所定の時間幅に含まれる1/fの時間間隔の周波数信号の数が第1のしきい値以上である場合に、当該所定の時間幅に含まれる全ての周波数信号を用いて位相距離を求めている。そして、位相距離が第2のしきい値以下である分析の対象とする時刻の周波数信号を抽出音の周波数信号2408と判定する(ステップS301(j))。最後に、音抽出部202(j)は、抽出音判定部101(j)が抽出音の周波数信号と判定した周波数信号を取り出すことで雑音を除去する(ステップS302(j))。ここでは、周波数f=500Hzの場合を一例として説明を行う。
図12(b)には、図12(a)に示された混合音2401における、周波数f=500Hzにおける周波数信号が模式的に示されている。図12(a)は、図10と同じものであり、図12(b)において、水平軸は時間軸であり垂直平面の2軸は周波数信号の実部と虚部とを表している。この例では周波数f=500Hzであるので1/f=2msとなる。
初めに、周波数信号選択部200(j)は、第1のしきい値以上である、所定の時間幅(窓関数の時間窓幅の3倍の長さ)における1/fの時間間隔の全ての周波数信号を選択する(ステップS400(j))。このことは、位相距離を求めるために選択された周波数信号の数が少ない場合には、位相の時間変化の規則性を判定することが困難になるからである。図12(b)には、1/fの時間間隔の時刻から選択された周波数信号の位置が白丸印で示されている。ここでは、図12(b)に示すように、1/f=2msの時間間隔の時刻から全ての時刻の周波数信号が選択される。
ここで、図13Aと図13Bとに、周波数信号の他の選択方法を示す。表示の方法は図12(b)と同じであるため、その詳細な説明は繰り返さない。図13Aには、1/fの時間間隔の時刻から、1/f×N(N=2)の時間間隔の時刻の周波数信号を選択する一例が示されている。また、図13Bには、1/fの時間間隔の時刻から、ランダムに選択した時刻の周波数信号を選択する一例が示されている。すなわち、周波数信号を選択する方法は、1/fの時間間隔の時刻から得られる周波数信号を選択するための、いかなる方法を用いてもよい。ただし、選択される周波数信号の数は第1のしきい値以上である必要がある。
ここで、周波数信号選択部200(j)は、位相距離判定部201(j)が位相距離の計算に用いる周波数信号の時間範囲(所定の時間幅)も設定するが、時間範囲の設定方法の説明については、位相距離判定部201(j)の説明と合わせて以下で行う。
次に、位相距離判定部201(j)は、周波数信号選択部200(j)が選択した全ての周波数信号を用いて位相距離を計算する(ステップS401(j))。ここでは、位相距離としてパワーで正規化された周波数信号同士の相関値の逆数を用いる。
図14に、位相距離の求め方の一例を示す。図14の表示の方法において、図12(b)と共通する部分の説明は省略する。図14において、分析の対象とする時刻の周波数信号を黒丸印で示して、分析の対象とする時刻とは異なる時刻における選択された周波数信号を白丸印で示す。
この例では、分析の対象とする時刻(黒丸印の時刻)から±96ms以内の時刻(所定の時間幅は192ms)に存在する1/f(=2ms)の時間間隔の時刻から、分析の対象とする時刻を除いた時刻(白丸印の時刻)の周波数信号を、分析の対象の周波数信号との位相距離を求める周波数信号にしている。ここでの所定の時間幅の時間長は、抽出音である音声の特徴から実験的に求めた値である。
ここで、位相距離の計算方法を以下に説明する。この例では、1/fの時間間隔の周波数信号を用いて位相距離の計算を行う。以下では、周波数信号の実部を
ここで位相距離を求めるため、周波数信号のパワーの大きさで正規化された周波数信号を求める。周波数信号の実部をパワーで正規化した値を
位相距離Sを、
ここで、他の位相距離Sの算出方法を以下に示す。相関値の計算において、総和した周波数信号の数で正規化する方法である
なお、位相の値はトーラス状に繋がっていること(0(ラジアン)と2π(ラジアン)は同じであること)を考慮して位相距離を求めてもよい。例えば、数10に示した位相の差分誤差を用いて位相距離を計算する場合に、右辺の部分で、
次に、位相距離判定部201(j)は、位相距離が第2のしきい値以下である分析の対象とする周波数信号の各々を、抽出音(音声)の周波数信号2408と判定する(ステップS402(j))。第2のしきい値は、音声と白色雑音の192msの時間幅(所定の時間幅)での位相距離に基づいて実験的に求めた値に設定してある。
これらの処理を、時間軸方向に1pt(0.0625ms)の時間シフトを行いながら求めた全ての時刻の周波数信号を分析の対象とする周波数信号として行う。
最後に、音抽出部202(j)は、抽出音判定部101(j)が抽出音の周波数信号2408と判定した周波数信号を取り出すことで雑音を除去する。
図15に、図10に示した混合音2401から抽出された音声のスペクトログラムの一例を示す。表示の方法は図10と同様であるため、その詳細な説明は繰り返さない。音声の調波構造が部分的に失われている混合音から音声の周波数信号が抽出されていることがわかる。
ここで、雑音として除去される周波数信号の位相について考察を加える。ここでは、第2のしきい値をπ/2(ラジアン)に設定している。図16は、位相距離を求める所定の時間幅における、混合音の周波数信号の位相を模式的に示したものである。横軸は時間軸であり縦軸は位相軸である。黒丸印は分析の対象とする周波数信号の位相を示し、白丸印は分析の対象とする周波数信号との間で位相距離を求める周波数信号の位相を示す。ここでは1/fの時間間隔での周波数信号の位相が示されている。図16(a)に示すように、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)での位相の距離を求めることは、分析の対象とする周波数信号の位相ψ(t)を通り、時刻tに対して2πfの傾きをもつ直線(1/fの時間間隔では時間軸に水平な直線になる)とのψ(t)での距離を求めることと同じになる。図16(a)では、この直線の近傍に周波数信号の位相が集まっているため、第1のしきい値以上の数の周波数信号との位相距離は第2のしきい値以下になり、分析の対象の周波数信号は、抽出音の周波数信号と判定される。また、図16(b)のように、分析の対象とする周波数信号の位相を通り、時間に対して2πfの傾きをもつ直線の近傍に、周波数信号がほとんど存在しない場合には、第1のしきい値以上の数の周波数信号との位相距離が第2のしきい値より大きくなるため、抽出音の周波数信号として判定されることはなく雑音として除去される。
かかる構成によれば、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析する周波数)での位相の距離を用いることにより、時間−周波数領域ごとに、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音との区別ができる。また、音色のある音(もしくは音色のない音)の周波数信号を判定することができる。
また、1/f(fは分析周波数)の時間間隔の周波数信号では、ψ´(t)=mod2π(ψ(t)−2πft)=ψ(t)となり、位相距離の計算を、ψ(t)を用いた簡単な計算で行うことができる。
ここで、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)を用いた位相の距離について説明する。図3Aを用いて説明したように音色のある音の周波数信号(周波数fの成分をもつとする)は、所定の時間幅において位相は規則的に等角速度で、かつ1/fの時間間隔の間に2π(ラジアン)回転する。
図17(a)に、周波数分析を行うときに、DFT(Discrete Fourier Transform)の計算で抽出音に畳み込む信号の波形を示す。実部はコサイン波形で虚部はマイナスのサイン波形である。ここでは、周波数fの信号について分析を行う。抽出音が周波数fの正弦波であるとき、周波数分析を行ったときの周波数信号の位相ψ(t)の時間変化は、図17(b)に示すように反時計回りになる。このとき、横軸は実部を表しており、縦軸は虚部を表している。反時計回りを正とすると、位相ψ(t)は1/fの時間で2π(ラジアン)増加する。また、位相ψ(t)は時刻tに対して2πfの傾きで変化するとも言える。図18を用いて、位相ψ(t)の時間変化が反時計回りになる仕組みについて説明する。図18(a)に、抽出音(周波数fの正弦波)を示す。ここでは抽出音の振幅の大きさ(パワーの大きさ)を1に正規化している。図18(b)に、周波数分析を行うときにDFTの計算で抽出音に畳み込む信号の波形(周波数f)を示す。実線は実部のコサイン波形を破線は虚部のマイナスのサイン波形を示している。図18(c)に、図18(a)の抽出音と図18(b)の波形をDFTの計算で畳み込んだときの値の符号を示す。図18(c)より、時刻が(t1〜t2)のとき図17(b)の第1象限に、時刻が(t2〜t3)の時に図17(b)の第2象限に、時刻が(t3〜t4)のとき図17(b)の第3象限に、時刻が(t4〜t5)のとき図17(b)の第4象限に位相が変化することがわかる。このことから、位相ψ(t)の時間変化が反時計回りになることがわかる。
ここで補足であるが、図19(a)のように、横軸を虚部にして縦軸を実部にすると位相ψ(t)の増減が反転する。反時計回りを正とすると、位相ψ(t)は1/fの時間で2π(ラジアン)減少する。つまり、位相ψ(t)は時刻tに対して(−2πf)の傾きで変化することが起こるが、ここでは図17(b)の軸の取り方に合うように、位相が補正されているとして説明を行う。また、図19(b)のように、周波数分析を行うときに畳み込む波形を、実部をコサイン波形に虚部をサイン波形にすると位相ψ(t)の増減が反転して、反時計回りを正とすると、位相ψ(t)は1/fの時間で2π(ラジアン)減少する。つまり、位相ψ(t)は時刻tに対して(−2πf)の傾きで変化することが起こるが、ここでは、図17(a)の周波数分析の結果に合うように実部と虚部の符号が補正されていることを前提として説明を行う。
このことから、音色のある音の周波数信号の位相ψ(t)は時刻tに対して2πfの傾きで変化するため、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析する周波数)での位相の距離は小さくなる。
(実施の形態1の変形例1)
次に、実施の形態1に示した雑音除去装置の変形例1について説明する。
次に、実施の形態1に示した雑音除去装置の変形例1について説明する。
ここでは、混合音2401として、100Hzの正弦波と200Hzの正弦波と300Hzの正弦波との混合音を用いた場合を一例として説明を行う。この例では、混合音中の200Hzの正弦波(抽出音)において、100Hzの正弦波と300Hzの正弦波からの周波数もれにより歪んだ周波数信号を除去することを目的とする。周波数もれにより歪んだ周波数信号を正確に除去できれば、例えば、混合音に含まれるエンジン音の周波数構造を正確に分析することができて、ドップラーシフトなどにより接近車両を検知することができる。また、混合音に含まれる音声のホルマント構造を正確に分析することもできる。
図20は、変形例1に係る雑音除去装置の構成を示すブロック図である。
図20において、図6と同じ構成要素については同じ参照符号を用い、その詳細な説明は繰り返さない。この例では、FFT分析部2402の代わりに、DFT(Discrete Fourier Transform)分析部1100(周波数分析部)を用いている点が実施の形態1に係る雑音除去装置と異なるが、その他の処理部については同じものを用いることにする。雑音除去装置110の動作手順を示すフローチャートは、実施の形態1と同じであり図8及び図9に示されている。
図21に、100Hzの正弦波と200Hzの正弦波と300Hzの正弦波の混合音2401を用いた場合の、周波数200Hzにおける周波数信号の時間波形の一例を示す。図21(a)には周波数200Hzにおける周波数信号の実部の時間波形が、図21(b)には周波数200Hzにおける周波数信号の虚部の時間波形が示されている。横軸は時間軸であり縦軸は周波数信号の振幅を表す。ここでは50msの時間長の時間波形が示されている。
図22に、図21に示した混合音2401を作成するときに用いた200Hzの正弦波の、周波数200Hzにおける周波数信号の時間波形を示す。表示の方法は図21と同じであるため、その詳細な説明は繰り返さない。
図21と図22とから、混合音2401において、200Hzの正弦波が、100Hzの正弦波と300Hzの正弦波からの周波数もれの影響により歪んでいる部分が存在することがわかる。
初めに、DFT分析部1100は、混合音2401を受付けて、混合音2401に対して離散フーリエ変換処理を施し、混合音2401の中心周波数200Hzの周波数信号を求める(ステップS300)。この例では分析周波数も200Hzとしている。ここでは離散フーリエ変換処理の条件としては、サンプリング周波数=16000Hzの混合音2401に対して時間窓幅ΔT=5ms(80pt)のハニング窓を用いることで処理している。また、時間軸方向には1pt(0.0625ms)の時間シフトを行いながら各時刻における周波数信号を求めている。この処理結果における周波数信号の時間波形を表示したものが図21である。
次に、雑音除去処理部101は、DFT分析部1100が求めた周波数信号に対して、周波数帯域j(j=1〜M)ごとに、抽出音判定部101(j)(j=1〜M)を用いて混合音から抽出音の周波数信号を時間−周波数領域ごとに判定する(ステップS301(j)(j=1〜M))。音抽出部202(j)(j=1〜M)を用いて抽出音判定部101(j)が判定した抽出音の周波数信号を取り出すことで雑音の除去を行う(ステップS302(j)(j=1〜M))。この例では、M=1であり、j=1番目の周波数帯域の中心周波数はf=200Hz(分析周波数と同じ値)である。以下、j=1の場合について説明するが、jが他の値の場合についても同様の処理が行われる。
抽出音判定部101(1)は、所定の時間幅(100ms)における1/f(fは分析周波数)の時間間隔の全ての時刻における周波数信号を用いて、分析の対象とする時刻の周波数信号と、分析の対象とする時刻とは異なる全ての時刻における周波数信号との位相距離を求める。ここでは、所定の時間幅に含まれる1/fの時間間隔の周波数信号の数が第1のしきい値以上である場合に、当該所定の時間幅に含まれる全ての周波数信号を用いて位相距離を求めている。そして、位相距離が第2のしきい値以下である分析の対象とする時刻の周波数信号を抽出音の周波数信号2408と判定する(ステップS301(1))。
最後に、音抽出部202(1)は、抽出音判定部101(1)が抽出音の周波数信号2408と判定した周波数信号を取り出すことで雑音を除去する(ステップS302(1))。
次に、ステップS301(1)の詳細な処理について説明する。初めに、周波数信号選択部200(1)が、実施の形態1に示した例と同様にして、所定の時間幅における1/f(f=200Hz)の時間間隔の時刻から第1のしきい値以上の数の周波数信号を選択する(ステップS400(1))。
ここで、実施の形態1に示した例と異なる部分は、位相距離判定部201(1)が位相距離の計算に用いる周波数信号の時間範囲(所定の時間幅)の長さである。実施の形態1に示した例では、時間範囲は192msであり、周波数信号を求めるときに用いた時間窓の幅ΔTは、64msであった。この例においては、時間範囲を100msとしており、周波数信号を求めるときに用いた時間窓の幅ΔTは、5msである。
次に、位相距離判定部201(1)は、周波数信号選択部200(1)が選択した周波数信号の位相を用いて位相距離を計算する(ステップS401(1))。ここでの処理は実施の形態1に示した処理と同じであるので、その詳細な説明は繰り返さない。位相距離判定部201(1)は、位相距離Sが第2のしきい値以下である分析の対象とする時刻の周波数信号を抽出音の周波数信号2408と判定する(ステップS402(1))。これにより、200Hzの正弦波で歪んでいない部分の周波数信号を判定することができる。
最後に、音抽出部202(1)は、抽出音判定部101(1)が抽出音の周波数信号2408と判定した周波数信号を取り出すことで雑音を除去する(ステップS302(1))。ここでの処理は実施の形態1に示した例の処理と同じであるので、その詳細な説明は繰り返さない。
図23に、図21に示した混合音2401から抽出された200Hzにおける周波数信号の時間波形を示す。表示方法において図21と共通する部分の説明は省略する。図23において、斜線部分の領域は、周波数もれにより歪んだ周波数信号であるため除去された部分である。図23と、図21及び図22とを比較すると、混合音2401から、100Hzの正弦波からの周波数もれと300Hzの正弦波からの周波数もれとにより歪んだ周波数信号が除去されて、200Hzの正弦波の周波数信号が抽出されていることがわかる。
実施の形態1および実施の形態1の変形例1にかかる構成によれば、分析の対象とする時刻における周波数信号と分析の対象とする時刻をはさみ、かつΔTの時間間隔(周波数信号を求めるときの時間窓の幅)よりも離れた時刻を含む複数の時刻の周波数信号との位相距離を用いることで、時間分解能(ΔT)を細かくしたときの影響による周辺の周波数からの周波数もれにより歪んだ周波数信号を除去することができるという効果がある。
(実施の形態1の変形例2)
次に、実施の形態1に示した雑音除去装置の変形例2について説明する。
次に、実施の形態1に示した雑音除去装置の変形例2について説明する。
変形例2に係る雑音除去装置は、図6及び図7を参照して説明した実施の形態1に係る雑音除去装置と同様の構成を有する。ただし、雑音除去処理部101が実行する処理が異なる。
抽出音判定部101(j)において、位相距離判定部201(j)は、周波数信号選択部200(j)が選択した1/fの時間間隔の時刻の周波数信号を用いて、位相のヒストグラムを作成する。位相距離判定部201(j)は、作成したヒストグラムから、位相距離が第2のしきい値以下でありかつ出現頻度が第1のしきい値以上である周波数信号を、抽出音の周波数信号2408と判定する。
最後に、音抽出部202(j)は、位相距離判定部201(j)が判定した抽出音の周波数信号2408を取り出すことで雑音を除去する。
次に、以上のように構成された雑音除去装置100の動作について説明する。雑音除去装置100の動作手順を示すフローチャートは、実施の形態1と同様であり、図8及び図9に示されている。
雑音除去処理部101は、FFT分析部2402(周波数分析部)が求めた周波数信号に対して、周波数帯域j(j=1〜M)ごとに抽出音判定部101(j)(j=1〜M)を用いて抽出音の周波数信号を判定する(ステップS301(j)(j=1〜M))。この後の説明は、j番目の周波数帯域に関してのみ行う。他の周波数帯域に対する処理も同様である。この例では、j番目の周波数帯域の中心周波数はfである。
抽出音判定部101(j)は、周波数信号選択部200(j)が選択した、所定の時間幅(窓関数の時間窓幅の3倍の長さ)における、1/fの時間間隔の時刻の周波数信号を用いて位相のヒストグラムを作成する。そして、位相距離が第2のしきい値以下でありかつ出現頻度が第1のしきい値以上である周波数信号を抽出音の周波数信号2408と判定する(ステップS301(j))。
位相距離判定部201(j)は、周波数信号選択部200(j)が選択した周波数信号を用いて、上記周波数信号の位相のヒストグラムを作成して位相距離を判定する(ステップS401(j))。以下、ヒストグラムを求める方法について説明する。
周波数信号選択部200(j)が選択した周波数信号を、数2、数3で表すことにする。ここで、以下の式を用いて周波数信号の位相を求める。
図24に、周波数信号の位相のヒストグラムを作成する方法の一例を示す。ここでは、位相区間がΔψ(i)(i=1〜4)で、位相が時間に対して2πf(fは分析周波数)の傾きで変化する帯領域ごとの、所定の時間幅における周波数信号の出現頻度を求めることでヒストグラムを作成する。図24の斜線で示されている部分はΔψ(1)の領域である。ここでは位相を0〜2π(ラジアン)の間に制限して表現しているために、とびとびの領域になっている。ここで、Δψ(i)(i=1〜4)ごとにそれらの領域に含まれる周波数信号の数をカウントすることでヒストグラムを作成することができる。
図25に、周波数信号選択部200(j)が選択した周波数信号と、その周波数信号の位相のヒストグラムの一例を示す。ここでは、図24のヒストグラムよりも細かいΔψ(i)(i=1〜L)で分析している。
図25(a)に、選択された周波数信号を示す。図25(a)の表示の方法は、図12(b)と同じであるので、その詳細な説明は繰り返さない。この例では、選択された周波数信号の中に音声A(音色のある音)と音声B(音色のある音)と暗騒音(音色のない音)との周波数信号が含まれている。
図25(b)に、周波数信号の位相のヒストグラムの一例を模式的に示す。音声Aの周波数信号の集まりは類似した位相(この例ではπ/2(ラジアン)の近傍)を持ち、音声Bの周波数信号の集まりは類似した位相(この例ではπ(ラジアン)の近傍)を持つ。このため、ヒストグラムのπ/2(ラジアン)の近傍とπ(ラジアン)の近傍に山が2つできている。また、暗騒音の周波数信号は特定の位相を持たないため、ヒストグラムでは山ができていない。
そこで、位相距離判定部201(j)は、位相距離が第2のしきい値(π/4(ラジアン))以下であり、かつ出現頻度が第1のしきい値(所定の時間幅に含まれる1/fの時間間隔の全ての周波数信号の数の30%)以上である周波数信号を、抽出音の周波数信号2408と判定する。この例では、π/2(ラジアン)の近傍の周波数信号とπ(ラジアン)近傍の周波数信号とが抽出音の周波数信号2408に判定される。このとき、π/2(ラジアン)近傍の周波数信号とπ(ラジアン)近傍の周波数信号との間の位相距離はπ/4(ラジアン)(第3のしきい値)以上になる。このため、これらの2つの山の周波数信号の集まりは異なる種類の抽出音として判定される。すなわち、音声Aと音声Bとを区別して2つの抽出音の周波数信号として判定される。
最後に、音抽出部202(j)は、位相距離判定部201(j)が判定した、異なる種類の抽出音の周波数信号を各々取り出すことで雑音を除去することができる(ステップS402(j))。
かかる構成によれば、抽出音判定部は、第1のしきい値以上の数から構成され、かつ周波数信号間の位相の類似度が第2のしきい値以下である周波数信号の集まりを複数作成する。また、抽出音判定部は、周波数信号の集まり同士の位相距離が第3のしきい値以上になる周波数信号の集まり同士を異なる種類の抽出音と判定する。これらの処理により、同じ時間−周波数領域に複数の種類の抽出音がある場合にそれらを区別して判定することができる。例えば、複数の車両のエンジン音を区別して判定できる。このため、車両検知装置に本発明の雑音除去装置を適用した場合には、運転者に複数の異なる車両が存在していることを知らせることができ、運転者は安全に運転できる。また、複数の人の音声を区別して判定できる。このため、音声抽出装置に本発明の雑音除去装置を適用した場合には、複数の人の音声を分離して聞かせることができる。
本発明の雑音除去装置を、例えば、音声出力装置に組み込めば、混合音から時間−周波数領域ごとに音声の周波数信号を判定した後に、逆周波数変換を行うことにより、きれいな音声を出力することができる。また、本発明の雑音除去装置を、例えば、音源方向検知装置に組み込めば、雑音が除去された後の抽出音の周波数信号を抽出することにより、正確な音源の方向を求めることができる。また、本発明の雑音除去装置を、例えば、音声認識装置に組み込めば、周囲に雑音が存在する場合でも、混合音から時間−周波数領域ごとに音声の周波数信号を抽出することにより、正確に音声認識を行うことができる。また、本発明の雑音除去装置を、例えば、音識別装置に組み込めば、周囲に雑音が存在する場合でも、混合音から時間−周波数領域ごとに抽出音の周波数信号を抽出することにより、正確に音識別を行うことができる。また、本発明の雑音除去装置を、例えば、別の車両検知装置に組み込めば、混合音から時間−周波数領域ごとにエンジン音の周波数信号を抽出したときに、車両の接近を知らせることができる。また、本発明の雑音除去装置を、例えば、緊急車両検知装置に組み込めば、混合音から時間−周波数領域ごとにサイレン音の周波数信号を抽出したときに、緊急車両の接近を知らせることができる。
また、本発明で抽出音(音色のある音)と判定されなかった雑音(音色のない音)の周波数信号を抽出することを考えると、本発明の雑音除去装置を、例えば、風音レベル判定装置に組み込めば、混合音から時間−周波数領域ごとに風雑音の周波数信号を抽出して、パワーの大きさを求めて出力することができる。また、本発明の雑音除去装置を、例えば、車両検知装置に組み込めば、混合音から時間−周波数領域ごとにタイヤ摩擦による走行音の周波数信号を抽出して、パワーの大きさから車両の接近を検知することができる。
なお、周波数分析部として、コサイン変換、ウェーブレット変換、又は、バンドパスフィルタを用いてもよい。
なお、周波数分析部の窓関数として、ハミング窓、矩形窓、又は、ブラックマン窓などのいかなる窓関数を用いてもよい。
なお、窓関数として、ハミング窓、矩形窓、又は、ブラックマン窓などのいかなる窓関数を用いてもよい。
なお、周波数分析部が求めた周波数信号の中心周波数fと、位相距離を求める分析周波数f´は異なる値を用いてもよい。このとき、中心周波数fの周波数信号の中に周波数f´における周波数信号が存在する場合に、その周波数信号は抽出音の周波数信号と判定される。また、その周波数信号の詳細な周波数はf´である。
なお、実施の形態1及び変形例1において、抽出音判定部101(j)(j=1〜M)が、1/f(fは分析周波数)の時間間隔の時刻から過去と未来の時刻に対して同じ時間区間K(時間幅96ms)の中から周波数信号を選択したが、これに限定されるものではない。例えば、過去と未来の時刻に対して異なる時間区間の中から周波数信号を選択してもよい。
なお、実施の形態1及び変形例1において、位相距離を求めるときに分析の対象とする時刻の周波数信号を設定して、時刻ごとの周波数信号に対して抽出音の周波数信号であるか否かの判定を行ったが、これに限定されるものではない。例えば、複数の周波数信号間の位相距離をまとめて求めて第2のしきい値と比較することで、複数の周波数信号全体が抽出音の周波数信号であるか否かをまとめて判定することができる。この場合は、時間区間の平均的な位相の時間変化を分析することになる。このため、雑音の位相が抽出音の位相とたまたま一致した場合にも、安定して抽出音の周波数信号を判定することができる。
(実施の形態2)
次に、実施の形態2に係る雑音除去装置について説明する。実施の形態2に係る雑音除去装置は、実施の形態1に係る雑音除去装置と異なり、混合音の時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に位相を補正し、補正後の周波数信号の位相ψ´(t)を用いて抽出音の周波数信号を判定して雑音を除去する。
次に、実施の形態2に係る雑音除去装置について説明する。実施の形態2に係る雑音除去装置は、実施の形態1に係る雑音除去装置と異なり、混合音の時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に位相を補正し、補正後の周波数信号の位相ψ´(t)を用いて抽出音の周波数信号を判定して雑音を除去する。
図26及び図27は、本発明の実施の形態2における雑音除去装置の構成を示すブロック図である。
図26において、雑音除去装置1500は、FFT分析部2402(周波数分析部)と、雑音除去処理部1504において、位相補正部1501(j)(j=1〜M)と、抽出音判定部1502(j)(j=1〜M)と、音抽出部1503(j)(j=1〜M)とを含む。
FFT分析部2402は、入力された混合音2401に対して高速フーリエ変換処理を施し、混合音2401の周波数信号を求める処理部である。このとき、混合音2401の周波数信号は、混合音2401に所定の時間窓幅の窓関数を掛け合わせて、窓関数が掛け合わされた後の混合音2401から求められる。以下では、FFT分析部2402から求められた周波数帯域の個数をMとして、それらの周波数帯域を指定する番号を記号j(j=1〜M)で表すこととする。
位相補正部1501(j)(j=1〜M)は、FFT分析部2402が求めた周波数帯域jの周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に位相を補正する処理部である。
抽出音判定部1502(j)(j=1〜M)は、窓関数(ハニング窓)の時間窓幅の2倍〜4倍の長さの所定の時間幅において、分析の対象とする時刻の位相補正された周波数信号と、分析の対象とする時刻とは異なる複数の時刻における位相補正された周波数信号との位相距離を求める。このとき、位相距離を求めるときに用いた周波数信号の数は第1のしきい値以上の数から構成されている。このとき位相距離はψ´(t)を用いて計算する。そして、位相距離が第2のしきい値以下である分析の対象とする時刻の周波数信号を抽出音の周波数信号2408と判定する。
最後に、音抽出部1503(j)(j=1〜M)は、窓関数(ハニング窓)の時間窓幅の2倍〜4倍の長さの抽出音判定部1502(j)(j=1〜M)が判定した抽出音の周波数信号2408を取り出すことで混合音から雑音の除去を行う。
これらの処理を、所定の時間幅の時刻を移動させながら行うことにより、時間−周波数領域ごとに抽出音の周波数信号2408を取り出すことができる。
図27に、抽出音判定部1502(j)(j=1〜M)の構成を示すブロック図を示す。
抽出音判定部1502(j)(j=1〜M)は、周波数信号選択部1600(j)(j=1〜M)と、位相距離判定部1601(j)(j=1〜M)とから構成される。
周波数信号選択部1600(j)(j=1〜M)は、所定の時間幅において、位相補正部1501(j)(j=1〜M)が位相補正した周波数信号から、位相距離判定部1601(j)(j=1〜M)が位相距離を計算するのに用いる周波数信号を選択する処理部である。位相距離判定部1601(j)(j=1〜M)は、周波数信号選択部1600(j)(j=1〜M)が選択した周波数信号の補正された位相ψ´(t)を用いて位相距離を計算して、位相距離が第2のしきい値以下になる周波数信号を抽出音の周波数信号2408と判定する処理部である。
次に、以上のように構成された雑音除去装置1500の動作について説明する。
以下では、j番目の周波数帯域について説明を行う。他の周波数帯域についても同様の処理が行なわれる。ここでは、周波数帯域の中心周波数と分析周波数(位相距離を求めるψ´(t)=mod2π(ψ(t)−2πft)における周波数f)とが一致する場合を例にして説明を行う。この場合、周波数fに抽出音が存在するか否かを判定することができる。他の方法として、周波数帯域を含む周辺の複数の周波数を分析周波数として抽出音の判定を行ってもよい。この場合は、中心周波数の周辺の周波数に抽出音が存在するか否かを判定することができる。ここでの処理は実施の形態1と同じである。
図28及び図29は、雑音除去装置1500の動作手順を示すフローチャートである。
初めに、FFT分析部2402は、混合音2401を受付けて、混合音2401に対して高速フーリエ変換処理を施し、混合音2401の周波数信号を求める(ステップS300)。ここでは、実施の形態1と同様に周波数信号を求める。
次に、位相補正部1501(j)は、FFT分析部2402が求めた周波数帯域jの周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に位相を変換することで位相補正を行う(ステップS1700(j))。
図30〜図32を用いて、位相補正を行う方法の一例について説明する。図30(a)には、FFT分析部2402が求めた周波数信号が模式的に示されている。図30(b)には、図30(a)から求めた周波数信号の位相が模式的に示されている。図30(c)には、図30(a)から求めた周波数信号の大きさ(パワー)が模式的に示されている。図30(a)、図30(b)及び図30(c)の横軸は時間軸である。図30(a)の表示の方法は図12(b)と同様であるため、その詳細な説明は繰り返さない。図30(b)の縦軸は周波数信号の位相を表しており0〜2π(ラジアン)の間の値で示される。図30(c)の縦軸は周波数信号の大きさ(パワー)を表している。周波数信号の位相ψ(t)及び大きさ(パワー)P(t)は、周波数信号の実部を
ここで、図30(b)に示されている周波数信号の位相ψ(t)をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)の値に位相を変換することで位相補正を行う。
初めに、基準の時刻を決定する。図31(a)は、図30(b)と同じ内容のものであり、この例では、図31(a)の黒丸印の時刻t0を基準の時刻に決定している。
次に、位相を補正する周波数信号の複数の時刻を決定する。この例では、図31(a)の5個の白丸印の時刻(t1、t2、t3、t4、t5)を、位相を補正する周波数信号の時刻に決定している。
ここで、基準の時刻t0における周波数信号の位相を
次に、図32に、時刻t2における周波数信号の位相を補正する方法を示す。図32(a)と図31(a)とは同じ内容のものである。また、図32(b)は、1/f(fは分析周波数)の時間間隔で等角速度で0〜2π(ラジアン)まで規則的に変化する位相を表している。ここで、補正した後の位相を
位相補正した後の周波数信号の位相を図31(b)に×印で示す。図31(b)の表示の方法は図31(a)と同様であるため、その詳細な説明は繰り返さない。
次に、抽出音判定部1502(j)は、位相補正部1501(j)が求めた、窓関数(ハニング窓)の時間窓幅の2倍〜4倍の長さの所定の時間幅における位相補正後の周波数信号を用いて、分析の対象とする時刻の周波数信号と、分析の対象とする時刻とは異なる複数の時刻における周波数信号との位相距離を求める。このとき、位相距離を求めるときに用いた周波数信号の数は、第1のしきい値以上の数から構成されている。そして、位相距離が第2のしきい値以下になる分析の対象とする時刻の周波数信号を、抽出音の周波数信号2408と判定する(ステップS1701(j))。
初めに、周波数信号選択部1600(j)は、位相補正部1501(j)が求めた、窓関数の時間窓幅の2倍〜4倍の長さの所定の時間幅における位相補正された周波数信号から、位相距離判定部1601(j)が位相距離の計算に用いる周波数信号を選択する(ステップS1800(j))。ここでは、分析の対象とする時刻をt0として、時刻t0の周波数信号との位相距離を求める複数の周波数信号の時刻をt1、t2、t3、t4、t5とする。このとき、位相距離を求めるときに用いた周波数信号の数(t0〜t5の6個)は、第1のしきい値以上の数から構成されている。このことは、位相距離を求めるために選択された周波数信号の数が少ない場合に、位相の時間変化の規則性を判定することが困難になるからである。ここでの所定の時間幅の時間長は、抽出音の位相の時間変化の性質に基づいて決定される。
次に、位相距離判定部1601(j)は、周波数信号選択部1600(j)が選択した位相補正後の周波数信号を用いて位相距離を計算する(ステップS1801(j))。この例では、位相距離Sは位相の差分誤差であり、
なお、位相の値はトーラス状に繋がっていること(0(ラジアン)と2π(ラジアン)は同じであること)を考慮して位相距離を求めてもよい。例えば、数25に示した位相の差分誤差を用いて位相距離を計算する場合に、右辺の部分で、
この例では、周波数信号選択部1600(j)が、位相補正部1501(j)が求めた位相補正された周波数信号から、位相距離判定部1601(j)が位相距離の計算に用いる周波数信号を選択している。他の方法としては、位相補正部1501(j)が位相補正する周波数信号を予め周波数信号選択部1600(j)が選択しておいて、位相距離判定部1601(j)は、位相補正部1501(j)により位相補正された周波数信号をそのまま用いて位相距離を求めるようにしてもよい。この場合は、位相距離を計算するために用いる周波数信号のみを位相補正するため処理量を削減できる。
次に、位相距離判定部1601(j)は、位相距離が第2のしきい値以下である分析の対象とする周波数信号の各々を抽出音の周波数信号2408と判定する(ステップS1802(j))。
最後に、音抽出部1503(j)は、抽出音判定部1502(j)が抽出音の周波数信号2408と判定した周波数信号を取り出すことで雑音を除去する(ステップS1702(j))。
ここで、雑音として除去される周波数信号の位相について考察を加える。この例では、位相距離を位相の差分誤差とする。また、第2のしきい値をπ(ラジアン)に設定する。また、第3のしきい値をπ(ラジアン)に設定する。
図33は、位相距離を求める窓関数の時間窓幅の2倍〜4倍の長さ所定の時間幅(192ms)における、混合音の周波数信号の位相補正された位相ψ´(t)を模式的に示した図である。横軸は時間tを表しており、縦軸は位相補正された位相ψ´(t)を表している。黒丸印は分析の対象とする周波数信号の位相を示し、白丸印は分析の対象とする周波数信号との間で位相距離を求める周波数信号の位相を示す。図33(a)に示すように、位相距離を求めることは、分析の対象とする周波数信号の位相補正された位相を通る、時間軸に対して平行な傾きをもつ直線との位相距離を求めることと同じになる。図33(a)では、この直線の近傍に位相距離を求める周波数信号の位相補正された位相が集まっている。このため、第1のしきい値以上の数の周波数信号との位相距離は第2のしきい値(π(ラジアン))以下になり、分析の対象とする周波数信号は、抽出音の周波数信号と判定される。また、図33(b)のように、分析の対象とする周波数信号の位相補正された位相を通り、時間軸に平行な傾きをもつ直線の近傍に、位相距離を求める周波数信号がほとんど存在しない場合には、第1のしきい値以上の数の周波数信号との位相距離が第2のしきい値(π(ラジアン))より大きくなる。このため、分析の対象とする周波数信号が抽出音の周波数信号として判定されることはなく雑音として除去される。
図34は、混合音の位相を模式的に示した別の例である。横軸は時間軸であり縦軸は位相軸である。丸印で位相補正された混合音の周波数信号の位相が示されている。実線で囲まれた周波数信号同士は同じクラスタに属しており、位相距離が第2のしきい値(π(ラジアン))以下になる周波数信号の集まりである。これらのクラスタは多変量解析を用いても求めることができる。同一のクラスタの中に第1のしきい値以上の数の周波数信号が存在するクラスタの周波数信号は除去されずに抽出され、第1のしきい値より少ない数の周波数信号しか存在しないクラスタの周波数信号は雑音として除去される。図34(a)に示すように、所定の時間幅に一部分だけ雑音部分が含まれる場合に、その一部分の雑音のみを除去することができる。また、図34(b)に示すように、2種類の抽出音が存在する場合にも、所定の時間幅に対して40%以上(ここでは、7個以上)の周波数信号間での位相距離が第2のしきい値(π(ラジアン))以下になる周波数信号を抽出することで2つの抽出音を抽出することができる。このとき、これらのクラスタ間の位相距離は第3のしきい値(π(ラジアン))以上であるため、周波数信号が異なる種類の抽出音として判定される。
かかる構成によれば、1/f(fは分析周波数)の時間間隔よりも細かい時間間隔の周波数信号において、ψ´(t)=mod2π(ψ(t)−2πft)の補正を行う。これにより、1/f(fは分析周波数)の時間間隔よりも細かい時間間隔の周波数信号についての位相距離を、ψ´(t)を用いた簡単な計算で求めることができる。このため、1/fの時間間隔が大きくなる低い周波数帯域における抽出音においても、短い時間領域ごとにψ´(t)を用いた簡単な計算で、周波数信号を判定することができる。
本発明の雑音除去装置を、例えば、音声出力装置に組み込めば、混合音から時間−周波数領域ごとに音声の周波数信号を判定した後に、逆周波数変換を行うことにより、きれいな音声を出力することができる。また、本発明の雑音除去装置を、例えば、音源方向検知装置に組み込めば、雑音が除去された後の抽出音の周波数信号を抽出することにより、正確な音源の方向を求めることができる。また、本発明の雑音除去装置を、例えば、音声認識装置に組み込めば、周囲に雑音が存在する場合でも、混合音から時間−周波数領域ごとに音声の周波数信号を抽出することにより、正確に音声認識を行うことができる。また、本発明の雑音除去装置を、例えば、音識別装置に組み込めば、周囲に雑音が存在する場合でも、混合音から時間−周波数領域ごとに抽出音の周波数信号を抽出することにより、正確に音識別を行うことができる。また、本発明の雑音除去装置を、例えば、別の車両検知装置に組み込めば、混合音から時間−周波数領域ごとにエンジン音の周波数信号を抽出したときに、車両の接近を知らせることができる。また、本発明の雑音除去装置を、例えば、緊急車両検知装置に組み込めば、混合音から時間−周波数領域ごとにサイレン音の周波数信号を抽出したときに、緊急車両の接近を知らせることができる。
また、本発明で抽出音(音色のある音)と判定されなかった雑音(音色のない音)の周波数信号を抽出することを考えると、本発明の雑音除去装置を、例えば、風音レベル判定装置に組み込めば、混合音から時間−周波数領域ごとに風雑音の周波数信号を抽出して、パワーの大きさを求めて出力することができる。また、本発明の雑音除去装置を、例えば、車両検知装置に組み込めば、混合音から時間−周波数領域ごとにタイヤ摩擦による走行音の周波数信号を抽出して、パワーの大きさから車両の接近を検知することができる。
なお、周波数分析部として、離散フーリエ変換、コサイン変換、ウェーブレット変換、又は、バンドパスフィルタを用いてもよい。
なお、周波数分析部の窓関数として、ハミング窓、矩形窓、又は、ブラックマン窓などのいかなる窓関数を用いてもよい。
なお、雑音除去装置1500はFFT分析部2402が求めた全て(M個)の周波数帯域に対して雑音の除去を行ったが、雑音を除去したい一部の周波数帯域を選択してから選択した周波数帯域において雑音の除去を行ってもよい。
なお、分析の対象とする周波数信号を定めずに、複数の周波数信号間の位相距離を求めて、第2のしきい値と比較することで、複数の周波数信号全体が抽出音の周波数信号であるか否かをまとめて判定することもできる。この場合は、時間区間の平均的な位相の時間変化を分析することになる。このため、雑音の位相が抽出音の位相とたまたま一致した場合にも安定して抽出音の周波数信号を判定することができる。
なお、位相補正後の位相を用いて、実施の形態1の変形例2と同様にして、周波数信号の位相のヒストグラムを用いて抽出音の周波数信号を判定してもよい。この場合は、図35のようなヒストグラムになる。表示の方法は図24と同じなので、その詳細な説明は繰り返さない。位相補正を行っているためヒストグラムのΔψ´の領域が時間軸に平行になり出現頻度を求めやすくなる。
なお、位相補正後の位相ψ´(t)を用いて、
(実施の形態3)
次に、実施の形態3に係る車両検知装置について説明する。実施の形態3に係る車両検知装置は、複数のマイクから入力される各々の混合音の少なくとも1つの混合音から、エンジン音(抽出音)の周波数信号があると判定されたときに、抽出音検知フラグを出力して運転者に接近車両の存在を知らせるものである。このとき、時間−周波数領域ごとの混合音に適切な分析周波数を、時刻と位相とで表される空間での近似直線により事前に求めてから、求めた分析周波数に対して、求めた直線と位相との距離により位相距離を求めてエンジン音の周波数信号を判定する。
次に、実施の形態3に係る車両検知装置について説明する。実施の形態3に係る車両検知装置は、複数のマイクから入力される各々の混合音の少なくとも1つの混合音から、エンジン音(抽出音)の周波数信号があると判定されたときに、抽出音検知フラグを出力して運転者に接近車両の存在を知らせるものである。このとき、時間−周波数領域ごとの混合音に適切な分析周波数を、時刻と位相とで表される空間での近似直線により事前に求めてから、求めた分析周波数に対して、求めた直線と位相との距離により位相距離を求めてエンジン音の周波数信号を判定する。
図36及び図37は、本発明の実施の形態3における車両検知装置の構成を示すブロック図である。
図36において、車両検知装置4100は、マイクロホン4107(1)と、マイクロホン4107(2)と、DFT分析部1100(周波数分析部)と、車両検知処理部4101において、位相補正部4102(j)(j=1〜M)と、抽出音判定部4103(j)(j=1〜M)と、音検知部4104(j)(j=1〜M)と、提示部4106とを含む。
また、図37において、抽出音判定部4103(j)(j=1〜M)は、位相距離判定部4200(j)(j=1〜M)から構成される。
マイクロホン4107(1)は混合音2401(1)を入力して、マイクロホン4107(2)は混合音2401(2)を入力する。この例では、マイクロホン4107(1)とマイクロホン4107(1)はそれぞれ自車両の左前と右前のバンパーに設置されている。これらの混合音の各々はバイクのエンジン音と風雑音とから構成されている。
DFT分析部1100は、複数の時間窓幅をもつ複数の窓関数を準備して、各々の窓関数が掛け合わされた後の入力された混合音2401(1)と混合音2401(2)の各々に対して離散フーリエ変換処理を施し、混合音2401の窓関数に対応した周波数信号2402(j)(j=1〜L)を求める処理部である。この例では、異なる時間窓幅をもつ2つ(L=2)窓関数から周波数信号2402(1)と周波数信号2402(2)を求める。ここでの窓関数の時間窓幅は、25msと63msとである。この時間窓幅は周波数信号の時間分解能に対応している。また、0.1msごとに周波数信号を求める。以下では、DFT分析部1100から求められた周波数帯域の個数をMとして、それらの周波数帯域を指定する番号を記号j(j=1〜M)で表すこととする。この例では、バイクのエンジン音が存在する10Hz〜300Hzの周波数帯域を10Hz間隔ごとに分割して(M=30)周波数信号を求める。
位相補正部4102(j)(j=1〜M)は、DFT分析部1100が求めた周波数帯域j(j=1〜M)の周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´´(t)=mod2π(ψ(t)−2πf´t)(f´は周波数帯域の周波数)に位相を補正する処理部である。この例で実施の形態2と異なる部分は、ψ(t)を分析周波数を用いて補正するのではなく、周波数信号を求めた周波数帯域の周波数f´を用いて補正を行うところである。
抽出音判定部4103(j)(j=1〜M)(位相距離判定部4200(j)(j=1〜M))は、位相補正部4102(j)(j=1〜M)が補正した周波数信号の位相ψ´´(t)を用いて、各々の窓関数に対応する周波数信号2402(j)(j=1〜L)の各々に対して、窓関数の時間窓幅の2倍〜4倍の長さの混合音(混合音2401(1)、混合音2401(2))ごとに、113msの時間幅(所定の時間幅)における時刻の周波数信号を用いて、この周波数信号に適切な分析周波数を、時刻と位相とで表される空間での近似直線により求めてから位相距離を求める。また、抽出音判定部4103(j)(j=1〜M)(位相距離判定部4200(j)(j=1〜M))は、求めた近似直線と位相との距離により位相距離を求めて、位相距離が第2のしきい値以下になる所定の時間幅における周波数信号を、エンジン音の周波数信号と判定する。
音検知部4104(j)(j=1〜M)は、同じ時刻において、抽出音判定部4103(j)(j=1〜M)により、各々の窓関数に対応する周波数信号2402(j)(j=1〜L)の少なくとも1つの周波数信号から、混合音2401(1)および混合音2401(2)の少なくとも1つの混合音から、エンジン音(抽出音)の周波数信号が存在すると判定されたときに、抽出音検知フラグ4105を作成して出力する。
提示部4106は、音検知部4104(j)(j=1〜M)から抽出音検知フラグ4105が入力されたときに、運転者に接近車両の存在を知らせる。
各処理部は、これらの処理を、所定の時間幅の時刻を移動させながら行う。
次に、以上のように構成された車両検知装置4100の動作について説明する。
以下では、j番目の周波数帯域(周波数帯域の周波数はf´)について説明を行う。他の周波数帯域についても同様の処理が行なわれる。
図38は、車両検知装置4100の動作手順を示すフローチャートである。
初めに、DFT分析部1100は、混合音2401(1)と混合音2401(2)を受付けて、複数の時間窓幅をもつ複数の窓関数を準備して、各々の窓関数が掛け合わされた後の混合音2401(1)と混合音2401(2)のそれぞれに対して離散フーリエ変換処理を施し、混合音2401の窓関数に対応した周波数信号2402(j)(j=1〜L)を求める処理部である。この例では、窓関数の時間窓幅を、25msと63msに設定して、各々の窓関数に対応した周波数信号2402(1)と周波数信号2402(2)を求める(ステップS300)。
図39に、混合音2401のスペクトログラムの一例を示す。表示の方法は図10と同様であるため説明を省略する。混合音2401は、バイクのエンジン音と風雑音とから構成されている。この図でのエンジン音の周波数構造は、初めにバイクが加速して周波数fが高くなり(2秒〜4秒)、次にギアチェンジをして周波数fが低くなり(4秒〜7秒)、最後にまた加速して周波数fが高くなっている(7秒〜11秒)。
次に、位相補正部4102(j)は、DFT分析部1100が求めた周波数帯域j(周波数f´)の周波数信号に対して、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、ψ´´(t)=mod2π(ψ(t)−2πf´t)(f´は周波数帯域の周波数)に位相を変換することで位相補正を行う(ステップS4300(j))。この例で実施の形態2と異なる部分は、ψ(t)を分析周波数fで補正するのではなく、周波数信号を求めた周波数帯域の周波数f´で補正を行うところである。それ以外の条件は実施の形態2と同様であるため、その詳細な説明は繰り返さない。
次に、抽出音判定部4103(j)(位相距離判定部4200(j))は、混合音(混合音2401(1)、混合音2401(2))ごとに、各々の窓関数に対応する周波数信号(周波数信号2402(1)、周波数信号2402(2))の各々に対して、窓関数の時間窓幅の2倍〜4倍の長さの、所定の時間幅における全ての時刻の位相補正された周波数信号(第1のしきい値は、所定の時間幅における時刻の周波数信号の80%の数であり、第1のしきい値以上の数から構成されている)の位相ψ´´(t)を用いて、分析周波数fを設定する。抽出音判定部4103(j)(位相距離判定部4200(j))は、設定された分析周波数fを用いて位相距離を求める。そして、抽出音判定部4103(j)(位相距離判定部4200(j))は、位相距離が第2のしきい値以下になる所定の時間幅における周波数信号をエンジン音の周波数信号と判定する(ステップS4301(j))。
図40(a)は、混合音2401(1)のスペクトログラムである。表示の方法は図39と同じなので、その詳細な説明は繰り返さない。ここでは、25msの時間窓幅をもつ窓関数に対応した周波数信号2402(1)からエンジン音(抽出音)の周波数信号を判定する場合について説明する。このため、位相距離を求める所定の時間幅は75ms(時間窓幅の3倍の長さ)に設定されている。なお、63msの時間窓幅をもつ窓関数に対応した周波数信号2402(2)からエンジン音(抽出音)の周波数信号を判定する場合は、位相距離を求める所定の時間幅は189ms(時間窓幅の3倍の長さ)に設定する。
図40(b)に、図40(a)における、時刻3.6秒の所定の時間幅(113ms)の周波数100Hzの周波数帯域の時間−周波数領域における、周波数帯域の周波数f´で補正された周波数信号2402(1)の位相ψ´´(t)が示されている。横軸は時間を表しており、縦軸は位相ψ´´(t)を表している。この例では、周波数帯域の周波数(f´=100Hz)で位相が補正されており、ψ´´(t)=mod2π(ψ(t)−2π×100×t)である。また、図40(b)に、これらの補正された位相ψ´´(t)と、時刻と位相ψ´´(t)の空間で定義される直線との距離(位相距離に対応する)が最小になる直線(直線A)が示されている。
この直線は、線形回帰分析により求めることができる。具体的には、時刻t(i)(i(i=1〜N)はtを離散化したときのインデックス)を説明変数として、補正された位相ψ´´(t(i))を目的変数にする。そして、時刻3.6秒の所定の時間幅(113ms)の周波数100Hzの周波数帯域の時間−周波数領域における、時刻ごとの補正された位相ψ´´(t(i))(i=1〜N)をN個のデータとして、直線Aは、
ここで、図41を用いて、図40(b)の直線Aの傾きから分析周波数fを求めることができることを説明する。ここでは、直線Aは、1/f´´の時間間隔でψ´´(t)が0〜2π(ラジアン)増加する傾きをもつ直線とする。すなわち、直線Aの傾きを2πf´´とする。
図41の直線Aは、図40(b)の直線Aと同じである。図41の横軸は時間軸であり縦軸は位相軸である。図41の、時間とψ(t)とで定義される直線Bは、直線Aが周波数f´(周波数帯域の周波数)で位相補正される前の時間とψ(t)とで定義される直線である。すなわち、直線Bは、直線Aに対して時刻が1/f´進むごとに2π(ラジアン)を足し算したものである。この直線Bは、この時間−周波数領域に抽出音が存在した場合の抽出音の位相ψ(t)とみなすことができ、1/fの時間間隔(fは分析周波数)で等角速度で0〜2π(ラジアン)まで変化する。この直線Bの傾き(2πf)に対応する周波数fが求めたい分析周波数fである。
この例では、分析周波数fよりも周波数帯域の周波数f´の値が小さかったため、直線Aは正の傾きをもっている。なお、分析周波数fと周波数帯域の周波数f´の値とが一致する場合には直線Aの傾きはゼロになり、分析周波数fよりも周波数帯域の周波数f´の値が大きい場合には直線Aの負の傾きをもつことになる。
図41における直線Aと直線Bとの関係から、
図40(b)の直線Aは、補正された位相ψ´´(t)が0(ラジアン)から2π(ラジアン)まで増加するのに要する時間が0.113/0.6(=1/f´´)(秒)であるため、f´´=5(Hz)となり、分析周波数fは105Hz(100Hz+5Hz)になる。
次に、設定された分析周波数fを用いて位相距離(ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)での距離)が求められる。位相距離は、図40(b)に示された補正された位相ψ´´(t)と直線Aとの距離で求めることができる。このことは、
となり、ψ(t)と2πfの傾きをもつ直線(直線B)との距離(位相距離)と、ψ´´(t)と2πf´´の傾きをもつ直線(直線A)との距離が一致するからである。
この例では、位相距離を、所定の時間幅における全ての時刻の位相補正された周波数信号の位相ψ´´(t)と直線Aとの差分誤差で求める。
なお、位相の値はトーラス状に繋がっていること(0(ラジアン)と2π(ラジアン)は同じであること)を考慮して位相距離を求めてもよい。
ここで他の見方をすると、直線Aは位相距離が最小になるように求められている。このため、直線Aの傾きに対応する周波数f´´から求められる分析周波数fは、位相距離を最小にするものになり、この時間−周波数領域において適した分析周波数fであったことがわかる。
次に、位相距離が第2のしきい値以下になる窓関数の時間窓幅の2倍〜4倍の長さの、所定の時間幅における周波数信号をエンジン音の周波数信号と判定する。この例では、第2のしきい値を0.17(ラジアン)に設定している。また、この例では、所定の時間幅における周波数信号全体で1つの位相距離を求めて、時間区間ごとに抽出音の周波数信号の判定をまとめて行っている。
図42に、エンジン音の周波数信号を判定した結果の一例を示す。この結果は、図39に示す混合音からエンジン音の周波数信号を判定した結果であり、エンジン音の周波数信号であると判定された時間‐周波数領域を黒い領域で表示している。図42(a)は、周波数信号2402(1)からエンジン音を判定した結果であり、図42(b)は、周波数信号2402(2)からエンジン音を判定した結果である。横軸は時間軸であり縦軸は周波数である。ここで、周波数信号2402(1)は、25msの時間窓幅の窓関数を用いて求めたものであり、周波数信号2402(2)は、75msの時間窓幅の窓関数を用いて求めたものであった。このとき、窓関数の時間窓幅は時間分解能に対応しており、周波数信号2402(1)は、周波数信号2402(2)よりも細かい時間分解能の周波数信号であった。
図42(a)と図42(b)の領域Aを見ると、周波数信号2402(1)からのみエンジン音が検出されていることがわかる。これは、この時間‐周波数領域においては、エンジン音の周波数は時間的に大きく変化しているため、時間分解能を細かくして求めた周波数信号2402(1)がエンジン音を判定するために適切であったからである。また、図42(a)と図42(b)の領域Bを見ると、周波数信号2402(2)からのみエンジン音が検出されていることがわかる。これは、この時間‐周波数領域においては、エンジン音の周波数は時間的にゆるやかに変化しているため、時間分解能を粗くして求めた周波数信号2402(2)がエンジン音を判定するために適切であったからである。
これらの処理を、全ての周波数帯域j(j=1〜M)に対して行う。
次に、音検知部4104(j)は、抽出音判定部4103(j)により混合音2401(1)および混合音2401(2)の少なくとも1つの混合音に、エンジン音の周波数信号が存在すると判定された時刻に、抽出音検知フラグ4105を作成して出力する(ステップS4302(j))。
図43に、抽出音検知フラグ4105の作成方法の一例を示す。図43には、図42(a)と図42(b)に示した判定結果を、時間軸を合わせて上下(図42(a)は上側、図42(b)は下側)に並べたものである。縦軸は時間軸であり横軸は周波数である。また、エンジン音の周波数信号であると判定された時間‐周波数領域を黒い領域で表示している。この例では、バイクのエンジン音が存在する10Hz〜300Hzの周波数帯域における判定結果の全体を用いて、200msの時間区間ごとに抽出音検知フラグ4105を作成して出力するか否かを決定する。
図43における時刻Aでは、図43(a)の混合音2401(1)からはエンジンの周波数信号が検出されている。一方、図43(b)の混合音2401(2)からはエンジン音の周波数信号は検出されていない。この場合、少なくとも図43(a)の混合音2401(1)からエンジンの周波数信号が検出されているので、近くに車両が存在することがわかり、抽出音検知フラグ4105を作成して出力する。
図43における時刻Bでは、図43(a)の混合音2401(1)からはエンジンの周波数信号は検出されていない。一方、図43(b)の混合音2401(2)からはエンジン音の周波数信号は検出されている。この場合、少なくとも図43(b)の混合音2401(2)からエンジンの周波数信号が検出されているので、近くに車両が存在することがわかり、抽出音検知フラグ4105を作成して出力する。
図43における時刻Cでは、図43(a)の混合音2401(1)からはエンジンの周波数信号は検出されていない。また、図43(b)の混合音2401(2)からもエンジン音の周波数信号は検出されていない。この場合、近くに車両が存在しないと判断して、抽出音検知フラグ4105を作成しない。
抽出音検知フラグ4105を作成する時間区間は、位相距離を求める所定の時間幅の長さとは独立に設定することができる。
最後に、提示部4106は、抽出音検知フラグ4105が入力されたときに、運転者に接近車両の存在を知らせる(ステップS4303)。
これらの処理を、所定の時間幅の時刻を移動させながら行う。
かかる構成によれば、時間−周波数領域ごとに、抽出音を判定するのに適切な分析周波数を事前に求めることができる。よって、多くの数の分析周波数に対して位相距離を求めてから抽出音を判定する必要がなくなる。このため、位相距離を求める処理量が大幅に削減できる。
また、時間分解能(窓関数の時間窓幅)に基づいて位相距離を求める時間幅を決定できるため、様々な時間分解能で、抽出音の周波数信号を判定することができる。特に、周波数構造が時間的に変化する抽出音を判定する場合には適切な時間分解能が複数存在するため、適切な時間分解能を用いることで抽出音の周波数信号を正確に判定することができる。例えば、音声のように短時間で周波数構造が大きく変化する抽出音に対しては時間分解能を細かくして、アイドリング状態でのエンジン音のように周波数構造がゆるやかに変化する抽出音に対しては時間分解能を粗くして(周波数分解能を細かくして)、抽出音の周波数信号を判定する。
また、雑音の影響で、1つのマイクロホンで集音した混合音からは抽出音が検出できなくても、他のマイクロホンで抽出音を検出できる可能性が広がる。このため、検知ミスを少なくすることができる。この例では、マイクロホンの位置に依存する風雑音の影響が少ないマイクロホンで集音した混合音を利用できる。このため、抽出音としてのエンジン音を正確に検出して、運転者に車両の接近を知らせることができる。また、この例では2本のマイクロホンを用いたが、3本以上のマイクロホンを用いて抽出音を判定してもよい。
また、複数の周波数信号間の位相距離をまとめて求めて、第2のしきい値と比較することで、複数の周波数信号全体が抽出音の周波数信号であるか否かをまとめて判定する。このため、雑音の位相が抽出音の位相とがたまたま一致した場合にも安定して抽出音の周波数信号を判定することができる。
なお、実施の形態3に係る車両検知装置において、実施の形態1または実施の形態2における抽出音判定部を用いてもよい。また、実施の形態1および実施の形態2において、実施の形態3における抽出音判定部を用いてもよい。
(混合音から抽出音の周波数信号を判定する方法)
他の混合音において、混合音から抽出音の周波数信号を判定する方法についてまとめる。
他の混合音において、混合音から抽出音の周波数信号を判定する方法についてまとめる。
(I)200Hzの正弦波と白色雑音との混合音から、200Hzの正弦波(200Hzの周波数信号)を判定する方法について述べる。
図44に、中心周波数f=200Hzの周波数帯域において分析周波数をf=200Hzとしたときの位相の時間変化を分析した結果を示す。図45に、中心周波数f=150Hzの周波数帯域において分析周波数をf=150Hzとしたときの位相の時間変化を分析した結果を示す。ここでは、位相距離を求めるときに用いる所定の時間幅を100msに設定しており、100msの時間幅における位相の時間変化を分析する。図44、図45ともに、200Hzの正弦波と白色雑音とをそれぞれ用いて分析した結果である。
図44(a)は、200Hzの正弦波の位相ψ(t)(位相補正なし)の時間変化である。この時間幅において、200Hzの正弦波の位相ψ(t)は、時刻に対して2π×200の傾きで規則的に変化している。図44(b)は、図44(a)の位相ψ(t)をψ´(t)=mod2π(ψ(t)−2π×200×t)(分析周波数は200Hz)に位相を補正したものである。位相補正後の200Hzの正弦波の位相ψ´(t)は、時刻に関わらず一定の値になることがわかる。このため、この時間幅におけるψ´(t)=mod2π(ψ(t)−2π×200×t)(分析周波数は200Hz)で定義される距離空間での位相距離は小さくなる。
図44(c)は、白色雑音の位相ψ(t)(位相補正なし)の時間変化である。この時間幅において、白色雑音の位相ψ(t)は、時刻に対して2π×200の傾きで規則的に変化しているように見えるが、厳密には規則的に変化していない。図44(d)は、図44(c)の位相ψ(t)を位相ψ´(t)=mod2π(ψ(t)−2π×200×t)(分析周波数は200Hz)に補正したものである。位相補正後の白色雑音の位相ψ´(t)は、時刻とともに値が0〜2π(ラジアン)の間で変化することがわかる。このため、この時間幅におけるψ´(t)=mod2π(ψ(t)−2π×200×t)(分析周波数は200Hz)で定義される距離空間での位相距離は、図44(a)又は図44(b)の200Hzの正弦波における位相距離と比較して大きくなる。
図45(a)は、200Hzの正弦波の位相ψ(t)(位相補正なし)の時間変化である。この時間幅において、200Hzの正弦波の位相ψ(t)は、時刻に対して2π×150の傾きで変化していない(時刻に対して2π×200の傾きで変化している)。図45(b)は、図45(a)の位相ψ(t)を位相ψ´(t)=mod2π(ψ(t)−2π×150×t)(分析周波数は150Hz)に補正したものである。位相補正後の200Hzの正弦波の位相ψ´(t)は、時刻とともに0〜2π(ラジアン)の間を規則的に変化することがわかる。このため、この時間幅におけるψ´(t)=mod2π(ψ(t)−2π×150×t)(分析周波数は150Hz)で定義される距離空間での位相距離は、図44(a)又は図44(b)の200Hzの正弦波における位相距離と比較して大きくなる。
図45(c)は、白色雑音の位相ψ(t)(位相補正なし)の時間変化である。この時間幅において、白色雑音の位相ψ(t)は、時刻に対して2π×150の傾きで変化していない。図45(d)は、図45(c)の位相ψ(t)を位相ψ´(t)=mod2π(ψ(t)−2π×150×t)(分析周波数は150Hz)に補正したものである。位相補正後の白色雑音の位相ψ´(t)は、時刻とともに値が0〜2π(ラジアン)の間で変化することがわかる。このため、この時間幅におけるψ´(t)=mod2π(ψ(t)−2π×150×t)(分析周波数は150Hz)で定義される距離空間での位相距離は、図45(a)又は図45(b)の200Hzの正弦波における位相距離と比較して大きくなる。
図44と図45の分析結果より、200Hzの正弦波と白色雑音とを区別して、200Hzの正弦波の周波数信号を判定する場合には、図44(a)又は図44(b)の200Hzの正弦波の位相距離よりも大きく、図44(c)又は図44(d)の白色雑音の位相距離よりも小さく、図45(a)又は図44(b)の200Hzの正弦波の位相距離よりも小さく、図45(c)又は図45(d)の白色雑音の位相距離よりも小さな値に第2のしきい値を設定すればよい。例えば、第2のしきい値を、図44(b)、図44(d)、図45(b)、図45(d)に記載してあるΔψ´=π/6〜π/2(ラジアン)に設定すればよいことがわかる。このとき、抽出音に判定されなかった周波数信号は、白色雑音の周波数信号である。
なお、中心周波数150Hzの周波数帯域(200Hzの周波数も含む)の混合音から、抽出音の200Hzの周波数信号を判定することもできる。図45(a)において、分析周波数を200Hzにして、ψ´(t)=mod2π(ψ(t)−2π×200×t)(分析周波数は200Hz)での位相距離を判定すればよい。
(II)バイク音(エンジン音)と暗騒音との混合音から、バイク音の周波数信号を判定する方法について述べる。この例では、第2のしきい値をπ/2に設定する。
図46に、バイク音の位相の時間変化を分析した結果を示す。図46(a)は、バイク音のスペクトログラムを示しており黒い部分がバイク音の周波数信号の部分である。バイクが通過したときのドップラーシフトが現れている。図46(b)、図46(c)、図46(d)ともに、位相補正を行った場合の位相ψ´(t)の時間変化を示している。
図46(b)は、120Hzの周波数帯域の周波数信号を用いて、分析周波数を120Hzにした場合の分析結果である。この時刻の100msの時間幅(所定の時間幅)における位相ψ´(t)の位相距離は第2のしきい値以下である。このため、この時間−周波数領域の周波数信号はバイク音の周波数信号と判定される。また、分析周波数は120Hzであるため、この判定されたバイク音の周波数信号の周波数は120Hzに特定することができる。
図46(c)は、140Hzの周波数帯域の周波数信号を用いて、分析周波数を140Hzにした場合の分析結果であり、この時刻の100msの時間幅(所定の時間幅)における位相ψ´(t)の位相距離は第2のしきい値以下である。このため、この時間−周波数領域の周波数信号はバイク音の周波数信号と判定される。また、分析周波数は140Hzであるため、この判定されたバイク音の周波数信号の周波数は140Hzに特定することができる。
図46(d)は、80Hzの周波数帯域の周波数信号を用いて、分析周波数を80Hzにした場合の分析結果である。この時刻の100msの時間幅(所定の時間幅)における位相ψ´(t)の位相距離は第2のしきい値よりも大きい。このため、この時間−周波数領域の周波数信号はバイク音の周波数信号ではないことがわかる。
(III)図44と図46を用いて、バイク音(エンジン音)と200Hzの正弦波と白色雑音との混合音から、200Hzの正弦波とバイク音との周波数信号を判定する方法と、200Hzの正弦波の周波数信号を判定する方法と、バイク音の周波数信号を判定する方法と、白色雑音の周波数信号を判定する方法とについて述べる。この例では、所定の時間幅を100msとする。
初めに、白色雑音と区別して、200Hzの正弦波とバイク音との周波数信号を判定する方法について述べる。ここでは、第2のしきい値をπ/2(ラジアン)に設定する。
このとき、図44の分析結果と図46の分析結果とから、白色雑音の位相距離は第2のしきい値よりも大きく、200Hzの正弦波およびバイク音の各位相距離は第2のしきい値以下になる。このため、白色雑音と区別して、200Hzの正弦波とバイク音との周波数信号を判定することができる。
次に、白色雑音とバイク音と区別して、200Hzの正弦波の周波数信号を判定する方法について述べる。ここでは、第2のしきい値をπ/6(ラジアン)に設定する。
このとき、図44の分析結果から、白色雑音の位相距離は第2のしきい値よりも大きく、200Hzの正弦波の位相距離は第2のしきい値以下である。このため、白色雑音と区別して200Hzの正弦波の周波数信号を判定できる。また、図46の分析結果から、この例において、バイク音の位相距離は第2のしきい値よりも大きくなる。このため、バイク音と区別して200Hzの正弦波の周波数信号を判定できる。
次に、白色雑音と200Hzの正弦波と区別して、バイク音の周波数信号を判定する方法について述べる。ここでは第2のしきい値をπ/6(ラジアン)に設定して、第3のしきい値をπ/2(ラジアン)に設定する。
初めに、第2のしきい値をπ/2(ラジアン)に設定する。このとき、図44の分析結果と図46の分析結果とから、バイク音と200Hzの正弦波の周波数信号が合わせて判定される。次に、第2のしきい値をπ/6(ラジアン)に設定する。このとき、図44の分析結果と図46の分析結果とから、200Hzの正弦波の周波数信号が判定される。最後に、バイク音と200Hzの正弦波が合わせて判定された周波数信号から、200Hzの正弦波に判定された周波数信号を取り除くことで、バイク音の周波数信号を判定する。
最後に、200Hzの正弦波およびバイク音と区別して、白色雑音の周波数信号を判定する方法について述べる。ここでは第2のしきい値を2π(ラジアン)に設定する。
このとき、図44の分析結果と図46の分析結果とから、白色雑音の位相距離は第2のしきい値より大きくなり、200Hzの正弦波およびバイク音の各位相距離は第2のしきい値以下になる。ここで、位相距離が第2のしきい値より大きくなる周波数信号を取り出すことで、白色雑音の周波数信号を判定できる。
(IV)サイレン音と暗騒音との混合音からサイレン音の周波数信号を判定する方法について述べる。
この例では、実施の形態3と同じ方法で、時間−周波数領域ごとにサイレン音の周波数信号を判定する。この例でのDFTの時間窓は13msである。また、900Hz〜1300Hzの周波数帯域を10Hz間隔ごとに分割して周波数信号を求めている。ここでの所定の時間幅は38msであり、第2のしきい値を0.03(ラジアン)に設定している。第1のしきい値は実施の形態3と同じである。
図47(a)に、サイレン音と暗騒音との混合音のスペクトログラムを示す。図47(a)の表示の方法は図40(a)と同じなので、その詳細な説明は繰り返さない。図47(b)は、図47(a)の混合音からサイレン音を判定した結果である。図47(b)の表示の方法は図42(a)と同じなので、その詳細な説明は繰り返さない。図47(b)の結果から、時間−周波数領域ごとにサイレン音の周波数信号を判定できていることがわかる。
(V)音声と暗騒音との混合音から音声の周波数信号を判定する方法について述べる。
この例では、実施の形態3と同じ方法で、時間−周波数領域ごとに音声の周波数信号を判定する。この例でのDFTの時間窓は6msである。また、0Hz〜1200Hzの周波数帯域を10Hz間隔ごとに分割して周波数信号を求めている。ここでの所定の時間幅は19msであり、第2のしきい値を0.09(ラジアン)に設定している。第1のしきい値は実施の形態3と同じである。
図48(a)に、音声と暗騒音との混合音のスペクトログラムを示す。図48(a)の表示の方法は図40(a)と同じなので、その詳細な説明は繰り返さない。図48(b)は、図48(a)の混合音から音声を判定した結果である。図48(b)の表示の方法は図42(a)と同じなので、その詳細な説明は繰り返さない。図48(b)の結果から、時間−周波数領域ごとに音声の周波数信号を判定できていることがわかる。
(VI)100Hzの正弦波と白色雑音との周波数信号を判定した結果を示す。
図49Aに、100Hzの正弦波を入力した場合の検知結果を示す。図49A(a)は、入力した音波形のグラフである。横軸は時間を表しており縦軸は振幅を表している。図49A(b)は、図49A(a)に示した音波形のスペクトログラムである。表示方法は図10と同様であるため、その詳細な説明は繰り返さない。図49A(c)は、図49A(a)に示した音波形を入力した場合の検知結果を示すグラフである。表示方法は図42(a)と同様であるため、その詳細な説明は繰り返さない。図49A(c)より、100Hzの正弦波の周波数信号を検知できていることがわかる。
図49Bに、白色雑音を入力した場合の検知結果を示す。図49B(a)は、入力した音波形のグラフである。横軸は時間を表しており縦軸は振幅を表している。図49B(b)は、図49B(a)に示した音波形のスペクトログラムである。表示方法は図10と同様であるため、その詳細な説明は繰り返さない。図49B(c)は、図49B(a)に示した音波形を入力した場合の検知結果を示すグラフである。表示方法は図42(a)と同様であるため、その詳細な説明は繰り返さない。図49B(c)より、白色雑音が検知されないことがわかる。
図49Cに、100Hzの正弦波と白色雑音との混合音を入力した場合の検知結果を示す。図49C(a)は、入力した混合音の音波形のグラフである。横軸は時間を表しており縦軸は振幅を表している。図49C(b)は、図49C(a)に示した音波形のスペクトログラムである。表示方法は図10と同様であるため、その詳細な説明は繰り返さない。図49C(c)は、図49C(a)に示した音波形を入力した場合の検知結果を示すグラフである。表示方法は図42(a)と同様であるため、その詳細な説明は繰り返さない。図49C(c)より、100Hzの正弦波の周波数信号が検知されて、白色雑音が検知されないことがわかる。
図50Aに、図49Aより振幅が小さい100Hzの正弦波を入力した場合の検知結果を示す。図50A(a)は、入力した音波形のグラフである。横軸は時間を表しており縦軸は振幅を表している。図50A(b)は、図50A(a)に示した音波形のスペクトログラムである。表示方法は図10と同様であるため、その詳細な説明は繰り返さない。図50A(c)は、図50A(a)に示した音波形を入力した場合の検知結果を示すグラフである。表示方法は図42(a)と同様であるため、その詳細な説明は繰り返さない。図50A(c)より、100Hzの正弦波の周波数信号を検知できていることがわかる。図49Aの結果と比較すると、入力した音波形の振幅の大きさに依存しないで正弦波の周波数信号を検知できていることがわかる。
図50Bに、図49Bより振幅が大きい白色雑音を入力した場合の検知結果を示す。図50B(a)は、入力した音波形のグラフである。横軸は時間を表しており縦軸は振幅を表している。図50B(b)は、図50B(a)に示した音波形のスペクトログラムである。表示方法は図10と同様であるため、その詳細な説明は繰り返さない。図50B(c)は、図50B(a)に示した音波形を入力した場合の検知結果を示すグラフである。表示方法は図42(a)と同様であるため、その詳細な説明は繰り返さない。図50B(c)より、白色雑音が検知されないことがわかる。図49Aの結果と比較すると、入力した音波形の振幅の大きさに依存しないで白色雑音が検知されないことがわかる。
図50Cに、図49BとSN比が異なる100Hzの正弦波と白色雑音との混合音を入力した場合の検知結果を示す。図50C(a)は、入力した混合音の音波形のグラフである。横軸は時間を表しており縦軸は振幅を表している。図50C(b)は、図50C(a)に示した音波形のスペクトログラムである。表示方法は図10と同様であるため、その詳細な説明は繰り返さない。図50C(c)は、図50C(a)に示した音波形を入力した場合の検知結果を示すグラフである。表示方法は図42(a)と同様であるため、その詳細な説明は繰り返さない。図50C(c)より、100Hzの正弦波の周波数信号が検知されて、白色雑音が検知されないことがわかる。図49Aの結果と比較すると、入力した音波形の振幅の大きさに依存しないで正弦波の周波数信号を検知できていることがわかる。
(位相距離を求める所定の時間幅の時間長の設定)
位相距離を求める所定の時間幅の時間長を、窓関数の時間窓幅の2〜4倍の長さに設定することで、抽出音の周波数信号を適切に判定できることについて説明する。
位相距離を求める所定の時間幅の時間長を、窓関数の時間窓幅の2〜4倍の長さに設定することで、抽出音の周波数信号を適切に判定できることについて説明する。
例えば、抽出音の周波数構造の時間変化量が大きい場合は、窓関数の時間窓幅(時間分解能に対応)を小さくする(周波数分解能を大きくなる)ことで周波数構造に追随することができる。このとき、位相距離を求める時間幅(所定の時間幅)の時間長が窓関数の時間窓幅の4倍以上になると、この時間‐周波数領域から抽出音の周波数構造が外れてしまい位相距離が第2のしきい値より大きくなる。このため、抽出音の周波数信号を判定することができなくなってしまう。逆に、位相距離を求める時間幅(所定の時間幅)の時間長が窓関数の時間窓幅の2倍未満になると、周波数信号の位相は周波数信号を求めるときに窓関数の時間窓幅において平滑化される。このため、位相の時間構造を分析することができなくなってしまう。このため、位相距離を求める所定の時間幅の時間長を、窓関数の時間窓幅の2〜4倍の長さに設定する必要がある。
図51には、窓関数の一例が示されている。図51(a)には矩形窓が、図51(b)にはガウス窓が、図51(c)にはハニング窓が、図51(d)にはハミング窓が、図51(e)にはブラックマン窓が、図51(f)には三角窓が示されている。横軸は時間軸で縦軸は振幅の大きさである。
窓関数の時間窓幅とは、窓関数の面積の重心となる時刻を中心にして、窓関数の面積が90%を占める時間幅である。図51の窓関数では、図中に示された中心の時刻から黒い部分の面積が90%になる時間幅が窓関数の時間窓幅である。
周波数分析手段が受付けた混合音をX(t)として、所定の時間窓幅をもつ窓関数をw(t)として、窓関数が掛け合わされた後の混合音をX´(t)とすると、
図52は、エンジン音と、風雑音と、エンジン音と風雑音との混合音のスペクトログラムである。表示の方法は図10と同じなので説明を省略する。図52(a)はエンジン音のスペクトログラムであり、図52(b)は風雑音のスペクトログラムであり、図52(c)はエンジン音と風雑音との混合音のスペクトログラムである。時間0秒〜2秒での周波数0Hz〜300Hzのスペクトログラムが示されている。
図53〜図57には、図52に示された音に対して、実施の形態3と同様にして抽出音の周波数信号を判定したものである。第2のしきい値は、0.09(ラジアン)に設定されている。横軸は時間軸であり縦軸は周波数である。時間0秒〜2秒での周波数0Hz〜300Hzの判定結果が示されている。(I)の列にはエンジン音に対する判定結果が示され、(II)の列には風雑音に対する判定結果が示され、(III)の列にはエンジン音と風雑音との混合音に対する判定結果が示されている。また、(a)の行には位相距離の時間幅を窓関数の時間窓幅の1倍で判定した結果が示され、(b)の行には位相距離の時間幅を窓関数の時間窓幅の2倍で判定した結果が示され、(c)の行には位相距離の時間幅を窓関数の時間窓幅の3倍で判定した結果が示され、(d)の行には位相距離の時間幅を窓関数の時間窓幅の4倍で判定した結果が示され、(e)の行には位相距離の時間幅を窓関数の時間窓幅の5倍で判定した結果が示されている。
図53には窓関数の時間窓幅を13msに設定したときの結果が示され、図54には窓関数の時間窓幅を25msに設定したときの結果が示され、図55には窓関数の時間窓幅を38msに設定したときの結果が示され、図56には窓関数の時間窓幅を50msに設定したときの結果が示され、図57には窓関数の時間窓幅を63msに設定したときの結果が示されている。
図53〜図57において、(I)の列のエンジン音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の5倍以上にすると、エンジン音の周波数信号を検出する割合が少なくなることがわかる。また、(II)の列の風雑音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の1倍以下にすると、風雑音の周波数信号が検出される割合が多くなることがわかる。これより、音色のある音(エンジン音)と音色のない音(風雑音)とを区別するためには、位相距離の時間幅を窓関数の時間窓幅の2倍〜4倍の長さに設定すればよいことがわかる。
図53〜図57において、(III)の列のエンジン音と風雑音との混合音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の2倍〜4倍の長さに設定したときに、エンジン音の周波数信号が判定できていることがわかる。
また、図53〜図57の判定結果から、窓関数の時間窓幅(時間分解能に対応する)の長さに関わらず、音色のある音(エンジン音)と音色のない音(風雑音)とを区別するためには、位相距離の時間幅を窓関数の時間窓幅の2倍〜4倍の長さに設定すればよいことがわかる。
図58〜図62には、図52に示された音に対して、実施の形態3と同様にして抽出音の周波数信号を判定したものである。ここでは、第2のしきい値は図53〜図57とは異なり、0.17(ラジアン)に設定されている。表示の方法は図53〜図57と同じなので説明を省略する。
図58には窓関数の時間窓幅を13msに設定したときの結果が示され、図59には窓関数の時間窓幅を25msに設定したときの結果が示され、図60には窓関数の時間窓幅を38msに設定したときの結果が示され、図61には窓関数の時間窓幅を50msに設定したときの結果が示され、図62には窓関数の時間窓幅を63msに設定したときの結果が示されている。
図58〜図62において、(I)の列のエンジン音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の5倍以上にすると、エンジン音の周波数信号を検出する割合が少なくなることがわかる。また、(II)の列の風雑音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の1倍以下にすると、風雑音の周波数信号が検出される割合が多くなることがわかる。また、(III)の列のエンジン音と風雑音との混合音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の2倍〜4倍の長さに設定したときに、エンジン音の周波数信号が判定できていることがわかる。この結果は、図53〜図57の結果と同じである。これより、第2のしきい値の値に関わらず、エンジン音(音色のある音)と風雑音(音色のない音)を区別するためには、位相距離の時間幅を窓関数の時間窓幅の2倍〜4倍の長さに設定すればよいことがわかる。
図63は、音声と、風雑音と、音声と風雑音との混合音のスペクトログラムである。表示の方法は図7と同じなので説明を省略する。図63(a)は音声のスペクトログラムであり、図63(b)は風雑音のスペクトログラムであり、図63(c)は音声と風雑音との混合音のスペクトログラムである。時間0秒〜1秒での周波数0Hz〜2kHzのスペクトログラムが示されている。
図64〜図67には、図48に示された音に対して、実施の形態3と同様にして抽出音の周波数信号を判定したものである。第2のしきい値は、0.09(ラジアン)に設定されている。横軸は時間軸であり縦軸は周波数である。時間0秒〜1秒での周波数0Hz〜2kHzの判定結果が示されている。(I)の列には音声に対する判定結果が示され、(II)の列には風雑音に対する判定結果が示され、(III)の列には音声と風雑音との混合音に対する判定結果が示されている。また、(a)の行には位相距離の時間幅を窓関数の時間窓幅の1倍で判定した結果が示され、(b)の行には位相距離の時間幅を窓関数の時間窓幅の2倍で判定した結果が示され、(c)の行には位相距離の時間幅を窓関数の時間窓幅の3倍で判定した結果が示され、(d)の行には位相距離の時間幅を窓関数の時間窓幅の4倍で判定した結果が示され、(e)の行には位相距離の時間幅を窓関数の時間窓幅の5倍で判定した結果が示されている。
図64には窓関数の時間窓幅を6msに設定したときの結果が示され、図65には窓関数の時間窓幅を13msに設定したときの結果が示され、図66には窓関数の時間窓幅を25msに設定したときの結果が示され、図67には窓関数の時間窓幅を38msに設定したときの結果が示されている。
図64〜図67において、(I)の列の音声に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の5倍以上にすると、音声の周波数信号を検出する割合が少なくなることがわかる。また、(II)の列の風雑音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の1倍以下にすると、風雑音の周波数信号が検出される割合が多くなることがわかる。また、(III)の列の音声と風雑音との混合音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の2倍〜4倍の長さに設定したときに、音声の周波数信号が判定できていることがわかる。この結果は、図53〜図57の結果と同じである。これより、抽出音の種類に関わらず、音色のある音(音声)と音色のない音(風雑音)とを区別するためには、位相距離の時間幅を窓関数の時間窓幅の2倍〜4倍の長さに設定すればよいことがわかる。
図68は、サイレン音と、走行音(タイヤの摩擦音)と、サイレン音と走行音(タイヤの摩擦音)との混合音のスペクトログラムである。表示の方法は図10と同じなので説明を省略する。図68(a)はサイレン音のスペクトログラムであり、図68(b)は走行音(タイヤの摩擦音)のスペクトログラムであり、図68(c)はサイレン音と走行音(タイヤの摩擦音)との混合音のスペクトログラムである。時間0秒〜2秒での周波数1kHz〜2kHzのスペクトログラムが示されている。
図69〜図71には、図68に示された音に対して、実施の形態3と同様にして抽出音の周波数信号を判定したものである。第2のしきい値は、0.09(ラジアン)に設定されている。横軸は時間軸であり縦軸は周波数である。時間0秒〜2秒での周波数1kHz〜2kHzの判定結果が示されている。(I)の列にはサイレン音に対する判定結果が示され、(II)の列には走行音(タイヤの摩擦音)に対する判定結果が示され、(III)の列にはサイレン音と走行音(タイヤの摩擦音)との混合音に対する判定結果が示されている。また、(a)の行には位相距離の時間幅を窓関数の時間窓幅の1倍で判定した結果が示され、(b)の行には位相距離の時間幅を窓関数の時間窓幅の2倍で判定した結果が示され、(c)の行には位相距離の時間幅を窓関数の時間窓幅の3倍で判定した結果が示され、(d)の行には位相距離の時間幅を窓関数の時間窓幅の4倍で判定した結果が示され、(e)の行には位相距離の時間幅を窓関数の時間窓幅の5倍で判定した結果が示されている。
図69には窓関数の時間窓幅を6msに設定したときの結果が示され、図70には窓関数の時間窓幅を13msに設定したときの結果が示され、図71には窓関数の時間窓幅を25msに設定したときの結果が示されている。
図69〜図71において、(I)の列のサイレン音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の5倍以上にすると、サイレン音の周波数信号を検出する割合が少なくなることがわかる。また、(II)の列の走行音(タイヤの摩擦音)に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の1倍以下にすると、走行音の周波数信号が検出される割合が多くなることがわかる。また、(III)の列のサイレン音と走行音との混合音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の2倍〜4倍の長さに設定したときに、サイレン音の周波数信号が判定できていることがわかる。この結果は、図53〜図57の結果と同じである。これより、雑音(音色ない音)の種類に関わらず、音色のある音(サイレン音)と音色のない音(走行音(タイヤの摩擦音))とを区別するためには、位相距離の時間幅を窓関数の時間窓幅の2倍〜4倍の長さに設定すればよいことがわかる。
上記実施の形態に示した雑音除去装置および車両検知装置は、コンピュータを構成するCPU上で、上記各装置を構成する各処理部の機能を果たすプログラムを実行することにより実現してもよい。その際、各処理部で処理されるデータは、コンピュータを構成するメモリやハードディスクに記憶される。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
本発明にかかる音判定装置等は、時間−周波数領域で混合音に含まれる抽出音の周波数信号を判定することができる。特に、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音(もしくは音色のない音)の周波数信号を、時間−周波数領域ごと判定することができる。
このため、本発明は、時間−周波数領域ごとに判定された音声の周波数信号を入力して、逆周波数変換により抽出音を出力する音声出力装置に適用できる。また、2以上のマイクロホンから入力された混合音の各々に対して、時間−周波数領域ごとに判定された抽出音の周波数信号を入力して抽出音の音源方向を出力する音源方向検知装置に適用できる。さらに、時間−周波数領域ごとに判定された抽出音の周波数信号を入力して、音声認識や音識別を行う音識別装置に適用できる。さらにまた、時間−周波数領域ごとに判定された風雑音の周波数信号を入力して、パワーの大きさを出力する風音レベル判定装置に適用できる。また、時間−周波数領域ごとに判定されたタイヤ摩擦による走行音の周波数信号を入力して、パワーの大きさから車両を検知する車両検知装置に適用できる。さらに、時間−周波数領域ごとに判定されたエンジン音の周波数信号を検知して、車両の接近を知らせる車両検知装置に適用できる。さらにまた、時間−周波数領域ごとに判定されたサイレン音の周波数信号を検知して、緊急車両の接近を知らせる緊急車両検知装置等に適用できる。
100、110、1500 雑音除去装置
101、1504 雑音除去処理部
101(j)(j=1〜M)、1502(j)(j=1〜M)、4103(j)(j=1〜M) 抽出音判定部
200(j)(j=1〜M)、1600(j)(j=1〜M) 周波数信号選択部
201(j)(j=1〜M)、1601(j)(j=1〜M)、4200(j)(j=1〜M) 位相距離判定部
202(j)(j=1〜M)、1503(j)(j=1〜M) 音抽出部
1100 DFT分析部
1501(j)(j=1〜M)、4102(j)(j=1〜M) 位相補正部
2401、2401(1)、2401(2) 混合音
2402 FFT分析部
2408 抽出音の周波数信号
2501 認識部
2502 ピッチ抽出部
2503 判定部
2504 周期範囲記憶部
4100 車両検知装置
4101 車両検知処理部
4104(j)(j=1〜M) 音検知部
4105 抽出音検知フラグ
4106 提示部
4107(1)、4107(2) マイクロホン
101、1504 雑音除去処理部
101(j)(j=1〜M)、1502(j)(j=1〜M)、4103(j)(j=1〜M) 抽出音判定部
200(j)(j=1〜M)、1600(j)(j=1〜M) 周波数信号選択部
201(j)(j=1〜M)、1601(j)(j=1〜M)、4200(j)(j=1〜M) 位相距離判定部
202(j)(j=1〜M)、1503(j)(j=1〜M) 音抽出部
1100 DFT分析部
1501(j)(j=1〜M)、4102(j)(j=1〜M) 位相補正部
2401、2401(1)、2401(2) 混合音
2402 FFT分析部
2408 抽出音の周波数信号
2501 認識部
2502 ピッチ抽出部
2503 判定部
2504 周期範囲記憶部
4100 車両検知装置
4101 車両検知処理部
4104(j)(j=1〜M) 音検知部
4105 抽出音検知フラグ
4106 提示部
4107(1)、4107(2) マイクロホン
Claims (10)
- 抽出音と雑音とを含む混合音を受付けて、前記混合音に所定の時間窓幅の窓関数を掛け合わせて、当該窓関数が掛け合わされた後の混合音から、所定の時間幅に含まれる複数の時刻の各々について、前記混合音の周波数信号を求める周波数分析部と、
前記所定の時間幅に含まれる複数の時刻の前記周波数信号において、第1のしきい値以上の数から構成され、かつ周波数信号間の位相距離が第2のしきい値以下である周波数信号の各々を、前記抽出音の周波数信号と判定する抽出音判定部とを備え、
前記位相距離は、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で表したときの、周波数信号の位相間の距離であり、
前記所定の時間幅の時間長は、前記窓関数の時間窓幅の2〜4倍の長さに設定されている
音判定装置。 - 前記抽出音判定部は、第1のしきい値以上の数から構成され、かつ周波数信号間の前記位相距離が第2のしきい値以下である前記周波数信号の集まりを複数作成して、前記周波数信号の集まり同士の前記位相距離が第3のしきい値以上になる前記周波数信号の集まり同士を、異なる種類の抽出音の周波数信号として判定する
請求項1に記載の音判定装置。 - 前記周波数分析部は、複数の時間窓幅の窓関数を用いて前記窓関数ごとに、前記所定の時間幅に含まれる複数の時刻の周波数信号から1/f(fは分析周波数)の時間間隔の時刻の周波数信号を求め、
前記抽出音判定部は、前記窓関数ごとに求められた周波数信号の各々について、前記抽出音の判定を行い、
前記音判定装置は、さらに、同じ時刻において、少なくとも1つの前記窓関数から求められた周波数信号から前記抽出音の周波数信号が判定されたときに、抽出音検知フラグを作成して出力する音検知部を備える
請求項1に記載の音判定装置。 - さらに、時刻tの周波数信号の位相ψ(t)(ラジアン)を、ψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)に補正する位相補正部を備え、
前記抽出音判定部は、補正された前記周波数信号の位相ψ´(t)を用いて前記位相距離を求める
請求項1に記載の音判定装置。 - 前記抽出音判定部は、前記所定の時間幅に含まれる複数の時刻の周波数信号を用いて、時刻と位相とで表される空間における前記複数の時刻の周波数信号の位相の近似直線を求め、前記近似直線と前記複数の時刻の周波数信号との間の前記位相距離を求める
請求項1に記載の音判定装置。 - 請求項1に記載の音判定装置と、
前記音判定装置において、前記混合音の周波数信号に含まれる周波数信号が前記抽出音の周波数信号と判定されたときに、抽出音検知フラグを作成して出力する音検知部と
を備える音検知装置。 - 前記周波数分析部は、マイクロホンごとに集音される複数の前記混合音を受付けて、前記混合音ごとに周波数信号を求め、
前記抽出音判定部は、前記混合音の各々について前記抽出音の判定を行い、
前記音検知部は、同じ時刻において、少なくとも1つの前記混合音の周波数信号に含まれる周波数信号が前記抽出音の周波数信号と判定されたときに、抽出音検知フラグを作成して出力する
請求項6に記載の音検知装置。 - 請求項1に記載の音判定装置と、
前記音判定装置において、前記混合音の周波数信号に含まれる周波数信号が前記抽出音の周波数信号と判定されたときに、前記抽出音の周波数信号と判定された前記周波数信号を出力する音抽出部と
を備える音抽出装置。 - コンピュータが、抽出音と雑音とを含む混合音を受付けて、前記混合音に所定の時間窓幅の窓関数を掛け合わせて、当該窓関数が掛け合わされた後の混合音から、所定の時間幅に含まれる複数の時刻の各々について、前記混合音の周波数信号を求める周波数分析ステップと、
コンピュータが、前記所定の時間幅に含まれる複数の時刻の前記周波数信号において、第1のしきい値以上の数から構成され、かつ周波数信号間の位相距離が第2のしきい値以下である周波数信号の各々を、前記抽出音の周波数信号と判定する抽出音判定ステップとを含み、
前記位相距離は、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で表したときの、周波数信号の位相間の距離であり、
前記所定の時間幅の時間長は、前記窓関数の時間窓幅の2〜4倍の長さに設定されている
音判定方法。 - 抽出音と雑音とを含む混合音を受付けて、前記混合音に所定の時間窓幅の窓関数を掛け合わせて、当該窓関数が掛け合わされた後の混合音から、所定の時間幅に含まれる複数の時刻の各々について、前記混合音の周波数信号を求める周波数分析ステップと、
前記所定の時間幅に含まれる複数の時刻の前記周波数信号において、第1のしきい値以上の数から構成され、かつ周波数信号間の位相距離が第2のしきい値以下である周波数信号の各々を、前記抽出音の周波数信号と判定する抽出音判定ステップとをコンピュータに実行させ、
前記位相距離は、時刻tの周波数信号の位相をψ(t)(ラジアン)とするときに、位相をψ´(t)=mod2π(ψ(t)−2πft)(fは分析周波数)で表したときの、周波数信号の位相間の距離であり、
前記所定の時間幅の時間長は、前記窓関数の時間窓幅の2〜4倍の長さに設定されている
音判定プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008253105 | 2008-09-30 | ||
JP2008253105 | 2008-09-30 | ||
PCT/JP2009/004855 WO2010038386A1 (ja) | 2008-09-30 | 2009-09-25 | 音判定装置、音検知装置及び音判定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4547042B2 true JP4547042B2 (ja) | 2010-09-22 |
JPWO2010038386A1 JPWO2010038386A1 (ja) | 2012-02-23 |
Family
ID=42073170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010509053A Expired - Fee Related JP4547042B2 (ja) | 2008-09-30 | 2009-09-25 | 音判定装置、音検知装置及び音判定方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100215191A1 (ja) |
JP (1) | JP4547042B2 (ja) |
WO (1) | WO2010038386A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9165567B2 (en) | 2010-04-22 | 2015-10-20 | Qualcomm Incorporated | Systems, methods, and apparatus for speech feature detection |
US8898058B2 (en) * | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
CN103069468A (zh) * | 2011-01-18 | 2013-04-24 | 松下电器产业株式会社 | 车辆方向确定装置、车辆方向确定方法及其程序 |
US8767978B2 (en) | 2011-03-25 | 2014-07-01 | The Intellisis Corporation | System and method for processing sound signals implementing a spectral motion transform |
US10107893B2 (en) * | 2011-08-05 | 2018-10-23 | TrackThings LLC | Apparatus and method to automatically set a master-slave monitoring system |
US8548803B2 (en) | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
US8620646B2 (en) | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US9183850B2 (en) | 2011-08-08 | 2015-11-10 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal |
US9213503B2 (en) * | 2011-10-30 | 2015-12-15 | Hewlett-Packard Development Company, L.P. | Service provider management of virtual instances corresponding to hardware resources managed by other service providers |
US9454849B2 (en) * | 2011-11-03 | 2016-09-27 | Microsoft Technology Licensing, Llc | Augmented reality playspaces with adaptive game rules |
US9648421B2 (en) * | 2011-12-14 | 2017-05-09 | Harris Corporation | Systems and methods for matching gain levels of transducers |
US20150117652A1 (en) * | 2012-05-31 | 2015-04-30 | Toyota Jidosha Kabushiki Kaisha | Sound source detection device, noise model generation device, noise reduction device, sound source direction estimation device, approaching vehicle detection device and noise reduction method |
US9292085B2 (en) | 2012-06-29 | 2016-03-22 | Microsoft Technology Licensing, Llc | Configuring an interaction zone within an augmented reality environment |
US20140285326A1 (en) * | 2013-03-15 | 2014-09-25 | Aliphcom | Combination speaker and light source responsive to state(s) of an organism based on sensor data |
US9922668B2 (en) | 2015-02-06 | 2018-03-20 | Knuedge Incorporated | Estimating fractional chirp rate with multiple frequency representations |
US9870785B2 (en) | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
US9842611B2 (en) | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
JP6332545B2 (ja) * | 2015-02-16 | 2018-05-30 | 株式会社島津製作所 | ノイズレベル推定方法、測定データ処理装置、及び測定データ処理用プログラム |
CN105785123B (zh) * | 2016-03-22 | 2018-04-06 | 电子科技大学 | 一种基于apFFT相位差的雷达信号频率计算方法 |
CN116052724B (zh) * | 2023-01-28 | 2023-07-04 | 深圳大学 | 肺音增强方法、系统、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10313498A (ja) * | 1997-03-13 | 1998-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 回り込み音抑圧形収音方法、装置及び記録媒体 |
JP3174777B2 (ja) * | 1999-01-28 | 2001-06-11 | 株式会社エイ・ティ・アール人間情報通信研究所 | 信号処理方法および装置 |
JP2006267444A (ja) * | 2005-03-23 | 2006-10-05 | Toshiba Corp | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 |
JP2008185834A (ja) * | 2007-01-30 | 2008-08-14 | Fujitsu Ltd | 音響判定方法、音響判定装置及びコンピュータプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6130949A (en) * | 1996-09-18 | 2000-10-10 | Nippon Telegraph And Telephone Corporation | Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor |
WO1999059139A2 (en) * | 1998-05-11 | 1999-11-18 | Koninklijke Philips Electronics N.V. | Speech coding based on determining a noise contribution from a phase change |
JP4641620B2 (ja) * | 1998-05-11 | 2011-03-02 | エヌエックスピー ビー ヴィ | ピッチ検出の精密化 |
EP1024435A1 (en) * | 1999-01-28 | 2000-08-02 | Atr Human Information Processing Research Laboratories | A mellin-transform information extractor for vibration sources |
US7388954B2 (en) * | 2002-06-24 | 2008-06-17 | Freescale Semiconductor, Inc. | Method and apparatus for tone indication |
US7885420B2 (en) * | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US8086425B2 (en) * | 2004-06-14 | 2011-12-27 | Papadimitriou Wanda G | Autonomous fitness for service assessment |
JP4729927B2 (ja) * | 2005-01-11 | 2011-07-20 | ソニー株式会社 | 音声検出装置、自動撮像装置、および音声検出方法 |
-
2009
- 2009-09-25 WO PCT/JP2009/004855 patent/WO2010038386A1/ja active Application Filing
- 2009-09-25 JP JP2010509053A patent/JP4547042B2/ja not_active Expired - Fee Related
-
2010
- 2010-05-04 US US12/773,102 patent/US20100215191A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10313498A (ja) * | 1997-03-13 | 1998-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 回り込み音抑圧形収音方法、装置及び記録媒体 |
JP3174777B2 (ja) * | 1999-01-28 | 2001-06-11 | 株式会社エイ・ティ・アール人間情報通信研究所 | 信号処理方法および装置 |
JP2006267444A (ja) * | 2005-03-23 | 2006-10-05 | Toshiba Corp | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 |
JP2008185834A (ja) * | 2007-01-30 | 2008-08-14 | Fujitsu Ltd | 音響判定方法、音響判定装置及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2010038386A1 (ja) | 2010-04-08 |
JPWO2010038386A1 (ja) | 2012-02-23 |
US20100215191A1 (en) | 2010-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4547042B2 (ja) | 音判定装置、音検知装置及び音判定方法 | |
JP4310371B2 (ja) | 音判定装置、音検知装置及び音判定方法 | |
JP4545233B2 (ja) | 音判定装置、音判定方法、及び、音判定プログラム | |
JP4891464B2 (ja) | 音識別装置及び音識別方法 | |
US8498863B2 (en) | Method and apparatus for audio source separation | |
US8155346B2 (en) | Audio source direction detecting device | |
US8223978B2 (en) | Target sound analysis apparatus, target sound analysis method and target sound analysis program | |
US10510363B2 (en) | Pitch detection algorithm based on PWVT | |
Khonglah et al. | Speech/music classification using speech-specific features | |
JP5048887B2 (ja) | 車両台数特定装置及び車両台数特定方法 | |
CN110838302B (zh) | 基于信号能量尖峰识别的音频分割方法 | |
RU2712652C1 (ru) | Устройство и способ для гармонического/перкуссионного/остаточного разделения звука с использованием структурного тензора на спектрограммах | |
US20190005934A1 (en) | System and Method for improving singing voice separation from monaural music recordings | |
Tian et al. | On the use of the tempogram to describe audio content and its application to music structural segmentation | |
WO2011096155A1 (ja) | 回転数増減判定装置及び回転数増減判定方法 | |
Goldstein et al. | Guitar Music Transcription from Silent Video. | |
US11574618B2 (en) | Methods and apparatus for harmonic source enhancement | |
Jamaludin et al. | An improved time domain pitch detection algorithm for pathological voice | |
CN113763930B (zh) | 语音分析方法、装置、电子设备以及计算机可读存储介质 | |
CN110827859B (zh) | 一种颤音识别的方法与装置 | |
Ingale et al. | Singing voice separation using mono-channel mask | |
Yedla et al. | Hybrid high noise resiliency pitch detection algoritm | |
Tsau et al. | Fundamental frequency estimation for music signals with modified Hilbert-Huang transform (HHT) | |
Maka | A comparative study of onset detection methods in the presence of background noise | |
NSKI et al. | High accuracy and octave error immune pitch detection algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100608 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100702 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130709 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |