JP4547042B2

JP4547042B2 - 音判定装置、音検知装置及び音判定方法

Info

Publication number: JP4547042B2
Application number: JP2010509053A
Authority: JP
Inventors: 伸一芳澤; 良久中藤
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2008-09-30
Filing date: 2009-09-25
Publication date: 2010-09-22
Anticipated expiration: 2029-09-25
Also published as: JPWO2010038386A1; WO2010038386A1; US20100215191A1

Description

本発明は、時間−周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定する音判定装置に関し、特に、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音（もしくは音色のない音）の周波数信号を時間−周波数領域ごとに判定する音判定装置に関する。

第１の従来技術として、入力音声信号（混合音）からピッチ周期の抽出を行い、ピッチ周期が抽出されない場合には雑音であると判定するものがある（例えば、特許文献１参照）。第１の従来技術では、音声候補と判定された入力音声から音声を認識する。

図１は、特許文献１に記載された第１の従来技術に係る雑音除去装置の構成を示すブロック図である。

この雑音除去装置は、認識部２５０１と、ピッチ抽出部２５０２と、判定部２５０３と、周期範囲記憶部２５０４とを備える。

認識部２５０１は、入力音声信号（混合音）から音声部分（抽出音）と推定される信号区間の音声認識候補を出力する処理部である。ピッチ抽出部２５０２は、入力音声信号からピッチ周期を抽出する処理部である。判定部２５０３は、認識部２５０１で出力された信号区間に対する音声認識候補とピッチ抽出部２５０２で抽出された該区間の信号のピッチ抽出結果とから音声認識結果を出力する処理部である。周期範囲記憶部２５０４は、ピッチ抽出部２５０２によって抽出されるピッチ周期に対する周期範囲を記憶している記憶装置である。この雑音除去装置では、ピッチ周期が予め設定されたピッチ周期に対する設定周期の範囲内であれば、該信号区間の信号は音声候補であると判定し、ピッチ周期に対する設定周期の範囲外であれば雑音であると判定している。

また、第２の従来技術として、３つの判定手段の判定結果に基づいて人の声の入力の有無を最終的に判定するものがある（例えば、特許文献２参照）。第１の判定手段は、入力信号（混合音）から調波構造をもつ信号成分を検出した場合に、人の声（抽出音）が入力されたと判定する。第２の判定手段は、入力信号の周波数重心が所定の周波数範囲内である場合に、人の声が入力されたと判定する。第３の判定手段は、ノイズレベル記憶手段に記憶された雑音レベルに対する入力信号のパワー比が所定のしきい値を超えた場合に、人の声が入力されたと判定する。

また、第３の従来技術として、オーディオ信号において、位相がランダムに変化する部分は雑音により支配されていると判断することにより、効率的にオーディオ信号の符号化を行う符号化方法がある（例えば、特許文献３）。

特開平５−２１０３９７号公報（請求項２、図１）特開２００６−１９４９５９号公報（請求項１）特表２００２−５１５６１０号公報（段落００１３）

第１の従来技術の構成では、ピッチ周期は時間区間ごとに抽出される。このため、時間−周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定することができない。また、エンジン音（エンジンの回転数に応じてピッチ周期が変化する音）などのようにピッチ周期が変化する音を判定することはできない。

また、第２の従来技術の構成では、調波構造や周波数重心などのスペクトル形状により抽出音を判定している。このため、大きな雑音が混合するとスペクトル形状が歪むため、抽出音を判定することができない。特に、雑音によりスペクトル形状は失われているが、時間−周波数領域ごとに見れば抽出音が部分的に存在する場合に、この部分の周波数信号を抽出音の周波数信号として判定することができない。

また、第３の従来技術の構成では、オーディオ信号の符号化を対象としているため、混合音から抽出音のみを抽出する技術に適用することが困難である。

本発明は、前記従来の課題を解決するもので、時間−周波数領域ごとに、混合音に含まれる抽出音の周波数信号を判定できる音判定装置等を提供することを目的とする。特に、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音（もしくは音色のない音）の周波数信号を時間−周波数領域ごと判定する音判定装置等を提供することを目的とする。

本発明にある局面に係る雑音除去装置は、抽出音と雑音とを含む混合音を受付けて、所定の時間幅に含まれる複数の時刻の各々について、前記混合音の周波数信号を時刻ごとに求める周波数分析部と、前記所定の時間幅に含まれる複数の時刻の前記周波数信号において、第１のしきい値以上の数から構成され、かつ周波数信号間の位相距離が第２のしきい値以下である周波数信号の各々を、前記抽出音の周波数信号とに判定する抽出音判定部とを備え、前記位相距離は、時刻ｔの周波数信号の位相をψ（ｔ）（ラジアン）とするときに、位相をψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）で表したときの、周波数信号の位相間の位相の距離であり、前記所定の時間幅の時間長は、前記窓関数の時間窓幅の２〜４倍の長さに設定されている。

この構成によると、時刻ｔの周波数信号の位相をψ（ｔ）（ラジアン）とするときに、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）における距離（所定の時間幅のおける位相ψ´（ｔ）の時間形状を計る１つの指標）を用いる。このことにより、時間−周波数領域ごとに、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音との区別ができる。また、音色のある音（もしくは音色のない音）の周波数信号を判定することができる。

さらに、位相距離を求める時間幅を、窓関数の時間窓幅（時間分解能に対応）の２〜４倍の時間長に設定する。これにより、時間分解能（窓関数の時間窓幅）に基づいて位相距離を求める時間幅を決定できるので、様々な時間分解能で、抽出音の周波数信号を判定することができる。特に、周波数構造が時間的に変化する抽出音を判定する場合には適切な時間分解能が複数存在するため、適切な時間分解能を用いることで抽出音の周波数信号を正確に判定することができる。例えば、音声のように短時間で周波数構造が大きく変化する抽出音に対しては時間分解能を細かくして、アイドリング状態でのエンジン音のように周波数構造がゆるやかに変化する抽出音に対しては時間分解能を粗くして（周波数分解能を細かくして）、抽出音の周波数信号を判定する。

なお、抽出音に適切でない時間分解能（窓関数の時間窓幅）で抽出音の周波数信号を判定した場合には、混合音などの影響で位相が歪むため必然的に位相距離が大きくなる。このため、この場合にも雑音の周波数信号を誤って抽出音の周波数信号として判定することはない。

好ましくは、前記周波数分析部は、複数の時間窓幅の窓関数を用いて前記窓関数ごとに、前記所定の時間幅に含まれる複数の時刻の周波数信号から１／ｆ（ｆは分析周波数）の時間間隔の時刻の周波数信号を求め、前記抽出音判定部は、前記窓関数ごとに求められた周波数信号の各々について、前記抽出音の判定を行い、前記音判定装置は、さらに、同じ時刻において、少なくとも１つの前記窓関数から求められた周波数信号から前記抽出音の周波数信号が判定されたときに、抽出音検知フラグを作成して出力する音検知部を備える。

この構成によると、複数の時間分解能（窓関数の時間窓幅）での判定結果から、抽出音に適切な時間分解能での判定結果を用いて抽出音を検出できるので、正確に抽出音を検出して利用者に知らせることができる。例えば、車両検知装置に組み込んだ場合には、エンジン音（抽出音）を正確に検出して、運転者に車両の接近を知らせることができる。

好ましくは、前記抽出音判定部は、第１のしきい値以上の数から構成され、かつ周波数信号間の前記位相距離が第２のしきい値以下である前記周波数信号の集まりを複数作成して、前記周波数信号の集まり同士の前記位相距離が第３のしきい値以上になる前記周波数信号の集まり同士を、異なる種類の抽出音の周波数信号として判定する。

この構成によると、同じ時間−周波数領域に複数の種類の抽出音が存在する場合に、それぞれを区別して判定することができる。例えば、複数の車両のエンジン音を区別して判定できる。このため、本発明の雑音除去装置を、車両検知装置に適用した場合には、運転者に複数の異なる車両が存在していることを知らせることができ、運転者は安全に運転できる。また、複数の人の音声を区別して判定できるため、音声出力装置に適用した場合には複数の人の音声を分離して聞かせることができる。

さらに好ましくは、前記抽出音判定部は、前記所定の時間幅に含まれる複数の時刻の周波数信号から１／ｆ（ｆは分析周波数）の時間間隔の時刻の周波数信号を選択して、前記選択された時刻の周波数信号を用いて前記位相距離を求める。

この構成によると、１／ｆ（ｆは分析周波数）の時間間隔の周波数信号では、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）＝ψ（ｔ）となり、位相距離をψ（ｔ）を用いた簡単な計算で求めることができる。

さらに好ましくは、上述の音判定装置は、さらに、時刻ｔの周波数信号の位相ψ（ｔ）（ラジアン）を、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）に補正する位相補正部を備え、前記抽出音判定部は、補正された前記周波数信号の位相ψ´（ｔ）を用いて前記位相距離を求める。

この構成によると、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）で表される補正を行う。このことで、１／ｆ（ｆは分析周波数）の時間間隔よりも細かい時間間隔の周波数信号において、位相ψ´（ｔ）を用いた簡単な計算により位相距離を求めることができる。このため、１／ｆの時間間隔が大きくなる低い周波数帯域においても、短い時間領域ごとにψ´（ｔ）を用いた簡単な計算で抽出音を判定することができる。

本発明の他の局面に係る音検知装置は、上述の音判定装置と、前記音判定装置において、前記混合音の周波数信号に含まれる周波数信号が前記抽出音の周波数信号と判定されたときに、抽出音検知フラグを作成して出力する音検知部とを備える。

この構成によると、時間−周波数領域ごとに、抽出音を検出して利用者に知らせることができる。例えば、本発明の雑音除去装置を車両検知装置に組み込んだ場合には、抽出音としてエンジン音を検出して、運転者に車両の接近を知らせることができる。

好ましくは、前記周波数分析部は、マイクロホンごとに集音される複数の前記混合音を受付けて、前記混合音ごとに周波数信号を求め、前記抽出音判定部は、前記混合音の各々について前記抽出音の判定を行い、前記音検知部は、同じ時刻において、少なくとも１つの前記混合音の周波数信号に含まれる周波数信号が前記抽出音の周波数信号と判定されたときに、抽出音検知フラグを作成して出力する。

この構成によると、雑音の影響で、１つのマイクロホンで集音した混合音からは抽出音が検出できなくても、他のマイクロホンで抽出音を検出できる可能性が広がる。このため、検知ミスを少なくすることができる。例えば、本発明の雑音除去装置を車両検知装置に組み込んだ場合には、マイクロホンの位置に依存する風雑音の影響が少ない、マイクロホンで集音した混合音を利用できる。このため、抽出音としてのエンジン音を正確に検出して、運転者に車両の接近を知らせることができる。このとき、雑音の大きい混合音による悪い影響が出てくると考えられるかもしれない。しかし、本発明の特徴である、雑音の大きい時間−周波数領域では位相の時間変化が不規則になり自動的に雑音を除去できるという性質をうまく利用することで、この悪い影響を除去できている。

本発明のさらに他の局面に係る音抽出装置は、上述の音判定装置と、前記音判定装置において、前記混合音の周波数信号に含まれる周波数信号が前記抽出音の周波数信号と判定されたときに、前記抽出音の周波数信号と判定された前記周波数信号を出力する音抽出部とを備える。

この構成によると、時間−周波数領域ごとに判定された抽出音の周波数信号を利用できる。このため、例えば、本発明の雑音除去装置を音出力装置に組み込めば、雑音が除去された後のきれいな抽出音が再現できる。また、本発明の雑音除去装置を音源方向検知装置に組み込めば、雑音が除去された後の正確な音源方向を求めることができる。また、本発明の雑音除去装置を音識別装置に組み込めば、周囲に雑音が存在する場合でも正確に音識別を行うことができる。

なお、本発明は、このような特徴的な手段を備える音判定装置として実現することができるだけでなく、音判定装置に含まれる特徴的な手段をステップとする音判定方法として実現したり、音判定方法に含まれる特徴的なステップをコンピュータに実行させる音判定プログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。

本発明の音判定装置等によれば、時間−周波数領域ごとに混合音に含まれる抽出音の周波数信号を判定することができる。特に、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音（もしくは音色のない音）の周波数信号を、時間−周波数領域ごと判定することができる。

例えば、本発明は、時間−周波数領域ごとに判定された音声の周波数信号を入力して、逆周波数変換により抽出音を出力する音声出力装置に適用できる。また、２以上のマイクロホンから入力された混合音の各々に対して、時間−周波数領域ごとに判定された抽出音の周波数信号を入力して、抽出音の音源方向を出力する音源方向検知装置に適用できる。さらに、時間−周波数領域ごとに判定された抽出音の周波数信号を入力して、音声認識や音識別を行う音識別装置に適用できる。さらにまた、時間−周波数領域ごとに判定された風雑音の周波数信号を入力して、パワーの大きさを出力する風音レベル判定装置に適用できる。また、時間−周波数領域ごとに判定されたタイヤ摩擦による走行音の周波数信号を入力して、パワーの大きさから車両を検知する車両検知装置に適用できる。さらに、時間−周波数領域ごとに判定されたエンジン音の周波数信号を検知して、車両の接近を知らせる車両検知装置に適用できる。さらにまた、時間−周波数領域ごとに判定されたサイレン音の周波数信号を検知して、緊急車両の接近を知らせる緊急車両検知装置等に適用できる。

図１は、従来の雑音除去装置の全体構成を示したブロック図である。図２は、本発明での位相の定義を説明する図である。図３Ａは、本発明の特徴の１つを説明する概念図である。図３Ｂは、本発明の特徴の１つを説明する概念図である。図４Ａは、音色のある音の音源の性質と位相との関係を説明する図である。図４Ｂは、音色のない音の音源の性質と位相との関係を説明する図である。図５は、本発明の実施の形態１における雑音除去装置の外観図である。図６は、本発明の実施の形態１における雑音除去装置の全体構成を示したブロック図である。図７は、本発明の実施の形態１における雑音除去装置の抽出音判定部１０１（ｊ）を示したブロック図である。図８は、本発明の実施の形態１における雑音除去装置の動作手順を示すフローチャートである。図９は、本発明の実施の形態１における雑音除去装置の、抽出音の周波数信号を判定するステップＳ３０１（ｊ）の動作手順を示すフローチャートである。図１０は、混合音２４０１のスペクトログラムの一例を示した図である。図１１は、混合音２４０１を作成するときに用いた音声のスペクトログラムの一例を示した図である。図１２は、周波数信号を選択する方法の一例を説明する図である。図１３Ａは、周波数信号を選択する方法の他の一例を説明する図である。図１３Ｂは、周波数信号を選択する方法の他の一例を説明する図である。図１４は、位相距離の求め方の一例を説明する図である。図１５は、混合音２４０１から抽出された音声のスペクトログラムを示した図である。図１６は、位相距離を求める時間範囲（所定の時間幅）における、混合音の周波数信号の位相を模式的に示した図である。図１７は、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）での位相の距離について説明するための図である。図１８は、位相の時間変化が反時計回りになる仕組みについて説明するための図である。図１９は、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）での位相の距離について説明するための図である。図２０は、本発明の実施の形態１における他の雑音除去装置の全体構成を示したブロック図である。図２１は、混合音２４０１の２００Ｈｚにおける周波数信号の時間波形を示した図である。図２２は、混合音２４０１を作成するときに用いた２００Ｈｚの正弦波における周波数信号の時間波形を示した図である。図２３は、混合音２４０１から抽出された２００Ｈｚにおける周波数信号の時間波形を示した図である。図２４は、周波数信号の位相成分のヒストグラムを作成する方法の一例について説明するための図である。図２５は、周波数信号選択部２００（ｊ）が選択した周波数信号と、選択された周波数信号の位相のヒストグラムの一例を示す図である。図２６は、本発明の実施の形態２における雑音除去装置の全体構成を示したブロック図である。図２７は、本発明の実施の形態２における雑音除去装置の抽出音判定部１５０２（ｊ）を示したブロック図である。図２８は、本発明の実施の形態２における雑音除去装置の動作手順を示すフローチャートである。図２９は、本発明の実施の形態２における雑音除去装置の抽出音の周波数信号を判定するステップＳ１７０１（ｊ）の動作手順を示すフローチャートである。図３０は、時間差に起因する位相差を補正する方法の一例について説明する図である。図３１は、時間差に起因する位相差を補正する方法の一例について説明する図である。図３２は、時間差に起因する位相差を補正する方法の一例について説明する図である。図３３は、位相距離を求める時間範囲（所定の時間幅）における、混合音の周波数信号の位相を模式的に示した図である。図３４は、所定の時間幅における混合音の位相を模式的に示した図である。図３５は、周波数信号の位相のヒストグラムを作成する方法の一例について説明するための図である。図３６は、本発明の実施の形態３における車両検知装置の全体構成を示したブロック図である。図３７は、本発明の実施の形態３における車両検知装置の抽出音判定部４１０３（ｊ）を示したブロック図である。図３８は、本発明の実施の形態３における車両検知装置の動作手順を示すフローチャートである。図３９は、混合音２４０１（１）と混合音２４０１（２）のスペクトログラムの一例を示した図である。図４０は、適切な分析周波数ｆを設定する１つの方法について説明する図である。図４１は、適切な分析周波数ｆを設定する１つの方法について説明する図である。図４２は、エンジン音の周波数信号を判定した結果の例を示した図である。図４３は、抽出音検知フラグの作成方法の一例を説明する図である。図４４は、位相の時間変化についての考察を行うための図である。図４５は、位相の時間変化についての考察を行うための図である。図４６は、バイク音の位相の時間変化を分析した結果を示す図である。図４７は、サイレン音の周波数信号を判定した結果の例を示した図である。図４８は、音声の周波数信号を判定した結果の例を示した図である。図４９Ａは、１００Ｈｚの正弦波を入力した場合の検知結果を示す図である。図４９Ｂは、白色雑音を入力した場合の検知結果を示す図である。図４９Ｃは、１００Ｈｚの正弦波と白色雑音との混合音を入力した場合の検知結果を示す図である。図５０Ａは、１００Ｈｚの正弦波を入力した場合の検知結果を示す図である。図５０Ｂは、白色雑音を入力した場合の検知結果を示す図である。図５０Ｃは、１００Ｈｚの正弦波と白色雑音との混合音を入力した場合の検知結果を示す図である。図５１は、窓関数と時間窓幅の関係を示した図である。図５２は、エンジン音と、風雑音と、エンジン音と風雑音との混合音のスペクトログラムの一例を示した図である。図５３は、エンジン音と、風雑音と、エンジン音と風雑音との混合音からエンジン音の周波数信号判定した結果の一例を示した図である。図５４は、エンジン音と、風雑音と、エンジン音と風雑音との混合音からエンジン音の周波数信号判定した結果の一例を示した図である。図５５は、エンジン音と、風雑音と、エンジン音と風雑音との混合音からエンジン音の周波数信号判定した結果の一例を示した図である。図５６は、エンジン音と、風雑音と、エンジン音と風雑音との混合音からエンジン音の周波数信号判定した結果の一例を示した図である。図５７は、エンジン音と、風雑音と、エンジン音と風雑音との混合音からエンジン音の周波数信号判定した結果の一例を示した図である。図５８は、エンジン音と、風雑音と、エンジン音と風雑音との混合音からエンジン音の周波数信号判定した結果の一例を示した図である。図５９は、エンジン音と、風雑音と、エンジン音と風雑音との混合音からエンジン音の周波数信号判定した結果の一例を示した図である。図６０は、エンジン音と、風雑音と、エンジン音と風雑音との混合音からエンジン音の周波数信号判定した結果の一例を示した図である。図６１は、エンジン音と、風雑音と、エンジン音と風雑音との混合音からエンジン音の周波数信号判定した結果の一例を示した図である。図６２は、エンジン音と、風雑音と、エンジン音と風雑音との混合音からエンジン音の周波数信号判定した結果の一例を示した図である。図６３は、音声と、風雑音と、音声と風雑音との混合音のスペクトログラムの一例を示した図である。図６４は、音声と、風雑音と、音声と風雑音との混合音から音声の周波数信号判定した結果の一例を示した図である。図６５は、音声と、風雑音と、音声と風雑音との混合音から音声の周波数信号判定した結果の一例を示した図である。図６６は、音声と、風雑音と、音声と風雑音との混合音から音声の周波数信号判定した結果の一例を示した図である。図６７は、音声と、風雑音と、音声と風雑音との混合音から音声の周波数信号判定した結果の一例を示した図である。図６８は、サイレン音と、走行音（タイヤの摩擦音）と、サイレン音と走行音（タイヤの摩擦音）との混合音のスペクトログラムの一例を示した図である。図６９は、サイレン音と、走行音（タイヤの摩擦音）と、サイレン音と走行音（タイヤの摩擦音）との混合音からサイレン音の周波数信号判定した結果の一例を示した図である。図７０は、サイレン音と、走行音（タイヤの摩擦音）と、サイレン音と走行音（タイヤの摩擦音）との混合音からサイレン音の周波数信号判定した結果の一例を示した図である。図７１は、サイレン音と、走行音（タイヤの摩擦音）と、サイレン音と走行音（タイヤの摩擦音）との混合音からサイレン音の周波数信号判定した結果の一例を示した図である。

本発明の特徴の１つは、入力した混合音を周波数分析した後に、分析した周波数信号の位相の時間変化が、（１／ｆ）（ｆは分析周波数）で規則的に繰り返されるか否かにより、分析周波数ｆにおいて、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音（もしくは音色のない音）の周波数信号を時間−周波数領域ごとに判定することである。

ここで、図２を用いて本発明で用いる位相の定義を行う。図２（ａ）には、入力した混合音が示されている。横軸は時間を表しており、縦軸は振幅を表している。この例では周波数ｆの正弦波を用いている。また、図２（ｂ）には、離散フーリエ変換を用いて周波数分析を行う場合の基底波形（周波数ｆの正弦波）の概念図が示されている。横軸と縦軸は図２（ａ）と同じである。この基底波形と入力した混合音との畳み込み処理を行うことで周波数信号（位相）を求める。この例では、基底波形を時間軸方向に移動させながら入力した混合音と畳み込み処理を行うことで、時刻ごとの周波数信号（位相）を求めている。この処理で求めた結果を図２（ｃ）に示す。横軸は時間を表しており縦軸は位相を表している。この例では、入力した混合音は周波数ｆの正弦波であるため、周波数ｆでの位相のパターンは、１／ｆの時刻の周期で規則的に繰り返されている。

本発明では、図２に示すように、基底波形を時間軸方向に移動させながら求めた位相を、本発明における「位相」の定義とする。

図３Ａおよび図３Ｂは、本発明の特徴を説明する概念図である。図３Ａは、バイク音（エンジン音）を周波数ｆで周波数分析した結果を模式的に示した図である。図３Ｂは、暗騒音を周波数ｆで周波数分析した結果を模式的に示した図である。両図ともに横軸は時間軸であり縦軸は周波数軸である。図３Ａに示すように、周波数の時間変化などの影響により周波数信号の振幅（パワー）の大きさは変化するものの、周波数信号の位相は、規則的に１／ｆの時間間隔（ｆは分析周波数）で等角速度で０〜２π（ラジアン）まで変化する。例えば、１００Ｈｚの周波数信号では、位相は１０ｍｓ間隔の間に２π（ラジアン）回転して、２００Ｈｚの周波数信号では、位相は５ｍｓ間隔の間に２π（ラジアン）回転する。一方、図３Ｂに示すように、暗騒音などの音色のない音における周波数信号の位相の時間変化は不規則になる。また、混合音が原因で歪んだ部分においても位相の時間変化は乱れて不規則になる。このように、周波数信号の位相の時間変化が規則的な、時間−周波数領域の周波数信号を判定することで、風雑音、雨音、暗騒音などの音色のない音と区別して、エンジン音、サイレン音、音声などの音色のある音の周波数信号を判定することができる。または、音色のある音と区別して、音色のない音の周波数信号を判定することができる。

ここで、音色のある音と音色のない音との音源の性質の違いと位相との関係について説明する。

図４Ａ（ａ）は、周波数ｆの、音色のある音（エンジン音、サイレン音、音声、正弦波）の位相を模式的に示した図である。図４Ａ（ｂ）は、周波数ｆの基準波形を示す図である。図４Ａ（ｃ）は、周波数ｆの、音色のある音の優勢な音波形を示す図である。図４Ａ（ｄ）は、基準波形からの位相差を示す図である。図４Ａ（ｃ）に示した音波形の、図４Ａ（ｂ）に示した基準波形からの位相差を示す図である。

図４Ｂ（ａ）は、周波数ｆの、音色のない音（暗騒音、風雑音、雨音、白色雑音）の位相を模式的に示した図である。図４Ｂ（ｂ）は、周波数ｆの基準波形を示す図である。図４Ｂ（ｃ）は、周波数ｆの、音色のない音の音波形（音Ａ、音Ｂ、音Ｃ）を示す図である。図４Ｂ（ｄ）は、基準波形からの位相差を示す図である。図４Ｂ（ｃ）に示した音波形の、図４Ｂ（ｂ）に示した基準波形からの位相差を示す図である。

音色のある音（エンジン音、サイレン音、音声、正弦波）は、図４Ａ（ａ）と図４Ａ（ｃ）とに示すように、周波数ｆにおいて、周波数ｆの優勢な正弦波から構成される音波形になる。一方、音色のない音（暗騒音、風雑音、雨音、白色雑音）は、図４Ｂ（ａ）と図４Ｂ（ｃ）とに示すように、周波数ｆにおいて、周波数ｆの複数の正弦波が混合された音波形になる。

ここで、音色のない音の場合には、複数の音波形を示している理由を説明する。

つまり、暗騒音は、短い時間区間（数百ミリ秒以下のオーダー）の中で、複数の重なった遠方に存在する音（同じ周波数の音）で構成されるためである。

また、空気の乱流により、風雑音は発生するが、乱流は、短い時間区間（数百ミリ秒以下のオーダー）の中で、複数の重なった渦巻き音（同じ周波数帯域の音）で構成されるためである。

また、雨音は、短い時間間隔（数百ミリ秒以下のオーダー）の中で、複数の重なった雨粒の音（同じ周波数帯域の音）で構成されるためである。

図４Ａ（ｃ）と図４Ｂ（ｃ）において、横軸は時間を表しており縦軸は振幅を表している。

はじめに、図４Ａ（ｂ）、図４Ａ（ｃ）、図４Ａ（ｄ）を用いて、音色のある音の位相について検討を行う。ここでは、図４Ａ（ｂ）に示すような周波数ｆの正弦波を基準波形として準備する。横軸は時間を表しており縦軸は振幅を表している。この基準波形は、図２（ｂ）に示された離散フーリエ変換の基底波形を時間軸方向に移動させずに固定させたものに対応する。図４Ａ（ｃ）は、音色のある音の周波数ｆにおける優勢な音波形である。図４Ａ（ｄ）には、図４Ａ（ｂ）に示された基準波形と図４Ａ（ｃ）に示された音波形との位相差が示されている。図４Ａ（ｄ）からわかるように、音色のある音の場合は、図４Ａ（ｂ）に示された基準波形と図４Ａ（ｃ）に示された優勢な音波形との位相差の時間的なゆらぎは小さくなる。ここで、本発明で定義した位相との関係を考えると、図４Ａ（ｄ）に示された位相差に、図２（ｂ）に示された基底波形が時間軸方向にｔ移動したときの位相増加分２πｆｔを加えた値が本発明で定義した位相になる。音色のある音では、図４Ａ（ｄ）に示された位相差はほぼ一定の値をもつ。このため、この位相差に２πｆｔを加えて求められる本発明における位相のパターンは、図２（ｃ）に示すように１／ｆの時刻の周期で規則的に繰り返されることになる。

次に、図４Ｂ（ｂ）、図４Ｂ（ｃ）、図４Ｂ（ｄ）を用いて、音色のない音の位相について検討を行う。ここでも、図４Ａ（ｂ）と同様に、図４Ｂ（ｂ）に示すような周波数ｆの正弦波を基準波形として準備する。横軸は時間を表しており縦軸は振幅を表している。図４Ｂ（ｃ）は、音色のない音の周波数ｆにおける、混合された複数の正弦波の音波形（音Ａ、音Ｂ、音Ｃ）である。これらの音波形は数百ミリ秒以下のオーダーの短い時間間隔で混合されている。図４Ｂ（ｄ）には、図４Ｂ（ｂ）に示された基準波形と図４Ｂ（ｃ）に示された複数の音が混合された音波形との位相差が示されている。図４Ｂ（ｄ）のはじめの時刻では、音Ａの振幅が音Ｂと音Ｃの振幅よりも大きいために音Ａの位相差が現れている。また、真ん中の時刻では、音Ｂの振幅が音Ａと音Ｃの振幅よりも大きいために音Ｂの位相差が現れている。また、終わりの時刻では、音Ｃの振幅が音Ａと音Ｂの振幅よりも大きいために音Ｃの位相差が現れている。このように、音色のない音の場合は、数百ミリ秒以下のオーダーの短い時間間隔において、図４Ｂ（ｂ）に示された基準波形と図４Ｂ（ｃ）に示された複数の音が混合された音波形との位相差の時間的なゆらぎは大きくなる。ここで、本発明で定義した位相との関係を考えると、図４Ｂ（ｄ）に示された位相差に、図２（ｂ）に示された基底波形が時間軸方向にｔ移動したときの位相増加分２πｆｔを加えた値が本発明で定義した位相である。このため、音色のない音では、本発明における位相のパターンは、１／ｆの時刻の周期で規則的に繰り返されることはない。

このように、図４Ａ（ｄ）又は図４Ｂ（ｄ）に示すような基準波形からの位相差を用いて、基準波形からの位相差の時間的なゆらぎの大小により位相距離を求めて、音色のある音と音色のない音の判定を行うことができる。また、図２（ｃ）に示すような基底波形を時間軸方向に移動させながら求めた本発明における位相を用いて、位相が１／ｆ（ｆは分析周波数）の時刻での周期的に繰り返される時間波形からのずれにより位相距離を求めて、音色のある音と音色のない音の判定を行うことができる。これらのいずれの方法も、位相をψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）で表したときの位相間の距離である位相距離を用いて、音色のある音と音色のない音の判定を行う具体的な方法を示したものである。

さらに、サイレン音のように機械的で正弦波に近い音と、バイク音（エンジン音）のように物理機構的な音とは、位相の時間変化の規則的な度合いが異なると考えられる。このため位相の時間変化の規則的な度合いを不等号で表すと、

のようになると考えられる。これより、サイレン音とバイク音と暗騒音との混合音からバイク音の周波数信号を判定する場合には、位相の時間変化の規則的な度合いを判定すればよいと考えられる。

また、本発明では、位相距離を用いることにより、雑音と抽出音との周波数信号のパワーの大小に関係なく抽出音の周波数信号を判定することができる。例えば、ある時間−周波数領域での雑音の周波数信号のパワーが大きい場合でも、位相の規則性を用いることで、この雑音よりもパワーが大きい時間−周波数領域の抽出音の周波数信号を判定できることはもちろん、この雑音よりもパワーが小さい時間−周波数領域の抽出音の周波数信号も判定することができる。

以下、本発明の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
図５は、本発明の実施の形態１における雑音除去装置の外観図である。雑音除去装置１００は、周波数分析部と、抽出音判定部と、音抽出部と備えるものであり、コンピュータを構成する１つの部品であるＣＰＵ上で、これらの処理部の機能を実現するためのプログラムを実行することにより実現される。なお、各種中間データや実行結果データ等は、メモリに記憶される。

図６及び図７は、本発明の実施の形態１における雑音除去装置の構成を示すブロック図である。

図６において、雑音除去装置１００は、ＦＦＴ分析部２４０２（周波数分析部）と、雑音除去処理部１０１（抽出音判定部と音抽出部とから構成される）とを含む。ＦＦＴ分析部２４０２および雑音除去処理部１０１は、コンピュータ上で各処理部の機能を実現するためのプログラムを実行することにより実現される。

ＦＦＴ分析部２４０２は、入力された混合音２４０１に対して高速フーリエ変換処理を施し、混合音２４０１の周波数信号を求める処理部である。このとき、混合音２４０１の周波数信号は、混合音２４０１に所定の時間窓幅の窓関数を掛け合わせて、窓関数が掛け合わされた後の混合音２４０１から求められる。以下では、ＦＦＴ分析部２４０２で求められた周波数信号の周波数帯域の個数をＭとして、それらの周波数帯域を指定する番号を記号ｊ（ｊ＝１〜Ｍ）で表すこととする。

雑音除去処理部１０１は、抽出音判定部１０１（ｊ）（ｊ＝１〜Ｍ）と、音抽出部２０２（ｊ）（ｊ＝１〜Ｍ）とを含む。雑音除去処理部１０１は、ＦＦＴ分析部２４０２が求めた周波数信号に対して、周波数帯域ｊ（ｊ＝１〜Ｍ）ごとに、抽出音判定部１０１（ｊ）（ｊ＝１〜Ｍ）と音抽出部２０２（ｊ）（ｊ＝１〜Ｍ）とを用いて混合音から抽出音の周波数信号を取り出すことで雑音の除去を行う処理部である。

抽出音判定部１０１（ｊ）（ｊ＝１〜Ｍ）は、所定の時間幅に含まれる１／ｆ（ｆは分析周波数）の時間間隔の時刻から選択される複数の時刻の周波数信号を用いて、分析の対象とする時刻の周波数信号と、分析の対象とする時刻とは異なる複数の時刻における周波数信号との位相距離を求める。このとき、位相距離を求めるときに用いた周波数信号の数は第１のしきい値以上の数から構成されている。また、位相距離は、時刻ｔの周波数信号の位相をψ（ｔ）（ラジアン）とするときに、位相をψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）で示したときの、周波数信号の位相の距離である。また、所定の時間幅の時間長は、窓関数の時間窓幅の、２〜４倍の長さに設定されている。そして、位相距離が第２のしきい値以下になる分析の対象とする時刻の周波数信号を抽出音の周波数信号２４０８と判定する。

最後に、音抽出部２０２（ｊ）（ｊ＝１〜Ｍ）は、抽出音判定部１０１（ｊ）（ｊ＝１〜Ｍ）が判定した抽出音の周波数信号２４０８を取り出すことで混合音から雑音の除去を行う。

これらの処理を、所定の時間幅の時刻を移動させながら行うことにより、時間−周波数領域ごとに抽出音の周波数信号２４０８を取り出すことができる。

図７に、抽出音判定部１０１（ｊ）（ｊ＝１〜Ｍ）の構成を示すブロック図を示す。

抽出音判定部１０１（ｊ）（ｊ＝１〜Ｍ）は、周波数信号選択部２００（ｊ）（ｊ＝１〜Ｍ）と、位相距離判定部２０１（ｊ）（ｊ＝１〜Ｍ）とから構成される。

周波数信号選択部２００（ｊ）（ｊ＝１〜Ｍ）は、位相距離を求める際に用いる周波数信号として、所定の時間幅の周波数信号から第１のしきい値以上の数から構成される周波数信号を選択する処理部である。このとき、所定の時間幅の時間長は、窓関数の時間窓幅の、２〜４倍の長さに設定されている。位相距離判定部２０１（ｊ）（ｊ＝１〜Ｍ）は、周波数信号選択部２００（ｊ）（ｊ＝１〜Ｍ）が選択した周波数信号の位相を用いて位相距離を計算して、位相距離が第２のしきい値以下になる周波数信号を抽出音の周波数信号２４０８と判定する処理部である。

次に、以上のように構成された雑音除去装置１００の動作について説明する。

以下では、ｊ番目の周波数帯域について説明を行う。他の周波数帯域についても同様の処理が行なわれる。ここでは、周波数帯域の中心周波数と分析周波数（位相距離を求めるψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）における周波数ｆ）とが一致する場合を例にして説明を行う。この場合、周波数ｆに抽出音が存在するか否かを判定することができる。他の方法として、周波数帯域を含む複数の周波数を分析周波数として抽出音の判定を行ってもよい。この場合は、中心周波数の周辺の周波数に抽出音が存在するか否かを判定することができる。

図８及び図９は、雑音除去装置１００の動作手順を示すフローチャートである。

ここでは、混合音２４０１として、音声（有声音）と白色雑音との混合音（コンピュータ上で混合して作成したもの）を用いた場合を一例として説明を行う。この例では、混合音２４０１から白色雑音（音色のない音）を除去して音声（音色のある音）の周波数信号を抽出することを目的とする。

図１０に、音声と白色雑音との混合音２４０１のスペクトログラムの一例を示す。横軸は時間軸であり縦軸は周波数軸である。色の濃度は周波数信号のパワーの大きさを表しており、濃い色は周波数信号のパワーが大きいことを示している。ここでは、５０Ｈｚ〜１０００Ｈｚの周波数範囲の０秒〜５秒のスペクトログラムが表示されている。ここでの表示には、周波数信号の位相成分の表示は省略されている。

図１１に、図１０に示した混合音２４０１を作成するときに用いた音声のスペクトログラムを示す。表示の方法は図１０と同様であるため、その詳細な説明は繰り返さない。

図１０と図１１とから、混合音２４０１において、音声の周波数信号のパワーが大きい部分においてのみ音声を観測することができる。このとき音声の調波構造が部分的に失われていることがわかる。

初めに、ＦＦＴ分析部２４０２は、混合音２４０１を受付けて、混合音２４０１に対して高速フーリエ変換処理を施すことにより、混合音２４０１の周波数信号を求める（ステップＳ３００）。この例では、高速フーリエ変換処理により複素空間上での周波数信号を求めている。この例における高速フーリエ変換処理の条件としては、サンプリング周波数＝１６０００Ｈｚでサンプリングされた混合音２４０１を時間窓幅ΔＴ＝６４ｍｓ（１０２４ｐｔ）のハニング窓を用いることで処理している。また、時間軸方向には１ｐｔ（０．０６２５ｍｓ）の時間シフトを行いながら各時刻における周波数信号を求めている。この処理結果における周波数信号のパワーの大きさのみを表示したものが図１０である。

次に、雑音除去処理部１０１は、ＦＦＴ分析部２４０２が求めた周波数信号に対して、周波数帯域ｊごとに、抽出音判定部１０１（ｊ）を用いて混合音から抽出音の周波数信号を時間−周波数領域ごとに判定する（ステップＳ３０１（ｊ））。そして、音抽出部２０２（ｊ）を用いて抽出音判定部１０１（ｊ）が判定した抽出音の周波数信号を取り出すことで雑音の除去を行う（ステップＳ３０２（ｊ））。この後の説明はｊ番目の周波数帯域に関してのみ行う。他の周波数帯域に対する処理も同様である。この例では、ｊ番目の周波数帯域の中心周波数はｆである。

抽出音判定部１０１（ｊ）は、窓関数（ハニング窓）の時間窓幅の２倍〜４倍の長さの所定の時間幅（ここでは３倍の１９２ｍｓ）における１／ｆの時間間隔の全ての時刻における周波数信号を用いて、分析の対象とする時刻の周波数信号と、分析の対象とする時刻とは異なる全ての時刻における周波数信号との位相距離を求める。ここでは、第１のしきい値として、所定の時間幅に含まれる１／ｆの時間間隔の周波数信号の数の３０％の値を用いており、この例では、所定の時間幅に含まれる１／ｆの時間間隔の周波数信号の数が第１のしきい値以上である場合に、当該所定の時間幅に含まれる全ての周波数信号を用いて位相距離を求めている。そして、位相距離が第２のしきい値以下である分析の対象とする時刻の周波数信号を抽出音の周波数信号２４０８と判定する（ステップＳ３０１（ｊ））。最後に、音抽出部２０２（ｊ）は、抽出音判定部１０１（ｊ）が抽出音の周波数信号と判定した周波数信号を取り出すことで雑音を除去する（ステップＳ３０２（ｊ））。ここでは、周波数ｆ＝５００Ｈｚの場合を一例として説明を行う。

図１２（ｂ）には、図１２（ａ）に示された混合音２４０１における、周波数ｆ＝５００Ｈｚにおける周波数信号が模式的に示されている。図１２（ａ）は、図１０と同じものであり、図１２（ｂ）において、水平軸は時間軸であり垂直平面の２軸は周波数信号の実部と虚部とを表している。この例では周波数ｆ＝５００Ｈｚであるので１／ｆ＝２ｍｓとなる。

初めに、周波数信号選択部２００（ｊ）は、第１のしきい値以上である、所定の時間幅（窓関数の時間窓幅の３倍の長さ）における１／ｆの時間間隔の全ての周波数信号を選択する（ステップＳ４００（ｊ））。このことは、位相距離を求めるために選択された周波数信号の数が少ない場合には、位相の時間変化の規則性を判定することが困難になるからである。図１２（ｂ）には、１／ｆの時間間隔の時刻から選択された周波数信号の位置が白丸印で示されている。ここでは、図１２（ｂ）に示すように、１／ｆ＝２ｍｓの時間間隔の時刻から全ての時刻の周波数信号が選択される。

ここで、図１３Ａと図１３Ｂとに、周波数信号の他の選択方法を示す。表示の方法は図１２（ｂ）と同じであるため、その詳細な説明は繰り返さない。図１３Ａには、１／ｆの時間間隔の時刻から、１／ｆ×Ｎ（Ｎ＝２）の時間間隔の時刻の周波数信号を選択する一例が示されている。また、図１３Ｂには、１／ｆの時間間隔の時刻から、ランダムに選択した時刻の周波数信号を選択する一例が示されている。すなわち、周波数信号を選択する方法は、１／ｆの時間間隔の時刻から得られる周波数信号を選択するための、いかなる方法を用いてもよい。ただし、選択される周波数信号の数は第１のしきい値以上である必要がある。

ここで、周波数信号選択部２００（ｊ）は、位相距離判定部２０１（ｊ）が位相距離の計算に用いる周波数信号の時間範囲（所定の時間幅）も設定するが、時間範囲の設定方法の説明については、位相距離判定部２０１（ｊ）の説明と合わせて以下で行う。

次に、位相距離判定部２０１（ｊ）は、周波数信号選択部２００（ｊ）が選択した全ての周波数信号を用いて位相距離を計算する（ステップＳ４０１（ｊ））。ここでは、位相距離としてパワーで正規化された周波数信号同士の相関値の逆数を用いる。

図１４に、位相距離の求め方の一例を示す。図１４の表示の方法において、図１２（ｂ）と共通する部分の説明は省略する。図１４において、分析の対象とする時刻の周波数信号を黒丸印で示して、分析の対象とする時刻とは異なる時刻における選択された周波数信号を白丸印で示す。

この例では、分析の対象とする時刻（黒丸印の時刻）から±９６ｍｓ以内の時刻（所定の時間幅は１９２ｍｓ）に存在する１／ｆ（＝２ｍｓ）の時間間隔の時刻から、分析の対象とする時刻を除いた時刻（白丸印の時刻）の周波数信号を、分析の対象の周波数信号との位相距離を求める周波数信号にしている。ここでの所定の時間幅の時間長は、抽出音である音声の特徴から実験的に求めた値である。

ここで、位相距離の計算方法を以下に説明する。この例では、１／ｆの時間間隔の周波数信号を用いて位相距離の計算を行う。以下では、周波数信号の実部を

と表すこととして、周波数信号の虚部を

と表すこととする。ここでの記号ｋは周波数信号を指定する番号である。ｋ＝０の周波数信号は、分析の対象とする時刻の周波数信号を表している。ゼロ以外のｋ（ｋ＝−Ｋ，…，−２，−１，１，２，…，Ｋ）の周波数信号は、分析の対象とする時刻の周波数信号との位相距離を求めるための周波数信号を表している（図１４を参照）。

ここで位相距離を求めるため、周波数信号のパワーの大きさで正規化された周波数信号を求める。周波数信号の実部をパワーで正規化した値を

として、周波数信号の虚部をパワーで正規化した値を

とする。

位相距離Ｓを、

を用いて計算する。ここでの周波数信号は、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）＝ψ（ｔ）であるため、周波数信号をそのまま用いて位相距離を計算することができる。

ここで、他の位相距離Ｓの算出方法を以下に示す。相関値の計算において、総和した周波数信号の数で正規化する方法である

や、分析の対象とする時刻の周波数信号同士の位相距離も加える方法である

や、周波数信号の差分誤差を用いる方法である

や、位相の差分誤差を用いる方法である

や、位相の分散値などが行われる。ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）＝ψ（ｔ）となり、位相距離をψ（ｔ）を用いた簡単な計算で求めることができる。ここで、数６、数７、数８の

は、Ｓが無限大に発散しないための予め定められた小さな値である。

なお、位相の値はトーラス状に繋がっていること（０（ラジアン）と２π（ラジアン）は同じであること）を考慮して位相距離を求めてもよい。例えば、数１０に示した位相の差分誤差を用いて位相距離を計算する場合に、右辺の部分で、

として位相距離を求めてもよい。

次に、位相距離判定部２０１（ｊ）は、位相距離が第２のしきい値以下である分析の対象とする周波数信号の各々を、抽出音（音声）の周波数信号２４０８と判定する（ステップＳ４０２（ｊ））。第２のしきい値は、音声と白色雑音の１９２ｍｓの時間幅（所定の時間幅）での位相距離に基づいて実験的に求めた値に設定してある。

これらの処理を、時間軸方向に１ｐｔ（０．０６２５ｍｓ）の時間シフトを行いながら求めた全ての時刻の周波数信号を分析の対象とする周波数信号として行う。

最後に、音抽出部２０２（ｊ）は、抽出音判定部１０１（ｊ）が抽出音の周波数信号２４０８と判定した周波数信号を取り出すことで雑音を除去する。

図１５に、図１０に示した混合音２４０１から抽出された音声のスペクトログラムの一例を示す。表示の方法は図１０と同様であるため、その詳細な説明は繰り返さない。音声の調波構造が部分的に失われている混合音から音声の周波数信号が抽出されていることがわかる。

ここで、雑音として除去される周波数信号の位相について考察を加える。ここでは、第２のしきい値をπ／２（ラジアン）に設定している。図１６は、位相距離を求める所定の時間幅における、混合音の周波数信号の位相を模式的に示したものである。横軸は時間軸であり縦軸は位相軸である。黒丸印は分析の対象とする周波数信号の位相を示し、白丸印は分析の対象とする周波数信号との間で位相距離を求める周波数信号の位相を示す。ここでは１／ｆの時間間隔での周波数信号の位相が示されている。図１６（ａ）に示すように、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）での位相の距離を求めることは、分析の対象とする周波数信号の位相ψ（ｔ）を通り、時刻ｔに対して２πｆの傾きをもつ直線（１／ｆの時間間隔では時間軸に水平な直線になる）とのψ（ｔ）での距離を求めることと同じになる。図１６（ａ）では、この直線の近傍に周波数信号の位相が集まっているため、第１のしきい値以上の数の周波数信号との位相距離は第２のしきい値以下になり、分析の対象の周波数信号は、抽出音の周波数信号と判定される。また、図１６（ｂ）のように、分析の対象とする周波数信号の位相を通り、時間に対して２πｆの傾きをもつ直線の近傍に、周波数信号がほとんど存在しない場合には、第１のしきい値以上の数の周波数信号との位相距離が第２のしきい値より大きくなるため、抽出音の周波数信号として判定されることはなく雑音として除去される。

かかる構成によれば、時刻ｔの周波数信号の位相をψ（ｔ）（ラジアン）とするときに、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析する周波数）での位相の距離を用いることにより、時間−周波数領域ごとに、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音との区別ができる。また、音色のある音（もしくは音色のない音）の周波数信号を判定することができる。

また、１／ｆ（ｆは分析周波数）の時間間隔の周波数信号では、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）＝ψ（ｔ）となり、位相距離の計算を、ψ（ｔ）を用いた簡単な計算で行うことができる。

ここで、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）を用いた位相の距離について説明する。図３Ａを用いて説明したように音色のある音の周波数信号（周波数ｆの成分をもつとする）は、所定の時間幅において位相は規則的に等角速度で、かつ１／ｆの時間間隔の間に２π（ラジアン）回転する。

図１７（ａ）に、周波数分析を行うときに、ＤＦＴ（Discrete Fourier Transform）の計算で抽出音に畳み込む信号の波形を示す。実部はコサイン波形で虚部はマイナスのサイン波形である。ここでは、周波数ｆの信号について分析を行う。抽出音が周波数ｆの正弦波であるとき、周波数分析を行ったときの周波数信号の位相ψ（ｔ）の時間変化は、図１７（ｂ）に示すように反時計回りになる。このとき、横軸は実部を表しており、縦軸は虚部を表している。反時計回りを正とすると、位相ψ（ｔ）は１／ｆの時間で２π（ラジアン）増加する。また、位相ψ（ｔ）は時刻ｔに対して２πｆの傾きで変化するとも言える。図１８を用いて、位相ψ（ｔ）の時間変化が反時計回りになる仕組みについて説明する。図１８（ａ）に、抽出音（周波数ｆの正弦波）を示す。ここでは抽出音の振幅の大きさ（パワーの大きさ）を１に正規化している。図１８（ｂ）に、周波数分析を行うときにＤＦＴの計算で抽出音に畳み込む信号の波形（周波数ｆ）を示す。実線は実部のコサイン波形を破線は虚部のマイナスのサイン波形を示している。図１８（ｃ）に、図１８（ａ）の抽出音と図１８（ｂ）の波形をＤＦＴの計算で畳み込んだときの値の符号を示す。図１８（ｃ）より、時刻が（ｔ１〜ｔ２）のとき図１７（ｂ）の第１象限に、時刻が（ｔ２〜ｔ３）の時に図１７（ｂ）の第２象限に、時刻が（ｔ３〜ｔ４）のとき図１７（ｂ）の第３象限に、時刻が（ｔ４〜ｔ５）のとき図１７（ｂ）の第４象限に位相が変化することがわかる。このことから、位相ψ（ｔ）の時間変化が反時計回りになることがわかる。

ここで補足であるが、図１９（ａ）のように、横軸を虚部にして縦軸を実部にすると位相ψ（ｔ）の増減が反転する。反時計回りを正とすると、位相ψ（ｔ）は１／ｆの時間で２π（ラジアン）減少する。つまり、位相ψ（ｔ）は時刻ｔに対して（−２πｆ）の傾きで変化することが起こるが、ここでは図１７（ｂ）の軸の取り方に合うように、位相が補正されているとして説明を行う。また、図１９（ｂ）のように、周波数分析を行うときに畳み込む波形を、実部をコサイン波形に虚部をサイン波形にすると位相ψ（ｔ）の増減が反転して、反時計回りを正とすると、位相ψ（ｔ）は１／ｆの時間で２π（ラジアン）減少する。つまり、位相ψ（ｔ）は時刻ｔに対して（−２πｆ）の傾きで変化することが起こるが、ここでは、図１７（ａ）の周波数分析の結果に合うように実部と虚部の符号が補正されていることを前提として説明を行う。

このことから、音色のある音の周波数信号の位相ψ（ｔ）は時刻ｔに対して２πｆの傾きで変化するため、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析する周波数）での位相の距離は小さくなる。

（実施の形態１の変形例１）
次に、実施の形態１に示した雑音除去装置の変形例１について説明する。

ここでは、混合音２４０１として、１００Ｈｚの正弦波と２００Ｈｚの正弦波と３００Ｈｚの正弦波との混合音を用いた場合を一例として説明を行う。この例では、混合音中の２００Ｈｚの正弦波（抽出音）において、１００Ｈｚの正弦波と３００Ｈｚの正弦波からの周波数もれにより歪んだ周波数信号を除去することを目的とする。周波数もれにより歪んだ周波数信号を正確に除去できれば、例えば、混合音に含まれるエンジン音の周波数構造を正確に分析することができて、ドップラーシフトなどにより接近車両を検知することができる。また、混合音に含まれる音声のホルマント構造を正確に分析することもできる。

図２０は、変形例１に係る雑音除去装置の構成を示すブロック図である。

図２０において、図６と同じ構成要素については同じ参照符号を用い、その詳細な説明は繰り返さない。この例では、ＦＦＴ分析部２４０２の代わりに、ＤＦＴ（Discrete Fourier Transform）分析部１１００（周波数分析部）を用いている点が実施の形態１に係る雑音除去装置と異なるが、その他の処理部については同じものを用いることにする。雑音除去装置１１０の動作手順を示すフローチャートは、実施の形態１と同じであり図８及び図９に示されている。

図２１に、１００Ｈｚの正弦波と２００Ｈｚの正弦波と３００Ｈｚの正弦波の混合音２４０１を用いた場合の、周波数２００Ｈｚにおける周波数信号の時間波形の一例を示す。図２１（ａ）には周波数２００Ｈｚにおける周波数信号の実部の時間波形が、図２１（ｂ）には周波数２００Ｈｚにおける周波数信号の虚部の時間波形が示されている。横軸は時間軸であり縦軸は周波数信号の振幅を表す。ここでは５０ｍｓの時間長の時間波形が示されている。

図２２に、図２１に示した混合音２４０１を作成するときに用いた２００Ｈｚの正弦波の、周波数２００Ｈｚにおける周波数信号の時間波形を示す。表示の方法は図２１と同じであるため、その詳細な説明は繰り返さない。

図２１と図２２とから、混合音２４０１において、２００Ｈｚの正弦波が、１００Ｈｚの正弦波と３００Ｈｚの正弦波からの周波数もれの影響により歪んでいる部分が存在することがわかる。

初めに、ＤＦＴ分析部１１００は、混合音２４０１を受付けて、混合音２４０１に対して離散フーリエ変換処理を施し、混合音２４０１の中心周波数２００Ｈｚの周波数信号を求める（ステップＳ３００）。この例では分析周波数も２００Ｈｚとしている。ここでは離散フーリエ変換処理の条件としては、サンプリング周波数＝１６０００Ｈｚの混合音２４０１に対して時間窓幅ΔＴ＝５ｍｓ（８０ｐｔ）のハニング窓を用いることで処理している。また、時間軸方向には１ｐｔ（０．０６２５ｍｓ）の時間シフトを行いながら各時刻における周波数信号を求めている。この処理結果における周波数信号の時間波形を表示したものが図２１である。

次に、雑音除去処理部１０１は、ＤＦＴ分析部１１００が求めた周波数信号に対して、周波数帯域ｊ（ｊ＝１〜Ｍ）ごとに、抽出音判定部１０１（ｊ）（ｊ＝１〜Ｍ）を用いて混合音から抽出音の周波数信号を時間−周波数領域ごとに判定する（ステップＳ３０１（ｊ）（ｊ＝１〜Ｍ））。音抽出部２０２（ｊ）（ｊ＝１〜Ｍ）を用いて抽出音判定部１０１（ｊ）が判定した抽出音の周波数信号を取り出すことで雑音の除去を行う（ステップＳ３０２（ｊ）（ｊ＝１〜Ｍ））。この例では、Ｍ＝１であり、ｊ＝１番目の周波数帯域の中心周波数はｆ＝２００Ｈｚ（分析周波数と同じ値）である。以下、ｊ＝１の場合について説明するが、ｊが他の値の場合についても同様の処理が行われる。

抽出音判定部１０１（１）は、所定の時間幅（１００ｍｓ）における１／ｆ（ｆは分析周波数）の時間間隔の全ての時刻における周波数信号を用いて、分析の対象とする時刻の周波数信号と、分析の対象とする時刻とは異なる全ての時刻における周波数信号との位相距離を求める。ここでは、所定の時間幅に含まれる１／ｆの時間間隔の周波数信号の数が第１のしきい値以上である場合に、当該所定の時間幅に含まれる全ての周波数信号を用いて位相距離を求めている。そして、位相距離が第２のしきい値以下である分析の対象とする時刻の周波数信号を抽出音の周波数信号２４０８と判定する（ステップＳ３０１（１））。

最後に、音抽出部２０２（１）は、抽出音判定部１０１（１）が抽出音の周波数信号２４０８と判定した周波数信号を取り出すことで雑音を除去する（ステップＳ３０２（１））。

次に、ステップＳ３０１（１）の詳細な処理について説明する。初めに、周波数信号選択部２００（１）が、実施の形態１に示した例と同様にして、所定の時間幅における１／ｆ（ｆ＝２００Ｈｚ）の時間間隔の時刻から第１のしきい値以上の数の周波数信号を選択する（ステップＳ４００（１））。

ここで、実施の形態１に示した例と異なる部分は、位相距離判定部２０１（１）が位相距離の計算に用いる周波数信号の時間範囲（所定の時間幅）の長さである。実施の形態１に示した例では、時間範囲は１９２ｍｓであり、周波数信号を求めるときに用いた時間窓の幅ΔＴは、６４ｍｓであった。この例においては、時間範囲を１００ｍｓとしており、周波数信号を求めるときに用いた時間窓の幅ΔＴは、５ｍｓである。

次に、位相距離判定部２０１（１）は、周波数信号選択部２００（１）が選択した周波数信号の位相を用いて位相距離を計算する（ステップＳ４０１（１））。ここでの処理は実施の形態１に示した処理と同じであるので、その詳細な説明は繰り返さない。位相距離判定部２０１（１）は、位相距離Ｓが第２のしきい値以下である分析の対象とする時刻の周波数信号を抽出音の周波数信号２４０８と判定する（ステップＳ４０２（１））。これにより、２００Ｈｚの正弦波で歪んでいない部分の周波数信号を判定することができる。

最後に、音抽出部２０２（１）は、抽出音判定部１０１（１）が抽出音の周波数信号２４０８と判定した周波数信号を取り出すことで雑音を除去する（ステップＳ３０２（１））。ここでの処理は実施の形態１に示した例の処理と同じであるので、その詳細な説明は繰り返さない。

図２３に、図２１に示した混合音２４０１から抽出された２００Ｈｚにおける周波数信号の時間波形を示す。表示方法において図２１と共通する部分の説明は省略する。図２３において、斜線部分の領域は、周波数もれにより歪んだ周波数信号であるため除去された部分である。図２３と、図２１及び図２２とを比較すると、混合音２４０１から、１００Ｈｚの正弦波からの周波数もれと３００Ｈｚの正弦波からの周波数もれとにより歪んだ周波数信号が除去されて、２００Ｈｚの正弦波の周波数信号が抽出されていることがわかる。

実施の形態１および実施の形態１の変形例１にかかる構成によれば、分析の対象とする時刻における周波数信号と分析の対象とする時刻をはさみ、かつΔＴの時間間隔（周波数信号を求めるときの時間窓の幅）よりも離れた時刻を含む複数の時刻の周波数信号との位相距離を用いることで、時間分解能（ΔＴ）を細かくしたときの影響による周辺の周波数からの周波数もれにより歪んだ周波数信号を除去することができるという効果がある。

（実施の形態１の変形例２）
次に、実施の形態１に示した雑音除去装置の変形例２について説明する。

変形例２に係る雑音除去装置は、図６及び図７を参照して説明した実施の形態１に係る雑音除去装置と同様の構成を有する。ただし、雑音除去処理部１０１が実行する処理が異なる。

抽出音判定部１０１（ｊ）において、位相距離判定部２０１（ｊ）は、周波数信号選択部２００（ｊ）が選択した１／ｆの時間間隔の時刻の周波数信号を用いて、位相のヒストグラムを作成する。位相距離判定部２０１（ｊ）は、作成したヒストグラムから、位相距離が第２のしきい値以下でありかつ出現頻度が第１のしきい値以上である周波数信号を、抽出音の周波数信号２４０８と判定する。

最後に、音抽出部２０２（ｊ）は、位相距離判定部２０１（ｊ）が判定した抽出音の周波数信号２４０８を取り出すことで雑音を除去する。

次に、以上のように構成された雑音除去装置１００の動作について説明する。雑音除去装置１００の動作手順を示すフローチャートは、実施の形態１と同様であり、図８及び図９に示されている。

雑音除去処理部１０１は、ＦＦＴ分析部２４０２（周波数分析部）が求めた周波数信号に対して、周波数帯域ｊ（ｊ＝１〜Ｍ）ごとに抽出音判定部１０１（ｊ）（ｊ＝１〜Ｍ）を用いて抽出音の周波数信号を判定する（ステップＳ３０１（ｊ）（ｊ＝１〜Ｍ））。この後の説明は、ｊ番目の周波数帯域に関してのみ行う。他の周波数帯域に対する処理も同様である。この例では、ｊ番目の周波数帯域の中心周波数はｆである。

抽出音判定部１０１（ｊ）は、周波数信号選択部２００（ｊ）が選択した、所定の時間幅（窓関数の時間窓幅の３倍の長さ）における、１／ｆの時間間隔の時刻の周波数信号を用いて位相のヒストグラムを作成する。そして、位相距離が第２のしきい値以下でありかつ出現頻度が第１のしきい値以上である周波数信号を抽出音の周波数信号２４０８と判定する（ステップＳ３０１（ｊ））。

位相距離判定部２０１（ｊ）は、周波数信号選択部２００（ｊ）が選択した周波数信号を用いて、上記周波数信号の位相のヒストグラムを作成して位相距離を判定する（ステップＳ４０１（ｊ））。以下、ヒストグラムを求める方法について説明する。

周波数信号選択部２００（ｊ）が選択した周波数信号を、数２、数３で表すことにする。ここで、以下の式を用いて周波数信号の位相を求める。

図２４に、周波数信号の位相のヒストグラムを作成する方法の一例を示す。ここでは、位相区間がΔψ（ｉ）（ｉ＝１〜４）で、位相が時間に対して２πｆ（ｆは分析周波数）の傾きで変化する帯領域ごとの、所定の時間幅における周波数信号の出現頻度を求めることでヒストグラムを作成する。図２４の斜線で示されている部分はΔψ（１）の領域である。ここでは位相を０〜２π（ラジアン）の間に制限して表現しているために、とびとびの領域になっている。ここで、Δψ（ｉ）（ｉ＝１〜４）ごとにそれらの領域に含まれる周波数信号の数をカウントすることでヒストグラムを作成することができる。

図２５に、周波数信号選択部２００（ｊ）が選択した周波数信号と、その周波数信号の位相のヒストグラムの一例を示す。ここでは、図２４のヒストグラムよりも細かいΔψ（ｉ）（ｉ＝１〜Ｌ）で分析している。

図２５（ａ）に、選択された周波数信号を示す。図２５（ａ）の表示の方法は、図１２（ｂ）と同じであるので、その詳細な説明は繰り返さない。この例では、選択された周波数信号の中に音声Ａ（音色のある音）と音声Ｂ（音色のある音）と暗騒音（音色のない音）との周波数信号が含まれている。

図２５（ｂ）に、周波数信号の位相のヒストグラムの一例を模式的に示す。音声Ａの周波数信号の集まりは類似した位相（この例ではπ／２（ラジアン）の近傍）を持ち、音声Ｂの周波数信号の集まりは類似した位相（この例ではπ（ラジアン）の近傍）を持つ。このため、ヒストグラムのπ／２（ラジアン）の近傍とπ（ラジアン）の近傍に山が２つできている。また、暗騒音の周波数信号は特定の位相を持たないため、ヒストグラムでは山ができていない。

そこで、位相距離判定部２０１（ｊ）は、位相距離が第２のしきい値（π／４（ラジアン））以下であり、かつ出現頻度が第１のしきい値（所定の時間幅に含まれる１／ｆの時間間隔の全ての周波数信号の数の３０％）以上である周波数信号を、抽出音の周波数信号２４０８と判定する。この例では、π／２（ラジアン）の近傍の周波数信号とπ（ラジアン）近傍の周波数信号とが抽出音の周波数信号２４０８に判定される。このとき、π／２（ラジアン）近傍の周波数信号とπ（ラジアン）近傍の周波数信号との間の位相距離はπ／４（ラジアン）（第３のしきい値）以上になる。このため、これらの２つの山の周波数信号の集まりは異なる種類の抽出音として判定される。すなわち、音声Ａと音声Ｂとを区別して２つの抽出音の周波数信号として判定される。

最後に、音抽出部２０２（ｊ）は、位相距離判定部２０１（ｊ）が判定した、異なる種類の抽出音の周波数信号を各々取り出すことで雑音を除去することができる（ステップＳ４０２（ｊ））。

かかる構成によれば、抽出音判定部は、第１のしきい値以上の数から構成され、かつ周波数信号間の位相の類似度が第２のしきい値以下である周波数信号の集まりを複数作成する。また、抽出音判定部は、周波数信号の集まり同士の位相距離が第３のしきい値以上になる周波数信号の集まり同士を異なる種類の抽出音と判定する。これらの処理により、同じ時間−周波数領域に複数の種類の抽出音がある場合にそれらを区別して判定することができる。例えば、複数の車両のエンジン音を区別して判定できる。このため、車両検知装置に本発明の雑音除去装置を適用した場合には、運転者に複数の異なる車両が存在していることを知らせることができ、運転者は安全に運転できる。また、複数の人の音声を区別して判定できる。このため、音声抽出装置に本発明の雑音除去装置を適用した場合には、複数の人の音声を分離して聞かせることができる。

本発明の雑音除去装置を、例えば、音声出力装置に組み込めば、混合音から時間−周波数領域ごとに音声の周波数信号を判定した後に、逆周波数変換を行うことにより、きれいな音声を出力することができる。また、本発明の雑音除去装置を、例えば、音源方向検知装置に組み込めば、雑音が除去された後の抽出音の周波数信号を抽出することにより、正確な音源の方向を求めることができる。また、本発明の雑音除去装置を、例えば、音声認識装置に組み込めば、周囲に雑音が存在する場合でも、混合音から時間−周波数領域ごとに音声の周波数信号を抽出することにより、正確に音声認識を行うことができる。また、本発明の雑音除去装置を、例えば、音識別装置に組み込めば、周囲に雑音が存在する場合でも、混合音から時間−周波数領域ごとに抽出音の周波数信号を抽出することにより、正確に音識別を行うことができる。また、本発明の雑音除去装置を、例えば、別の車両検知装置に組み込めば、混合音から時間−周波数領域ごとにエンジン音の周波数信号を抽出したときに、車両の接近を知らせることができる。また、本発明の雑音除去装置を、例えば、緊急車両検知装置に組み込めば、混合音から時間−周波数領域ごとにサイレン音の周波数信号を抽出したときに、緊急車両の接近を知らせることができる。

また、本発明で抽出音（音色のある音）と判定されなかった雑音（音色のない音）の周波数信号を抽出することを考えると、本発明の雑音除去装置を、例えば、風音レベル判定装置に組み込めば、混合音から時間−周波数領域ごとに風雑音の周波数信号を抽出して、パワーの大きさを求めて出力することができる。また、本発明の雑音除去装置を、例えば、車両検知装置に組み込めば、混合音から時間−周波数領域ごとにタイヤ摩擦による走行音の周波数信号を抽出して、パワーの大きさから車両の接近を検知することができる。

なお、周波数分析部として、コサイン変換、ウェーブレット変換、又は、バンドパスフィルタを用いてもよい。

なお、周波数分析部の窓関数として、ハミング窓、矩形窓、又は、ブラックマン窓などのいかなる窓関数を用いてもよい。

なお、窓関数として、ハミング窓、矩形窓、又は、ブラックマン窓などのいかなる窓関数を用いてもよい。

なお、周波数分析部が求めた周波数信号の中心周波数ｆと、位相距離を求める分析周波数ｆ´は異なる値を用いてもよい。このとき、中心周波数ｆの周波数信号の中に周波数ｆ´における周波数信号が存在する場合に、その周波数信号は抽出音の周波数信号と判定される。また、その周波数信号の詳細な周波数はｆ´である。

なお、実施の形態１及び変形例１において、抽出音判定部１０１（ｊ）（ｊ＝１〜Ｍ）が、１／ｆ（ｆは分析周波数）の時間間隔の時刻から過去と未来の時刻に対して同じ時間区間Ｋ（時間幅９６ｍｓ）の中から周波数信号を選択したが、これに限定されるものではない。例えば、過去と未来の時刻に対して異なる時間区間の中から周波数信号を選択してもよい。

なお、実施の形態１及び変形例１において、位相距離を求めるときに分析の対象とする時刻の周波数信号を設定して、時刻ごとの周波数信号に対して抽出音の周波数信号であるか否かの判定を行ったが、これに限定されるものではない。例えば、複数の周波数信号間の位相距離をまとめて求めて第２のしきい値と比較することで、複数の周波数信号全体が抽出音の周波数信号であるか否かをまとめて判定することができる。この場合は、時間区間の平均的な位相の時間変化を分析することになる。このため、雑音の位相が抽出音の位相とたまたま一致した場合にも、安定して抽出音の周波数信号を判定することができる。

（実施の形態２）
次に、実施の形態２に係る雑音除去装置について説明する。実施の形態２に係る雑音除去装置は、実施の形態１に係る雑音除去装置と異なり、混合音の時刻ｔの周波数信号の位相をψ（ｔ）（ラジアン）とするときに、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）に位相を補正し、補正後の周波数信号の位相ψ´（ｔ）を用いて抽出音の周波数信号を判定して雑音を除去する。

図２６及び図２７は、本発明の実施の形態２における雑音除去装置の構成を示すブロック図である。

図２６において、雑音除去装置１５００は、ＦＦＴ分析部２４０２（周波数分析部）と、雑音除去処理部１５０４において、位相補正部１５０１（ｊ）（ｊ＝１〜Ｍ）と、抽出音判定部１５０２（ｊ）（ｊ＝１〜Ｍ）と、音抽出部１５０３（ｊ）（ｊ＝１〜Ｍ）とを含む。

ＦＦＴ分析部２４０２は、入力された混合音２４０１に対して高速フーリエ変換処理を施し、混合音２４０１の周波数信号を求める処理部である。このとき、混合音２４０１の周波数信号は、混合音２４０１に所定の時間窓幅の窓関数を掛け合わせて、窓関数が掛け合わされた後の混合音２４０１から求められる。以下では、ＦＦＴ分析部２４０２から求められた周波数帯域の個数をＭとして、それらの周波数帯域を指定する番号を記号ｊ（ｊ＝１〜Ｍ）で表すこととする。

位相補正部１５０１（ｊ）（ｊ＝１〜Ｍ）は、ＦＦＴ分析部２４０２が求めた周波数帯域ｊの周波数信号に対して、時刻ｔの周波数信号の位相をψ（ｔ）（ラジアン）とするときに、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）に位相を補正する処理部である。

抽出音判定部１５０２（ｊ）（ｊ＝１〜Ｍ）は、窓関数（ハニング窓）の時間窓幅の２倍〜４倍の長さの所定の時間幅において、分析の対象とする時刻の位相補正された周波数信号と、分析の対象とする時刻とは異なる複数の時刻における位相補正された周波数信号との位相距離を求める。このとき、位相距離を求めるときに用いた周波数信号の数は第１のしきい値以上の数から構成されている。このとき位相距離はψ´（ｔ）を用いて計算する。そして、位相距離が第２のしきい値以下である分析の対象とする時刻の周波数信号を抽出音の周波数信号２４０８と判定する。

最後に、音抽出部１５０３（ｊ）（ｊ＝１〜Ｍ）は、窓関数（ハニング窓）の時間窓幅の２倍〜４倍の長さの抽出音判定部１５０２（ｊ）（ｊ＝１〜Ｍ）が判定した抽出音の周波数信号２４０８を取り出すことで混合音から雑音の除去を行う。

図２７に、抽出音判定部１５０２（ｊ）（ｊ＝１〜Ｍ）の構成を示すブロック図を示す。

抽出音判定部１５０２（ｊ）（ｊ＝１〜Ｍ）は、周波数信号選択部１６００（ｊ）（ｊ＝１〜Ｍ）と、位相距離判定部１６０１（ｊ）（ｊ＝１〜Ｍ）とから構成される。

周波数信号選択部１６００（ｊ）（ｊ＝１〜Ｍ）は、所定の時間幅において、位相補正部１５０１（ｊ）（ｊ＝１〜Ｍ）が位相補正した周波数信号から、位相距離判定部１６０１（ｊ）（ｊ＝１〜Ｍ）が位相距離を計算するのに用いる周波数信号を選択する処理部である。位相距離判定部１６０１（ｊ）（ｊ＝１〜Ｍ）は、周波数信号選択部１６００（ｊ）（ｊ＝１〜Ｍ）が選択した周波数信号の補正された位相ψ´（ｔ）を用いて位相距離を計算して、位相距離が第２のしきい値以下になる周波数信号を抽出音の周波数信号２４０８と判定する処理部である。

次に、以上のように構成された雑音除去装置１５００の動作について説明する。

以下では、ｊ番目の周波数帯域について説明を行う。他の周波数帯域についても同様の処理が行なわれる。ここでは、周波数帯域の中心周波数と分析周波数（位相距離を求めるψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）における周波数ｆ）とが一致する場合を例にして説明を行う。この場合、周波数ｆに抽出音が存在するか否かを判定することができる。他の方法として、周波数帯域を含む周辺の複数の周波数を分析周波数として抽出音の判定を行ってもよい。この場合は、中心周波数の周辺の周波数に抽出音が存在するか否かを判定することができる。ここでの処理は実施の形態１と同じである。

図２８及び図２９は、雑音除去装置１５００の動作手順を示すフローチャートである。

初めに、ＦＦＴ分析部２４０２は、混合音２４０１を受付けて、混合音２４０１に対して高速フーリエ変換処理を施し、混合音２４０１の周波数信号を求める（ステップＳ３００）。ここでは、実施の形態１と同様に周波数信号を求める。

次に、位相補正部１５０１（ｊ）は、ＦＦＴ分析部２４０２が求めた周波数帯域ｊの周波数信号に対して、時刻ｔの周波数信号の位相をψ（ｔ）（ラジアン）とするときに、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）に位相を変換することで位相補正を行う（ステップＳ１７００（ｊ））。

図３０〜図３２を用いて、位相補正を行う方法の一例について説明する。図３０（ａ）には、ＦＦＴ分析部２４０２が求めた周波数信号が模式的に示されている。図３０（ｂ）には、図３０（ａ）から求めた周波数信号の位相が模式的に示されている。図３０（ｃ）には、図３０（ａ）から求めた周波数信号の大きさ（パワー）が模式的に示されている。図３０（ａ）、図３０（ｂ）及び図３０（ｃ）の横軸は時間軸である。図３０（ａ）の表示の方法は図１２（ｂ）と同様であるため、その詳細な説明は繰り返さない。図３０（ｂ）の縦軸は周波数信号の位相を表しており０〜２π（ラジアン）の間の値で示される。図３０（ｃ）の縦軸は周波数信号の大きさ（パワー）を表している。周波数信号の位相ψ（ｔ）及び大きさ（パワー）Ｐ（ｔ）は、周波数信号の実部を

と表すこととして、周波数信号の虚部を

と表すこととすると、

及び

である。ここでの記号ｔは周波数信号の時刻を表している。

ここで、図３０（ｂ）に示されている周波数信号の位相ψ（ｔ）をψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）の値に位相を変換することで位相補正を行う。

初めに、基準の時刻を決定する。図３１（ａ）は、図３０（ｂ）と同じ内容のものであり、この例では、図３１（ａ）の黒丸印の時刻ｔ０を基準の時刻に決定している。

次に、位相を補正する周波数信号の複数の時刻を決定する。この例では、図３１（ａ）の５個の白丸印の時刻（ｔ１、ｔ２、ｔ３、ｔ４、ｔ５）を、位相を補正する周波数信号の時刻に決定している。

ここで、基準の時刻ｔ０における周波数信号の位相を

と表すこととして、位相を補正する５個の時刻における周波数信号の位相を

と表すことにする。これらの補正する前の位相を図３１（ａ）において×印で示してある。また、対応する時刻の周波数信号の大きさは

で表すことができる。

次に、図３２に、時刻ｔ２における周波数信号の位相を補正する方法を示す。図３２（ａ）と図３１（ａ）とは同じ内容のものである。また、図３２（ｂ）は、１／ｆ（ｆは分析周波数）の時間間隔で等角速度で０〜２π（ラジアン）まで規則的に変化する位相を表している。ここで、補正した後の位相を

と表すことにする。図３２（ｂ）において、基準の時刻ｔ０と時刻ｔ２との位相差を比較すると、時刻ｔ２の位相は時刻ｔ０の位相より

だけ大きい。そこで、図３２（ａ）において、基準の時刻ｔ０の位相ψ（ｔ０）との時間差に起因する位相差を補正するために、時刻ｔ２の位相ψ（ｔ２）からΔψを差し引いてψ´（ｔ２）を求める。これが位相補正後の時刻ｔ２の位相である。このとき、時刻ｔ０の位相は基準の時刻における位相であるので位相補正後も同じ値となる。具体的には、位相補正後の位相を

により求める。

位相補正した後の周波数信号の位相を図３１（ｂ）に×印で示す。図３１（ｂ）の表示の方法は図３１（ａ）と同様であるため、その詳細な説明は繰り返さない。

次に、抽出音判定部１５０２（ｊ）は、位相補正部１５０１（ｊ）が求めた、窓関数（ハニング窓）の時間窓幅の２倍〜４倍の長さの所定の時間幅における位相補正後の周波数信号を用いて、分析の対象とする時刻の周波数信号と、分析の対象とする時刻とは異なる複数の時刻における周波数信号との位相距離を求める。このとき、位相距離を求めるときに用いた周波数信号の数は、第１のしきい値以上の数から構成されている。そして、位相距離が第２のしきい値以下になる分析の対象とする時刻の周波数信号を、抽出音の周波数信号２４０８と判定する（ステップＳ１７０１（ｊ））。

初めに、周波数信号選択部１６００（ｊ）は、位相補正部１５０１（ｊ）が求めた、窓関数の時間窓幅の２倍〜４倍の長さの所定の時間幅における位相補正された周波数信号から、位相距離判定部１６０１（ｊ）が位相距離の計算に用いる周波数信号を選択する（ステップＳ１８００（ｊ））。ここでは、分析の対象とする時刻をｔ０として、時刻ｔ０の周波数信号との位相距離を求める複数の周波数信号の時刻をｔ１、ｔ２、ｔ３、ｔ４、ｔ５とする。このとき、位相距離を求めるときに用いた周波数信号の数（ｔ０〜ｔ５の６個）は、第１のしきい値以上の数から構成されている。このことは、位相距離を求めるために選択された周波数信号の数が少ない場合に、位相の時間変化の規則性を判定することが困難になるからである。ここでの所定の時間幅の時間長は、抽出音の位相の時間変化の性質に基づいて決定される。

次に、位相距離判定部１６０１（ｊ）は、周波数信号選択部１６００（ｊ）が選択した位相補正後の周波数信号を用いて位相距離を計算する（ステップＳ１８０１（ｊ））。この例では、位相距離Ｓは位相の差分誤差であり、

で求める。また、分析の対象とする時刻をｔ２として、時刻ｔ２の周波数信号との位相距離を求める複数の周波数信号の時刻をｔ０、ｔ１、ｔ３、ｔ４、ｔ５としたときの位相距離Ｓは、

となる。

なお、位相の値はトーラス状に繋がっていること（０（ラジアン）と２π（ラジアン）は同じであること）を考慮して位相距離を求めてもよい。例えば、数２５に示した位相の差分誤差を用いて位相距離を計算する場合に、右辺の部分で、

として位相距離を求めてもよい。

この例では、周波数信号選択部１６００（ｊ）が、位相補正部１５０１（ｊ）が求めた位相補正された周波数信号から、位相距離判定部１６０１（ｊ）が位相距離の計算に用いる周波数信号を選択している。他の方法としては、位相補正部１５０１（ｊ）が位相補正する周波数信号を予め周波数信号選択部１６００（ｊ）が選択しておいて、位相距離判定部１６０１（ｊ）は、位相補正部１５０１（ｊ）により位相補正された周波数信号をそのまま用いて位相距離を求めるようにしてもよい。この場合は、位相距離を計算するために用いる周波数信号のみを位相補正するため処理量を削減できる。

次に、位相距離判定部１６０１（ｊ）は、位相距離が第２のしきい値以下である分析の対象とする周波数信号の各々を抽出音の周波数信号２４０８と判定する（ステップＳ１８０２（ｊ））。

最後に、音抽出部１５０３（ｊ）は、抽出音判定部１５０２（ｊ）が抽出音の周波数信号２４０８と判定した周波数信号を取り出すことで雑音を除去する（ステップＳ１７０２（ｊ））。

ここで、雑音として除去される周波数信号の位相について考察を加える。この例では、位相距離を位相の差分誤差とする。また、第２のしきい値をπ（ラジアン）に設定する。また、第３のしきい値をπ（ラジアン）に設定する。

図３３は、位相距離を求める窓関数の時間窓幅の２倍〜４倍の長さ所定の時間幅（１９２ｍｓ）における、混合音の周波数信号の位相補正された位相ψ´（ｔ）を模式的に示した図である。横軸は時間ｔを表しており、縦軸は位相補正された位相ψ´（ｔ）を表している。黒丸印は分析の対象とする周波数信号の位相を示し、白丸印は分析の対象とする周波数信号との間で位相距離を求める周波数信号の位相を示す。図３３（ａ）に示すように、位相距離を求めることは、分析の対象とする周波数信号の位相補正された位相を通る、時間軸に対して平行な傾きをもつ直線との位相距離を求めることと同じになる。図３３（ａ）では、この直線の近傍に位相距離を求める周波数信号の位相補正された位相が集まっている。このため、第１のしきい値以上の数の周波数信号との位相距離は第２のしきい値（π（ラジアン））以下になり、分析の対象とする周波数信号は、抽出音の周波数信号と判定される。また、図３３（ｂ）のように、分析の対象とする周波数信号の位相補正された位相を通り、時間軸に平行な傾きをもつ直線の近傍に、位相距離を求める周波数信号がほとんど存在しない場合には、第１のしきい値以上の数の周波数信号との位相距離が第２のしきい値（π（ラジアン））より大きくなる。このため、分析の対象とする周波数信号が抽出音の周波数信号として判定されることはなく雑音として除去される。

図３４は、混合音の位相を模式的に示した別の例である。横軸は時間軸であり縦軸は位相軸である。丸印で位相補正された混合音の周波数信号の位相が示されている。実線で囲まれた周波数信号同士は同じクラスタに属しており、位相距離が第２のしきい値（π（ラジアン））以下になる周波数信号の集まりである。これらのクラスタは多変量解析を用いても求めることができる。同一のクラスタの中に第１のしきい値以上の数の周波数信号が存在するクラスタの周波数信号は除去されずに抽出され、第１のしきい値より少ない数の周波数信号しか存在しないクラスタの周波数信号は雑音として除去される。図３４（ａ）に示すように、所定の時間幅に一部分だけ雑音部分が含まれる場合に、その一部分の雑音のみを除去することができる。また、図３４（ｂ）に示すように、２種類の抽出音が存在する場合にも、所定の時間幅に対して４０％以上（ここでは、７個以上）の周波数信号間での位相距離が第２のしきい値（π（ラジアン））以下になる周波数信号を抽出することで２つの抽出音を抽出することができる。このとき、これらのクラスタ間の位相距離は第３のしきい値（π（ラジアン））以上であるため、周波数信号が異なる種類の抽出音として判定される。

かかる構成によれば、１／ｆ（ｆは分析周波数）の時間間隔よりも細かい時間間隔の周波数信号において、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）の補正を行う。これにより、１／ｆ（ｆは分析周波数）の時間間隔よりも細かい時間間隔の周波数信号についての位相距離を、ψ´（ｔ）を用いた簡単な計算で求めることができる。このため、１／ｆの時間間隔が大きくなる低い周波数帯域における抽出音においても、短い時間領域ごとにψ´（ｔ）を用いた簡単な計算で、周波数信号を判定することができる。

なお、周波数分析部として、離散フーリエ変換、コサイン変換、ウェーブレット変換、又は、バンドパスフィルタを用いてもよい。

なお、雑音除去装置１５００はＦＦＴ分析部２４０２が求めた全て（Ｍ個）の周波数帯域に対して雑音の除去を行ったが、雑音を除去したい一部の周波数帯域を選択してから選択した周波数帯域において雑音の除去を行ってもよい。

なお、分析の対象とする周波数信号を定めずに、複数の周波数信号間の位相距離を求めて、第２のしきい値と比較することで、複数の周波数信号全体が抽出音の周波数信号であるか否かをまとめて判定することもできる。この場合は、時間区間の平均的な位相の時間変化を分析することになる。このため、雑音の位相が抽出音の位相とたまたま一致した場合にも安定して抽出音の周波数信号を判定することができる。

なお、位相補正後の位相を用いて、実施の形態１の変形例２と同様にして、周波数信号の位相のヒストグラムを用いて抽出音の周波数信号を判定してもよい。この場合は、図３５のようなヒストグラムになる。表示の方法は図２４と同じなので、その詳細な説明は繰り返さない。位相補正を行っているためヒストグラムのΔψ´の領域が時間軸に平行になり出現頻度を求めやすくなる。

なお、位相補正後の位相ψ´（ｔ）を用いて、

を計算することで、パワーで正規化された周波数信号の実部と虚部を求めて、実施の形態１における位相距離（数６、数７、数８、数９）を用いて抽出音の周波数信号を判定してもよい。

（実施の形態３）
次に、実施の形態３に係る車両検知装置について説明する。実施の形態３に係る車両検知装置は、複数のマイクから入力される各々の混合音の少なくとも１つの混合音から、エンジン音（抽出音）の周波数信号があると判定されたときに、抽出音検知フラグを出力して運転者に接近車両の存在を知らせるものである。このとき、時間−周波数領域ごとの混合音に適切な分析周波数を、時刻と位相とで表される空間での近似直線により事前に求めてから、求めた分析周波数に対して、求めた直線と位相との距離により位相距離を求めてエンジン音の周波数信号を判定する。

図３６及び図３７は、本発明の実施の形態３における車両検知装置の構成を示すブロック図である。

図３６において、車両検知装置４１００は、マイクロホン４１０７（１）と、マイクロホン４１０７（２）と、ＤＦＴ分析部１１００（周波数分析部）と、車両検知処理部４１０１において、位相補正部４１０２（ｊ）（ｊ＝１〜Ｍ）と、抽出音判定部４１０３（ｊ）（ｊ＝１〜Ｍ）と、音検知部４１０４（ｊ）（ｊ＝１〜Ｍ）と、提示部４１０６とを含む。

また、図３７において、抽出音判定部４１０３（ｊ）（ｊ＝１〜Ｍ）は、位相距離判定部４２００（ｊ）（ｊ＝１〜Ｍ）から構成される。

マイクロホン４１０７（１）は混合音２４０１（１）を入力して、マイクロホン４１０７（２）は混合音２４０１（２）を入力する。この例では、マイクロホン４１０７（１）とマイクロホン４１０７（１）はそれぞれ自車両の左前と右前のバンパーに設置されている。これらの混合音の各々はバイクのエンジン音と風雑音とから構成されている。

ＤＦＴ分析部１１００は、複数の時間窓幅をもつ複数の窓関数を準備して、各々の窓関数が掛け合わされた後の入力された混合音２４０１（１）と混合音２４０１（２）の各々に対して離散フーリエ変換処理を施し、混合音２４０１の窓関数に対応した周波数信号２４０２（ｊ）（ｊ＝１〜Ｌ）を求める処理部である。この例では、異なる時間窓幅をもつ２つ（Ｌ＝２）窓関数から周波数信号２４０２（１）と周波数信号２４０２（２）を求める。ここでの窓関数の時間窓幅は、２５ｍｓと６３ｍｓとである。この時間窓幅は周波数信号の時間分解能に対応している。また、０．１ｍｓごとに周波数信号を求める。以下では、ＤＦＴ分析部１１００から求められた周波数帯域の個数をＭとして、それらの周波数帯域を指定する番号を記号ｊ（ｊ＝１〜Ｍ）で表すこととする。この例では、バイクのエンジン音が存在する１０Ｈｚ〜３００Ｈｚの周波数帯域を１０Ｈｚ間隔ごとに分割して（Ｍ＝３０）周波数信号を求める。

位相補正部４１０２（ｊ）（ｊ＝１〜Ｍ）は、ＤＦＴ分析部１１００が求めた周波数帯域ｊ（ｊ＝１〜Ｍ）の周波数信号に対して、時刻ｔの周波数信号の位相をψ（ｔ）（ラジアン）とするときに、ψ´´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆ´ｔ）（ｆ´は周波数帯域の周波数）に位相を補正する処理部である。この例で実施の形態２と異なる部分は、ψ（ｔ）を分析周波数を用いて補正するのではなく、周波数信号を求めた周波数帯域の周波数ｆ´を用いて補正を行うところである。

抽出音判定部４１０３（ｊ）（ｊ＝１〜Ｍ）（位相距離判定部４２００（ｊ）（ｊ＝１〜Ｍ））は、位相補正部４１０２（ｊ）（ｊ＝１〜Ｍ）が補正した周波数信号の位相ψ´´（ｔ）を用いて、各々の窓関数に対応する周波数信号２４０２（ｊ）（ｊ＝１〜Ｌ）の各々に対して、窓関数の時間窓幅の２倍〜４倍の長さの混合音（混合音２４０１（１）、混合音２４０１（２））ごとに、１１３ｍｓの時間幅（所定の時間幅）における時刻の周波数信号を用いて、この周波数信号に適切な分析周波数を、時刻と位相とで表される空間での近似直線により求めてから位相距離を求める。また、抽出音判定部４１０３（ｊ）（ｊ＝１〜Ｍ）（位相距離判定部４２００（ｊ）（ｊ＝１〜Ｍ））は、求めた近似直線と位相との距離により位相距離を求めて、位相距離が第２のしきい値以下になる所定の時間幅における周波数信号を、エンジン音の周波数信号と判定する。

音検知部４１０４（ｊ）（ｊ＝１〜Ｍ）は、同じ時刻において、抽出音判定部４１０３（ｊ）（ｊ＝１〜Ｍ）により、各々の窓関数に対応する周波数信号２４０２（ｊ）（ｊ＝１〜Ｌ）の少なくとも１つの周波数信号から、混合音２４０１（１）および混合音２４０１（２）の少なくとも１つの混合音から、エンジン音（抽出音）の周波数信号が存在すると判定されたときに、抽出音検知フラグ４１０５を作成して出力する。

提示部４１０６は、音検知部４１０４（ｊ）（ｊ＝１〜Ｍ）から抽出音検知フラグ４１０５が入力されたときに、運転者に接近車両の存在を知らせる。

各処理部は、これらの処理を、所定の時間幅の時刻を移動させながら行う。

次に、以上のように構成された車両検知装置４１００の動作について説明する。

以下では、ｊ番目の周波数帯域（周波数帯域の周波数はｆ´）について説明を行う。他の周波数帯域についても同様の処理が行なわれる。

図３８は、車両検知装置４１００の動作手順を示すフローチャートである。

初めに、ＤＦＴ分析部１１００は、混合音２４０１（１）と混合音２４０１（２）を受付けて、複数の時間窓幅をもつ複数の窓関数を準備して、各々の窓関数が掛け合わされた後の混合音２４０１（１）と混合音２４０１（２）のそれぞれに対して離散フーリエ変換処理を施し、混合音２４０１の窓関数に対応した周波数信号２４０２（ｊ）（ｊ＝１〜Ｌ）を求める処理部である。この例では、窓関数の時間窓幅を、２５ｍｓと６３ｍｓに設定して、各々の窓関数に対応した周波数信号２４０２（１）と周波数信号２４０２（２）を求める（ステップＳ３００）。

図３９に、混合音２４０１のスペクトログラムの一例を示す。表示の方法は図１０と同様であるため説明を省略する。混合音２４０１は、バイクのエンジン音と風雑音とから構成されている。この図でのエンジン音の周波数構造は、初めにバイクが加速して周波数ｆが高くなり（２秒〜４秒）、次にギアチェンジをして周波数ｆが低くなり（４秒〜７秒）、最後にまた加速して周波数ｆが高くなっている（７秒〜１１秒）。

次に、位相補正部４１０２（ｊ）は、ＤＦＴ分析部１１００が求めた周波数帯域ｊ（周波数ｆ´）の周波数信号に対して、時刻ｔの周波数信号の位相をψ（ｔ）（ラジアン）とするときに、ψ´´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆ´ｔ）（ｆ´は周波数帯域の周波数）に位相を変換することで位相補正を行う（ステップＳ４３００（ｊ））。この例で実施の形態２と異なる部分は、ψ（ｔ）を分析周波数ｆで補正するのではなく、周波数信号を求めた周波数帯域の周波数ｆ´で補正を行うところである。それ以外の条件は実施の形態２と同様であるため、その詳細な説明は繰り返さない。

次に、抽出音判定部４１０３（ｊ）（位相距離判定部４２００（ｊ））は、混合音（混合音２４０１（１）、混合音２４０１（２））ごとに、各々の窓関数に対応する周波数信号（周波数信号２４０２（１）、周波数信号２４０２（２））の各々に対して、窓関数の時間窓幅の２倍〜４倍の長さの、所定の時間幅における全ての時刻の位相補正された周波数信号（第１のしきい値は、所定の時間幅における時刻の周波数信号の８０％の数であり、第１のしきい値以上の数から構成されている）の位相ψ´´（ｔ）を用いて、分析周波数ｆを設定する。抽出音判定部４１０３（ｊ）（位相距離判定部４２００（ｊ））は、設定された分析周波数ｆを用いて位相距離を求める。そして、抽出音判定部４１０３（ｊ）（位相距離判定部４２００（ｊ））は、位相距離が第２のしきい値以下になる所定の時間幅における周波数信号をエンジン音の周波数信号と判定する（ステップＳ４３０１（ｊ））。

図４０（ａ）は、混合音２４０１（１）のスペクトログラムである。表示の方法は図３９と同じなので、その詳細な説明は繰り返さない。ここでは、２５ｍｓの時間窓幅をもつ窓関数に対応した周波数信号２４０２（１）からエンジン音（抽出音）の周波数信号を判定する場合について説明する。このため、位相距離を求める所定の時間幅は７５ｍｓ（時間窓幅の３倍の長さ）に設定されている。なお、６３ｍｓの時間窓幅をもつ窓関数に対応した周波数信号２４０２（２）からエンジン音（抽出音）の周波数信号を判定する場合は、位相距離を求める所定の時間幅は１８９ｍｓ（時間窓幅の３倍の長さ）に設定する。

図４０（ｂ）に、図４０（ａ）における、時刻３．６秒の所定の時間幅（１１３ｍｓ）の周波数１００Ｈｚの周波数帯域の時間−周波数領域における、周波数帯域の周波数ｆ´で補正された周波数信号２４０２（１）の位相ψ´´（ｔ）が示されている。横軸は時間を表しており、縦軸は位相ψ´´（ｔ）を表している。この例では、周波数帯域の周波数（ｆ´＝１００Ｈｚ）で位相が補正されており、ψ´´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２π×１００×ｔ）である。また、図４０（ｂ）に、これらの補正された位相ψ´´（ｔ）と、時刻と位相ψ´´（ｔ）の空間で定義される直線との距離（位相距離に対応する）が最小になる直線（直線Ａ）が示されている。

この直線は、線形回帰分析により求めることができる。具体的には、時刻ｔ（ｉ）（ｉ（ｉ＝１〜Ｎ）はｔを離散化したときのインデックス）を説明変数として、補正された位相ψ´´（ｔ（ｉ））を目的変数にする。そして、時刻３．６秒の所定の時間幅（１１３ｍｓ）の周波数１００Ｈｚの周波数帯域の時間−周波数領域における、時刻ごとの補正された位相ψ´´（ｔ（ｉ））（ｉ＝１〜Ｎ）をＮ個のデータとして、直線Ａは、

で求めることができる。ここで、

は、時刻の平均であり、

は、補正された位相の平均であり、

は、時刻の分散であり、

は、時刻と補正された位相との共分散である。

ここで、図４１を用いて、図４０（ｂ）の直線Ａの傾きから分析周波数ｆを求めることができることを説明する。ここでは、直線Ａは、１／ｆ´´の時間間隔でψ´´（ｔ）が０〜２π（ラジアン）増加する傾きをもつ直線とする。すなわち、直線Ａの傾きを２πｆ´´とする。

図４１の直線Ａは、図４０（ｂ）の直線Ａと同じである。図４１の横軸は時間軸であり縦軸は位相軸である。図４１の、時間とψ（ｔ）とで定義される直線Ｂは、直線Ａが周波数ｆ´（周波数帯域の周波数）で位相補正される前の時間とψ（ｔ）とで定義される直線である。すなわち、直線Ｂは、直線Ａに対して時刻が１／ｆ´進むごとに２π（ラジアン）を足し算したものである。この直線Ｂは、この時間−周波数領域に抽出音が存在した場合の抽出音の位相ψ（ｔ）とみなすことができ、１／ｆの時間間隔（ｆは分析周波数）で等角速度で０〜２π（ラジアン）まで変化する。この直線Ｂの傾き（２πｆ）に対応する周波数ｆが求めたい分析周波数ｆである。

この例では、分析周波数ｆよりも周波数帯域の周波数ｆ´の値が小さかったため、直線Ａは正の傾きをもっている。なお、分析周波数ｆと周波数帯域の周波数ｆ´の値とが一致する場合には直線Ａの傾きはゼロになり、分析周波数ｆよりも周波数帯域の周波数ｆ´の値が大きい場合には直線Ａの負の傾きをもつことになる。

図４１における直線Ａと直線Ｂとの関係から、

が導き出される。これより、

が成立する。すなわち、分析周波数ｆは、周波数帯域の周波数ｆ´と直線Ａの傾き（２πｆ´´）に対応する周波数ｆ´´との和で表されることがわかる。

図４０（ｂ）の直線Ａは、補正された位相ψ´´（ｔ）が０（ラジアン）から２π（ラジアン）まで増加するのに要する時間が０．１１３／０．６（＝１／ｆ´´）（秒）であるため、ｆ´´＝５（Ｈｚ）となり、分析周波数ｆは１０５Ｈｚ（１００Ｈｚ＋５Ｈｚ）になる。

次に、設定された分析周波数ｆを用いて位相距離（ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）での距離）が求められる。位相距離は、図４０（ｂ）に示された補正された位相ψ´´（ｔ）と直線Ａとの距離で求めることができる。このことは、

となり、ψ（ｔ）と２πｆの傾きをもつ直線（直線Ｂ）との距離（位相距離）と、ψ´´（ｔ）と２πｆ´´の傾きをもつ直線（直線Ａ）との距離が一致するからである。

この例では、位相距離を、所定の時間幅における全ての時刻の位相補正された周波数信号の位相ψ´´（ｔ）と直線Ａとの差分誤差で求める。

なお、位相の値はトーラス状に繋がっていること（０（ラジアン）と２π（ラジアン）は同じであること）を考慮して位相距離を求めてもよい。

ここで他の見方をすると、直線Ａは位相距離が最小になるように求められている。このため、直線Ａの傾きに対応する周波数ｆ´´から求められる分析周波数ｆは、位相距離を最小にするものになり、この時間−周波数領域において適した分析周波数ｆであったことがわかる。

次に、位相距離が第２のしきい値以下になる窓関数の時間窓幅の２倍〜４倍の長さの、所定の時間幅における周波数信号をエンジン音の周波数信号と判定する。この例では、第２のしきい値を０．１７（ラジアン）に設定している。また、この例では、所定の時間幅における周波数信号全体で１つの位相距離を求めて、時間区間ごとに抽出音の周波数信号の判定をまとめて行っている。

図４２に、エンジン音の周波数信号を判定した結果の一例を示す。この結果は、図３９に示す混合音からエンジン音の周波数信号を判定した結果であり、エンジン音の周波数信号であると判定された時間‐周波数領域を黒い領域で表示している。図４２（ａ）は、周波数信号２４０２（１）からエンジン音を判定した結果であり、図４２（ｂ）は、周波数信号２４０２（２）からエンジン音を判定した結果である。横軸は時間軸であり縦軸は周波数である。ここで、周波数信号２４０２（１）は、２５ｍｓの時間窓幅の窓関数を用いて求めたものであり、周波数信号２４０２（２）は、７５ｍｓの時間窓幅の窓関数を用いて求めたものであった。このとき、窓関数の時間窓幅は時間分解能に対応しており、周波数信号２４０２（１）は、周波数信号２４０２（２）よりも細かい時間分解能の周波数信号であった。

図４２（ａ）と図４２（ｂ）の領域Ａを見ると、周波数信号２４０２（１）からのみエンジン音が検出されていることがわかる。これは、この時間‐周波数領域においては、エンジン音の周波数は時間的に大きく変化しているため、時間分解能を細かくして求めた周波数信号２４０２（１）がエンジン音を判定するために適切であったからである。また、図４２（ａ）と図４２（ｂ）の領域Ｂを見ると、周波数信号２４０２（２）からのみエンジン音が検出されていることがわかる。これは、この時間‐周波数領域においては、エンジン音の周波数は時間的にゆるやかに変化しているため、時間分解能を粗くして求めた周波数信号２４０２（２）がエンジン音を判定するために適切であったからである。

これらの処理を、全ての周波数帯域ｊ（ｊ＝１〜Ｍ）に対して行う。

次に、音検知部４１０４（ｊ）は、抽出音判定部４１０３（ｊ）により混合音２４０１（１）および混合音２４０１（２）の少なくとも１つの混合音に、エンジン音の周波数信号が存在すると判定された時刻に、抽出音検知フラグ４１０５を作成して出力する（ステップＳ４３０２（ｊ））。

図４３に、抽出音検知フラグ４１０５の作成方法の一例を示す。図４３には、図４２（ａ）と図４２（ｂ）に示した判定結果を、時間軸を合わせて上下（図４２（ａ）は上側、図４２（ｂ）は下側）に並べたものである。縦軸は時間軸であり横軸は周波数である。また、エンジン音の周波数信号であると判定された時間‐周波数領域を黒い領域で表示している。この例では、バイクのエンジン音が存在する１０Ｈｚ〜３００Ｈｚの周波数帯域における判定結果の全体を用いて、２００ｍｓの時間区間ごとに抽出音検知フラグ４１０５を作成して出力するか否かを決定する。

図４３における時刻Ａでは、図４３（ａ）の混合音２４０１（１）からはエンジンの周波数信号が検出されている。一方、図４３（ｂ）の混合音２４０１（２）からはエンジン音の周波数信号は検出されていない。この場合、少なくとも図４３（ａ）の混合音２４０１（１）からエンジンの周波数信号が検出されているので、近くに車両が存在することがわかり、抽出音検知フラグ４１０５を作成して出力する。

図４３における時刻Ｂでは、図４３（ａ）の混合音２４０１（１）からはエンジンの周波数信号は検出されていない。一方、図４３（ｂ）の混合音２４０１（２）からはエンジン音の周波数信号は検出されている。この場合、少なくとも図４３（ｂ）の混合音２４０１（２）からエンジンの周波数信号が検出されているので、近くに車両が存在することがわかり、抽出音検知フラグ４１０５を作成して出力する。

図４３における時刻Ｃでは、図４３（ａ）の混合音２４０１（１）からはエンジンの周波数信号は検出されていない。また、図４３（ｂ）の混合音２４０１（２）からもエンジン音の周波数信号は検出されていない。この場合、近くに車両が存在しないと判断して、抽出音検知フラグ４１０５を作成しない。

抽出音検知フラグ４１０５を作成する時間区間は、位相距離を求める所定の時間幅の長さとは独立に設定することができる。

最後に、提示部４１０６は、抽出音検知フラグ４１０５が入力されたときに、運転者に接近車両の存在を知らせる（ステップＳ４３０３）。

これらの処理を、所定の時間幅の時刻を移動させながら行う。

かかる構成によれば、時間−周波数領域ごとに、抽出音を判定するのに適切な分析周波数を事前に求めることができる。よって、多くの数の分析周波数に対して位相距離を求めてから抽出音を判定する必要がなくなる。このため、位相距離を求める処理量が大幅に削減できる。

また、時間分解能（窓関数の時間窓幅）に基づいて位相距離を求める時間幅を決定できるため、様々な時間分解能で、抽出音の周波数信号を判定することができる。特に、周波数構造が時間的に変化する抽出音を判定する場合には適切な時間分解能が複数存在するため、適切な時間分解能を用いることで抽出音の周波数信号を正確に判定することができる。例えば、音声のように短時間で周波数構造が大きく変化する抽出音に対しては時間分解能を細かくして、アイドリング状態でのエンジン音のように周波数構造がゆるやかに変化する抽出音に対しては時間分解能を粗くして（周波数分解能を細かくして）、抽出音の周波数信号を判定する。

また、雑音の影響で、１つのマイクロホンで集音した混合音からは抽出音が検出できなくても、他のマイクロホンで抽出音を検出できる可能性が広がる。このため、検知ミスを少なくすることができる。この例では、マイクロホンの位置に依存する風雑音の影響が少ないマイクロホンで集音した混合音を利用できる。このため、抽出音としてのエンジン音を正確に検出して、運転者に車両の接近を知らせることができる。また、この例では２本のマイクロホンを用いたが、３本以上のマイクロホンを用いて抽出音を判定してもよい。

また、複数の周波数信号間の位相距離をまとめて求めて、第２のしきい値と比較することで、複数の周波数信号全体が抽出音の周波数信号であるか否かをまとめて判定する。このため、雑音の位相が抽出音の位相とがたまたま一致した場合にも安定して抽出音の周波数信号を判定することができる。

なお、実施の形態３に係る車両検知装置において、実施の形態１または実施の形態２における抽出音判定部を用いてもよい。また、実施の形態１および実施の形態２において、実施の形態３における抽出音判定部を用いてもよい。

（混合音から抽出音の周波数信号を判定する方法）
他の混合音において、混合音から抽出音の周波数信号を判定する方法についてまとめる。

（Ｉ）２００Ｈｚの正弦波と白色雑音との混合音から、２００Ｈｚの正弦波（２００Ｈｚの周波数信号）を判定する方法について述べる。

図４４に、中心周波数ｆ＝２００Ｈｚの周波数帯域において分析周波数をｆ＝２００Ｈｚとしたときの位相の時間変化を分析した結果を示す。図４５に、中心周波数ｆ＝１５０Ｈｚの周波数帯域において分析周波数をｆ＝１５０Ｈｚとしたときの位相の時間変化を分析した結果を示す。ここでは、位相距離を求めるときに用いる所定の時間幅を１００ｍｓに設定しており、１００ｍｓの時間幅における位相の時間変化を分析する。図４４、図４５ともに、２００Ｈｚの正弦波と白色雑音とをそれぞれ用いて分析した結果である。

図４４（ａ）は、２００Ｈｚの正弦波の位相ψ（ｔ）（位相補正なし）の時間変化である。この時間幅において、２００Ｈｚの正弦波の位相ψ（ｔ）は、時刻に対して２π×２００の傾きで規則的に変化している。図４４（ｂ）は、図４４（ａ）の位相ψ（ｔ）をψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２π×２００×ｔ）（分析周波数は２００Ｈｚ）に位相を補正したものである。位相補正後の２００Ｈｚの正弦波の位相ψ´（ｔ）は、時刻に関わらず一定の値になることがわかる。このため、この時間幅におけるψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２π×２００×ｔ）（分析周波数は２００Ｈｚ）で定義される距離空間での位相距離は小さくなる。

図４４（ｃ）は、白色雑音の位相ψ（ｔ）（位相補正なし）の時間変化である。この時間幅において、白色雑音の位相ψ（ｔ）は、時刻に対して２π×２００の傾きで規則的に変化しているように見えるが、厳密には規則的に変化していない。図４４（ｄ）は、図４４（ｃ）の位相ψ（ｔ）を位相ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２π×２００×ｔ）（分析周波数は２００Ｈｚ）に補正したものである。位相補正後の白色雑音の位相ψ´（ｔ）は、時刻とともに値が０〜２π（ラジアン）の間で変化することがわかる。このため、この時間幅におけるψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２π×２００×ｔ）（分析周波数は２００Ｈｚ）で定義される距離空間での位相距離は、図４４（ａ）又は図４４（ｂ）の２００Ｈｚの正弦波における位相距離と比較して大きくなる。

図４５（ａ）は、２００Ｈｚの正弦波の位相ψ（ｔ）（位相補正なし）の時間変化である。この時間幅において、２００Ｈｚの正弦波の位相ψ（ｔ）は、時刻に対して２π×１５０の傾きで変化していない（時刻に対して２π×２００の傾きで変化している）。図４５（ｂ）は、図４５（ａ）の位相ψ（ｔ）を位相ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２π×１５０×ｔ）（分析周波数は１５０Ｈｚ）に補正したものである。位相補正後の２００Ｈｚの正弦波の位相ψ´（ｔ）は、時刻とともに０〜２π（ラジアン）の間を規則的に変化することがわかる。このため、この時間幅におけるψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２π×１５０×ｔ）（分析周波数は１５０Ｈｚ）で定義される距離空間での位相距離は、図４４（ａ）又は図４４（ｂ）の２００Ｈｚの正弦波における位相距離と比較して大きくなる。

図４５（ｃ）は、白色雑音の位相ψ（ｔ）（位相補正なし）の時間変化である。この時間幅において、白色雑音の位相ψ（ｔ）は、時刻に対して２π×１５０の傾きで変化していない。図４５（ｄ）は、図４５（ｃ）の位相ψ（ｔ）を位相ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２π×１５０×ｔ）（分析周波数は１５０Ｈｚ）に補正したものである。位相補正後の白色雑音の位相ψ´（ｔ）は、時刻とともに値が０〜２π（ラジアン）の間で変化することがわかる。このため、この時間幅におけるψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２π×１５０×ｔ）（分析周波数は１５０Ｈｚ）で定義される距離空間での位相距離は、図４５（ａ）又は図４５（ｂ）の２００Ｈｚの正弦波における位相距離と比較して大きくなる。

図４４と図４５の分析結果より、２００Ｈｚの正弦波と白色雑音とを区別して、２００Ｈｚの正弦波の周波数信号を判定する場合には、図４４（ａ）又は図４４（ｂ）の２００Ｈｚの正弦波の位相距離よりも大きく、図４４（ｃ）又は図４４（ｄ）の白色雑音の位相距離よりも小さく、図４５（ａ）又は図４４（ｂ）の２００Ｈｚの正弦波の位相距離よりも小さく、図４５（ｃ）又は図４５（ｄ）の白色雑音の位相距離よりも小さな値に第２のしきい値を設定すればよい。例えば、第２のしきい値を、図４４（ｂ）、図４４（ｄ）、図４５（ｂ）、図４５（ｄ）に記載してあるΔψ´＝π／６〜π／２（ラジアン）に設定すればよいことがわかる。このとき、抽出音に判定されなかった周波数信号は、白色雑音の周波数信号である。

なお、中心周波数１５０Ｈｚの周波数帯域（２００Ｈｚの周波数も含む）の混合音から、抽出音の２００Ｈｚの周波数信号を判定することもできる。図４５（ａ）において、分析周波数を２００Ｈｚにして、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２π×２００×ｔ）（分析周波数は２００Ｈｚ）での位相距離を判定すればよい。

（ＩＩ）バイク音（エンジン音）と暗騒音との混合音から、バイク音の周波数信号を判定する方法について述べる。この例では、第２のしきい値をπ／２に設定する。

図４６に、バイク音の位相の時間変化を分析した結果を示す。図４６（ａ）は、バイク音のスペクトログラムを示しており黒い部分がバイク音の周波数信号の部分である。バイクが通過したときのドップラーシフトが現れている。図４６（ｂ）、図４６（ｃ）、図４６（ｄ）ともに、位相補正を行った場合の位相ψ´（ｔ）の時間変化を示している。

図４６（ｂ）は、１２０Ｈｚの周波数帯域の周波数信号を用いて、分析周波数を１２０Ｈｚにした場合の分析結果である。この時刻の１００ｍｓの時間幅（所定の時間幅）における位相ψ´（ｔ）の位相距離は第２のしきい値以下である。このため、この時間−周波数領域の周波数信号はバイク音の周波数信号と判定される。また、分析周波数は１２０Ｈｚであるため、この判定されたバイク音の周波数信号の周波数は１２０Ｈｚに特定することができる。

図４６（ｃ）は、１４０Ｈｚの周波数帯域の周波数信号を用いて、分析周波数を１４０Ｈｚにした場合の分析結果であり、この時刻の１００ｍｓの時間幅（所定の時間幅）における位相ψ´（ｔ）の位相距離は第２のしきい値以下である。このため、この時間−周波数領域の周波数信号はバイク音の周波数信号と判定される。また、分析周波数は１４０Ｈｚであるため、この判定されたバイク音の周波数信号の周波数は１４０Ｈｚに特定することができる。

図４６（ｄ）は、８０Ｈｚの周波数帯域の周波数信号を用いて、分析周波数を８０Ｈｚにした場合の分析結果である。この時刻の１００ｍｓの時間幅（所定の時間幅）における位相ψ´（ｔ）の位相距離は第２のしきい値よりも大きい。このため、この時間−周波数領域の周波数信号はバイク音の周波数信号ではないことがわかる。

（ＩＩＩ）図４４と図４６を用いて、バイク音（エンジン音）と２００Ｈｚの正弦波と白色雑音との混合音から、２００Ｈｚの正弦波とバイク音との周波数信号を判定する方法と、２００Ｈｚの正弦波の周波数信号を判定する方法と、バイク音の周波数信号を判定する方法と、白色雑音の周波数信号を判定する方法とについて述べる。この例では、所定の時間幅を１００ｍｓとする。

初めに、白色雑音と区別して、２００Ｈｚの正弦波とバイク音との周波数信号を判定する方法について述べる。ここでは、第２のしきい値をπ／２（ラジアン）に設定する。

このとき、図４４の分析結果と図４６の分析結果とから、白色雑音の位相距離は第２のしきい値よりも大きく、２００Ｈｚの正弦波およびバイク音の各位相距離は第２のしきい値以下になる。このため、白色雑音と区別して、２００Ｈｚの正弦波とバイク音との周波数信号を判定することができる。

次に、白色雑音とバイク音と区別して、２００Ｈｚの正弦波の周波数信号を判定する方法について述べる。ここでは、第２のしきい値をπ／６（ラジアン）に設定する。

このとき、図４４の分析結果から、白色雑音の位相距離は第２のしきい値よりも大きく、２００Ｈｚの正弦波の位相距離は第２のしきい値以下である。このため、白色雑音と区別して２００Ｈｚの正弦波の周波数信号を判定できる。また、図４６の分析結果から、この例において、バイク音の位相距離は第２のしきい値よりも大きくなる。このため、バイク音と区別して２００Ｈｚの正弦波の周波数信号を判定できる。

次に、白色雑音と２００Ｈｚの正弦波と区別して、バイク音の周波数信号を判定する方法について述べる。ここでは第２のしきい値をπ／６（ラジアン）に設定して、第３のしきい値をπ／２（ラジアン）に設定する。

初めに、第２のしきい値をπ／２（ラジアン）に設定する。このとき、図４４の分析結果と図４６の分析結果とから、バイク音と２００Ｈｚの正弦波の周波数信号が合わせて判定される。次に、第２のしきい値をπ／６（ラジアン）に設定する。このとき、図４４の分析結果と図４６の分析結果とから、２００Ｈｚの正弦波の周波数信号が判定される。最後に、バイク音と２００Ｈｚの正弦波が合わせて判定された周波数信号から、２００Ｈｚの正弦波に判定された周波数信号を取り除くことで、バイク音の周波数信号を判定する。

最後に、２００Ｈｚの正弦波およびバイク音と区別して、白色雑音の周波数信号を判定する方法について述べる。ここでは第２のしきい値を２π（ラジアン）に設定する。

このとき、図４４の分析結果と図４６の分析結果とから、白色雑音の位相距離は第２のしきい値より大きくなり、２００Ｈｚの正弦波およびバイク音の各位相距離は第２のしきい値以下になる。ここで、位相距離が第２のしきい値より大きくなる周波数信号を取り出すことで、白色雑音の周波数信号を判定できる。

（ＩＶ）サイレン音と暗騒音との混合音からサイレン音の周波数信号を判定する方法について述べる。

この例では、実施の形態３と同じ方法で、時間−周波数領域ごとにサイレン音の周波数信号を判定する。この例でのＤＦＴの時間窓は１３ｍｓである。また、９００Ｈｚ〜１３００Ｈｚの周波数帯域を１０Ｈｚ間隔ごとに分割して周波数信号を求めている。ここでの所定の時間幅は３８ｍｓであり、第２のしきい値を０．０３（ラジアン）に設定している。第１のしきい値は実施の形態３と同じである。

図４７（ａ）に、サイレン音と暗騒音との混合音のスペクトログラムを示す。図４７（ａ）の表示の方法は図４０（ａ）と同じなので、その詳細な説明は繰り返さない。図４７（ｂ）は、図４７（ａ）の混合音からサイレン音を判定した結果である。図４７（ｂ）の表示の方法は図４２（ａ）と同じなので、その詳細な説明は繰り返さない。図４７（ｂ）の結果から、時間−周波数領域ごとにサイレン音の周波数信号を判定できていることがわかる。

（Ｖ）音声と暗騒音との混合音から音声の周波数信号を判定する方法について述べる。

この例では、実施の形態３と同じ方法で、時間−周波数領域ごとに音声の周波数信号を判定する。この例でのＤＦＴの時間窓は６ｍｓである。また、０Ｈｚ〜１２００Ｈｚの周波数帯域を１０Ｈｚ間隔ごとに分割して周波数信号を求めている。ここでの所定の時間幅は１９ｍｓであり、第２のしきい値を０．０９（ラジアン）に設定している。第１のしきい値は実施の形態３と同じである。

図４８（ａ）に、音声と暗騒音との混合音のスペクトログラムを示す。図４８（ａ）の表示の方法は図４０（ａ）と同じなので、その詳細な説明は繰り返さない。図４８（ｂ）は、図４８（ａ）の混合音から音声を判定した結果である。図４８（ｂ）の表示の方法は図４２（ａ）と同じなので、その詳細な説明は繰り返さない。図４８（ｂ）の結果から、時間−周波数領域ごとに音声の周波数信号を判定できていることがわかる。

（ＶＩ）１００Ｈｚの正弦波と白色雑音との周波数信号を判定した結果を示す。

図４９Ａに、１００Ｈｚの正弦波を入力した場合の検知結果を示す。図４９Ａ（ａ）は、入力した音波形のグラフである。横軸は時間を表しており縦軸は振幅を表している。図４９Ａ（ｂ）は、図４９Ａ（ａ）に示した音波形のスペクトログラムである。表示方法は図１０と同様であるため、その詳細な説明は繰り返さない。図４９Ａ（ｃ）は、図４９Ａ（ａ）に示した音波形を入力した場合の検知結果を示すグラフである。表示方法は図４２（ａ）と同様であるため、その詳細な説明は繰り返さない。図４９Ａ（ｃ）より、１００Ｈｚの正弦波の周波数信号を検知できていることがわかる。

図４９Ｂに、白色雑音を入力した場合の検知結果を示す。図４９Ｂ（ａ）は、入力した音波形のグラフである。横軸は時間を表しており縦軸は振幅を表している。図４９Ｂ（ｂ）は、図４９Ｂ（ａ）に示した音波形のスペクトログラムである。表示方法は図１０と同様であるため、その詳細な説明は繰り返さない。図４９Ｂ（ｃ）は、図４９Ｂ（ａ）に示した音波形を入力した場合の検知結果を示すグラフである。表示方法は図４２（ａ）と同様であるため、その詳細な説明は繰り返さない。図４９Ｂ（ｃ）より、白色雑音が検知されないことがわかる。

図４９Ｃに、１００Ｈｚの正弦波と白色雑音との混合音を入力した場合の検知結果を示す。図４９Ｃ（ａ）は、入力した混合音の音波形のグラフである。横軸は時間を表しており縦軸は振幅を表している。図４９Ｃ（ｂ）は、図４９Ｃ（ａ）に示した音波形のスペクトログラムである。表示方法は図１０と同様であるため、その詳細な説明は繰り返さない。図４９Ｃ（ｃ）は、図４９Ｃ（ａ）に示した音波形を入力した場合の検知結果を示すグラフである。表示方法は図４２（ａ）と同様であるため、その詳細な説明は繰り返さない。図４９Ｃ（ｃ）より、１００Ｈｚの正弦波の周波数信号が検知されて、白色雑音が検知されないことがわかる。

図５０Ａに、図４９Ａより振幅が小さい１００Ｈｚの正弦波を入力した場合の検知結果を示す。図５０Ａ（ａ）は、入力した音波形のグラフである。横軸は時間を表しており縦軸は振幅を表している。図５０Ａ（ｂ）は、図５０Ａ（ａ）に示した音波形のスペクトログラムである。表示方法は図１０と同様であるため、その詳細な説明は繰り返さない。図５０Ａ（ｃ）は、図５０Ａ（ａ）に示した音波形を入力した場合の検知結果を示すグラフである。表示方法は図４２（ａ）と同様であるため、その詳細な説明は繰り返さない。図５０Ａ（ｃ）より、１００Ｈｚの正弦波の周波数信号を検知できていることがわかる。図４９Ａの結果と比較すると、入力した音波形の振幅の大きさに依存しないで正弦波の周波数信号を検知できていることがわかる。

図５０Ｂに、図４９Ｂより振幅が大きい白色雑音を入力した場合の検知結果を示す。図５０Ｂ（ａ）は、入力した音波形のグラフである。横軸は時間を表しており縦軸は振幅を表している。図５０Ｂ（ｂ）は、図５０Ｂ（ａ）に示した音波形のスペクトログラムである。表示方法は図１０と同様であるため、その詳細な説明は繰り返さない。図５０Ｂ（ｃ）は、図５０Ｂ（ａ）に示した音波形を入力した場合の検知結果を示すグラフである。表示方法は図４２（ａ）と同様であるため、その詳細な説明は繰り返さない。図５０Ｂ（ｃ）より、白色雑音が検知されないことがわかる。図４９Ａの結果と比較すると、入力した音波形の振幅の大きさに依存しないで白色雑音が検知されないことがわかる。

図５０Ｃに、図４９ＢとＳＮ比が異なる１００Ｈｚの正弦波と白色雑音との混合音を入力した場合の検知結果を示す。図５０Ｃ（ａ）は、入力した混合音の音波形のグラフである。横軸は時間を表しており縦軸は振幅を表している。図５０Ｃ（ｂ）は、図５０Ｃ（ａ）に示した音波形のスペクトログラムである。表示方法は図１０と同様であるため、その詳細な説明は繰り返さない。図５０Ｃ（ｃ）は、図５０Ｃ（ａ）に示した音波形を入力した場合の検知結果を示すグラフである。表示方法は図４２（ａ）と同様であるため、その詳細な説明は繰り返さない。図５０Ｃ（ｃ）より、１００Ｈｚの正弦波の周波数信号が検知されて、白色雑音が検知されないことがわかる。図４９Ａの結果と比較すると、入力した音波形の振幅の大きさに依存しないで正弦波の周波数信号を検知できていることがわかる。

（位相距離を求める所定の時間幅の時間長の設定）
位相距離を求める所定の時間幅の時間長を、窓関数の時間窓幅の２〜４倍の長さに設定することで、抽出音の周波数信号を適切に判定できることについて説明する。

例えば、抽出音の周波数構造の時間変化量が大きい場合は、窓関数の時間窓幅（時間分解能に対応）を小さくする（周波数分解能を大きくなる）ことで周波数構造に追随することができる。このとき、位相距離を求める時間幅（所定の時間幅）の時間長が窓関数の時間窓幅の４倍以上になると、この時間‐周波数領域から抽出音の周波数構造が外れてしまい位相距離が第２のしきい値より大きくなる。このため、抽出音の周波数信号を判定することができなくなってしまう。逆に、位相距離を求める時間幅（所定の時間幅）の時間長が窓関数の時間窓幅の２倍未満になると、周波数信号の位相は周波数信号を求めるときに窓関数の時間窓幅において平滑化される。このため、位相の時間構造を分析することができなくなってしまう。このため、位相距離を求める所定の時間幅の時間長を、窓関数の時間窓幅の２〜４倍の長さに設定する必要がある。

図５１には、窓関数の一例が示されている。図５１（ａ）には矩形窓が、図５１（ｂ）にはガウス窓が、図５１（ｃ）にはハニング窓が、図５１（ｄ）にはハミング窓が、図５１（ｅ）にはブラックマン窓が、図５１（ｆ）には三角窓が示されている。横軸は時間軸で縦軸は振幅の大きさである。

窓関数の時間窓幅とは、窓関数の面積の重心となる時刻を中心にして、窓関数の面積が９０％を占める時間幅である。図５１の窓関数では、図中に示された中心の時刻から黒い部分の面積が９０％になる時間幅が窓関数の時間窓幅である。

周波数分析手段が受付けた混合音をＸ（ｔ）として、所定の時間窓幅をもつ窓関数をｗ（ｔ）として、窓関数が掛け合わされた後の混合音をＸ´（ｔ）とすると、

となる。このとき、窓関数ｗ（ｔ）は所定の時間窓幅になるように時間軸のスケールは調整されている。この時間窓幅における混合音を用いて周波数信号を求めることになり、この時間窓幅は周波数信号の時間分解能に対応することになる。以下では一例として窓関数にハニング窓を用いている。

図５２は、エンジン音と、風雑音と、エンジン音と風雑音との混合音のスペクトログラムである。表示の方法は図１０と同じなので説明を省略する。図５２（ａ）はエンジン音のスペクトログラムであり、図５２（ｂ）は風雑音のスペクトログラムであり、図５２（ｃ）はエンジン音と風雑音との混合音のスペクトログラムである。時間０秒〜２秒での周波数０Ｈｚ〜３００Ｈｚのスペクトログラムが示されている。

図５３〜図５７には、図５２に示された音に対して、実施の形態３と同様にして抽出音の周波数信号を判定したものである。第２のしきい値は、０．０９（ラジアン）に設定されている。横軸は時間軸であり縦軸は周波数である。時間０秒〜２秒での周波数０Ｈｚ〜３００Ｈｚの判定結果が示されている。（Ｉ）の列にはエンジン音に対する判定結果が示され、（ＩＩ）の列には風雑音に対する判定結果が示され、（ＩＩＩ）の列にはエンジン音と風雑音との混合音に対する判定結果が示されている。また、（ａ）の行には位相距離の時間幅を窓関数の時間窓幅の１倍で判定した結果が示され、（ｂ）の行には位相距離の時間幅を窓関数の時間窓幅の２倍で判定した結果が示され、（ｃ）の行には位相距離の時間幅を窓関数の時間窓幅の３倍で判定した結果が示され、（ｄ）の行には位相距離の時間幅を窓関数の時間窓幅の４倍で判定した結果が示され、（ｅ）の行には位相距離の時間幅を窓関数の時間窓幅の５倍で判定した結果が示されている。

図５３には窓関数の時間窓幅を１３ｍｓに設定したときの結果が示され、図５４には窓関数の時間窓幅を２５ｍｓに設定したときの結果が示され、図５５には窓関数の時間窓幅を３８ｍｓに設定したときの結果が示され、図５６には窓関数の時間窓幅を５０ｍｓに設定したときの結果が示され、図５７には窓関数の時間窓幅を６３ｍｓに設定したときの結果が示されている。

図５３〜図５７において、（Ｉ）の列のエンジン音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の５倍以上にすると、エンジン音の周波数信号を検出する割合が少なくなることがわかる。また、（ＩＩ）の列の風雑音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の１倍以下にすると、風雑音の周波数信号が検出される割合が多くなることがわかる。これより、音色のある音（エンジン音）と音色のない音（風雑音）とを区別するためには、位相距離の時間幅を窓関数の時間窓幅の２倍〜４倍の長さに設定すればよいことがわかる。

図５３〜図５７において、（ＩＩＩ）の列のエンジン音と風雑音との混合音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の２倍〜４倍の長さに設定したときに、エンジン音の周波数信号が判定できていることがわかる。

また、図５３〜図５７の判定結果から、窓関数の時間窓幅（時間分解能に対応する）の長さに関わらず、音色のある音（エンジン音）と音色のない音（風雑音）とを区別するためには、位相距離の時間幅を窓関数の時間窓幅の２倍〜４倍の長さに設定すればよいことがわかる。

図５８〜図６２には、図５２に示された音に対して、実施の形態３と同様にして抽出音の周波数信号を判定したものである。ここでは、第２のしきい値は図５３〜図５７とは異なり、０．１７（ラジアン）に設定されている。表示の方法は図５３〜図５７と同じなので説明を省略する。

図５８には窓関数の時間窓幅を１３ｍｓに設定したときの結果が示され、図５９には窓関数の時間窓幅を２５ｍｓに設定したときの結果が示され、図６０には窓関数の時間窓幅を３８ｍｓに設定したときの結果が示され、図６１には窓関数の時間窓幅を５０ｍｓに設定したときの結果が示され、図６２には窓関数の時間窓幅を６３ｍｓに設定したときの結果が示されている。

図５８〜図６２において、（Ｉ）の列のエンジン音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の５倍以上にすると、エンジン音の周波数信号を検出する割合が少なくなることがわかる。また、（ＩＩ）の列の風雑音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の１倍以下にすると、風雑音の周波数信号が検出される割合が多くなることがわかる。また、（ＩＩＩ）の列のエンジン音と風雑音との混合音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の２倍〜４倍の長さに設定したときに、エンジン音の周波数信号が判定できていることがわかる。この結果は、図５３〜図５７の結果と同じである。これより、第２のしきい値の値に関わらず、エンジン音（音色のある音）と風雑音（音色のない音）を区別するためには、位相距離の時間幅を窓関数の時間窓幅の２倍〜４倍の長さに設定すればよいことがわかる。

図６３は、音声と、風雑音と、音声と風雑音との混合音のスペクトログラムである。表示の方法は図７と同じなので説明を省略する。図６３（ａ）は音声のスペクトログラムであり、図６３（ｂ）は風雑音のスペクトログラムであり、図６３（ｃ）は音声と風雑音との混合音のスペクトログラムである。時間０秒〜１秒での周波数０Ｈｚ〜２ｋＨｚのスペクトログラムが示されている。

図６４〜図６７には、図４８に示された音に対して、実施の形態３と同様にして抽出音の周波数信号を判定したものである。第２のしきい値は、０．０９（ラジアン）に設定されている。横軸は時間軸であり縦軸は周波数である。時間０秒〜１秒での周波数０Ｈｚ〜２ｋＨｚの判定結果が示されている。（Ｉ）の列には音声に対する判定結果が示され、（ＩＩ）の列には風雑音に対する判定結果が示され、（ＩＩＩ）の列には音声と風雑音との混合音に対する判定結果が示されている。また、（ａ）の行には位相距離の時間幅を窓関数の時間窓幅の１倍で判定した結果が示され、（ｂ）の行には位相距離の時間幅を窓関数の時間窓幅の２倍で判定した結果が示され、（ｃ）の行には位相距離の時間幅を窓関数の時間窓幅の３倍で判定した結果が示され、（ｄ）の行には位相距離の時間幅を窓関数の時間窓幅の４倍で判定した結果が示され、（ｅ）の行には位相距離の時間幅を窓関数の時間窓幅の５倍で判定した結果が示されている。

図６４には窓関数の時間窓幅を６ｍｓに設定したときの結果が示され、図６５には窓関数の時間窓幅を１３ｍｓに設定したときの結果が示され、図６６には窓関数の時間窓幅を２５ｍｓに設定したときの結果が示され、図６７には窓関数の時間窓幅を３８ｍｓに設定したときの結果が示されている。

図６４〜図６７において、（Ｉ）の列の音声に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の５倍以上にすると、音声の周波数信号を検出する割合が少なくなることがわかる。また、（ＩＩ）の列の風雑音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の１倍以下にすると、風雑音の周波数信号が検出される割合が多くなることがわかる。また、（ＩＩＩ）の列の音声と風雑音との混合音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の２倍〜４倍の長さに設定したときに、音声の周波数信号が判定できていることがわかる。この結果は、図５３〜図５７の結果と同じである。これより、抽出音の種類に関わらず、音色のある音（音声）と音色のない音（風雑音）とを区別するためには、位相距離の時間幅を窓関数の時間窓幅の２倍〜４倍の長さに設定すればよいことがわかる。

図６８は、サイレン音と、走行音（タイヤの摩擦音）と、サイレン音と走行音（タイヤの摩擦音）との混合音のスペクトログラムである。表示の方法は図１０と同じなので説明を省略する。図６８（ａ）はサイレン音のスペクトログラムであり、図６８（ｂ）は走行音（タイヤの摩擦音）のスペクトログラムであり、図６８（ｃ）はサイレン音と走行音（タイヤの摩擦音）との混合音のスペクトログラムである。時間０秒〜２秒での周波数１ｋＨｚ〜２ｋＨｚのスペクトログラムが示されている。

図６９〜図７１には、図６８に示された音に対して、実施の形態３と同様にして抽出音の周波数信号を判定したものである。第２のしきい値は、０．０９（ラジアン）に設定されている。横軸は時間軸であり縦軸は周波数である。時間０秒〜２秒での周波数１ｋＨｚ〜２ｋＨｚの判定結果が示されている。（Ｉ）の列にはサイレン音に対する判定結果が示され、（ＩＩ）の列には走行音（タイヤの摩擦音）に対する判定結果が示され、（ＩＩＩ）の列にはサイレン音と走行音（タイヤの摩擦音）との混合音に対する判定結果が示されている。また、（ａ）の行には位相距離の時間幅を窓関数の時間窓幅の１倍で判定した結果が示され、（ｂ）の行には位相距離の時間幅を窓関数の時間窓幅の２倍で判定した結果が示され、（ｃ）の行には位相距離の時間幅を窓関数の時間窓幅の３倍で判定した結果が示され、（ｄ）の行には位相距離の時間幅を窓関数の時間窓幅の４倍で判定した結果が示され、（ｅ）の行には位相距離の時間幅を窓関数の時間窓幅の５倍で判定した結果が示されている。

図６９には窓関数の時間窓幅を６ｍｓに設定したときの結果が示され、図７０には窓関数の時間窓幅を１３ｍｓに設定したときの結果が示され、図７１には窓関数の時間窓幅を２５ｍｓに設定したときの結果が示されている。

図６９〜図７１において、（Ｉ）の列のサイレン音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の５倍以上にすると、サイレン音の周波数信号を検出する割合が少なくなることがわかる。また、（ＩＩ）の列の走行音（タイヤの摩擦音）に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の１倍以下にすると、走行音の周波数信号が検出される割合が多くなることがわかる。また、（ＩＩＩ）の列のサイレン音と走行音との混合音に対する判定結果をみると、位相距離の時間幅を窓関数の時間窓幅の２倍〜４倍の長さに設定したときに、サイレン音の周波数信号が判定できていることがわかる。この結果は、図５３〜図５７の結果と同じである。これより、雑音（音色ない音）の種類に関わらず、音色のある音（サイレン音）と音色のない音（走行音（タイヤの摩擦音））とを区別するためには、位相距離の時間幅を窓関数の時間窓幅の２倍〜４倍の長さに設定すればよいことがわかる。

上記実施の形態に示した雑音除去装置および車両検知装置は、コンピュータを構成するＣＰＵ上で、上記各装置を構成する各処理部の機能を果たすプログラムを実行することにより実現してもよい。その際、各処理部で処理されるデータは、コンピュータを構成するメモリやハードディスクに記憶される。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

本発明にかかる音判定装置等は、時間−周波数領域で混合音に含まれる抽出音の周波数信号を判定することができる。特に、エンジン音、サイレン音、音声などの音色のある音と、風雑音、雨音、暗騒音などの音色のない音とを区別して、音色のある音（もしくは音色のない音）の周波数信号を、時間−周波数領域ごと判定することができる。

このため、本発明は、時間−周波数領域ごとに判定された音声の周波数信号を入力して、逆周波数変換により抽出音を出力する音声出力装置に適用できる。また、２以上のマイクロホンから入力された混合音の各々に対して、時間−周波数領域ごとに判定された抽出音の周波数信号を入力して抽出音の音源方向を出力する音源方向検知装置に適用できる。さらに、時間−周波数領域ごとに判定された抽出音の周波数信号を入力して、音声認識や音識別を行う音識別装置に適用できる。さらにまた、時間−周波数領域ごとに判定された風雑音の周波数信号を入力して、パワーの大きさを出力する風音レベル判定装置に適用できる。また、時間−周波数領域ごとに判定されたタイヤ摩擦による走行音の周波数信号を入力して、パワーの大きさから車両を検知する車両検知装置に適用できる。さらに、時間−周波数領域ごとに判定されたエンジン音の周波数信号を検知して、車両の接近を知らせる車両検知装置に適用できる。さらにまた、時間−周波数領域ごとに判定されたサイレン音の周波数信号を検知して、緊急車両の接近を知らせる緊急車両検知装置等に適用できる。

１００、１１０、１５００雑音除去装置
１０１、１５０４雑音除去処理部
１０１（ｊ）（ｊ＝１〜Ｍ）、１５０２（ｊ）（ｊ＝１〜Ｍ）、４１０３（ｊ）（ｊ＝１〜Ｍ）抽出音判定部
２００（ｊ）（ｊ＝１〜Ｍ）、１６００（ｊ）（ｊ＝１〜Ｍ）周波数信号選択部
２０１（ｊ）（ｊ＝１〜Ｍ）、１６０１（ｊ）（ｊ＝１〜Ｍ）、４２００（ｊ）（ｊ＝１〜Ｍ）位相距離判定部
２０２（ｊ）（ｊ＝１〜Ｍ）、１５０３（ｊ）（ｊ＝１〜Ｍ）音抽出部
１１００ＤＦＴ分析部
１５０１（ｊ）（ｊ＝１〜Ｍ）、４１０２（ｊ）（ｊ＝１〜Ｍ）位相補正部
２４０１、２４０１（１）、２４０１（２）混合音
２４０２ＦＦＴ分析部
２４０８抽出音の周波数信号
２５０１認識部
２５０２ピッチ抽出部
２５０３判定部
２５０４周期範囲記憶部
４１００車両検知装置
４１０１車両検知処理部
４１０４（ｊ）（ｊ＝１〜Ｍ）音検知部
４１０５抽出音検知フラグ
４１０６提示部
４１０７（１）、４１０７（２）マイクロホン

Claims

抽出音と雑音とを含む混合音を受付けて、前記混合音に所定の時間窓幅の窓関数を掛け合わせて、当該窓関数が掛け合わされた後の混合音から、所定の時間幅に含まれる複数の時刻の各々について、前記混合音の周波数信号を求める周波数分析部と、
前記所定の時間幅に含まれる複数の時刻の前記周波数信号において、第１のしきい値以上の数から構成され、かつ周波数信号間の位相距離が第２のしきい値以下である周波数信号の各々を、前記抽出音の周波数信号と判定する抽出音判定部とを備え、
前記位相距離は、時刻ｔの周波数信号の位相をψ（ｔ）（ラジアン）とするときに、位相をψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）で表したときの、周波数信号の位相間の距離であり、
前記所定の時間幅の時間長は、前記窓関数の時間窓幅の２〜４倍の長さに設定されている
音判定装置。
前記抽出音判定部は、第１のしきい値以上の数から構成され、かつ周波数信号間の前記位相距離が第２のしきい値以下である前記周波数信号の集まりを複数作成して、前記周波数信号の集まり同士の前記位相距離が第３のしきい値以上になる前記周波数信号の集まり同士を、異なる種類の抽出音の周波数信号として判定する
請求項１に記載の音判定装置。
前記周波数分析部は、複数の時間窓幅の窓関数を用いて前記窓関数ごとに、前記所定の時間幅に含まれる複数の時刻の周波数信号から１／ｆ（ｆは分析周波数）の時間間隔の時刻の周波数信号を求め、
前記抽出音判定部は、前記窓関数ごとに求められた周波数信号の各々について、前記抽出音の判定を行い、
前記音判定装置は、さらに、同じ時刻において、少なくとも１つの前記窓関数から求められた周波数信号から前記抽出音の周波数信号が判定されたときに、抽出音検知フラグを作成して出力する音検知部を備える
請求項１に記載の音判定装置。
さらに、時刻ｔの周波数信号の位相ψ（ｔ）（ラジアン）を、ψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）に補正する位相補正部を備え、
前記抽出音判定部は、補正された前記周波数信号の位相ψ´（ｔ）を用いて前記位相距離を求める
請求項１に記載の音判定装置。
前記抽出音判定部は、前記所定の時間幅に含まれる複数の時刻の周波数信号を用いて、時刻と位相とで表される空間における前記複数の時刻の周波数信号の位相の近似直線を求め、前記近似直線と前記複数の時刻の周波数信号との間の前記位相距離を求める
請求項１に記載の音判定装置。
請求項１に記載の音判定装置と、
前記音判定装置において、前記混合音の周波数信号に含まれる周波数信号が前記抽出音の周波数信号と判定されたときに、抽出音検知フラグを作成して出力する音検知部と
を備える音検知装置。
前記周波数分析部は、マイクロホンごとに集音される複数の前記混合音を受付けて、前記混合音ごとに周波数信号を求め、
前記抽出音判定部は、前記混合音の各々について前記抽出音の判定を行い、
前記音検知部は、同じ時刻において、少なくとも１つの前記混合音の周波数信号に含まれる周波数信号が前記抽出音の周波数信号と判定されたときに、抽出音検知フラグを作成して出力する
請求項６に記載の音検知装置。
請求項１に記載の音判定装置と、
前記音判定装置において、前記混合音の周波数信号に含まれる周波数信号が前記抽出音の周波数信号と判定されたときに、前記抽出音の周波数信号と判定された前記周波数信号を出力する音抽出部と
を備える音抽出装置。
コンピュータが、抽出音と雑音とを含む混合音を受付けて、前記混合音に所定の時間窓幅の窓関数を掛け合わせて、当該窓関数が掛け合わされた後の混合音から、所定の時間幅に含まれる複数の時刻の各々について、前記混合音の周波数信号を求める周波数分析ステップと、
コンピュータが、前記所定の時間幅に含まれる複数の時刻の前記周波数信号において、第１のしきい値以上の数から構成され、かつ周波数信号間の位相距離が第２のしきい値以下である周波数信号の各々を、前記抽出音の周波数信号と判定する抽出音判定ステップとを含み、
前記位相距離は、時刻ｔの周波数信号の位相をψ（ｔ）（ラジアン）とするときに、位相をψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）で表したときの、周波数信号の位相間の距離であり、
前記所定の時間幅の時間長は、前記窓関数の時間窓幅の２〜４倍の長さに設定されている
音判定方法。
抽出音と雑音とを含む混合音を受付けて、前記混合音に所定の時間窓幅の窓関数を掛け合わせて、当該窓関数が掛け合わされた後の混合音から、所定の時間幅に含まれる複数の時刻の各々について、前記混合音の周波数信号を求める周波数分析ステップと、
前記所定の時間幅に含まれる複数の時刻の前記周波数信号において、第１のしきい値以上の数から構成され、かつ周波数信号間の位相距離が第２のしきい値以下である周波数信号の各々を、前記抽出音の周波数信号と判定する抽出音判定ステップとをコンピュータに実行させ、
前記位相距離は、時刻ｔの周波数信号の位相をψ（ｔ）（ラジアン）とするときに、位相をψ´（ｔ）＝ｍｏｄ２π（ψ（ｔ）−２πｆｔ）（ｆは分析周波数）で表したときの、周波数信号の位相間の距離であり、
前記所定の時間幅の時間長は、前記窓関数の時間窓幅の２〜４倍の長さに設定されている
音判定プログラム。