JP2013205830A

JP2013205830A - トーン成分検出方法、トーン成分検出装置およびプログラム

Info

Publication number: JP2013205830A
Application number: JP2012078320A
Authority: JP
Inventors: Mototsugu Abe; 素嗣安部; Masayuki Nishiguchi; 正之西口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-03-29
Filing date: 2012-03-29
Publication date: 2013-10-07
Also published as: US8779271B2; US20130255473A1

Abstract

【課題】音声や楽音などの時間信号からトーン成分を精度よく検出する。
【解決手段】入力時間信号を短時間フーリエ変換などにより時間周波数変換して時間周波数分布（スペクトログラム）を得る。この時間周波数分布の各時間フレームにおいて周波数方向のピークを検出する。検出された各ピークの近傍領域において、２次多項式関数などのトーンモデルをフィッティングする。このフィッティング結果に基づき、検出された各ピークのトーン成分らしさを示すスコアを得る。ピーク以外の各位置のスコアは０とする。
【選択図】図１

Description

本技術は、トーン成分検出方法、トーン成分検出装置およびプログラムに関する。

音声や楽音など１次元時間信号を構成する成分は、大まかに言って、（１）トーン性の成分、（２）定常ノイズ性の成分、（３）過渡的ノイズ性の成分、の３種で表される。トーン性の成分は、音源の定常的かつ周期的な振動に起因する成分に相当する。定常ノイズ性の成分は、摩擦や乱流など定常的だが非周期的な現象に起因する成分に相当する。過渡的ノイズ性の成分は、打撃や音源状態の急激な変化など非定常的な現象に起因する成分に相当する。この中でトーン性の成分は、その音源体の固有の性質をよく表す成分であることから、音の分析時には特に重要とされる。

実際の音から観測されるトーン成分は、緩やかな時間変化を伴う複数の正弦波性の成分であることが多い。このトーン成分は、短時間フーリエ変換の振幅を時系列で表示したいわゆるスペクトログラム上では、例えば、図８に示すように、横縞状の模様として表れる。図９は、図８の０．２秒付近のフレームを抜き出したスペクトルを示し、参考のため検出すべき真のトーン成分を矢印で示している。このようなスペクトルから、トーン性成分の存在する時間と周波数を精度よく検出することは、音の分析、符号化、雑音低減、高音質化など多くの応用技術に対する基本処理となる。

従来から、トーン性の成分を検出することは行われている。代表的な方法は、各短時間フレームにて振幅スペクトルを求め、その局所ピークを検出し、検出されたピークを全てトーン性の成分とみなしてしまう方法である。この方法の問題は、局所ピークとなっているからといって必ずしもトーン成分とは限らないため、多数の誤検出が発生することである。

因みに、振幅スペクトルの局所ピークの発生要因には、（１）トーン成分によるピーク、に加え、（２）サイドローブ性のピーク、（３）ノイズ性のピーク、（４）干渉性のピーク、などがある。図１０は、図８のスペクトログラムより各フレームの振幅スペクトルの局所ピークを検出し、黒点で示した結果を示している。図８の黒い横縞成分、つまりトーン成分は、図１０でも確かに横線状に検出されている。しかし、一方で、雑音性の成分などの部分でも多数のピークが検出されている。図１１は、図９のスペクトルより、同様に局所ピークを検出した結果を黒点で示している。図９に示した正しいトーン性の成分と比較して、誤検出されたピークが多くあることがわかる。

この方法に関して、精度を改善する手法としては、例えば、
（Ａ）局所ピークの高さに閾値を設け、値の小さいものは検出しない方法、
（Ｂ）局所ピークを、時間方向に複数フレームに渡って近傍則により接続し、一定程度以上継続しない成分を排除する方法、
などがある。

（Ａ）の方法は、トーン成分の大きさは雑音よりも常に大きいということを仮定したものである。しかし、無理のある仮定であり、成立しない場合も多くあるため、性能向上は限られている。実際、図１１の２ｋＨｚ付近で誤検出されているピークの大きさは、３．９ｋＨｚ付近のトーン成分とほぼ同程度になっており、仮定は成立していない。

（Ｂ）の方法は、例えば、非特許文献１，２に示されるような方法である。この方法は、トーン成分は時間的な継続性を持つ（例えば、音声ならば、例えば１００ｍｓ以上は継続することが多い）という性質を利用したものである。しかし、トーン成分以外にも継続するピークがあり、一方で、短く分断されたトーン成分が検出されないなど、多くの応用にとって必ずしも十分な精度を達成できるわけではない。

R. J. McAulay and T. F. Quatieri: ``Speech Analysis/Synthesis Basedon a Sinusoidal Representation,'' IEEE Transaction on Acoustics, Speechand Signal Processing, Vol.34, No.4, 744/754 (1986). J.O.Smith III and X. Serra, "PARSHL: AnAnalysis/Synthesis Program for Non-Harmonic Sounds Based on a SinusoidalRepresentation", Proceedings of the InternationalComputer Music Conference (1987).

本技術の目的は、音声や楽音などの時間信号からトーン成分の検出を精度よく行うことにある。

本技術の概念は、
入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換ステップと、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出ステップと、
上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティングステップと、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化ステップとを備える
トーン成分検出方法にある。

本技術において、時間周波数変換ステップで、入力時間信号が時間周波数変換されて時間周波数分布（スペクトログラム）が得られる。この場合、例えば、短時間フーリエ変換により入力信号を時間周波数変換する、ようにされてもよい。なお、ウェーブレット変換など、その他の変換手法を使用して、入力時間信号を時間周波数変換することも考えられる。

ピーク検出ステップで、時間周波数分布の各時間フレームにおいて、周波数方向のピークが検出される。そして、フィッティングステップで、検出された各ピークの近傍の領域において、トーンモデルがフィッティングされる。この場合、例えば、トーンモデルとして、時間および周波数を変数とした２次多項式関数を使用する、ようにされてもよい。なお、３次以上の多項式関数を使用することも考えられる。また、この場合、例えば、検出された各ピーク近傍の時間周波数分布とトーンモデルの二乗誤差最小基準によりフィッティングを行う、ようにされてもよい。なお、４乗誤差最小基準やエントロピー最小基準などによりフィッティングを行うことも考えられる。

スコア化ステップで、フィッティング結果に基づき、検出された各ピークのトーン成分らしさを示すスコアが得られる。この場合、例えば、スコア化ステップでは、少なくとも、フィッティング結果に基づいて抽出されるフィッティング誤差を使用して、検出された各ピークのトーン成分らしさを示すスコアを得る、ようにされてもよい。また、この場合、例えば、スコア化ステップでは、少なくとも、フィッティング結果に基づいて抽出される周波数方向のピーク曲率を使用して、検出された各ピークのトーン成分らしさを示すスコアを得る、ようにされてもよい。

また、この場合、例えば、スコア化ステップでは、フィッティング結果に基づいて所定数の特徴量を抽出し、この抽出された所定数の特徴量を合成して、検出された各ピークのトーン成分らしさを示すスコアを得る、ようにされてもよい。この場合、抽出された所定数の特徴量を合成する際に、この所定数の特徴量に対して非線形関数を施して荷重和をとる、ようにされてもよい。ここで、所定数の特徴量は、例えば、フィッティングされたトーンモデルにより得られる、フィッティング誤差、周波数方向のピーク曲率、ピークの周波数、ピーク位置における振幅値、周波数変化率、振幅変化率のいずれか一つ以上とされてもよい。

このように本技術においては、時間周波数分布（スペクトログラム）から検出された周波数方向の各ピークの近傍の領域においてトーンモデルをフィッティングし、そのフィッティング結果に基づいて各ピークのトーン成分らしさを示すスコアを得るものである。したがって、トーン成分の高精度の検出が可能となる。

本技術によれば、音声や楽音などの時間信号からトーン成分を精度よく検出できる。

実施の形態としてのトーン成分検出装置の構成例を示すブロック図である。２次元多項式関数がトーン性のスペクトルピーク近傍ではよく当てはまるが、ノイズ性のスペクトルピーク近傍ではあまりよく当てはまらないという性質を説明するための模式図である。トーン性ピークの時間方向への変化と、スペクトログラム上の小領域Г内でのフィッティングを模式的に示す図である。トーン成分検出処理をソフトウェアで行うコンピュータ装置の構成例を示すブロック図である。コンピュータ装置のＣＰＵによるトーン成分検出処理の手順の一例を示すフローチャートである。実施の形態の効果を説明するための、トーン成分検出結果の一例を示す図である。実施の形態の効果を説明するための、トーン成分検出結果の一例を示す図である。音声のスペクトログラムの一例を示す図である。スペクトログラムの所定の時間フレームを抜き出したスペクトルを示す図である。スペクトログラムより各フレームの振幅スペクトルの局所ピークを検出し、黒点で示した結果を示す図である。スペクトログラムの所定の時間フレームを抜き出したスペクトルより、局所ピークを検出した結果を示す図である。

以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
１．実施の形態
２．変形例

＜１．実施の形態＞
［トーン成分検出装置］
図１は、トーン成分検出装置１００の構成例を示している。このトーン成分検出装置１００は、時間周波数変換部１０１と、ピーク検出部１０２と、フィッティング部１０３と、特徴抽出部１０４と、スコア化部１０５を有している。

時間周波数変換部１０１は、音声や楽音などの入力時間信号ｆ(t)を時間周波数変換して、時間周波数信号Ｆ(n,k)を得る。ここで、ｔは離散時間、ｎは時間フレームの番号、ｋは離散周波数を表す。時間周波数変換部１０１は、例えば、以下の数式（１）に示すように、短時間フーリエ変換により、入力時間信号ｆ(t)を時間周波数変換し、時間周波数信号Ｆ(n,k)を得る。

ただし、Ｗ(t)は窓関数、Ｍは窓関数のサイズ、Ｒはフレーム時間間隔（＝ホップサイズ）を表す。時間周波数信号Ｆ(n,k)は、時間フレームｎ、周波数ｋにおける周波数成分の対数振幅値を表すものであり、いわゆるスペクトログラム（時間周波数分布）である。

ピーク検出部１０２は、時間周波数変換部１０１で得られたスペクトログラムの各時間フレームにおいて、周波数方向のピークを検出する。すなわち、ピーク検出部１０２は、このスペクトログラムに対し、全てのフレーム、全ての周波数で、その位置が周波数方向に関してのピーク（極大値）であるか否かを検出する。

Ｆ(n,k)がピークであるか否かの検出は、例えば、以下の数式（２）を満足するか否かを確認することで行われる。なお、ピークの検出方法として３点を使った方法を示しているが、５点を使った方法であってもよい。

フィッティング部１０３は、ピーク検出部１０２で検出された各ピークに関し、以下のように、そのピークの近傍領域においてトーンモデルをフィッティングする。まず、フィッティング部１０３は、対象とするピークを原点とする座標に座標変換を行い、以下の数式（３）に示すように、近傍の時間周波数領域を設定する。ここで、ΔNは時間方向の近傍領域（例えば３点）、Δkは周波数方向の近傍領域（例えば２点）を表す。

続いて、フィッティング部１０３は、近傍領域内の時間周波数信号に対し、例えば、以下の数式（４）に示すような２次多項式関数のトーンモデルをフィッティングする。この場合、フィッティング部１０３は、例えば、ピーク近傍の時間周波数分布とトーンモデルの二乗誤差最小基準によりフィティングを行う。

すなわち、フィッティング部１０３は、時間周波数信号と多項式関数の近傍領域内における、以下の数式（５）に示すような二乗誤差を最小にする係数を、以下の数式（６）に示すように求めることでフィッティングを行う。

この２次多項式関数は、トーン性のスペクトルピーク近傍では、よく当てはまる（誤差が小さい）が、ノイズ性のスペクトルピーク近傍ではあまりよく当てはまらない（誤差が大きい）、という性質をもつ。図２（ａ）、（ｂ）は、その様子を模式的に示している。図２（ａ）は、上述の数式（１）で得られる、第ｎフレームのトーン性ピーク付近のスペクトルを模式的に示している。

図２（ｂ）は、図２（ａ）のスペクトルに対して、以下の数式（７）で示される２次関数ｆ0(k)を当てはめる様子を示している。ただし、ａがピーク曲率、ｋ0が真のピークの周波数、ｇ0が真のピーク位置での対数振幅値である。トーン性の成分のスペクトルピークでは２次関数がよく当てはまるが、ノイズ性のピークでは、ずれが大きい傾向がある。

図３（ａ）は、トーン性ピークの時間方向への変化を模式的に示している。トーン性ピークは、前後の時間フレームで、その概形を保ったまま振幅および周波数が変化をしてゆく。なお、実際に得られるスペクトルは離散点だが、便宜的に曲線で示している。一点鎖線が前フレーム、実線が現フレーム、点線が次フレームである。

多くの場合、トーン性の成分はある程度の時間の持続性があり、多少の周波数変化や時間変化を伴うものの、ほぼ同じ形の２次関数のシフトで表すことができる。この変化Ｙ(k,n)は、以下の数式（８）で表される。スペクトルを対数振幅で表しているため、振幅の変化はスペクトルの上下への移動になる。振幅変化項ｆ1(n)が加算となるのはそのためである。ただし、βは周波数の変化率、ｆ1(n)はピーク位置における振幅の変化を表す時間関数である。

この変化Ｙ(k,n)は、ｆ1(n)を時間方向の２次関数で近似すると、以下の数式（９）で表される。ａ、k0、β、d1、e1、ｇ0 は定数なので、適切に変数変換をすることで、この（９）式は、上述の（４）式と等価となる。

図３（ｂ）は、スペクトログラム上の小領域Г内でのフィッティングを模式的に示している。トーン性ピークでは、類似した形状が緩やかに時間変化するため、数式（４）がよく適合する傾向にある。しかし、ノイズ性のピーク近傍に関しては、ピークの形状やピークの周波数がばらつくため、数式（４）はあまりよく適合しない、つまり、最適に当てはめても誤差が大きいものとなる。

なお、上述の数式（６）では、ａ，ｂ，ｃ，ｄ，ｅ，ｇの全ての係数に関するフィッティングを行う計算を示した。しかし、いくつかの係数についてはあらかじめ定数に固定した上でのフィッティングを行ってもよい。また、２次以上の多項式関数でフィッティングしてもよい。

図１に戻って、特徴抽出部１０４は、フィッティング部１０３で得られる各ピークにおけるフィッティング結果（上述の数式（６）参照）に基づいて、以下の数式（１０）に示すような特徴量（ｘ0，ｘ1，ｘ2，ｘ3，ｘ4，ｘ5）を抽出する。各特徴量は、各ピークにおける周波数成分の性質を表す特徴量であり、それ自体を音声や楽音などの分析に用いることができる。

スコア化部１０５は、各ピークのトーン成分らしさを定量化するために、ピーク毎に特徴抽出部１０４で抽出された特徴量を用いて、各ピークのトーン成分らしさを示すスコアを得る。スコア化部１０５は、特徴量（ｘ0，ｘ1，ｘ2，ｘ3，ｘ4，ｘ5）のうち、一つまたは複数の特徴量を用いて、以下の数式（１１）に示すように、スコアＳ(n,k)を求める。この場合、少なくとも、フィッティングの正規化誤差ｘ5、あるいは周波数方向のピークの曲率ｘ0が使用される。

ただし、Sigm(x)はシグモイド関数であり、ｗiはあらかじめ定める荷重係数であり、Ｈi(xi)は、i番目の特徴量ｘiに対して施すあらかじめ定める非線形関数である。非線形関数Ｈi(xi)には、例えば、以下の数式（１２）に示すような関数を用いることができる。ただし、ｕi，ｖiは、あらかじめ定める荷重係数である。ｗi，ｕi，ｖiは、なんらかの適切な定数をあらかじめ定めてもよいが、例えば、多数のデータを用いて最急降下学習などを行うことで、自動的に決定することもできる。

スコア化部１０５は、上述したように、ピーク毎に、数式（１１）によって、トーン成分らしさを示すスコアＳ(n,k)を求める。なお、スコア化部１０５は、ピークではない位置（n,k）におけるスコアＳ(n,k)を０とする。スコア化部１０５は、時間周波数信号ｆ（n,k）の各時刻、各周波数において、０から１の間の値を取るトーン成分らしさのスコアＳ(n,k)を得、トーン成分検出結果として出力する。

なお、トーン成分か否かを２値判定する必要がある場合には、適切な閾値ＳThsdを用いて、以下の数式（１３）に示すように、判定することもできる。

図１に示すトーン成分検出装置１００の動作を説明する。音声や楽音などの入力時間信号ｆ(t)は時間周波数変換部１０１に供給される。この時間周波数変換部１０１では、入力時間信号ｆ(t)が時間周波数変換されて、時間周波数信号Ｆ(n,k)が得られる。この時間周波数信号Ｆ(n,k)は、時間フレームｎ、周波数ｋにおける周波数成分の対数振幅値を表すものであり、いわゆるスペクトログラム（時間周波数分布）である。このスペクトログラムは、ピーク検出部１０２に供給される。

ピーク検出部１０２では、そのスペクトログラムに対し、全てのフレーム、全ての周波数で、その位置が周波数方向に関してのピークであるか否かが検出される。このピーク検出結果は、フィッティング部１０３に供給される。フィッティング部１０３では、各ピークに関し、そのピークの近傍領域においてトーンモデルがフィッティングされる。このフィッティングにより、例えば、トーンモデルを構成する２次多項式関数（数式（４）参照）の係数が、二乗誤差を最小にするように求められる。このフィッティング結果は、特徴抽出部１０４に供給される。

特徴抽出部１０４では、フィッティング部１０３で得られる各ピークにおけるフィッティング結果（数式（６）参照）に基づいて、種々の特徴量が抽出される（数式（１０）参照）。例えば、ピークの曲率、ピークの周波数、ピークの対数振幅値、周波数の変化率、振幅の変化率、フィッティングの正規化誤差などの特徴量が抽出される。このように抽出された特徴量は、スコア化部１０５に供給される。

スコア化部１０５では、ピーク毎に、特徴量が用いられて、そのピークのトーン成分らしさを示す、０から１の間の値をとるスコアＳ(n,k)が求められ（数式（１１）参照）、トーン成分検出結果として出力される。なお、このスコア化部１０５では、ピークではない位置（n,k）におけるスコアＳ(n,k)は０とされる。

なお、図１に示すトーン成分検出装置１００は、ハードウェアで構成できる他、ソフトウェアで構成することもできる。例えば、図４に示すコンピュータ装置２００に、図１に示すトーン成分検出装置１００の各部の機能を持たせ、上述したと同様のトーン成分検出処理を行わせることができる。

コンピュータ装置２００は、ＣＰＵ(Central Processing Unit)１８１、ＲＯＭ(Read OnlyMemory)１８２、ＲＡＭ(Random Access Memory)１８３、データ入出力部（データＩ／Ｏ）１８４およびＨＤＤ（Hard Disk Drive）１８５により構成されている。ＲＯＭ１８２には、ＣＰＵ１８１の処理プログラムなどが格納されている。ＲＡＭ１８３は、ＣＰＵ１８１のワークエリアとして機能する。ＣＰＵ１８１は、ＲＯＭ１８２に格納されている処理プログラムを必要に応じて読み出し、読み出した処理プログラムをＲＡＭ１８３に転送して展開し、当該展開された処理プログラムを読み出して、トーン成分検出処理を実行する。

このコンピュータ装置２００においては、入力時間信号ｆ(t)は、データＩ／Ｏ１８４を介して入力され、ＨＤＤ１８５に蓄積される。このＨＤＤ１８５に蓄積された入力時間信号ｆ(t)に対して、ＣＰＵ１８１により、トーン成分検出処理が行われる。そして、トーン成分検出結果Ｓ(n,k)がデータＩ／Ｏ１８４を介して外部に出力される。

図５のフローチャートは、ＣＰＵ１８１によるトーン成分検出処理の手順の一例を示している。ＣＰＵ１８１は、ステップＳＴ１において、処理を開始し、その後、ステップＳＴ２の処理に移る。このステップＳＴ２において、ＣＰＵ１８１は、入力時間信号ｆ(t)を時間周波数変換して、時間周波数信号Ｆ(n,k)、つまりスペクトログラム（時間周波数分布）を得る。

次に、ＣＰＵ１８１は、ステップＳＴ３において、フレーム（時間フレーム）の番号ｎを０に設定する。そして、ＣＰＵ１８１は、ステップＳＴ４において、ｎ＜Ｎであるか否かを判断する。なお、スペクトログラム（時間周波数分布）のフレームは０からＮ−１まで存在するものとする。ｎ＜Ｎでないとき、ＣＰＵ１８１は、全てのフレームの処理が終了したものと判断し、ステップＳＴ５において、処理を終了する。

ｎ＜Ｎであるとき、ＣＰＵ１８１は、ステップＳＴ６において、離散周波数ｋを０に設定する。そして、ＣＰＵ１８１は、ステップＳＴ７において、ｋ＜Ｋであるか否かを判断する。なお、スペクトログラム（時間周波数分布）の離散周波数ｋは０からＫ−１まで存在するものとする。ｋ＜Ｋでないとき、ＣＰＵ１８１は、全ての離散周波数の処理が終了したものと判断し、ステップＳＴ８において、ｎをインクリメントし、その後に、ステップＳＴ４に戻り、次のフレームの処理に移る。

ステップＳＴ７でｋ＜Ｋであるとき、ＣＰＵ１８１は、ステップＳＴ９において、Ｆ(n,k)がピークであるか否かを判断する。ピークでないとき、ＣＰＵ１８１は、ステップＳＴ１０において、スコアＳ(n,k)を０とし、ステップＳＴ１１において、ｋをインクリメントし、その後に、ステップＳＴ７に戻り、次の離散周波数の処理に移る。

ステップＳＴ９でピークであるとき、ＣＰＵ１８１は、ステップＳＴ１２の処理に移る。このステップＳＴ１２において、ＣＰＵ１８１は、そのピークの近傍領域においてトーンモデルをフィッティングする。そして、ＣＰＵ１８１は、ステップＳＴ１３において、フィッティング結果に基づいて、種々の特徴量（ｘ0，ｘ1，ｘ2，ｘ3，4，ｘ5）を抽出する。

次に、ＣＰＵ１８１は、ステップＳＴ１４において、ステップＳＴ１３で抽出された特徴量を用いて、そのピークのトーン成分らしさを示す、０から１の間の値をとるスコアＳ(n,k)を求める。ＣＰＵ１８１は、このステップＳＴ１４の処理の後、ステップＳＴ１１において、ｋをインクリメントし、その後に、ステップＳＴ７に戻り、次の離散周波数の処理に移る。

上述したように、図１に示すトーン成分検出装置１００においては、時間周波数分布（スペクトログラム）Ｆ(n,k)から検出された周波数方向の各ピークの近傍の領域においてトーンモデルをフィッティングし、そのフィッティング結果に基づいて各ピークのトーン成分らしさを示すスコアＳ(n,k)を得るものである。したがって、トーン成分を精度よく検出できる。これにより、音声の分析、符号化、雑音低減や高音質化などの応用技術に有用な情報が得られる。

図６は、図８に示すようなスペクトログラムが得られる音声時間信号ｆ(t)から、上述の本技術の方法により検出したトーン成分らしさを示すスコアＳ(n,k)の一例を表している。スコアＳ(n,k)の値が大きいほど黒く表示されているが、ノイズ性のピークは概ね検出されていないのに対し、トーン性の成分（図８で黒い太横線を形成している成分）のピークは概ね検出されていることが分かる。また、図７は、図９のスペクトルに対するトーン成分の検出結果を示している。図１０、図１１の方法では多くの非トーン性のピークが誤検出されているのに対し、本技術の方法では、トーン性のピークが精度よく検出されていることがわかる。

また、図１に示すトーン成分検出装置１００においては、各トーン成分の各時刻におけるピーク曲率、正確な周波数、正確なピーク振幅値、周波数変化率、振幅変化率など、トーン成分の属性も合わせて検出できる（数式（１０）参照）。これらもまた、音声の分析、符号化、雑音低減や高音質化などの応用技術に有用である。

＜２．変形例＞
なお、上述実施の形態においては、短時間フーリエ変換により時間周波数変換を行うように説明したが、ウェーブレット変換など、その他の変換手法を使用して、入力時間信号を時間周波数変換することも考えられる。また、上述実施の形態においては、検出された各ピーク近傍の時間周波数分布とトーンモデルの二乗誤差最小基準によりフィッティングを行うように説明したが、４乗誤差最小基準やエントロピー最小基準などによりフィッティングを行うことも考えられる。

また、本技術は、以下のような構成を取ることもできる。
（１）入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換ステップと、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出ステップと、
上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティングステップと、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化ステップとを備える
トーン成分検出方法。
（２）上記時間周波数変換ステップでは、
短時間フーリエ変換により、上記入力時間信号を時間周波数変換する
前記（１）に記載のトーン成分検出方法。
（３）上記フィッティングステップでは、
上記トーンモデルとして、時間および周波数を変数とした２次多項式関数を使用する
前記（１）または（２）に記載のトーン成分検出方法。
（４）上記フィッティングステップでは、
上記検出された各ピーク近傍の時間周波数分布と上記トーンモデルの二乗誤差最小基準によってフィッティングを行う
前記（１）から（３）のいずれかに記載のトーン成分検出方法。
（５）上記スコア化ステップでは、
少なくとも、上記フィッティング結果に基づいて抽出されるフィッティング誤差を使用して、上記検出された各ピークのトーン成分らしさを示すスコアを得る
前記（１）から（４）のいずれかに記載のトーン成分検出方法。
（６）上記スコア化ステップでは、
少なくとも、上記フィッティング結果に基づいて抽出される周波数方向のピーク曲率を使用して、上記検出された各ピークのトーン成分らしさを示すスコアを得る
前記（１）から（４）のいずれかに記載のトーン成分検出方法。
（７）上記スコア化ステップでは、
上記フィッティング結果に基づいて所定数の特徴量を抽出し、該抽出された所定数の特徴量を合成して、上記検出された各ピークのトーン成分らしさを示すスコアを得る
前記（１）から（４）のいずれかに記載のトーン成分検出方法。
（８）上記スコア化ステップでは、
上記抽出された所定数の特徴量を合成する際に、該所定数の特徴量に対して非線形関数を施して荷重和をとる
前記（７）に記載のトーン成分検出方法。
（９）上記所定数の特徴量は、上記フィッティングされたトーンモデルにより得られる、フィッティング誤差、周波数方向のピークの曲率、ピークの周波数、ピーク位置における振幅値、周波数変化率、振幅変化率のいずれか一つ以上である
前記（７）または（８）に記載のトーン成分検出方法。
（１０）入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、
上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティング部と、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える
トーン成分検出装置。
（１１）コンピュータを、
入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換手段と、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出手段と、
上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティング手段と、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化手段と
して機能させるプログラム。

１００・・・トーン成分検出装置
１０１・・・時間周波数変換部
１０３・・・フィッティング部
１０４・・・特徴抽出部
１０５・・・スコア化部
２００・・・コンピュータ装置
１８１・・・ＣＰＵ
１８２・・・ＲＯＭ
１８３・・・ＲＡＭ
１８４・・・データＩ／Ｏ
１８５・・・ＨＤＤ

Claims

入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換ステップと、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出ステップと、
上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティングステップと、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化ステップとを備える
トーン成分検出方法。
上記時間周波数変換ステップでは、
短時間フーリエ変換により、上記入力時間信号を時間周波数変換する
請求項１に記載のトーン成分検出方法。
上記フィッティングステップでは、
上記トーンモデルとして、時間および周波数を変数とした２次多項式関数を使用する
請求項１に記載のトーン成分検出方法。
上記フィッティングステップでは、
上記検出された各ピーク近傍の時間周波数分布と上記トーンモデルの二乗誤差最小基準によってフィッティングを行う
請求項１に記載のトーン成分検出方法。
上記スコア化ステップでは、
少なくとも、上記フィッティング結果に基づいて抽出されるフィッティング誤差を使用して、上記検出された各ピークのトーン成分らしさを示すスコアを得る
請求項１に記載のトーン成分検出方法。
上記スコア化ステップでは、
少なくとも、上記フィッティング結果に基づいて抽出される周波数方向のピーク曲率を使用して、上記検出された各ピークのトーン成分らしさを示すスコアを得る
請求項１に記載のトーン成分検出方法。
上記スコア化ステップでは、
上記フィッティング結果に基づいて所定数の特徴量を抽出し、該抽出された所定数の特徴量を合成して、上記検出された各ピークのトーン成分らしさを示すスコアを得る
請求項１に記載のトーン成分検出方法。
上記スコア化ステップでは、
上記抽出された所定数の特徴量を合成する際に、該所定数の特徴量に対して非線形関数を施して荷重和をとる
請求項７に記載のトーン成分検出方法。
上記所定数の特徴量は、上記フィッティングされたトーンモデルにより得られる、フィッティング誤差、周波数方向のピークの曲率、ピークの周波数、ピーク位置における振幅値、周波数変化率、振幅変化率のいずれか一つ以上である
請求項７に記載のトーン成分検出方法。
入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、
上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティング部と、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える
トーン成分検出装置。
コンピュータを、
入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換手段と、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出手段と、
上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティング手段と、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化手段と
して機能させるプログラム。