JP2013205830A - トーン成分検出方法、トーン成分検出装置およびプログラム - Google Patents

トーン成分検出方法、トーン成分検出装置およびプログラム Download PDF

Info

Publication number
JP2013205830A
JP2013205830A JP2012078320A JP2012078320A JP2013205830A JP 2013205830 A JP2013205830 A JP 2013205830A JP 2012078320 A JP2012078320 A JP 2012078320A JP 2012078320 A JP2012078320 A JP 2012078320A JP 2013205830 A JP2013205830 A JP 2013205830A
Authority
JP
Japan
Prior art keywords
time
peak
frequency
fitting
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012078320A
Other languages
English (en)
Inventor
Mototsugu Abe
素嗣 安部
Masayuki Nishiguchi
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012078320A priority Critical patent/JP2013205830A/ja
Priority to US13/780,179 priority patent/US8779271B2/en
Publication of JP2013205830A publication Critical patent/JP2013205830A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/02Instruments in which the tones are synthesised from a data store, e.g. computer organs in which amplitudes at successive sample points of a tone waveform are stored in one or more memories
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】音声や楽音などの時間信号からトーン成分を精度よく検出する。
【解決手段】入力時間信号を短時間フーリエ変換などにより時間周波数変換して時間周波数分布(スペクトログラム)を得る。この時間周波数分布の各時間フレームにおいて周波数方向のピークを検出する。検出された各ピークの近傍領域において、2次多項式関数などのトーンモデルをフィッティングする。このフィッティング結果に基づき、検出された各ピークのトーン成分らしさを示すスコアを得る。ピーク以外の各位置のスコアは0とする。
【選択図】図1

Description

本技術は、トーン成分検出方法、トーン成分検出装置およびプログラムに関する。
音声や楽音など1次元時間信号を構成する成分は、大まかに言って、(1)トーン性の成分、(2)定常ノイズ性の成分、(3)過渡的ノイズ性の成分、の3種で表される。トーン性の成分は、音源の定常的かつ周期的な振動に起因する成分に相当する。定常ノイズ性の成分は、摩擦や乱流など定常的だが非周期的な現象に起因する成分に相当する。過渡的ノイズ性の成分は、打撃や音源状態の急激な変化など非定常的な現象に起因する成分に相当する。この中でトーン性の成分は、その音源体の固有の性質をよく表す成分であることから、音の分析時には特に重要とされる。
実際の音から観測されるトーン成分は、緩やかな時間変化を伴う複数の正弦波性の成分であることが多い。このトーン成分は、短時間フーリエ変換の振幅を時系列で表示したいわゆるスペクトログラム上では、例えば、図8に示すように、横縞状の模様として表れる。図9は、図8の0.2秒付近のフレームを抜き出したスペクトルを示し、参考のため検出すべき真のトーン成分を矢印で示している。このようなスペクトルから、トーン性成分の存在する時間と周波数を精度よく検出することは、音の分析、符号化、雑音低減、高音質化など多くの応用技術に対する基本処理となる。
従来から、トーン性の成分を検出することは行われている。代表的な方法は、各短時間フレームにて振幅スペクトルを求め、その局所ピークを検出し、検出されたピークを全てトーン性の成分とみなしてしまう方法である。この方法の問題は、局所ピークとなっているからといって必ずしもトーン成分とは限らないため、多数の誤検出が発生することである。
因みに、振幅スペクトルの局所ピークの発生要因には、(1)トーン成分によるピーク、に加え、(2)サイドローブ性のピーク、(3)ノイズ性のピーク、(4)干渉性のピーク、などがある。図10は、図8のスペクトログラムより各フレームの振幅スペクトルの局所ピークを検出し、黒点で示した結果を示している。図8の黒い横縞成分、つまりトーン成分は、図10でも確かに横線状に検出されている。しかし、一方で、雑音性の成分などの部分でも多数のピークが検出されている。図11は、図9のスペクトルより、同様に局所ピークを検出した結果を黒点で示している。図9に示した正しいトーン性の成分と比較して、誤検出されたピークが多くあることがわかる。
この方法に関して、精度を改善する手法としては、例えば、
(A)局所ピークの高さに閾値を設け、値の小さいものは検出しない方法、
(B)局所ピークを、時間方向に複数フレームに渡って近傍則により接続し、一定程度以上継続しない成分を排除する方法、
などがある。
(A)の方法は、トーン成分の大きさは雑音よりも常に大きいということを仮定したものである。しかし、無理のある仮定であり、成立しない場合も多くあるため、性能向上は限られている。実際、図11の2kHz付近で誤検出されているピークの大きさは、3.9kHz付近のトーン成分とほぼ同程度になっており、仮定は成立していない。

(B)の方法は、例えば、非特許文献1,2に示されるような方法である。この方法は、トーン成分は時間的な継続性を持つ(例えば、音声ならば、例えば100ms以上は継続することが多い)という性質を利用したものである。しかし、トーン成分以外にも継続するピークがあり、一方で、短く分断されたトーン成分が検出されないなど、多くの応用にとって必ずしも十分な精度を達成できるわけではない。
R. J. McAulay and T. F. Quatieri: ``Speech Analysis/Synthesis Basedon a Sinusoidal Representation,'' IEEE Transaction on Acoustics, Speechand Signal Processing, Vol.34, No.4, 744/754 (1986). J.O.Smith III and X. Serra, "PARSHL: AnAnalysis/Synthesis Program for Non-Harmonic Sounds Based on a SinusoidalRepresentation", Proceedings of the InternationalComputer Music Conference (1987).
本技術の目的は、音声や楽音などの時間信号からトーン成分の検出を精度よく行うことにある。
本技術の概念は、
入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換ステップと、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出ステップと、
上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティングステップと、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化ステップとを備える
トーン成分検出方法にある。
本技術において、時間周波数変換ステップで、入力時間信号が時間周波数変換されて時間周波数分布(スペクトログラム)が得られる。この場合、例えば、短時間フーリエ変換により入力信号を時間周波数変換する、ようにされてもよい。なお、ウェーブレット変換など、その他の変換手法を使用して、入力時間信号を時間周波数変換することも考えられる。
ピーク検出ステップで、時間周波数分布の各時間フレームにおいて、周波数方向のピークが検出される。そして、フィッティングステップで、検出された各ピークの近傍の領域において、トーンモデルがフィッティングされる。この場合、例えば、トーンモデルとして、時間および周波数を変数とした2次多項式関数を使用する、ようにされてもよい。なお、3次以上の多項式関数を使用することも考えられる。また、この場合、例えば、検出された各ピーク近傍の時間周波数分布とトーンモデルの二乗誤差最小基準によりフィッティングを行う、ようにされてもよい。なお、4乗誤差最小基準やエントロピー最小基準などによりフィッティングを行うことも考えられる。
スコア化ステップで、フィッティング結果に基づき、検出された各ピークのトーン成分らしさを示すスコアが得られる。この場合、例えば、スコア化ステップでは、少なくとも、フィッティング結果に基づいて抽出されるフィッティング誤差を使用して、検出された各ピークのトーン成分らしさを示すスコアを得る、ようにされてもよい。また、この場合、例えば、スコア化ステップでは、少なくとも、フィッティング結果に基づいて抽出される周波数方向のピーク曲率を使用して、検出された各ピークのトーン成分らしさを示すスコアを得る、ようにされてもよい。
また、この場合、例えば、スコア化ステップでは、フィッティング結果に基づいて所定数の特徴量を抽出し、この抽出された所定数の特徴量を合成して、検出された各ピークのトーン成分らしさを示すスコアを得る、ようにされてもよい。この場合、抽出された所定数の特徴量を合成する際に、この所定数の特徴量に対して非線形関数を施して荷重和をとる、ようにされてもよい。ここで、所定数の特徴量は、例えば、フィッティングされたトーンモデルにより得られる、フィッティング誤差、周波数方向のピーク曲率、ピークの周波数、ピーク位置における振幅値、周波数変化率、振幅変化率のいずれか一つ以上とされてもよい。
このように本技術においては、時間周波数分布(スペクトログラム)から検出された周波数方向の各ピークの近傍の領域においてトーンモデルをフィッティングし、そのフィッティング結果に基づいて各ピークのトーン成分らしさを示すスコアを得るものである。したがって、トーン成分の高精度の検出が可能となる。
本技術によれば、音声や楽音などの時間信号からトーン成分を精度よく検出できる。
実施の形態としてのトーン成分検出装置の構成例を示すブロック図である。 2次元多項式関数がトーン性のスペクトルピーク近傍ではよく当てはまるが、ノイズ性のスペクトルピーク近傍ではあまりよく当てはまらないという性質を説明するための模式図である。 トーン性ピークの時間方向への変化と、スペクトログラム上の小領域Г内でのフィッティングを模式的に示す図である。 トーン成分検出処理をソフトウェアで行うコンピュータ装置の構成例を示すブロック図である。 コンピュータ装置のCPUによるトーン成分検出処理の手順の一例を示すフローチャートである。 実施の形態の効果を説明するための、トーン成分検出結果の一例を示す図である。 実施の形態の効果を説明するための、トーン成分検出結果の一例を示す図である。 音声のスペクトログラムの一例を示す図である。 スペクトログラムの所定の時間フレームを抜き出したスペクトルを示す図である。 スペクトログラムより各フレームの振幅スペクトルの局所ピークを検出し、黒点で示した結果を示す図である。 スペクトログラムの所定の時間フレームを抜き出したスペクトルより、局所ピークを検出した結果を示す図である。
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
1.実施の形態
2.変形例
<1.実施の形態>
[トーン成分検出装置]
図1は、トーン成分検出装置100の構成例を示している。このトーン成分検出装置100は、時間周波数変換部101と、ピーク検出部102と、フィッティング部103と、特徴抽出部104と、スコア化部105を有している。
時間周波数変換部101は、音声や楽音などの入力時間信号f(t)を時間周波数変換して、時間周波数信号F(n,k)を得る。ここで、tは離散時間、nは時間フレームの番号、kは離散周波数を表す。時間周波数変換部101は、例えば、以下の数式(1)に示すように、短時間フーリエ変換により、入力時間信号f(t)を時間周波数変換し、時間周波数信号F(n,k)を得る。
ただし、W(t)は窓関数、Mは窓関数のサイズ、Rはフレーム時間間隔(=ホップサイズ)を表す。時間周波数信号F(n,k)は、時間フレームn、周波数kにおける周波数成分の対数振幅値を表すものであり、いわゆるスペクトログラム(時間周波数分布)である。
ピーク検出部102は、時間周波数変換部101で得られたスペクトログラムの各時間フレームにおいて、周波数方向のピークを検出する。すなわち、ピーク検出部102は、このスペクトログラムに対し、全てのフレーム、全ての周波数で、その位置が周波数方向に関してのピーク(極大値)であるか否かを検出する。
F(n,k)がピークであるか否かの検出は、例えば、以下の数式(2)を満足するか否かを確認することで行われる。なお、ピークの検出方法として3点を使った方法を示しているが、5点を使った方法であってもよい。
フィッティング部103は、ピーク検出部102で検出された各ピークに関し、以下のように、そのピークの近傍領域においてトーンモデルをフィッティングする。まず、フィッティング部103は、対象とするピークを原点とする座標に座標変換を行い、以下の数式(3)に示すように、近傍の時間周波数領域を設定する。ここで、ΔNは時間方向の近傍領域(例えば3点)、Δkは周波数方向の近傍領域(例えば2点)を表す。
続いて、フィッティング部103は、近傍領域内の時間周波数信号に対し、例えば、以下の数式(4)に示すような2次多項式関数のトーンモデルをフィッティングする。この場合、フィッティング部103は、例えば、ピーク近傍の時間周波数分布とトーンモデルの二乗誤差最小基準によりフィティングを行う。
すなわち、フィッティング部103は、時間周波数信号と多項式関数の近傍領域内における、以下の数式(5)に示すような二乗誤差を最小にする係数を、以下の数式(6)に示すように求めることでフィッティングを行う。
この2次多項式関数は、トーン性のスペクトルピーク近傍では、よく当てはまる(誤差が小さい)が、ノイズ性のスペクトルピーク近傍ではあまりよく当てはまらない(誤差が大きい)、という性質をもつ。図2(a)、(b)は、その様子を模式的に示している。図2(a)は、上述の数式(1)で得られる、第nフレームのトーン性ピーク付近のスペクトルを模式的に示している。
図2(b)は、図2(a)のスペクトルに対して、以下の数式(7)で示される2次関数f0(k)を当てはめる様子を示している。ただし、aがピーク曲率、k0が真のピークの周波数、g0が真のピーク位置での対数振幅値である。トーン性の成分のスペクトルピークでは2次関数がよく当てはまるが、ノイズ性のピークでは、ずれが大きい傾向がある。
図3(a)は、トーン性ピークの時間方向への変化を模式的に示している。トーン性ピークは、前後の時間フレームで、その概形を保ったまま振幅および周波数が変化をしてゆく。なお、実際に得られるスペクトルは離散点だが、便宜的に曲線で示している。一点鎖線が前フレーム、実線が現フレーム、点線が次フレームである。
多くの場合、トーン性の成分はある程度の時間の持続性があり、多少の周波数変化や時間変化を伴うものの、ほぼ同じ形の2次関数のシフトで表すことができる。この変化Y(k,n)は、以下の数式(8)で表される。スペクトルを対数振幅で表しているため、振幅の変化はスペクトルの上下への移動になる。振幅変化項f1(n)が加算となるのはそのためである。ただし、βは周波数の変化率、f1(n)はピーク位置における振幅の変化を表す時間関数である。
この変化Y(k,n)は、f1(n)を時間方向の2次関数で近似すると、以下の数式(9)で表される。a、k0、β、d1、e1、g0 は定数なので、適切に変数変換をすることで、この(9)式は、上述の(4)式と等価となる。
図3(b)は、スペクトログラム上の小領域Г内でのフィッティングを模式的に示している。トーン性ピークでは、類似した形状が緩やかに時間変化するため、数式(4)がよく適合する傾向にある。しかし、ノイズ性のピーク近傍に関しては、ピークの形状やピークの周波数がばらつくため、数式(4)はあまりよく適合しない、つまり、最適に当てはめても誤差が大きいものとなる。
なお、上述の数式(6)では、a,b,c,d,e,gの全ての係数に関するフィッティングを行う計算を示した。しかし、いくつかの係数についてはあらかじめ定数に固定した上でのフィッティングを行ってもよい。また、2次以上の多項式関数でフィッティングしてもよい。
図1に戻って、特徴抽出部104は、フィッティング部103で得られる各ピークにおけるフィッティング結果(上述の数式(6)参照)に基づいて、以下の数式(10)に示すような特徴量(x0,x1,x2,x3,x4,x5)を抽出する。各特徴量は、各ピークにおける周波数成分の性質を表す特徴量であり、それ自体を音声や楽音などの分析に用いることができる。
スコア化部105は、各ピークのトーン成分らしさを定量化するために、ピーク毎に特徴抽出部104で抽出された特徴量を用いて、各ピークのトーン成分らしさを示すスコアを得る。スコア化部105は、特徴量(x0,x1,x2,x3,x4,x5)のうち、一つまたは複数の特徴量を用いて、以下の数式(11)に示すように、スコアS(n,k)を求める。この場合、少なくとも、フィッティングの正規化誤差x5、あるいは周波数方向のピークの曲率x0が使用される。
ただし、Sigm(x)はシグモイド関数であり、wiはあらかじめ定める荷重係数であり、Hi(xi)は、i番目の特徴量xiに対して施すあらかじめ定める非線形関数である。非線形関数Hi(xi)には、例えば、以下の数式(12)に示すような関数を用いることができる。ただし、ui,viは、あらかじめ定める荷重係数である。wi,ui,viは、なんらかの適切な定数をあらかじめ定めてもよいが、例えば、多数のデータを用いて最急降下学習などを行うことで、自動的に決定することもできる。
スコア化部105は、上述したように、ピーク毎に、数式(11)によって、トーン成分らしさを示すスコアS(n,k)を求める。なお、スコア化部105は、ピークではない位置(n,k)におけるスコアS(n,k)を0とする。スコア化部105は、時間周波数信号f(n,k)の各時刻、各周波数において、0から1の間の値を取るトーン成分らしさのスコアS(n,k)を得、トーン成分検出結果として出力する。
なお、トーン成分か否かを2値判定する必要がある場合には、適切な閾値SThsdを用いて、以下の数式(13)に示すように、判定することもできる。
図1に示すトーン成分検出装置100の動作を説明する。音声や楽音などの入力時間信号f(t)は時間周波数変換部101に供給される。この時間周波数変換部101では、入力時間信号f(t)が時間周波数変換されて、時間周波数信号F(n,k)が得られる。この時間周波数信号F(n,k)は、時間フレームn、周波数kにおける周波数成分の対数振幅値を表すものであり、いわゆるスペクトログラム(時間周波数分布)である。このスペクトログラムは、ピーク検出部102に供給される。
ピーク検出部102では、そのスペクトログラムに対し、全てのフレーム、全ての周波数で、その位置が周波数方向に関してのピークであるか否かが検出される。このピーク検出結果は、フィッティング部103に供給される。フィッティング部103では、各ピークに関し、そのピークの近傍領域においてトーンモデルがフィッティングされる。このフィッティングにより、例えば、トーンモデルを構成する2次多項式関数(数式(4)参照)の係数が、二乗誤差を最小にするように求められる。このフィッティング結果は、特徴抽出部104に供給される。
特徴抽出部104では、フィッティング部103で得られる各ピークにおけるフィッティング結果(数式(6)参照)に基づいて、種々の特徴量が抽出される(数式(10)参照)。例えば、ピークの曲率、ピークの周波数、ピークの対数振幅値、周波数の変化率、振幅の変化率、フィッティングの正規化誤差などの特徴量が抽出される。このように抽出された特徴量は、スコア化部105に供給される。
スコア化部105では、ピーク毎に、特徴量が用いられて、そのピークのトーン成分らしさを示す、0から1の間の値をとるスコアS(n,k)が求められ(数式(11)参照)、トーン成分検出結果として出力される。なお、このスコア化部105では、ピークではない位置(n,k)におけるスコアS(n,k)は0とされる。
なお、図1に示すトーン成分検出装置100は、ハードウェアで構成できる他、ソフトウェアで構成することもできる。例えば、図4に示すコンピュータ装置200に、図1に示すトーン成分検出装置100の各部の機能を持たせ、上述したと同様のトーン成分検出処理を行わせることができる。
コンピュータ装置200は、CPU(Central Processing Unit)181、ROM(Read OnlyMemory)182、RAM(Random Access Memory)183、データ入出力部(データI/O)184およびHDD(Hard Disk Drive)185により構成されている。ROM182には、CPU181の処理プログラムなどが格納されている。RAM183は、CPU181のワークエリアとして機能する。CPU181は、ROM182に格納されている処理プログラムを必要に応じて読み出し、読み出した処理プログラムをRAM183に転送して展開し、当該展開された処理プログラムを読み出して、トーン成分検出処理を実行する。
このコンピュータ装置200においては、入力時間信号f(t)は、データI/O184を介して入力され、HDD185に蓄積される。このHDD185に蓄積された入力時間信号f(t)に対して、CPU181により、トーン成分検出処理が行われる。そして、トーン成分検出結果S(n,k)がデータI/O184を介して外部に出力される。
図5のフローチャートは、CPU181によるトーン成分検出処理の手順の一例を示している。CPU181は、ステップST1において、処理を開始し、その後、ステップST2の処理に移る。このステップST2において、CPU181は、入力時間信号f(t)を時間周波数変換して、時間周波数信号F(n,k)、つまりスペクトログラム(時間周波数分布)を得る。
次に、CPU181は、ステップST3において、フレーム(時間フレーム)の番号nを0に設定する。そして、CPU181は、ステップST4において、n<Nであるか否かを判断する。なお、スペクトログラム(時間周波数分布)のフレームは0からN−1まで存在するものとする。n<Nでないとき、CPU181は、全てのフレームの処理が終了したものと判断し、ステップST5において、処理を終了する。
n<Nであるとき、CPU181は、ステップST6において、離散周波数kを0に設定する。そして、CPU181は、ステップST7において、k<Kであるか否かを判断する。なお、スペクトログラム(時間周波数分布)の離散周波数kは0からK−1まで存在するものとする。k<Kでないとき、CPU181は、全ての離散周波数の処理が終了したものと判断し、ステップST8において、nをインクリメントし、その後に、ステップST4に戻り、次のフレームの処理に移る。
ステップST7でk<Kであるとき、CPU181は、ステップST9において、F(n,k)がピークであるか否かを判断する。ピークでないとき、CPU181は、ステップST10において、スコアS(n,k)を0とし、ステップST11において、kをインクリメントし、その後に、ステップST7に戻り、次の離散周波数の処理に移る。
ステップST9でピークであるとき、CPU181は、ステップST12の処理に移る。このステップST12において、CPU181は、そのピークの近傍領域においてトーンモデルをフィッティングする。そして、CPU181は、ステップST13において、フィッティング結果に基づいて、種々の特徴量(x0,x1,x2,x3,4,x5)を抽出する。
次に、CPU181は、ステップST14において、ステップST13で抽出された特徴量を用いて、そのピークのトーン成分らしさを示す、0から1の間の値をとるスコアS(n,k)を求める。CPU181は、このステップST14の処理の後、ステップST11において、kをインクリメントし、その後に、ステップST7に戻り、次の離散周波数の処理に移る。
上述したように、図1に示すトーン成分検出装置100においては、時間周波数分布(スペクトログラム)F(n,k)から検出された周波数方向の各ピークの近傍の領域においてトーンモデルをフィッティングし、そのフィッティング結果に基づいて各ピークのトーン成分らしさを示すスコアS(n,k)を得るものである。したがって、トーン成分を精度よく検出できる。これにより、音声の分析、符号化、雑音低減や高音質化などの応用技術に有用な情報が得られる。
図6は、図8に示すようなスペクトログラムが得られる音声時間信号f(t)から、上述の本技術の方法により検出したトーン成分らしさを示すスコアS(n,k)の一例を表している。スコアS(n,k)の値が大きいほど黒く表示されているが、ノイズ性のピークは概ね検出されていないのに対し、トーン性の成分(図8で黒い太横線を形成している成分)のピークは概ね検出されていることが分かる。また、図7は、図9のスペクトルに対するトーン成分の検出結果を示している。図10、図11の方法では多くの非トーン性のピークが誤検出されているのに対し、本技術の方法では、トーン性のピークが精度よく検出されていることがわかる。
また、図1に示すトーン成分検出装置100においては、各トーン成分の各時刻におけるピーク曲率、正確な周波数、正確なピーク振幅値、周波数変化率、振幅変化率など、トーン成分の属性も合わせて検出できる(数式(10)参照)。これらもまた、音声の分析、符号化、雑音低減や高音質化などの応用技術に有用である。
<2.変形例>
なお、上述実施の形態においては、短時間フーリエ変換により時間周波数変換を行うように説明したが、ウェーブレット変換など、その他の変換手法を使用して、入力時間信号を時間周波数変換することも考えられる。また、上述実施の形態においては、検出された各ピーク近傍の時間周波数分布とトーンモデルの二乗誤差最小基準によりフィッティングを行うように説明したが、4乗誤差最小基準やエントロピー最小基準などによりフィッティングを行うことも考えられる。
また、本技術は、以下のような構成を取ることもできる。
(1)入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換ステップと、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出ステップと、
上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティングステップと、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化ステップとを備える
トーン成分検出方法。
(2)上記時間周波数変換ステップでは、
短時間フーリエ変換により、上記入力時間信号を時間周波数変換する
前記(1)に記載のトーン成分検出方法。
(3)上記フィッティングステップでは、
上記トーンモデルとして、時間および周波数を変数とした2次多項式関数を使用する
前記(1)または(2)に記載のトーン成分検出方法。
(4)上記フィッティングステップでは、
上記検出された各ピーク近傍の時間周波数分布と上記トーンモデルの二乗誤差最小基準によってフィッティングを行う
前記(1)から(3)のいずれかに記載のトーン成分検出方法。
(5)上記スコア化ステップでは、
少なくとも、上記フィッティング結果に基づいて抽出されるフィッティング誤差を使用して、上記検出された各ピークのトーン成分らしさを示すスコアを得る
前記(1)から(4)のいずれかに記載のトーン成分検出方法。
(6)上記スコア化ステップでは、
少なくとも、上記フィッティング結果に基づいて抽出される周波数方向のピーク曲率を使用して、上記検出された各ピークのトーン成分らしさを示すスコアを得る
前記(1)から(4)のいずれかに記載のトーン成分検出方法。
(7)上記スコア化ステップでは、
上記フィッティング結果に基づいて所定数の特徴量を抽出し、該抽出された所定数の特徴量を合成して、上記検出された各ピークのトーン成分らしさを示すスコアを得る
前記(1)から(4)のいずれかに記載のトーン成分検出方法。
(8)上記スコア化ステップでは、
上記抽出された所定数の特徴量を合成する際に、該所定数の特徴量に対して非線形関数を施して荷重和をとる
前記(7)に記載のトーン成分検出方法。
(9)上記所定数の特徴量は、上記フィッティングされたトーンモデルにより得られる、フィッティング誤差、周波数方向のピークの曲率、ピークの周波数、ピーク位置における振幅値、周波数変化率、振幅変化率のいずれか一つ以上である
前記(7)または(8)に記載のトーン成分検出方法。
(10)入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、
上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティング部と、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える
トーン成分検出装置。
(11)コンピュータを、
入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換手段と、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出手段と、
上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティング手段と、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化手段と
して機能させるプログラム。
100・・・トーン成分検出装置
101・・・時間周波数変換部
103・・・フィッティング部
104・・・特徴抽出部
105・・・スコア化部
200・・・コンピュータ装置
181・・・CPU
182・・・ROM
183・・・RAM
184・・・データI/O
185・・・HDD

Claims (11)

  1. 入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換ステップと、
    上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出ステップと、
    上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティングステップと、
    上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化ステップとを備える
    トーン成分検出方法。
  2. 上記時間周波数変換ステップでは、
    短時間フーリエ変換により、上記入力時間信号を時間周波数変換する
    請求項1に記載のトーン成分検出方法。
  3. 上記フィッティングステップでは、
    上記トーンモデルとして、時間および周波数を変数とした2次多項式関数を使用する
    請求項1に記載のトーン成分検出方法。
  4. 上記フィッティングステップでは、
    上記検出された各ピーク近傍の時間周波数分布と上記トーンモデルの二乗誤差最小基準によってフィッティングを行う
    請求項1に記載のトーン成分検出方法。
  5. 上記スコア化ステップでは、
    少なくとも、上記フィッティング結果に基づいて抽出されるフィッティング誤差を使用して、上記検出された各ピークのトーン成分らしさを示すスコアを得る
    請求項1に記載のトーン成分検出方法。
  6. 上記スコア化ステップでは、
    少なくとも、上記フィッティング結果に基づいて抽出される周波数方向のピーク曲率を使用して、上記検出された各ピークのトーン成分らしさを示すスコアを得る
    請求項1に記載のトーン成分検出方法。
  7. 上記スコア化ステップでは、
    上記フィッティング結果に基づいて所定数の特徴量を抽出し、該抽出された所定数の特徴量を合成して、上記検出された各ピークのトーン成分らしさを示すスコアを得る
    請求項1に記載のトーン成分検出方法。
  8. 上記スコア化ステップでは、
    上記抽出された所定数の特徴量を合成する際に、該所定数の特徴量に対して非線形関数を施して荷重和をとる
    請求項7に記載のトーン成分検出方法。
  9. 上記所定数の特徴量は、上記フィッティングされたトーンモデルにより得られる、フィッティング誤差、周波数方向のピークの曲率、ピークの周波数、ピーク位置における振幅値、周波数変化率、振幅変化率のいずれか一つ以上である
    請求項7に記載のトーン成分検出方法。
  10. 入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換部と、
    上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、
    上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティング部と、
    上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える
    トーン成分検出装置。
  11. コンピュータを、
    入力時間信号を時間周波数変換して時間周波数分布を得る時間周波数変換手段と、
    上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出手段と、
    上記検出された各ピークの近傍領域においてトーンモデルをフィッティングするフィッティング手段と、
    上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化手段と
    して機能させるプログラム。
JP2012078320A 2012-03-29 2012-03-29 トーン成分検出方法、トーン成分検出装置およびプログラム Pending JP2013205830A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012078320A JP2013205830A (ja) 2012-03-29 2012-03-29 トーン成分検出方法、トーン成分検出装置およびプログラム
US13/780,179 US8779271B2 (en) 2012-03-29 2013-02-28 Tonal component detection method, tonal component detection apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012078320A JP2013205830A (ja) 2012-03-29 2012-03-29 トーン成分検出方法、トーン成分検出装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2013205830A true JP2013205830A (ja) 2013-10-07

Family

ID=49233121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012078320A Pending JP2013205830A (ja) 2012-03-29 2012-03-29 トーン成分検出方法、トーン成分検出装置およびプログラム

Country Status (2)

Country Link
US (1) US8779271B2 (ja)
JP (1) JP2013205830A (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205830A (ja) * 2012-03-29 2013-10-07 Sony Corp トーン成分検出方法、トーン成分検出装置およびプログラム
US9484044B1 (en) 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) * 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
US9208794B1 (en) 2013-08-07 2015-12-08 The Intellisis Corporation Providing sound models of an input signal using continuous and/or linear fitting
CN106991852B (zh) * 2017-05-18 2020-11-24 北京音悦荚科技有限责任公司 一种在线教学方法及装置
US11501102B2 (en) * 2019-11-21 2022-11-15 Adobe Inc. Automated sound matching within an audio recording
US11461649B2 (en) * 2020-03-19 2022-10-04 Adobe Inc. Searching for music

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2644915A1 (fr) * 1989-03-22 1990-09-28 Inst Nat Sante Rech Med Procede et dispositif d'analyse spectrale en temps reel de signaux instationnaires complexes
US20070163425A1 (en) * 2000-03-13 2007-07-19 Tsui Chi-Ying Melody retrieval system
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US7031980B2 (en) * 2000-11-02 2006-04-18 Hewlett-Packard Development Company, L.P. Music similarity function based on signal analysis
US6604072B2 (en) * 2000-11-03 2003-08-05 International Business Machines Corporation Feature-based audio content identification
US7447639B2 (en) * 2001-01-24 2008-11-04 Nokia Corporation System and method for error concealment in digital audio transmission
JP3823804B2 (ja) * 2001-10-22 2006-09-20 ソニー株式会社 信号処理方法及び装置、信号処理プログラム、並びに記録媒体
GB0202386D0 (en) * 2002-02-01 2002-03-20 Cedar Audio Ltd Method and apparatus for audio signal processing
WO2003091990A1 (en) * 2002-04-25 2003-11-06 Shazam Entertainment, Ltd. Robust and invariant audio pattern matching
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7134341B2 (en) * 2003-04-28 2006-11-14 Zuli Holdings Ltd Methods and devices for determining the resonance frequency of passive mechanical resonators
US20060229878A1 (en) * 2003-05-27 2006-10-12 Eric Scheirer Waveform recognition method and apparatus
US20040260540A1 (en) * 2003-06-20 2004-12-23 Tong Zhang System and method for spectrogram analysis of an audio signal
JP2005292207A (ja) * 2004-03-31 2005-10-20 Ulead Systems Inc 音楽分析の方法
US7598447B2 (en) * 2004-10-29 2009-10-06 Zenph Studios, Inc. Methods, systems and computer program products for detecting musical notes in an audio signal
US8093484B2 (en) * 2004-10-29 2012-01-10 Zenph Sound Innovations, Inc. Methods, systems and computer program products for regenerating audio performances
WO2006128107A2 (en) * 2005-05-27 2006-11-30 Audience, Inc. Systems and methods for audio signal analysis and modification
KR100868763B1 (ko) * 2006-12-04 2008-11-13 삼성전자주식회사 오디오 신호의 중요 주파수 성분 추출 방법 및 장치와 이를이용한 오디오 신호의 부호화/복호화 방법 및 장치
JP5275612B2 (ja) * 2007-07-18 2013-08-28 国立大学法人 和歌山大学 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
EP2210427B1 (en) * 2007-09-26 2015-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for extracting an ambient signal
US8468014B2 (en) * 2007-11-02 2013-06-18 Soundhound, Inc. Voicing detection modules in a system for automatic transcription of sung or hummed melodies
WO2010095622A1 (ja) * 2009-02-17 2010-08-26 国立大学法人京都大学 音楽音響信号生成システム
WO2010140166A2 (en) * 2009-06-02 2010-12-09 Indian Institute Of Technology, Bombay A system and method for scoring a singing voice
US8666734B2 (en) * 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
US8666092B2 (en) * 2010-03-30 2014-03-04 Cambridge Silicon Radio Limited Noise estimation
JP5728888B2 (ja) * 2010-10-29 2015-06-03 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5605204B2 (ja) * 2010-12-15 2014-10-15 ソニー株式会社 呼吸信号処理装置およびその処理方法ならびにプログラム
JP2012155651A (ja) * 2011-01-28 2012-08-16 Sony Corp 信号処理装置および方法、並びに、プログラム
US9142220B2 (en) * 2011-03-25 2015-09-22 The Intellisis Corporation Systems and methods for reconstructing an audio signal from transformed audio information
JP2012226106A (ja) * 2011-04-19 2012-11-15 Sony Corp 楽曲区間検出装置および方法、プログラム、記録媒体、並びに楽曲信号検出装置
JP5732994B2 (ja) * 2011-04-19 2015-06-10 ソニー株式会社 楽曲検索装置および方法、プログラム、並びに記録媒体
JP2013205830A (ja) * 2012-03-29 2013-10-07 Sony Corp トーン成分検出方法、トーン成分検出装置およびプログラム
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing

Also Published As

Publication number Publication date
US8779271B2 (en) 2014-07-15
US20130255473A1 (en) 2013-10-03

Similar Documents

Publication Publication Date Title
JP2013205830A (ja) トーン成分検出方法、トーン成分検出装置およびプログラム
JP5732994B2 (ja) 楽曲検索装置および方法、プログラム、並びに記録媒体
JP5732976B2 (ja) 音声区間判定装置、音声区間判定方法、及びプログラム
JP6177253B2 (ja) ハーモニシティベースの単一チャネルスピーチ品質評価
CN107833581B (zh) 一种提取声音的基音频率的方法、装置及可读存储介质
KR100653643B1 (ko) 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
JP2013222113A (ja) 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム
JP4444254B2 (ja) スペクトル自己相関値を用いたピッチ検出方法およびピッチ検出装置
JP6023311B2 (ja) ピッチ周期の正確性を検出するための方法および装置
US8532986B2 (en) Speech signal evaluation apparatus, storage medium storing speech signal evaluation program, and speech signal evaluation method
Nongpiur et al. Impulse-noise suppression in speech using the stationary wavelet transform
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP5815435B2 (ja) 音源位置判定装置、音源位置判定方法、プログラム
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
JP5377167B2 (ja) 悲鳴検出装置および悲鳴検出方法
JP2015040963A (ja) 音響用フィルタ装置、音響用フィルタリング方法、およびプログラム
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP6891736B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
JP2007025296A (ja) 音声特徴量算出装置およびプログラム
JP2016080767A (ja) 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム
JP2009086476A (ja) 音声処理装置、音声処理方法、およびプログラム
WO2016203753A1 (ja) 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体
JP6907859B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
JP6183067B2 (ja) データ解析装置及び方法、並びにプログラム及び記録媒体