JP2008209548A - 音高推定装置、音高推定方法およびプログラム - Google Patents

音高推定装置、音高推定方法およびプログラム Download PDF

Info

Publication number
JP2008209548A
JP2008209548A JP2007045014A JP2007045014A JP2008209548A JP 2008209548 A JP2008209548 A JP 2008209548A JP 2007045014 A JP2007045014 A JP 2007045014A JP 2007045014 A JP2007045014 A JP 2007045014A JP 2008209548 A JP2008209548 A JP 2008209548A
Authority
JP
Japan
Prior art keywords
unit
probability density
function
fundamental frequency
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007045014A
Other languages
English (en)
Other versions
JP4630983B2 (ja
Inventor
Masataka Goto
真孝 後藤
Takuya Fujishima
琢哉 藤島
Keita Arimoto
慶太 有元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Yamaha Corp
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp, National Institute of Advanced Industrial Science and Technology AIST filed Critical Yamaha Corp
Priority to JP2007045014A priority Critical patent/JP4630983B2/ja
Publication of JP2008209548A publication Critical patent/JP2008209548A/ja
Application granted granted Critical
Publication of JP4630983B2 publication Critical patent/JP4630983B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】特徴量の瞬間的な変動が対象音の音高の推定に与える影響を低減する。
【解決手段】関数推定部22は、音響信号Vを区分した複数のフレームの各々について基本周波数の確率密度関数Pを推定する。確率密度関数Pは、高調波構造をモデル化する複数の音モデルの混合分布として各フレームの音響信号Vをモデル化したときの音モデルの重み値を示す。平滑化部24Aは、複数のフレームにわたる確率密度関数Pの平均を算定することで確率密度関数Pの関数値の時間的な変動を抑制する。音高特定部26は、平滑化部24による処理後の確率密度関数Pから音響信号Vの基本周波数F0を推定する。
【選択図】図1

Description

本発明は、音高(基本周波数)を推定する技術に関する。
特許文献1には、複数の音の混合音など様々な音(以下「対象音」という)を構成するひとつの音の基本周波数を推定する技術が開示されている。この技術においては、対象音を区分した各フレームの振幅スペクトルを複数の音モデル(高調波構造をモデル化した確率密度関数)の混合分布でモデル化したときの各音モデルの重み値を基本周波数の確率密度関数として算定し、確率密度関数において優勢なピークが現れる周波数を所望の音の基本周波数として推定する。
特許第3413634号公報
しかし、以上の技術においてフレームごとに算定される各種の数値(以下「特徴量」という)は、様々な原因によって瞬間的に変動し得る。例えば、弦楽器の演奏音の音高が推定される場合を想定する。各弦の演奏音が干渉によって相互に打消し合うと、本来ならば対象音に含まれるべき楽音の振幅が瞬間的に低減される可能性がある。この場合には、基本周波数の確率密度関数において本来ならば複数のフレームにわたって連続すべきピークが瞬間的に消失する場合があるから、実際の演奏に対応した所期の基本周波数を推定することはできない。例えば、実際の演奏では対象音の音高の軌跡が連続していたにも拘わらず、推定の結果では音高の軌跡が不安定に途切れる場合がある。
また、対象音にはノイズが重畳される場合がある。例えば、弦楽器における各弦の摩擦音や演奏者の身体が楽器の本体に接触する音や演奏時の周囲の騒音など様々なノイズが対象音には重畳され得る。さらに、音響信号に電気的なノイズが重畳される場合もある。対象音の音響信号にノイズが発生すると、実際には対象音に含まれない音に対応した偽のピークが基本周波数の確率密度関数に発生する場合がある。
以上のように、特徴量が瞬間的に変動すると基本周波数の確率密度関数に偽のピークの発生やピークの消失が生じ得るから、対象音の音高を高精度に推定したうえで音高の軌跡を安定させることは困難である。このような事情に鑑みて、本発明は、特徴量の瞬間的な変動が対象音の音高の推定に与える影響を低減するという課題の解決を目的としている。
以上の課題を解決するために、本発明に係る音高推定装置は、音響信号を区分した複数のフレームの各々について、高調波構造をモデル化する複数の音モデルの混合分布として当該フレームの音響信号をモデル化したときの音モデルの重み値を示す基本周波数の確率密度関数を推定する関数推定手段と、各確率密度関数から音響信号の基本周波数を推定する音高特定手段と、関数推定手段または音高特定手段による処理に際してフレームごとに算定される特徴量の時間的な変動を抑制する平滑化手段とを具備する。以上の構成においては、フレームごとに算定される特徴量の時間的な変動が抑制される(平滑化される)から、特徴量の瞬間的な変動が対象音の音高の推定に与える影響を低減することができる。
本発明の好適な態様において、平滑化手段は、関数推定手段が推定する確率密度関数の関数値の時間的な変動を抑制する。本態様によれば、確率密度関数の関数値の時間的な変動が抑制されるから、確率密度関数から安定して基本周波数を推定することが可能となる。なお、本態様の具体例は第1実施形態として後述される。
本発明の好適な態様において、平滑化手段は、音高特定手段が特定する基本周波数の時間的な変動を抑制する。本態様によれば、基本周波数の時間的な変動が抑制されるから、ノイズなどの偶発的な要因が基本周波数の推定に与える影響を低減することが可能となる。なお、本態様の具体例は第2実施形態として後述される。
本発明の好適な態様に係る音高推定装置は、音響信号を区分した各フレームについて振幅スペクトルを生成する周波数分析手段を具備し、関数推定手段は、各振幅スペクトルに基づいて確率密度関数を推定し、平滑化手段は、振幅スペクトルの強度の時間的な変動を抑制する。以上の態様によれば、振幅スペクトルの時間的な変動が抑制されるから、関数推定手段による確率密度関数の推定や音高特定手段による基本周波数の特定を安定的に実行することが可能である。
本発明の好適な態様において、平滑化手段は、フレームごとに順次に算定される特徴量の複数個を記憶する記憶手段と、記憶手段に記憶された複数個の特徴量から選択した所定数の特徴量の平均値を平滑化後の特徴量として算定する平均算定手段と、平均算定手段が選択する特徴量の個数を制御する制御手段とを具備する。本態様においては、平滑化に使用される特徴量の個数が所定数の特徴量に基づいて制御されるから、例えば、特徴量の変動が大きい場合に個数を減少させることで、特徴量の適正な変動を平滑化後の特徴量に迅速に反映させることが可能となる。なお、本態様の具体例は第3実施形態として後述される。
本発明の別の態様に係る音高推定装置は、発音の始点または終点を音響信号から検出する検出手段を具備し、平滑化手段は、検出手段が検出した始点または終点に対応した時機の特徴量をそのまま出力する。本態様においては、発音の始点または終点に対応した時機の特徴量がそのまま(平滑化されずに)出力されるから、音の立ち上がりや立ち下がりを忠実に反映して基本周波数を推定することが可能である。なお、本態様の具体例は第5実施形態として後述される。
本発明は、音響信号の基本周波数を推定する方法としても特定される。本発明の音高推定方法は、音響信号を区分した複数のフレームの各々について、高調波構造をモデル化する複数の音モデルの混合分布として当該フレームの音響信号をモデル化したときの音モデルの重み値を示す基本周波数の確率密度関数を推定し、各確率密度関数から音響信号の基本周波数を推定する一方、確率密度関数の推定または基本周波数の推定に際してフレームごとに算定される特徴量の時間的な変動を抑制することを特徴としている。以上の方法によれば、本発明の音高推定装置と同様の作用および効果が奏される。
本発明に係る音高推定装置は、各処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音響信号を区分した複数のフレームの各々について、高調波構造をモデル化する複数の音モデルの混合分布として当該フレームの音響信号をモデル化したときの音モデルの重み値を示す基本周波数の確率密度関数を推定する関数推定処理と、各確率密度関数から音響信号の基本周波数を推定する音高特定処理と、関数推定処理または音高特定処理に際してフレームごとに算定される特徴量の時間的な変動を抑制する平滑化処理とをコンピュータに実行させる内容である。以上のプログラムによっても、本発明に係る音高推定装置と同様の作用および効果が奏される。なお、本発明のプログラムは、CD−ROMなど可搬型の記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音高推定装置の機能的な構成を示すブロック図である。音高推定装置Dは、図1に示すように、周波数分析部12とBPF(Band Pass Filter)14と音高推定部20と記憶部30とを含む。図1に図示された各部は、例えばCPUなどの演算処理装置がプログラムを実行することで実現されてもよいし、基本周波数F0の推定に専用されるDSPなどのハードウェアによって実現されてもよい。
周波数分析部12には、対象音の時間波形を示す音響信号Vが入力される。本実施形態の音響信号Vが示す対象音は、各々の音高や音源が相違する複数の音の混合音である。周波数分析部12は、所定の窓関数を利用して音響信号Vを複数のフレームに分割し、FFT(Fast Fourier Transform)処理を含む周波数分析を各フレームの音響信号Vに実行することで対象音の振幅スペクトルを特定する。各フレームは時間軸上で相互に重なり合うように設定される。
BPF14は、周波数分析部12がフレームごとに特定した振幅スペクトルのうち特定の周波数帯域に属する成分を選択的に通過させる。BPF14の通過帯域は、対象音を構成する複数の音のうち音高を推定すべき各音の基本周波数成分や高調波成分の多くが通過し、かつ、他の音の基本周波数成分や高調波成分が所望の音よりも優勢となる周波数帯域が遮断されるように、統計的または実験的に予め選定される。BPF14を通過した各フレームの振幅スペクトルSは音高推定部20に出力される。
音高推定部20は、対象音を構成する各音の基本周波数F0(音高)を推定する手段であり、関数推定部22と平滑化部24Aと音高特定部26とを含む。関数推定部22は、基本周波数の確率密度関数Pを振幅スペクトルSに基づいてフレームごとに推定する。ひとつのフレームについて推定される確率密度関数Pは、当該フレームの振幅スペクトルSを多数の音モデルの混合分布(複数の音モデルの重み付き和)としてモデル化したときの各音モデルの重み値ω[F]の分布を表現する関数である。音モデルは、対象音を構成する各音の基本周波数F0の候補となる基本周波数Fごとに用意される。例えば基本周波数Faの音モデルは、基本周波数Faに対応した高調波構造(基本周波数Faの基音成分とその整数倍の周波数の倍音成分との周波数軸上における分布)をモデル化する関数である。したがって、基本周波数Faに対応する重み値ω[Fa]は、基本周波数Faの音モデルが振幅スペクトルSの高調波構造をどのくらい優勢に支持するかを示す。以上の定義から理解されるように、各フレームの確率密度関数Pにおいて優勢なピークが現れるひとつまたは複数の基本周波数Fは、対象音のうち当該フレームに属する成分を構成する各音の基本周波数F0(音高)である可能性が高い。
本実施形態の関数推定部22は、最尤推定アルゴリズムのひとつであるEM(Expectation-Maximization)アルゴリズムに基づいて重み値ω[F]を反復的に更新することでひとつのフレームの確率密度関数Pを特定する。すなわち、関数推定部22は、E(Expectation)ステップとM(Maximization)ステップとから構成される処理(以下「単位処理」という)を複数回にわたって反復する。各単位処理は、前回の単位処理で算定された重み値ω[F](第1回目の単位処理においては重み値ω[F]の初期値)に基づいて新たな重み値ω[F]を算定する処理である。重み値ω[F]は、単位処理のたびに、複数の音モデルの混合分布によって振幅スペクトルSがモデル化されるときの重み値ω[F](尤度が高い数値)に近づいていく。
ひとつのフレームの振幅スペクトルSについて処理を開始してから単位処理が所定の回数にわたって実行された段階で算定されている重み値ω[F]が当該フレームの確率密度関数Pとして平滑化部24Aに出力される。平滑化部24Aは、確率密度関数Pの関数値(確率)の時間的な変動を抑制する手段である。本実施形態の平滑化部24Aは、最新のフレームを含む所定個のフレームにわたる確率密度関数Pの平均値(移動平均)を当該最新のフレームの確率密度関数Pとして出力する。
記憶部30は、音高推定部20による処理に使用される各種の情報を記憶する手段(磁気記憶装置や半導体記憶装置)である。例えば各回の単位処理で算定された重み値ω[F]やその算定に使用される音モデルが記憶部30に記憶される。
音高特定部26は、平滑化部24Aによる処理後の確率密度関数Pに優勢なピークが現れるひとつまたは複数の基本周波数Fを対象音の各音の基本周波数F0として特定する手段である。本実施形態の音高特定部26は、各フレームの確率密度関数Pに現れるピークの時間的な変動をマルチエージェントモデルによって追跡することで所望の各音の基本周波数F0の軌跡を特定する。すなわち、複数の自律的なエージェントの各々に確率密度関数Pの別個のピークを割当てたうえで複数のフレームにわたる各ピークの変遷を追跡させ、複数のエージェントのうち信頼度が高い順番に選択した所定数のエージェントの各ピークが現れる周波数を基本周波数F0として出力する。なお、各エージェントの具体的な挙動については特許文献1に開示されている。
次に、図2は、関数推定部22から出力された直後(平滑化部24Aによる処理前)の確率密度関数Pの時間的な変遷を示す概念図である。同図においては、フレームFn-2からフレームFn+2までの計5個のフレームについて推定された確率密度関数P(Pn-2〜Pn+2)が図示されている。
同図に示すように、確率密度関数Pには、複数のフレームにわたって連続して略同一の基本周波数Fにピークが現れ易いという傾向がある。しかし、例えば対象音を構成する各音が相互の干渉によって打ち消し合うと、本来ならば対象音に含められるべき楽音の振幅が瞬間的に低減されるから、複数のフレームの確率密度関数Pにて連続的に発生していたピークが少数のフレームにて瞬間的に消失する場合がある。例えば、図2の基本周波数Faに着目すると、確率密度関数Pn-2および確率密度関数Pn〜Pn+2にはピークが現れるのに対し、同図に符号aで指示されるように確率密度関数Pn-1においては瞬間的にピークが消失している。
また、対象音や音響信号Vにノイズが含まれると、複数のフレームの確率密度関数Pにわたってピークが存在していなかった基本周波数Fに少数のフレームにて突発的にピークが発生する場合がある。例えば、図2の基本周波数Fbに着目すると、確率密度関数Pn-2〜Pnおよび確率密度関数Pn+2にはピークが現れないのに対し、同図の符号bで指示されるように確率密度関数Pn+1には瞬間的にピークが発生している。
次に、図3は、平滑化部24Aによる処理後の確率密度関数Pの時間的な変遷を示す概念図である。平滑化部24Aは確率密度関数Pの関数値の時間的な変動を平滑化する。したがって、図3に符号aで示されるように、平滑化前にピークが瞬間的に消失していた確率密度関数Pn-1には、過去にわたる所定個のフレーム(Fn-2,Fn-3,……)のピークと略同じ基本周波数Faにピークが現れる。また、図3に符号bで示されるように、確率密度関数Pn+1にて基本周波数Fbに突発的に発生していたピークは抑制される。音高特定部26は、平滑化部24Aによる処理後の確率密度関数Pから基本周波数F0を特定するから、本実施形態によれば、確率密度関数Pの関数値の瞬間的な変動が音高の推定に与える影響が低減され、基本周波数F0を高精度かつ安定的に(例えば基本周波数F0の時間的な軌跡を途切れさせずに)推定することが可能となる。
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、以下の各形態においては、構成や機能が第1実施形態と共通する要素に同じ符号を付して、各々の詳細な説明を適宜に省略する。
図4は、本実施形態に係る音高推定装置Dの構成を示すブロック図である。同図に示すように、本実施形態においては、第1実施形態における関数推定部22の後段の平滑化部24Aに代えて、音高特定部26の後段に平滑化部24Bが配置される。関数推定部22からフレームごとに出力される確率密度関数Pは順次に音高特定部26に供給される。音高特定部26は、確率密度関数Pに優勢なピークが現れる所定数(本実施形態では3個)の周波数を対象音の各音の基本周波数F0(F0[1]〜F0[3])としてフレームごとに特定したうえで出力する。確率密度関数Pから基本周波数F0を特定する処理には、第1実施形態と同様にマルチエージェントモデルが好適に採用される。
図4の平滑化部24Bは、音高特定部26が特定する基本周波数F0[1]〜F0[3]の各々の時間的な変動を抑制する手段である。基本周波数F0[1]は基本周波数F0[2]よりも低い周波数であり、基本周波数F0[3]は基本周波数F0[2]よりも高い周波数である。平滑化部24Bは、最新のフレームを含む所定個のフレームにわたる基本周波数F0[i](i=1,2,3)の平均値(移動平均)を当該最新のフレームの基本周波数F0[i]として出力する。例えば、平滑化部24Bが出力する基本周波数F0[1]は、所定個のフレームにわたる基本周波数F0[1]の平均値である。
図5は、音高特定部26が特定した基本周波数F0[1]〜F0[3]の各々の軌跡を示す概念図である。同図に示すように、基本周波数F0[1]は長時間にわたってほぼ周波数Faを維持する。同様に、基本周波数F0[2]は長時間にわたって周波数Fbを維持する。これに対し、基本周波数F0[3]は、時刻t1以前の期間と時刻t2以後の期間とにわたって周波数Fcを維持するが、時刻t1と時刻t2との間の期間Δtにおいては周波数Fdに変化する。以上のように基本周波数F0に瞬間的な変動が発生するのは、対象音に実際には含まれない基本周波数Fに確率密度関数Pのピーク(例えば図2の符号b)が現れた場合に、音高特定部26が当該ピークの周波数を基本周波数F0と誤認するからである。
図6は、平滑化部24Bによる処理後の基本周波数F0[1]〜F0[3]の各々の軌跡を示す概念図である。平滑化部24Bは、基本周波数F0[1]〜F0[3]の各々の急激な変動を抑制する。したがって、平滑化部24Bによる処理後における期間Δt内の基本周波数F0[3]は、時刻t1以前の期間や時刻t2以後の期間における周波数Fcに近い数値(理想的には周波数Fc)に修正される。なお、基本周波数F0[1]およびF0[2]は平滑化前から略一定の周波数に維持されるから、平滑化の前後において各々の軌跡は殆ど変化しない。
以上に説明したように、本実施形態においては、確率密度関数Pの瞬間的な変動が基本周波数F0に与える影響が低減され、実際に対象音に含まれる各音の基本周波数F0を高精度かつ安定的に推定することが可能となる。
<C:第3実施形態>
次に、本発明の第3実施形態について説明する。以上の各形態においては、確率密度関数Pの関数値や基本周波数F0などフレームごとに算定される特徴量について平均値が算定される構成を例示した。平均値の算定の対象となる特徴量の個数(サンプル数)を固定値とした場合、ノイズなどに起因した特徴量の偶発的な変動は確かに抑制されるが、対象音の実際の特性が急峻に変化した場合であっても特徴量が緩慢にしか変動しない(すなわち特徴量が実際の対象音の特性を忠実に反映しない)という問題がある。そこで、対象音の特性に応じて特徴量を急峻に変化させ得る平滑化部24(24A,24B)の具体例を以下に説明する。
図7は、本実施形態に係る平滑化部24の構成を示すブロック図である。同図の平滑化部24は、第1実施形態の平滑化部24Aや第2実施形態の平滑化部24Bとして利用される要素であり、記憶部241と平均算定部242と制御部243とを含む。記憶部241は、フレームごとに供給される特徴量EのN個(Nは2以上の自然数)を順番に記憶する手段である。平滑化部24が第1実施形態の平滑化部24Aとして利用される場合、特徴量Eは、前段の関数推定部22が出力する確率密度関数Pの関数値(確率)である。また、平滑化部24が第2実施形態の平滑化部24Bとして利用される場合、特徴量Eは、前段の音高特定部26が出力する基本周波数F0の各々である。N個の特徴量E(E1〜EN)のうち特徴量E1が最も新しく、特徴量ENが最も古い。
平均算定部242は、記憶部241に記憶されたN個の特徴量E1〜ENのうち最新の特徴量E1から特徴量ELまでの計L個(Lは1≦L≦Nを満たす整数)の平均値を算定したうえで平滑化後の特徴量EAとして出力する手段である。平滑化部24が第1実施形態の平滑化部24Aとして利用される場合、特徴量EAは図3に示した確率密度関数Pの関数値に相当し、平滑化部24が第2実施形態の平滑化部24Bとして利用される場合、特徴量EAは図6に示した各基本周波数F0に相当する。以上のように記憶部241と平均算定部242とはFIR(Finite Impulse Response)フィルタを構成する。
制御部243は、平均算定部242が特徴量EAの算定のために選択する特徴量Eの個数Lを制御する手段である。図7の記憶部42は、フレームごとに供給される特徴量EのM個(Mは2以上の自然数)を順番に記憶する手段である。演算部44は、記憶部42に記憶されたM個の特徴量Eについて自乗和X(X=E12+E22+……+EM2)を算定する。自乗和Xの算定は、記憶部42に新たな特徴量Eが格納されるたび(すなわちフレームごと)に実行される。記憶部45は、演算部44が算定した最新の自乗和Xを記憶する。変化度算定部46は、演算部44が新たに算定した自乗和Xと直前に算定した自乗和X(すなわち記憶部45に格納された自乗和X)との差分値Dの絶対値を変化度|D|として算定する。以上の構成から理解されるように、変化度|D|は、平滑化部24に新たに供給された特徴量Eが、その直前のM個の特徴量E1〜EMから変化した程度の指標となる数値である。
係数制御部48は、平均算定部242による選択の個数Lを変化度|D|に基づいて変化させる手段である。本実施形態の係数制御部48は、変化度|D|が大きいほど個数Lが小さくなるように平均算定部242を制御する。例えば、図8に示すように、「N/|D|+1」と「1」のうち大きい方が個数Lとして平均算定部242に指示される。したがって、変化度|D|が図8の閾値THを下回る範囲においては変化度|D|が小さいほど個数Lは大きくなる。例えば、変化度|D|がゼロである場合(すなわちM個の特徴量Eの自乗和Xに変化がない場合)には、記憶部241に格納された全部(N個)の特徴量E1〜ENが特徴量EAの算定のために選択される。一方、変化度|D|が閾値THを上回る範囲においては変化度|D|に拘わらず個数Lは「1」となる。したがって、記憶部241に新たに格納された特徴量E1がそのまま特徴量EAとして出力される。
以上に説明したように、本実施形態においては、特徴量EAの算定に利用される特徴量Eの個数Lが、M個の特徴量E1〜EMの自乗和Xの変化度|D|に応じて変化する。以上の構成によれば、変化度|D|を自乗和Xの差分として算定することで第1実施形態や第2実施形態と同様に特徴量Eの偶発的な変動が抑制される一方、自乗和Xが大きく変動した場合には、個数Lを減少させることで特徴量Eの変動を迅速かつ忠実に反映した特徴量EAが生成される。すなわち、ノイズなど偶発的な要因によらず対象音の特性が急峻に変化した場合に、特徴量EAを対象音に応じて急峻に変化させることが可能となる。
<D:第4実施形態>
次に、本発明の第4実施形態について説明する。第3実施形態においては、FIRフィルタを平滑化部24に適用した構成を例示したが、本実施形態においてはIIR(Infinite Impulse Response)フィルタが平滑化部24として利用される。
図9は、平滑化部24の構成を示すブロック図である。同図に示すように、本実施形態の平滑化部24は、IIRフィルタを構成する各要素(乗算器244・加算器245・記憶部246・乗算器247)と図7と同様の構成の制御部243とを含む。
乗算器244は、前段の要素から供給される特徴量Eに係数(1-k)を乗算する。加算器245は、乗算器244からの出力と乗算器247からの出力とを加算する。加算器245による加算の結果は、平滑化後の特徴量EAとして平滑化部24から出力されるとともに記憶部246に格納される。記憶部246に格納された特徴量EAは、各フレームの特徴量Eが平滑化部24に供給される周期に相当する時間長だけ遅延した時機に読み出される。乗算器247は、記憶部246から読み出された特徴量EAに係数kを乗算する。したがって、加算器245から出力される特徴量EAは、過去の多数のフレームの特徴量Eに基づいて新たな特徴量Eを時間的に平滑化した数値となる。
本実施形態の係数制御部48は、変化度算定部46が第1実施形態と同様の手順で算定した変化度|D|に基づいて係数kを算定し、乗算器247に当該係数kを指定するとともに乗算器244に係数(1-k)を指定する。係数制御部48が算定する係数kは例えば以下の式で表現される。ただし、「a」は、例えば平滑化部24に入力される特徴量Eの変動に応じて設定される定数である。
k=1/(a・|D|2+1)
すなわち、変化度|D|が小さいほど係数kは増加する(係数(1-k)は減少する)から、特徴量Eの平滑化の度合は大きくなる。一方、変化度|D|が大きい(すなわち自乗和Xの変動が大きい)ほど係数kは減少するから、新たに供給された特徴量Eが平滑化後の特徴量EAに与える影響は増大する。したがって、第3実施形態と同様に、ノイズなど偶発的な要因によらず対象音の特性が急峻に変化した場合に、特徴量EAを対象音に応じて急峻に変化させることが可能となる。
<E:第5実施形態>
第1実施形態や第2実施形態のように特徴量(確率密度関数Pの関数値や基本周波数F0)が複数のフレームにわたる平均値に変換される構成においては、対象音を構成する各音の発音または消音を基本周波数F0の出力に迅速に反映させることが困難であるという問題がある。すなわち、対象音を構成する各音の発音の開始点から実際に当該音の基本周波数F0が出力され始める時点までに遅延が発生する場合や、発音の終了点から実際に当該音の基本周波数F0が出力され終える時点までに遅延が発生する場合がある。本発明の第4実施形態は、対象音を構成する各音の発音や消音を基本周波数F0に迅速に反映させるための形態である。
図10は、音高推定装置Dの構成を示すブロック図である。同図に示すように、本実施形態の音高推定装置Dは、第1実施形態の各要素に加えて検出部50を具備する。検出部50は、音響信号Vが示す対象音を構成する各音の開始点(音響信号Vの振幅が急峻に立ち上がる時点)および終了点(音響信号Vの振幅が急峻に立ち下がる時点)を検出する手段である。発音の開始点および終了点の検出には公知の様々な技術が利用され得る。
平滑化部24Aは、第1実施形態と同様に過去の複数のフレームにわたる確率密度関数Pの関数値の平均値を出力する。さらに、本実施形態の平滑化部24Aは、検出部50が発音の開始点または終了点を検出すると、過去のフレームにおける確率密度関数Pに拘わらず、その検出の直後に関数推定部22から供給される確率密度関数P(すなわち発音が開始または終了した直後の音から推定された確率密度関数P)をそのまま出力する。
例えば、図7の平滑化部24を採用した構成において、記憶部241に格納されているN個の特徴量E1〜ENの総ては、関数推定部22が検出部50による検出の直後に出力する確率密度関数Pの関数値に置換される。また、図9の平滑化部24を採用した構成においては、発音の開始または終了の直後に制御部243が変数kをゼロに変更する。以上の処理によって平滑化部24(図7の平均算定部242や図9の加算器245)からの出力は、発音が開始または終了した直後の音に対応した確率密度関数Pとなる。
以上に説明したように、本実施形態においては、対象音の各音の開始または終了が検出された直後の確率密度関数Pが平滑化を経ずに出力される。したがって、発音の開始や終了に拘わらず確率密度関数Pが時間的に平滑化される構成と比較して、発音の開始点から実際に当該音の基本周波数F0が出力され始めるまでの時間や、発音の終了点から実際に当該音の基本周波数F0が出力され終えるまでの時間が短縮される。すなわち、本実施形態によれば、対象音の各音の立ち上がりや立ち下がりを迅速かつ忠実に反映した基本周波数F0を特定することが可能となる。
<F:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
(1)変形例1
平滑化の対象となる特徴量Eは確率密度関数Pの関数値や基本周波数F0に限定されない。例えば、周波数分析部12やBPF14から出力された振幅スペクトルの強度を複数のフレームにわたって時間的に平滑化してもよい。また、以上の各形態のように音高特定部26にマルチエージェントモデルを採用した場合には、例えば各エージェントの信頼度(得点)を複数のフレームにわたって平滑化してもよい。すなわち、本発明の具体的な態様においては、フレームごとに算定される特徴量の時間的な変動を抑制する態様が特に好適に採用されるが、特徴量の具体的な意義やその算定の方法の如何は不問である。
(2)変形例2
以上の各形態を適宜に組み合わせてもよい。例えば、第1実施形態と第2実施形態とを組み合わせ、関数推定部22と音高特定部26との間に平滑化部24Aが介在するとともに音高特定部26の後段に平滑化部24Bが配置された構成としてもよい。また、第5実施形態においては、第1実施形態に検出部50を追加した構成を例示したが、第2実施形態に検出部50を追加した構成も当然に採用される。
(3)変形例3
第3実施形態においてはN個の特徴量E1〜ENの相加平均が特徴量EAとして算定される構成を例示したが、平均算定部242が特徴量EAを算定する方法は適宜に変更される。例えば、特徴量E1〜ENの加重平均が特徴量EAとして算定される構成としてもよい。特徴量E1〜ENの各々に乗算される係数(重み値)は、例えば新しい特徴量Eの係数ほど大きくなるように設定される。また、特徴量E1〜ENの時間的な変動を抑制するための処理は、特徴量E1〜ENの平均値の算定に限定されない。例えば最頻値(モード)、中央値(メディアン)、LPCまたは残差の演算など、特徴量E1〜ENの突発的な変動を平滑化し得る総ての処理を採用することが可能である。さらに、図7や図9の記憶部42および演算部44を、IIRフィルタの構造に変更してもよい。
(4)変形例4
以上の各形態においては音高特定部26にマルチエージェントモデルを使用した構成を例示したが、確率密度関数Pから基本周波数F0を特定する方法は任意である。例えば、確率密度関数Pのうち関数値が大きいほうから計数して所定数のピークの周波数を基本周波数F0として算定してもよい。
第1実施形態に係る音高推定装置の機能的な構成を示すブロック図である。 平滑化前の確率密度関数Pの時間的な変化を示す概念図である。 平滑化後の確率密度関数Pの時間的な変化を示す概念図である。 第2実施形態に係る音高推定装置の機能的な構成を示すブロック図である。 平滑化前の各基本周波数F0の時間的な変化を示す概念図である。 平滑化後の各基本周波数F0の時間的な変化を示す概念図である。 第3実施形態に係る平滑化部の機能的な構成を示すブロック図である。 平均値の算定に利用される特徴量の個数Lと変化度|D|との関係を示すグラフである。 第4実施形態に係る平滑化部の構成を示すブロック図である。 第5実施形態に係る音高推定装置の機能的な構成を示すブロック図である。
符号の説明
D……音高推定装置、12……周波数分析部、14……BPF、20……音高推定部、22……関数推定部、24,24A,24B……平滑化部、26……音高特定部、241,246,42,45……記憶部、242……平均算定部、243……制御部、244,247……乗算器、245……加算器、44……演算部、46……変化度算定部、48……係数制御部、V……音響信号、S……振幅スペクトル、P……基本周波数の確率密度関数、F0……対象音を構成する各音の基本周波数。

Claims (8)

  1. 音響信号を区分した複数のフレームの各々について、高調波構造をモデル化する複数の音モデルの混合分布として当該フレームの音響信号をモデル化したときの音モデルの重み値を示す基本周波数の確率密度関数を推定する関数推定手段と、
    前記各確率密度関数から音響信号の基本周波数を推定する音高特定手段と、
    前記関数推定手段または前記音高特定手段による処理に際してフレームごとに算定される特徴量の時間的な変動を抑制する平滑化手段と
    を具備する音高推定装置。
  2. 前記平滑化手段は、前記関数推定手段が推定する確率密度関数の関数値の時間的な変動を抑制する
    請求項1に記載の音高推定装置。
  3. 前記平滑化手段は、前記音高特定手段が特定する基本周波数の時間的な変動を抑制する
    請求項1または請求項2に記載の音高推定装置。
  4. 音響信号を区分した各フレームについて振幅スペクトルを生成する周波数分析手段を具備し、
    前記関数推定手段は、前記各振幅スペクトルに基づいて確率密度関数を推定し、
    前記平滑化手段は、前記振幅スペクトルの強度の時間的な変動を抑制する
    請求項1から請求項3の何れかに記載の音高推定装置。
  5. 前記平滑化手段は、
    前記フレームごとに順次に算定される特徴量の複数個を記憶する記憶手段と、
    前記記憶手段に記憶された複数個の特徴量から選択した所定数の特徴量の平均値を平滑化後の特徴量として算定する平均算定手段と、
    前記平均算定手段が選択する特徴量の個数を制御する制御手段と
    を具備する請求項1から請求項4の何れかに記載の音高推定装置。
  6. 発音の始点または終点を音響信号から検出する検出手段を具備し、
    前記平滑化手段は、前記検出手段が検出した始点または終点に対応した時機の特徴量をそのまま出力する
    請求項1から請求項5の何れかに記載の音高推定装置。
  7. 音響信号を区分した複数のフレームの各々について、高調波構造をモデル化する複数の音モデルの混合分布として当該フレームの音響信号をモデル化したときの音モデルの重み値を示す基本周波数の確率密度関数を推定し、
    前記各確率密度関数から音響信号の基本周波数を推定する一方、
    前記確率密度関数の推定または前記基本周波数の推定に際してフレームごとに算定される特徴量の時間的な変動を抑制する
    音高推定方法。
  8. 音響信号を区分した複数のフレームの各々について、高調波構造をモデル化する複数の音モデルの混合分布として当該フレームの音響信号をモデル化したときの音モデルの重み値を示す基本周波数の確率密度関数を推定する関数推定処理と、
    前記各確率密度関数から音響信号の基本周波数を推定する音高特定処理と、
    前記関数推定処理または前記音高特定処理に際してフレームごとに算定される特徴量の時間的な変動を抑制する平滑化処理と
    をコンピュータに実行させるプログラム。
JP2007045014A 2007-02-26 2007-02-26 音高推定装置、音高推定方法およびプログラム Expired - Fee Related JP4630983B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007045014A JP4630983B2 (ja) 2007-02-26 2007-02-26 音高推定装置、音高推定方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007045014A JP4630983B2 (ja) 2007-02-26 2007-02-26 音高推定装置、音高推定方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2008209548A true JP2008209548A (ja) 2008-09-11
JP4630983B2 JP4630983B2 (ja) 2011-02-09

Family

ID=39785925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007045014A Expired - Fee Related JP4630983B2 (ja) 2007-02-26 2007-02-26 音高推定装置、音高推定方法およびプログラム

Country Status (1)

Country Link
JP (1) JP4630983B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010540977A (ja) * 2007-07-13 2010-12-24 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション レベルの時変の推定された確率密度を使用する時変オーディオ信号レベル
KR101121217B1 (ko) 2011-10-14 2012-03-22 주식회사 스마트송 Iir 필터를 이용한 시간 영역에서의 피치 추정 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0380299A (ja) * 1989-08-23 1991-04-05 Fujitsu Ltd 単語音声予備選択方式
JPH09244695A (ja) * 1996-03-04 1997-09-19 Kobe Steel Ltd 音声符号化装置及び復号化装置
JP2001356793A (ja) * 2000-06-13 2001-12-26 Casio Comput Co Ltd 音声認識装置、及び音声認識方法
JP3413634B2 (ja) * 1999-10-27 2003-06-03 独立行政法人産業技術総合研究所 音高推定方法及び装置
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0380299A (ja) * 1989-08-23 1991-04-05 Fujitsu Ltd 単語音声予備選択方式
JPH09244695A (ja) * 1996-03-04 1997-09-19 Kobe Steel Ltd 音声符号化装置及び復号化装置
JP3413634B2 (ja) * 1999-10-27 2003-06-03 独立行政法人産業技術総合研究所 音高推定方法及び装置
JP2001356793A (ja) * 2000-06-13 2001-12-26 Casio Comput Co Ltd 音声認識装置、及び音声認識方法
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010540977A (ja) * 2007-07-13 2010-12-24 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション レベルの時変の推定された確率密度を使用する時変オーディオ信号レベル
KR101121217B1 (ko) 2011-10-14 2012-03-22 주식회사 스마트송 Iir 필터를 이용한 시간 영역에서의 피치 추정 장치

Also Published As

Publication number Publication date
JP4630983B2 (ja) 2011-02-09

Similar Documents

Publication Publication Date Title
JP4630980B2 (ja) 音高推定装置、音高推定方法およびプログラム
JP5641186B2 (ja) 雑音抑圧装置およびプログラム
JP5187666B2 (ja) 雑音抑圧装置およびプログラム
JP5152799B2 (ja) 雑音抑圧装置およびプログラム
JP5157837B2 (ja) ピッチ検出装置およびプログラム
JP4630983B2 (ja) 音高推定装置、音高推定方法およびプログラム
JP5152800B2 (ja) 雑音抑圧評価装置およびプログラム
JP5728903B2 (ja) 音響処理装置およびプログラム
Gabrielli et al. Adaptive linear prediction filtering in dwt domain for real-time musical onset detection
JP2011180219A (ja) 係数設定装置および雑音抑圧装置
JP4630982B2 (ja) 音高推定装置、音高推定方法およびプログラム
JP4630979B2 (ja) 音高推定装置、音高推定方法およびプログラム
JP4630981B2 (ja) 音高推定装置、音高推定方法およびプログラム
JP5131172B2 (ja) 周期特定装置およびプログラム
JP5513074B2 (ja) グリッド検出装置及びプログラム
JP2013250356A (ja) 係数設定装置および雑音抑圧装置
JP2009150920A (ja) エコーキャンセル装置、カラオケ装置、エコーキャンセル方法およびプログラム
JP4710037B2 (ja) 音高推定装置、音高推定方法およびプログラム
JP5327375B2 (ja) ピッチ検出装置およびプログラム
JP7275711B2 (ja) オーディオ信号の処理方法
JP4478802B2 (ja) 音モデル生成装置、音モデル生成方法およびプログラム
JP4625935B2 (ja) 音分析装置およびプログラム
JP2010107689A (ja) ピッチ情報検出装置およびプログラム
JP2015169900A (ja) 雑音抑圧装置
JP3765313B2 (ja) 楽音合成装置および楽音合成用プログラムが記録されたコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101012

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees