JP4630982B2

JP4630982B2 - 音高推定装置、音高推定方法およびプログラム

Info

Publication number: JP4630982B2
Application number: JP2007045013A
Authority: JP
Inventors: 真孝後藤; 琢哉藤島; 慶太有元
Original assignee: Yamaha Corp; National Institute of Advanced Industrial Science and Technology AIST
Current assignee: Yamaha Corp; National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2007-02-26
Filing date: 2007-02-26
Publication date: 2011-02-09
Anticipated expiration: 2027-02-26
Also published as: JP2008209547A

Description

本発明は、音高（基本周波数）を推定する技術に関する。

特許文献１には、複数の音の混合音など様々な音（以下「対象音」という）を構成するひとつの音の基本周波数を推定する技術が開示されている。この技術においては、対象音の振幅スペクトルを複数の音モデル（高調波構造をモデル化した確率密度関数）の混合分布でモデル化したときの各音モデルの重み値を基本周波数の確率密度関数として算定し、確率密度関数において優勢なピークを所望の音の基本周波数として推定する。
特許第３４１３６３４号公報

しかし、基本周波数の確率密度関数には、対象音に含まれる音の基本周波数だけでなく、対象音に実際には含まれない音の基本周波数にもピークが現れる。例えば、基本周波数100Hzの音の振幅スペクトルには、基本周波数200Hzの音の振幅スペクトルと同様の周波数（200Hz，400Hz，600Hz，800Hz，……）にピークが現れる。したがって、基本周波数200Hzの音が対象音に含まれる場合には、基本周波数100Hzの音が実際には対象音に含まれない場合であっても、基本周波数の確率密度関数には200Hzに加えて100Hzにもピークが現れる。以上のように多数のピークが存在する確率密度関数から所望の音の基本周波数のみを高精度に選択することは困難である。このような事情に鑑みて、本発明は、対象音（特に複数の音の混合音）の基本周波数を高精度に推定するという課題の解決を目的としている。

以上の課題を解決するために、本発明に係る音高推定装置は、相異なる基本周波数の高調波構造を示す複数の音モデルの混合分布として入力音響信号をモデル化したときの各音モデルの重み値を更新する単位処理を反復する最尤推定アルゴリズムによって入力音響信号の基本周波数の確率密度関数を推定する関数推定手段と、確率密度関数に現れる複数のピークから１個以上の第１ピークを選択する複数の組合せの各々について、複数のピークのうち第１ピーク以外の第２ピークを抑制した評価用重み値を生成する関数加工手段と、関数加工手段が生成した各評価用重み値を更新対象の重み値として単位処理を反復した結果に基づいて、関数推定手段が推定した確率密度関数に現れる複数のピークのうち入力音響信号の基本周波数に対応したピークを特定する音高特定手段とを具備する。

以上の構成においては、各々の生成時に抑制されたピークの組合せが相違する複数の評価用重み値について所定の回数の単位処理を実行した結果に基づいて入力音響信号の基本周波数が特定されるから、例えば単純に確率密度関数のピーク値の大小に応じて基本周波数が特定される構成と比較して対象音の基本周波数を高精度に推定することが可能となる。また、確率密度関数を推定するための重み値の更新と評価用重み値の更新とに共通の単位処理が利用されるから、確率密度関数の推定とは別個の方法や構成で入力音響信号の基本周波数が特定される構成と比較して、音高推定装置による処理の負荷や装置の規模が低減されるという利点がある。

本発明の第１の態様において、関数推定手段が実行する単位処理は、各基本周波数の音モデルが入力音響信号の高調波構造を支持する程度を示す優勢度分布に基づいて当該基本周波数の新たな重み値を算定する処理を含み、音高特定手段は、各評価用重み値に単位処理を実行したときの優勢度分布を各基本周波数について加算した優勢度積算値と入力音響信号の振幅スペクトルとの類否を示す類否指標値を各評価用重み値について算定する類否解析手段と、類否解析手段の算定した各類否指標値が類似を示す評価用重み値の生成時に維持されたひとつまたは複数のピーク（例えば図４における評価用重み値Ｅ[2]の周波数Ｆ2〜Ｆ4の各々に現れるピーク）、または、類否解析手段の算定した各類否指標値が非類似を示す評価用重み値の生成時に抑制されたひとつまたは複数のピークを、入力音響信号の基本周波数に対応したピークとして特定するピーク特定手段とを含む。評価用重み値の生成時に維持されたピークが実際の入力音響信号の基本周波数に対応した優勢なピークであるほど、当該評価用重み値から生成される優勢度積算値と入力音響信号の振幅スペクトルとは類似する。換言すると、評価用重み値の生成時に抑制されたピークが実際の入力音響信号の基本周波数に対応した優勢なピークであるほど、当該評価用重み値から生成される優勢度積算値と入力音響信号の振幅スペクトルとの相違は増大する。したがって、以上の態様によれば、入力音響信号の基本周波数を高精度に特定することが可能である。なお、第１の態様の具体例は第１実施形態として後述される。

本発明の第２の態様において、音高特定手段は、関数推定手段による所定の回数の単位処理を経た各評価用重み値と記憶手段が記憶する確率密度関数との類否を示す類否指標値を各評価用重み値について算定する類否解析手段と、類否解析手段の算定した各類否指標値が非類似を示す評価用重み値の生成時に抑制されたひとつまたは複数のピーク（例えば図６における評価用重み値Ｅ[1]の生成時に削除された周波数Ｆ1のピークや評価用重み値Ｅ[2]の生成時に削除された周波数Ｆ2のピーク）、または、類否解析手段の算定した各類否指標値が類似を示す評価用重み値の生成時に維持されたひとつまたは複数のピークを、入力音響信号の基本周波数に対応したピークとして特定するピーク特定手段とを含む。評価用重み値の生成時に抑制されたピークが実際の入力音響信号の基本周波数に対応した優勢なピークであるほど、所定の回数の単位処理を経た評価用重み値と基本周波数の確率密度関数との相違は拡大する。換言すると、評価用重み値の生成時に維持されたピークが実際の入力音響信号の基本周波数に対応した優勢なピークであるほど、所定の回数の単位処理を経た評価用重み値と基本周波数の確率密度関数とは類似する。したがって、以上の態様によれば、入力音響信号の基本周波数を高精度に特定することが可能である。なお、第２の態様の具体例は第２実施形態として後述される。

第２の態様に係る音高推定装置において、ピーク特定手段は、類否解析手段が算定した複数の類否指標値のうち非類似を示す最大値と所定の係数との乗算によって閾値を算定し、類否指標値が閾値を上回る１以上の評価用重み値の生成時に抑制されたひとつまたは複数のピークを特定する。以上の態様によれば、対象音に含まれる音数に応じて閾値が制御されるから、対象音に現実に含まれる音の基本周波数を、対象音の音数の多少に関わらず高精度に特定することが可能となる。

本発明の好適な態様において、関数加工手段は、確率密度関数における第２ピークの数値をゼロに変更することで評価用重み値を生成する。この態様によれば、確率密度関数の所定のピーク値がゼロに変更されるから、所定の回数の単位処理を経た評価用重み値に基づいて、確率密度関数の各ピークが入力音響信号の基本周波数に該当するか否かを明確に区別することが可能となる。

本発明は、入力音響信号の基本周波数を推定する方法としても特定される。本発明の音高推定方法は、相異なる基本周波数の高調波構造を示す複数の音モデルの混合分布として入力音響信号をモデル化したときの各音モデルの重み値を更新する単位処理を反復する最尤推定アルゴリズムによって入力音響信号の基本周波数の確率密度関数を推定する一方、確率密度関数に現れる複数のピークから１個以上の第１ピークを選択する複数の組合せの各々について、複数のピークのうち第１ピーク以外の第２ピークを抑制した評価用重み値を生成し、各評価用重み値を更新対象の重み値として単位処理を反復した結果に基づいて、推定した確率密度関数に現れる複数のピークのうち入力音響信号の基本周波数に対応したピークを特定する。以上の方法によれば、本発明の音高推定装置と同様の作用および効果が奏される。

本発明に係る音高推定装置は、各処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、相異なる基本周波数の高調波構造を示す複数の音モデルの混合分布として入力音響信号をモデル化したときの各音モデルの重み値を更新する単位処理を反復する最尤推定アルゴリズムによって入力音響信号の基本周波数の確率密度関数を推定する最尤推定処理と、確率密度関数に現れる複数のピークから１個以上の第１ピークを選択する複数の組合せの各々について、複数のピークのうち第１ピーク以外の第２ピークを抑制した評価用重み値を生成する関数加工処理と、関数加工処理で生成した各評価用重み値を更新対象の重み値として単位処理を反復した結果に基づいて、最尤推定処理で推定した確率密度関数に現れる複数のピークのうち入力音響信号の基本周波数に対応したピークを特定する音高特定処理とをコンピュータに実行させる内容である。以上のプログラムによっても、本発明に係る音高推定装置と同様の作用および効果が奏される。なお、本発明のプログラムは、ＣＤ−ＲＯＭなど可搬型の記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

＜Ａ−１：第１実施形態の構成＞
図１は、本発明の第１実施形態に係る音高推定装置の機能的な構成を示すブロック図である。音高推定装置Ｄは、対象音を構成する各音の基本周波数（音高）を推定する装置であり、図１に示すように、周波数分析部１２とＢＰＦ（Band Pass Filter）１４と関数推定部２０と記憶部３０と音高特定部４０とを含む。図１に図示された各部は、例えばＣＰＵなどの演算処理装置がプログラムを実行することで実現されてもよいし、基本周波数の推定に専用されるＤＳＰなどのハードウェアによって実現されてもよい。

周波数分析部１２には、対象音の時間波形を示す音響信号Ｖが入力される。本実施形態の音響信号Ｖが示す対象音は、各々の音高や音源が相違する複数の音の混合音である。周波数分析部１２は、所定の窓関数を利用して音響信号Ｖを多数のフレームに分割したうえで、ＦＦＴ（Fast Fourier Transform）処理を含む周波数分析を各フレームの音響信号Ｖについて実行することで対象音の振幅スペクトルを特定する。各フレームは時間軸上で相互に重なり合うように設定される。

ＢＰＦ１４は、周波数分析部１２がフレームごとに特定した振幅スペクトルのうち特定の周波数帯域に属する成分を選択的に通過させる。ＢＰＦ１４の通過帯域は、対象音を構成する複数の音のうち音高を推定すべき各音の基本周波数成分や高調波成分の多くが通過し、かつ、他の音の基本周波数成分や高調波成分が所望の音よりも優勢となる周波数帯域が遮断されるように、統計的または実験的に予め選定される。ＢＰＦ１４を通過した振幅スペクトルＳは関数推定部２０に出力される。

図２は、関数推定部２０による処理の概要を説明するための概念図である。同図の部分(a)に破線で示すように、振幅スペクトルＳは実際には周波数ｘに沿って連続的に分布する。しかし、同図においては説明の便宜のために、ピークの各周波数ｘに対応して配列された複数の直線（ピークの強度Ａに対応する長さの線分）として振幅スペクトルＳが図示されている。図２の部分(b)から部分(f)の表記（部分(b)の音モデルＭ[F]・部分(c)の期待値Ｑ[F]・部分(d)の優勢度分布Ｃ[F]・部分(e)の重み値ω[F]・部分(f)の優勢度積算値Ｃsum[i]）についても同様である。また、図２の部分(a)においては、基本周波数Ｆ0が200Hzである対象音（すなわち倍音の周波数が400Hz，600Hz，800Hzである対象音）の振幅スペクトルＳが便宜的に図示されているが、実際には複数の音を混合したものが対象音とされる。

図１の記憶部３０は、関数推定部２０や音高特定部４０による処理に使用される各種の情報を記憶する手段（磁気記憶装置や半導体記憶装置）である。記憶部３０は、例えば、関数推定部２０で使用される多数の音モデルＭ[F]をテンプレートとして記憶する。図２の部分(b)に示すように、音モデルＭ[F]は、対象音を構成する各音の基本周波数Ｆ0の候補となる基本周波数Ｆごとに用意される。ただし、図２の部分(b)には、100Hzの基本周波数Ｆに対応する音モデルＭ[100]と200Hzの基本周波数Ｆに対応する音モデルＭ[200]とが便宜的に図示されている。音モデルＭ[F]は、基本周波数Ｆに対応した高調波構造（基音成分および倍音成分の周波数軸上における分布・配置やスペクトル形状）を周波数ｘに沿ってモデル化する関数（確率密度関数）である。例えば、図２の部分(b)に例示するように、音モデルＭ[100]においては、基本周波数Ｆに対応した周波数ｘ（ｘ＝100Hz）とその倍音に相当する周波数ｘ（ｘ＝200Hz，300Hz，400Hz）とにピークが現れる。

図１の関数推定部２０は、振幅スペクトルＳについて基本周波数の確率密度関数Ｐを推定する。確率密度関数Ｐは、振幅スペクトルＳを多数の音モデルＭ[F]の混合分布（複数の音モデルＭ[F]の重み付き和）としてモデル化したときの各音モデルＭ[F]の重み値ω[F]の分布を表現する関数である。

本実施形態の関数推定部２０は、最尤推定アルゴリズムのひとつであるＥＭ（Expectation-Maximization）アルゴリズムに基づいて所定の処理（以下「単位処理」という）を反復することで確率密度関数Ｐを推定する。各単位処理は、前回の単位処理で算定された重み値ω[F]（第１回目の単位処理においては重み値ω[F]の初期値）に基づいて新たな重み値ω[F]を算定する処理である。重み値ω[F]は、単位処理のたびに、複数の音モデルＭ[F]の混合分布によって振幅スペクトルＳがモデル化されるときの重み値ω[F]（尤度が高い数値）に近づいていく。所定の回数の単位処理が実行された時点の重み値ω[F]が確率密度関数Ｐとして記憶部３０に記憶される。

図２に示すように、単位処理は、各音モデルＭ[F]（各基本周波数Ｆ）について図２の部分(d)の優勢度分布Ｃ[F]を生成する優勢度特定処理ＰA（ＰA1・ＰA2）と、優勢度分布Ｃ[F]に基づいて重み値ω[F]を算定する重み値算定処理ＰBとを含む。優勢度特定処理ＰAは、図２の部分(c)の期待値Ｑ[F]を生成する処理ＰA1と、優勢度分布Ｃ[F]を生成する処理ＰA2とから構成される。

処理ＰA1は、記憶部３０から読み出された音モデルＭ[F]と重み値算定処理ＰBで算定された重み値ω[F]とを各基本周波数Ｆについて乗算し、さらに乗算後の各音モデルＭ[F]について同じ周波数ｘの数値の総和が１となるように正規化することで期待値Ｑ[F]を生成する処理である。処理ＰA2は、各基本周波数Ｆの期待値Ｑ[F]と振幅スペクトルＳとの乗算によって当該基本周波数Ｆの優勢度分布Ｃ[F]を生成する処理である。以上の手順から理解されるように、優勢度分布Ｃ[F]は、音響信号Ｖの高調波構造が音モデルＭ[F]によって支持される程度（優勢度）の分布を周波数ｘに沿って示す。したがって、振幅スペクトルＳの形状（基本周波数成分や各高調波成分）を優勢に支持する音モデルＭ[F]（すなわち振幅スペクトルＳの高調波構造に近い分布（ピーク）を持つ音モデルＭ[F]）から生成された優勢度分布Ｃ[F]ほど多数かつ高強度のピークを含む。

重み値算定処理ＰBは、優勢度特定処理ＰAで算定された各優勢度分布Ｃ[F]から各基本周波数Ｆの重み値ω[F]を算定する手段である。すなわち、図２に示すように、重み値算定処理ＰBにおいては、第１に、基本周波数Ｆごとの優勢度分布Ｃ[F]の優勢度を各周波数ｘについて積算した数値ｋ[F]（周波数ｘに関する優勢度分布Ｃ[F]の積分値）が算定され、第２に、基本周波数Ｆの全範囲にわたる重み値ω[F]の積分値が「１」となるように数値ｋ[F]を正規化することで各基本周波数Ｆの重み値ω[F]が生成される。すなわち、基本周波数Ｆの全範囲にわたる数値ｋ[F]の総和をＫとすれば、重み値ω[F]は「ｋ[F]／Ｋ」と表記される。

以上の説明から理解されるように、特定の基本周波数Ｆに対応する重み値ω[F]は、基本周波数Ｆに対応する音モデルＭ[F]が振幅スペクトルＳの高調波構造をどのくらい優勢に支持するかを示す。したがって、確率密度関数Ｐのうち優勢なピークが現れる基本周波数Ｆは、対象音に含まれる各音の基本周波数Ｆ0（音高）である可能性が高い。音高特定部４０は、関数推定部２０が指定した確率密度関数Ｐにおいてピークが現れるひとつまたは複数の基本周波数Ｆを対象音の各音の基本周波数（音高）Ｆ0として特定する。

以上の手順で算定される確率密度関数Ｐ（重み値ω[F]）には、対象音に含まれる音の基本周波数Ｆだけでなく、実際には対象音に含まれない音の基本周波数Ｆにもピークが現れ得る。例えば、基本周波数100Hzの音の振幅スペクトルには、基本周波数200Hzの音の振幅スペクトルと同様の周波数（200Hz，400Hz，600Hz，800Hz，……）にピークが現れるから、図２の部分(a)のように基本周波数200Hzの音が対象音に含まれる場合には、基本周波数100Hzの音が実際には対象音に含まれない場合であっても、図２の部分(e)に示すように、基本周波数の確率密度関数Ｐには200Hzに加えて100Hzにもピーク（ω[100]）が現れる。重み値ω[F]に現れる多数のピークのうち実際には対象音に含まれない音に対応したピークを以下では「偽ピーク」と表記し、対象音に現実に含まれる音に対応したピーク（以下「真ピーク」という）と区別する場合がある。

以上のように真ピークと偽ピークとが混在する確率密度関数Ｐから真ピークのみを高精度に抽出するために、本実施形態においては、確率密度関数Ｐに現れる複数のピークから選択されたひとつまたは複数のピークを真ピークと仮定したｎ種類の仮説を設定し（ｎは２以上の自然数）、ｎ種類の仮説のうち尤度が最大となる仮説（以下「最尤仮説」という）で真ピークと仮定した各ピークの基本周波数Ｆを対象音の各音の基本周波数Ｆ0として特定する。

図１に示すように関数推定部２０はピーク選択部２２と関数加工部２４とを含む。ピーク選択部２２は、確率密度関数Ｐに現れる多数のピークのなかからひとつまたは複数のピークを仮定的な真ピークとして選択するｎ種類の組合せ（仮説）を特定する手段である。関数加工部２４は、ｎ種類の仮説の各々を評価するための数値（以下「評価用重み値」という）Ｅ[1]〜Ｅ[n]を確率密度関数Ｐの加工によって生成する。評価用重み値Ｅ[i]（ｉは１≦ｉ≦ｎを満たす整数）は、確率密度関数Ｐに現れる複数のピークのうち第ｉ番目の仮説にて選定されたピーク以外のピーク（すなわち仮定的な偽ピーク）の数値を強制的にゼロに変更（すなわちピークを削除）した関数である。

また、音高特定部４０は類否解析部４２とピーク特定部４４とを含む。類否解析部４２は、各仮説の尤度の指標となる数値（以下「類否指標値」という）Ｒa[1]〜Ｒa[n]を評価用重み値Ｅ[1]〜Ｅ[n]の各々から生成する。ピーク特定部４４は、類否解析部４２が生成した類否指標値Ｒa[1]〜Ｒa[n]に基づいて最尤仮説を推定し、最尤仮説にて選択されていたひとつまたは複数のピーク（すなわち評価用重み値Ｅ[i]の生成時に維持されたピーク）の周波数を対象音の各音の基本周波数Ｆ0として特定する。関数推定部２０（ピーク選択部２２・関数加工部２４）や音高特定部４０（類否解析部４２・ピーク特定部４４）による具体的な処理は以下の通りである。

＜Ａ−２：第１実施形態の動作＞
図３は、関数推定部２０および音高特定部４０による処理を示すフローチャートであり、図４は、図３の処理を具体的に説明するための概念図である。図３に示すように、関数推定部２０は、重み値ω[F]を更新する単位処理をＭ1回（Ｍ1は１以上の整数）にわたって反復する（ステップＳ10・ステップＳ11）。図２を参照して説明したように、各回の単位処理において、関数推定部２０は、前回の単位処理で算定した重み値ω[F]を変数とした所定の演算によって、当該重み値ω[F]よりも尤度が高い新たな重み値ω[F]を算定する。

関数推定部２０は、単位処理をＭ1回にわたって実行した時点（ステップＳ11：YES）における最新の重み値ω[F]を基本周波数の確率密度関数Ｐとして記憶部３０に格納する（ステップＳ12）。図４の部分(a)には、ステップＳ12で記憶部３０に格納される確率密度関数Ｐが図示されている。同図の確率密度関数Ｐには、複数の基本周波数Ｆ（Ｆ1，Ｆ2，Ｆ3，Ｆ4，Ｆ5，……）にピークが現れる。

ピーク選択部２２は、確率密度関数Ｐに現れる複数のピークを検出し、ここで検出した複数のピークのなかから任意の個数のピークを選択する総て（ｎ種類）の組合せを特定する（ステップＳ13）。確率密度関数Ｐにｍ個（ｍは２以上の自然数）のピークが現れるとすれば、ステップＳ13で特定される組合せの総数ｎは、各ピークの選択／非選択の組合せの総数（２^m）から総てのピークが非選択とされる場合を除外して「２^m−１」通りとなる。

関数推定部２０は、ピーク選択部２２が決定したｎ種類の組合せ（仮説）の何れかを指定する変数ｉを「１」に設定する（ステップＳ14）。次いで、関数加工部２４は、確率密度関数Ｐに現れる複数のピークのうちピーク選択部２２が特定した第ｉ番目の組合せに属するピーク以外のひとつまたは複数のピーク（偽ピークと仮定されたピーク）を削除することで評価用重み値Ｅ[i]を生成する（ステップＳ15）。そして、関数推定部２０は、重み値ω[F]を対象としたステップＳ10と同様の単位処理を評価用重み値Ｅ[i]について実行することで評価用重み値Ｅ[i]を順次に更新する（ステップＳ16）。ステップＳ16の単位処理がＭ2回（Ｍ2は１以上の整数）にわたって反復されると（ステップＳ17：YES）、関数推定部２０は、ステップＳ18に処理を移行する。

ステップＳ18において、関数推定部２０は、変数ｉが組合せの総数ｎに到達したか否かに基づいて、総ての組合せについて評価用重み値Ｅ[i]の生成（ステップＳ15）と単位処理の反復による評価用重み値Ｅ[i]の更新（ステップＳ16・ステップＳ17）とを実行したか否かを判定する。変数ｉが総数ｎを下回る場合、関数推定部２０は、変数ｉに「１」を加算することで次の組合せを選定したうえで（ステップＳ19）、ステップＳ15からステップＳ18までの処理を繰り返す。

図４の部分(b)には、ステップＳ15で生成された評価用重み値Ｅ[1]〜Ｅ[n]が例示されている。同図においては、図４の部分(a)における確率密度関数Ｐから削除されたピークが破線で図示されている。同図の部分(b)に示すように、ステップＳ15にて削除されるピーク（仮定的な偽ピーク）の組合せは評価用重み値Ｅ[i]ごとに相違する。例えば、評価用重み値Ｅ[1]は、確率密度関数Ｐにおける基本周波数Ｆ2・Ｆ4のピークの削除によって生成され、評価用重み値Ｅ[2]は、基本周波数Ｆ1・Ｆ5のピークの削除によって生成され、評価用重み値Ｅ[n]は、基本周波数Ｆ1以外のピークの削除によって生成される。

ここで、図２の部分(f)に示すように、同図の部分(d)の優勢度分布Ｃ[F]を基本周波数Ｆの全範囲にわたって周波数ｘごとに積算した関数（以下「優勢度積算値」という）Ｃsumを検討する。図２から理解されるように、ステップＳ16の単位処理においては、評価用重み値Ｅ[i]と音モデルＭ[F]との乗算値を正規化して期待値Ｑ[F]を算定する処理ＰA1と、期待値Ｑ[F]と振幅スペクトルＳとの乗算によって優勢度分布Ｃ[F]を算定する処理ＰA2とが実行される。したがって、ステップＳ15で生成された評価用重み値Ｅ[i]において確率密度関数Ｐの多くの真ピークが維持されるほど（すなわち第ｉ番目の仮説の尤度が高いほど）、ステップＳ16における優勢度分布Ｃ[F]から算定される優勢度積算値Ｃsum[i]と振幅スペクトルＳとは類似する。逆に、ステップＳ15で生成された評価用重み値Ｅ[i]において多くの偽ピークが維持されるほど（すなわち第ｉ番目の仮説の尤度が低いほど）、優勢度積算値Ｃsum[i]と振幅スペクトルＳとの相違は増大する。そこで、本実施形態の音高特定部４０は、優勢度積算値Ｃsum[i]と振幅スペクトルＳとの類似度が最大となる評価用重み値Ｅ[i]の仮説を最尤仮説（すなわち確率密度関数Ｐの真ピークを最も多く含む組合せ）と評価する。さらに詳述すると以下の通りである。

ｎ種類の組合せ（仮説）についてステップＳ15からステップＳ17までの処理が完了すると（ステップＳ18：YES）、音高特定部４０の類否解析部４２は、評価用重み値Ｅ[i]についての第Ｍ2回目の単位処理（ステップＳ16）で生成された優勢度分布Ｃ[F]から優勢度積算値Ｃsum[i]を算定し、この優勢度分布Ｃsum[i]と振幅スペクトルＳとの類否の程度を示す類否指標値Ｒa[i]を算定する（ステップＳ20）。本実施形態の類否指標値Ｒa[i]はＫＬ（Kullback-Leibler）情報量である。したがって、優勢度積算値Ｃsum[i]と振幅スペクトルＳとが類似するほど類否指標値Ｒa[i]はゼロに近づいていく（両者の相違が大きいほど類否指標値Ｒa[i]は増加する）。なお、図３においては総ての評価用重み値Ｅ[1]〜Ｅ[n]について単位処理を反復してから優勢度積算値Ｃsum[1]〜Ｃsum[n]を算定する場合を便宜的に例示するが、優勢度積算値Ｃsum[i]や類否指標値Ｒa[i]を算定する処理は、ひとつの評価用重み値Ｅ[i]について単位処理の反復が完了するたびに（すなわち図３のステップＳ17とステップＳ18との間に）実行されてもよい。

ピーク特定部４４は、類否解析部４２の算定した類否指標値Ｒa[1]〜Ｒa[n]が最小（優勢度積算値Ｃsum[i]と振幅スペクトルＳとの類似を示す）となる評価用重み値Ｅ[i]（すなわち確率密度関数Ｐからの生成時に維持されたピークの組合せが最尤仮説に該当する評価用重み値Ｅ[i]）を探索する（ステップＳ21）。そして、ピーク特定部４４は、確率密度関数Ｐに現れる複数のピークのうち当該評価用重み値Ｅ[i]の生成時に維持されたひとつまたは複数のピークを特定し、ここで特定したピークの各周波数を対象音の各音の基本周波数Ｆ0として出力する（ステップＳ22）。

例えば図４においては、類否指標値Ｒa[2]が最小となる場合（すなわち第２番目の仮説が最尤仮説である場合）を想定している。したがって、確率密度関数Ｐから評価用重み値Ｅ[2]を生成するときに維持された（すなわち真ピークと仮定された）各ピークの基本周波数Ｆ（Ｆ2，Ｆ3，Ｆ4）が基本周波数Ｆ0として出力される。

以上に説明したように、本実施形態においては、確率密度関数Ｐに現れる多数のピークを選択的に真ピークと仮定したｎ種類の仮説から最尤仮説が推定され、最尤仮説にて真ピークと仮定されていたピーク（真ピーク）の周波数が基本周波数Ｆ0として特定される。したがって、例えば確率密度関数Ｐにおいてピーク値が所定の閾値を上回るピークの周波数を単純に基本周波数Ｆ0として抽出する構成と比較して、基本周波数Ｆ0を高精度に推定することが可能となる。特に本実施形態においては、確率密度関数Ｐから任意の個数のピークを選択する総ての組合せについてステップＳ15からステップＳ17の処理が実行される。すなわち、確率密度関数Ｐのひとつピークを真ピークとする仮説だけでなく、確率密度関数Ｐの複数のピークを真ピークとする仮説も設定される。したがって、対象音に含まれる複数の音の基本周波数を一括的に推定することが可能となる。

ところで、確率密度関数Ｐから基本周波数Ｆ0を抽出する方法としては、例えば特許文献１に開示されているようにマルチエージェントモデルを採用することも考えられる。すなわち、複数の自律的なエージェントの各々に確率密度関数Ｐの各ピークを割り当てたうえで各ピークの経時的な変動を追跡させ、信頼度が高いエージェントのピークを基本周波数Ｆ0として出力する。しかし、マルチエージェントモデルは確率密度関数Ｐの推定とは全く別個の仕組みである。したがって、演算処理装置がプログラムを実行することで音高推定装置Ｄが実現される場合にはプログラムの容量や演算処理装置による処理の負荷が増大するという問題がある。また、ＤＳＰなどのハードウェアによって音高推定装置Ｄが実現される場合には回路の規模が肥大化するという問題がある。本実施形態においては、確率密度関数Ｐ（重み値ω[F]）を推定するための単位処理が評価用重み値Ｅ[i]の更新にも流用されるから、これらの問題が解消されるという利点がある。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態について説明する。なお、本実施形態のうち第１実施形態と作用や機能が共通する要素については、以上と同じ符号を付して、各々の詳細な説明を適宜に省略する。

図５は、関数推定部２０および音高特定部４０による処理を示すフローチャートであり、図６は、図５の処理を具体的に説明するための概念図である。ステップＳ10の反復によって確率密度関数Ｐが確定すると（ステップＳ10からステップＳ12）、関数推定部２０のピーク選択部２２は、確率密度関数Ｐに現れるピークを検出する（ステップＳ131）。図６の部分(a)には、ピーク選択部２２が確率密度関数Ｐからｎ個のピーク（基本周波数Ｆ1〜Ｆn）を検出した場合が例示されている。

関数加工部２４は、図６の部分(b)に示すように、確率密度関数Ｐのｎ個のピークのうち第ｉ番目のひとつのピークの重み値ω[F]を強制的にゼロに変更することで評価用重み値Ｅ[i]を生成する（ステップＳ15）。評価用重み値Ｅ[i]については、第１実施形態と同様に、ステップＳ10と同様の単位処理が反復される（ステップＳ16・ステップＳ17）。ステップＳ15で削除された第ｉ番目のピークが真ピークである場合、Ｍ2回にわたる単位処理を経た評価用重み値Ｅ[i]は確率密度関数Ｐから乖離した態様となる。これに対し、第ｉ番目のピークが偽ピークである場合、単位処理を経た評価用重み値Ｅ[i]は、第ｉ番目のピークが真ピークである場合と比較して確率密度関数Ｐに類似する。

そこで、ステップＳ15からステップＳ17までの処理を確率密度関数Ｐの総てのピークについて実行（すなわちｎ回にわたって実行）すると、類否解析部４２は、評価用重み値Ｅ[1]〜Ｅ[n]の各々と記憶部３０に記憶された確率密度関数Ｐとの類否の程度を示す類否指標値Ｒb[1]〜Ｒb[n]を算定する（ステップＳ20）。本実施形態の類否指標値Ｒb[i]はＫＬ情報量である。したがって、評価用重み値Ｅ[i]と確率密度関数Ｐとの相違が大きいほど類否指標値Ｒb[i]は増大する。すなわち、類否指標値Ｒb[i]が大きいほど、これに対応した評価用重み値Ｅ[i]の生成時に削除されたピークは真ピークである可能性が高い。なお、図５においては総ての評価用重み値Ｅ[1]〜Ｅ[n]について単位処理を反復してから類否指標値Ｒb[1]〜Ｒb[n]を算定する場合を例示したが、ひとつの評価用重み値Ｅ[i]についてＭ2回の単位処理を実行するたびに（すなわち図５のステップＳ17とステップＳ18との間）に類否指標値Ｒb[i]を算定してもよい。

ピーク特定部４４は、類否解析部４２が算定した類否指標値Ｒb[1]〜Ｒb[n]に基づいて閾値ＴＨを算定する（ステップＳ201）。さらに詳述すると、ピーク特定部４４は、類否指標値Ｒb[1]〜Ｒb[n]の最大値Ｒmaxを特定し、最大値Ｒmaxと所定の係数Ｃ（０＜Ｃ＜１）との乗算値を閾値ＴＨとして算定する。次いで、ピーク特定部４４は、類否指標値Ｒb[1]〜Ｒb[n]のなかから閾値ＴＨを上回る（すなわち評価用重み値Ｅ[i]と確率密度関数Ｐとの非類似を示す）ひとつまたは複数の類否指標値Ｒb[i]を探索する（ステップＳ21）。そして、ピーク特定部４４は、ステップＳ21で抽出した各類否指標値Ｒb[i]に対応する評価用重み値Ｅ[i]の生成時に確率密度関数Ｐから削除したピーク（真ピーク）を特定し、ここで特定したひとつまたは複数のピークの各基本周波数Ｆを対象音の各音の基本周波数Ｆ0として出力する（ステップＳ22）。例えば、図６のように類否指標値Ｒb[1]およびＲb[2]が閾値ＴＨを上回る場合には、評価用重み値Ｅ[1]の生成時に削除されたピークの基本周波数Ｆ1と、評価用重み値Ｅ[2]の生成時に削除されたピークの基本周波数Ｆ2とが、対象音を構成する各音の基本周波数Ｆ0として出力される。

以上に説明したように、本実施形態においても確率密度関数Ｐのひとつのピークを削除した評価用重み値Ｅ[i]について単位処理を反復した結果に基づいて基本周波数Ｆ0が特定される。したがって、第１実施形態と同様に、例えばマルチエージェントモデルを採用した構成と比較して回路の規模の肥大化や処理の負荷の増大を抑制しながら、基本周波数Ｆ0を高精度に推定することが可能となる。

また、本実施形態においては、確率密度関数Ｐのひとつのピークの削除によって評価用重み値Ｅ[i]が生成されるから、ステップＳ15からステップＳ17までの処理は確率密度関数Ｐにおけるピークの総数に相当する回数（ｎ回）だけ反復されれば足りる。したがって、真ピークとして選択されるピークの総ての組合せについて図３のステップＳ15からステップＳ17までの処理が実行される第１実施形態と比較して、関数推定部２０による処理の負荷が軽減され得る。

次に、図７は、図５のステップＳ20で算定された類否指標値Ｒb[1]〜Ｒb[n]と閾値ＴＨとの関係を示す概念図である。同図の部分(a)は対象音を構成する音数が多い場合を示し、部分(b)は音数が少ない場合を示す。対象音を構成する音数が少ない場合、確率密度関数Ｐの真ピークの削除で生成された評価用重み値Ｅ[i]は単位処理の反復を経ることで確率密度関数Ｐから大きく変化する。したがって、図７の部分(b)に示すように、真ピークに対応する類否指標値Ｒb[i]（ここではＲb[3]）は、偽ピークに対応する類否指標値Ｒb[i]よりも充分に大きい数値Ｒmaxとなる。一方、対象音を構成する音数が多い場合、各々のピーク値が比較的に小さい多数の真ピークが確率密度関数Ｐに現れるから、確率密度関数Ｐのひとつの真ピークを削除することで生成されて単位処理を経た評価用重み値Ｅ[i]は、対象音の音数が少ない場合と比較すると確率密度関数Ｐとの相違が小さい。したがって、図７の部分(a)に示すように、真ピークに対応する多数の類否指標値Ｒb[i]は図７の部分(b)の場合と比較して小さい数値となる傾向がある。対象音の音数に関わらず係数Ｃは共通であるから、音数が多い場合にステップＳ201で算定される閾値ＴＨ1は、音数が少ない場合の閾値ＴＨ2よりも小さい。

いま、対象音に含まれる音数に拘わらず、図７の部分(b)の閾値ＴＨ2がステップＳ21にて固定的に適用されるとすれば、図７の部分(a)のように対象音の音数が多い場合に、閾値ＴＨ2を上回る類否指標値Ｒb[i]の個数が少なくなる。したがって、対象音に含まれる多数の音を高精度に検出できないという問題がある。一方、図７の部分(a)の閾値ＴＨ1がステップＳ21にて固定的に適用されるとすれば、図７の部分(b)のように対象音の音数が少ない場合に、偽ピークの類否指標値Ｒb[i]が閾値ＴＨ1を上回る可能性が高まるから、対象音に実際に含まれる音の基本周波数Ｆ0のみを検出する精度は低下する。以上のように、閾値ＴＨを固定値とした場合には、基本周波数Ｆ0の高精度な推定が制約される場合がある。

これに対し、本実施形態における閾値ＴＨは対象音の音数に応じて変化する。すなわち、対象音の音数が多い場合には閾値ＴＨを低下させることで多数の音の基本周波数Ｆ0が検出され、対象音の音数が少ない場合には閾値ＴＨを上昇させることで偽ピークの検出の可能性が低減される。つまり、閾値ＴＨを固定値とした場合と比較して基本周波数Ｆ0の推定の精度が向上する。もっとも、閾値ＴＨの固定による精度の低下が問題とならないのであれば、類否指標値Ｒb[i]に依存しない固定値を閾値ＴＨとした構成も採用される。

＜Ｃ：変形例＞
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。

（１）変形例１
第１実施形態においては、確率密度関数Ｐに現れる複数のピークのなかから任意の個数のピークを選択する総ての組合せ（仮説）について評価用重み値Ｅ[i]が生成される構成を例示したが、総ての組合せについて評価用重み値Ｅ[i]を生成する必要は必ずしもない。さらに、図３のステップＳ13においては確率密度関数Ｐの総てのピークが選択の対象とされる必要はない。例えば、確率密度関数Ｐの総てのピークのなかから所定の閾値を上回る複数のピークを予め抽出し、ここで抽出した複数のピークを評価用重み値Ｅ[i]の生成時の選択（削除）の対象としてもよい。また、第２実施形態においては、確率密度関数Ｐに現れる総てのピークについて評価用重み値Ｅ[i]が生成される構成を例示したが、確率密度関数Ｐに現れる総てのピークのなかから選択された複数のピークの各々について評価用重み値Ｅ[i]が生成される構成としてもよい。

（２）変形例２
第１実施形態と第２実施形態とを適宜に組み合わせてもよい。例えば、第１実施形態の手順で生成された評価用重み値Ｅ[1]〜Ｅ[n]（図４の部分(b)）から第２実施形態の類否指標値Ｒb[1]〜Ｒb[n]（評価用重み値Ｅ[1]〜Ｅ[n]の各々と確率密度関数Ｐとの類否を示す数値）を算定し、類否指標値Ｒb[i]が最大となる評価用重み値Ｅ[i]の生成時に削除された各ピークの周波数を基本周波数Ｆ0として特定する構成が採用される。また、第２実施形態の手順で生成された評価用重み値Ｅ[1]〜Ｅ[n]（図６の部分(b)）から第１実施形態の類否指標値Ｒa[1]〜Ｒa[n]（優勢度積算値Ｃsum[i]と振幅スペクトルＳとの類否を示す数値）を算定し、類否指標値Ｒa[i]が閾値ＴＨを下回る各評価用重み値Ｅ[i]の生成時に維持された各ピークの周波数を基本周波数Ｆ0として特定する構成も採用される。

（３）変形例３
以上の各形態においては確率密度関数Ｐに現れるひとつまたは複数のピークを削除する構成を例示したが、評価用重み値Ｅ[i]の生成時に確率密度関数Ｐのピーク値をゼロに変更する必要は必ずしもない。すなわち、確率密度関数Ｐにおけるひとつまたは複数のピークの抑制（削除を含む）によって評価用重み値Ｅ[i]が生成される構成であれば足りる。

（４）変形例４
第１実施形態においては、類否指標値Ｒa[i]が最小（優勢度積算値Ｃsum[i]と振幅スペクトルＳとが類似）となる評価用重み値Ｅ[i]の生成時に維持されたピークが真ピークとして特定される構成を例示した。評価用重み値Ｅ[i]の生成時に真ピークが維持されると優勢度積算値Ｃsum[i]と振幅スペクトルＳとが類似するということは、評価用重み値Ｅ[i]の生成時に真ピークが抑制された場合（偽ピークが維持された場合）に優勢度積算値Ｃsum[i]と振幅スペクトルＳとが非類似になることを意味している。したがって、類否指標値Ｒa[i]が最大（優勢度積算値Ｃsum[i]と振幅スペクトルＳとが非類似）となる評価用重み値Ｅ[i]の生成時に抑制されたひとつまたは複数のピークが真ピークとして特定される構成を採用しても、第１実施形態と同様の作用および効果が奏される。

第２実施形態についても同様である。すなわち、第２実施形態においては、類否指標値Ｒb[i]が非類似を示す評価用重み値Ｅ[i]の生成時に抑制されたピークが真ピークとして特定される構成を例示したが、図５のステップＳ15において確率密度関数Ｐの第ｉ番目のピーク以外のピークを抑制することで評価用重み値Ｅ[i]を生成し、類否指標値Ｒb[i]が閾値ＴＨを下回る（評価用重み値Ｅ[i]と確率密度関数Ｐとが類似）評価用重み値Ｅ[i]の生成時に維持されたピークが真ピークとして特定される構成を採用してもよい。

（５）変形例５
また、ＫＬ情報量は類否指標値Ｒa[i]やＲb[i]の例示に過ぎない。例えば、第１実施形態においては優勢度積算値Ｃsum[i]と優勢度分布Ｃ[F]とのＲＭＳ（Root Mean Square）誤差（平均自乗誤差）を類否指標値Ｒa[i]として算定してもよい。同様に、第２実施形態においてはＭ2回の単位処理を経た評価用重み値Ｅ[i]と確率密度関数ＰとのＲＭＳ誤差を類否指標値Ｒb[i]として算定してもよい。また、以上においては優勢度積算値Ｃsum[i]と優勢度分布Ｃ[F]との類似度が高いほど類否指標値Ｒa[i]がゼロに近づく場合を例示したが、両者の類似度が低いほどゼロに近づくような数値を類否指標値Ｒa[i]として算定してもよい。類否指標値Ｒb[i]についても同様である。

（６）変形例６
第２実施形態においては閾値ＴＨを上回る類否指標値Ｒb[i]に対応したピークの基本周波数が対象音の基本周波数Ｆ0として特定される構成を例示したが、類否指標値Ｒb[i]から基本周波数Ｆ0を特定する方法は適宜に変更される。例えば、数値が大きい順番に所定数の類否指標値Ｒb[i]を特定し、ここで特定した各類否指標値Ｒb[i]に対応したピークの基本周波数を対象音の基本周波数Ｆ0として特定してもよい。

第１実施形態に係る音高推定装置の機能的な構成を示すブロック図である。単位処理の内容を説明するための概念図である。関数推定部および音高特定部による処理の内容を示すフローチャートである。音響信号の基本周波数を特定する処理の内容を説明するための概念図である。第２実施形態に係る音高特定部による処理の内容を示すフローチャートである。音響信号の基本周波数を特定する処理の内容を説明するための概念図である。音高特定部による処理の内容を説明するための概念図である。

符号の説明

Ｄ……音高推定装置、１２……周波数分析部、１４……ＢＰＦ、２０……関数推定部、２２……ピーク選択部、２４……関数加工部、３０……記憶部、４０……音高特定部、４２……類否解析部、４４……ピーク特定部、Ｖ……音響信号、Ｓ……振幅スペクトル、Ｐ……基本周波数の確率密度関数、Ｍ[F]……音モデル、Ｃ[F]……優勢度分布、ω[F]……重み値、Ｃsum[i]……優勢度積算値、ＴＨ……閾値、Ｆ0……対象音を構成する音の基本周波数、Ｅ[i]（Ｅ[1]〜Ｅ[n]）……評価用重み値、Ｒa[i]（Ｒa[1]〜Ｒa[n]）……優勢度積算値Ｃsum[i]と振幅スペクトルＳとの類否を示す類否指標値、Ｒb[i]（Ｒb[1]〜Ｒb[n]）……評価用重み値Ｅ[i]と確率密度関数Ｐとの類否を示す類否指標値。

Claims

相異なる基本周波数の高調波構造を示す複数の音モデルの混合分布として入力音響信号をモデル化したときの各音モデルの重み値を更新する単位処理を反復する最尤推定アルゴリズムによって前記入力音響信号の基本周波数の確率密度関数を推定する関数推定手段と、
前記確率密度関数に現れる複数のピークから１個以上の第１ピークを選択する複数の組合せの各々について、前記複数のピークのうち前記第１ピーク以外の第２ピークを抑制した評価用重み値を生成する関数加工手段と、
前記関数加工手段が生成した前記各評価用重み値を更新対象の重み値として前記単位処理を反復した結果に基づいて、前記関数推定手段が推定した前記確率密度関数に現れる複数のピークのうち前記入力音響信号の基本周波数に対応したピークを特定する音高特定手段と
を具備する音高推定装置。
前記関数推定手段が実行する単位処理は、各基本周波数の音モデルが前記入力音響信号の高調波構造を支持する程度を示す優勢度分布に基づいて当該基本周波数の新たな重み値を算定する処理を含み、
前記音高特定手段は、
前記各評価用重み値に単位処理を実行したときの優勢度分布を各基本周波数について加算した優勢度積算値と前記入力音響信号の振幅スペクトルとの類否を示す類否指標値を各評価用重み値について算定する類否解析手段と、
前記類否解析手段の算定した各類否指標値が類似を示す評価用重み値の生成時に維持されたひとつまたは複数のピーク、または、前記類否解析手段の算定した各類否指標値が非類似を示す評価用重み値の生成時に抑制されたひとつまたは複数のピークを、前記入力音響信号の基本周波数に対応したピークとして特定するピーク特定手段と
を含む請求項１に記載の音高推定装置。
前記音高特定手段は、
前記関数推定手段による所定の回数の単位処理を経た各評価用重み値と前記記憶手段が記憶する前記確率密度関数との類否を示す類否指標値を各評価用重み値について算定する類否解析手段と、
前記類否解析手段の算定した各類否指標値が非類似を示す評価用重み値の生成時に抑制されたひとつまたは複数のピーク、または、前記類否解析手段の算定した各類否指標値が類似を示す評価用重み値の生成時に維持されたひとつまたは複数のピークを、前記入力音響信号の基本周波数に対応したピークとして特定するピーク特定手段と
を含む請求項１に記載の音高推定装置。
前記ピーク特定手段は、前記類否解析手段が算定した複数の類否指標値のうち非類似を示す最大値と所定の係数との乗算によって閾値を算定し、類否指標値が前記閾値を上回る１以上の評価用重み値の生成時に抑制されたひとつまたは複数のピークを特定する
請求項３に記載の音高推定装置。
前記関数加工手段は、前記確率密度関数における前記第２ピークの数値をゼロに変更することで評価用重み値を生成する
請求項１から請求項４の何れかに記載の音高推定装置。
相異なる基本周波数の高調波構造を示す複数の音モデルの混合分布として入力音響信号をモデル化したときの各音モデルの重み値を更新する単位処理を反復する最尤推定アルゴリズムによって前記入力音響信号の基本周波数の確率密度関数を推定する一方、
前記確率密度関数に現れる複数のピークから１個以上の第１ピークを選択する複数の組合せの各々について、前記複数のピークのうち前記第１ピーク以外の第２ピークを抑制した評価用重み値を生成し、
前記各評価用重み値を更新対象の重み値として前記単位処理を反復した結果に基づいて、前記推定した前記確率密度関数に現れる複数のピークのうち前記入力音響信号の基本周波数に対応したピークを特定する
音高推定方法。
相異なる基本周波数の高調波構造を示す複数の音モデルの混合分布として入力音響信号をモデル化したときの各音モデルの重み値を更新する単位処理を反復する最尤推定アルゴリズムによって前記入力音響信号の基本周波数の確率密度関数を推定する最尤推定処理と、
前記確率密度関数に現れる複数のピークから１個以上の第１ピークを選択する複数の組合せの各々について、前記複数のピークのうち前記第１ピーク以外の第２ピークを抑制した評価用重み値を生成する関数加工処理と、
前記関数加工処理で生成した前記各評価用重み値を更新対象の重み値として前記単位処理を反復した結果に基づいて、前記最尤推定処理で推定した前記確率密度関数に現れる複数のピークのうち前記入力音響信号の基本周波数に対応したピークを特定する音高特定処理と
をコンピュータに実行させるプログラム。