JP2011065041A

JP2011065041A - 基本周波数推定装置、採譜装置、及びプログラム

Info

Publication number: JP2011065041A
Application number: JP2009217170A
Authority: JP
Inventors: Noriaki Asemi; 典昭阿瀬見; Seiji Kurokawa; 誠司黒川
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2009-09-18
Filing date: 2009-09-18
Publication date: 2011-03-31

Abstract

【課題】音声基本周波数の推定精度を向上させること。
【解決手段】信頼度算出処理では、各周波数成分の自己相関値に減衰係数を乗じる（Ｓ３７５０）。これにより、音声基本周波数ｆ０の倍音成分が含まれる可能性の高い高周波帯における区間ｆ０候補の自己相関値が抑制される。その値が抑制された自己相関値に、各自己相関値に対応する区間ｆ０候補の振幅値を乗じることで、ｆ０候補信頼度が導出される（Ｓ３７６０）。このｆ０候補信頼度は、基本周波数に対応するものほど大きな値となる。そして、各周波数に対応するｆ０候補信頼度の中で、値が最も大きいものに対応する周波数を音声基本周波数ｆ０とする。
【選択図】図６

Description

本発明は、入力音声から音声基本周波数を推定する基本周波数推定装置、プログラム、及びその基本周波数推定装置にて推定された音声基本周波数に従って採譜する採譜装置に関する。

従来、時間進行に沿って連続する入力音声から、その入力音声の音声基本周波数を推定し、推定された音声基本周波数の軌跡（即ち、メロディ）に従って、予め用意された楽曲の中から入力音声に対応する曲を検索する装置が知られている（例えば、特許文献１参照）。

この種の装置では、音声基本周波数を推定するために、規定された時間窓毎に入力音声を周波数解析（ここでは、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ））することで導出された振幅スペクトルの自己相関値を用いることがなされている（以下、従来推定手法とする）。

この従来推定手法にて用いられる自己相関値は、１つの時間窓から導出された振幅スペクトル（以下、基準スペクトル）の各周波数成分における振幅値と、その基準スペクトルにおける各周波数成分から規定周波数幅だけ増加させた周波数成分における振幅値との積和である。このため、規定周波数幅だけ変位させた際に、基本周波数成分、またはその基本周波数成分の倍音成分が一致すると、自己相関値は大きな値となる。

つまり、自己相関値は、基準スペクトル同士を、周波数軸に沿って規定周波数幅ずつ変位させた際の相関の強さであり、基本周波数成分の確からしさを表すものである。
なお、従来推定手法では、変位幅そのものを周波数として捉え、自己相関値が最大となるポジションの周波数が音声基本周波数として推定されることが一般的である。

特開２００２−１５７２５５号公報

しかしながら、自己相関値は、基本周波数に対応する値と、倍音成分に対応する値とが、近似することがある。
このような場合、従来推定手法では、基本周波数成分の倍音成分を音声基本周波数として推定してしまうという問題があった。つまり、従来推定手法では、入力音声の音声基本周波数の推定精度が低いという問題があった。

そこで、本発明は、音声基本周波数の推定精度を向上可能な基本周波数推定装置、プログラム、及びその基本周波数推定装置を用いた採譜装置を提供することを目的とする。

上記目的を達成するためになされた本発明は、時間の進行に沿って連続して入力された入力音声から、予め規定された規定期間毎の入力音声（以下、単位入力音声と称す）毎に音声基本周波数を推定する基本周波数推定装置に関するものである。

本発明の基本周波数推定装置では、相関値導出手段が、単位入力音声の振幅スペクトルを導出すると共に、その導出された振幅スペクトルに基づき、規定された周波数である規定周波数毎に特定相関値を導出し、修正相関値導出手段が、その導出された特定相関値それぞれに、対応する周波数が高いほど値が小さな減衰係数を乗じた修正相関値を導出する。ただし、ここでいう特定相関値とは、その規定周波数が音声基本周波数であることの尤度を表し、かつその規定周波数及び該規定周波数の倍音成分のスペクトル振幅値が大きいほど値が大きいものである。

さらに、本発明の基本周波数推定装置では、信頼度導出手段が、修正相関値導出手段で導出された修正相関値それぞれに、各修正相関値に対応する周波数のスペクトル振幅値を乗じた基音信頼度を導出し、基本周波数推定手段が、その導出された基音信頼度の中で、値が最大である基音信頼度に対応する周波数を、音声基本周波数として推定する。

つまり、本発明の基本周波数推定装置では、特定相関値それぞれに減衰係数を乗じることで、倍音成分が含まれる可能性の高い高周波帯に対応する特定相関値の値が抑制された修正相関値が導出される。よって、その修正相関値に、各修正相関値に対応する周波数のスペクトル振幅値を乗じた基音信頼度は、基本周波数の周波数に対応するものほど、大きな値となる可能性が高い。

このため、本発明の基本周波数推定装置によれば、基本周波数成分の倍音成分、即ち、基本周波数成分以外の周波数を音声基本周波数として誤推定することを低減できる。換言すれば、本発明の基本周波数推定装置によれば、音声基本周波数の推定精度を向上させることができる。

本発明の基本周波数推定装置における相関値導出手段では、請求項２に記載のように、自己相関値導出手段が、規定周波数毎に自己相関値を導出し、相関ピーク検出手段が、その導出された自己相関値それぞれを対応する規定周波数毎に周波数軸に沿って配置してなる自己相関値の軌跡から、その軌跡における極大値を表す相関ピークを検出する。これと共に、特定ピーク抽出手段が、相関ピーク検出手段にて検出された相関ピークの中から、特定周波数帯に含まれる規定周波数に対応する相関ピーク（以下、特定相関ピークとする）を抽出し、相関値減算手段が、その抽出された特定相関ピークの自己相関値を、その特定相関ピークに対応する周波数を整数倍した周波数に対応する相関ピークの自己相関値から減算する。そして、相関値導出手段は、相関値減算手段での減算結果それぞれを、特定相関値とする。ただし、ここでいう自己相関値とは、同一の単位入力音声から導出された振幅スペクトルを周波数軸方向に変位した際の振幅スペクトル同士の相関が強いほど値が大きな相関値である。また、ここでいう特定周波数とは、予め設定された下限周波数から上限周波数までの周波数帯である。

このように構成された基本周波数推定装置によれば、基本周波数成分の倍音成分に対応する特定相関値について、その値を低減することができる。この結果、本発明の基本周波数推定装置によれば、倍音成分が音声基本周波数として誤推定されることをより低減できる。

ところで、自己相関値の平均値よりも値が小さな自己相関値に対応する周波数は、単位入力音声に含まれていたノイズの周波数成分や、入力音声から振幅スペクトルを導出する際に包含されることになるノイズ（例えば、折り返し雑音）である可能性が高い。

このため、本発明の基本周波数推定装置における自己相関値導出手段は、請求項３に記載のように、自己相関値の平均値である相関平均値を導出すると共に、その相関平均値よりも値が小さい自己相関値を０とするように構成されていることが望ましい。

つまり、このように構成された基本周波数推定装置によれば、音声基本周波数である可能性が明らかに低い周波数を、音声基本周波数の候補から除外することができる。よって、このように構成された本発明の基本周波数推定装置によれば、ノイズなどの周波数成分が音声基本周波数として誤推定される可能性を低減できる。

本発明は、入力音声から採譜する採譜装置としてなされたものでも良い。
ただし、本発明の採譜装置は、請求項４に記載のように、請求項１ないし請求項３のいずれか一項に記載の基本周波数推定装置と、入力音声から、入力音声において同一音高が継続しているとみなせる期間を表す発音区間それぞれを特定する発音区間特定手段と、その特定された発音区間を音長とし、基本周波数推定手段で推定された基本周波数を音高として採譜する採譜手段とを備えている必要がある。

このように構成された採譜装置によれば、音声基本周波数の検出精度が向上しているため、入力音声の音高に近い音高にて採譜できる。
本発明は、入力音声から、単位入力音声毎に、単位入力音声の音声基本周波数を推定するために、コンピュータに実行させるプログラムとしてなされたものでも良い。

ただし、本発明のプログラムは、請求項５に記載のように、単位入力音声の振幅スペクトルに基づき、規定された周波数である規定周波数毎に、特定相関値を導出する相関値導出手順と、その導出された特定相関値それぞれに、対応する周波数が高いほど値が小さな減衰係数を乗じた修正相関値を導出する修正相関値導出手順と、その導出された修正相関値それぞれに、各修正相関値に対応する周波数のスペクトル振幅値を乗じた基音信頼度を導出する信頼度導出手順と、その導出された基音信頼度の中で、値が最大である基音信頼度に対応する周波数を、音声基本周波数として推定する基本周波数推定手順とをコンピュータに実行させる必要がある。

本発明がこのようになされたプログラムであれば、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスクやフラッシュメモリ等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項１に記載された基本周波数推定装置として機能させることができる。

楽曲検索システムの概略構成を示すブロック図である。楽曲検索処理の処理手順を示したフローチャートである。音高推定処理の処理手順を示したフローチャートである。相関ピークの検出方法を模式的に示した説明図である。音声基本周波数ｆ０の決定方法を模式的に示した説明図である。信頼度算出処理の処理手順を示したフローチャートである。ｆ０候補信頼度の導出過程を例示した説明図である。ｆ０補正処理の処理手順を示したフローチャートである。ｆ０補正処理の動作例を説明するための説明図である。開始・終了タイミング推定処理の処理手順を示したフローチャートである。開始・終了タイミングの推定過程を例示した説明図である。開始・終了タイミングの推定過程を例示した説明図である。採譜処理の処理手順を示したフローチャートである。採譜処理おいて、音符音高の決定過程を例示した説明図である。採譜結果照合処理の処理手順を示したフローチャートである。

以下、本発明の実施形態を図面と共に説明する。
まず、図１は、本発明が適用された音声処理装置を備えた楽曲検索システムの概略構成を示すブロック図である。
〈楽曲検索システムについて〉
楽曲検索システム１は、利用者が発声することで入力された入力音声から、その音声を入力する際に利用者が意図したと推定される楽曲（以下、意図予想曲と称す）を検索するものである。

このため、図１に示すように、楽曲検索システム１は、楽曲毎に予め用意された楽曲データを格納するサーバ４０と、入力音声を採譜し、その採譜した結果を楽曲データに照合することで意図予想曲を検索する音声処理装置２０とを備えている。なお、音声処理装置２０は、ネットワーク（例えば、専用回線やＷＡＮ）を介してサーバ４０に接続されている。

このうち、サーバ４０は、楽曲データを格納する記憶装置４１と、ＲＯＭ，ＲＡＭ，ＣＰＵを少なくとも有した周知のマイクロコンピュータ４２とを備えた情報処理装置を中心に構成された周知のサービス用サーバ装置である。
〈楽曲データについて〉
次に、記憶装置４１に格納される楽曲データについて説明する。

この楽曲データは、当該楽曲を識別するためのデータである楽曲情報と、当該楽曲の演奏開始から演奏終了までに要する時間を示す時間情報と、当該楽曲の旋律に関するデータであるガイドメロディとを有している。

そして、楽曲情報には、楽曲を特定するための曲番号データと、その楽曲の曲名を示す曲名データとが少なくとも含まれている。
また、ガイドメロディは、楽曲の主旋律（以下、基準旋律と称す）を形成する各構成音について、それぞれの音高及び音価が表された周知のデータである。具体的に、本実施形態における構成音の音長は、楽音出力開始時間及び楽音出力終了時間によって表されている。ただし、ここで言う楽音出力開始時間とは、その構成音の出力を開始するまでの当該楽曲の演奏開始からの時間であり、楽音出力終了時間とは、その構成音の出力を終了するまでの当該楽曲の演奏開始からの時間である。つまり、楽音出力開始時間と楽音出力終了時間との間の時間長が、当該構成音の音長となる。

以下、ガイドメロディにおいて、各構成音の音高及び音価を表す情報を、基準音符データと称す。ただし、この基準音符データは、各構成音の音高及び音価が、その構成音の基準旋律における時間進行上の順番と対応付けられたものである。
〈音声処理装置について〉
次に、音声処理装置２０について説明する。

ここで図１へと戻り、音声処理装置２０は、通信部２１と、表示部２２と、操作受付部２３と、マイクロホン２４と、音声入力部２５と、音声出力部２６と、スピーカ２７と、記憶部２８と、制御部３０とを備えている。

このうち、通信部２１は、音声処理装置２０をネットワーク（例えば、専用回線や、ＷＡＮ）に接続し、その接続されたネットワークを介して外部（即ち、サーバ４０）と通信を行うための通信インタフェースである。

そして、表示部２２は、例えば、液晶ディスプレイ等から構成された周知の表示装置である。また、操作受付部２３は、例えば、キーボードやポインティングデバイス（例えば、マウス）等の周知の入力装置からなる。

マイクロホン２４は、音声を入力するための周知の装置である。そして、音声入力部２５は、マイクロホン２４を介して入力された音声（アナログ信号）をサンプリングし、そのサンプリング値（標本値）を制御部３０に入力するＡＤ変換器として構成されている。なお、以下では、音声入力部２５にてサンプリング値へと変換された音声を音声データと称す。

さらに、音声出力部２６は、制御部３０からの指令に基づく制御信号を、スピーカ２７に出力するように構成されている。そして、スピーカ２７は、音声出力部２６からの制御信号を音に変換して放音するように構成されている。

また、記憶部２８は、電源が切断されても記憶内容を保持すると共に、記憶内容を読み書き可能に構成された記憶装置（例えば、ハードディスクドライブ）であり、プログラムや通信部２１を介してサーバ４０から取得した楽曲データ等が格納される。

次に、制御部３０は、ＲＯＭ３１と、ＲＡＭ３２と、ＣＰＵ３３とを少なくとも有した周知のマイクロコンピュータを中心に構成されている。
このうち、ＲＯＭ３１は、電源が切断されても記憶内容を保持する必要のあるプログラムやデータを格納するものである。また、ＲＡＭ３２は、プログラムやデータを一時的に格納するものであり、記憶部２８からの処理プログラムが転送されて格納されるものである。

そして、ＣＰＵ３３は、ＲＯＭ３１やＲＡＭ３２に記憶された処理プログラムに従って各処理（各種演算）を実行して、音声処理装置２０を構成する各部２１，２２，２３，２５（２４），２６（２７），２８に対する制御を実行する。

なお、本実施形態では、処理プログラムとして、利用者がマイクロホン２４を介して入力した入力音声に基づいて、その入力音声を採譜した音声音符データを生成し、その生成した音声音符データを基準音符データそれぞれに照合した結果に従って意図予想曲を検索する楽曲検索処理を制御部３０（より正確には、ＣＰＵ３３）が実行するためのものが用意されている。
〈楽曲検索処理について〉
次に、制御部３０が実行する楽曲検索処理について説明する。

ここで、図２は、楽曲検索処理の処理手順を示したフローチャートである。
この楽曲検索処理は、マイクロホン２４を介して入力された入力音声に基づく音声データが、少なくとも１つ記憶部２８に格納された後、操作受付部２３介して起動指令を受け付けると起動される。ここでの入力音声は、時間の進行に沿って、一定時間以上連続（継続）したものである。

そして、図２に示すように、楽曲検索処理は、起動されると、まず、Ｓ１１０にて、記憶部２８に記憶された音声データの中から、１つの音声データを取得する。
続く、Ｓ１２０では、Ｓ１１０にて取得した音声データに対して、それぞれ周知のダウンサンプリング、直流成分の除去、ノイズ除去処理、コンプレッサ処理、及びノーマライズを事前処理として実行する。以下、Ｓ１２０にて事前処理が完了した音声データを処理済音声データと称す。

そして、Ｓ１３０では、処理済音声データにおいて入力音声の時間進行に沿って規定された単位区間毎に、その単位区間における入力音声の音高（音声基本周波数ｆ０）を推定する音高推定処理を実行する。

さらに、Ｓ１５０では、入力音声において、規定の音圧以上で発声を継続した期間である発音期間それぞれの開始タイミング及び終了タイミングを推定する開始・終了タイミング推定処理を実行する。以下、開始・終了タイミング推定処理にて推定される開始タイミング、終了タイミングを、それぞれ、発音開始タイミング、発音終了タイミングと称す。

続く、Ｓ１９０では、Ｓ１５０にて推定された発音開始タイミング及び発音終了タイミングに基づいて、１つの音符とみなせる期間（以下、音符期間と称す）を推定し、その推定した音符期間における音高（以下、音符音高と称す）を、Ｓ１３０にて推定された単位区間毎の音声基本周波数ｆ０に基づいて特定する採譜処理を実行する。この採譜処理により、各音符期間の期間長（即ち、音長、または、この音長を量子化した音価）と、音符音高とが対応付けられたデータ、即ち、音声音符データとして、入力音声を音符化したデータが生成される。

そして、Ｓ２１０では、Ｓ１９０で生成された音声音符データを、基準音符データに照合し、その照合した結果に基づいて意図予想曲を特定すると共に、その特定した意図予想曲を音声処理装置２０の利用者に報知する採譜結果照合処理を実行する。

その後、本楽曲検索処理を終了する。
〈音高推定処理について〉
次に、楽曲検索処理のＳ１３０にて起動される音高推定処理について説明する。

ここで、図３は、音高推定処理の処理手順を示したフローチャートである。
この音高推定処理は、図３に示すように、起動されると、Ｓ３１０にて、処理済音声データを周波数解析する。この周波数解析として、本実施形態では、処理済音声データにおける予め規定されたサンプリング数の標本値をＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）する。なお、サンプリング数分の標本値は、処理済音声データの開始から終了までの間を、時間進行に沿った一部を重複させながら繰り返し取得される。これにより、入力音声の振幅スペクトル（即ち、周波数成分の分布）が、サンプリング数に対応する単位区間毎に導出される。

続く、Ｓ３３０では、Ｓ３１０にて導出した振幅スペクトルに基づいて、振幅スペクトルの周波数成分が基本周波数成分であることの確からしさを表す自己相関値を導出する。
具体的には、１つの振幅スペクトルの各周波数成分における振幅値と、その振幅スペクトルにおける各周波数成分から規定周波数幅だけ増加させた周波数成分における振幅値との積和を、自己相関値として導出している。このため、規定周波数幅だけ変位させる毎に導出される自己相関値は、規定周波数幅だけ変位させた際に、基本周波数成分、またはその基本周波数の倍音成分が一致すると大きな値となる。

なお、Ｓ３３０では、振幅スペクトル（即ち、単位区間）毎に、その振幅スペクトルから導出された全ての自己相関値の平均値（以下、自己相関平均値と称す）も導出する。
さらに、Ｓ３５０では、先のＳ３３０にて導出された自己相関値を平滑化微分することで、各単位区間における音声基本周波数ｆ０の候補となる周波数を表す区間ｆ０候補を検出する。

その区間ｆ０候補は、図４に示すように、自己相関値の軌跡における極大値（以下、相関ピークとする）に対応する周波数である。ここでの自己相関値の軌跡とは、規定周波数毎の自己相関値を周波数軸に沿って配置してなるものである。

ただし、本実施形態では、自己相関値が自己相関平均値以上である相関ピークのみを、区間ｆ０候補としている（すなわち、図４に示す例では、第４相関ピークが自己相関平均値未満であるため、第４相関ピークに対応する周波数は、区間ｆ０候補として検出されない）。さらに、本実施形態におけるＳ３５０では、区間ｆ０候補として検出されない周波数成分における自己相関値は、その値を０としている。

このＳ３５０は、処理済音声データに規定された全単位区間について終了するまで繰り返し実行される。
続くＳ３７０では、Ｓ３５０にて検出された区間ｆ０候補それぞれの音声基本周波数ｆ０としての尤度を表すｆ０候補信頼度（本発明の基音信頼度に相当）を算出する信頼度算出処理を実行する。この信頼度算出処理にて導出されるｆ０候補信頼度は、尤度が高いほど大きな値となる。

なお、この信頼度算出処理は、単位区間毎に実行される。このため、一回の信頼度算出処理により、１つの振幅スペクトルから導出された区間ｆ０候補それぞれについて、ｆ０候補信頼度が算出される。

そして、Ｓ３９０では、Ｓ３７０にて導出された単位区間毎のｆ０候補信頼度に基づいて、その単位区間における音声基本周波数ｆ０を決定する。その音声基本周波数ｆ０として決定される区間ｆ０候補は、図５に示すように、Ｓ３７０にて導出された全てのｆ０候補信頼度の中で、値が最も高いｆ０候補信頼度に対応するものである（図５に示す例では、第１区間ｆ０候補が、音声基本周波数ｆ０として決定される）。

ただし、本実施形態のＳ３９０では、予め規定された信頼度閾値未満であるｆ０候補信頼度は、その値を０としている（図５に示す例では、第３区間ｆ０候補のｆ０候補信頼度が信頼度閾値未満であるため、そのｆ０候補信頼度の値が０となる）。そして、単位区間における全てのｆ０候補信頼度が信頼度閾値未満であれば、その単位区間における音声基本周波数ｆ０を０［Ｈｚ］に決定する。つまり、ｆ０候補信頼度が低い場合、そのｆ０候補信頼度に対応する区間ｆ０候補が、音声基本周波数ｆ０として決定されないようにしている。

さらに、Ｓ４１０では、処理済音声データに規定された全ての単位区間について、Ｓ３７０及びＳ３９０のステップを実行したか否かを判定する。
そのＳ４１０での判定の結果、全ての単位区間について、Ｓ３７０及びＳ３９０を実行していなければ、Ｓ３７０へと戻る。そのようにして移行したＳ３７０では、前回のＳ３７０にてｆ０候補信頼度を算出した単位区間から、処理済音声データにおける時間進行に沿って次の単位区間を対象としてｆ０候補信頼度を算出し、その後、Ｓ３９０へと進む。

そして、全ての単位区間について、Ｓ３７０及びＳ３９０の実行が終了すると、Ｓ４３０へと進む。
そのＳ４３０では、Ｓ３９０にて決定された単位区間毎の音声基本周波数ｆ０を補正するｆ０補正処理を実行する。このｆ０補正処理は、単位区間毎の音声基本周波数ｆ０を、入力音声における時間進行に沿って配置してなる周波数推移分布において、音声基本周波数ｆ０が不連続とみなせる不連続領域に対して実行される。

続く、Ｓ４５０では、Ｓ４３０にて補正が実行された後の各単位区間における音声基本周波数ｆ０を、半音単位で量子化する。これにより、音声基本周波数ｆ０が、半音毎に吸着されることになる。なお、この量子化は、周知の処理であるため、ここでの詳しい説明は省略する。

その後、本音高推定処理を終了して、楽曲検索処理のＳ１５０へと進む。
つまり、音声処理装置２０は、音高推定処理のＳ３１０からＳ４１０までのステップを実行することによって、本発明の基本周波数推定装置として機能する。
〈信頼度算出処理について〉
次に、音高推定処理のＳ３７０にて起動される信頼度算出処理について説明する。

ここで、図６は、信頼度算出処理の処理手順を示したフローチャートである。
この信頼度算出処理は、図６に示すように、音高推定処理のＳ３７０にて起動されると、Ｓ３７１０では、１つの単位区間における全ての区間ｆ０候補の中から、特定周波数帯に含まれる区間ｆ０候補（以下、特定ｆ０候補と称す）の自己相関値（本発明の特定相関ピークに相当）を抽出する。ただし、本実施形態における特定ｆ０候補は、特定周波数帯に含まれる区間ｆ０候補の中で、最低周波数に対応するものである。なお、特定周波数帯とは、自己相関値の導出によって自動的に規定される下限周波数から上限周波数までの周波数帯である。

続く、Ｓ３７２０では、Ｓ３７１０にて抽出した自己相関値に対応する特定ｆ０候補の倍音範囲に含まれる区間ｆ０候補（以下、倍音ｆ０候補と称す）の自己相関値を１つ取得する。ただし、倍音範囲とは、Ｓ３７１０にて取得された自己相関値に対応する特定ｆ０候補の倍音成分を中心として、その倍音成分を挟むように規定された周波数範囲である。

そして、Ｓ３７３０では、Ｓ３７２０にて取得した倍音ｆ０候補の自己相関値から、Ｓ３７１０にて抽出された特定ｆ０候補の自己相関値を減算する。そして、その減算結果を、Ｓ３７２０にて取得した倍音ｆ０候補の自己相関値として新規に規定（即ち、変更）する。

続く、Ｓ３７４０では、１つの単位区間における全ての倍音ｆ０候補の自己相関値に対して、Ｓ３７３０のステップを実行したか否かを判定する。その判定の結果、全ての倍音ｆ０候補の自己相関値に対して、Ｓ３７３０のステップを実行していなければ、Ｓ３７２０へと戻る。

そのようにして移行したＳ３７２０では、前回Ｓ３７２０にて取得した自己相関値に対応する区間ｆ０候補の次に高い倍音範囲に含まれる区間ｆ０候補を倍音ｆ０候補とし、その倍音ｆ０候補の自己相関値を取得して、Ｓ３７３０へと進む。

つまり、このＳ３７２０からＳ３７４０のステップを繰り返すことにより、図７（Ａ）に示すように、倍音ｆ０候補の自己相関値は、先の音高推定処理におけるＳ３３０にて導出された値から、特定ｆ０候補の自己相関値が減算された値に変更される。

さらに、Ｓ３７５０では、自己相関値に減衰係数を乗算する。この減衰係数は、図７（Ｂ）に示すように、乗算される自己相関値に対応する周波数が低いほど値が大きく、周波数が高いほど値が小さなものである。

ただし、減衰係数が乗算される自己相関値は、特定ｆ０候補の自己相関値と、Ｓ３７２０からＳ３７４０のステップの繰り返しにより変更された全ての倍音ｆ０候補の自己相関値とを含む、単位区間における全ての区間ｆ０候補の自己相関値である。

続く、Ｓ３７６０では、Ｓ３７５０にて減衰係数が乗算された後の自己相関値に、各自己相関値に対応する区間ｆ０候補のスペクトル振幅値を乗算する。そして、乗算した結果を、各区間ｆ０候補についてのｆ０候補信頼度として導出する。

なお、区間ｆ０候補以外の周波数成分（以下、非候補周波数と称す）に対応する自己相関値は、先の音高推定処理におけるＳ３５０にて、その値が０とされる。このため、非候補周波数の自己相関値について、Ｓ３７５０での減衰係数の乗算や、Ｓ３７６０でのｆ０候補信頼度の演算を実行しても、その演算結果は０になる。

したがって、Ｓ３７５０での減衰係数の乗算、及びＳ３７６０でのｆ０候補信頼度の演算により、単位区間における区間ｆ０候補についてのｆ０候補信頼度のみが算出される。
その後、本信頼度算出処理を終了して、音高推定処理のＳ３９０へと戻る。

つまり、本実施形態の信頼度算出処理では、各周波数成分の自己相関値に減衰係数を乗じることで、音声基本周波数ｆ０の倍音成分が含まれる可能性の高い高周波帯における区間ｆ０候補の自己相関値が抑制される。よって、その値が抑制された自己相関値に、各自己相関値に対応する区間ｆ０候補の振幅値を乗じたｆ０候補信頼度は、基本周波数の周波数成分に対応するものほど大きな値となる。
〈ｆ０補正処理について〉
次に、音高推定処理のＳ４３０にて起動されるｆ０補正処理について説明する。

ここで、図８は、ｆ０補正処理の処理手順を示したフローチャートである。
このｆ０補正処理は、図８に示すように、起動されると、まず、Ｓ４３１０では、先の音高推定処理のＳ３１０にて周波数解析を実行した全ての単位区間の中から、１つの単位区間を選択する。このＳ４３１０では、単位区間は、Ｓ４３１０に移行する毎に、処理済音声データの開始から、処理済音声データにおける時間進行に沿って１つずつ選択される。

続く、Ｓ４３２０では、先のＳ４３１０にて選択された単位区間における音声基本周波数ｆ０が０［Ｈｚ］であるか否かを判定する。
その判定の結果、音声基本周波数ｆ０が０［Ｈｚ］であれば、Ｓ４３３０へと進む。そのＳ４３３０では、区間カウンタを１つインクリメントして、Ｓ４３１０へと戻る。

つまり、Ｓ４３１０からＳ４３３０のステップが実行されることで、音声基本周波数ｆ０が０［Ｈｚ］である単位区間（以下、非正規周波数区間と称す）が、処理済音声データの時間進行に沿って連続する数が計測される。

一方、Ｓ４３２０での判定の結果、音声基本周波数が０［Ｈｚ］以外の周波数であれば、Ｓ４３４０へと進む。
そのＳ４３４０では、今回Ｓ４３４０に移行するまでの間、第１区間ｆ０としていた音声基本周波数ｆ０を第２区間ｆ０とし、今回Ｓ４３４０へと移行する契機となり、かつＳ４３１０で選択された単位区間における音声基本周波数ｆ０を第１区間ｆ０として設定する。つまり、このＳ４３４０へと移行すると、処理済音声データの時間進行に沿って取得済みである音声基本周波数ｆ０の中で、音声開始に近い単位区間における音声基本周波数ｆ０を第２区間ｆ０とし、音声終了に近い単位区間における音声基本周波数ｆ０を第１区間ｆ０としている。

続く、Ｓ４３５０では、区間カウンタの値であるカウント値が、予め規定された第１規定値以上であるか否かを判定する。
そして、Ｓ４３５０での判定の結果、カウント値が第１規定値以上であれば、Ｓ４３６０へと進む。すなわち、処理済音声データの時間進行に沿って連続する非正規周波数区間の数が、第１規定値以上であれば、その連続する非正規周波数区間を、周波数推移分布における不連続領域として検出する。以下、第１規定値以上連続する非正規周波数区間を、長期不連続領域と称す。

そして、Ｓ４３６０では、処理済音声データの時間進行において、第２区間ｆ０に対応する単位区間の直後の単位区間から、直近のＳ４３１０にて選択された単位区間の直前の単位区間までの基本周波数ｆ０が、第２区間ｆ０となるように補正する。その後、Ｓ４３９０へと進む。

つまり、Ｓ４３６０では、長期不連続領域を形成する非正規周波数区間における音声基本周波数ｆ０を、０［Ｈｚ］から第２区間ｆ０へと変更する。
ところで、Ｓ４３５０での判定の結果、カウント値が第１規定値未満であれば、Ｓ４３７０へと進む。そのＳ４３７０では、カウント値が１以上であるか否かを判定する。その判定の結果、カウント値が１以上であれば、Ｓ４３８０へと進む。つまり、入力音声の時間進行に沿って連続する非正規周波数区間の数が、１つ以上であり、かつ第１規定値未満であれば、その連続する非正規周波数区間を、周波数推移分布における不連続領域として検出する。以下、１つ以上かつ第１規定値未満連続する非正規周波数区間を、短期不連続領域と称す。

そして、Ｓ４３８０では、短期不連続領域に対応する単位区間の音声基本周波数ｆ０を、第２区間ｆ０から、一定の変動幅で変動しながら順に第１区間ｆ０へと直線的に到達するように補正する。その後、Ｓ４３９０へと進む。

つまり、Ｓ４３８０では、短期不連続領域を形成する非正規周波数区間における音声基本周波数ｆ０を、０［Ｈｚ］から、第２区間ｆ０と第１区間ｆ０とを結ぶ直線上の周波数へと変更する。

続くＳ４３９０では、区間カウンタを初期化（ここでは、値を０にする）する。
その後、Ｓ４４００にて、処理済音声データに規定された全ての単位区間を、Ｓ４３１０にて選択済みであるか否かを判定する。その判定の結果、未選択の単位区間が存在すれば、Ｓ４３１０へと戻る。

ところで、Ｓ４３７０での判定の結果、カウント値が１未満であれば、Ｓ４４１０へと進む。すなわち、周波数推移分布において、第２区間ｆ０に対応する単位区間と第１区間ｆ０に対応する単位区間との間に、非正規周波数区間が存在しなければ、Ｓ４４１０へと進む。

そのＳ４４１０では、音飛フラグが設定済みであるか否かを判定する。なお、音飛フラグとは、設定済みであれば、周波数推移分布における不連続領域の１つである倍音誤検出領域の開始時点が検出されたことを表す。

つまり、Ｓ４４１０以降のステップでは、周波数推移分布において、処理済音声データの時間進行に沿って隣接する単位区間における音声基本周波数ｆ０同士の比率が、予め設定された比率の範囲を表す特別範囲を超えることで、周波数推移が不連続となる不連続領域（即ち、倍音誤検出領域）を検出する。これと共に、Ｓ４４１０以降のステップでは、倍音誤検出領域を形成する単位区間に対応する音声基本周波数ｆ０を補正する。

そして、Ｓ４４１０での判定の結果、音飛フラグが未設定であれば、Ｓ４４２０へと進む。そのＳ４４２０では、第２区間ｆ０を第１区間ｆ０にて除した結果（以下、第１周波数比率と称す）が、特別範囲を超えているか否かを判定する。

そして、Ｓ４４２０での判定の結果、第１周波数比率が特別範囲を超えていれば、Ｓ４４３０へと進む。そのＳ４４３０では、音飛フラグを設定する。つまり、処理済音声データの時間進行に沿って隣接する単位区間における音声基本周波数ｆ０同士の比率が、特別範囲を超えると、それら隣接する単位区間のうち、時間進行に沿った後の単位区間を、倍音誤検出領域の開始時点とする。

続く、Ｓ４４４０では、第２区間ｆ０を第３区間ｆ０とする。その後、Ｓ４４００へと進む。
なお、Ｓ４４２０での判定の結果、第１周波数比率が特別範囲以内であれば、周波数推移分布において、倍音誤検出領域が開始されていないものと判定して、Ｓ４４００へと進む。そのＳ４４００では、全ての単位区間の中に、未選択の単位区間が存在すれば（Ｓ４４００：ＮＯ）、Ｓ４３１０へと戻る。

ところで、Ｓ４４１０での判定の結果、音飛フラグが設定済みであれば、Ｓ４４５０へと進む。そのＳ４４５０では、周波数推移分布において、倍音誤検出領域が継続中であるものとして、音飛カウンタを１つインクリメントする。

その後、Ｓ４４６０では、第３区間ｆ０を第１区間ｆ０にて除した結果（以下、第２周波数比率と称す）が、特別範囲を超えているか否かを判定する。その判定の結果、第２周波数比率が特別範囲を超えていれば、Ｓ４４７０へと進む。

そして、Ｓ４４７０では、音飛カウンタの値である音飛値が、予め規定された第２規定値以上であるか否かを判定する。その判定の結果、音飛値が第２規定値未満であれば、周波数推移分布において、倍音誤検出領域が継続中であるものとして、Ｓ４４００へと進む。

ところで、Ｓ４４６０での判定の結果、第２周波数比率が特別範囲以内であれば、周波数推移分布において、倍音誤検出領域の継続が終了したものとして、Ｓ４４８０へと進む。つまり、倍音誤検出領域は、周波数推移分布において、時間進行に沿って隣接する単位区間における音声基本周波数ｆ０が、特別範囲を超えて変動（以下、特別変動と称す）した後、その特別変動後に時間進行に沿って第２規定数未満隣接する単位区間における音声基本周波数ｆ０が、第３区間ｆ０を基準とした特別範囲以内へと戻った領域である。

そのＳ４４８０では、倍音誤検出領域に対応する単位区間の音声基本周波数ｆ０を、第３区間ｆ０から、一定の変動幅で変動しながら順に第１区間ｆ０へと直線的に到達するように補正する。その後、Ｓ４４９０へと進む。

なお、Ｓ４４７０での判定の結果、音飛値が第２規定値以上であれば、対応する特別変動以降に隣接する単位区間からなる領域は、不連続領域ではなく、入力音声における音声基本周波数ｆ０の推移そのものを表しているものとして、Ｓ４４９０へと進む。そのＳ４４９０では、音飛カウンタを初期化すると共に、音飛フラグを解除して、Ｓ４４００へと進む。

そのＳ４４００では、全ての単位区間の中に、未選択の単位区間が存在すれば（Ｓ４４０：ＮＯ）、Ｓ４３１０へと戻る。なお、Ｓ４４００に移行した際に、未選択の単位区間が存在しなければ、ｆ０補正処理を終了して、音高推定処理のＳ４５０へと進む。

次に、本実施形態におけるｆ０補正処理を実行した場合の動作例について説明する。
ここで、図９（Ａ）は、ｆ０補正処理を実行する前の周波数推移分布を示した図面であり、図９（Ｂ）は、ｆ０補正処理を実行した後の周波数推移分布を示した図面である。

図９（Ａ）に示すような周波数推移分布を示す各単位区間における音声基本周波数ｆ０に対して、ｆ０補正処理が実行されると、まず、周波数推移分布における入力音声の時間進行に沿った単位区間が選択される（Ｓ４３１０）。その選択された単位区間における音声基本周波数ｆ０は、単位区間ｔ１における音声基本周波数ｆ０＿ｔ１までは、全て０［Ｈｚ］以外の周波数であり、かつ時間進行に沿って連続する単位区間における音声基本周波数ｆ０同士の比率が、特別範囲以内である。このため、周波数推移分布における開始時点から単位区間ｔ１までは、周波数補正が行われること無く、音高推移処理のＳ３９０にて決定された音声基本周波数ｆ０が維持される。

ところが、単位区間ｔ１における音声基本周波数ｆ０＿ｔ１と、単位区間ｔ２における音声基本周波数ｆ０＿ｔ２との比率は、特別範囲を超える。
このため、Ｓ４３１０にて単位区間ｔ２が選択されると、Ｓ４４２０にて否定判定され、音飛フラグが設定される。次に、Ｓ４３１０にて選択された単位区間ｔ３における音声基本周波数ｆ０＿ｔ３は、音声基本周波数ｆ０＿ｔ１との比率が特別範囲を超える。このため、Ｓ４４６０にて肯定判定され、しかも、この時点での音飛値が第２規定値未満（このｆ０補正処理の動作の説明では、第２規定値を２以上とする）であることから、Ｓ４４７０では、否定判定となる。

そして、Ｓ４３１０にて、処理済音声データの時間進行に沿って次に選択された単位区間ｔ４における音声基本周波数ｆ０＿ｔ４は、音声基本周波数ｆ０＿ｔ１との比率が特別範囲以内である。よって、Ｓ４４６０にて否定判定され、単位区間ｔ２から単位区間ｔ３までの区間が、倍音誤検出領域として検出される。このようにして検出された倍音誤検出領域における音声基本周波数ｆ０＿ｔ２，ｆ０＿ｔ３を、図９（Ｂ）に示すように、音声基本周波数ｆ０＿ｔ１から、一定の変動幅で変動しながら順に音声基本周波数ｆ０＿ｔ４へと直線的に到達するように補正する。

ここで、図９（Ａ）へと戻り、ｆ０補正処理において、入力音声の時間進行に沿って単位区間の選択を繰り返す。このとき、図９（Ａ）に示す周波数推移分布において、単位区間ｔ５から単位区間ｔ９までの間の領域は、全ての単位区間にて音声基本周波数ｆ０（図中、ｆ０＿ｔ５〜ｔ９）が０［Ｈｚ］である。

このことから、ｆ０補正処理では、Ｓ４３１０にて、単位区間ｔ５〜ｔ１０が選択された際には、それらの単位区間ｔ５〜ｔ１０が選択される毎に、Ｓ４３３０へと移行し、区間カウンタを５まで増加させる。なお、Ｓ４３１０にて、入力音声に沿って次に選択される単位区間ｔ１０における音声基本周波数ｆ０＿ｔ１０は、０［Ｈｚ］以外の周波数であるため、Ｓ４３２０にて肯定判定される。そして、カウント値が、第１規定値未満であり（このｆ０補正処理の動作の説明では、第１規定値を６以上とする）、かつ１以上であることから、Ｓ４３７０では否定判定となる。よって、単位区間ｔ５から単位区間ｔ１０が、短期不連続領域として検出される。このようにして検出された短期不連続領域における音声基本周波数ｆ０＿ｔ５〜ｔ９を、図９（Ｂ）に示すように、音声基本周波数ｆ０＿ｔＡから、一定の変動幅で変動しながら順に音声基本周波数ｆ０＿ｔ１０へと直線的に到達するように補正する。

つまり、本実施形態のｆ０補正処理では、周波数推移分布における不連続領域として、倍音誤検出領域や、短期不連続領域、長期不連続領域を検出する。
そして、不連続領域として倍音誤検出領域や短期不連続領域が検出されると、ｆ０補正処理では、それらの倍音誤検出領域や短期不連続領域を時間進行に沿って挟む直前の単位区間における音声基本周波数ｆ０から、一定の変動幅で変動しながら順に、直後の単位区間における音声基本周波数ｆ０へと到達するように補正する。一方、不連続領域として長期不連続領域が検出されると、ｆ０補正処理では、その長期不連続領域に対して時間進行上直前の単位区間における音声基本周波数ｆ０を、長期不連続領域を形成する単位区間における音声基本周波数ｆ０とする。
〈開始・終了タイミング推定処理について〉
次に、楽曲検索処理のＳ１５０にて起動される開始・終了タイミング推定処理について説明する。

ここで、図１０は、開始・終了タイミング推定処理の処理手順を示したフローチャートである。
この開始・終了タイミング推定処理は、図１０に示すように、起動されると、まず、Ｓ５１０にて、先の音高推定処理のＳ３１０にて周波数解析を実行した単位区間それぞれについて、各単位区間における音圧を導出する。その導出される音圧は、先のＳ３１０にて導出された振幅スペクトルにおけるスペクトル振幅値の総和である。

続いて、Ｓ５２０では、Ｓ５１０にて導出された単位区間毎の音圧に基づいて、入力音声の時間進行に沿った音圧の推移を表す音圧推移を導出する。これと共に、Ｓ５２０では、導出された音圧推移を移動平均によって平滑化する。ただし、本実施形態における移動平均は、規定数の単位区間を、音圧推移における時間進行に沿って互いに重複するように繰り返し規定して実施される。なお、繰り返し規定される規定数の単位区間は、単位区間を１つずつ変位させることで達成される。これにより、平滑化された後の音圧推移（以下、平滑化音圧推移と称す）は、平滑化される前の音圧推移と同様、全ての単位区間にて対応する音圧を有することになる。

そして、Ｓ５３０では、図１１（Ａ）に示すように、平滑化音圧推移において、各単位区間に対応する音圧それぞれから、予め規定された大きさの騒音音圧を減算する。このとき、減算結果が負の値（マイナス）となる音圧については、その値を０とする。

続く、Ｓ５４０では、音圧推移における全ての単位区間の中から、１つの単位区間を選択する。これと共に、Ｓ５４０では、その選択された単位区間における音圧を取得する。このＳ５４０では、単位区間は、Ｓ５４０に移行する毎に、処理済音声データの開始から、その処理済音声データの時間進行に沿って順次選択される。

そして、Ｓ５５０では、今回Ｓ５５０に移行するまでの間、第１音圧Ｐｖ１としていた音圧を第２音圧Ｐｖ２とし、Ｓ５５０へと移行する際にＳ５４０にて選択した単位区間における音圧を第１音圧Ｐｖ１として設定する。つまり、このＳ５５０へと移行すると、処理済音声データの時間進行に沿って取得済みである音圧の中で、音声開始に近い単位区間における音圧を第２音圧Ｐｖ２とし、音声終了に近い単位区間における音圧を第１音圧Ｐｖ１としている。

さらに、Ｓ５６０では、第１音圧Ｐｖ１を第２音圧Ｐｖ２にて除する（以下、この演算結果を音圧増加率と称す）。
続く、Ｓ５７０では、Ｓ５６０にて導出された音圧増加率が、予め規定された規定閾値Ｔｈ以上であるか否かを判定する。そのＳ５７０での判定の結果、音圧増加率が規定閾値Ｔｈ以上であれば、Ｓ５８０へと進む。そして、Ｓ５８０では、発音カウンタを１つインクリメントする。

続く、Ｓ５９０では、発音カウンタの値である発音カウント値が、予め規定された第１閾値以上であるか否かを判定し、判定の結果、発音カウント値が第１閾値未満であれば、Ｓ６００へと進む。そのＳ６００では、発音カウント値が、第１閾値よりも１つ小さな値として予め規定された第２閾値以上であるか否かを判定する。そのＳ６００での判定の結果、発音カウント値が第２閾値未満であれば、Ｓ５４０へと戻り、Ｓ５４０〜Ｓ５９０のステップを繰り返す。

一方、Ｓ６００での判定の結果、発音カウント値が第２閾値以上であれば、即ち、Ｓ５４０〜Ｓ５９０のステップを繰り返す際に、第２閾値の値だけ連続してＳ５７０にて肯定判定されると、Ｓ６１０へと進む。つまり、Ｓ６００にて肯定判定されることにより、音圧増加率が規定閾値Ｔｈ以上となる単位区間が、第２閾値の値に１を加えた数だけ連続する領域（以下、開始判定対象区間と称す）が検出される。

そして、Ｓ６１０では、開始判定対象区間を形成する単位区間のうち、入力音声の時間進行に沿った最初の単位区間を発音開始タイミングとして特定する。これと共に、その特定された発音開始タイミングにおける音圧（以下、発音開始音圧と称す）を取得する。さらに、Ｓ６１０では、それら特定された発音開始タイミング及び取得された発音開始音圧を記憶部２８に記憶する。なお、図１０〜１２では、開始タイミングを「ＳＴ」と表記する。

なお、Ｓ５９０での判定の結果、発音カウント値が第１閾値以上であれば、Ｓ６００及びＳ６１０のステップを実行することなく、Ｓ６３０へと進む。つまり、平滑化音圧推移において、発音開始タイミング以降における音圧増加率が、その発音開始タイミングから継続して規定閾値Ｔｈ以上である場合には、Ｓ５９０にて否定判定される。

ところで、Ｓ５７０での判定の結果、音圧増加率が規定閾値Ｔｈ未満であれば、Ｓ６２０にて、発音カウンタを初期化（ここでは、０と）する。つまり、規定閾値Ｔｈ以上の音圧増加率が継続する単位区間の数の計測を終了する。その後、Ｓ６３０へと進む。

そして、Ｓ６３０では、第１音圧Ｐｖ１が、直近のＳ６１０にて記憶部２８に記憶された発音開始音圧（以下、終了判定音圧と称す）以下であるか否かを判定する。その判定の結果、第１音圧Ｐｖ１が終了判定音圧未満であれば、Ｓ６４０へと進む。

そのＳ６４０では、第１音圧Ｐｖ１に対応する単位区間を発音終了タイミングとして記憶部２８に記憶する。その後、Ｓ６５０へと進む。なお、図１０〜図１２では、終了タイミングを「ＥＴ」と表記する。

なお、Ｓ６３０での判定の結果、第１音圧Ｐｖ１が終了判定音圧以上であれば、Ｓ５４０にて選択された単位区間が発音終了タイミングではないものと判定して、Ｓ６４０を実行することなく、Ｓ６５０へと進む。

そのＳ６５０では、処理済音声データに規定された全ての単位区間を、Ｓ５４０にて選択済みであるか否かを判定する。その判定の結果、未選択の単位区間が存在すれば、Ｓ５４０へと戻る。一方、Ｓ６５０での判定の結果、Ｓ５４０にて未選択の単位区間が存在しなければ、Ｓ６６０へと進む。

つまり、図１１（Ｂ）に示すように、音圧増加率が継続して規定閾値以上となる音圧の単調増加区間が平滑化音圧推移に含まれている場合、開始・終了タイミング推定処理において、Ｓ５４０〜Ｓ６５０のステップを繰り返すことにより、その単調増加区間における最初の単位区間それぞれが発音開始タイミング（図中、第１，第２，第３，第４発音ＳＴ）として特定される。ただし、ここで言う単調増加区間とは、開始判定対象区間を形成する単位区間数以上連続する単位区間である。

さらに、Ｓ５４０〜Ｓ６５０のステップを繰り返すことにより、平滑化音圧推移において、処理済音声データの時間進行に沿った発音開始タイミング以降の単位区間の中で、各単位区間に対応する音圧が、最初に終了判定音圧以下となった単位区間が発音終了タイミング（図中、第１，第２発音ＥＴ）として特定される。

ここで、図１０へと戻り、続くＳ６６０では、処理済音声データに設定された単位区間の中で、処理済音声データの時間進行に沿った最終の単位区間を発音終了タイミングとして、記憶部２８に記憶する。

続く、Ｓ６７０では、処理済音声データに規定された全ての単位区間の中から、判定対象区間における音声基本周波数ｆ０を取得する。このＳ６７０にて音声基本周波数ｆ０が取得される判定対象区間は、予め規定された規定数の単位区間からなるものである。その規定数の単位区間は、処理済音声データにおける時間進行に沿って互いに連続かつ重複するように繰り返し規定される。

そして、Ｓ６８０では、Ｓ６７０にて取得した判定対象区間における音声基本周波数ｆ０に基づき、それらの音声基本周波数ｆ０の変動幅を導出する。このＳ６８０にて導出される変動幅は、判定対象区間における最大周波数の音声基本周波数ｆ０と、最小周波数の音声基本周波数ｆ０との差である。

続く、Ｓ６９０では、Ｓ６８０にて導出した変動幅が、予め規定された周波数の幅である規定幅未満であるか否かを判定する。その判定の結果、変動幅が規定幅未満であれば、Ｓ７００へと進む。

そして、Ｓ７００では、判定対象区間における全ての音声基本周波数ｆ０を、処理済音声データの時間進行に沿って配置してなる周波数軌跡を導出する。これと共に、その導出された周波数軌跡を平滑化微分して、周波数軌跡における極値を検出する。

続く、Ｓ７１０では、Ｓ７００での平滑化微分の結果、周波数軌跡における極値が検出されたか否かを判定する。その判定の結果、極値が検出されていれば、Ｓ７２０へと進み。
そのＳ７２０では、Ｓ７００にて検出された判定対象区間内での極値の数を集計する。そして、Ｓ７３０では、Ｓ７２０にて集計された極値の数であるビブラート値が、予め規定された第３閾値以上であるか否かを判定する。そのＳ７３０での判定の結果、ビブラート値が第３閾値以上であれば、Ｓ７４０へと進む。

つまり、Ｓ６７０からＳ７３０でのステップを実行することにより、音声基本周波数ｆ０の変動幅が規定幅未満である判定対象区間の中で、音声基本周波数ｆ０が増加する増加区間及び減少する減少区間の和が第３閾値以上である判定対象区間が、ビブラート期間として検出される。なお、このビブラート期間とは、音声処理装置２０の利用者がビブラートにて発声した期間を意味する。

続く、Ｓ７４０では、Ｓ７２０にて集計されたビブラート値を初期化（ここでは、０と）する。さらに、Ｓ７５０では、記憶部２８に記憶されている発音開始タイミングの中から、ビブラート期間内に対応する発音開始タイミング（以下、期間内タイミングと称す）を消去（除去）する。その後、Ｓ７７０へと進む。

なお、Ｓ６９０での判定の結果、判定対象区間内における音声基本周波数ｆ０の変動幅が規定幅以上である場合や、Ｓ７１０での判定の結果、判定対象区間内に極値が含まれていない場合には、Ｓ７６０へと進む。さらに、Ｓ７３０での判定の結果、ビブラート値が第３閾値未満である場合にも、Ｓ７６０へと進む。

つまり、Ｓ６７０にて規定された判定対象区間がビブラート期間でなければ、Ｓ７６０へと進む。そのＳ７６０では、ビブラート値を初期化した後、Ｓ７７０へと進む。
そのＳ７７０では、処理済音声データに設定された全ての単位区間を、判定対象区間として規定したか否かを判定する。その判定の結果、全ての単位区間が判定対象区間として規定されていなければ、Ｓ６８０へと戻り、新たな判定対象区間を設定して、Ｓ６８０へと進む。そして、全ての単位区間が判定対象区間として規定されるまで、Ｓ６８０〜Ｓ７７０を繰り返す。

例えば、本開始・終了タイミング推定処理を実行することで、図１２（Ａ）に示すような発音開始タイミング（第１〜第４発音開始タイミング）、及び発音終了タイミング（第１，第２発音終了タイミング）が特定されると共に、第３発音開始タイミング、及び第４発音開始タイミングを含む判定対象区間をビブラート期間として特定した場合を想定する。このような場合、第３発音開始タイミング及び第４発音開始タイミングは、期間内タイミングとして除去されるため、図１２（Ｂ）に示すように、第１発音開始タイミングと第２発音開始タイミングとの２つのみが残される。なお、発音終了タイミングは、除去されずに全て残される。

なお、Ｓ７７０での判定の結果、全ての単位区間が判定対象として規定されていれば、本開始・終了タイミング推定処理を終了して、楽曲検索処理のＳ１９０へと進む。
つまり、本実施形態の開始・終了タイミング推定処理では、入力音声の音圧推移に基づいて、発音開始タイミングと発音終了タイミングとを検出すると共に、入力音声における音声基本周波数ｆ０の時間進行に沿った推移（即ち、周波数軌跡）から、ビブラート期間を特定する。そして、開始・終了タイミング推定処理では、特定されたビブラート期間内に対応する発音開始タイミングを消去し、ビブラート期間外に対応する発音開始タイミングのみを残す。
〈採譜処理について〉
次に、楽曲検索処理のＳ１９０にて起動される採譜処理について説明する。

ここで、図１３は、採譜処理の処理手順を示したフローチャートである。
この採譜処理は、図１３に示すように、起動されると、まず、Ｓ９１０にて、先の音高推定処理のＳ３１０にて周波数解析を実行した全ての単位区間の中から、１つの単位区間を選択する。このＳ９１０では、単位区間は、Ｓ９１０へと移行する毎に、処理済音声データの開始から、処理済音声データの時間進行に沿って順次選択される。

続く、Ｓ９２０では、Ｓ９１０にて選択された単位区間が発音開始タイミングであるか否かを判定する。その判定の結果、選択された単位区間が発音開始タイミングでなければ、Ｓ９３０へと進む。

そのＳ９３０では、Ｓ９１０にて選択された単位区間が発音終了タイミングであるか否かを判定する。その判定の結果、選択された単位区間が発音終了タイミングでなければ、Ｓ９１０へと戻る。つまり、Ｓ９１０にて選択された単位区間が、発音開始タイミングまたは発音終了タイミングでなければ、Ｓ９１０からＳ９３０のステップを繰り返す。

一方、Ｓ９２０での判定の結果、Ｓ９１０にて選択された単位区間が発音開始タイミングであれば、Ｓ９４０へと進む。そのＳ９４０では、今回Ｓ９４０に移行する前の間、第１開始タイミングとしていた発音開始タイミングを第２開始タイミングとし、Ｓ９５０へと移行する際にＳ９１０にて選択した単位区間（即ち、発音開始タイミング）を第１開始タイミングとして設定する。つまり、このＳ９４０へと移行すると、処理済音声データの時間進行に沿った発音開始タイミングの中で、発声開始に近い発音開始タイミングを第２とし、音声終了に近い単位区間における音圧を第１開始タイミングとしている。なお、図１３では、開始タイミングをＳＴと表記する。

続く、Ｓ９５０では、開始取得フラグ（以下、開始取得Ｆと表記する）が設定済みであるか否かを判定する。その判定の結果、開始取得フラグが未設定であれば、Ｓ９６０へと進む。そのＳ９６０では、開始取得フラグを設定する。その後、Ｓ９１０へと戻る。

ところで、Ｓ９３０での判定の結果、Ｓ９１０にて選択された単位区間が発音終了タイミングであれば、Ｓ９７０へと進む。つまり、Ｓ９７０への移行は、処理済音声データの時間進行に沿って、発音開始タイミングと、その発音開始タイミングと対となるべき発音終了タイミングとが取得された場合である。そして、Ｓ９７０では、開始取得フラグを解除してＳ９８０へと進む。

なお、Ｓ９５０での判定の結果、開始取得フラグが設定されていれば、Ｓ９８０へと進む。つまり、処理済音声データの時間進行に沿って、２つの発音開始タイミングが、それらの発音開始タイミングの間に発音終了タイミングを挟むことなく存在する場合、Ｓ９５０にて肯定判定される。

そして、Ｓ９８０では、そのＳ９８０へと移行した時点で取得済みの発音開始タイミングまたは発音終了タイミングに基づいて、音符期間を特定する。
具体的に、本実施形態では、Ｓ９３０にて肯定判定されることで、Ｓ９８０へと進んだ場合には、第１開始タイミングを音符開始タイミングとし、発音終了タイミングを音符終了タイミングとする。一方、Ｓ９５０にて否定判定されることで、Ｓ９８０へと進んだ場合には、第２開始タイミングを音符開始タイミングとし、第１開始タイミングよりも処理済音声データの時間進行に沿って第１開始タイミングよりも設定時間長だけ前の時点を音符終了タイミングとする。そして、何れの場合にも、それら音符開始タイミングと音符終了タイミングとの間の期間を、音符期間として特定する。なお、本実施形態におけるＳ９８０では、特定した音符期間の期間長を音長として導出する。

続く、Ｓ９９０では、Ｓ９８０にて特定された音符期間に対応する全ての単位区間における音高（即ち、音高推定処理のＳ４５０にて量子化された音声基本周波数ｆ０、以下、量子化周波数とも称す）を取得する。つまり、音符期間を構成する単位区間の数だけ、量子化周波数が取得される。

そして、Ｓ１０００では、Ｓ９９０にて取得された量子化周波数に基づき、第１音高周波数、第２音高周波数を特定すると共に、第１音高数、及び第２音高数を集計する。このＳ１０００にて特定される第１音高周波数は、Ｓ９８０にて特定された音符期間に占める割合が最も高い量子化周波数であり、第２音高周波数とは、その音符期間に占める割合が二番目に高い量子化周波数である。なお、本実施形態のＳ１０００では、Ｓ９８０にて特定された音符期間に第２音高周波数が複数存在する場合、周波数が最も高いものを第２音高周波数とする。

そして、Ｓ１０００にて集計される第１音高数は、Ｓ９８０にて特定された音符期間に含まれる単位区間の中で、第１音高周波数に対応する単位区間の数である。また、第２音高数は、Ｓ９８０にて特定された音符期間に含まれる単位区間の中で、第２音高周波数に対応する単位区間の数である。

次に、Ｓ１０１０では、Ｓ１０００にて特定された第２音高周波数が、第１音高周波数よりも周波数が高いか否かを判定する。その判定の結果、第２音高周波数が第１音高周波数よりも高ければ、Ｓ１０２０へと進む。

そのＳ１０２０では、第２音高数が音高判定閾値以上であるか否かを判定する。この判定に用いられる音高判定閾値は、予め規定された規定割合Ａ（本実施形態では、１／２．３とする）と第１音高数とを乗算した値である。そのＳ１０２０での判定の結果、第２音高数が音高判定閾値以上であれば、Ｓ１０３０へと進む。

そして、Ｓ１０３０では、第２音高周波数に対応する音高を、Ｓ９８０にて特定された音符期間における音高（即ち、音符音高）として特定する。そして、その特定された音符音高と、Ｓ９８０にて導出された音長を音符音長とした音声音符データを生成する。その後、Ｓ１０５０へと進む。

ところで、Ｓ１０１０での判定の結果、第２音高周波数が第１音高周波数以下である場合や、Ｓ１０２０での判定の結果、第２音高数が音高判定閾値未満であれば、Ｓ１０４０へと進む。

そのＳ１０４０では、第１音高周波数に対応する音高を、Ｓ９８０にて特定された音符期間における音高（即ち、音符音高）として特定する。そして、その特定された音符音高と、Ｓ９８０にて導出された音長を音符音長とした音声音符データを生成する。その後、Ｓ１０５０へと進む。

例えば、Ｓ９１０からＳ９８０のステップを繰り返した後、Ｓ９８０にて、図１４（Ａ）に示すような第１音符開始タイミングと第１音符終了タイミングとの間の期間を第１音符期間として特定したとする。この特定した第１音符期間における第２音高周波数ｆ０２_t1＿ｈｉは、第１音高周波数ｆ０１_t1よりも高い周波数である。また、第２音高数は、「３」であり、第１音高数である「５」に規定割合Ａ（本実施形態では、Ａ＝１／（２．３））を乗じた値よりも大きい。

この場合、図１４（Ｂ）に示すように、第１音符期間についての音符音高は、Ｓ１０３０にて、第２音高周波数ｆ０２_t1＿ｈｉに対応する音高（図中、第１音符音高）に特定される。

なお、第２音高周波数ｆ０２_t1＿ｌｏｗも、第１音符中に占める割合が第２音高周波数ｆ０２_t1＿ｈｉと同一である。しかし、第２音高周波数ｆ０２_t1＿ｈｉの方が高い周波数であるため、第１音符期間の音高は、第２音高周波数ｆ０２_t1＿ｈｉとなる。

さらに、Ｓ９１０からＳ９８０のステップを繰り返した後、Ｓ９８０にて、図１４（Ａ）に示すような第２音符開始タイミングと第２音符終了タイミングとの間の期間を第２音符期間として特定したとする。この特定した第２音符期間における第２音高周波数ｆ０２_t2＿ｈｉは、第１音高周波数ｆ０１_t2よりも低い周波数である。また、第２音高数は、「３」であり、第１音高数である「４」に規定割合Ａ（本実施形態では、Ａ＝１／（２．３））を乗じた値よりも小さい。

この場合、図１４（Ｂ）に示すように、第２音符期間についての音符音高（図中、第２音符音高）は、Ｓ１０４０にて、第１音高周波数ｆ０１_t2に対応する音高に特定される。
続く、Ｓ１０５０では、処理済音声データに規定された全ての単位区間について、Ｓ９１０にて選択済みであるか否かを判定する。その判定の結果、未選択の単位区間が存在すれば、Ｓ９１０へと戻り、Ｓ９１０〜Ｓ１０５０を繰り返す。

一方、Ｓ１０５０での判定の結果、未選択の単位区間が存在しなければ、本採譜処理を終了して、楽曲検索処理のＳ２１０へと進む。
つまり、本採譜処理では、処理済音声データの時間進行に沿って、発音開始タイミングと、その発音開始タイミングと対となるべき発音終了タイミングとが存在する場合には、その発音開始タイミングを音符開始タイミングとし、その発音終了タイミングを音符終了タイミングとする。また、処理済音声データの時間進行に沿って、２つの発音開始タイミングが、それらの発音開始タイミングの間に発音終了タイミングを挟むことなく存在する場合には、時間進行に沿った前の発音開始タイミングを音符開始タイミングとし、時間進行に沿った後の発音開始タイミングを音符終了タイミングとする。そして、何れの場合にも、それら音符開始タイミングと音符終了タイミングとの間の期間を、音符期間として特定する。

これに加えて、本採譜処理では、第２音高周波数が第１音高周波数よりも周波数が高く、かつ第２音高数が第１音高数に対して規定割合Ａ以上であれば、第２音高周波数に対応する音高を、その音符期間における音符音高として特定する。これと共に、本採譜処理では、第２音高周波数が第１音高周波数よりも周波数が低い場合、または第２音高数が第１音高数に対して規定割合Ａ未満である場合には、第１音高周波数に対応する音高を、その音符期間における音符音高として特定している。
〈採譜結果照合処理について〉
次に、楽曲検索処理のＳ２１０にて起動される採譜結果照合処理について説明する。

ここで、図１５は、採譜結果照合処理の処理手順を示したフローチャートである。
この採譜結果照合処理は、図１５に示すように、起動されると、Ｓ１２１０では、先の採譜処理にて生成された音声音符データを、処理済音声データの時間進行に沿って連続する予め規定された音符規定数毎に単語化（即ち、グループ化）する。この単語化に際しては、音声音符データの一部が互いに重複するように実施する。以下、単語化された音声音符データそれぞれを、単語音符データと称す。

さらに、Ｓ１２２０では、サーバ４０から取得され記憶部２８に記憶されている楽曲データに対応する楽曲の中から、単語音符データを基準音符データ（即ち、ガイドメロディ）に照合する楽曲（以下、音符照合楽曲と称す）を１つ決定する。

続く、Ｓ１２３０では、Ｓ１２１０にて生成された全ての単語音符データの中から、１つの単語音符データを取得する。ただし、単語音符データを取得する際には、処理済音声データの時間進行において、音声開始に近い音声音符データを含むものを取得する。

そして、Ｓ１２４０では、Ｓ１２２０にて決定された音符照合楽曲に対応する基準音符データの中から、時間進行に沿って連続する音符規定数分だけ単語化して取得する。この音符規定数分の基準音符データを単語化する際には、基準旋律の時間進行において、その基準旋律の開始に近い構成音についての基準音符データから実行する。以下、Ｓ１２４０にて単語化して取得した音符規定数分の基準音符データを、比較音符データとする。

続いて、Ｓ１２５０では、Ｓ１２３０にて取得した単語音符データを、Ｓ１２４０にて取得した比較音符データに照合する。その照合の結果、単語音符データと比較音符データとが一致すれば（Ｓ１２６０：ＹＥＳ）、Ｓ１２７０へと進む。

そのＳ１２７０では、詳しくは後述する音符一致度、及び累積楽曲内一致度を導出すると共に、その導出した累積楽曲内一致度を構成音の番号と対応付けて記憶し、その後、Ｓ１２８０へと進む。この累積楽曲内一致度と対応付けられる構成音の番号は、比較音符データを形成する音符規定数の構成音の中で、基準旋律の時間進行に沿った最初の構成音に対応付けられたものである。

一方、Ｓ１２５０での照合の結果、単語音符データと比較音符データとが一致しなければ（Ｓ１２６０：ＮＯ）、Ｓ１２８０へと進む。
そのＳ１２８０では、全ての基準音符データを単語化して、その単語化によって生成された比較音符データに、Ｓ１２３０にて取得した単語音符データを照合したか否かを判定する。その判定の結果、全ての比較音符データに単語音符データを照合していなければ、Ｓ１２４０へと戻る。そのようにして移行したＳ１２４０では、前回のＳ１２４０にて単語化した基準音符データと、基準旋律の時間進行に沿った一部が重複するように音符規定数分だけ、基準音符データを単語化して取得する。すなわち、新たな比較音符データを生成して、Ｓ１２５０へと進む。

これにより、１つの楽曲における全ての基準音符データに対して、１つの単語音符データの照合が完了するまで、Ｓ１２４０からＳ１２８０が繰り返し実行される。
なお、Ｓ１２８０での判定の結果、全ての基準音符データを単語化して、その単語化によって生成された比較音符データに、単語音符データを照合していれば、Ｓ１２９０へと進む。そのＳ１２９０では、全ての単語音符データを取得して、比較音符データに照合済みであるか否かを判定する。

そのＳ１２９０での判定の結果、全ての単語音符データを比較音符データに照合していなければ、Ｓ１２３０へと戻る。そのＳ１２３０では、比較音符データに対して未照合の単語音符データの中から、１つの単語音符データを取得する。ただし、単語音符データを取得する際には、入力音声の時間進行において、音声開始に近い音声音符データからなる単語音符データを取得する。

その後、Ｓ１２９０にて肯定判定されるまで、Ｓ１２３０〜Ｓ１２９０までのステップを繰り返す。以下、Ｓ１２３０〜Ｓ１２９０までの一回の流れを、別音符照合サイクルと称す。また、別音符照合サイクルにて、単語音符データを取得してから新たな単語音符データを取得するまでのＳ１２４０〜Ｓ１２８０の一回の流れを、同一音符照合サイクルと称す。

この同一音符照合サイクルを繰り返す過程の中で、Ｓ１２６０にて肯定判定されると、Ｓ１２７０へと進む。そのようにして移行したＳ１２７０では、今回の別音符照合サイクルにて単語音符データと一致した比較音符データが、前回の別音符照合サイクルにて単語音符データと一致した比較音符データと、基準旋律の時間進行上連続するものであるか否かを判定（以下、音符接続判定とする）する。具体的には、前回の別音符照合サイクルにて音符一致度に対応付けられた構成音の番号の中に、今回Ｓ１２７０へと進んだ際に、単語音符データに一致したと判定された比較音符データを形成する構成音の番号よりも、基準旋律における時間進行上１つ前の構成音であることを示す番号があれば、音符接続判定における判定結果が肯定されたものとする。

その音符接続判定の判定結果が肯定であれば、連続して肯定判定された別音符照合サイクルの回数を「べき指数」として、初期規定値を累乗した値を音符一致度として導出する。一方、音符接続判定の判定結果が否定であれば、初期規定値そのものを音符一致度として導出する。

つまり、音符一致度は、処理済音声データの時間進行に沿った単語音符データが連続して、音符照合楽曲の基準旋律における時間進行に沿った比較音符データに一致するほど、大きな値となる。

さらに、導出された音符一致度の和を楽曲内累積一致度として導出する。
なお、Ｓ１２９０にて肯定判定されると、Ｓ１３００へと進む。そのＳ１３００では、先のＳ１２２０にて決定された音符照合楽曲に対する楽曲内累積一致度の中で、値が最大のものを、その音符照合楽曲に対応する曲名データと対応付けて、記憶部２８に記憶する。つまり、Ｓ１３００にて曲名データと対応付けられる楽曲内累積一致度は、一つの音符照合楽曲に対する別音符照合サイクルの繰り返しにて導出された全楽曲内累積一致度の中で、値が最大のものである。

続く、Ｓ１３１０では、記憶部２８に記憶されている楽曲データに対応する全ての楽曲を、音符照合楽曲として決定済みであるか否かを判定する。その判定の結果、全ての楽曲を音符照合楽曲として決定済みでなければ、Ｓ１２２０へと戻る。そのようにして移行したＳ１２２０では、音符照合楽曲として未決定の楽曲の中から、新たな楽曲を音符照合楽曲として決定して、Ｓ１２３０へと進む。つまり、Ｓ１２３０からＳ１３１０までのステップを、記憶部２８に記憶されている全ての楽曲データ中の基準音符データに、単語音符データの照合が完了するまで繰り返す。

なお、Ｓ１３１０での判定の結果、記憶部２８に記憶されている全ての楽曲を音符照合楽曲として決定済みであれば、Ｓ１３２０へと進む。
そのＳ１３２０では、Ｓ１３００にて記憶部２８に記憶された楽曲内累積一致度の中で、値が最大である楽曲内累積一致度に対応する楽曲を意図予想曲として特定する。さらに、Ｓ１３２０では、その特定された意図予想曲についての曲名データを取得し、取得された曲名データに対応する曲名を表示部２２に表示すると共に、その曲名をスピーカ２７から音声にて出力する。すなわち、意図予想曲の曲名が報知される。

そして、その後、採譜結果照合処理を終了し、さらに、楽曲検索処理を終了する。
つまり、本実施形態の採譜結果照合処理では、採譜処理にて生成された音声音符データを、楽曲毎に予め用意された基準音符データに照合する。そして、その照合結果として、処理済音声データの時間進行に沿って連続する音声音符データが、音符照合楽曲の基準旋律における時間進行に沿って連続して一致する比較音符データの数が多いほど、大きな値の楽曲内累積一致度を導出する。そして、本実施形態の採譜結果照合処理では、導出された楽曲内累積一致度の中で、値が最も高いものに対応する楽曲を、意図予想曲として検出している。
［実施形態の効果］
以上説明したように、本実施形態の音声処理装置２０では、区間ｆ０候補の自己相関値それぞれに減衰係数を乗じることで、倍音成分が含まれる可能性の高い周波数帯に対応する区間ｆ０候補の自己相関値が低減される。

しかも、減衰係数が乗じられる区間ｆ０候補の自己相関値は、その区間ｆ０候補が特定ｆ０候補の倍音範囲内であれば、その区間ｆ０候補の自己相関値から、特定ｆ０候補の自己相関値が減算された値である。よって、倍音成分が含まれる可能性の高い周波数帯に対応する区間ｆ０候補の自己相関値はより低減される。

したがって、本実施形態の音高推定処理（より正確には、信頼度算出処理）にて導出されるｆ０候補信頼度は、倍音成分である可能性が高いほど値が低減され、基本周波数である可能性が高いほど値が大きなものとなる。

この結果、本実施形態の音高推定処理によれば、基本周波数成分の倍音成分、即ち、基本周波数成分以外の周波数が音声基本周波数として誤推定されることを低減できる。換言すれば、本実施形態の音声処理装置２０によれば、音声基本周波数ｆ０の推定精度を向上させることができる。

なお、本実施形態の音高推定処理では、自己相関平均値よりも値が低い自己相関値を、「０」としている。このため、本実施形態の音声処理装置２０によれば、入力音声に含まれるノイズや、入力音声を音声データとしてサンプリングする際に生成されるノイズ（例えば、折り返し雑音）など、音声基本周波数ｆ０である可能性が明らかに低い周波数を、音声基本周波数ｆ０の候補から除外することができる。

ところで、本実施形態の採譜処理では、従来技術に比べて、推定精度が向上した音声基本周波数ｆ０を用いて音符音高を推定する。この結果、本実施形態の採譜処理によれば、音符音高に推定精度を向上させることができる。

そして、本実施形態の楽曲検索処理によれば、従来技術に比べて、推定精度が向上した音符音高を用いて意図予測曲を検索する。この結果、本実施形態の楽曲検索処理によれば、その楽曲検索処理によって導出される意図推定曲が、音声処理装置２０の利用者が音声を入力した際に想定した楽曲に一致したものとなる可能性を向上させることができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記実施形態の音高推定処理において、Ｓ３３０にて導出される自己相関値は、導出された各値そのものであったが、このＳ３３０にて導出される自己相関値は、各値そのものを自己相関平均値で正規化した値でも良い。

なお、上記楽曲検索処理において実行される開始・終了タイミング推定処理、及び採譜処理は、上記実施形態に記載したものに限らず、入力音声から音符期間（即ち、音符音長）を推定し、単位区間毎の音声基本周波数ｆ０に基づいて、音符期間における音高（即ち、音符音高）を特定するものであれば、どのようなものでも良い。

特に、上記実施形態では、開始・終了タイミング推定処理として、入力音声の音圧の時間進行に沿った変動から、発音開始タイミング及び発音終了タイミングを推定すると共に、期間内タイミングを除去していたが、期間内タイミングを除去しなくとも良いし、発音終了タイミングを検出しなくとも良い。

ところで、上記実施形態における楽曲検索処理では、マイクロホン２４を介して入力された後、記憶部２８に記憶された音声データを処理対象としていたが、楽曲検索処理にて処理対象とする音声データは、マイクロホン２４を介して入力されたものに限らず、例えば、サーバ４０や、他の音声処理装置２０から取得した音声データでも良い。この場合、音声処理装置２０では、マイクロホン２４と、音声入力部２５とが省略されていても良い。

それとは反対に、上記実施形態における楽曲検索処理では、音声入力部２５にてサンプリングされた直後の音声データを直接処理対象としても良い。つまり、楽曲検索処理では、マイクロホン２４を介して入力された音声をリアルタイムに処理していても良い。

なお、上記実施形態では、音声処理装置２０にて楽曲検索処理を実行していたが、楽曲検索処理は、サーバ４０にて実行されていても良い。この場合、音声データが、音声処理装置２０からサーバ４０に転送される必要がある。

また、楽曲検索システム１は、音声処理装置２０のみから構成されていても良い。この場合、楽曲データは、予め記憶部２８に記憶されている必要がある。
上記実施形態における楽曲検索処理では、Ｓ２１０にて採譜結果照合処理を実行していたが、楽曲検索処理として実行される内容として、このＳ２１０は省略されていても良い。つまり、上記実施形態における音声処理装置２０は、いわゆる採譜装置として構成されたものでも良い。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との対応関係について説明する。

上記実施形態の音高推定処理におけるＳ３３０，Ｓ３５０、及び信頼度算出処理におけるＳ３７１０〜Ｓ３７４０を実行することで得られる機能が、本発明の相関値導出手段に相当する。なお、その相関値導出手段では、音高推定処理におけるＳ３３０を実行することで得られる機能が、本発明の自己相関値導出手段に相当し、Ｓ３５０を実行することで得られる機能が、本発明の相関ピーク検出手段に相当する。そして、信頼度算出処理のＳ３７１０を実行することで得られる機能が、本発明の特定ピーク抽出手段に相当し、信頼度算出処理のＳ３７２０，Ｓ３７３０を実行することで得られる機能が、本発明の相関値減算手段に相当する。

また、上記実施形態の信頼度算出処理におけるＳ３７５０を実行することで得られる機能が、本発明の相関値修正手段に相当し、Ｓ３７６０を実行することで得られる機能が、本発明の信頼度導出手段に相当する。さらに、音高推定処理におけるＳ３９０を実行することで得られる機能が、本発明の基本周波数推定手段に相当する。

なお、音高推定処理のＳ１５０、及び採譜処理のＳ９１０〜Ｓ９８０を実行することで得られる機能が、本発明の発音区間特定手段に相当し、採譜処理のＳ９８０〜Ｓ１０４０を実行することで得られる機能が、本発明の採譜手段に相当する。

１…楽曲検索システム２０…音声処理装置２１…通信部２２…表示部２３…操作受付部２４…マイクロホン２５…音声入力部２６…音声出力部２７…スピーカ２８…記憶部３０…制御部４０…サーバ４１…記憶装置４２…マイクロコンピュータ

Claims

時間の進行に沿って連続して入力された入力音声から、予め規定された規定期間毎の前記入力音声である単位入力音声毎に音声基本周波数を推定する基本周波数推定装置であって、
前記単位入力音声の振幅スペクトルを導出すると共に、その導出された振幅スペクトルに基づき、規定された周波数である規定周波数毎に、その規定周波数が前記音声基本周波数であることの尤度を表し、かつその規定周波数及び該規定周波数の倍音成分のスペクトル振幅値が大きいほど値が大きい特定相関値を導出する相関値導出手段と、
前記相関値導出手段で導出された特定相関値それぞれに、対応する周波数が高いほど値が小さな減衰係数を乗じた修正相関値を導出する修正相関値導出手段と、
前記修正相関値導出手段で導出された修正相関値それぞれに、各修正相関値に対応する周波数のスペクトル振幅値を乗じた基音信頼度を導出する信頼度導出手段と、
前記信頼度導出手段で導出された基音信頼度の中で、値が最大である前記基音信頼度に対応する周波数を、前記音声基本周波数として推定する基本周波数推定手段と
を備えることを特徴とする基本周波数推定装置。
前記相関値導出手段は、
同一の単位入力音声から導出された前記振幅スペクトルを周波数軸方向に変位した際の前記振幅スペクトル同士の相関が強いほど値が大きな自己相関値を、前記規定周波数毎に導出する自己相関値導出手段と、
前記自己相関値導出手段で導出された自己相関値それぞれを対応する規定周波数毎に周波数軸に沿って配置してなる前記自己相関値の軌跡から、その軌跡における極大値を表す相関ピークを検出する相関ピーク検出手段と、
予め設定された下限周波数から上限周波数までの周波数帯を特定周波数帯とし、前記相関ピーク検出手段で検出された相関ピークの中から、前記特定周波数帯に含まれる前記規定周波数に対応する相関ピークである特定相関ピークを抽出する特定ピーク抽出手段と、
前記特定ピーク抽出手段で抽出された特定相関ピークの自己相関値を、その特定相関ピークに対応する周波数を整数倍した周波数に対応する前記相関ピークの自己相関値から減算する相関値減算手段とを備え、
前記相関値減算手段での減算結果それぞれを、前記特定相関値とすることを特徴とする請求項１に記載の基本周波数推定装置。
前記自己相関値導出手段は、
前記自己相関値の平均値である相関平均値を導出すると共に、その相関平均値よりも値が小さい前記自己相関値を０とすることを特徴とする請求項２に記載の基本周波数推定装置。
前記請求項１ないし請求項３のいずれか一項に記載の基本周波数推定装置と、
前記入力音声から、同一音高が継続しているとみなせる時間長を表す発音区間それぞれを特定する発音区間特定手段と、
前記発音区間特定手段により特定された発音区間に対応する規定期間に対し、前記基本周波数推定手段で推定された基本周波数を、その発音区間における音高として採譜する採譜手段と
を備えたことを特徴とする採譜装置。
時間の進行に沿って連続して入力された入力音声から、予め規定された規定期間毎の前記入力音声である単位入力音声毎に音声基本周波数を推定するためのプログラムであって、
前記単位入力音声の振幅スペクトルを導出すると共に、その導出された振幅スペクトルに基づき、規定された周波数である規定周波数毎に、その規定周波数が前記音声基本周波数であることの尤度を表し、かつその規定周波数及び該規定周波数の倍音成分のスペクトル振幅値が大きいほど値が大きい特定相関値を導出する相関値導出手順と、
前記相関値導出手順で導出された特定相関値それぞれに、対応する周波数が高いほど値が小さな減衰係数を乗じた修正相関値を導出する修正相関値導出手順と、
前記修正相関値導出手順で導出された修正相関値それぞれに、各修正相関値に対応する周波数のスペクトル振幅値を乗じた基音信頼度を導出する信頼度導出手順と、
前記信頼度導出手順で導出された基音信頼度の中で、値が最大である前記基音信頼度に対応する周波数を、前記音声基本周波数として推定する基本周波数推定手順と
をコンピュータに実行させることを特徴とするプログラム。