JP2011065044A

JP2011065044A - 音声処理装置、プログラム

Info

Publication number: JP2011065044A
Application number: JP2009217173A
Authority: JP
Inventors: Noriaki Asemi; 典昭阿瀬見; Seiji Kurokawa; 誠司黒川
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2009-09-18
Filing date: 2009-09-18
Publication date: 2011-03-31
Anticipated expiration: 2029-09-18
Also published as: JP5549166B2

Abstract

【課題】音符期間を推定する技術において、推定精度を向上させること。
【解決手段】開始・終了タイミング推定処理では、入力音声の音圧推移に基づいて、発音開始タイミングと発音終了タイミングとを検出する（Ｓ６１０，Ｓ６４０）と共に、入力音声における周波数軌跡から、ビブラート期間を特定する（Ｓ７３０：ＹＥＳ）。その特定されたビブラート期間内に対応する発音開始タイミングを消去し（Ｓ７５０）、ビブラート期間外に対応する発音開始タイミングのみを残す。残された発音開始タイミングと、その発音開始タイミングと対となるべき発音終了タイミングとが存在すれば、その対となる発音開始タイミングと発音終了タイミングとの間の期間を音符期間とし、一方、残された２つの発音開始タイミングが、それらの発音開始タイミングの間に発音終了タイミングを挟むことなく存在すれば、２つの発音開始タイミングの間を音符期間とする。
【選択図】図１０

Description

本発明は、入力音声において、１つの音符とみなせる期間を表す音符期間を推定する音声処理装置、及びプログラムに関する。

従来、入力音声から、１つの音符とみなせる期間を表す音符期間を特定する音声処理装置が知られている（例えば、特許文献１参照）。
この特許文献１に記載の音声処理装置では、時間進行に沿って連続する２つの分析区間における平均音圧が、予め規定された規定値以上増加していれば、その連続する２つの分析区間のうち、時間進行において先の分析区間を音符開始タイミングとして特定する。そして、それら特定された音符開始タイミングに基づき、入力音声の時間進行に沿って連続する２つの音符開始タイミングの間を音符期間として推定している（以下、このような音符期間の推定技術を従来推定技術と称す）。

特許第４１２８８４８号

ところで、入力音声にビブラートがかかっている場合、入力音声の音圧の時間軸に沿った推移（以下、音圧推移と称す）は、上に凸と下に凸とを繰り返すように連続的に変動する。この音圧推移が上に凸となる領域では、それぞれの領域にて、連続する２つの分析区間における平均音圧が規定値以上増加することがある。

この場合、従来推定技術では、ビブラートでの発声期間（以下、ビブラート期間と称す）において、音圧推移が上に凸となる領域それぞれを、音符開始タイミングとして特定してしまう。すると、従来推定技術では、ビブラート期間を、本来推定されるべきではない複数の音符期間に分割して、それら分割されたそれぞれを音符期間として推定してしまう。

つまり、従来推定技術では、音符期間を精度良く推定できないという問題があった。
そこで、本発明は、音符期間を推定する技術において、推定精度を向上させることを目的とする。

上記目的を達成するためになされた本発明は、時間進行に沿って連続した入力音声から、１つの音符とみなせる期間それぞれを表す音符期間を推定する音声処理装置である。
その本発明の音声処理装置では、音圧推移特定手段が、入力音声から、その入力音声における音圧の時間進行に沿った推移を表す音圧推移を特定し、開始タイミング検出手段が、その特定された音圧推移が単調増加である区間にて、音圧推移に規定された第１規定期間における音圧の増加率が、時間進行に沿って最初に、予め規定された規定値以上となった時点それぞれを、音符開始タイミングとして検出する。ただし、ここでいう音符開始タイミングとは、音符期間の開始タイミングそれぞれである。

そして、本発明の音声処理装置では、ビブラート期間特定手段が、入力音声における音高の時間進行に沿った推移を表す音高推移に基づいて、ビブラート期間を特定し、期間内タイミング除去手段が、開始タイミング検出手段にて検出された音符開始タイミングの中で、ビブラート期間内に対応する音符開始タイミング（即ち、期間内タイミング）を、開始タイミング検出手段での検出結果の中から除去する。ただし、ここでいうビブラート期間とは、入力音声中にてビブラートにより発声された期間である。

さらに、本発明の音声処理装置では、音符期間推定手段が、期間内タイミングが除去された後の音符開始タイミングそれぞれと対となる音符終了タイミングを特定すると共に、該対となる音符開始タイミングと音符終了タイミングとの間の期間それぞれを音符期間として推定する。

つまり、本発明の音声処理装置では、音符期間の開始タイミングとして、全ての音符開始タイミングの中から期間内タイミングが除去された後に残った音符開始タイミングのみが用いられる。

したがって、本発明の音声処理装置によれば、音符期間を推定する際に、ビブラート期間中に含まれる音符開始タイミングが用いられることを防止できる。この結果、本発明の音声処理装置によれば、少なくとも、ビブラート期間内から期間が開始される音符期間が推定されることがなくなり、１つのビブラート期間が２つ以上の音符期間に分割して推定されることを防止できる。

換言すれば、本発明の音声処理装置によれば、従来推定技術に比べ、入力音声における音符期間の推定精度を向上させることができる。
なお、ここでいう第１規定期間とは、音圧推移が単調増加である区間全体よりも短い期間であってもよいし、単調増加である区間全体でもよい。

また、本発明の音声処理装置におけるビブラート期間特定手段では、請求項２に記載のように、増減検出手段が、期間音高推移における音高の変動幅が規定幅以下であれば、該期間音高推移にて音高が増加する増加区間、及び音高が減少する減少区間を検出し、その検出された増加区間及び減少区間の数が規定数以上であれば、期間特定手段が、期間音高推移に対応する第２規定期間をビブラート期間として特定するように構成されていても良い。なお、ここでいう期間音高推移とは、第２規定期間における音高推移である。ただし、第２規定期間とは、音高推移の全体にわたって、かつ時間進行に沿って互いに連続するように規定された複数の期間それぞれである。
複数によって音高推移の全体にわたって、かつ時間進行に沿って互いに連続するように規定された第２規定期間での音高推移である。

このように構成されたビブラート期間特定手段によれば、時間進行に沿った入力音声の開始時点から終了時点までの中から、条件を満たす第２規定期間を、ビブラート期間として特定することができる。

ところで、音符期間推定手段は、請求項３に記載のように、音圧推移における音圧が、期間内タイミングが除去された後の音符開始タイミング以降、最初に、該音符開始タイミングにおける音圧以下となった音圧変動時点を、該音符開始タイミングと対となる音符終了タイミングとして特定するように構成されていても良い。

このように構成された終了タイミング推定手段によれば、発音終了タイミングを音圧推移から直接推定することができる。
なお、音符期間推定手段が請求項３に記載のように構成されている場合、音符終了タイミングを表す時間進行上の時点は、期間内タイミングを除去する前に推定されたものでも良いし、期間内タイミングを除去した後に推定されたものでも良い。

ただし、音符期間推定手段が請求項３に記載のように構成されている場合、ビブラート期間において音圧が単調減少する区間を、音符終了タイミングとして推定する可能性がある。

これを防止するため、請求項３に記載の音符期間推定手段において、期間内タイミングが除去された後の音符開始タイミング以降、かつビブラート期間の終了タイミング以降における最初の音圧変動時点を、該音符開始タイミングと対となる音符終了タイミングとしてみなすようにしても良い。

ところで、人が歌唱する場合、入力音声の音圧が、音符開始タイミングにおける音圧まで低下することなく上昇し、次の音に対する発声が開始されることがある。このような状況下では、請求項３に記載の音符期間推定手段は、音符終了タイミングそのものが特定されない可能性がある。

このため、本発明において、音符期間推定手段は、請求項４に記載のように、後開始タイミングから設定時間長だけ前の時点を、前開始タイミングと対となる音符終了タイミングとして特定するように構成されていても良い。ただし、ここでいう前開始タイミングとは、期間内タイミングが除去された後の時間進行に沿って隣接する音符開始タイミングのうち、時間進行上、前の音符開始タイミングであり、後開始タイミングとは、時間進行上、後の音符開始タイミングである。

このように構成された音符期間推定手段によれば、入力音声から音符終了タイミングが推定できない場合であっても、音符開始タイミングから音符終了タイミングを推定することができる。これにより、本発明の音声処理装置によれば、音符終了タイミングが推定されないという事態に陥ることを防止できる。

特に、このように構成された本発明の音声処理装置において、設定時間長を０［ｓ］とみなせるほど短い時間とすれば、特定される音符終了タイミングは、ビブラート期間の終了タイミング以降となる。この結果、独立した１つの音符期間にビブラート期間全体を包含することができる。

なお、本発明の音声処理装置における音符期間推定手段が請求項４に記載のように構成されている場合、該音符期間推定手段は、さらに、請求項５に記載のように、後開始タイミングよりも時間進行上、前に、音圧推移における音圧が、前開始タイミングにおける音圧以下となった音圧変動時点が存在すれば、該音圧変動時点を前開始タイミングと対となる音符終了タイミングとして特定するように構成されていることが望ましい。

このように構成された本発明の音声処理装置によれば、音圧推移から音符終了タイミングを特定する方法と、音符開始タイミングから音符終了タイミングを特定する方法とを併存させたとしても、１つの音符開始タイミングに対して、音符終了タイミングを１つに特定することができる。

また、上述したように音符期間推定手段を構成した場合、入力音声の時間進行に沿って最後の音符開始タイミングと対となる音符終了タイミングが特定されない可能性がある。
このため、本発明の音符期間推定手段は、請求項６に記載のように、入力音声の時間進行に沿った終端を、期間内タイミングが除去された後の音符開始タイミングのうち、時間進行に沿った最後の音符開始タイミングと対となる音符終了タイミングとして特定するように構成されていても良い。

このように構成された本発明の音声処理装置によれば、入力音声の時間時間に沿った終端を音符終了タイミングとして特定するため、時間進行に沿った最後の音符開始タイミングと対となる音符終了タイミングが特定されないという事態を防止できる。

なお、本発明は、コンピュータに実行させるプログラムとしてなされたものでも良い。
ただし、本発明のプログラムは、請求項７に記載のように、入力音声から、その入力音声の音圧推移を特定する音圧推移特定手順と、その特定された音圧推移が単調増加である区間での第１規定期間における音圧の増加率が、時間進行に沿って最初に規定値以上となった時点それぞれを、音符開始タイミングとして検出する開始タイミング検出手順と、音高推移に基づいて、ビブラート期間を特定するビブラート期間特定手順とをコンピュータに実行させる。さらに、本発明のプログラムは、開始タイミング検出手順にて検出された音符開始タイミングの中で、ビブラート期間内に対応する音符開始タイミングを期間内タイミングとし、開始タイミング検出手順での検出結果の中から、期間内タイミングを除去する期間内タイミング除去手順と、期間内タイミング除去手順にて、期間内タイミングが除去された後の前記音符開始タイミングそれぞれと対となる音符終了タイミングを特定すると共に、該対となる音符開始タイミングと音符終了タイミングとの間の期間それぞれを音符期間として推定する音符期間推定手順とをコンピュータに実行させる必要がある。

本発明がこのようになされたプログラムであれば、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスクやフラッシュメモリ等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項１に記載された音声処理装置として機能させることができる。

楽曲検索システムの概略構成を示すブロック図である。楽曲検索処理の処理手順を示したフローチャートである。音高推定処理の処理手順を示したフローチャートである。相関ピークの検出方法を模式的に示した説明図である。音声基本周波数ｆ０の決定方法を模式的に示した説明図である。信頼度算出処理の処理手順を示したフローチャートである。ｆ０候補信頼度の導出過程を例示した説明図である。ｆ０補正処理の処理手順を示したフローチャートである。ｆ０補正処理の動作例を説明するための説明図である。開始・終了タイミング推定処理の処理手順を示したフローチャートである。開始・終了タイミングの推定過程を例示した説明図である。開始・終了タイミングの推定過程を例示した説明図である。採譜処理の処理手順を示したフローチャートである。採譜処理おいて、音符音高の決定過程を例示した説明図である。採譜結果照合処理の処理手順を示したフローチャートである。

以下、本発明の実施形態を図面と共に説明する。
まず、図１は、本発明が適用された音声処理装置を備えた楽曲検索システムの概略構成を示すブロック図である。
〈楽曲検索システムについて〉
楽曲検索システム１は、利用者が発声することで入力された入力音声から、その音声を入力する際に利用者が意図したと推定される楽曲（以下、意図予想曲と称す）を検索するものである。

このため、図１に示すように、楽曲検索システム１は、楽曲毎に予め用意された楽曲データを格納するサーバ４０と、入力音声を採譜し、その採譜した結果を楽曲データに照合することで意図予想曲を検索する音声処理装置２０とを備えている。なお、音声処理装置２０は、ネットワーク（例えば、専用回線やＷＡＮ）を介してサーバ４０に接続されている。

このうち、サーバ４０は、楽曲データを格納する記憶装置４１と、ＲＯＭ，ＲＡＭ，ＣＰＵを少なくとも有した周知のマイクロコンピュータ４２とを備えた情報処理装置を中心に構成された周知のサービス用サーバ装置である。
〈楽曲データについて〉
次に、記憶装置４１に格納される楽曲データについて説明する。

この楽曲データは、当該楽曲を識別するためのデータである楽曲情報と、当該楽曲の演奏開始から演奏終了までに要する時間を示す時間情報と、当該楽曲の旋律に関するデータであるガイドメロディとを有している。

そして、楽曲情報には、楽曲を特定するための曲番号データと、その楽曲の曲名を示す曲名データとが少なくとも含まれている。
また、ガイドメロディは、楽曲の主旋律（以下、基準旋律と称す）を形成する各構成音について、それぞれの音高及び音価が表された周知のデータである。具体的に、本実施形態における構成音の音長は、楽音出力開始時間及び楽音出力終了時間によって表されている。ただし、ここで言う楽音出力開始時間とは、その構成音の出力を開始するまでの当該楽曲の演奏開始からの時間であり、楽音出力終了時間とは、その構成音の出力を終了するまでの当該楽曲の演奏開始からの時間である。つまり、楽音出力開始時間と楽音出力終了時間との間の時間長が、当該構成音の音長となる。

以下、ガイドメロディにおいて、各構成音の音高及び音価を表す情報を、基準音符データと称す。ただし、この基準音符データは、各構成音の音高及び音価が、その構成音の基準旋律における時間進行上の順番と対応付けられたものである。
〈音声処理装置について〉
次に、音声処理装置２０について説明する。

ここで図１へと戻り、音声処理装置２０は、通信部２１と、表示部２２と、操作受付部２３と、マイクロホン２４と、音声入力部２５と、音声出力部２６と、スピーカ２７と、記憶部２８と、制御部３０とを備えている。

このうち、通信部２１は、音声処理装置２０をネットワーク（例えば、専用回線や、ＷＡＮ）に接続し、その接続されたネットワークを介して外部（即ち、サーバ４０）と通信を行うための通信インタフェースである。

そして、表示部２２は、例えば、液晶ディスプレイ等から構成された周知の表示装置である。また、操作受付部２３は、例えば、キーボードやポインティングデバイス（例えば、マウス）等の周知の入力装置からなる。

マイクロホン２４は、音声を入力するための周知の装置である。そして、音声入力部２５は、マイクロホン２４を介して入力された音声（アナログ信号）をサンプリングし、そのサンプリング値（標本値）を制御部３０に入力するＡＤ変換器として構成されている。なお、以下では、音声入力部２５にてサンプリング値へと変換された音声を音声データと称す。

さらに、音声出力部２６は、制御部３０からの指令に基づく制御信号を、スピーカ２７に出力するように構成されている。そして、スピーカ２７は、音声出力部２６からの制御信号を音に変換して放音するように構成されている。

また、記憶部２８は、電源が切断されても記憶内容を保持すると共に、記憶内容を読み書き可能に構成された記憶装置（例えば、ハードディスクドライブ）であり、プログラムや通信部２１を介してサーバ４０から取得した楽曲データ等が格納される。

次に、制御部３０は、ＲＯＭ３１と、ＲＡＭ３２と、ＣＰＵ３３とを少なくとも有した周知のマイクロコンピュータを中心に構成されている。
このうち、ＲＯＭ３１は、電源が切断されても記憶内容を保持する必要のあるプログラムやデータを格納するものである。また、ＲＡＭ３２は、プログラムやデータを一時的に格納するものであり、記憶部２８からの処理プログラムが転送されて格納されるものである。

そして、ＣＰＵ３３は、ＲＯＭ３１やＲＡＭ３２に記憶された処理プログラムに従って各処理（各種演算）を実行して、音声処理装置２０を構成する各部２１，２２，２３，２５（２４），２６（２７），２８に対する制御を実行する。

なお、本実施形態では、処理プログラムとして、利用者がマイクロホン２４を介して入力した入力音声に基づいて、その入力音声を採譜した音声音符データを生成し、その生成した音声音符データを基準音符データそれぞれに照合した結果に従って意図予想曲を検索する楽曲検索処理を制御部３０（より正確には、ＣＰＵ３３）が実行するためのものが用意されている。
〈楽曲検索処理について〉
次に、制御部３０が実行する楽曲検索処理について説明する。

ここで、図２は、楽曲検索処理の処理手順を示したフローチャートである。
この楽曲検索処理は、マイクロホン２４を介して入力された入力音声に基づく音声データが、少なくとも１つ記憶部２８に格納された後、操作受付部２３介して起動指令を受け付けると起動される。ここでの入力音声は、時間の進行に沿って、一定時間以上連続（継続）したものである。

そして、図２に示すように、楽曲検索処理は、起動されると、まず、Ｓ１１０にて、記憶部２８に記憶された音声データの中から、１つの音声データを取得する。
続く、Ｓ１２０では、Ｓ１１０にて取得した音声データに対して、それぞれ周知のダウンサンプリング、直流成分の除去、ノイズ除去処理、コンプレッサ処理、及びノーマライズを事前処理として実行する。以下、Ｓ１２０にて事前処理が完了した音声データを処理済音声データと称す。

そして、Ｓ１３０では、処理済音声データにおいて入力音声の時間進行に沿って規定された単位区間毎に、その単位区間における入力音声の音高（音声基本周波数ｆ０）を推定する音高推定処理を実行する。

さらに、Ｓ１５０では、入力音声において、規定の音圧以上で発声を継続した期間である発音期間それぞれの開始タイミング及び終了タイミングを推定する開始・終了タイミング推定処理を実行する。以下、開始・終了タイミング推定処理にて推定される開始タイミング、終了タイミングを、それぞれ、発音開始タイミング、発音終了タイミングと称す。

続く、Ｓ１９０では、Ｓ１５０にて推定された発音開始タイミング及び発音終了タイミングに基づいて、１つの音符とみなせる期間（以下、音符期間と称す）を推定し、その推定した音符期間における音高（以下、音符音高と称す）を、Ｓ１３０にて推定された単位区間毎の音声基本周波数ｆ０に基づいて特定する採譜処理を実行する。この採譜処理により、各音符期間の期間長（即ち、音長、または、この音長を量子化した音価）と、音符音高とが対応付けられたデータ、即ち、音声音符データとして、入力音声を音符化したデータが生成される。

そして、Ｓ２１０では、Ｓ１９０で生成された音声音符データを、基準音符データに照合し、その照合した結果に基づいて意図予想曲を特定すると共に、その特定した意図予想曲を音声処理装置２０の利用者に報知する採譜結果照合処理を実行する。

その後、本楽曲検索処理を終了する。
〈音高推定処理について〉
次に、楽曲検索処理のＳ１３０にて起動される音高推定処理について説明する。

ここで、図３は、音高推定処理の処理手順を示したフローチャートである。
この音高推定処理は、図３に示すように、起動されると、Ｓ３１０にて、処理済音声データを周波数解析する。この周波数解析として、本実施形態では、処理済音声データにおける予め規定されたサンプリング数の標本値をＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）する。なお、サンプリング数分の標本値は、処理済音声データの開始から終了までの間を、時間進行に沿った一部を重複させながら繰り返し取得される。これにより、入力音声の振幅スペクトル（即ち、周波数成分の分布）が、サンプリング数に対応する単位区間毎に導出される。

続く、Ｓ３３０では、Ｓ３１０にて導出した振幅スペクトルに基づいて、振幅スペクトルの周波数成分が基本周波数成分であることの確からしさを表す自己相関値を導出する。
具体的には、１つの振幅スペクトルの各周波数成分における振幅値と、その振幅スペクトルにおける各周波数成分から規定周波数幅だけ増加させた周波数成分における振幅値との積和を、自己相関値として導出している。このため、規定周波数幅だけ変位させる毎に導出される自己相関値は、規定周波数幅だけ変位させた際に、基本周波数成分、またはその基本周波数の倍音成分が一致すると大きな値となる。

なお、Ｓ３３０では、振幅スペクトル（即ち、単位区間）毎に、その振幅スペクトルから導出された全ての自己相関値の平均値（以下、自己相関平均値と称す）も導出する。
さらに、Ｓ３５０では、先のＳ３３０にて導出された自己相関値を平滑化微分することで、各単位区間における音声基本周波数ｆ０の候補となる周波数を表す区間ｆ０候補を検出する。

その区間ｆ０候補は、図４に示すように、自己相関値の軌跡における極大値（以下、相関ピークとする）に対応する周波数である。ここでの自己相関値の軌跡とは、規定周波数毎の自己相関値を周波数軸に沿って配置してなるものである。

ただし、本実施形態では、自己相関値が自己相関平均値以上である相関ピークのみを、区間ｆ０候補としている（すなわち、図４に示す例では、第４相関ピークが自己相関平均値未満であるため、第４相関ピークに対応する周波数は、区間ｆ０候補として検出されない）。さらに、本実施形態におけるＳ３５０では、区間ｆ０候補として検出されない周波数成分における自己相関値は、その値を０としている。

このＳ３５０は、処理済音声データに規定された全単位区間について終了するまで繰り返し実行される。
続くＳ３７０では、Ｓ３５０にて検出された区間ｆ０候補それぞれの音声基本周波数ｆ０としての尤度を表すｆ０候補信頼度を算出する信頼度算出処理を実行する。この信頼度算出処理にて導出されるｆ０候補信頼度は、尤度が高いほど大きな値となる。

なお、この信頼度算出処理は、単位区間毎に実行される。このため、一回の信頼度算出処理により、１つの振幅スペクトルから導出された区間ｆ０候補それぞれについて、ｆ０候補信頼度が算出される。

そして、Ｓ３９０では、Ｓ３７０にて導出された単位区間毎のｆ０候補信頼度に基づいて、その単位区間における音声基本周波数ｆ０を決定する。その音声基本周波数ｆ０として決定される区間ｆ０候補は、図５に示すように、Ｓ３７０にて導出された全てのｆ０候補信頼度の中で、値が最も高いｆ０候補信頼度に対応するものである（図５に示す例では、第１区間ｆ０候補が、音声基本周波数ｆ０として決定される）。

ただし、本実施形態のＳ３９０では、予め規定された信頼度閾値未満であるｆ０候補信頼度は、その値を０としている（図５に示す例では、第３区間ｆ０候補のｆ０候補信頼度が信頼度閾値未満であるため、そのｆ０候補信頼度の値が０となる）。そして、単位区間における全てのｆ０候補信頼度が信頼度閾値未満であれば、その単位区間における音声基本周波数ｆ０を０［Ｈｚ］に決定する。つまり、ｆ０候補信頼度が低い場合、そのｆ０候補信頼度に対応する区間ｆ０候補が、音声基本周波数ｆ０として決定されないようにしている。

さらに、Ｓ４１０では、処理済音声データに規定された全ての単位区間について、Ｓ３７０及びＳ３９０のステップを実行したか否かを判定する。
そのＳ４１０での判定の結果、全ての単位区間について、Ｓ３７０及びＳ３９０を実行していなければ、Ｓ３７０へと戻る。そのようにして移行したＳ３７０では、前回のＳ３７０にてｆ０候補信頼度を算出した単位区間から、処理済音声データにおける時間進行に沿って次の単位区間を対象としてｆ０候補信頼度を算出し、その後、Ｓ３９０へと進む。

そして、全ての単位区間について、Ｓ３７０及びＳ３９０の実行が終了すると、Ｓ４３０へと進む。
そのＳ４３０では、Ｓ３９０にて決定された単位区間毎の音声基本周波数ｆ０を補正するｆ０補正処理を実行する。このｆ０補正処理は、単位区間毎の音声基本周波数ｆ０を、入力音声における時間進行に沿って配置してなる周波数推移分布において、音声基本周波数ｆ０が不連続とみなせる不連続領域に対して実行される。

続く、Ｓ４５０では、Ｓ４３０にて補正が実行された後の各単位区間における音声基本周波数ｆ０を、半音単位で量子化する。これにより、音声基本周波数ｆ０が、半音毎に吸着されることになる。なお、この量子化は、周知の処理であるため、ここでの詳しい説明は省略する。

その後、本音高推定処理を終了して、楽曲検索処理のＳ１５０へと進む。
〈信頼度算出処理について〉
次に、音高推定処理のＳ３７０にて起動される信頼度算出処理について説明する。

ここで、図６は、信頼度算出処理の処理手順を示したフローチャートである。
この信頼度算出処理は、図６に示すように、音高推定処理のＳ３７０にて起動されると、Ｓ３７１０では、１つの単位区間における全ての区間ｆ０候補の中から、特定周波数帯に含まれる区間ｆ０候補（以下、特定ｆ０候補と称す）の自己相関値を抽出する。ただし、本実施形態における特定ｆ０候補は、特定周波数帯に含まれる区間ｆ０候補の中で、最低周波数に対応するものである。なお、特定周波数帯とは、自己相関値の導出によって自動的に規定される下限周波数から上限周波数までの周波数帯である。

続く、Ｓ３７２０では、Ｓ３７１０にて抽出した自己相関値に対応する特定ｆ０候補の倍音範囲に含まれる区間ｆ０候補（以下、倍音ｆ０候補と称す）の自己相関値を１つ取得する。ただし、倍音範囲とは、Ｓ３７１０にて取得された自己相関値に対応する特定ｆ０候補の倍音成分を中心として、その倍音成分を挟むように規定された周波数範囲である。

そして、Ｓ３７３０では、Ｓ３７２０にて取得した倍音ｆ０候補の自己相関値から、Ｓ３７１０にて抽出された特定ｆ０候補の自己相関値を減算する。そして、その減算結果を、Ｓ３７２０にて取得した倍音ｆ０候補の自己相関値として新規に規定（即ち、変更）する。

続く、Ｓ３７４０では、１つの単位区間における全ての倍音ｆ０候補の自己相関値に対して、Ｓ３７３０のステップを実行したか否かを判定する。その判定の結果、全ての倍音ｆ０候補の自己相関値に対して、Ｓ３７３０のステップを実行していなければ、Ｓ３７２０へと戻る。

そのようにして移行したＳ３７２０では、前回Ｓ３７２０にて取得した自己相関値に対応する区間ｆ０候補の次に高い倍音範囲に含まれる区間ｆ０候補を倍音ｆ０候補とし、その倍音ｆ０候補の自己相関値を取得して、Ｓ３７３０へと進む。

つまり、このＳ３７２０からＳ３７４０のステップを繰り返すことにより、図７（Ａ）に示すように、倍音ｆ０候補の自己相関値は、先の音高推定処理におけるＳ３３０にて導出された値から、特定ｆ０候補の自己相関値が減算された値に変更される。

さらに、Ｓ３７５０では、自己相関値に減衰係数を乗算する。この減衰係数は、図７（Ｂ）に示すように、乗算される自己相関値に対応する周波数が低いほど値が大きく、周波数が高いほど値が小さなものである。

ただし、減衰係数が乗算される自己相関値は、特定ｆ０候補の自己相関値と、Ｓ３７２０からＳ３７４０のステップの繰り返しにより変更された全ての倍音ｆ０候補の自己相関値とを含む、単位区間における全ての区間ｆ０候補の自己相関値である。

続く、Ｓ３７６０では、Ｓ３７５０にて減衰係数が乗算された後の自己相関値に、各自己相関値に対応する区間ｆ０候補のスペクトル振幅値を乗算する。そして、乗算した結果を、各区間ｆ０候補についてのｆ０候補信頼度として導出する。

なお、区間ｆ０候補以外の周波数成分（以下、非候補周波数と称す）に対応する自己相関値は、先の音高推定処理におけるＳ３５０にて、その値が０とされる。このため、非候補周波数の自己相関値について、Ｓ３７５０での減衰係数の乗算や、Ｓ３７６０でのｆ０候補信頼度の演算を実行しても、その演算結果は０になる。

したがって、Ｓ３７５０での減衰係数の乗算、及びＳ３７６０でのｆ０候補信頼度の演算により、単位区間における区間ｆ０候補についてのｆ０候補信頼度のみが算出される。
その後、本信頼度算出処理を終了して、音高推定処理のＳ３９０へと戻る。

つまり、本実施形態の信頼度算出処理では、各周波数成分の自己相関値に減衰係数を乗じることで、音声基本周波数ｆ０の倍音成分が含まれる可能性の高い高周波帯における区間ｆ０候補の自己相関値が抑制される。よって、その値が抑制された自己相関値に、各自己相関値に対応する区間ｆ０候補の振幅値を乗じたｆ０候補信頼度は、基本周波数の周波数成分に対応するものほど大きな値となる。
〈ｆ０補正処理について〉
次に、音高推定処理のＳ４３０にて起動されるｆ０補正処理について説明する。

ここで、図８は、ｆ０補正処理の処理手順を示したフローチャートである。
このｆ０補正処理は、図８に示すように、起動されると、まず、Ｓ４３１０では、先の音高推定処理のＳ３１０にて周波数解析を実行した全ての単位区間の中から、１つの単位区間を選択する。このＳ４３１０では、単位区間は、Ｓ４３１０に移行する毎に、処理済音声データの開始から、処理済音声データにおける時間進行に沿って１つずつ選択される。

続く、Ｓ４３２０では、先のＳ４３１０にて選択された単位区間における音声基本周波数ｆ０が０［Ｈｚ］であるか否かを判定する。
その判定の結果、音声基本周波数ｆ０が０［Ｈｚ］であれば、Ｓ４３３０へと進む。そのＳ４３３０では、区間カウンタを１つインクリメントして、Ｓ４３１０へと戻る。

つまり、Ｓ４３１０からＳ４３３０のステップが実行されることで、音声基本周波数ｆ０が０［Ｈｚ］である単位区間（以下、非正規周波数区間と称す）が、処理済音声データの時間進行に沿って連続する数が計測される。

一方、Ｓ４３２０での判定の結果、音声基本周波数が０［Ｈｚ］以外の周波数であれば、Ｓ４３４０へと進む。
そのＳ４３４０では、今回Ｓ４３４０に移行するまでの間、第１区間ｆ０としていた音声基本周波数ｆ０を第２区間ｆ０とし、今回Ｓ４３４０へと移行する契機となり、かつＳ４３１０で選択された単位区間における音声基本周波数ｆ０を第１区間ｆ０として設定する。つまり、このＳ４３４０へと移行すると、処理済音声データの時間進行に沿って取得済みである音声基本周波数ｆ０の中で、音声開始に近い単位区間における音声基本周波数ｆ０を第２区間ｆ０とし、音声終了に近い単位区間における音声基本周波数ｆ０を第１区間ｆ０としている。

続く、Ｓ４３５０では、区間カウンタの値であるカウント値が、予め規定された第１規定値以上であるか否かを判定する。
そして、Ｓ４３５０での判定の結果、カウント値が第１規定値以上であれば、Ｓ４３６０へと進む。すなわち、処理済音声データの時間進行に沿って連続する非正規周波数区間の数が、第１規定値以上であれば、その連続する非正規周波数区間を、周波数推移分布における不連続領域として検出する。以下、第１規定値以上連続する非正規周波数区間を、長期不連続領域と称す。

そして、Ｓ４３６０では、処理済音声データの時間進行において、第２区間ｆ０に対応する単位区間の直後の単位区間から、直近のＳ４３１０にて選択された単位区間の直前の単位区間までの音声基本周波数ｆ０が、第２区間ｆ０となるように補正する。その後、Ｓ４３９０へと進む。

つまり、Ｓ４３６０では、長期不連続領域を形成する非正規周波数区間における音声基本周波数ｆ０を、０［Ｈｚ］から第２区間ｆ０へと変更する。
ところで、Ｓ４３５０での判定の結果、カウント値が第１規定値未満であれば、Ｓ４３７０へと進む。そのＳ４３７０では、カウント値が１以上であるか否かを判定する。その判定の結果、カウント値が１以上であれば、Ｓ４３８０へと進む。つまり、入力音声の時間進行に沿って連続する非正規周波数区間の数が、１つ以上であり、かつ第１規定値未満であれば、その連続する非正規周波数区間を、周波数推移分布における不連続領域として検出する。以下、１つ以上かつ第１規定値未満連続する非正規周波数区間を、短期不連続領域と称す。

そして、Ｓ４３８０では、短期不連続領域に対応する単位区間の音声基本周波数ｆ０を、第２区間ｆ０から、一定の変動幅で変動しながら順に第１区間ｆ０へと直線的に到達するように補正する。その後、Ｓ４３９０へと進む。

つまり、Ｓ４３８０では、短期不連続領域を形成する非正規周波数区間における音声基本周波数ｆ０を、０［Ｈｚ］から、第２区間ｆ０と第１区間ｆ０とを結ぶ直線上の周波数へと変更する。

続くＳ４３９０では、区間カウンタを初期化（ここでは、値を０と）する。
その後、Ｓ４４００にて、処理済音声データに規定された全ての単位区間を、Ｓ４３１０にて選択済みであるか否かを判定する。その判定の結果、未選択の単位区間が存在すれば、Ｓ４３１０へと戻る。

ところで、Ｓ４３７０での判定の結果、カウント値が１未満であれば、Ｓ４４１０へと進む。すなわち、周波数推移分布において、第２区間ｆ０に対応する単位区間と第１区間ｆ０に対応する単位区間との間に、非正規周波数区間が存在しなければ、Ｓ４４１０へと進む。

そのＳ４４１０では、音飛フラグが設定済みであるか否かを判定する。なお、音飛フラグとは、設定済みであれば、周波数推移分布における不連続領域の１つである倍音誤検出領域の開始時点が検出されたことを表す。

つまり、Ｓ４４１０以降のステップでは、周波数推移分布において、処理済音声データの時間進行に沿って隣接する単位区間における音声基本周波数ｆ０同士の比率が、予め設定された比率の範囲を表す特別範囲を超えることで、周波数推移が不連続となる不連続領域（即ち、倍音誤検出領域）を検出する。これと共に、Ｓ４４１０以降のステップでは、倍音誤検出領域を形成する単位区間に対応する音声基本周波数ｆ０を補正する。

そして、Ｓ４４１０での判定の結果、音飛フラグが未設定であれば、Ｓ４４２０へと進む。そのＳ４４２０では、第２区間ｆ０を第１区間ｆ０にて除した結果（以下、第１周波数比率と称す）が、特別範囲を超えているか否かを判定する。

そして、Ｓ４４２０での判定の結果、第１周波数比率が特別範囲を超えていれば、Ｓ４４３０へと進む。そのＳ４４３０では、音飛フラグを設定する。つまり、処理済音声データの時間進行に沿って隣接する単位区間における音声基本周波数ｆ０同士の比率が、特別範囲を超えると、それら隣接する単位区間のうち、時間進行に沿った後の単位区間を、倍音誤検出領域の開始時点とする。

続く、Ｓ４４４０では、第２区間ｆ０を第３区間ｆ０とする。その後、Ｓ４４００へと進む。
なお、Ｓ４４２０での判定の結果、第１周波数比率が特別範囲以内であれば、周波数推移分布において、倍音誤検出領域が開始されていないものと判定して、Ｓ４４００へと進む。そのＳ４４００では、全ての単位区間の中に、未選択の単位区間が存在すれば（Ｓ４４００：ＮＯ）、Ｓ４３１０へと戻る。

ところで、Ｓ４４１０での判定の結果、音飛フラグが設定済みであれば、Ｓ４４５０へと進む。そのＳ４４５０では、周波数推移分布において、倍音誤検出領域が継続中であるものとして、音飛カウンタを１つインクリメントする。

その後、Ｓ４４６０では、第３区間ｆ０を第１区間ｆ０にて除した結果（以下、第２周波数比率と称す）が、特別範囲を超えているか否かを判定する。その判定の結果、第２周波数比率が特別範囲を超えていれば、Ｓ４４７０へと進む。

そして、Ｓ４４７０では、音飛カウンタの値である音飛値が、予め規定された第２規定値以上であるか否かを判定する。その判定の結果、音飛値が第２規定値未満であれば、周波数推移分布において、倍音誤検出領域が継続中であるものとして、Ｓ４４００へと進む。

ところで、Ｓ４４６０での判定の結果、第２周波数比率が特別範囲以内であれば、周波数推移分布において、倍音誤検出領域の継続が終了したものとして、Ｓ４４８０へと進む。つまり、倍音誤検出領域は、周波数推移分布において、時間進行に沿って隣接する単位区間における音声基本周波数ｆ０が特別範囲を超えて変動（以下、特定変動と称す）した時点から、その特定変動の後に時間進行に沿って隣接する単位区間における音声基本周波数ｆ０が、第３区間ｆ０を基準とした特別範囲以内へと戻った時点までの領域である。ただし、倍音誤検出領域は、その領域を構成する単位区間の数が第２規定数未満である領域である。

そのＳ４４８０では、倍音誤検出領域に対応する単位区間の音声基本周波数ｆ０を、第３区間ｆ０から、一定の変動幅で変動しながら順に第１区間ｆ０へと直線的に到達するように補正する。その後、Ｓ４４９０へと進む。

なお、Ｓ４４７０での判定の結果、音飛値が第２規定値以上であれば、対応する特定変動以降に隣接する単位区間からなる領域は、不連続領域ではなく、入力音声における音声基本周波数ｆ０の推移そのものを表しているものとして、Ｓ４４９０へと進む。そのＳ４４９０では、音飛カウンタを初期化すると共に、音飛フラグを解除して、Ｓ４４００へと進む。

そのＳ４４００では、全ての単位区間の中に、未選択の単位区間が存在すれば（Ｓ４４０：ＮＯ）、Ｓ４３１０へと戻る。なお、Ｓ４４００に移行した際に、未選択の単位区間が存在しなければ、ｆ０補正処理を終了して、音高推定処理のＳ４５０へと進む。

次に、本実施形態におけるｆ０補正処理を実行した場合の動作例について説明する。
ここで、図９（Ａ）は、ｆ０補正処理を実行する前の周波数推移分布を示した図面であり、図９（Ｂ）は、ｆ０補正処理を実行した後の周波数推移分布を示した図面である。

図９（Ａ）に示すような周波数推移分布を示す各単位区間における音声基本周波数ｆ０に対して、ｆ０補正処理が実行されると、まず、周波数推移分布における入力音声の時間進行に沿った単位区間が選択される（Ｓ４３１０）。その選択された単位区間における音声基本周波数ｆ０は、単位区間ｔ１における音声基本周波数ｆ０＿ｔ１までは、全て０［Ｈｚ］以外の周波数であり、かつ時間進行に沿って連続する単位区間における音声基本周波数ｆ０同士の比率が、特別範囲以内である。このため、周波数推移分布における開始時点から単位区間ｔ１までは、周波数補正が行われること無く、音高推移処理のＳ３９０にて決定された音声基本周波数ｆ０が維持される。

ところが、単位区間ｔ１における音声基本周波数ｆ０＿ｔ１と、単位区間ｔ２における音声基本周波数ｆ０＿ｔ２との比率は、特別範囲を超える。
このため、Ｓ４３１０にて単位区間ｔ２が選択されると、Ｓ４４２０にて否定判定され、音飛フラグが設定される。次に、Ｓ４３１０にて選択された単位区間ｔ３における音声基本周波数ｆ０＿ｔ３は、音声基本周波数ｆ０＿ｔ１との比率が特別範囲を超える。このため、Ｓ４４６０にて肯定判定され、しかも、この時点での音飛値が第２規定値未満（このｆ０補正処理の動作の説明では、第２規定値を２以上とする）であることから、Ｓ４４７０では、否定判定となる。

そして、Ｓ４３１０にて、処理済音声データの時間進行に沿って次に選択された単位区間ｔ４における音声基本周波数ｆ０＿ｔ４は、音声基本周波数ｆ０＿ｔ１との比率が特別範囲以内である。よって、Ｓ４４６０にて否定判定され、単位区間ｔ２から単位区間ｔ３までの区間が、倍音誤検出領域として検出される。このようにして検出された倍音誤検出領域における音声基本周波数ｆ０＿ｔ２，ｆ０＿ｔ３を、図９（Ｂ）に示すように、音声基本周波数ｆ０＿ｔ１から、一定の変動幅で変動しながら順に音声基本周波数ｆ０＿ｔ４へと直線的に到達するように補正する。

ここで、図９（Ａ）へと戻り、ｆ０補正処理において、入力音声の時間進行に沿って単位区間の選択を繰り返す。このとき、図９（Ａ）に示す周波数推移分布において、単位区間ｔ５から単位区間ｔ９までの間の領域は、全ての単位区間にて音声基本周波数ｆ０（図中、ｆ０＿ｔ５〜ｔ９）が０［Ｈｚ］である。

このことから、ｆ０補正処理では、Ｓ４３１０にて、単位区間ｔ５〜ｔ１０が選択された際には、それらの単位区間ｔ５〜ｔ１０が選択される毎に、Ｓ４３３０へと移行し、区間カウンタを５まで増加させる。なお、Ｓ４３１０にて、入力音声に沿って次に選択される単位区間ｔ１０における音声基本周波数ｆ０＿ｔ１０は、０［Ｈｚ］以外の周波数であるため、Ｓ４３２０にて肯定判定される。そして、カウント値が、第１規定値未満であり（このｆ０補正処理の動作の説明では、第１規定値を６以上とする）、かつ１以上であることから、Ｓ４３７０では否定判定となる。よって、単位区間ｔ５から単位区間ｔ１０が、短期不連続領域として検出される。このようにして検出された短期不連続領域における音声基本周波数ｆ０＿ｔ５〜ｔ９を、図９（Ｂ）に示すように、音声基本周波数ｆ０＿ｔＡから、一定の変動幅で変動しながら順に音声基本周波数ｆ０＿ｔ１０へと直線的に到達するように補正する。

つまり、本実施形態のｆ０補正処理では、周波数推移分布における不連続領域として、倍音誤検出領域や、短期不連続領域、長期不連続領域を検出する。
そして、不連続領域として倍音誤検出領域や短期不連続領域が検出されると、ｆ０補正処理では、それらの倍音誤検出領域や短期不連続領域を時間進行に沿って挟む直前の単位区間における音声基本周波数ｆ０から、一定の変動幅で変動しながら順に、直後の単位区間における音声基本周波数ｆ０へと到達するように補正する。一方、不連続領域として長期不連続領域が検出されると、ｆ０補正処理では、その長期不連続領域に対して時間進行上直前の単位区間における音声基本周波数ｆ０を、長期不連続領域を形成する単位区間における音声基本周波数ｆ０とする。
〈開始・終了タイミング推定処理について〉
次に、楽曲検索処理のＳ１５０にて起動される開始・終了タイミング推定処理について説明する。

ここで、図１０は、開始・終了タイミング推定処理の処理手順を示したフローチャートである。
この開始・終了タイミング推定処理は、図１０に示すように、起動されると、まず、Ｓ５１０にて、先の音高推定処理のＳ３１０にて周波数解析を実行した単位区間それぞれについて、各単位区間における音圧を導出する。その導出される音圧は、先のＳ３１０にて導出された振幅スペクトルにおけるスペクトル振幅値の総和である。

続いて、Ｓ５２０では、Ｓ５１０にて導出された単位区間毎の音圧に基づいて、入力音声の時間進行に沿った音圧の推移を表す音圧推移を導出する。これと共に、Ｓ５２０では、導出された音圧推移を移動平均によって平滑化する。ただし、本実施形態における移動平均は、規定数の単位区間を、音圧推移における時間進行に沿って互いに重複するように繰り返し規定して実施される。なお、繰り返し規定される規定数の単位区間は、単位区間を１つずつ変位させることで達成される。これにより、平滑化された後の音圧推移（以下、平滑化音圧推移と称す）は、平滑化される前の音圧推移と同様、全ての単位区間にて対応する音圧を有することになる。

そして、Ｓ５３０では、図１１（Ａ）に示すように、平滑化音圧推移において、各単位区間に対応する音圧それぞれから、予め規定された大きさの騒音音圧を減算する。このとき、減算結果が負の値（マイナス）となる音圧については、その値を０とする。

続く、Ｓ５４０では、音圧推移における全ての単位区間の中から、１つの単位区間を選択する。これと共に、Ｓ５４０では、その選択された単位区間における音圧を取得する。このＳ５４０では、単位区間は、Ｓ５４０に移行する毎に、処理済音声データの開始から、その処理済音声データの時間進行に沿って順次選択される。

そして、Ｓ５５０では、今回Ｓ５５０に移行するまでの間、第１音圧Ｐｖ１としていた音圧を第２音圧Ｐｖ２とし、Ｓ５５０へと移行する際にＳ５４０にて選択した単位区間における音圧を第１音圧Ｐｖ１として設定する。つまり、このＳ５５０へと移行すると、処理済音声データの時間進行に沿って取得済みである音圧の中で、音声開始に近い単位区間における音圧を第２音圧Ｐｖ２とし、音声終了に近い単位区間における音圧を第１音圧Ｐｖ１としている。

さらに、Ｓ５６０では、第１音圧Ｐｖ１を第２音圧Ｐｖ２にて除する（以下、この演算結果を音圧増加率と称す）。
続く、Ｓ５７０では、Ｓ５６０にて導出された音圧増加率が、予め規定された規定閾値Ｔｈ以上であるか否かを判定する。そのＳ５７０での判定の結果、音圧増加率が規定閾値Ｔｈ以上であれば、Ｓ５８０へと進む。そして、Ｓ５８０では、発音カウンタを１つインクリメントする。

続く、Ｓ５９０では、発音カウンタの値である発音カウント値が、予め規定された第１閾値以上であるか否かを判定し、判定の結果、発音カウント値が第１閾値未満であれば、Ｓ６００へと進む。そのＳ６００では、発音カウント値が、第１閾値よりも１つ小さな値として予め規定された第２閾値以上であるか否かを判定する。そのＳ６００での判定の結果、発音カウント値が第２閾値未満であれば、Ｓ５４０へと戻り、Ｓ５４０〜Ｓ５９０のステップを繰り返す。

一方、Ｓ６００での判定の結果、発音カウント値が第２閾値以上であれば、即ち、Ｓ５４０〜Ｓ５９０のステップを繰り返す際に、第２閾値の値だけ連続してＳ５７０にて肯定判定されると、Ｓ６１０へと進む。つまり、Ｓ６００にて肯定判定されることにより、音圧増加率が規定閾値Ｔｈ以上となる単位区間が、第１閾値の値に１を加えた数だけ連続する領域（以下、開始判定対象区間と称す）が検出される。

そして、Ｓ６１０では、開始判定対象区間を形成する単位区間のうち、入力音声の時間進行に沿った最初の単位区間を発音開始タイミングとして特定する。これと共に、その特定された発音開始タイミングにおける音圧（以下、発音開始音圧と称す）を取得する。さらに、Ｓ６１０では、それら特定された発音開始タイミング及び取得された発音開始音圧を記憶部２８に記憶する。なお、図１０〜１２では、開始タイミングを「ＳＴ」と表記する。

なお、Ｓ５９０での判定の結果、発音カウント値が第１閾値以上であれば、Ｓ６００及びＳ６１０のステップを実行することなく、Ｓ６３０へと進む。つまり、平滑化音圧推移において、発音開始タイミング以降における音圧増加率が、その発音開始タイミングから継続して規定閾値Ｔｈ以上である場合には、Ｓ５９０にて否定判定される。

ところで、Ｓ５７０での判定の結果、音圧増加率が規定閾値Ｔｈ未満であれば、Ｓ６２０にて、発音カウンタを初期化（ここでは、０と）する。つまり、規定閾値Ｔｈ以上の音圧増加率が継続する単位区間の数の計測を終了する。その後、Ｓ６３０へと進む。

そして、Ｓ６３０では、第１音圧Ｐｖ１が、直近のＳ６１０にて記憶部２８に記憶された発音開始音圧（以下、終了判定音圧と称す）以下であるか否かを判定する。その判定の結果、第１音圧Ｐｖ１が終了判定音圧未満であれば、Ｓ６４０へと進む。

そのＳ６４０では、第１音圧Ｐｖ１に対応する単位区間を発音終了タイミングとして記憶部２８に記憶する。その後、Ｓ６５０へと進む。なお、図１０〜図１２では、終了タイミングを「ＥＴ」と表記する。

なお、Ｓ６３０での判定の結果、第１音圧Ｐｖ１が終了判定音圧以上であれば、Ｓ５４０にて選択された単位区間が発音終了タイミングではないものと判定して、Ｓ６４０を実行することなく、Ｓ６５０へと進む。

そのＳ６５０では、処理済音声データに規定された全ての単位区間を、Ｓ５４０にて選択済みであるか否かを判定する。その判定の結果、未選択の単位区間が存在すれば、Ｓ５４０へと戻る。一方、Ｓ６５０での判定の結果、Ｓ５４０にて未選択の単位区間が存在しなければ、Ｓ６６０へと進む。

つまり、図１１（Ｂ）に示すように、音圧増加率が継続して規定閾値以上となる音圧の単調増加区間が平滑化音圧推移に含まれている場合、開始・終了タイミング推定処理において、Ｓ５４０〜Ｓ６５０のステップを繰り返すことにより、その単調増加区間における最初の単位区間それぞれが発音開始タイミング（図中、第１，第２，第３，第４発音ＳＴ）として特定される。ただし、ここで言う単調増加区間とは、開始判定対象区間を形成する単位区間数以上連続する単位区間である。

さらに、Ｓ５４０〜Ｓ６５０のステップを繰り返すことにより、平滑化音圧推移において、処理済音声データの時間進行に沿った発音開始タイミング以降の単位区間の中で、各単位区間に対応する音圧が、最初に終了判定音圧以下となった単位区間が発音終了タイミング（図中、第１，第２発音ＥＴ）として特定される。

ここで、図１０へと戻り、続くＳ６６０では、処理済音声データに設定された単位区間の中で、処理済音声データの時間進行に沿った最終の単位区間を発音終了タイミングとして、記憶部２８に記憶する。

続く、Ｓ６７０では、処理済音声データに規定された全ての単位区間の中から、判定対象区間における音声基本周波数ｆ０を取得する。このＳ６７０にて音声基本周波数ｆ０が取得される判定対象区間は、予め規定された規定数の単位区間からなるものである。その規定数の単位区間は、処理済音声データにおける時間進行に沿って互いに連続かつ重複するように繰り返し規定される。

そして、Ｓ６８０では、Ｓ６７０にて取得した判定対象区間における音声基本周波数ｆ０に基づき、それらの音声基本周波数ｆ０の変動幅を導出する。このＳ６８０にて導出される変動幅は、判定対象区間における最大周波数の音声基本周波数ｆ０と、最小周波数の音声基本周波数ｆ０との差である。

続く、Ｓ６９０では、Ｓ６８０にて導出した変動幅が、予め規定された周波数の幅である規定幅未満であるか否かを判定する。その判定の結果、変動幅が規定幅未満であれば、Ｓ７００へと進む。

そして、Ｓ７００では、判定対象区間における全ての音声基本周波数ｆ０を、処理済音声データの時間進行に沿って配置してなる周波数軌跡を導出する。これと共に、その導出された周波数軌跡を平滑化微分して、周波数軌跡における極値を検出する。

続く、Ｓ７１０では、Ｓ７００での平滑化微分の結果、周波数軌跡における極値が検出されたか否かを判定する。その判定の結果、極値が検出されていれば、Ｓ７２０へと進み。

そのＳ７２０では、Ｓ７００にて検出された判定対象区間内での極値の数を集計する。そして、Ｓ７３０では、Ｓ７２０にて集計された極値の数であるビブラート値が、予め規定された第３閾値以上であるか否かを判定する。そのＳ７３０での判定の結果、ビブラート値が第３閾値以上であれば、Ｓ７４０へと進む。

つまり、Ｓ６７０からＳ７３０でのステップを実行することにより、音声基本周波数ｆ０の変動幅が規定幅未満である判定対象区間の中で、音声基本周波数ｆ０が増加する増加区間及び減少する減少区間の和が第３閾値以上である判定対象区間が、ビブラート期間として検出される。なお、このビブラート期間とは、音声処理装置２０の利用者がビブラートにて発声した期間を意味する。

続く、Ｓ７４０では、Ｓ７２０にて集計されたビブラート値を初期化（ここでは、０と）する。さらに、Ｓ７５０では、記憶部２８に記憶されている発音開始タイミングの中から、ビブラート期間内に対応する発音開始タイミング（以下、期間内タイミングと称す）を消去（除去）する。その後、Ｓ７７０へと進む。

なお、Ｓ６９０での判定の結果、判定対象区間内における音声基本周波数ｆ０の変動幅が規定幅以上である場合や、Ｓ７１０での判定の結果、判定対象区間内に極値が含まれていない場合には、Ｓ７６０へと進む。さらに、Ｓ７３０での判定の結果、ビブラート値が第３閾値未満である場合にも、Ｓ７６０へと進む。

つまり、Ｓ６７０にて規定された判定対象区間がビブラート期間でなければ、Ｓ７６０へと進む。そのＳ７６０では、ビブラート値を初期化した後、Ｓ７７０へと進む。
そのＳ７７０では、処理済音声データに設定された全ての単位区間を、判定対象区間として規定したか否かを判定する。その判定の結果、全ての単位区間が判定対象区間として規定されていなければ、Ｓ６８０へと戻り、新たな判定対象区間を設定して、Ｓ６８０へと進む。そして、全ての単位区間が判定対象区間として規定されるまで、Ｓ６８０〜Ｓ７７０を繰り返す。

例えば、本開始・終了タイミング推定処理を実行することで、図１２（Ａ）に示すような発音開始タイミング（第１〜第４発音開始タイミング）、及び発音終了タイミング（第１，第２発音終了タイミング）が特定されると共に、第３発音開始タイミング、及び第４発音開始タイミングを含む判定対象区間をビブラート期間として特定した場合を想定する。このような場合、第３発音開始タイミング及び第４発音開始タイミングは、期間内タイミングとして除去されるため、図１２（Ｂ）に示すように、第１発音開始タイミングと第２発音開始タイミングとの２つのみが残される。なお、発音終了タイミングは、除去されずに全て残される。

なお、Ｓ７７０での判定の結果、全ての単位区間が判定対象として規定されていれば、本開始・終了タイミング推定処理を終了して、楽曲検索処理のＳ１９０へと進む。
つまり、本実施形態の開始・終了タイミング推定処理では、入力音声の音圧推移に基づいて、発音開始タイミングと発音終了タイミングとを検出すると共に、入力音声における音声基本周波数ｆ０の時間進行に沿った推移（即ち、周波数軌跡）から、ビブラート期間を特定する。そして、開始・終了タイミング推定処理では、特定されたビブラート期間内に対応する発音開始タイミングを消去し、ビブラート期間外に対応する発音開始タイミングのみを残す。
〈採譜処理について〉
次に、楽曲検索処理のＳ１９０にて起動される採譜処理について説明する。

ここで、図１３は、採譜処理の処理手順を示したフローチャートである。
この採譜処理は、図１３に示すように、起動されると、まず、Ｓ９１０にて、先の音高推定処理のＳ３１０にて周波数解析を実行した全ての単位区間の中から、１つの単位区間を選択する。このＳ９１０では、単位区間は、Ｓ９１０へと移行する毎に、処理済音声データの開始から、処理済音声データの時間進行に沿って順次選択される。

続く、Ｓ９２０では、Ｓ９１０にて選択された単位区間が発音開始タイミングであるか否かを判定する。その判定の結果、選択された単位区間が発音開始タイミングでなければ、Ｓ９３０へと進む。

そのＳ９３０では、Ｓ９１０にて選択された単位区間が発音終了タイミングであるか否かを判定する。その判定の結果、選択された単位区間が発音終了タイミングでなければ、Ｓ９１０へと戻る。つまり、Ｓ９１０にて選択された単位区間が、発音開始タイミングまたは発音終了タイミングでなければ、Ｓ９１０からＳ９３０のステップを繰り返す。

一方、Ｓ９２０での判定の結果、Ｓ９１０にて選択された単位区間が発音開始タイミングであれば、Ｓ９４０へと進む。そのＳ９４０では、今回Ｓ９４０に移行する前の間、第１開始タイミングとしていた発音開始タイミングを第２開始タイミングとし、Ｓ５５０へと移行する際にＳ９１０にて選択した単位区間（即ち、発音開始タイミング）を第１開始タイミングとして設定する。つまり、このＳ９４０へと移行すると、処理済音声データの時間進行に沿った発音開始タイミングの中で、発声開始に近い発音開始タイミングを第２とし、音声終了に近い単位区間における音圧を第１開始タイミングとしている。なお、図１３では、開始タイミングをＳＴと表記する。

続く、Ｓ９５０では、開始取得フラグ（以下、開始取得Ｆと表記する）が設定済みであるか否かを判定する。その判定の結果、開始取得フラグが未設定であれば、Ｓ９６０へと進む。そのＳ９６０では、開始取得フラグを設定する。その後、Ｓ９１０へと戻る。

ところで、Ｓ９３０での判定の結果、Ｓ９１０にて選択された単位区間が発音終了タイミングであれば、Ｓ９７０へと進む。つまり、Ｓ９７０への移行は、処理済音声データの時間進行に沿って、発音開始タイミングと、その発音開始タイミングと対となるべき発音終了タイミングとが取得された場合である。そして、Ｓ９７０では、開始取得フラグを解除してＳ９８０へと進む。

なお、Ｓ９５０での判定の結果、開始取得フラグが設定されていれば、Ｓ９８０へと進む。つまり、処理済音声データの時間進行に沿って、２つの発音開始タイミングが、それらの発音開始タイミングの間に発音終了タイミングを挟むことなく存在する場合、Ｓ９５０にて肯定判定される。

そして、Ｓ９８０では、そのＳ９８０へと移行した時点で取得済みの発音開始タイミングまたは発音終了タイミングに基づいて、音符期間を特定する。
具体的に、本実施形態では、Ｓ９３０にて肯定判定されることで、Ｓ９８０へと進んだ場合には、第１開始タイミングを音符開始タイミングとし、発音終了タイミングを音符終了タイミングとする。一方、Ｓ９５０にて否定判定されることで、Ｓ９８０へと進んだ場合には、第２開始タイミングを音符開始タイミングとし、第１開始タイミングよりも処理済音声データの時間進行に沿って第１開始タイミングよりも設定時間長だけ前の時点を音符終了タイミングとする。そして、何れの場合にも、それら音符開始タイミングと音符終了タイミングとの間の期間を、音符期間として特定する。なお、本実施形態におけるＳ９８０では、特定した音符期間の期間長を音長として導出する。

続く、Ｓ９９０では、Ｓ９８０にて特定された音符期間に対応する全ての単位区間における音高（即ち、音高推定処理のＳ４５０にて量子化された音声基本周波数ｆ０、以下、量子化周波数とも称す）を取得する。つまり、音符期間を構成する単位区間の数だけ、量子化周波数が取得される。

そして、Ｓ１０００では、Ｓ９９０にて取得された量子化周波数に基づき、第１音高周波数、第２音高周波数を特定すると共に、第１音高数、及び第２音高数を集計する。このＳ１０００にて特定される第１音高周波数は、Ｓ９８０にて特定された音符期間に占める割合が最も高い量子化周波数であり、第２音高周波数とは、その音符期間に占める割合が二番目に高い量子化周波数である。なお、本実施形態のＳ１０００では、Ｓ９８０にて特定された音符期間に第２音高周波数が複数存在する場合、周波数が最も高いものを第２音高周波数とする。

そして、Ｓ１０００にて集計される第１音高数は、Ｓ９８０にて特定された音符期間に含まれる単位区間の中で、第１音高周波数に対応する単位区間の数である。また、第２音高数は、Ｓ９８０にて特定された音符期間に含まれる単位区間の中で、第音高２周波数に対応する単位区間の数である。

次に、Ｓ１０１０では、Ｓ１０００にて特定された第２音高周波数が、第１音高周波数よりも周波数が高いか否かを判定する。その判定の結果、第２音高周波数が第１音高周波数よりも高ければ、Ｓ１０２０へと進む。

そのＳ１０２０では、第２音高数が音高判定閾値以上であるか否かを判定する。この判定に用いられる音高判定閾値は、予め規定された規定割合Ａ（本実施形態では、１／２．３とする）と第１音高数とを乗算した値である。そのＳ１０２０での判定の結果、第２音高数が音高判定閾値以上であれば、Ｓ１０３０へと進む。

そして、Ｓ１０３０では、第２音高周波数に対応する音高を、Ｓ９８０にて特定された音符期間における音高（即ち、音符音高）として特定する。そして、その特定された音符音高と、Ｓ９８０にて導出された音長を音符音長とした音声音符データを生成する。その後、Ｓ１０５０へと進む。

ところで、Ｓ１０１０での判定の結果、第２音高周波数が第１音高周波数以下である場合や、Ｓ１０２０での判定の結果、第２音高数が音高判定閾値未満であれば、Ｓ１０４０へと進む。

そのＳ１０４０では、第１音高周波数に対応する音高を、Ｓ９８０にて特定された音符期間における音高（即ち、音符音高）として特定する。そして、その特定された音符音高と、Ｓ９８０にて導出された音長を音符音長とした音声音符データを生成する。その後、Ｓ１０５０へと進む。

例えば、Ｓ９１０からＳ９８０のステップを繰り返した後、Ｓ９８０にて、図１４（Ａ）に示すような第１音符開始タイミングと第１音符終了タイミングとの間の期間を第１音符期間として特定したとする。この特定した第１音符期間における第２音高周波数ｆ０２_t1＿ｈｉは、第１音高周波数ｆ０１_t1よりも高い周波数である。また、第２音高数は、「３」であり、第１音高数である「５」に規定割合Ａ（本実施形態では、Ａ＝１／（２．３））を乗じた値よりも大きい。

この場合、図１４（Ｂ）に示すように、第１音符期間についての音符音高は、Ｓ１０３０にて、第２音高周波数ｆ０２_t1＿ｈｉに対応する音高（図中、第１音符音高）に特定される。

なお、第２音高周波数ｆ０２_t1＿ｌｏｗも、第１音符中に占める割合が第２音高周波数ｆ０２_t1＿ｈｉと同一である。しかし、第２音高周波数ｆ０２_t1＿ｈｉの方が高い周波数であるため、第１音符期間の音高は、第２音高周波数ｆ０２_t1＿ｈｉとなる。

さらに、Ｓ９１０からＳ９８０のステップを繰り返した後、Ｓ９８０にて、図１４（Ａ）に示すような第２音符開始タイミングと第２音符終了タイミングとの間の期間を第２音符期間として特定したとする。この特定した第２音符期間における第２音高周波数ｆ０２_t2＿ｈｉは、第１音高周波数ｆ０１_t2よりも低い周波数である。また、第２音高数は、「３」であり、第１音高数である「４」に規定割合Ａ（本実施形態では、Ａ＝１／（２．３））を乗じた値よりも小さい。

この場合、図１４（Ｂ）に示すように、第２音符期間についての音符音高（図中、第２音符音高）は、Ｓ１０４０にて、第１音高周波数ｆ０１_t2に対応する音高に特定される。
続く、Ｓ１０５０では、処理済音声データに規定された全ての単位区間について、Ｓ９１０にて選択済みであるか否かを判定する。その判定の結果、未選択の単位区間が存在すれば、Ｓ９１０へと戻り、Ｓ９１０〜Ｓ１０５０を繰り返す。

一方、Ｓ１０５０での判定の結果、未選択の単位区間が存在しなければ、本採譜処理を終了して、楽曲検索処理のＳ２１０へと進む。
つまり、本採譜処理では、処理済音声データの時間進行に沿って、発音開始タイミングと、その発音開始タイミングと対となるべき発音終了タイミングとが存在する場合には、その発音開始タイミングを音符開始タイミングとし、その発音終了タイミングを音符終了タイミングとする。また、処理済音声データの時間進行に沿って、２つの発音開始タイミングが、それらの発音開始タイミングの間に発音終了タイミングを挟むことなく存在する場合には、時間進行に沿った前の発音開始タイミングを音符開始タイミングとし、時間進行に沿った後の発音開始タイミングを音符終了タイミングとする。そして、何れの場合にも、それら音符開始タイミングと音符終了タイミングとの間の期間を、音符期間として特定する。

これに加えて、本採譜処理では、第２音高周波数が第１音高周波数よりも周波数が高く、かつ第２音高数が第１音高数に対して規定割合Ａ以上であれば、第２音高周波数に対応する音高を、その音符期間における音符音高として特定する。これと共に、本採譜処理では、第２音高周波数が第１音高周波数よりも周波数が低い場合、または第２音高数が第１音高数に対して規定割合Ａ未満である場合には、第１音高周波数に対応する音高を、その音符期間における音符音高として特定している。
〈採譜結果照合処理について〉
次に、楽曲検索処理のＳ２１０にて起動される採譜結果照合処理について説明する。

ここで、図１５は、採譜結果照合処理の処理手順を示したフローチャートである。
この採譜結果照合処理は、図１５に示すように、起動されると、Ｓ１２１０では、先の採譜処理にて生成された音声音符データを、処理済音声データの時間進行に沿って連続する予め規定された音符規定数毎に単語化（即ち、グループ化）する。この単語化に際しては、音声音符データの一部が互いに重複するように実施する。以下、単語化された音声音符データそれぞれを、単語音符データと称す。

さらに、Ｓ１２２０では、サーバ４０から取得され記憶部２８に記憶されている楽曲データに対応する楽曲の中から、単語音符データを基準音符データ（即ち、ガイドメロディ）に照合する楽曲（以下、音符照合楽曲と称す）を１つ決定する。

続く、Ｓ１２３０では、Ｓ１２１０にて生成された全ての単語音符データの中から、１つの単語音符データを取得する。ただし、単語音符データを取得する際には、処理済音声データの時間進行において、音声開始に近い音声音符データを含むものを取得する。

そして、Ｓ１２４０では、Ｓ１２２０にて決定された音符照合楽曲に対応する基準音符データの中から、時間進行に沿って連続する音符規定数分だけ単語化して取得する。この音符規定数分の基準音符データを単語化する際には、基準旋律の時間進行において、その基準旋律の開始に近い構成音についての基準音符データから実行する。以下、Ｓ１２４０にて単語化して取得した音符規定数分の基準音符データを、比較音符データとする。

続いて、Ｓ１２５０では、Ｓ１２３０にて取得した単語音符データを、Ｓ１２４０にて取得した比較音符データに照合する。その照合の結果、単語音符データと比較音符データとが一致すれば（Ｓ１２６０：ＹＥＳ）、Ｓ１２７０へと進む。

そのＳ１２７０では、詳しくは後述する音符一致度、及び累積楽曲内一致度を導出すると共に、その導出した累積楽曲内一致度を構成音の番号と対応付けて記憶し、その後、Ｓ１２８０へと進む。この累積楽曲内一致度と対応付けられる構成音の番号は、比較音符データを形成する音符規定数の構成音の中で、基準旋律の時間進行に沿った最初の構成音に対応付けられたものである。

一方、Ｓ１２５０での照合の結果、単語音符データと比較音符データとが一致しなければ（Ｓ１２６０：ＮＯ）、Ｓ１２８０へと進む。
そのＳ１２８０では、全ての基準音符データを単語化して、その単語化によって生成された比較音符データに、Ｓ１２３０にて取得した単語音符データを照合したか否かを判定する。その判定の結果、全ての比較音符データに単語音符データを照合していなければ、Ｓ１２４０へと戻る。そのようにして移行したＳ１２４０では、前回のＳ１２４０にて単語化した基準音符データと、基準旋律の時間進行に沿った一部が重複するように音符規定数分だけ、基準音符データを単語化して取得する。すなわち、新たな比較音符データを生成して、Ｓ１２５０へと進む。

これにより、１つの楽曲における全ての基準音符データに対して、１つの単語音符データの照合が完了するまで、Ｓ１２４０からＳ１２８０が繰り返し実行される。
なお、Ｓ１２８０での判定の結果、全ての基準音符データを単語化して、その単語化によって生成された比較音符データに、単語音符データを照合していれば、Ｓ１２９０へと進む。そのＳ１２９０では、全ての単語音符データを取得して、比較音符データに照合済みであるか否かを判定する。

そのＳ１２９０での判定の結果、全ての単語音符データを比較音符データに照合していなければ、Ｓ１２３０へと戻る。そのＳ１２３０では、比較音符データに対して未照合の単語音符データの中から、１つの単語音符データを取得する。ただし、単語音符データを取得する際には、入力音声の時間進行において、音声開始に近い音声音符データからなる単語音符データを取得する。

その後、Ｓ１２９０にて肯定判定されるまで、Ｓ１２３０〜Ｓ１２９０までのステップを繰り返す。以下、Ｓ１２３０〜Ｓ１２９０までの一回の流れを、別音符照合サイクルと称す。また、別音符照合サイクルにて、単語音符データを取得してから新たな単語音符データを取得するまでのＳ１２４０〜Ｓ１２８０の一回の流れを、同一音符照合サイクルと称す。

この同一音符照合サイクルを繰り返す過程の中で、Ｓ１２６０にて肯定判定されると、Ｓ１２７０へと進む。そのようにして移行したＳ１２７０では、今回の別音符照合サイクルにて単語音符データと一致した比較音符データが、前回の別音符照合サイクルにて単語音符データと一致した比較音符データと、基準旋律の時間進行上連続するものであるか否かを判定（以下、音符接続判定とする）する。具体的には、前回の別音符照合サイクルにて音符一致度に対応付けられた構成音の番号の中に、今回Ｓ１２７０へと進んだ際に、単語音符データに一致したと判定された比較音符データを形成する構成音の番号よりも、基準旋律における時間進行上１つ前の構成音であることを示す番号があれば、音符接続判定における判定結果が肯定されたものとする。

その音符接続判定の判定結果が肯定であれば、連続して肯定判定された別音符照合サイクルの回数を「べき指数」として、初期規定値を累乗した値を音符一致度として導出する。一方、音符接続判定の判定結果が否定であれば、初期規定値そのものを音符一致度として導出する。

つまり、音符一致度は、処理済音声データの時間進行に沿った単語音符データが連続して、音符照合楽曲の基準旋律における時間進行に沿った比較音符データに一致するほど、大きな値となる。

さらに、導出された音符一致度の和を楽曲内累積一致度として導出する。
なお、Ｓ１２９０にて肯定判定されると、Ｓ１３００へと進む。そのＳ１３００では、先のＳ１２２０にて決定された音符照合楽曲に対する楽曲内累積一致度の中で、値が最大のものを、その音符照合楽曲に対応する曲名データと対応付けて、記憶部２８に記憶する。つまり、Ｓ１３００にて曲名データと対応付けられる楽曲内累積一致度は、一つの音符照合楽曲に対する別音符照合サイクルの繰り返しにて導出された全楽曲内累積一致度の中で、値が最大のものである。

続く、Ｓ１３１０では、記憶部２８に記憶されている楽曲データに対応する全ての楽曲を、音符照合楽曲として決定済みであるか否かを判定する。その判定の結果、全ての楽曲を音符照合楽曲として決定済みでなければ、Ｓ１２２０へと戻る。そのようにして移行したＳ１２２０では、音符照合楽曲として未決定の楽曲の中から、新たな楽曲を音符照合楽曲として決定して、Ｓ１２３０へと進む。つまり、Ｓ１２３０からＳ１３１０までのステップを、記憶部２８に記憶されている全ての楽曲データ中の基準音符データに、単語音符データの照合が完了するまで繰り返す。

なお、Ｓ１３１０での判定の結果、記憶部２８に記憶されている全ての楽曲を音符照合楽曲として決定済みであれば、Ｓ１３２０へと進む。
そのＳ１３２０では、Ｓ１３００にて記憶部２８に記憶された楽曲内累積一致度の中で、値が最大である楽曲内累積一致度に対応する楽曲を意図予想曲として特定する。さらに、Ｓ１３２０では、その特定された意図予想曲についての曲名データを取得し、取得された曲名データに対応する曲名を表示部２２に表示すると共に、その曲名をスピーカ２７から音声にて出力する。すなわち、意図予想曲の曲名が報知される。

そして、その後、採譜結果照合処理を終了し、さらに、楽曲検索処理を終了する。
つまり、本実施形態の採譜結果照合処理では、採譜処理にて生成された音声音符データを、楽曲毎に予め用意された基準音符データに照合する。そして、その照合結果として、処理済音声データの時間進行に沿って連続する音声音符データが、音符照合楽曲の基準旋律における時間進行に沿って連続して一致する比較音符データの数が多いほど、大きな値の楽曲内累積一致度を導出する。そして、本実施形態の採譜結果照合処理では、導出された楽曲内累積一致度の中で、値が最も高いものに対応する楽曲を、意図予想曲として検出している。
［実施形態の効果］
以上説明したように、本実施形態の開始・終了タイミング推定処理では、検出された発音開始タイミングの中から、ビブラート期間内に対応する発音開始タイミングを消去し、ビブラート期間外に対応する発音開始タイミングのみを残す。

そして、残された発音開始タイミングと、その発音開始タイミングと対となるべき発音終了タイミングとが存在すれば、採譜処理にて、その発音開始タイミング及び発音終了タイミングをそれぞれ、音符開始タイミング及び音符終了タイミングとしている。一方、残された発音開始タイミングが、２つの発音開始タイミングの間に発音終了タイミングを挟むことなく存在すれば、採譜処理にて、その２つの発音開始タイミングのうち、時間進行に沿った前の発音開始タイミングを音符開始タイミング、時間進行に沿った後の発音開始タイミングを音符終了タイミングとしている。さらに、採譜処理では、音符開始タイミングと、音符終了タイミングとの間の期間を音符期間として推定する。

したがって、本実施形態の音声処理装置２０によれば、ビブラート期間内から、当該期間が開始される音符期間が推定されることを防止できる。この結果、本実施形態の音声処理装置２０によれば、入力音声における音符期間の推定精度を向上させることができる。

なお、本実施形態の音声処理装置２０によれば、入力音声の終端を発音終了タイミングとしているため、処理済音声データにおける最後の発音開始タイミング（即ち、音符開始タイミング）に対しても、音符期間を推定することができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記楽曲検索処理において実行される音高推定処理は、上記実施形態に記載したものに限らない。上記実施形態における音高推定処理は、処理済音声データに規定された単位区間毎に、その単位区間における入力音声の音声基本周波数ｆ０を検出するものであれば、どのようなものでも良い。

また、上記実施形態の開始・終了タイミング推定処理では、発音終了タイミングの検出を、対となる発音開始タイミング以降にて実行していたが、発音終了タイミングの検出は、これに限るものではなく、例えば、ビブラート期間の終了時点以降にて実施しても良い。

さらに、上記実施形態において、発音終了タイミングの検出は、処理済音声データの時間進行に沿った発音開始タイミング以降であり、かつその発音開始タイミングから予め規定された数の単位区間だけ後の単位区間以降にて実行しても良い。

なお、上記実施形態の開始終了タイミング推定処理におけるＳ５３０では、予め規定された規定値を騒音音圧としていたが、騒音音圧は、これに限るものではない。例えば、処理済音声データの時間進行に沿った開始時点から、時間進行に沿った最初の発音開始タイミングまでの平均音圧を騒音音圧としても良いし、規定値と平均音圧とのうち、値が大きいものを騒音音圧としても良い。

ところで、上記実施形態における楽曲検索処理では、マイクロホン２４を介して入力された後、記憶部２８に記憶された音声データを処理対象としていたが、楽曲検索処理にて処理対象とする音声データは、マイクロホン２４を介して入力されたものに限らず、例えば、サーバ４０や、他の音声処理装置２０から取得した音声データでも良い。この場合、音声処理装置２０では、マイクロホン２４と、音声入力部２５とが省略されていても良い。

それとは反対に、上記実施形態における楽曲検索処理では、音声入力部２５にてサンプリングされた直後の音声データを直接処理対象としても良い。つまり、楽曲検索処理では、マイクロホン２４を介して入力された音声をリアルタイムに処理していても良い。

また、上記実施形態における音声処理装置２０は、スピーカ２７と音声出力部２６とを備えていなくとも良い。
なお、上記実施形態では、音声処理装置２０にて楽曲検索処理を実行していたが、楽曲検索処理は、サーバ４０にて実行されていても良い。この場合、音声データが、音声処理装置２０からサーバ４０に転送される必要がある。

また、楽曲検索システム１は、音声処理装置２０のみから構成されていても良い。この場合、楽曲データは、予め記憶部２８に記憶されている必要がある。
上記実施形態における楽曲検索処理では、Ｓ２１０にて採譜結果照合処理を実行していたが、楽曲検索処理として実行される内容として、このＳ２１０は省略されていても良い。つまり、上記実施形態における音声処理装置２０は、いわゆる採譜装置として構成されたものでも良い。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との対応関係について説明する。

上記実施形態の開始・終了タイミング推定処理におけるＳ５１０，Ｓ５２０を実行することで得られる機能が、本発明の音圧推移特定手段に相当し、Ｓ５４０〜Ｓ６１０を実行することで得られる機能が、本発明の開始タイミング検出手段に相当する。

そして、上記実施形態の開始・終了タイミング推定処理におけるＳ６７０〜Ｓ７３０を実行することで得られる機能が、本発明のビブラート期間特定手段に相当し、Ｓ７５０を実行することで得られる機能が、本発明の期間内タイミング除去手段に相当する。

なお、上記実施形態の採譜処理におけるＳ９１０〜Ｓ９８０を実行することで得られる機能が、本発明の音符期間推定手段に相当する。

１…楽曲検索システム２０…音声処理装置２１…通信部２２…表示部２３…操作受付部２４…マイクロホン２５…音声入力部２６…音声出力部２７…スピーカ２８…記憶部３０…制御部３１…ＲＯＭ３２…ＲＡＭ３３…ＣＰＵ４０…サーバ４１…記憶装置４２…マイクロコンピュータ

Claims

時間進行に沿って連続した入力音声から、１つの音符とみなせる期間それぞれを表す音符期間を推定する音声処理装置であって、
前記入力音声における音圧の時間進行に沿った推移を表す音圧推移を、前記入力音声から特定する音圧推移特定手段と、
前記音符期間の開始タイミングそれぞれを音符開始タイミングとし、前記音圧推移特定手段にて特定された音圧推移が単調増加である区間にて、前記音圧推移に規定された第１規定期間における音圧の増加率が、時間進行に沿って最初に、予め規定された規定値以上となった時点それぞれを、前記音符開始タイミングとして検出する開始タイミング検出手段と、
前記入力音声中にてビブラートにより発声された期間をビブラート期間とし、前記入力音声における音高の時間進行に沿った推移を表す音高推移に基づいて、前記ビブラート期間を特定するビブラート期間特定手段と、
前記開始タイミング検出手段にて検出された音符開始タイミングの中で、前記ビブラート特定手段にて特定されたビブラート期間内に対応する音符開始タイミングを期間内タイミングとし、前記開始タイミング検出手段での検出結果の中から、前記期間内タイミングを除去する期間内タイミング除去手段と、
前記期間内タイミング除去手段にて前記期間内タイミングが除去された後の前記音符開始タイミングそれぞれと対となる音符終了タイミングを特定すると共に、該対となる音符開始タイミングと音符終了タイミングとの間の期間それぞれを前記音符期間として推定する音符期間推定手段と
を備えることを特徴とする音声処理装置。
前記ビブラート期間特定手段は、
前記音高推移の全体にわたって、かつ時間進行に沿って互いに連続するように規定された複数の期間それぞれを第２規定期間とし、前記第２規定期間での前記音高推移を期間音高推移とし、前記期間音高推移における音高の変動幅が、予め規定された規定幅以下であれば、該期間音高推移にて音高が増加する増加区間、及び音高が減少する減少区間を検出する増減検出手段と、
前記増減検出手段にて検出された増加区間及び減少区間の数が、予め規定された規定数以上であれば、該期間音高推移に対応する第２規定期間を前記ビブラート期間として特定する期間特定手段と
を備えることを特徴とする請求項１に記載の音声処理装置。
前記音符期間推定手段は、
前記音圧推移における音圧が、前記期間内タイミングが除去された後の前記音符開始タイミング以降、最初に、該音符開始タイミングにおける音圧以下となった音圧変動時点を、該音符開始タイミングと対となる前記音符終了タイミングとして特定する
ことを特徴とする請求項１または請求項２に記載の音声処理装置。
前記音符期間推定手段は、
前記期間内タイミングが除去された後の時間進行に沿って隣接する前記音符開始タイミングのうち、時間進行上、前の音符開始タイミングを前開始タイミングとし、後の音符開始タイミングを後開始タイミングとし、該後開始タイミングから予め設定された設定時間長だけ前の時点を、該前開始タイミングと対となる前記音符終了タイミングとして特定する
ことを特徴とする請求項１ないし請求項３のいずれか一項に記載の音声処理装置。
前記音符期間推定手段は、
前記後開始タイミングよりも時間進行上、前に、前記音圧推移における音圧が、前記前開始タイミングにおける音圧以下となった音圧変動時点が存在すれば、該音圧変動時点を前記前開始タイミングと対となる前記音符終了タイミングとして特定する
ことを特徴とする請求項４に記載の音声処理装置。
前記音符期間推定手段は、
前記入力音声の時間進行に沿った終端を、前記期間内タイミングが除去された後の前記音符開始タイミングのうち、時間進行に沿った最後の音符開始タイミングと対となる前記音符終了タイミングとして特定する
ことを特徴とする請求項１ないし請求項５のいずれか一項に記載の音声処理装置。
時間進行に沿って連続した入力音声から、１つの音符とみなせる期間を表す音符期間を推定する音声処理装置として、コンピュータを機能させるためのプログラムであって、
前記入力音声における音圧の時間進行に沿った推移を表す音圧推移を、前記入力音声から特定する音圧推移特定手順と、
前記音符期間それぞれの開始タイミングを音符開始タイミングとし、前記音圧推移特定手順にて特定された音圧推移が単調増加である区間にて、前記音圧推移に規定された第１規定期間における音圧の増加率が、時間進行に沿って最初に予め規定された規定値以上となった時点それぞれを、前記音符開始タイミングとして検出する開始タイミング検出手順と、
前記入力音声中にてビブラートにより発声された期間をビブラート期間とし、前記入力音声における音高の時間進行に沿った推移を表す音高推移に基づいて、前記ビブラート期間を特定するビブラート期間特定手順と、
前記開始タイミング検出手順にて検出された音符開始タイミングの中で、前記ビブラート特定手順にて特定されたビブラート期間内に対応する音符開始タイミングを期間内タイミングとし、前記開始タイミング検出手順での検出結果の中から、前記期間内タイミングを除去する期間内タイミング除去手順と、
前記期間内タイミング除去手順にて前記期間内タイミングが除去された後の前記音符開始タイミングそれぞれと対となる音符終了タイミングを特定すると共に、該対となる音符開始タイミングと音符終了タイミングとの間の期間それぞれを前記音符期間として推定する音符期間推定手順とを
コンピュータに実行させることを特徴とするプログラム。