JP5125958B2

JP5125958B2 - 音域特定システム、プログラム

Info

Publication number: JP5125958B2
Application number: JP2008254026A
Authority: JP
Inventors: 典昭阿瀬見
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2008-09-30
Filing date: 2008-09-30
Publication date: 2013-01-23
Anticipated expiration: 2028-09-30
Also published as: JP2010085656A

Description

本発明は、ユーザが歌唱可能な音域を特定する音域特定システム、及びコンピュータを音域特定システムとして機能させるためのプログラムに関する。

従来より、伴奏音楽に合わせて、ユーザが歌唱を楽しむためのカラオケ装置が知られている。
この種のカラオケ装置の中には、ユーザが歌唱可能な音域を特定し、その特定した歌唱可能な音域をユーザに報知するものがある。

例えば、マイクを介して入力された音声（即ち、ユーザが一度でも発声した音声）の中で、最高音高（最高音程）を歌唱最高音とし、最低音高（最低音程）を歌唱最低音とする。そして、その音域を特定する技術としては、ユーザによる楽曲の歌唱中に、歌唱最高音及び歌唱最低音を検出すると共に、それらの検出した最低音高から最高音高までの音高範囲（即ち、音域）を、ユーザが歌唱可能な音域とすることが提案されている（例えば、特許文献１参照）。
特開２００２−７３０５８号公報

しかしながら、特許文献１に記載の技術では、ユーザが無理をして発声した歌唱最高音もしくは歌唱最低音であっても（例えば、ユーザが声帯を痛めかねないような発声を実施した場合の音高であっても）、それら歌唱最高音から歌唱最低音までの音域を歌唱可能な音域としてしまうため、歌唱可能な音域を適切に特定しているとは言い難い。

つまり、特許文献１に記載の技術では、ユーザが無理すること無く歌唱可能な音域を適切に特定できないという問題があり、この判定結果に基づいて、カラオケ装置がユーザに楽曲を提案しても、ユーザがカラオケを楽しむことができない可能性があった。

そこで、本発明は、音域特定システムにおいて、ユーザが無理をすること無く歌唱可能な音域を特定することを目的とする。

上記目的を達成するためになされた本発明の音域特定システムは、音声信号取得手段が、ユーザによる楽曲の歌唱時における音声信号を取得し、歌唱データ生成手段が、その取得した音声信号を周波数解析することで、歌唱の音高の遷移を表す歌唱データを生成して、楽曲データ取得手段が、楽曲を構成する構成音それぞれの音高及び音価を表す楽曲データを取得する。

さらに、連続する２つの構成音の音高が切り替わるタイミングを音高変化タイミングとし、その音高変化タイミング及び音高変化タイミングを挟む２つの構成音が一定期間存在するように設定された区間（以下、基準区間と称す）に対応する歌唱データ中での区間（以下、第一歌唱区間と称す）を、第一区間特定手段が、歌唱データ生成手段で生成した歌唱データを、楽曲データと照合することで特定し、その特定された第一歌唱区間それぞれについて、遷移値導出手段が、第一歌唱区間と、その第一歌唱区間に対応する音高遷移モ
デルとの一致度合いを表す音高遷移値を導出する。ただし、ここで言う音高遷移モデルとは、基準区間を構成する２つの構成音の組合せ毎に規定され、基準区間での発声音高の理想的な遷移態様を表すものである。

そして、第一音域判定手段が、その導出された音高遷移値を、それぞれの第一歌唱区間に含まれた音高変化タイミングにて到達する構成音の音高毎に集計し、その集計された音高遷移値（以下、集計遷移値とする）が、予め規定された規定値以上である最低音高から最高音高までの範囲を、ユーザが歌唱可能な音域である第一歌唱音域として判定する。

つまり、本発明の音域特定システムでは、基準区間に含まれる音高変化タイミングにて到達する音高のうち、ユーザが音高変化タイミングでの音高推移を滑らか（スムーズ）に歌唱できる（即ち、集計（音高）遷移値が規定値以上である）音高のみによって表される範囲を歌唱音域（第一歌唱音域）として判定している。

そして、ユーザが無理をして発声した状態では、音高変化タイミングでの音高推移を滑らか（スムーズ）に歌唱することが困難であることから、本発明の音域特定システムによれば、ユーザが無理をすること無く歌唱可能な音域を特定することができる。

したがって、本発明の音域特定システムを有したカラオケシステムにおいて、主として特定した第一歌唱音域内で音高が変化する楽曲を推奨曲としてユーザに提案するようにすれば、ユーザにカラオケをより楽しませることができる。

なお、ここでいう発声音高の理想的な遷移態様とは、基準区間が歌唱された時の音高の遷移が正確、かつ滑らか（スムーズ）に聞こえるように設定されたものであり、例えば、その楽曲を持ち歌としている歌手が歌唱した時の発声音高の遷移態様であっても良い。また、歌が上手と認められる人物が歌唱した時の発声音高の遷移態様であっても良いし、それら複数の人物（例えば、歌手や、歌が上手と認められる人物等）に歌唱させた時の発声音高の遷移を平均化したものであっても良い。

ところで、通常、構成音の音高の分布は、楽曲によって大きく異なっているため、特定の音高が多く含まれた楽曲のみを歌唱した場合、その特定の音高に対する集計遷移値が大きな値となってしまう。

つまり、本発明の音域特定システムにおいては、集計遷移値を正規化することが望ましい。そして、集計遷移値を正規化した場合、その集計遷移値の分布は、歌唱音域の広いユーザほど、各音高変化タイミングにて到達する構成音の音高それぞれの集計結果（即ち、集計遷移値）が最大値に近い値となる。一方、集計遷移値の分布において、歌唱音域の狭いユーザほど、最大値と、最大値に対応しない音高それぞれの集計結果（即ち、集計遷移値）との値の差が大きくなる。

したがって、請求項２に記載のように、第一歌唱音域判定手段にて用いる規定値を、集計遷移値の最大値に対して予め規定された割合とすれば、ユーザのレベル（技量）に拘わらず、ユーザの歌唱音域を適切に判定することができる。

また、一般的に、基準区間に含まれる音高変化タイミングでの音高差が大きいほど、その音高変化タイミングでの音高推移を滑らか（スムーズ）に歌唱することが難しくなる。
このため、本発明の音域特定システムにおける第一音域判定手段は、請求項３に記載のように、基準区間それぞれに含まれる音高変化タイミングでの音高差が大きいほど、音高遷移値に大きな重みを付して集計するように構成されていることが望ましい。

このように構成された本発明の音域特定システムによれば、ユーザが無理をして発声する必要の無い歌唱音域を、より確実に特定することができる。
さらに、本発明の音域特定システムは、請求項４に記載のように、第二区間特定手段が、歌唱データを楽曲データと照合することで、構成音それぞれに対応する歌唱データ中での区間（以下、第二歌唱区間と称す）を特定し、安定度導出手段が、その特定された第二歌唱区間それぞれでのビブラートの安定度合い（以下、歌唱安定度と称す）を導出し、第二音域判定手段が、その導出された歌唱安定度を、それぞれの第二歌唱区間に対応する構成音の音高毎に集計し、その集計された歌唱安定度が、予め規定された特定値以上である最低音高から最高音高までの範囲を、ユーザが歌唱可能な音域である第二歌唱音域として判定するように構成されていても良い。

このように構成された本発明の音域特定システムでは、ユーザが、音高変化タイミングでの音高推移を滑らか（スムーズ）に歌唱可能な第一歌唱音域に加えて、ビブラートによる発声方法で安定して歌唱可能な第二歌唱音域を判定する。

つまり、本発明の音域特定システムによれば、音高遷移値、及び歌唱安定度という、互いに異なる２つのパラメータそれぞれに基づく歌唱音域を判定することができる。
このため、本発明の音域特定システムをカラオケ装置に適用して、歌唱音域に基づく推奨曲をユーザに提案することや、歌唱音域を採点結果に反映することを実行する場合、特定した２つの歌唱音域（即ち、第一歌唱音域，第二歌唱音域）を楽曲に応じて使い分けることができる。この結果、より適切な推奨曲を提案したり、より適切な採点をしたりすることができ、ユーザにカラオケをより楽しませることができる。

そして、第一歌唱音域に加えて、第二歌唱音域を判定するように（即ち、請求項４に記載のように）、本発明の音域特定システムが構成されている場合、これら２つの音域（即ち、第一歌唱音域，第二歌唱音域）に基づいて、ユーザがより無理すること無く歌唱可能な一つの音域（即ち、歌唱音域）を特定することが望ましい。

この場合、本発明の音域特定システムは、請求項５に記載のように、歌唱音域特定手段が、第一歌唱音域と第二歌唱音域とのうち、少なくとも一方を歌唱音域として特定するように構成されていても良いし、第一歌唱音域と第二歌唱音域との両方を満たす音域を歌唱音域として特定するように構成されていても良い。

前者であれば、広い音域を歌唱音域として特定するため、ユーザに満足感を与えることができ、後者であれば、ユーザが確実に歌唱可能な音域を歌唱音域として特定することができる。

なお、本発明は、請求項６に記載のように、コンピュータに各手順を実行させるためのプログラムとしてなされたものであっても良い。
このようなプログラムとして本発明がなされた場合、本発明のプログラムは、ユーザによる楽曲の歌唱時における音声信号を取得する音声信号取得手順と、その取得した音声信号を周波数解析することで、歌唱の音高の遷移を表す歌唱データを生成する歌唱データ生成手順と、楽曲を構成する構成音それぞれの音高及び音価を表す楽曲データを取得する楽曲データ取得手順と、その生成した歌唱データを、楽曲データと照合することで、歌唱データ中での基準区間に対応する区間である第一歌唱区間を特定する第一区間特定手順と、その特定された第一歌唱区間それぞれについて、第一歌唱区間と、その第一歌唱区間に対
応する音高遷移モデルとの一致度合いを表す音高遷移値を導出する遷移値導出手順と、その導出された音高遷移値を、それぞれの第一歌唱区間に含まれた音高変化タイミングにて到達する構成音の音高毎に集計し、その集計された音高遷移値を集計遷移値とし、集計遷移値が、予め規定された規定値以上である最低音高から最高音高までの範囲を、ユーザが歌唱可能な音域である第一歌唱音域として判定する第一音域判定手順とを含んでいる必要がある。

このような本発明のプログラムをコンピュータに実行させることで、請求項１に記載の音域特定システムと同様の効果を得ることができる。
また、このような本発明のプログラムによれば、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。

以下に本発明の実施形態を図面と共に説明する。
まず、図１は、本発明が適用されたカラオケシステムの概略構成を示すブロック図である。
〈カラオケシステム全体の構成〉
カラオケシステム１は、カラオケ用に予め加工された楽曲（以下、カラオケ楽曲とする）の演奏に応じてユーザが歌唱するためのものである。

そのカラオケシステム１は、図１に示すように、ユーザから指定されたカラオケ楽曲の再生を行うカラオケ装置２０と、カラオケ楽曲の再生に必要なデータである楽曲データをカラオケ装置２０に配信するサーバ３０とを備え、それらカラオケ装置２０とサーバ３０とはネットワーク（例えば、専用回線や、ＷＡＮ等）を介して接続されている。つまり、カラオケシステム１は、いわゆる通信カラオケシステムとして構成されたものである。

なお、本実施形態（図１）では、カラオケシステム１として、一つのカラオケ装置２０と一つのサーバ３０とが接続されたものを示すが、カラオケシステム１は、これに限るものではなく、複数のカラオケ装置２０と一つのサーバ３０とが接続されたものでも良いし、複数のカラオケ装置２０と複数のサーバ３０とが接続されたものでも良い。

このうち、サーバ３０は、カラオケ楽曲の演奏に必要な処理プログラム（以下、カラオケ処理プログラム）及び楽曲データを格納する記憶装置（図示せず）と、ＲＯＭ，ＲＡＭ，ＣＰＵを少なくとも有した周知のマイクロコンピュータ（図示せず）とを中心に構成された情報処理装置からなる周知のカラオケサービス用サーバ装置である。

つまり、サーバ３０は、カラオケシステム１（より正確には、カラオケ装置２０）を使用したユーザに関する情報（以下、ユーザ情報とする）や、カラオケ装置２０から送信されたカラオケ採点の結果及びユーザの使用履歴等を一元管理する共に、カラオケ装置２０からの要求に対して楽曲データやカラオケ処理プログラムを送信するように構成されている。

ところで、楽曲データは、カラオケ楽曲それぞれについて予め用意され、例えば、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）フォーマットにて記述された周知のカラオケ再生用データである。

したがって、楽曲データは、カラオケ楽曲に関するデータである楽曲情報と、ユーザが歌唱すべき旋律に関するデータであるガイドメロディと、そのカラオケ楽曲の歌詞に関するデータである歌詞情報とから構成されている。

そして、楽曲情報には、カラオケ楽曲を特定するための曲番号データと、曲名を示す曲名データと、そのカラオケ楽曲の演奏時間を示す時間データとが含まれている。
また、ガイドメロディは、カラオケ楽曲の旋律を形成する各構成音の音高、及び音価から構成されている。具体的に、本実施形態のガイドメロディは、各構成音それぞれの楽音出力開始時間及び楽音出力終了時間が、各構成音の音高と共に表されている。ただし、ここで言う楽音出力開始時間とは、構成音の出力を開始するカラオケ楽曲の演奏開始からの時間であり、楽音出力終了時間とは、構成音の出力を終了するカラオケ楽曲の演奏開始からの時間である。
〈カラオケ装置について〉
次に、カラオケ装置２０の構成について説明する。

このカラオケ装置２０は、サーバ３０との間でデータ通信を実行するための通信部２２と、通信部２２を介してサーバ３０から取得したカラオケ処理プログラム及び楽曲データを記憶する記憶部２１と、各種画像を表示するための表示部２３と、ユーザからの指示を受け付ける操作受付部２４とを備えている。さらに、カラオケ装置２０は、音声を入力するためのマイクロホン２６と、音声を出力するためのスピーカ２７と、マイクロホン２６やスピーカ２７を介した音声の入出力を制御する音声入出力部２５と、カラオケ装置２０を構成する各部２１，２２，２３，２４，２５を制御する制御部２８を備えている。

このうち、通信部２２は、カラオケ装置２０をネットワーク（例えば、専用回線や、ＷＡＮ）に接続して外部と通信を行うための通信インタフェースであり、制御部２８からの制御指令に従って、サーバ３０に各種データを出力すると共に、サーバ３０から各種データや処理プログラムを取得する。

そして、表示部２３は、例えば、液晶ディスプレイ等から構成された表示装置であり、操作受付部２４は、例えば、複数のキースイッチ等から構成された入力装置や、周知のリモコンを介して入力された指示を受け付ける受信装置などからなる。

また、音声入出力部２５は、マイクロホン２６を介して入力された音声（アナログ信号）をデジタル信号に変換し、そのデジタル信号を制御部２８に入力するＡＤ変換器として構成されている。これと共に、音声入出力部２５は、スピーカ２７からの音声の出力を制御するように構成されている。なお、以下では、マイクロホン２６を介して入力され、デジタル信号に変換された音声を音声データと称す。

さらに、記憶部２１は、電源が切断されても記憶内容を保持すると共に記憶内容を読み書き可能に構成された記憶装置（例えば、ハードディスクドライブ）である。その記憶部２１は、カラオケ処理プログラムを格納するプログラム格納領域と、楽曲データを記憶する楽曲データ格納領域と、音声データを記憶する特定用データ格納領域とを備えている。なお、特定用データ格納領域は、予め規定された規定数（例えば、５曲分）分のカラオケ楽曲に対する音声データを格納する音声データ格納領域が、予め設定されたユーザ数（例えば、５人分）分だけ用意されたものである。

次に、制御部２８は、電源が切断されても記憶内容を保持する必要のあるプログラムやデータを格納するＲＯＭ２８ａと、プログラムやデータを一時的に格納するＲＡＭ２８ｂと、ＲＯＭ２８ａやＲＡＭ２８ｂに記憶されたプログラムやデータに従って、カラオケ装
置２０を構成する各部２１，２２，２３，２４，２５に対する制御及び各種演算を実行するＣＰＵ２８ｃとを少なくとも有した周知のマイクロコンピュータを中心に構成されている。

なお、ＲＡＭ２８ｂには、記憶部２１からカラオケ処理プログラムが読み込まれ、ＣＰＵ２８ｃは、ＲＡＭ２８ｂに記憶したカラオケ処理プログラムに従って各処理を実行する。

それらのカラオケ処理プログラムの中には、操作受付部２４を介して入力された指示に従って指定されたカラオケ楽曲を演奏（再生）する共に、表示部２３に歌詞を表示する周知のカラオケ演奏処理をＣＰＵ２８ｃが実行するためのカラオケ演奏処理プログラムが含まれている。また、カラオケ処理プログラムの中には、マイクロホン２６を介して入力される音声から抽出した歌唱の音程やテンポを採点基準（即ち、ガイドメロディ）と照合し、その適合度合を点数化することで採点結果とする周知の採点処理をＣＰＵ２８ｃが実行するための採点処理プログラムが含まれている。

さらに、カラオケ処理プログラムの中には、ユーザ情報（例えば、氏名、性別、識別番号（ＩＤ）、年齢）を操作受付部２４を介して受け付けるユーザ情報処理をＣＰＵ２８ｃが実行するためのユーザ情報処理プログラムが含まれている。また、カラオケ処理プログラムの中には、ユーザがカラオケ楽曲を歌唱した時に生成されるデータ（例えば、音声データ）や、カラオケ装置２０を使用した時の履歴を、記憶部２１またはサーバ３０に蓄積する蓄積処理をＣＰＵ２８ｃが実行するための蓄積処理プログラムが含まれている。

また、カラオケ処理プログラムの中には、記憶部２１の判定用データ格納領域に格納された音声データに基づいて、ユーザが歌唱可能な音域（以下、歌唱音域とする）を特定する歌唱音域特定処理をＣＰＵ２８ｃが実行するための音域特定処理プログラムが含まれている。つまり、ＣＰＵ２８ｃが歌唱音域特定処理を実行することにより、カラオケ装置２０が、本発明の音域特定システムとして機能する。

次に、カラオケシステム１の作用（動作）について説明する。
カラオケシステム１が使用される場合、カラオケ装置２０では、ユーザ情報処理プログラムを実行して、当該カラオケ装置２０を利用するユーザの人数分のユーザ情報を受け付け、その受け付けたユーザ情報それぞれを各音声データ格納領域と対応付ける。

さらに、カラオケ装置２０では、カラオケ演奏処理プログラムを実行することで、ユーザに指定されたカラオケ楽曲を演奏する共に、そのカラオケ楽曲の歌詞を表示部２３に表示する。ただし、制御部２８は、各カラオケ楽曲の演奏前には、操作受付部２４を介してユーザ情報を取得する。

また、カラオケ楽曲の演奏が開始されると、その時に演奏されるカラオケ楽曲（以下、該当カラオケ楽曲と称す）に応じてユーザが歌唱する。そして、該当カラオケ楽曲の演奏が終了すると、制御部２８では、ＣＰＵ２８ｃが蓄積処理プログラムを実行して、ユーザの歌唱音声から生成した音声データを、該当カラオケ楽曲の曲番号データと対応付けた上で（以下、音声データと、曲番号データとが対応付けられたデータを対応データとも称す）、音声データ格納領域に格納する。ただし、対応データが格納される音声データ格納領域は、該当カラオケ楽曲に対して歌唱を実行したユーザのユーザ情報に対応付けられたものである。これにより、音声データと、曲番号データと、ユーザ情報とが対応付けられることになる。

以降、カラオケ装置２０は、カラオケ演奏処理プログラムの実行から、音声データ格納領域に音声データを格納するまでの一連のサイクルを、ユーザがカラオケ楽曲の指定を終了するまで繰り返す。
〈歌唱音域特定処理〉
次に、ＣＰＵ２８ｃが実行する歌唱音域特定処理について説明する。

ここで、図２は、歌唱音域特定処理の処理手順を示したフローチャートである。
この歌唱音域特定処理は、記憶部２１の音声データ格納領域に規定数の音声データが格納された場合、即ち、一人のユーザが規定数分のカラオケ楽曲を歌唱した場合に起動されるものである。

図２に示すように、歌唱音域特定処理が起動されると、まず、Ｓ１１０にて、記憶部２１の音声データ格納領域に格納されている全音声データのうち、一つの音声データを取得する。すなわち、図５（Ａ）に示すように、カラオケ楽曲の演奏（即ち、演奏時間の進行）に沿って信号レベルが変化する音声信号を、音声データとして取得する。

続く、Ｓ１２０では、Ｓ１１０で取得した音声データを周波数解析（本実施形態では、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ））し、音声データの周波数スペクトルを導出する。

具体的に、本実施形態におけるＳ１２０では、カラオケ楽曲１曲分の音声データを、連続する時間として予め規定された基準時間（例えば、数十ｍｓ、即ち、予め規定されたサンプリング数）毎に抽出する（以下、抽出した音声データを対象データと称す）。そして、対象データそれぞれについて周波数解析（即ち、ＦＦＴ）を実行する。これにより、周波数解析の結果として、各対象データでの周波数スペクトル（即ち、周波数成分の分布）が、全対象データ数分だけ生成される。

さらに、Ｓ１３０では、Ｓ１２０での周波数解析の結果（周波数スペクトル）に基づいて、該当カラオケ楽曲をユーザが歌唱した時の基本周波数ｆ０の時間遷移を表し、本発明の歌唱データに相当する基本周波数遷移ｆ０ｖ（ｔ）を導出する。

具体的に、本実施形態におけるＳ１３０では、櫛型形状で表される調波構造モデルを予め用意し、その調波構造モデルと、各周波数スペクトルとを照合する周知の手法を用いて、周波数スペクトルから基準時間における基本周波数ｆ０を検出する。そして、その検出した基本周波数ｆ０を、各対象データの時間遷移、即ち、該当カラオケ楽曲の演奏時間の進行に従って、基本周波数遷移ｆ０ｖ（ｔ）としてまとめる。

これにより、基本周波数遷移ｆ０ｖ（ｔ）は、図５（Ｂ）に示すように、該当カラオケ楽曲を歌唱した時の基本周波数ｆ０の時間変化が表されたものとなる。
続くＳ１４０では、Ｓ１１０で取得した音声データと対応付けられている曲番号データに従って、該当カラオケ楽曲のガイドメロディを記憶部２１から取得する。

そして、Ｓ１５０では、Ｓ１４０にて取得したガイドメロディと、Ｓ１３０で導出された基本周波数遷移ｆ０ｖ（ｔ）とに基づいて、各構成音それぞれに対する発声遅れ時間を表す時間遅延量ｔｌ（ｋ）を算出する。

ここで、本実施形態における時間遅延量ｔｌ（ｋ）の算出方法について詳しく説明する。ただし、本実施形態において、ｋは、対応する構成音の演奏の順番を表すものであり、
該当カラオケ楽曲の演奏開始から、ｋ番目に演奏されることを表している。したがって、ｋは、１から、構成音の総数を最大値とした自然数である。

まず、ガイドメロディによって表された全構成音の音高の時間変化（即ち、ガイドメロディによる旋律）をガイドメロディ音高とし、連続する２つの構成音の音高が切り替わるタイミングを音高変化タイミングとする。

そして、図５（Ｃ）に示すように、基本周波数遷移ｆ０ｖ（ｔ）にガイドメロディ音高を照合することで、基本周波数遷移ｆ０ｖ（ｔ）中での音高変化タイミング（以下、歌唱時切替タイミングと称す）を検出する。なお、ガイドメロディ音高に基本周波数遷移ｆ０ｖ（ｔ）を照合する手法としては、特開２００５−１０７３３０号公報に記載された周知の手法を用いれば良い。

さらに、その検出した歌唱時切替タイミングと、ガイドメロディ音高中での音高変化タイミングとの差を時間遅延量ｔｌ（ｋ）として算出する。
このように、ガイドメロディ音高と、基本周波数遷移ｆ０ｖ（ｔ）との照合から、時間遅延量ｔｌ（ｋ）の算出までの一連の流れを、カラオケ楽曲の時間進行に従って（即ち、ｋが１からｋが最大となるまで、ｋを順次増加させながら）繰り返す。これにより、全歌唱時切替タイミングが検出され、それら全歌唱時切替タイミングについての時間遅延量ｔｌ（ｋ）が求められる。

つまり、Ｓ１５０では、該当カラオケ楽曲の歌唱時に、各構成音それぞれについて実際に歌唱を開始したとみなせるタイミングとして、歌唱切替時タイミングを特定すると共に、ガイドメロディ音高中での音高変化タイミングから歌唱時切替タイミングまでの遅れを求めている。

続くＳ１６０では、音高変化タイミングにおける歌唱音声の遷移の滑らかさを表す音高遷移スコアｔｓｃ（ｋ）を導出すると共に、到達音に対応する音高ｆ毎に音高遷移スコアｔｓｃ（ｋ）を集計した結果である遷移スコア分布を導出するスコア分布導出処理を実行する。ただし、到達音とは、音高変化タイミングにて発声音高をユーザが遷移させる遷移先の（即ち、歌唱時に発声音高が到達する）構成音である。なお、以下では、ユーザが音高変化タイミングにて発声音高の遷移を開始させる遷移元の構成音を基準音と称す。

なお、本実施形態における遷移スコア分布とは、図７に示すように、到達音に対応する音高ｆを横軸とし、集計された音高遷移スコアｔｓｃ（ｋ）（以下、集計遷移スコアｍｔｓｃ（ｆ）とする）を縦軸としたマップである。

さらに、Ｓ１７０では、各構成音に対してユーザが実際に歌唱した期間を対応期間Ｔ（ｋ）とし、各対応期間Ｔ（ｋ）におけるビブラートでの発声の安定度合いを表す歌唱安定度ｖｓｉ（ｋ）を導出すると共に、各対応期間Ｔ（ｋ）での構成音に対応する音高ｆ毎に歌唱安定度ｖｓｉ（ｋ）を集計した結果である歌唱安定度分布を導出する安定度分布導出処理を実行する。

なお、本実施形態における歌唱安定度分布とは、図８に示すように、構成音に対応する音高ｆを横軸とし、集計された歌唱安定度ｖｓｉ（ｋ）（以下、集計安定度ｍｖｓｉ（ｋ）とする）を縦軸としたマップである。

さらに、Ｓ１８０にて、記憶部２１の音声データ格納領域に格納されている全音声データに対して、Ｓ１１０からＳ１７０までの処理（ここでは、規定処理と称す）を実行した
か否かを判定する。

そして、判定の結果、全音声データに対して規定処理を実行していなければ、Ｓ１１０へと戻り、そのＳ１１０にて、記憶部２１の音声データ格納領域に格納されている全音声データの中から、規定処理を未実行である音声データを取得して、Ｓ１２０へと進む。

一方、Ｓ１８０での判定の結果、全音声データに対して規定処理を実行済であれば、Ｓ１９０へと進む。
続くＳ１９０では、スコア分布導出処理（Ｓ１６０）にて導出した遷移スコア分布に従って、第一歌唱音域を判定する。

具体的に、本実施形態では、図７に示すような遷移スコア分布上において集計遷移スコアｍｔｓｃ（ｆ）が、予め規定された規定値以上である最低音高から最高音高までの範囲、即ち、集計遷移スコアｍｔｓｃ（ｆ）が規定値以上である最低基本周波数から最高基本周波数までの周波数帯を第一歌唱音域としている。

なお、本実施形態における規定値は、遷移スコア分布上における集計遷移スコアｍｔｓｃ（ｆ）の最大値Ｍに対して予め規定された割合Ａ（例えば、最大値の半分や、１／３等）として規定されている（規定値＝Ｍ×Ａ）。

また、Ｓ２００では、安定度分布導出処理（Ｓ１７０）にて導出した歌唱安定度分布に従って、第二歌唱音域を判定する。
具体的に、本実施形態では、図８に示すような歌唱安定度分布上において集計安定度ｍｖｓｉ（ｆ）が、予め規定された特定値以上である最低音高から最高音高までの範囲、即ち、集計安定度ｍｖｓｉ（ｆ）が特定値以上である最低基本周波数から最高基本周波数までの周波数帯を第二歌唱音域としている。

なお、本実施形態における特定値は、歌唱安定度分布上における集計安定度ｍｖｓｉ（ｆ）の最大値Ｍに対して予め規定された割合Ａ（例えば、最大値の半分や、１／３等）として規定されている（特定値＝Ｍ×Ａ）。

そして、Ｓ２１０では、Ｓ１９０で判定された第一歌唱音域と、Ｓ２００で判定された第二歌唱音域とに基づいて、第一歌唱音域と第二歌唱音域とが重複する音域を、ユーザが確実に歌唱可能な音域（以下、決定歌唱音域）を特定する。

続く、Ｓ２２０では、Ｓ１９０で判定した第一歌唱音域、Ｓ２００で判定した第二歌唱音域、及びＳ２１０で特定した決定歌唱音域の全歌唱音域を表示部２３及びスピーカ２７を介してユーザに報知すると共に、それらの全歌唱音域（即ち、第一歌唱音域，第二歌唱音域，決定歌唱音域）を記憶部２１及びサーバ３０に記憶する特定音域利用処理を実行する。さらに、本実施形態の特定音域利用処理では、全構成音中の最低音高と最高音高との両方が決定歌唱音域内であるカラオケ楽曲を全カラオケ楽曲の中から検出し、その検出したカラオケ楽曲を推奨曲としてユーザに提案する。

そして、その後、本歌唱音域特定処理を終了する。
〈スコア分布導出処理〉
次に、スコア分布導出処理について説明する。

ここで、図３は、スコア分布導出処理の処理手順を示したフローチャートである。
このスコア分布導出処理は、図３に示すように、歌唱音域特定処理のＳ１６０にて起動されると、まず、Ｓ３１０にて、各基準区間における基本周波数遷移ｆ０ｖ（ｔ）を対象抽出区間ｆ０ｖｎ（ｔ）として、（１）式に従って抽出する。

具体的に、本実施形態における基準区間は、音高変化タイミング及びその音高変化タイミングを挟む基準音と到達音との両方が規定時間だけ含まれるように、音高変化タイミング毎に設定される区間（時間長）である。

そして、規定時間とは、基準音が定常状態であるとみなせる時刻（以下、開始タイミングとする）から基準音の楽音出力終了時間までの時間、及び、到達音の楽音出力開始時間から到達音が定常状態であるとみなせる時刻（以下、終了タイミングとする）までの時間である。なお、本実施形態では、基本周波数遷移ｆ０ｖ（ｔ）の傾きが一定となった時刻を、定常状態であるとみなせる時刻とする。

また、以下では、開始タイミングから音高変化タイミングまでの期間を前期設定期間（−Ｔｓ）と称し、音高変化タイミングから終了タイミングまでの期間を後期設定期間（＋Ｔｓ）と称す。さらに、前期設定期間（−Ｔｓ）と後期設定期間（＋Ｔｓ）との和、即ち、基準区間の時間長を設定期間２Ｔｓと称す。

つまり、対象抽出区間ｆ０ｖｎ（ｔ）は、図６（Ａ）に示すように、歌唱時切替タイミング（即ち、楽音出力開始時間ｓｔ（ｋ）＋時間遅延量ｔｌ（ｋ））を挟んで、その歌唱時切替タイミングに対応する音高変化タイミングにおける基準音，及び到達音それぞれが定常状態であるとみなせるまでの区間（即ち、設定期間２Ｔｓ）における基本周波数遷移ｆ０ｖ（ｔ）である。

続く、Ｓ３２０では、Ｓ３１０で抽出された対象抽出区間ｆ０ｖｎ（ｔ）それぞれを、対応する基準区間における発声音高の理想的な遷移態様を表す音高遷移モデルと照合し、その一致度合いを音高遷移スコアｔｓｃ（ｋ）として導出する。

本実施形態における音高遷移モデルは、基準区間が歌唱された時の音高の遷移が正確、かつ滑らか（スムーズ）に聞こえるように、下記（２）式にて表された時間関数であり、以下、音高遷移モデル曲線ｆ０ｍｏｄｅｌ（ｔ）と称す。

つまり、音高遷移モデル曲線ｆ０ｍｏｄｅｌ（ｔ）は、照合すべき対象抽出区間ｆ０ｖｎ（ｔ）それぞれの設定期間２Ｔｓや、対応する基準区間に含まれる音高変化タイミングを形成する基準音と到達音との音高差に従って変動するものである。

さらに、本実施形態のＳ３２０では、対象抽出区間ｆ０ｖｎ（ｔ）と、音高遷移モデル曲線ｆ０ｍｏｄｅｌ（ｔ）との相関を求めるための下記（３）式に従って、音高遷移スコアｔｓｃ（ｋ）を求める。

ただし、（３）式中のＭ_VOは、対象抽出区間ｆ０ｖｎ（ｔ）の平均値を示し、下記（４）式に従って導出され、（３）式中のＭ_MOは、音高遷移モデル曲線ｆ０ｍｏｄｅｌ（ｔ）の平均値を示し、下記（５）式に従って導出される。

つまり、音高遷移スコアｔｓｃ（ｋ）は、図６（Ｂ）に示すように、対象抽出区間ｆ０ｖｎ（ｔ）それぞれを、対応する基準区間における音高遷移モデル（即ち、音高遷移モデル曲線ｆ０ｍｏｄｅｌ（ｔ））と照合することで導出され、その一致度合いが高いほど（即ち、音高遷移が滑らかな（スムーズな）ほど）大きな値となるものである。

さらに、Ｓ３３０では、Ｓ３２０で導出した音高遷移スコアｔｓｃ（ｋ）それぞれに基づいて、遷移スコア分布を生成する。
具体的に、本実施形態では、下記の（６）式を用いて、各基準区間に含まれる音高変化タイミングに対応した到達音の音高ｆ毎に音高遷移スコアｔｓｃ（ｋ）それぞれを集計し、集計遷移スコアｍｔｓｃ（ｆ）を導出する。

ただし、（６）式において、ｆは、到達音の音高であり、ｋ'は、音高ｆと等しい到達音を表す識別番号（上述したｋ番目や、ｋ＋１番目に相当）の集合、Ｋ０は、音高ｆが等しい到達音の総数である。また、ｆ０ｄ（ｋ）は、対応する基準区間に含まれる音高変化タイミングでの音高差であり、その音高差ｆ０ｄ（ｋ）は、下記（７）式に基づいて導出されることが望ましい。

つまり、集計遷移スコアｍｔｓｃ（ｆ）は、音高ｆと等しい到達音についての全音高遷移スコアｔｓｃ（ｋ）を、対応する基準区間における音高差ｆ０ｄ（ｋ）が大きいほど大きな値となるように重み付けして集計し、さらに、音高ｆと等しい到達音の総数Ｋ０にて除した、即ち、正規化したものである。

なお、集計遷移スコアｍｔｓｃ（ｆ）は、該当カラオケ楽曲中に登場する全到達音の音高に対して導出される。そして、その導出した集計遷移スコアｍｔｓｃ（ｆ）それぞれから、遷移スコア分布を生成する。

ただし、本実施形態では、Ｓ３３０へと進んだ回数が二回目以降である場合、そのサイクル（即ち、今回のＳ３３０）にて導出した集計遷移スコアｍｔｓｃ（ｆ）を、前サイクルにて（即ち、前回のＳ３３０以前に）導出された集計遷移スコアｍｔｓｃ（ｆ）に積算する。つまり、本実施形態における遷移スコア分布には、各音声データから導出される集計遷移スコアｍｔｓｃ（ｆ）が全て積算されている。

そして、その後、歌唱音域特定処理のＳ１７０へと戻る。
〈安定度分布導出処理〉
次に、安定度分布導出処理について説明する。

ここで、図４は、安定度分布導出処理の処理手順を示したフローチャートである。
この安定度分布導出処理は、図４に示すように、歌唱音域特定処理のＳ１７０にて起動されると、まず、Ｓ４１０にて、各対応期間Ｔ（ｋ）における基本周波数遷移ｆ０ｖ（ｔ）を歌唱区間ｆ０ｖｎｎ（ｔ）として抽出する。

なお、それぞれの対応期間Ｔ（ｋ）は、ｋ番目の構成音に対する歌唱時切替タイミング（即ち、楽音出力開始時間ｓｔ（ｋ）＋時間遅延量ｔｌ（ｋ））を、その対応期間Ｔ（ｋ）の開始時間とすると共に、各対応期間Ｔ（ｋ）の時間長ｔｔ（ｋ）を、ｋ番目の構成音に対する歌唱時切替タイミングと、ｋ＋１番目の構成音に対する歌唱時切替タイミングとの差とすることで求められる。

続く、Ｓ４２０では、Ｓ４１０で抽出した歌唱区間ｆ０ｖｎｎ（ｔ）それぞれ（即ち、基本周波数の時間遷移）を周波数解析（本実施形態では、ＦＦＴ）し、その結果を表すビブラートスペクトルを導出する。

つまり、Ｓ４２０にて導出されるビブラートスペクトルは、歌唱区間ｆ０ｖｎｎ（ｔ）に対応する各対応期間Ｔ（ｋ）をユーザが歌唱した時のビブラートの振動数成分（以下、振動数成分それぞれをビブラート振動数ｇとする）の分布を表すものとなる。

そして、Ｓ４３０では、Ｓ４２０で導出されるビブラートスペクトル（即ち、周波数解析の結果）それぞれに基づいて、歌唱区間ｆ０ｖｎｎ（ｔ）に対応する対応期間Ｔ（ｋ）でのビブラートによる発声の安定度合い、即ち、歌唱安定度ｖｓｉ（ｋ）を導出する。

具体的に、本実施形態では、ビブラートスペクトルにおける振動数ピークを検出し、さ
らに、検出した振動数ピークの中から、振幅値Ｐ０（ｇ）が最大値Ｐ０ｍとなる振動数ピークを最大振動数ピークとして検出する。

そして、最大振動数ピークの振幅値Ｐ０（ｇ）（即ち、最大値Ｐ０ｍ）を１／２乗した値を実効値とし、最大振動数ピークの振動数成分（以下、ピークビブラート振動数ｇ０とする）を挟み、かつ振幅値Ｐ０（ｇ）が実効値となるビブラート振動数の帯域（即ち、幅）を実効帯域ｇｗとして求める。

さらに、ピークビブラート振動数ｇ０を実効帯域ｇｗで除することにより、対応期間Ｔ（ｋ）に対応する構成音についての歌唱安定度ｖｓｉ（ｋ）として、先鋭度Ｑ（Ｑ＝ｇｍ／ｇｗ）を導出する。

なお、安定した（理想的な）ビブラートにより歌唱されていれば、ビブラートスペクトル上において検出される振動数ピークは、一つだけであり、実効帯域ｇｗは小さなもの、即ち、最大振動数ピークは鋭くなる。このため、ビブラートにより安定して歌唱されていれば、歌唱安定度ｖｓｉ（ｋ）は大きな値となる。

続く、Ｓ４４０では、Ｓ４３０で導出した歌唱安定度ｖｓｉ（ｋ）それぞれに基づいて、集計安定度ｍｖｓｉ（ｆ）を導出し、歌唱安定度分布を生成する。
具体的に、本実施形態における集計安定度ｍｖｓｉ（ｆ）は、音高ｆと等しい構成音についての全歌唱安定度ｖｓｉ（ｋ）を、対応する構成音の音価ｌｅｎ（ｋ）が長いほど大きな値となるように重み付けして集計し、さらに、音高ｆと等しい構成音の総数Ｋ０にて除した、即ち、正規化したものである。

なお、集計安定度ｍｖｓｉ（ｆ）は、該当カラオケ楽曲中に登場する全音高ｆに対して導出される。そして、導出した集計安定度ｍｖｓｉ（ｆ）それぞれを、対応する音高ｆと対応付けることで、歌唱安定度分布を導出する。

ただし、本実施形態では、Ｓ４４０へと進んだ回数が二回目以降である場合、そのサイクル（即ち、今回のＳ４４０）にて導出した集計安定度ｍｖｓｉ（ｆ）を、前サイクル（即ち、前回以前にＳ４４０）にて導出された集計安定度ｍｖｓｉ（ｆ）に積算する。つまり、本実施形態における歌唱安定度分布には、各音声データから導出される集計安定度ｍｖｓｉ（ｆ）が全て積算されている。

そして、その後、歌唱音域特定処理のＳ１８０へと進む。
以上説明したように、本実施形態の歌唱音域特定処理では、各基準区間における基本周波数遷移ｆ０ｖ（ｔ）を対象抽出区間ｆ０ｖｎ（ｔ）として抽出し、その抽出した対象抽出区間ｆ０ｖｎ（ｔ）それぞれを対応する音高遷移モデルと照合し、その一致度合いを音高遷移スコアｔｓｃ（ｋ）として導出する。

さらに、本実施形態の歌唱音域特定処理では、到達音の音高ｆ毎に音高遷移スコアｔｓｃ（ｋ）を集計して、集計遷移スコアｍｔｓｃ（ｆ）を算出し、遷移スコア分布を導出する。そして、遷移スコア分布上において集計遷移スコアｍｔｓｃ（ｆ）が規定値以上である最低基本周波数から最高基本周波数までの周波数帯を第一歌唱音域として判定する。

なお、ユーザが、音高変化タイミングを歌唱時に音高遷移を滑らか（スムーズ）に歌唱できたほど、音高遷移スコアｔｓｃ（ｋ）は大きな値となり、音高遷移を滑らか（スムーズ）に歌唱できていないほど、音高遷移スコアｔｓｃ（ｋ）は小さな値となる。
［本実施形態の効果］
このため、本実施形態のカラオケ装置２０では、ユーザが無理をして発声した状態では、音高変化タイミングでの音高推移を滑らか（スムーズ）に歌唱することが困難であり、集計遷移スコアｍｔｓｃ（ｆ）の値が規定値よりも小さなものとなる。

したがって、本実施形態のカラオケ装置２０によれば、ユーザが無理をすること無く歌唱可能な音域を特定することができる。
また、本実施形態の歌唱音域特定処理では、集計遷移スコアｍｔｓｃ（ｆ）を正規化した値として導出している。

このため、実施形態の歌唱音域特定処理によれば、特定の音高が多く含まれたカラオケ楽曲のみを歌唱した場合であっても、その特定の音高に対する集計遷移スコアｍｔｓｃ（ｆ）のみが大きな値となることを防止できる。この結果、ユーザが歌唱したカラオケ楽曲に拘わらず、ユーザが歌唱可能な音域をより正確に特定することができる。

また、集計遷移スコアｍｔｓｃ（ｆ）を正規化して導出することで、歌唱音域の広いユーザほど、各音高についての集計遷移スコアｍｔｓｃ（ｆ）が最大値に近い値となり、歌唱音域の狭いユーザほど、最大値と、最大値に対応しない音高それぞれについての集計遷移スコアｍｔｓｃ（ｆ）との値の差が大きくなる。

さらに、本実施形態の歌唱音域特定処理では、対応する基準区間における音高差ｆ０ｄ（ｋ）が大きいほど大きな値となるように重み付けして集計して、集計遷移スコアｍｔｓｃ（ｆ）を導出している。このため、本実施形態の歌唱音域特定処理では、音高差ｆ０ｄ（ｋ）が大きいほど、音高変化タイミングにて発声音高を滑らかに遷移させることが難しくなることを考慮した集計遷移スコアｍｔｓｃ（ｆ）が導出される。

これらの結果、本実施形態の歌唱音域特定処理によれば、ユーザの歌唱レベル（技量）に拘わらず、ユーザの歌唱音域を適切に判定すること、言い換えれば、ユーザが無理すること無く発声可能な音域（即ち、歌唱音域）を、より確実に特定することができる。

また、本実施形態の歌唱音域特定処理では、各対応期間Ｔ（ｋ）における歌唱安定度ｖｓｉ（ｋ）に基づいて、第二歌唱音域を特定し、その第二歌唱音域と、第一歌唱音域とが重複する周波数帯を決定歌唱音域として特定している。

このため、本実施形態の歌唱音域特定処理によれば、ユーザがより確実に歌唱可能な音域を決定歌唱音域として特定することができる。
そして、本実施形態のカラオケ装置２０によれば、ユーザが無理することなく発声可能な歌唱音域内で音高が変化するカラオケ楽曲を推奨曲としてユーザに提案しているため、ユーザにカラオケをより楽しませることができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は、上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において様々な態様にて実施することが可能である。

例えば、上記実施形態では、歌唱音域特定処理の起動タイミングを、一人のユーザが規定数分のカラオケ楽曲を歌唱した場合としていたが、歌唱音域特定処理の起動タイミングは、上記実施形態に限るものではなく、操作受付部２４を介してユーザから起動指令を受け付けた場合であっても良いし、一つのカラオケ楽曲に対して歌唱が終了した時であって
も良い。つまり、歌唱音域特定処理の起動タイミングは、処理対象である音声データが存在していれば、どのようなタイミングであっても良い。

ところで、上記実施形態のスコア分布導出処理におけるＳ３３０では、集計遷移スコアｍｔｓｃ（ｆ）を導出する時の正規化の方法として、音高遷移スコアｔｓｃ（ｋ）を集計した結果を、同一音高である到達音の総数で除していたが、正規化の方法は、これに限るものはなく、例えば、同一音高である到達音の総演奏時間で除しても良いし、その他の方法でも良い。

さらには、Ｓ３３０において、集計遷移スコアｍｔｓｃ（ｆ）を導出する時に正規化を実行しなくとも良い。
また、上記実施形態のスコア分布導出処理におけるＳ３３０では、集計遷移スコアｍｔｓｃ（ｆ）を導出する時に、対応する基準区間を構成する２つの構成音の音高差ｆ０ｄ（ｋ）が大きいほど大きな重みを付して音高遷移スコアｔｓｃ（ｋ）を集計していたが、重み付けは実行されなくとも良い。

また、上記実施形態における音高遷移モデルは、音高遷移モデル曲線ｆ０ｍｏｄｅｌ（ｔ）として上記（２）式によって表されていたが、音高遷移モデルはこれに限るものではなく、例えば、時間関数によって表されたものではなく、音高変化タイミング毎にそれぞれ個別に用意されたものでも良い。この場合、音高遷移モデルは、そのカラオケ楽曲を持ち歌としている歌手が歌唱した時の発声音高の遷移態様であっても良いし、歌が上手と認められる人物が歌唱した時の発声音高の遷移態様であっても良いし、それら複数の人物（例えば、歌手や、上手と認められる人物等）に歌唱させた時の発声音高の遷移を平均化したものであっても良い。

つまり、音高遷移モデルは、基準区間が歌唱された時の音高の遷移が正確、かつ滑らか（スムーズ）に聞こえるように設定され、さらに、対象抽出区間ｆ０ｖｎ（ｔ）と照合可能なものであれば、どのようなものでも良い。

なお、上記実施形態の歌唱音域特定処理のＳ２１０では、第一歌唱音域と第二歌唱音域との両方が含まれる音域を決定歌唱音域として特定していたが、決定歌唱音域の特定方法はこれに限るものではなく、例えば、第一歌唱音域と第二歌唱音域との少なくとも一方が含まれる音域を決定歌唱音域として特定しても良いし、第一歌唱音域のみからなる音域を決定歌唱音域として特定しても良い。

特に、後者の場合、上記実施形態の歌唱音域特定処理におけるＳ１６０での安定度分布導出処理、及びＳ２００での第二歌唱音域の判定は、省略されていても良い。
また、上記実施形態における特定音域利用処理では、特定した全歌唱音域をユーザに報知したり、特定した決定歌唱音域に基づくカラオケ楽曲を推奨曲としてユーザに提案したりしていたが、特定音域利用処理にて実行される処理内容は、これに限るものではない。例えば、特定した決定歌唱音域がせまいほど、採点を厳しくするように採点に用いても良い。

さらに、上記実施形態の歌唱音域特定処理では、遷移スコア分布、及び歌唱安定度分布それぞれは、集計遷移スコアｍｔｓｃ（ｆ）または集計安定度ｍｖｓｉ（ｆ）を、構成音に対応する音高と対応付けたマップとして導出されていたが、遷移スコア分布または歌唱安定度分布は、マップに限るものではなく、集計遷移スコアｍｔｓｃ（ｆ）または集計安定度ｍｖｓｉ（ｆ）が、構成音に対応する音高と対応付けられたものであれば、どのよう
なものであっても良い。

なお、上記実施形態では、カラオケ装置２０の制御部２８にて歌唱音域特定処理を実行していたが、歌唱音域特定処理は、サーバ３０のマイクロコンピュータにて実行されても良い。この場合、音声データは、サーバ３０の記憶装置に格納されていることが望ましい。
［本発明と実施形態との対応］
ところで、歌唱音域特定処理のＳ１１０を実行することで得られる機能が、本発明の音声信号取得手段に相当し、Ｓ１２０，Ｓ１３０を実行することで得られる機能が、本発明の歌唱データ生成手段に相当し、Ｓ１４０を実行することで得られる機能が、本発明の楽曲データ取得手段に相当する。また、歌唱音域特定処理のＳ１５０、及びスコア分布導出処理のＳ３１０を実行することで得られる機能が、本発明の第一区間特定手段に相当し、スコア分布導出処理のＳ３２０を実行することで得られる機能が、本発明の遷移値導出手段に相当する。さらに、持続値分布導出処理のＳ３３０、及び歌唱音域特定処理のＳ１９０を実行することで得られる機能が、本発明の第一音域判定手段に相当する。

さらに、歌唱音域特定処理のＳ１５０、及び安定度分布導出処理のＳ４１０を実行することで得られる機能が、本発明の第二区間特定手段に相当し、安定度分布導出処理のＳ４３０を実行することで得られる機能が、本発明の安定度導出手段に相当し、安定度導出処理のＳ４４０及び歌唱音域特定処理のＳ２００を実行することで得られる機能が、本発明の第二音域判定手段に相当する。なお、歌唱音域特定処理のＳ２１０を実行することで得られる機能が、本発明の歌唱音域特定手段に相当する。

カラオケシステムの概略構成を示すブロック図である。歌唱音域特定処理の処理手順を示すフローチャートである。スコア分布導出処理の処理手順を示すフローチャートである。安定度分布導出処理の処理手順を示すフローチャートである。歌唱音域特定処理の処理内容を模式的に示した図面である。スコア分布導出処理の処理手順を模式的に示した図面である。第一歌唱音域を判定する方法について説明するための説明図である。第二歌唱音域を判定する方法について説明するための説明図である。

符号の説明

１…カラオケシステム２０…カラオケ装置２１…記憶部２２…通信部２３…表示部２４…操作受付部２５…音声入出力部２６…マイクロホン２７…スピーカ２８…制御部２８ａ…ＲＯＭ２８ｂ…ＲＡＭ２８ｃ…ＣＰＵ３０…サーバ

Claims

ユーザによる楽曲の歌唱時における音声信号を取得する音声信号取得手段と、
前記音声信号取得手段で取得した音声信号を周波数解析することで、歌唱の音高の遷移を表す歌唱データを生成する歌唱データ生成手段と、
前記楽曲を構成する構成音それぞれの音高及び音価を表す楽曲データを取得する楽曲データ取得手段と、
連続する２つの前記構成音の音高が切り替わるタイミングを音高変化タイミングとし、前記音高変化タイミング及び前記音高変化タイミングを挟む２つの構成音が一定期間存在するように設定された区間を基準区間とし、前記歌唱データ生成手段で生成した歌唱データを、前記楽曲データと照合することで、前記歌唱データ中での前記基準区間に対応する区間である第一歌唱区間を特定する第一区間特定手段と、
前記基準区間を構成する２つの構成音の組合せ毎に規定され、前記基準区間での発声音高の理想的な遷移態様を表すモデルを音高遷移モデルとし、前記第一区間特定手段で特定された第一歌唱区間それぞれについて、前記第一歌唱区間と、その第一歌唱区間に対応する前記音高遷移モデルとの一致度合いを表す音高遷移値を導出する遷移値導出手段と、
前記遷移値導出手段で導出された音高遷移値を、それぞれの第一歌唱区間に含まれた前記音高変化タイミングにて到達する前記構成音の音高毎に集計し、その集計された音高遷移値を集計遷移値とし、前記集計遷移値が、予め規定された規定値以上である最低音高から最高音高までの範囲を、前記ユーザが歌唱可能な音域である第一歌唱音域として判定する第一音域判定手段と
を備えることを特徴とする音域特定システム。
前記第一音域判定手段は、
前記集計遷移値を正規化すると共に、
その正規化された前記集計遷移値の最大値に対して予め規定された割合を前記規定値とすることを特徴とする請求項１に記載の音域特定システム。
前記第一音域判定手段は、
前記基準区間それぞれに含まれる音高変化タイミングでの音高差が大きいほど、前記音高遷移値に大きな重みを付して集計することを特徴とする請求項１または請求項２に記載の音域特定システム。
前記歌唱データ生成手段で生成した歌唱データを、前記楽曲データと照合することで、前記構成音それぞれに対応する前記歌唱データ中での区間を前記第二歌唱区間として特定する第二区間特定手段と、
前記第二区間特定手段で特定された第二歌唱区間それぞれでのビブラートの安定度合いを表す歌唱安定度を導出する安定度導出手段と、
前記安定度導出手段で導出された歌唱安定度を、それぞれの第二歌唱区間に対応する構成音の音高毎に集計し、その集計された歌唱安定度が、予め規定された特定値以上である最低音高から最高音高までの範囲を、前記ユーザが歌唱可能な音域である第二歌唱音域として判定する第二音域判定手段と
を備えることを特徴とする請求項１ないし請求項３のいずれかに記載の音域特定システム。
前記第一音域判定手段で判定された第一歌唱音域と、前記第二音域判定手段で判定された第二歌唱音域とのうち、少なくとも一方を前記ユーザが歌唱可能な一つの音域である歌唱音域として特定する歌唱音域特定手段
を備えることを特徴とする請求項４に記載の音域特定システム。
コンピュータに、
ユーザによる楽曲の歌唱時における音声信号を取得する音声信号取得手順と、
前記音声信号取得手順で取得した音声信号を周波数解析することで、歌唱の音高の遷移を表す歌唱データを生成する歌唱データ生成手順と、
前記楽曲を構成する構成音それぞれの音高及び音価を表す楽曲データを取得する楽曲データ取得手順と、
連続する２つの前記構成音の音高が切り替わるタイミングを音高変化タイミングとし、前記音高変化タイミング及び前記音高変化タイミングを挟む２つの構成音が一定期間存在するように設定された区間を基準区間とし、前記歌唱データ生成手順で生成した歌唱データを、前記楽曲データと照合することで、前記歌唱データ中での前記基準区間に対応する区間である第一歌唱区間を特定する第一区間特定手順と、
前記基準区間を構成する２つの構成音の組合せ毎に規定され、前記基準区間での発声音高の理想的な遷移態様を表すモデルを音高遷移モデルとし、前記第一区間特定手順で特定された第一歌唱区間それぞれについて、前記第一歌唱区間と、その第一歌唱区間に対応する前記音高遷移モデルとの一致度合いを表す音高遷移値を導出する遷移値導出手順と、
前記遷移値導出手順で導出された音高遷移値を、それぞれの第一歌唱区間に含まれた前記音高変化タイミングにて到達する前記構成音の音高毎に集計し、その集計された音高遷移値を集計遷移値とし、前記集計遷移値が、予め規定された規定値以上である最低音高から最高音高までの範囲を、前記ユーザが歌唱可能な音域である第一歌唱音域として判定する第一音域判定手順と
を実行させることを特徴とするプログラム。