JP6654404B2

JP6654404B2 - 音声補正方法、音声補正プログラム、音声補正装置および音声補正システム

Info

Publication number: JP6654404B2
Application number: JP2015216943A
Authority: JP
Inventors: 敏秀金
Original assignee: JE International Corp
Current assignee: JE International Corp
Priority date: 2015-11-04
Filing date: 2015-11-04
Publication date: 2020-02-26
Anticipated expiration: 2035-11-04
Also published as: JP2017090546A

Description

本発明は、音声補正方法、音声補正プログラム、音声補正装置および音声補正システムに関する。

従来から、ユーザーの歌唱がより上手に聞こえるように、ユーザーの歌声のピッチ（音程）が所定のピッチからずれている場合に、ピッチのずれを補正するための種々の方法や技術が提案されている。たとえば、特許文献１に記載の発明では、ユーザーの音声データを、手本音声データに近づける処理を行うことによって、ピッチなどが補正された上手な歌声に補正する技術が開示されている。

特開２００１−１２５５８２号公報

しかしながら、上記特許文献１に記載の発明では、ユーザーの歌声のピッチが手本のピッチから大きくずれている場合には、ピッチのずれを補正するための補正量も大きくなる。このように、ピッチが過剰に補正される場合、補正されたユーザーの歌声は、加工されたような不自然な歌声に聞こえることが知られている。そのため、ユーザーの歌声が自然に聞こえる範囲で、ピッチのずれを適切に補正するためには、結局のところ、専門家が、手作業によってデータを補正することが必要とされてきた。一方で、専門家による補正は、時間と費用が掛かることが多い。したがって、プロの歌手ではない一般のユーザーが、自分の歌声を録音しつつ補正したいような場合には、専門家による補正は、非常に利用され難いものとなっていた。

本発明は、上記事情に鑑みてなされたものであり、専門家による補正を必要とせずに、ユーザーの歌声（音声）が自然に聞こえるように、ユーザーの音声データを自動的に補正できる音声補正方法、音声補正プログラム、音声補正装置および音声補正システムを提供することを目的とする。

上記目的を達成する、本発明に係る音声補正方法は、ユーザーが歌唱して得られる音声を補正する音声補正方法である。音声補正方法は、前記ユーザーが目標とする目標音声を表す目標音声データから、時間遷移する前記目標音声の周波数を特定し、前記ユーザーの音声であるユーザー音声を表すユーザー音声データから、時間遷移する前記ユーザー音声の周波数を特定する周波数特定ステップと、前記周波数特定ステップにおいて特定された前記目標音声の周波数および前記ユーザー音声の周波数を、歌唱の同一タイミングにおいて比較して、前記目標音声の周波数および前記ユーザー音声の周波数の差分が所定の最大補正量以下である場合、前記ユーザー音声の周波数を前記目標音声の周波数に合わせるように前記ユーザー音声データを補正し、前記目標音声の周波数および前記ユーザー音声の周波数の差分が前記最大補正量を超える場合、前記ユーザー音声の周波数を前記最大補正量の分だけ前記目標音声の周波数に近づけるように前記ユーザー音声データを補正する周波数補正ステップと、前記周波数補正ステップにおいて補正された前記ユーザー音声データを出力する補正データ出力ステップと、を含む。

また、上記目的を達成する、本発明に係る音声補正プログラムは、上記の音声補正方法をコンピューターに実行させるための音声補正プログラムである。

また、上記目的を達成する、本発明に係る音声補正装置は、ユーザーが歌唱して得られる音声を補正する音声補正装置である。音声補正装置は、前記ユーザーが目標とする目標音声を表す目標音声データから、時間遷移する前記目標音声の周波数を特定し、前記ユーザーの音声であるユーザー音声を表すユーザー音声データから、時間遷移する前記ユーザー音声の周波数を特定する周波数特定部と、前記周波数特定部によって特定された前記目標音声の周波数および前記ユーザー音声の周波数を、歌唱の同一タイミングにおいて比較して、前記目標音声の周波数および前記ユーザー音声の周波数の差分が所定の最大補正量以下である場合、前記ユーザー音声の周波数を前記目標音声の周波数に合わせるように前記ユーザー音声データを補正し、前記目標音声の周波数および前記ユーザー音声の周波数の差分が前記最大補正量を超える場合、前記ユーザー音声の周波数を前記最大補正量の分だけ前記目標音声の周波数に近づけるように前記ユーザー音声データを補正する周波数補正部と、前記周波数補正部によって補正された前記ユーザー音声データを出力する補正データ出力部と、を有する。

また、上記目的を達成する、本発明に係る音声補正システムは、ユーザーの音声であるユーザー音声からユーザー音声データを生成し、当該ユーザー音声データを、ネットワークを介して送信するユーザー端末と、前記ユーザー音声データを前記ユーザー端末から受信し、前記ユーザー音声データを、前記ユーザーが目標とする目標音声を表す目標音声データと比較して、前記ユーザー音声データを補正する上記の音声補正装置として機能するサーバー装置と、を有する。前記ユーザー端末は、前記補正されたユーザー音声データを前記サーバー装置から受信し、当該補正されたユーザー音声データを保存または再生、あるいは保存および再生する。

本発明の音声補正方法、音声補正プログラム、音声補正装置および音声補正システムによれば、ユーザーが目標とする目標音声を表す目標音声データから、時間遷移する目標音声の周波数を特定する。また、ユーザーの音声であるユーザー音声を表すユーザー音声データから、時間遷移するユーザー音声の周波数を特定する。そして、目標音声の周波数およびユーザー音声の周波数を、歌唱の同一タイミングにおいて比較して、所定の最大補正量（ユーザー音声の周波数を補正する際の最大の補正量）の範囲内で、ユーザー音声の周波数を目標音声の周波数に合わせるように、ユーザー音声データを補正する。周波数の補正は、所定の最大補正量の範囲内で行われるため、ユーザー音声が過剰に補正されてしまうことがない。結果として、ユーザーは、最大補正量さえ設定すれば、専門家による補正を必要とせずに、ユーザー音声が自然に聞こえるように、ユーザー音声データを自動的に補正できる。

本実施形態に係る音声補正装置の概略構成を示すブロック図である。音声補正装置のＣＰＵの機能構成を示すブロック図である。時間遷移に伴う音声の周波数の変化の一例を示す図である。時間遷移に伴う音声のレベルの変化の一例を示す図である。最大補正量の受付画面の一例を示す図である。ユーザー音声の録音方法を示すフローチャートである。本実施形態に係る音声補正方法を示すフローチャートである。ユーザー周波数補正処理を示すサブルーチンフローチャートである。ユーザー無音区間および音声補完方法の関係を説明するための図である。音声補正システムの概略構成を示すブロック図である。

以下、添付した図面を参照して、本発明の実施形態を説明する。なお、図面の説明において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

図１は、本実施形態に係る音声補正装置の概略構成を示すブロック図である。

音声補正装置１００は、たとえばデスクトップ型ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）やノート型ＰＣなどのコンピューター端末である。また、音声補正装置１００は、カラオケ装置などの一部に組み込まれてもよい。音声補正装置１００は、ユーザーの音声入力を録音し、音声補正処理を実行する。

音声補正装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１０、メモリー１２０、ハードディスク１３０、通信Ｉ／Ｆ部１４０、表示部１５０、操作部１６０、音声入力部１７０および音声出力部１８０を有する。各構成は、バス１９０を介して、相互に通信可能に接続されている。

ＣＰＵ１１０は、メモリー１２０やハードディスク１３０に記録されているプログラムに従って、各構成の制御や各種の演算処理などを実行する。

メモリー１２０は、各種プログラムや各種データを記憶するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、作業領域として一時的にプログラムやデータを記憶するＲＡＭ（ＲａｎｄａｍＡｃｃｅｓｓＭｅｍｏｒｙ）などから構成される。

ハードディスク１３０は、オペレーティングシステムを含む各種プログラムや各種データを記憶する。本発明において、ハードディスク１３０は、ユーザーが目標とする目標音声を表す目標音声データと、ユーザーに伴奏音を提供するための伴奏データとを含む楽曲データを記憶する。なお、本明細書において、目標音声は、たとえばプロの歌手が歌唱した音声を意味するが、歌の手本となる人が歌唱した音声であれば特に限定されない。また、ハードディスク１３０は、ユーザーの音声であるユーザー音声を表すユーザー音声データを記憶する。

通信Ｉ／Ｆ部１４０は、ネットワークを介して他の機器と通信するためのインターフェースであり、イーサネット（登録商標）、ＦＤＤＩ（ＦｉｂｅｒＤｉｓｔｒｉｂｕｔｅｄＤａｔａＩｎｔｅｒｆａｃｅ）、Ｗｉ−Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）などの規格を用いる。通信Ｉ／Ｆ部１４０は、目標音声データおよび伴奏データを含む楽曲データを、外部のサーバーなどから受信する。

表示部１５０は、たとえば液晶ディスプレイであり、各種情報を表示する。

操作部１６０は、たとえばマウスなどのポインティングデバイスやキーボードであり、ユーザーが各種情報を入力するために使用される。

音声入力部１７０は、ユーザー音声を電気信号に変換するマイクロホン、変換された電気信号を増幅するアンプ、電気信号をアナログ信号からデジタル信号に変換するＡ／Ｄコンバーターなどから構成される。つまり、音声入力部１７０によって、ユーザー音声はデジタル信号に変換され、変換されたデジタル信号は、ＣＰＵ１１０によって、ユーザー音声データとして処理される。

音声出力部１８０は、電気信号をデジタル信号からアナログ信号に変換するＤ／Ａコンバーター、電気信号を増幅するアンプ、電気信号を音に変換して音を出力するスピーカーまたはヘッドホンなどから構成される。

なお、音声入力部１７０および音声出力部１８０の構成の一部または全部は、音声補正装置１００の外部に設けられてもよく、図１に示す例に限定されない。たとえば、音声入力部１７０および音声出力部１８０の構成の一部が、音声補正装置１００に設けられた音声入力端子および音声出力端子を介して、音声補正装置１００と接続されていてもよい。

図２は、音声補正装置のＣＰＵの機能構成を示すブロック図である。

ＣＰＵ１１０は、各種プログラムを実行することによって、たとえば、伴奏データ再生部１１１、音声データ録音部１１２、周波数特定部１１３、レベル特定部１１４、基準レベル計算部１１５、最大補正量受付部１１６、周波数補正部１１７、レベル補正部１１８および補正データ出力部１１９として機能する。以下、各機能構成について説明する。

伴奏データ再生部１１１は、ユーザーに伴奏音を提供するために、ハードディスク１３０などに記憶され、目標音声データと共に楽曲データに含まれる、伴奏データを再生する。そして、伴奏データ再生部１１１は、伴奏データに基づく電気信号を音声出力部１８０に出力し、音声出力部１８０に、楽曲の伴奏音として出力させる。ユーザーは、音声出力部１８０によって出力される伴奏音を聞きながら、歌唱する。

音声データ録音部１１２は、音声入力部１７０に入力されるユーザー音声を録音する。音声データ録音部１１２は、音声入力部１７０に入力されるユーザー音声を処理して、ユーザー音声データとして、ハードディスク１３０などに記憶する。

周波数特定部１１３は、目標音声データから、時間遷移する目標音声の周波数を特定する。また、周波数特定部１１３は、ユーザー音声データから、時間遷移するユーザー音声の周波数を特定する。具体的には、周波数特定部１１３は、目標音声データおよびユーザー音声データに対して、それぞれフーリエ変換を適用する。そして、周波数特定部１１３は、所定時間毎に音声の周波数成分を特定し、特定された周波数成分のうち、最も低い周波数を「基本周波数」として特定する。音声の基本周波数は、人間が感じる音の高さ（音程）に相当する。特定された周波数成分は、たとえば、図３に示すように表現できる。

図３は、時間遷移に伴う音声の周波数の変化の一例を示す図である。周波数特定部１１３が、歌唱の進行（時間の進行）に従って、所定時間毎に音声の周波数を特定することによって、時間遷移に伴う音声の周波数の変化が確認される。ここで、所定時間は任意であり、たとえば０．１秒である。この所定時間が短いほど、精密に音声の周波数の変化を特定できる。図３に示す周波数成分のうち、矢印で示す最も低い周波数成分が、基本周波数である。基本周波数の上方に現れる周波数成分は、倍音の周波数である。

図２に戻って、レベル特定部１１４は、目標音声データから、時間遷移する目標音声のレベルを特定する。また、レベル特定部１１４は、ユーザー音声データから、時間遷移するユーザー音声のレベルを特定する。レベル特定部１１４は、目標音声データおよびユーザー音声データに対して、所定時間毎に音声のレベルを特定する。音声のレベルは、音の強さ（音圧）に対応する。音声のレベルは、たとえば、図４に示すように表現できる。

図４は、時間遷移に伴う音声のレベルの変化の一例を示す図である。レベル特定部１１４が、歌唱の進行（時間の進行）に従って、所定時間毎に音声のレベルを特定することによって、時間遷移に伴う音声のレベルの変化が確認される。ここで、所定時間は任意であり、たとえば０．１秒である。この所定時間が短いほど、精密に音声のレベルの変化を特定できる。

図２に戻って、基準レベル計算部１１５は、目標音声のレベルの一部または全部を用いて、目標音声のレベルの基準となる目標基準レベルを計算する。また、基準レベル計算部１１５は、ユーザー音声のレベルの一部または全部を用いて、ユーザー音声のレベルの基準となるユーザー基準レベルを計算する。具体的には、基準レベル計算部１１５は、時間遷移に伴って変化する音声のレベルの一部（たとえば、歌唱の歌い出しの一部分）または全部（歌唱の全体）の平均値を計算して、基準レベルとする。目標音声およびユーザー音声は、同じ条件で録音されたものではないため、録音環境の違いによって、全体的に音声のレベルが小さくなる場合や、大きくなる場合がある。そのため、基準レベル計算部１１５は、たとえば、時間遷移に伴って変化する音声のレベルの一部または全部の平均値を計算することによって、全体的な音声のレベルを確認する。基準レベル計算部１１５は、全体的な音声のレベルを確認するために、平均値を計算する以外の方法を用いてもよい。

最大補正量受付部１１６は、最大補正量の受付画面を表示部１５０に表示させ、最大補正量の入力をユーザーから受け付ける。本発明において、「最大補正量」とは、ユーザー音声の周波数を補正する際の最大の補正量を意味する。最大補正量受付部１１６は、たとえば、表示部１５０に表示された最大補正量の受付画面において、操作部１６０を介して、ユーザーに複数の最大補正量の候補から一つを選択させたり、最大補正量の数値を直接入力させたりして、最大補正量の入力を受け付ける。また、最大補正量受付部１１６は、最大補正量を調節するためのスライダー上のつまみの位置を、ユーザーに調節させることによって、最大補正量の入力を受け付けてもよい。

図５は、最大補正量の受付画面の一例を示す図である。図５では、ユーザーに複数の最大補正量の候補から一つを選択させるための受付画面の例を示し、ユーザーは、「５％まで補正」「１０％まで補正」「補正量制限なし」の３つの候補から一つを選択できる。たとえば、「５％まで補正」が選択された場合には、周波数は、変更前の周波数に対して５％増減する範囲までしか変更されず、この「５％」が、最大補正量となる。つまり、本発明では、補正量は比率に基づいて設定される。「補正量制限なし」が選択された場合には、周波数は、補正量の制限なく変更される。最大補正量の候補の内容は、ユーザーによって自由に設定されてもよいし、予め保存されていてもよい。

また、最大補正量の受付画面において、「半音まで補正」「全音まで補正」のように、音程に基づいた最大補正量の候補が、表示されてもよい。この場合、半音に対応する周波数の比率を計算することによって、最大補正量が設定されればよい。

周波数補正部１１７は、目標音声の周波数およびユーザー音声の周波数を、歌唱の同一タイミングにおいて比較する。そして、周波数補正部１１７は、ユーザー音声の周波数を目標音声の周波数に合わせるように、ユーザー音声データを補正する。周波数補正部１１７は、所定時間毎に比較および補正を行う。具体的には、周波数補正部１１７は、ユーザー音声データに対してフーリエ変換が適用されてできたデータにおいて、周波数を変更する。そして、周波数補正部１１７は、全ての変更を完了すると、当該データをフーリエ逆変換することによって、ユーザー音声データに戻す。周波数補正部１１７は、最大補正量受付部１１６によって受け付けられた最大補正量を参照して、当該最大補正量の範囲内で、ユーザー音声データを補正する。さらに、周波数補正部１１７は、ユーザー音声の基本周波数を変更した比率と同一の比率で、ユーザー音声の基本周波数以外の周波数を変更するように、ユーザー音声データを補正することもできる。

レベル補正部１１８は、まず、基準レベル計算部１１５において計算された目標基準レベルおよびユーザー基準レベルを用いて、目標基準レベルに対するユーザー基準レベルの比率を計算する。そして、レベル補正部１１８は、計算された比率を目標音声のレベルに乗算して得られるレベルに、ユーザー音声のレベルを合わせるように、ユーザー音声データを補正する。すなわち、レベル補正部１１８は、ユーザー音声のレベルが目標音声のレベルとは異なるものの、同じレベル遷移の形（抑揚）となるように、ユーザー音声データを補正する。上述したように、録音環境の違いによって、全体的な音声のレベルが異なる場合がある。そのため、目標基準レベルに対するユーザー基準レベルの比率を計算し、補正に反映させることによって、録音環境の違いが補正に影響しないようにする。レベル補正部１１８は、所定時間毎に補正を行う。

補正データ出力部１１９は、周波数補正部１１７および／またはレベル補正部１１８によって補正されたユーザー音声データを出力する。この際、補正データ出力部１１９は、補正されたユーザー音声データを、伴奏データと組み合わせて出力してもよい。補正データ出力部１１９による出力は、補正されたユーザー音声データを、所定のファイル形式（ＰＣＭやＭＰ３など）に変換して、ハードディスク１３０や外部の記憶装置などに保存することを含む。また、補正データ出力部１１９による出力は、補正されたユーザー音声データを、所定のファイル形式に変換して、再生することも含む。さらに、補正データ出力部１１９は、上記の保存および再生を同時に行うこともできる。ファイル形式または出力方法の選択は、たとえば、表示部１５０に表示されたファイル形式または出力方法を選択させるための画面において、ユーザーが、操作部１６０を介して候補から選択することなどによって、実現される。

次に、本実施形態に係る音声補正装置１００における音声補正方法について、図６〜図８によって説明する。なお、図６〜図８のフローチャートに示す方法は、音声補正装置１００のメモリー１２０またはハードディスク１３０にプログラムとして記憶されており、ＣＰＵ１１０によって実行される。本実施形態に係る音声補正装置１００のプログラムは、ユーザーが歌唱して得られる音声を補正するものである。具体的には、ユーザーから受け付けた最大補正量の範囲内で、ユーザー音声の周波数を目標音声の周波数に合わせるように、ユーザー音声データを補正するように制御するものである。

まず、図６では、音声補正方法を適用するためのユーザー音声を、音声補正装置１００が録音する方法について説明する。

図６は、ユーザー音声の録音方法を示すフローチャートである。

まず、ＣＰＵ１１０は、ユーザーから録音の開始の指示を受け付けたか否かを判断する（ステップＳ１０１）。録音の開始の指示は、たとえば、表示部１５０に表示された画面において、ユーザーが、操作部１６０を介して録音の開始を表示するボタンを押下することなどによって、実現される。

録音の開始の指示を受け付けていない場合（ステップＳ１０１：ＮＯ）、ＣＰＵ１１０は、録音の開始を受け付けるまで待機する。

録音の開始の指示を受け付けた場合（ステップＳ１０１：ＹＥＳ）、ＣＰＵ１１０は、ステップＳ１０２の処理に進む。

続いて、ＣＰＵ１１０は、伴奏データ再生部１１１として、ユーザーに伴奏音を提供するために、ハードディスク１３０などに記憶された楽曲データに含まれる伴奏データを再生する（ステップＳ１０２）。同時に、ＣＰＵ１１０は、音声データ録音部１１２として、音声入力部１７０に入力されるユーザー音声を録音する（ステップＳ１０３）。ＣＰＵ１１０は、録音の開始から終了までの間、ユーザー音声を処理して、ユーザー音声データとして、ハードディスク１３０などに記憶する。

次に、図７では、音声補正装置１００が、録音されたユーザー音声データを補正する方法（音声補正方法）について説明する。

図７は、本実施形態に係る音声補正方法を示すフローチャートである。

まず、ＣＰＵ１１０は、周波数特定部１１３として、ハードディスク１３０などに記憶された目標音声データから、時間遷移する目標音声の基本周波数を特定する（ステップＳ２０１）。以下では、目標音声の基本周波数を「目標基本周波数」と呼ぶ。

続いて、ＣＰＵ１１０は、レベル特定部１１４として、ハードディスク１３０などに記憶された目標音声データから、時間遷移する目標音声のレベルを特定する（ステップＳ２０２）。以下では、目標音声のレベルを「目標レベル」と呼ぶ。

続いて、ＣＰＵ１１０は、基準レベル計算部１１５として、ステップＳ２０２において特定された目標レベルの一部または全部を用いて、目標レベルの基準となる目標基準レベルを計算する（ステップＳ２０３）。基準レベル計算部１１５は、時間遷移に伴う目標レベルの一部または全部の平均値を計算して、目標基準レベルとする。

続いて、ＣＰＵ１１０は、最大補正量受付部１１６として、最大補正量の受付画面を表示部１５０に表示させる（ステップＳ２０４）。そして、ＣＰＵ１１０は、最大補正量の入力をユーザーから受け付けたか否かを判断する（ステップＳ２０５）。

最大補正量の入力を受け付けていない場合（ステップＳ２０５：ＮＯ）、ＣＰＵ１１０は、最大補正量を受け付けるまで待機する。

最大補正量の入力を受け付けた場合（ステップＳ２０５：ＹＥＳ）、ＣＰＵ１１０は、ステップＳ２０６の処理に進む。

続いて、ＣＰＵ１１０は、周波数特定部１１３として、ハードディスク１３０などに記憶されたユーザー音声データから、時間遷移するユーザー音声の基本周波数を特定する（ステップＳ２０６）。以下では、ユーザー音声の基本周波数を「ユーザー基本周波数」と呼ぶ。

続いて、ＣＰＵ１１０は、レベル特定部１１４として、ハードディスク１３０などに記憶されたユーザー音声データから、時間遷移するユーザー音声のレベルを特定する（ステップＳ２０７）。以下では、ユーザー音声のレベルを「ユーザーレベル」と呼ぶ。

続いて、ＣＰＵ１１０は、基準レベル計算部１１５として、ステップＳ２０７において特定されたユーザーレベルの一部または全部を用いて、ユーザーレベルの基準となるユーザー基準レベルを計算する（ステップＳ２０８）。基準レベル計算部１１５は、時間遷移に伴うユーザーレベルの一部または全部の平均値を計算して、ユーザー基準レベルとする。

続いて、ＣＰＵ１１０は、周波数補正部１１７として、ユーザー周波数についてユーザー音声データを補正するため、ユーザー周波数補正処理に進む（ステップＳ２０９）。ステップＳ２０９の処理の詳細については後述する。

続いて、ＣＰＵ１１０は、レベル補正部１１８として、ユーザーレベルについてユーザー音声データを補正するための処理に進む。ＣＰＵ１１０は、ステップＳ２０３において計算された目標基準レベルに対する、ステップＳ２０８において計算されたユーザー基準レベルの比率を計算する（ステップＳ２１０）。そして、ＣＰＵ１１０は、レベル補正部１１８として、ユーザーレベルについてユーザー音声データを補正する（ステップＳ２１１）。具体的には、ＣＰＵ１１０は、ステップＳ２１０で計算された比率を、目標レベルに乗算して得られるレベルに、ユーザーレベルを合わせるように、ユーザー音声データを補正する。なお、ステップＳ２１１において補正されるユーザー音声データは、ステップＳ２０９のユーザー周波数補正処理において補正されたユーザー音声データである。

ＣＰＵ１１０は、ユーザー音声データにおける全ての補正を完了すると、補正データ出力部１１９として、補正されたユーザー音声データを、伴奏データと組み合わせて出力する（ステップＳ２１２）。つまり、ＣＰＵ１１０は、補正されたユーザー音声データと伴奏データとを組み合わせて、新たな楽曲データを作成して、出力する。出力として、ＣＰＵ１１０は、新たな音楽データを所定のファイル形式に変換して、ハードディスク１３０や外部の記憶装置などに保存させてもよいし、再生して、音声出力部１８０に出力させてもよい。さらに、ＣＰＵ１１０は、保存および再生を同時に行ってもよい。そして、ＣＰＵ１１０は処理を終了する。

次に、ステップＳ２０９のユーザー周波数補正処理について、詳細に説明する。

図８は、ユーザー周波数補正処理を示すサブルーチンフローチャートである。

図８では、まず、音声補正装置１００が、ユーザー基本周波数についてユーザー音声データを補正する方法を、ステップＳ３０１〜３０３に示す。

ＣＰＵ１１０は、周波数補正部１１７として、目標基本周波数およびユーザー基本周波数を、歌唱の同一タイミングにおいて比較して、両者の差分が、ステップＳ２０５において受け付けられた最大補正量以下であるか否かを判断する（ステップＳ３０１）。

差分が最大補正量以下である場合（ステップＳ３０１：ＹＥＳ）、ＣＰＵ１１０は、ユーザー基本周波数を目標基本周波数に一致させるように、ユーザー音声データを補正する（ステップＳ３０２）。なお、補正前において、目標基本周波数およびユーザー基本周波数が同一である場合には、ユーザー基本周波数を目標基本周波数に一致させるようにしても何も変化がないことから、ＣＰＵ１１０は、ユーザー音声データを補正しない。

一方、差分が最大補正量以下でない場合（ステップＳ３０１：ＮＯ）、ＣＰＵ１１０は、ユーザー基本周波数を最大補正量の分だけ目標基本周波数に近づけるように、ユーザー音声データを補正する（ステップＳ３０３）。つまり、ＣＰＵ１１０は、ユーザー音声データを、ステップＳ２０５において受け付けられた最大補正量までしか補正しない。

したがって、ステップＳ３０１〜Ｓ３０３の処理において、ＣＰＵ１１０は、目標基本周波数およびユーザー基本周波数を、歌唱の同一タイミングにおいて比較して、最大補正量の範囲内で、ユーザー基本周波数を目標基本周波数に合わせるように、ユーザー音声データを補正する。

続いて、音声補正装置１００が、ユーザー音声の周波数のうち、ユーザー基本周波数以外の周波数についてユーザー音声を補正する方法を、ステップＳ３０４〜Ｓ３０６に示す。

ＣＰＵ１１０は、変更前のユーザー基本周波数と、ステップＳ３０１〜Ｓ３０３において変更された変更後のユーザー基本周波数とを用いて、変更前のユーザー基本周波数に対する変更後のユーザー基本周波数の比率を計算する（ステップＳ３０４）。つまり、ＣＰＵ１１０は、ユーザー基本周波数を変更した比率を計算する。ＣＰＵ１１０は、ユーザー音声データに対して、所定時間毎に比率を計算する。たとえば、ステップＳ３０１〜Ｓ３０３の処理の結果、あるタイミングにおいて、変更前のユーザー基本周波数が２００Ｈｚ、変更後のユーザー基本周波数が２０４Ｈｚである場合、ステップＳ３０４において計算される比率は、１０２％である。

続いて、ＣＰＵ１１０は、周波数特定部１１３として、ユーザー音声データから、ユーザー音声の全ての周波数成分を特定する（ステップＳ３０５）。なお、ＣＰＵ１１０は、ステップＳ３０１〜Ｓ３０３において補正されたユーザー音声データから、ユーザー音声の周波数成分を特定してもよいし、ハードディスク１３０に記憶されたユーザー音声データから、周波数成分を特定してもよい。ユーザー音声の基本周波数以外の周波数は、どちらのデータにおいても変わらないからである。なお、ＣＰＵ１１０は、ステップＳ２０６において、ユーザー基本周波数を特定する際に、ユーザー音声の全ての周波数成分を特定してもよい。

続いて、ＣＰＵ１１０は、周波数補正部１１７として、ステップＳ３０４において計算された比率と同一の比率で、ユーザー音声の基本周波数以外の周波数を変更するように、ステップＳ３０１〜Ｓ３０３において補正されたユーザー音声データをさらに補正する（ステップＳ３０６）。たとえば、あるタイミングにおいて、ユーザー基本周波数を変更した比率が１０２％であり、倍音の周波数の一つが４００Ｈｚである場合、ＣＰＵ１１０は、当該倍音の周波数が４０８Ｈｚになるように、ユーザー音声データを補正する。ＣＰＵ１１０は、全ての周波数に対して補正を完了すると、ユーザー周波数補正処理を終了する。

以上のように、本発明の音声補正装置１００によれば、ユーザーが目標とする目標音声を表す目標音声データから、時間遷移する目標音声の周波数を特定する。また、ユーザーの音声であるユーザー音声を表すユーザー音声データから、時間遷移するユーザー音声の周波数を特定する。そして、目標音声の周波数およびユーザー音声の周波数を、歌唱の同一タイミングにおいて比較して、所定の最大補正量の範囲内で、ユーザー音声の周波数を目標音声の周波数に合わせるように、ユーザー音声データを補正する。周波数の補正は、所定の最大補正量の範囲内で行われるため、ユーザー音声が過剰に補正されてしまうことがない。結果として、ユーザーは、最大補正量さえ設定すれば、専門家による補正を必要とせずに、ユーザー音声が自然に聞こえるように、ユーザー音声データを自動的に補正できる。

特に、本発明の音声補正装置１００は、所定の最大補正量の入力をユーザーから受け付ける。つまり、ユーザーは、最大補正量を必要に応じて自由に変更できる。ユーザーが必要とする最大補正量は、ユーザーの歌唱能力や、使用する楽曲によって異なる。したがって、ユーザーが補正の度合いを自由に変更できることによって、音声補正装置１００は、様々なユーザーや楽曲に対応することができ、ユーザーの利便性を向上できる。

また、本発明の音声補正装置１００は、複数の最大補正量の候補から、ユーザーに一つを選択させる。つまり、ユーザーは、最大補正量を入力する際に、細かい数値を直接入力する必要なく、簡単に最大補正量を選択できる。結果として、ユーザーは、音声補正装置１００を簡単に使用することができ、音声補正装置１００は、ユーザーの利便性をさらに向上できる。

また、本発明の音声補正装置１００は、目標基本周波数およびユーザー基本周波数を比較して、ユーザー基本周波数を目標基本周波数に合わせるように、ユーザー音声データを補正する。加えて、ユーザー基本周波数を変更した比率と同一の比率で、ユーザー音声の基本周波数以外の周波数を変更するように、ユーザー音声データをさらに補正する。つまり、音声補正装置１００は、基本周波数だけでなく、全ての周波数成分を補正する。したがって、ユーザー音声において、基本周波数と倍音の周波数との比率は、常に一定に保たれる。結果として、ユーザーは、ユーザー音声がより自然に聞こえるように、ユーザー音声データを自動的に補正できる。

また、本発明の音声補正装置１００は、目標レベルの一部または全部を用いて、目標基準レベルを計算し、ユーザーレベルの一部または全部を用いて、ユーザー基準レベルを計算する。そして、目標基準レベルに対するユーザー基準レベルの比率を、目標レベルに乗算して得られるレベルに、ユーザーレベルを合わせるように、ユーザー音声データを補正する。目標音声およびユーザー音声は、同じ条件で録音されたものではないため、録音環境の違いによって、全体的な音声のレベルが異なる場合がある。全体的な音声のレベルが大きく異なったまま、ユーザーレベルを目標レベルに合わせるようにすると、音声補正装置１００は、ユーザーレベルを大きく変更しなければならない。そこで、目標基準レベルに対するユーザー基準レベルの比率を計算し、補正に反映させることによって、録音環境の違いが、補正に大きく影響しないようにできる。結果として、ユーザーは、専門家による補正を必要とせずに、ユーザーレベル（音の強さに対応する）によって表現される抑揚についても、目標音声を真似できるように、ユーザー音声データをさらに補正できる。

また、本発明の音声補正装置１００は、補正されたユーザー音声データを、伴奏データと組み合わせて出力する。伴奏データは、元々、目標音声データと共に楽曲データに含まれていたものである。つまり、ユーザーは、当該楽曲データにおいて、音声データのみをユーザー音声データに置き換えた新たな楽曲データを作成できる。この楽曲データを変換することによって、ユーザーは、自身の歌声より上手に聞こえ、かつ自然に聞こえる範囲で補正された、新たな楽曲ファイルを入手できる。ユーザーは、プロの歌手の音声を、自身の音声の声色に置き換えたような楽曲ファイルを入手できる。結果として、音声補正装置１００は、ユーザーに新たな音楽の楽しみ方を提供できる。

また、本発明の音声補正装置１００は、補正されたユーザー音声データの保存または再生、あるいは保存および再生を行う。ユーザーは、補正された直後の音声をすぐに確認したいか、保存しておいて後で確認したいかによって、出力方法を選択できる。結果として、ユーザーは、補正されたユーザー音声データを、様々な出力方法で楽しむことができる。

なお、上記実施形態では、音声補正装置１００は、ユーザー音声データにおいて、周波数についての処理（図７のステップＳ２０１、Ｓ２０６およびＳ２０９の処理）を行ってから、レベルについての処理（ステップＳ２０２およびＳ２０３、ステップＳ２０７およびＳ２０８、ならびにステップＳ２１０およびＳ２１１の処理）を行う。しかし、本発明はこれに限定されず、音声補正装置１００は、レベルについての処理を行ってから、周波数についての処理を行ってもよい。具体的には、ステップＳ２０１と、Ｓ２０２およびＳ２０３とが入れ替わってもよく、ステップＳ２０６と、ステップ２０７およびＳ２０８とが入れ替わってもよく、ステップＳ２０９と、ステップＳ２１０およびＳ２１１とが入れ替わってもよい。また、音声補正装置１００は、周波数についての処理のみを行ってもよいし、一方で、レベルについての処理のみを行ってもよい。

また、上記実施形態では、音声補正装置１００は、最大補正量を受け付けたか否かを判断する時間に、制限を設けてもよい。この場合、音声補正装置１００のＣＰＵ１１０は、ステップＳ２０４において、最大補正量の受付画面を表示部１５０に表示させた時点から、時間の測定を開始する。そして、ステップＳ２０５において、ＣＰＵ１１０が最大補正量を受け付けないまま経過した時間が、所定のタイムアウト時間を超えた場合、ＣＰＵ１１０は、自動的にステップＳ２０６の処理に進む。この場合、ＣＰＵ１１０は、最大補正量として、所定の最大補正量を自動的に選択する。所定のタイムアウト時間および所定の最大補正量は、ユーザーによって任意に設定されてもよい。この場合、ユーザーは、所定のタイムアウト時間まで最大補正量の入力を保留することによって、最大補正量として、所定の最大補正量を選択したい旨を示すことができる。結果として、ユーザーは、音声補正装置１００に最大補正量を入力する必要がなくなり、音声補正装置１００は、ユーザーの利便性をさらに向上できる。

また、上記実施形態では、音声補正装置１００は、図８に示すユーザー周波数補正処理において、目標基本周波数およびユーザー基本周波数を比較して、ユーザー基本周波数を目標基本周波数に合わせるように、ユーザー音声データを補正する。しかし、本発明はこれに限定されず、基本周波数以外の周波数を比較して、ユーザー音声データを補正してもよい。たとえば、音声補正装置１００は、目標音声の第２倍音の周波数およびユーザー音声の第２倍音の周波数を比較して、最大補正量の範囲内で、ユーザー音声の第２倍音の周波数を目標音声の第２倍音の周波数に合わせるように、ユーザー音声データを補正してもよい。そして、音声補正装置１００は、ユーザー音声の第２倍音の周波数を変更した比率と同一の比率で、ユーザー音声の第２倍音の周波数以外の周波数を変更するように、ユーザー音声データをさらに補正してもよい。

また、上記実施形態では、音声補正装置１００は、ステップＳ２１１において、ステップＳ２１０で計算された比率を、目標レベルに乗算して得られるレベルに、ユーザーレベルを合わせるように、ユーザー音声データを補正する。しかし、本発明はこれに限定されず、比率を考慮することなく、ユーザーレベルを目標レベルに、単純に一致させるようにしてもよい。この場合、ステップＳ２０３、Ｓ２０８およびＳ２１０の処理が不要になるため、音声補正装置１００は、処理量を削減できる。

また、上記実施形態では、音声補正装置１００は、ステップＳ２１２において、補正されたユーザー音声データを伴奏データと組み合わせて出力する。しかし、本発明はこれに限定されず、音声補正装置１００は、補正されたユーザー音声データのみを出力してもよい。音声補正装置１００は、伴奏データと組み合わせることを必要とせずに、補正されたユーザー音声のみが含まれたデータを作成したいユーザーに対しても、ステップＳ２１２において、補正されたユーザー音声データを提供できる。

また、音声補正装置１００において、ユーザーが予め、補正しない区間を指定できるようにしてもよい。たとえば、楽曲中に、ラップやセリフなどの区間が含まれる場合や、音楽表現上、ユーザーがあえて補正したくない区間が含まれる場合などを考慮して、ユーザーが、補正しない区間を指定できるようにする。さらに、音声補正装置１００において、ユーザーが、特定の区間を指定して、当該区間にのみ異なる最大補正量を個別に設定できるようにしてもよい。たとえば、所定の最大補正量による補正の結果、特定の区間のユーザー音声だけが不自然に聞こえた場合に、ユーザーは、当該区間を指定して、異なる最大補正量を入力することによって、当該区間のみ補正の度合いを弱めることができるようにする。音声補正装置１００は、ユーザー音声データを細かく補正したいユーザーに対して、ユーザーの利便性をさらに向上できる。

また、音声補正装置１００は、ユーザー音声の録音と同時に、ユーザー音声データを補正できるようにしてもよい。つまり、音声補正装置１００は、図６に示すユーザー音声を録音する処理を行いながら、随時生成されるユーザー音声データに対して、図７に示す音声補正処理を適用する。このとき、目標音声データの処理（ステップＳ２０１〜Ｓ２０３）については、ステップＳ１０１において、音声補正装置１００が録音の開始の指示を受け付けた直後に開始されてもよい。あるいは、目標音声データの処理についても、ユーザー音声データの処理と同時に行われてもよい。ユーザーは、録音の終了と同時に、補正された音声データを入手できる。結果として、音声補正装置１００は、録音してから補正を開始する場合に比べて、ユーザーが補正の完了を待つ時間を短縮でき、ユーザーの利便性をさらに向上できる。

以下、図面を参照して、更なる変形例を説明する。

（変形例１）
変形例１では、音声補正装置１００は、目標音声では歌唱がある一方で、ユーザー音声では歌唱がない区間（以下では、「ユーザー無音区間」と呼ぶ）を特定する。そして、音声補正装置１００は、ユーザー無音区間にデータを補完するか否かを判断する。以下では、ユーザー無音区間にデータを補完する方法を、音声補完方法と呼ぶ。変形例１は、上記実施形態の作用を前提とする。

変形例１では、音声補正装置１００のＣＰＵ１１０は、データ補完部として機能する。ＣＰＵ１１０は、図７のステップＳ２０２において特定される目標レベルと、ステップＳ２０７において特定されるユーザーレベルとに基づいて、ユーザー無音区間を特定する。具体的には、ＣＰＵ１１０は、目標レベルが所定の最小レベル以上である一方で、ユーザーレベルが所定の最小レベル未満である区間を、ユーザー無音区間として特定する。「最小レベル」とは、音声データにおいて、歌唱があるとみなされる最小の音声のレベルを意味する。つまり、ＣＰＵ１１０は、音声のレベルが最小レベル以上である場合、歌唱があると判断し、音声のレベルが最小レベル未満である場合、歌唱がないと判断する。最小レベルは、音声データにおける暗騒音のレベルや、ノイズフロアなどに基づいて、ＣＰＵ１１０によって自動的に設定されてもよい。また、最小レベルの入力が、表示部１５０に表示された画面において、ユーザーが、操作部１６０を介して入力することなどによって、実現されてもよい。以下では、音声補完方法について、図９によって説明する。

図９は、ユーザー無音区間および音声補完方法の関係を説明するための図である。

図９では、横軸に時間を示し、音声データの進行状況に対応する、ユーザー無音区間および音声補完処理の例を表す。

まず、ＣＰＵ１１０は、データ補完部として、図９に示すようなユーザー無音区間１および２を特定する。そして、ＣＰＵ１１０は、ユーザー無音区間を特定した後、ユーザー無音区間の直前のユーザーレベルが所定の最小レベル以上であるか否かをさらに判断する。図９に示す例では、ユーザー無音区間１の直前のユーザーレベルは、所定の最小レベル以上であり、ユーザー無音区間２の直前のユーザーレベルは、所定の最小レベル未満である。つまり、ユーザー無音区間１は、主に、ユーザーが本来歌い続けるべきであった区間を示し、ユーザー無音区間２は、主に、ユーザーの歌い出しが遅れた区間を示す。特に、ユーザー無音区間１については、ユーザーが本来、フレーズの切れ目の最後の音などを延ばし続けて歌い続けるべきところ、ユーザーの息が続かずに、途切れてしまった区間などが想定される。

ユーザー無音区間の直前のユーザーレベルが所定の最小レベル以上である場合、つまり、ユーザー無音区間が、ユーザーが本来歌い続けるべきであった区間である場合、ＣＰＵ１１０は、当該区間にデータを補完する。データを補完する処理は、図９に示すように、ユーザー無音区間１の直前の所定の区間のデータ（図９に示すデータＡの部分）をコピーして、ユーザー無音区間１において繰り返すように行う。

ユーザー無音区間の直前のユーザーレベルが所定の最小レベル未満である場合、つまり、ユーザー無音区間が、ユーザーの歌い出しが遅れた区間である場合、ＣＰＵ１１０は、当該区間にデータを補完しない。

以上のように、本発明の音声補正装置１００によれば、目標レベルが所定の最小レベル以上である一方で、ユーザーレベルが所定の最小レベルを未満であるユーザー無音区間を特定する。そして、ユーザー無音区間の直前のユーザーレベルが、所定の最小レベル以上である場合に、ユーザー無音区間において、ユーザー無音区間の直前の所定の区間のデータを繰り返すように、ユーザー音声データを補完する。したがって、たとえば、ユーザーが本来、フレーズの切れ目の最後の音などを延ばし続けて歌い続けるべきところ、ユーザーの息が続かずに、途切れてしまった区間において、音声補正装置１００は、ユーザー音声データを補完できる。結果として、ユーザーは、より目標音声に近づいたユーザー音声を表すユーザー音声データを入手でき、音声補正装置１００は、ユーザー音声データをより細かく補正したいユーザーに対して、ユーザーの利便性をさらに向上できる。

なお、図９に示す音声補完処理は、図７のステップＳ２０９〜Ｓ２１１の処理の前または後のどちらで行われてもよい。ただし、音声補完処理は、ステップＳ２０９〜Ｓ２１１の処理の前に行われる方が望ましい。なぜなら、音声補完処理を前に行うことによって、ＣＰＵ１１０は、周波数補正部１１７およびレベル補正部１１８として、ユーザー無音区間１においても、ユーザー音声を目標音声に合わせるように、ユーザー音声データを補正するからである。

図９に示すように、ユーザー無音区間１において、ユーザー音声データは、データＡのコピーによって、データＡが繰り返されるように補完されている。このとき、ユーザー無音区間１において、目標音声データにおける、目標音声の周波数の変化およびレベルの変化があったとする。

音声補完処理がステップＳ２０９〜Ｓ２１１の処理の後に行われる場合、データが補完されたユーザー無音区間１において、ユーザー音声データは補正されない。この場合、ユーザー音声データは、目標音声データにおける、目標音声の周波数の変化およびレベルの変化に追随できない。

一方、音声補完処理がステップＳ２０９〜Ｓ２１１の処理の後に行われる場合、データが補完されたユーザー無音区間１においても、ユーザー音声データは補正される。結果として、データが補完されたユーザー無音区間１においても、ユーザー音声データは、目標音声データにおける、目標音声の周波数の変化およびレベルの変化に追随できるようになる。
（変形例２）
上記実施形態においては、音声補正装置１００単体により、ユーザー音声の録音や、音声補正処理を実行している。変形例２では、複数の装置を含む音声補正システムにより、ユーザー音声の録音や、音声の補正を実行する。

図１０は、音声補正システムの概略構成を示すブロック図である。

音声補正システム２００は、図１０に示すように、ＰＣ２１０、携帯端末２２０およびサーバー装置２３０を有する。各構成は、ネットワーク２４０を介して、相互に通信可能に接続されている。

ＰＣ２１０は、デスクトップ型ＰＣやノート型ＰＣなどのコンピューター端末である。

携帯端末２２０は、タブレット端末やスマートフォンなどの、ユーザーが携帯可能な端末である。

ＰＣ２１０および／または携帯端末２２０は、ユーザー端末として機能する。

サーバー装置２３０は、音声補正処理を実行する情報処理装置である。サーバー装置２３０は、図１に示す音声補正装置１００と略同様のハードウェア構成を有する。サーバー装置２３０は、図２に示す音声補正装置１００のＣＰＵ１１０の機能構成と、同様の構成を有する。

ネットワーク２４０は、イーサネット（登録商標）、ＦＤＤＩ、Ｗｉ−Ｆｉなどの規格によるＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）や、ＬＡＮ同士を専用線で接続したＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などからなる。なお、ネットワーク２４０に接続される各構成の種類および台数は、図１０に示す例に限定されない。

以下、音声補正システム２００の作用について、説明する。

ユーザー端末であるＰＣ２１０または携帯端末２２０は、サーバー装置２３０から伴奏データを取得し、図６に示すユーザー音声を録音する。以下では、携帯端末２２０が、伴奏データを取得したものとして説明する。携帯端末２２０は、ユーザーから録音の開始の指示を受け付け、伴奏データを再生し、ユーザー音声の録音を行う。ここで、ユーザー音声の録音は、携帯端末２２０に内蔵されたマイクロホンを介しても良いし、携帯端末２２０に外部接続されたマイクロホンを介してもよい。携帯端末２２０は、入力されたユーザー音声から、ユーザー音声データを生成する。そして、携帯端末２２０は、ネットワーク２４０を介して、ユーザー音声データをサーバー装置２３０に送信する。

サーバー装置２３０は、携帯端末２２０において生成されたユーザー音声データを、携帯端末２２０から受信する。そして、サーバー装置２３０は、図７に示す音声補正方法を開始する。

まず、サーバー装置２３０は、ステップＳ２０１〜Ｓ２０３の処理を行う。そして、ステップＳ２０４において、最大補正量の受付画面を、携帯端末２２０の表示部に表示させる。携帯端末２２０は、最大補正量の入力をユーザーから受け付け、サーバー装置２３０に送信する。

サーバー装置２３０は、ステップＳ２０５における最大補正量の入力を、携帯端末２２０から受け付ける。そして、サーバー装置２３０は、図７のステップＳ２０６以降の処理を行う。サーバー装置２３０は、ステップＳ２１２において、補正されたユーザー音声データと伴奏データとを組み合わせて、新たな楽曲データとして、携帯端末２２０に送信（出力）する。

携帯端末２２０は、補正されたユーザー音声データをサーバー装置２３０から受信し、保存または再生、あるいは保存および再生を行う。

以上のように、本発明の音声補正システム２００によれば、ユーザー音声の録音は、ＰＣ２１０や携帯端末２２０などのユーザー端末によって行われ、ユーザー音声データの音声補正方法は、サーバー装置２３０によって行われる。音声補正システム２００は、比較的処理能力が低いユーザー端末側において、音声補正方法を実行する必要がない。一方で、比較的処理能力が高いサーバー装置において、音声補正方法を実行できる。つまり、処理能力の高い装置において、処理負荷が大きい処理を実行でき、また、処理能力の低い装置において、処理負荷が小さい処理を実行できる。したがって、音声補正システム２００は、処理を最適化できる。

また、ユーザーは、音声補正プログラムがインストールされたＰＣを保有したり、当該ＰＣがある場所に出向いたりする必要がない。つまり、音声補正システム２００によれば、ユーザー自身のＰＣ２１０や携帯端末２２０に対して、手軽に音声補正のサービスを提供できる。

なお、サーバー装置２３０を介することによって、たとえば、ユーザーが、補正された音声データのファイルを他のユーザーと共有したり、交換したりできるシステムが提案されてもよい。音声補正システム２００は、ユーザーに新たな音楽の楽しみ方を提供できる。

本発明による音声補正装置１００による処理は、上記各手順を実行するための専用のハードウェア回路によっても、また、上記各手順を記述したプログラムをＣＰＵが実行することによっても実現できる。後者により本発明を実現する場合、音声補正装置１００を動作させる上記プログラムは、ＵＳＢメモリー、フロッピー（登録商標）ディスクやＣＤ−ＲＯＭなどのコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネットなどのネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、メモリーやハードディスクなどに転送され記憶される。また、このプログラムは、たとえば、単独のアプリケーションソフトとして提供されてもよいし、音声補正装置１００の一機能としてその装置のソフトウェアに組み込んでもよい。

１００音声補正装置、
１１０ＣＰＵ、
１１１伴奏データ再生部、
１１２音声データ録音部、
１１３周波数特定部、
１１４レベル特定部、
１１５基準レベル計算部、
１１６最大補正量受付部、
１１７周波数補正部、
１１８レベル補正部、
１１９補正データ出力部、
１２０メモリー、
１３０ハードディスク、
１４０通信Ｉ／Ｆ部、
１５０表示部、
１６０操作部、
１７０音声入力部、
１８０音声出力部、
１９０バス、
２００音声補正システム、
２１０ＰＣ（ユーザー端末）、
２２０携帯端末（ユーザー端末）、
２３０サーバー装置、
２４０ネットワーク。

Claims

ユーザーが歌唱して得られる音声を補正する音声補正方法であって、
前記ユーザーが目標とする目標音声を表す目標音声データから、時間遷移する前記目標音声の周波数を特定し、前記ユーザーの音声であるユーザー音声を表すユーザー音声データから、時間遷移する前記ユーザー音声の周波数を特定する周波数特定ステップと、
前記周波数特定ステップにおいて特定された前記目標音声の周波数および前記ユーザー音声の周波数を、歌唱の同一タイミングにおいて比較して、前記目標音声の周波数および前記ユーザー音声の周波数の差分が所定の最大補正量以下である場合、前記ユーザー音声の周波数を前記目標音声の周波数に合わせるように前記ユーザー音声データを補正し、前記目標音声の周波数および前記ユーザー音声の周波数の差分が前記最大補正量を超える場合、前記ユーザー音声の周波数を前記最大補正量の分だけ前記目標音声の周波数に近づけるように前記ユーザー音声データを補正する周波数補正ステップと、
前記周波数補正ステップにおいて補正された前記ユーザー音声データを出力する補正データ出力ステップと、
含む音声補正方法。
前記所定の最大補正量の入力を前記ユーザーから受け付ける最大補正量受付ステップをさらに含む請求項１に記載の音声補正方法。
前記最大補正量受付ステップにおいては、複数の最大補正量の候補から一つを選択させることによって、前記所定の最大補正量の入力を受け付ける請求項２に記載の音声補正方法。
前記周波数補正ステップにおいては、
前記目標音声の基本周波数および前記ユーザー音声の基本周波数を比較して、前記ユーザー音声の基本周波数を前記目標音声の基本周波数に合わせるように、前記ユーザー音声データを補正し、
前記ユーザー音声の基本周波数を変更した比率と同一の比率で、前記ユーザー音声の基本周波数以外の周波数を変更するように、前記ユーザー音声データをさらに補正する請求項１〜３のいずれか一項に記載の音声補正方法。
前記目標音声データから、時間遷移する前記目標音声のレベルを特定し、前記ユーザー音声データから、時間遷移する前記ユーザー音声のレベルを特定するレベル特定ステップと、
前記目標音声のレベルの一部または全部を用いて、前記目標音声のレベルの基準となる目標基準レベルを計算し、前記ユーザー音声のレベルの一部または全部を用いて、前記ユーザー音声のレベルの基準となるユーザー基準レベルを計算する基準レベル計算ステップと、
前記目標基準レベルに対する前記ユーザー基準レベルの比率を、前記目標音声のレベルに乗算して得られるレベルに、前記ユーザー音声のレベルを合わせるように、前記ユーザー音声データを補正するレベル補正ステップと、
をさらに含み、
前記補正データ出力ステップにおいて、前記周波数補正ステップおよび前記レベル補正ステップにおいて補正された前記ユーザー音声データを出力する請求項１〜４のいずれか一項に記載の音声補正方法。
前記レベル特定ステップにおいて特定された前記目標音声のレベルおよび前記ユーザー音声のレベルに基づいて、前記目標音声のレベルが所定の最小レベル以上である一方で、前記ユーザー音声のレベルが所定の最小レベル未満であるユーザー無音区間を特定し、当該ユーザー無音区間において、前記ユーザー無音区間の直前の所定の区間のデータを繰り返すように、前記ユーザー音声データを補完するデータ補完ステップをさらに含む請求項５に記載の音声補正方法。
前記ユーザーに伴奏音を提供するために、前記目標音声データと共に楽曲データに含まれる、伴奏データを再生する伴奏データ再生ステップをさらに含み、
前記補正データ出力ステップにおいて、前記補正されたユーザー音声データを、前記伴奏データと組み合わせて出力する請求項１〜６のいずれか一項に記載の音声補正方法。
前記補正データ出力ステップにおける出力は、前記補正されたユーザー音声データの保存または再生、あるいは保存および再生である請求項１〜７のいずれか一項に記載の音声補正方法。
請求項１〜８に記載の音声補正方法をコンピューターに実行させるための音声補正プログラム。
ユーザーが歌唱して得られる音声を補正する音声補正装置であって、
前記ユーザーが目標とする目標音声を表す目標音声データから、時間遷移する前記目標音声の周波数を特定し、前記ユーザーの音声であるユーザー音声を表すユーザー音声データから、時間遷移する前記ユーザー音声の周波数を特定する周波数特定部と、
前記周波数特定部によって特定された前記目標音声の周波数および前記ユーザー音声の周波数を、歌唱の同一タイミングにおいて比較して、前記目標音声の周波数および前記ユーザー音声の周波数の差分が所定の最大補正量以下である場合、前記ユーザー音声の周波数を前記目標音声の周波数に合わせるように前記ユーザー音声データを補正し、前記目標音声の周波数および前記ユーザー音声の周波数の差分が前記最大補正量を超える場合、前記ユーザー音声の周波数を前記最大補正量の分だけ前記目標音声の周波数に近づけるように前記ユーザー音声データを補正する周波数補正部と、
前記周波数補正部によって補正された前記ユーザー音声データを出力する補正データ出力部と、
を有する音声補正装置。
前記所定の最大補正量の入力を前記ユーザーから受け付ける最大補正量受付部をさらに有する請求項１０に記載の音声補正装置。
前記最大補正量受付部は、複数の最大補正量の候補から一つを選択させることによって、前記所定の最大補正量の入力を受け付ける請求項１１に記載の音声補正装置。
前記周波数補正部は、
前記目標音声の基本周波数および前記ユーザー音声の基本周波数を比較して、前記ユーザー音声の基本周波数を前記目標音声の基本周波数に合わせるように、前記ユーザー音声データを補正し、
前記ユーザー音声の基本周波数を変更した比率と同一の比率で、前記ユーザー音声の基本周波数以外の周波数を変更するように、前記ユーザー音声データをさらに補正する請求項１０〜１２のいずれか一項に記載の音声補正装置。
前記目標音声データから、時間遷移する前記目標音声のレベルを特定し、前記ユーザー音声データから、時間遷移する前記ユーザー音声のレベルを特定するレベル特定部と、
前記目標音声のレベルの一部または全部を用いて、前記目標音声のレベルの基準となる目標基準レベルを計算し、前記ユーザー音声のレベルの一部または全部を用いて、前記ユーザー音声のレベルの基準となるユーザー基準レベルを計算する基準レベル計算部と、
前記目標基準レベルに対する前記ユーザー基準レベルの比率を、前記目標音声のレベルに乗算して得られるレベルに、前記ユーザー音声のレベルを合わせるように、前記ユーザー音声データを補正するレベル補正部と、
をさらに有し、
前記補正データ出力部は、前記周波数補正部および前記レベル補正部によって補正された前記ユーザー音声データを出力する請求項１０〜１３のいずれか一項に記載の音声補正装置。
前記レベル特定部によって特定された前記目標音声のレベルおよび前記ユーザー音声のレベルに基づいて、前記目標音声のレベルが所定の最小レベル以上である一方で、前記ユーザー音声のレベルが所定の最小レベル未満であるユーザー無音区間を特定し、当該ユーザー無音区間において、前記ユーザー無音区間の直前の所定の区間のデータを繰り返すように、前記ユーザー音声データを補完するデータ補完部をさらに有する請求項１４に記載の音声補正装置。
前記ユーザーに伴奏音を提供するために、前記目標音声データと共に楽曲データに含まれる、伴奏データを再生する伴奏データ再生部をさらに有し、
前記補正データ出力部は、前記補正されたユーザー音声データを、前記伴奏データと組み合わせて出力する請求項１０〜１５のいずれか一項に記載の音声補正装置。
前記補正データ出力部による出力は、前記補正されたユーザー音声データの保存または再生、あるいは保存および再生である請求項１０〜１６のいずれか一項に記載の音声補正装置。
ユーザーの音声であるユーザー音声からユーザー音声データを生成し、当該ユーザー音声データを、ネットワークを介して送信するユーザー端末と、
前記ユーザー音声データを前記ユーザー端末から受信し、前記ユーザー音声データを、前記ユーザーが目標とする目標音声を表す目標音声データと比較して、前記ユーザー音声データを補正する請求項１０〜１６のいずれか一項に記載の音声補正装置として機能するサーバー装置と、
を有し、
前記ユーザー端末は、前記補正されたユーザー音声データを前記サーバー装置から受信し、当該補正されたユーザー音声データを保存または再生、あるいは保存および再生する音声補正システム。