JP6654404B2 - 音声補正方法、音声補正プログラム、音声補正装置および音声補正システム - Google Patents

音声補正方法、音声補正プログラム、音声補正装置および音声補正システム Download PDF

Info

Publication number
JP6654404B2
JP6654404B2 JP2015216943A JP2015216943A JP6654404B2 JP 6654404 B2 JP6654404 B2 JP 6654404B2 JP 2015216943 A JP2015216943 A JP 2015216943A JP 2015216943 A JP2015216943 A JP 2015216943A JP 6654404 B2 JP6654404 B2 JP 6654404B2
Authority
JP
Japan
Prior art keywords
user
voice
frequency
level
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015216943A
Other languages
English (en)
Other versions
JP2017090546A (ja
Inventor
敏秀 金
敏秀 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JE International Corp
Original Assignee
JE International Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JE International Corp filed Critical JE International Corp
Priority to JP2015216943A priority Critical patent/JP6654404B2/ja
Publication of JP2017090546A publication Critical patent/JP2017090546A/ja
Application granted granted Critical
Publication of JP6654404B2 publication Critical patent/JP6654404B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、音声補正方法、音声補正プログラム、音声補正装置および音声補正システムに関する。
従来から、ユーザーの歌唱がより上手に聞こえるように、ユーザーの歌声のピッチ(音程)が所定のピッチからずれている場合に、ピッチのずれを補正するための種々の方法や技術が提案されている。たとえば、特許文献1に記載の発明では、ユーザーの音声データを、手本音声データに近づける処理を行うことによって、ピッチなどが補正された上手な歌声に補正する技術が開示されている。
特開2001−125582号公報
しかしながら、上記特許文献1に記載の発明では、ユーザーの歌声のピッチが手本のピッチから大きくずれている場合には、ピッチのずれを補正するための補正量も大きくなる。このように、ピッチが過剰に補正される場合、補正されたユーザーの歌声は、加工されたような不自然な歌声に聞こえることが知られている。そのため、ユーザーの歌声が自然に聞こえる範囲で、ピッチのずれを適切に補正するためには、結局のところ、専門家が、手作業によってデータを補正することが必要とされてきた。一方で、専門家による補正は、時間と費用が掛かることが多い。したがって、プロの歌手ではない一般のユーザーが、自分の歌声を録音しつつ補正したいような場合には、専門家による補正は、非常に利用され難いものとなっていた。
本発明は、上記事情に鑑みてなされたものであり、専門家による補正を必要とせずに、ユーザーの歌声(音声)が自然に聞こえるように、ユーザーの音声データを自動的に補正できる音声補正方法、音声補正プログラム、音声補正装置および音声補正システムを提供することを目的とする。
上記目的を達成する、本発明に係る音声補正方法は、ユーザーが歌唱して得られる音声を補正する音声補正方法である。音声補正方法は、前記ユーザーが目標とする目標音声を表す目標音声データから、時間遷移する前記目標音声の周波数を特定し、前記ユーザーの音声であるユーザー音声を表すユーザー音声データから、時間遷移する前記ユーザー音声の周波数を特定する周波数特定ステップと、前記周波数特定ステップにおいて特定された前記目標音声の周波数および前記ユーザー音声の周波数を、歌唱の同一タイミングにおいて比較して、前記目標音声の周波数および前記ユーザー音声の周波数の差分が所定の最大補正量以下である場合、前記ユーザー音声の周波数を前記目標音声の周波数に合わせるように前記ユーザー音声データを補正し、前記目標音声の周波数および前記ユーザー音声の周波数の差分が前記最大補正量を超える場合、前記ユーザー音声の周波数を前記最大補正量の分だけ前記目標音声の周波数に近づけるように前記ユーザー音声データを補正する周波数補正ステップと、前記周波数補正ステップにおいて補正された前記ユーザー音声データを出力する補正データ出力ステップと、を含む。
また、上記目的を達成する、本発明に係る音声補正プログラムは、上記の音声補正方法をコンピューターに実行させるための音声補正プログラムである。
また、上記目的を達成する、本発明に係る音声補正装置は、ユーザーが歌唱して得られる音声を補正する音声補正装置である。音声補正装置は、前記ユーザーが目標とする目標音声を表す目標音声データから、時間遷移する前記目標音声の周波数を特定し、前記ユーザーの音声であるユーザー音声を表すユーザー音声データから、時間遷移する前記ユーザー音声の周波数を特定する周波数特定部と、前記周波数特定部によって特定された前記目標音声の周波数および前記ユーザー音声の周波数を、歌唱の同一タイミングにおいて比較して、前記目標音声の周波数および前記ユーザー音声の周波数の差分が所定の最大補正量以下である場合、前記ユーザー音声の周波数を前記目標音声の周波数に合わせるように前記ユーザー音声データを補正し、前記目標音声の周波数および前記ユーザー音声の周波数の差分が前記最大補正量を超える場合、前記ユーザー音声の周波数を前記最大補正量の分だけ前記目標音声の周波数に近づけるように前記ユーザー音声データを補正する周波数補正部と、前記周波数補正部によって補正された前記ユーザー音声データを出力する補正データ出力部と、を有する。
また、上記目的を達成する、本発明に係る音声補正システムは、ユーザーの音声であるユーザー音声からユーザー音声データを生成し、当該ユーザー音声データを、ネットワークを介して送信するユーザー端末と、前記ユーザー音声データを前記ユーザー端末から受信し、前記ユーザー音声データを、前記ユーザーが目標とする目標音声を表す目標音声データと比較して、前記ユーザー音声データを補正する上記の音声補正装置として機能するサーバー装置と、を有する。前記ユーザー端末は、前記補正されたユーザー音声データを前記サーバー装置から受信し、当該補正されたユーザー音声データを保存または再生、あるいは保存および再生する。
本発明の音声補正方法、音声補正プログラム、音声補正装置および音声補正システムによれば、ユーザーが目標とする目標音声を表す目標音声データから、時間遷移する目標音声の周波数を特定する。また、ユーザーの音声であるユーザー音声を表すユーザー音声データから、時間遷移するユーザー音声の周波数を特定する。そして、目標音声の周波数およびユーザー音声の周波数を、歌唱の同一タイミングにおいて比較して、所定の最大補正量(ユーザー音声の周波数を補正する際の最大の補正量)の範囲内で、ユーザー音声の周波数を目標音声の周波数に合わせるように、ユーザー音声データを補正する。周波数の補正は、所定の最大補正量の範囲内で行われるため、ユーザー音声が過剰に補正されてしまうことがない。結果として、ユーザーは、最大補正量さえ設定すれば、専門家による補正を必要とせずに、ユーザー音声が自然に聞こえるように、ユーザー音声データを自動的に補正できる。
本実施形態に係る音声補正装置の概略構成を示すブロック図である。 音声補正装置のCPUの機能構成を示すブロック図である。 時間遷移に伴う音声の周波数の変化の一例を示す図である。 時間遷移に伴う音声のレベルの変化の一例を示す図である。 最大補正量の受付画面の一例を示す図である。 ユーザー音声の録音方法を示すフローチャートである。 本実施形態に係る音声補正方法を示すフローチャートである。 ユーザー周波数補正処理を示すサブルーチンフローチャートである。 ユーザー無音区間および音声補完方法の関係を説明するための図である。 音声補正システムの概略構成を示すブロック図である。
以下、添付した図面を参照して、本発明の実施形態を説明する。なお、図面の説明において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
図1は、本実施形態に係る音声補正装置の概略構成を示すブロック図である。
音声補正装置100は、たとえばデスクトップ型PC(Personal Computer)やノート型PCなどのコンピューター端末である。また、音声補正装置100は、カラオケ装置などの一部に組み込まれてもよい。音声補正装置100は、ユーザーの音声入力を録音し、音声補正処理を実行する。
音声補正装置100は、CPU(Central Processing Unit)110、メモリー120、ハードディスク130、通信I/F部140、表示部150、操作部160、音声入力部170および音声出力部180を有する。各構成は、バス190を介して、相互に通信可能に接続されている。
CPU110は、メモリー120やハードディスク130に記録されているプログラムに従って、各構成の制御や各種の演算処理などを実行する。
メモリー120は、各種プログラムや各種データを記憶するROM(Read Only Memory)、作業領域として一時的にプログラムやデータを記憶するRAM(Randam Access Memory)などから構成される。
ハードディスク130は、オペレーティングシステムを含む各種プログラムや各種データを記憶する。本発明において、ハードディスク130は、ユーザーが目標とする目標音声を表す目標音声データと、ユーザーに伴奏音を提供するための伴奏データとを含む楽曲データを記憶する。なお、本明細書において、目標音声は、たとえばプロの歌手が歌唱した音声を意味するが、歌の手本となる人が歌唱した音声であれば特に限定されない。また、ハードディスク130は、ユーザーの音声であるユーザー音声を表すユーザー音声データを記憶する。
通信I/F部140は、ネットワークを介して他の機器と通信するためのインターフェースであり、イーサネット(登録商標)、FDDI(Fiber Distributed Data Interface)、Wi−Fi(Wireless Fidelity)などの規格を用いる。通信I/F部140は、目標音声データおよび伴奏データを含む楽曲データを、外部のサーバーなどから受信する。
表示部150は、たとえば液晶ディスプレイであり、各種情報を表示する。
操作部160は、たとえばマウスなどのポインティングデバイスやキーボードであり、ユーザーが各種情報を入力するために使用される。
音声入力部170は、ユーザー音声を電気信号に変換するマイクロホン、変換された電気信号を増幅するアンプ、電気信号をアナログ信号からデジタル信号に変換するA/Dコンバーターなどから構成される。つまり、音声入力部170によって、ユーザー音声はデジタル信号に変換され、変換されたデジタル信号は、CPU110によって、ユーザー音声データとして処理される。
音声出力部180は、電気信号をデジタル信号からアナログ信号に変換するD/Aコンバーター、電気信号を増幅するアンプ、電気信号を音に変換して音を出力するスピーカーまたはヘッドホンなどから構成される。
なお、音声入力部170および音声出力部180の構成の一部または全部は、音声補正装置100の外部に設けられてもよく、図1に示す例に限定されない。たとえば、音声入力部170および音声出力部180の構成の一部が、音声補正装置100に設けられた音声入力端子および音声出力端子を介して、音声補正装置100と接続されていてもよい。
図2は、音声補正装置のCPUの機能構成を示すブロック図である。
CPU110は、各種プログラムを実行することによって、たとえば、伴奏データ再生部111、音声データ録音部112、周波数特定部113、レベル特定部114、基準レベル計算部115、最大補正量受付部116、周波数補正部117、レベル補正部118および補正データ出力部119として機能する。以下、各機能構成について説明する。
伴奏データ再生部111は、ユーザーに伴奏音を提供するために、ハードディスク130などに記憶され、目標音声データと共に楽曲データに含まれる、伴奏データを再生する。そして、伴奏データ再生部111は、伴奏データに基づく電気信号を音声出力部180に出力し、音声出力部180に、楽曲の伴奏音として出力させる。ユーザーは、音声出力部180によって出力される伴奏音を聞きながら、歌唱する。
音声データ録音部112は、音声入力部170に入力されるユーザー音声を録音する。音声データ録音部112は、音声入力部170に入力されるユーザー音声を処理して、ユーザー音声データとして、ハードディスク130などに記憶する。
周波数特定部113は、目標音声データから、時間遷移する目標音声の周波数を特定する。また、周波数特定部113は、ユーザー音声データから、時間遷移するユーザー音声の周波数を特定する。具体的には、周波数特定部113は、目標音声データおよびユーザー音声データに対して、それぞれフーリエ変換を適用する。そして、周波数特定部113は、所定時間毎に音声の周波数成分を特定し、特定された周波数成分のうち、最も低い周波数を「基本周波数」として特定する。音声の基本周波数は、人間が感じる音の高さ(音程)に相当する。特定された周波数成分は、たとえば、図3に示すように表現できる。
図3は、時間遷移に伴う音声の周波数の変化の一例を示す図である。周波数特定部113が、歌唱の進行(時間の進行)に従って、所定時間毎に音声の周波数を特定することによって、時間遷移に伴う音声の周波数の変化が確認される。ここで、所定時間は任意であり、たとえば0.1秒である。この所定時間が短いほど、精密に音声の周波数の変化を特定できる。図3に示す周波数成分のうち、矢印で示す最も低い周波数成分が、基本周波数である。基本周波数の上方に現れる周波数成分は、倍音の周波数である。
図2に戻って、レベル特定部114は、目標音声データから、時間遷移する目標音声のレベルを特定する。また、レベル特定部114は、ユーザー音声データから、時間遷移するユーザー音声のレベルを特定する。レベル特定部114は、目標音声データおよびユーザー音声データに対して、所定時間毎に音声のレベルを特定する。音声のレベルは、音の強さ(音圧)に対応する。音声のレベルは、たとえば、図4に示すように表現できる。
図4は、時間遷移に伴う音声のレベルの変化の一例を示す図である。レベル特定部114が、歌唱の進行(時間の進行)に従って、所定時間毎に音声のレベルを特定することによって、時間遷移に伴う音声のレベルの変化が確認される。ここで、所定時間は任意であり、たとえば0.1秒である。この所定時間が短いほど、精密に音声のレベルの変化を特定できる。
図2に戻って、基準レベル計算部115は、目標音声のレベルの一部または全部を用いて、目標音声のレベルの基準となる目標基準レベルを計算する。また、基準レベル計算部115は、ユーザー音声のレベルの一部または全部を用いて、ユーザー音声のレベルの基準となるユーザー基準レベルを計算する。具体的には、基準レベル計算部115は、時間遷移に伴って変化する音声のレベルの一部(たとえば、歌唱の歌い出しの一部分)または全部(歌唱の全体)の平均値を計算して、基準レベルとする。目標音声およびユーザー音声は、同じ条件で録音されたものではないため、録音環境の違いによって、全体的に音声のレベルが小さくなる場合や、大きくなる場合がある。そのため、基準レベル計算部115は、たとえば、時間遷移に伴って変化する音声のレベルの一部または全部の平均値を計算することによって、全体的な音声のレベルを確認する。基準レベル計算部115は、全体的な音声のレベルを確認するために、平均値を計算する以外の方法を用いてもよい。
最大補正量受付部116は、最大補正量の受付画面を表示部150に表示させ、最大補正量の入力をユーザーから受け付ける。本発明において、「最大補正量」とは、ユーザー音声の周波数を補正する際の最大の補正量を意味する。最大補正量受付部116は、たとえば、表示部150に表示された最大補正量の受付画面において、操作部160を介して、ユーザーに複数の最大補正量の候補から一つを選択させたり、最大補正量の数値を直接入力させたりして、最大補正量の入力を受け付ける。また、最大補正量受付部116は、最大補正量を調節するためのスライダー上のつまみの位置を、ユーザーに調節させることによって、最大補正量の入力を受け付けてもよい。
図5は、最大補正量の受付画面の一例を示す図である。図5では、ユーザーに複数の最大補正量の候補から一つを選択させるための受付画面の例を示し、ユーザーは、「5%まで補正」「10%まで補正」「補正量制限なし」の3つの候補から一つを選択できる。たとえば、「5%まで補正」が選択された場合には、周波数は、変更前の周波数に対して5%増減する範囲までしか変更されず、この「5%」が、最大補正量となる。つまり、本発明では、補正量は比率に基づいて設定される。「補正量制限なし」が選択された場合には、周波数は、補正量の制限なく変更される。最大補正量の候補の内容は、ユーザーによって自由に設定されてもよいし、予め保存されていてもよい。
また、最大補正量の受付画面において、「半音まで補正」「全音まで補正」のように、音程に基づいた最大補正量の候補が、表示されてもよい。この場合、半音に対応する周波数の比率を計算することによって、最大補正量が設定されればよい。
周波数補正部117は、目標音声の周波数およびユーザー音声の周波数を、歌唱の同一タイミングにおいて比較する。そして、周波数補正部117は、ユーザー音声の周波数を目標音声の周波数に合わせるように、ユーザー音声データを補正する。周波数補正部117は、所定時間毎に比較および補正を行う。具体的には、周波数補正部117は、ユーザー音声データに対してフーリエ変換が適用されてできたデータにおいて、周波数を変更する。そして、周波数補正部117は、全ての変更を完了すると、当該データをフーリエ逆変換することによって、ユーザー音声データに戻す。周波数補正部117は、最大補正量受付部116によって受け付けられた最大補正量を参照して、当該最大補正量の範囲内で、ユーザー音声データを補正する。さらに、周波数補正部117は、ユーザー音声の基本周波数を変更した比率と同一の比率で、ユーザー音声の基本周波数以外の周波数を変更するように、ユーザー音声データを補正することもできる。
レベル補正部118は、まず、基準レベル計算部115において計算された目標基準レベルおよびユーザー基準レベルを用いて、目標基準レベルに対するユーザー基準レベルの比率を計算する。そして、レベル補正部118は、計算された比率を目標音声のレベルに乗算して得られるレベルに、ユーザー音声のレベルを合わせるように、ユーザー音声データを補正する。すなわち、レベル補正部118は、ユーザー音声のレベルが目標音声のレベルとは異なるものの、同じレベル遷移の形(抑揚)となるように、ユーザー音声データを補正する。上述したように、録音環境の違いによって、全体的な音声のレベルが異なる場合がある。そのため、目標基準レベルに対するユーザー基準レベルの比率を計算し、補正に反映させることによって、録音環境の違いが補正に影響しないようにする。レベル補正部118は、所定時間毎に補正を行う。
補正データ出力部119は、周波数補正部117および/またはレベル補正部118によって補正されたユーザー音声データを出力する。この際、補正データ出力部119は、補正されたユーザー音声データを、伴奏データと組み合わせて出力してもよい。補正データ出力部119による出力は、補正されたユーザー音声データを、所定のファイル形式(PCMやMP3など)に変換して、ハードディスク130や外部の記憶装置などに保存することを含む。また、補正データ出力部119による出力は、補正されたユーザー音声データを、所定のファイル形式に変換して、再生することも含む。さらに、補正データ出力部119は、上記の保存および再生を同時に行うこともできる。ファイル形式または出力方法の選択は、たとえば、表示部150に表示されたファイル形式または出力方法を選択させるための画面において、ユーザーが、操作部160を介して候補から選択することなどによって、実現される。
次に、本実施形態に係る音声補正装置100における音声補正方法について、図6〜図8によって説明する。なお、図6〜図8のフローチャートに示す方法は、音声補正装置100のメモリー120またはハードディスク130にプログラムとして記憶されており、CPU110によって実行される。本実施形態に係る音声補正装置100のプログラムは、ユーザーが歌唱して得られる音声を補正するものである。具体的には、ユーザーから受け付けた最大補正量の範囲内で、ユーザー音声の周波数を目標音声の周波数に合わせるように、ユーザー音声データを補正するように制御するものである。
まず、図6では、音声補正方法を適用するためのユーザー音声を、音声補正装置100が録音する方法について説明する。
図6は、ユーザー音声の録音方法を示すフローチャートである。
まず、CPU110は、ユーザーから録音の開始の指示を受け付けたか否かを判断する(ステップS101)。録音の開始の指示は、たとえば、表示部150に表示された画面において、ユーザーが、操作部160を介して録音の開始を表示するボタンを押下することなどによって、実現される。
録音の開始の指示を受け付けていない場合(ステップS101:NO)、CPU110は、録音の開始を受け付けるまで待機する。
録音の開始の指示を受け付けた場合(ステップS101:YES)、CPU110は、ステップS102の処理に進む。
続いて、CPU110は、伴奏データ再生部111として、ユーザーに伴奏音を提供するために、ハードディスク130などに記憶された楽曲データに含まれる伴奏データを再生する(ステップS102)。同時に、CPU110は、音声データ録音部112として、音声入力部170に入力されるユーザー音声を録音する(ステップS103)。CPU110は、録音の開始から終了までの間、ユーザー音声を処理して、ユーザー音声データとして、ハードディスク130などに記憶する。
次に、図7では、音声補正装置100が、録音されたユーザー音声データを補正する方法(音声補正方法)について説明する。
図7は、本実施形態に係る音声補正方法を示すフローチャートである。
まず、CPU110は、周波数特定部113として、ハードディスク130などに記憶された目標音声データから、時間遷移する目標音声の基本周波数を特定する(ステップS201)。以下では、目標音声の基本周波数を「目標基本周波数」と呼ぶ。
続いて、CPU110は、レベル特定部114として、ハードディスク130などに記憶された目標音声データから、時間遷移する目標音声のレベルを特定する(ステップS202)。以下では、目標音声のレベルを「目標レベル」と呼ぶ。
続いて、CPU110は、基準レベル計算部115として、ステップS202において特定された目標レベルの一部または全部を用いて、目標レベルの基準となる目標基準レベルを計算する(ステップS203)。基準レベル計算部115は、時間遷移に伴う目標レベルの一部または全部の平均値を計算して、目標基準レベルとする。
続いて、CPU110は、最大補正量受付部116として、最大補正量の受付画面を表示部150に表示させる(ステップS204)。そして、CPU110は、最大補正量の入力をユーザーから受け付けたか否かを判断する(ステップS205)。
最大補正量の入力を受け付けていない場合(ステップS205:NO)、CPU110は、最大補正量を受け付けるまで待機する。
最大補正量の入力を受け付けた場合(ステップS205:YES)、CPU110は、ステップS206の処理に進む。
続いて、CPU110は、周波数特定部113として、ハードディスク130などに記憶されたユーザー音声データから、時間遷移するユーザー音声の基本周波数を特定する(ステップS206)。以下では、ユーザー音声の基本周波数を「ユーザー基本周波数」と呼ぶ。
続いて、CPU110は、レベル特定部114として、ハードディスク130などに記憶されたユーザー音声データから、時間遷移するユーザー音声のレベルを特定する(ステップS207)。以下では、ユーザー音声のレベルを「ユーザーレベル」と呼ぶ。
続いて、CPU110は、基準レベル計算部115として、ステップS207において特定されたユーザーレベルの一部または全部を用いて、ユーザーレベルの基準となるユーザー基準レベルを計算する(ステップS208)。基準レベル計算部115は、時間遷移に伴うユーザーレベルの一部または全部の平均値を計算して、ユーザー基準レベルとする。
続いて、CPU110は、周波数補正部117として、ユーザー周波数についてユーザー音声データを補正するため、ユーザー周波数補正処理に進む(ステップS209)。ステップS209の処理の詳細については後述する。
続いて、CPU110は、レベル補正部118として、ユーザーレベルについてユーザー音声データを補正するための処理に進む。CPU110は、ステップS203において計算された目標基準レベルに対する、ステップS208において計算されたユーザー基準レベルの比率を計算する(ステップS210)。そして、CPU110は、レベル補正部118として、ユーザーレベルについてユーザー音声データを補正する(ステップS211)。具体的には、CPU110は、ステップS210で計算された比率を、目標レベルに乗算して得られるレベルに、ユーザーレベルを合わせるように、ユーザー音声データを補正する。なお、ステップS211において補正されるユーザー音声データは、ステップS209のユーザー周波数補正処理において補正されたユーザー音声データである。
CPU110は、ユーザー音声データにおける全ての補正を完了すると、補正データ出力部119として、補正されたユーザー音声データを、伴奏データと組み合わせて出力する(ステップS212)。つまり、CPU110は、補正されたユーザー音声データと伴奏データとを組み合わせて、新たな楽曲データを作成して、出力する。出力として、CPU110は、新たな音楽データを所定のファイル形式に変換して、ハードディスク130や外部の記憶装置などに保存させてもよいし、再生して、音声出力部180に出力させてもよい。さらに、CPU110は、保存および再生を同時に行ってもよい。そして、CPU110は処理を終了する。
次に、ステップS209のユーザー周波数補正処理について、詳細に説明する。
図8は、ユーザー周波数補正処理を示すサブルーチンフローチャートである。
図8では、まず、音声補正装置100が、ユーザー基本周波数についてユーザー音声データを補正する方法を、ステップS301〜303に示す。
CPU110は、周波数補正部117として、目標基本周波数およびユーザー基本周波数を、歌唱の同一タイミングにおいて比較して、両者の差分が、ステップS205において受け付けられた最大補正量以下であるか否かを判断する(ステップS301)。
差分が最大補正量以下である場合(ステップS301:YES)、CPU110は、ユーザー基本周波数を目標基本周波数に一致させるように、ユーザー音声データを補正する(ステップS302)。なお、補正前において、目標基本周波数およびユーザー基本周波数が同一である場合には、ユーザー基本周波数を目標基本周波数に一致させるようにしても何も変化がないことから、CPU110は、ユーザー音声データを補正しない。
一方、差分が最大補正量以下でない場合(ステップS301:NO)、CPU110は、ユーザー基本周波数を最大補正量の分だけ目標基本周波数に近づけるように、ユーザー音声データを補正する(ステップS303)。つまり、CPU110は、ユーザー音声データを、ステップS205において受け付けられた最大補正量までしか補正しない。
したがって、ステップS301〜S303の処理において、CPU110は、目標基本周波数およびユーザー基本周波数を、歌唱の同一タイミングにおいて比較して、最大補正量の範囲内で、ユーザー基本周波数を目標基本周波数に合わせるように、ユーザー音声データを補正する。
続いて、音声補正装置100が、ユーザー音声の周波数のうち、ユーザー基本周波数以外の周波数についてユーザー音声を補正する方法を、ステップS304〜S306に示す。
CPU110は、変更前のユーザー基本周波数と、ステップS301〜S303において変更された変更後のユーザー基本周波数とを用いて、変更前のユーザー基本周波数に対する変更後のユーザー基本周波数の比率を計算する(ステップS304)。つまり、CPU110は、ユーザー基本周波数を変更した比率を計算する。CPU110は、ユーザー音声データに対して、所定時間毎に比率を計算する。たとえば、ステップS301〜S303の処理の結果、あるタイミングにおいて、変更前のユーザー基本周波数が200Hz、変更後のユーザー基本周波数が204Hzである場合、ステップS304において計算される比率は、102%である。
続いて、CPU110は、周波数特定部113として、ユーザー音声データから、ユーザー音声の全ての周波数成分を特定する(ステップS305)。なお、CPU110は、ステップS301〜S303において補正されたユーザー音声データから、ユーザー音声の周波数成分を特定してもよいし、ハードディスク130に記憶されたユーザー音声データから、周波数成分を特定してもよい。ユーザー音声の基本周波数以外の周波数は、どちらのデータにおいても変わらないからである。なお、CPU110は、ステップS206において、ユーザー基本周波数を特定する際に、ユーザー音声の全ての周波数成分を特定してもよい。
続いて、CPU110は、周波数補正部117として、ステップS304において計算された比率と同一の比率で、ユーザー音声の基本周波数以外の周波数を変更するように、ステップS301〜S303において補正されたユーザー音声データをさらに補正する(ステップS306)。たとえば、あるタイミングにおいて、ユーザー基本周波数を変更した比率が102%であり、倍音の周波数の一つが400Hzである場合、CPU110は、当該倍音の周波数が408Hzになるように、ユーザー音声データを補正する。CPU110は、全ての周波数に対して補正を完了すると、ユーザー周波数補正処理を終了する。
以上のように、本発明の音声補正装置100によれば、ユーザーが目標とする目標音声を表す目標音声データから、時間遷移する目標音声の周波数を特定する。また、ユーザーの音声であるユーザー音声を表すユーザー音声データから、時間遷移するユーザー音声の周波数を特定する。そして、目標音声の周波数およびユーザー音声の周波数を、歌唱の同一タイミングにおいて比較して、所定の最大補正量の範囲内で、ユーザー音声の周波数を目標音声の周波数に合わせるように、ユーザー音声データを補正する。周波数の補正は、所定の最大補正量の範囲内で行われるため、ユーザー音声が過剰に補正されてしまうことがない。結果として、ユーザーは、最大補正量さえ設定すれば、専門家による補正を必要とせずに、ユーザー音声が自然に聞こえるように、ユーザー音声データを自動的に補正できる。
特に、本発明の音声補正装置100は、所定の最大補正量の入力をユーザーから受け付ける。つまり、ユーザーは、最大補正量を必要に応じて自由に変更できる。ユーザーが必要とする最大補正量は、ユーザーの歌唱能力や、使用する楽曲によって異なる。したがって、ユーザーが補正の度合いを自由に変更できることによって、音声補正装置100は、様々なユーザーや楽曲に対応することができ、ユーザーの利便性を向上できる。
また、本発明の音声補正装置100は、複数の最大補正量の候補から、ユーザーに一つを選択させる。つまり、ユーザーは、最大補正量を入力する際に、細かい数値を直接入力する必要なく、簡単に最大補正量を選択できる。結果として、ユーザーは、音声補正装置100を簡単に使用することができ、音声補正装置100は、ユーザーの利便性をさらに向上できる。
また、本発明の音声補正装置100は、目標基本周波数およびユーザー基本周波数を比較して、ユーザー基本周波数を目標基本周波数に合わせるように、ユーザー音声データを補正する。加えて、ユーザー基本周波数を変更した比率と同一の比率で、ユーザー音声の基本周波数以外の周波数を変更するように、ユーザー音声データをさらに補正する。つまり、音声補正装置100は、基本周波数だけでなく、全ての周波数成分を補正する。したがって、ユーザー音声において、基本周波数と倍音の周波数との比率は、常に一定に保たれる。結果として、ユーザーは、ユーザー音声がより自然に聞こえるように、ユーザー音声データを自動的に補正できる。
また、本発明の音声補正装置100は、目標レベルの一部または全部を用いて、目標基準レベルを計算し、ユーザーレベルの一部または全部を用いて、ユーザー基準レベルを計算する。そして、目標基準レベルに対するユーザー基準レベルの比率を、目標レベルに乗算して得られるレベルに、ユーザーレベルを合わせるように、ユーザー音声データを補正する。目標音声およびユーザー音声は、同じ条件で録音されたものではないため、録音環境の違いによって、全体的な音声のレベルが異なる場合がある。全体的な音声のレベルが大きく異なったまま、ユーザーレベルを目標レベルに合わせるようにすると、音声補正装置100は、ユーザーレベルを大きく変更しなければならない。そこで、目標基準レベルに対するユーザー基準レベルの比率を計算し、補正に反映させることによって、録音環境の違いが、補正に大きく影響しないようにできる。結果として、ユーザーは、専門家による補正を必要とせずに、ユーザーレベル(音の強さに対応する)によって表現される抑揚についても、目標音声を真似できるように、ユーザー音声データをさらに補正できる。
また、本発明の音声補正装置100は、補正されたユーザー音声データを、伴奏データと組み合わせて出力する。伴奏データは、元々、目標音声データと共に楽曲データに含まれていたものである。つまり、ユーザーは、当該楽曲データにおいて、音声データのみをユーザー音声データに置き換えた新たな楽曲データを作成できる。この楽曲データを変換することによって、ユーザーは、自身の歌声より上手に聞こえ、かつ自然に聞こえる範囲で補正された、新たな楽曲ファイルを入手できる。ユーザーは、プロの歌手の音声を、自身の音声の声色に置き換えたような楽曲ファイルを入手できる。結果として、音声補正装置100は、ユーザーに新たな音楽の楽しみ方を提供できる。
また、本発明の音声補正装置100は、補正されたユーザー音声データの保存または再生、あるいは保存および再生を行う。ユーザーは、補正された直後の音声をすぐに確認したいか、保存しておいて後で確認したいかによって、出力方法を選択できる。結果として、ユーザーは、補正されたユーザー音声データを、様々な出力方法で楽しむことができる。
なお、上記実施形態では、音声補正装置100は、ユーザー音声データにおいて、周波数についての処理(図7のステップS201、S206およびS209の処理)を行ってから、レベルについての処理(ステップS202およびS203、ステップS207およびS208、ならびにステップS210およびS211の処理)を行う。しかし、本発明はこれに限定されず、音声補正装置100は、レベルについての処理を行ってから、周波数についての処理を行ってもよい。具体的には、ステップS201と、S202およびS203とが入れ替わってもよく、ステップS206と、ステップ207およびS208とが入れ替わってもよく、ステップS209と、ステップS210およびS211とが入れ替わってもよい。また、音声補正装置100は、周波数についての処理のみを行ってもよいし、一方で、レベルについての処理のみを行ってもよい。
また、上記実施形態では、音声補正装置100は、最大補正量を受け付けたか否かを判断する時間に、制限を設けてもよい。この場合、音声補正装置100のCPU110は、ステップS204において、最大補正量の受付画面を表示部150に表示させた時点から、時間の測定を開始する。そして、ステップS205において、CPU110が最大補正量を受け付けないまま経過した時間が、所定のタイムアウト時間を超えた場合、CPU110は、自動的にステップS206の処理に進む。この場合、CPU110は、最大補正量として、所定の最大補正量を自動的に選択する。所定のタイムアウト時間および所定の最大補正量は、ユーザーによって任意に設定されてもよい。この場合、ユーザーは、所定のタイムアウト時間まで最大補正量の入力を保留することによって、最大補正量として、所定の最大補正量を選択したい旨を示すことができる。結果として、ユーザーは、音声補正装置100に最大補正量を入力する必要がなくなり、音声補正装置100は、ユーザーの利便性をさらに向上できる。
また、上記実施形態では、音声補正装置100は、図8に示すユーザー周波数補正処理において、目標基本周波数およびユーザー基本周波数を比較して、ユーザー基本周波数を目標基本周波数に合わせるように、ユーザー音声データを補正する。しかし、本発明はこれに限定されず、基本周波数以外の周波数を比較して、ユーザー音声データを補正してもよい。たとえば、音声補正装置100は、目標音声の第2倍音の周波数およびユーザー音声の第2倍音の周波数を比較して、最大補正量の範囲内で、ユーザー音声の第2倍音の周波数を目標音声の第2倍音の周波数に合わせるように、ユーザー音声データを補正してもよい。そして、音声補正装置100は、ユーザー音声の第2倍音の周波数を変更した比率と同一の比率で、ユーザー音声の第2倍音の周波数以外の周波数を変更するように、ユーザー音声データをさらに補正してもよい。
また、上記実施形態では、音声補正装置100は、ステップS211において、ステップS210で計算された比率を、目標レベルに乗算して得られるレベルに、ユーザーレベルを合わせるように、ユーザー音声データを補正する。しかし、本発明はこれに限定されず、比率を考慮することなく、ユーザーレベルを目標レベルに、単純に一致させるようにしてもよい。この場合、ステップS203、S208およびS210の処理が不要になるため、音声補正装置100は、処理量を削減できる。
また、上記実施形態では、音声補正装置100は、ステップS212において、補正されたユーザー音声データを伴奏データと組み合わせて出力する。しかし、本発明はこれに限定されず、音声補正装置100は、補正されたユーザー音声データのみを出力してもよい。音声補正装置100は、伴奏データと組み合わせることを必要とせずに、補正されたユーザー音声のみが含まれたデータを作成したいユーザーに対しても、ステップS212において、補正されたユーザー音声データを提供できる。
また、音声補正装置100において、ユーザーが予め、補正しない区間を指定できるようにしてもよい。たとえば、楽曲中に、ラップやセリフなどの区間が含まれる場合や、音楽表現上、ユーザーがあえて補正したくない区間が含まれる場合などを考慮して、ユーザーが、補正しない区間を指定できるようにする。さらに、音声補正装置100において、ユーザーが、特定の区間を指定して、当該区間にのみ異なる最大補正量を個別に設定できるようにしてもよい。たとえば、所定の最大補正量による補正の結果、特定の区間のユーザー音声だけが不自然に聞こえた場合に、ユーザーは、当該区間を指定して、異なる最大補正量を入力することによって、当該区間のみ補正の度合いを弱めることができるようにする。音声補正装置100は、ユーザー音声データを細かく補正したいユーザーに対して、ユーザーの利便性をさらに向上できる。
また、音声補正装置100は、ユーザー音声の録音と同時に、ユーザー音声データを補正できるようにしてもよい。つまり、音声補正装置100は、図6に示すユーザー音声を録音する処理を行いながら、随時生成されるユーザー音声データに対して、図7に示す音声補正処理を適用する。このとき、目標音声データの処理(ステップS201〜S203)については、ステップS101において、音声補正装置100が録音の開始の指示を受け付けた直後に開始されてもよい。あるいは、目標音声データの処理についても、ユーザー音声データの処理と同時に行われてもよい。ユーザーは、録音の終了と同時に、補正された音声データを入手できる。結果として、音声補正装置100は、録音してから補正を開始する場合に比べて、ユーザーが補正の完了を待つ時間を短縮でき、ユーザーの利便性をさらに向上できる。
以下、図面を参照して、更なる変形例を説明する。
(変形例1)
変形例1では、音声補正装置100は、目標音声では歌唱がある一方で、ユーザー音声では歌唱がない区間(以下では、「ユーザー無音区間」と呼ぶ)を特定する。そして、音声補正装置100は、ユーザー無音区間にデータを補完するか否かを判断する。以下では、ユーザー無音区間にデータを補完する方法を、音声補完方法と呼ぶ。変形例1は、上記実施形態の作用を前提とする。
変形例1では、音声補正装置100のCPU110は、データ補完部として機能する。CPU110は、図7のステップS202において特定される目標レベルと、ステップS207において特定されるユーザーレベルとに基づいて、ユーザー無音区間を特定する。具体的には、CPU110は、目標レベルが所定の最小レベル以上である一方で、ユーザーレベルが所定の最小レベル未満である区間を、ユーザー無音区間として特定する。「最小レベル」とは、音声データにおいて、歌唱があるとみなされる最小の音声のレベルを意味する。つまり、CPU110は、音声のレベルが最小レベル以上である場合、歌唱があると判断し、音声のレベルが最小レベル未満である場合、歌唱がないと判断する。最小レベルは、音声データにおける暗騒音のレベルや、ノイズフロアなどに基づいて、CPU110によって自動的に設定されてもよい。また、最小レベルの入力が、表示部150に表示された画面において、ユーザーが、操作部160を介して入力することなどによって、実現されてもよい。以下では、音声補完方法について、図9によって説明する。
図9は、ユーザー無音区間および音声補完方法の関係を説明するための図である。
図9では、横軸に時間を示し、音声データの進行状況に対応する、ユーザー無音区間および音声補完処理の例を表す。
まず、CPU110は、データ補完部として、図9に示すようなユーザー無音区間1および2を特定する。そして、CPU110は、ユーザー無音区間を特定した後、ユーザー無音区間の直前のユーザーレベルが所定の最小レベル以上であるか否かをさらに判断する。図9に示す例では、ユーザー無音区間1の直前のユーザーレベルは、所定の最小レベル以上であり、ユーザー無音区間2の直前のユーザーレベルは、所定の最小レベル未満である。つまり、ユーザー無音区間1は、主に、ユーザーが本来歌い続けるべきであった区間を示し、ユーザー無音区間2は、主に、ユーザーの歌い出しが遅れた区間を示す。特に、ユーザー無音区間1については、ユーザーが本来、フレーズの切れ目の最後の音などを延ばし続けて歌い続けるべきところ、ユーザーの息が続かずに、途切れてしまった区間などが想定される。
ユーザー無音区間の直前のユーザーレベルが所定の最小レベル以上である場合、つまり、ユーザー無音区間が、ユーザーが本来歌い続けるべきであった区間である場合、CPU110は、当該区間にデータを補完する。データを補完する処理は、図9に示すように、ユーザー無音区間1の直前の所定の区間のデータ(図9に示すデータAの部分)をコピーして、ユーザー無音区間1において繰り返すように行う。
ユーザー無音区間の直前のユーザーレベルが所定の最小レベル未満である場合、つまり、ユーザー無音区間が、ユーザーの歌い出しが遅れた区間である場合、CPU110は、当該区間にデータを補完しない。
以上のように、本発明の音声補正装置100によれば、目標レベルが所定の最小レベル以上である一方で、ユーザーレベルが所定の最小レベルを未満であるユーザー無音区間を特定する。そして、ユーザー無音区間の直前のユーザーレベルが、所定の最小レベル以上である場合に、ユーザー無音区間において、ユーザー無音区間の直前の所定の区間のデータを繰り返すように、ユーザー音声データを補完する。したがって、たとえば、ユーザーが本来、フレーズの切れ目の最後の音などを延ばし続けて歌い続けるべきところ、ユーザーの息が続かずに、途切れてしまった区間において、音声補正装置100は、ユーザー音声データを補完できる。結果として、ユーザーは、より目標音声に近づいたユーザー音声を表すユーザー音声データを入手でき、音声補正装置100は、ユーザー音声データをより細かく補正したいユーザーに対して、ユーザーの利便性をさらに向上できる。
なお、図9に示す音声補完処理は、図7のステップS209〜S211の処理の前または後のどちらで行われてもよい。ただし、音声補完処理は、ステップS209〜S211の処理の前に行われる方が望ましい。なぜなら、音声補完処理を前に行うことによって、CPU110は、周波数補正部117およびレベル補正部118として、ユーザー無音区間1においても、ユーザー音声を目標音声に合わせるように、ユーザー音声データを補正するからである。
図9に示すように、ユーザー無音区間1において、ユーザー音声データは、データAのコピーによって、データAが繰り返されるように補完されている。このとき、ユーザー無音区間1において、目標音声データにおける、目標音声の周波数の変化およびレベルの変化があったとする。
音声補完処理がステップS209〜S211の処理の後に行われる場合、データが補完されたユーザー無音区間1において、ユーザー音声データは補正されない。この場合、ユーザー音声データは、目標音声データにおける、目標音声の周波数の変化およびレベルの変化に追随できない。
一方、音声補完処理がステップS209〜S211の処理の後に行われる場合、データが補完されたユーザー無音区間1においても、ユーザー音声データは補正される。結果として、データが補完されたユーザー無音区間1においても、ユーザー音声データは、目標音声データにおける、目標音声の周波数の変化およびレベルの変化に追随できるようになる。
(変形例2)
上記実施形態においては、音声補正装置100単体により、ユーザー音声の録音や、音声補正処理を実行している。変形例2では、複数の装置を含む音声補正システムにより、ユーザー音声の録音や、音声の補正を実行する。
図10は、音声補正システムの概略構成を示すブロック図である。
音声補正システム200は、図10に示すように、PC210、携帯端末220およびサーバー装置230を有する。各構成は、ネットワーク240を介して、相互に通信可能に接続されている。
PC210は、デスクトップ型PCやノート型PCなどのコンピューター端末である。
携帯端末220は、タブレット端末やスマートフォンなどの、ユーザーが携帯可能な端末である。
PC210および/または携帯端末220は、ユーザー端末として機能する。
サーバー装置230は、音声補正処理を実行する情報処理装置である。サーバー装置230は、図1に示す音声補正装置100と略同様のハードウェア構成を有する。サーバー装置230は、図2に示す音声補正装置100のCPU110の機能構成と、同様の構成を有する。
ネットワーク240は、イーサネット(登録商標)、FDDI、Wi−Fiなどの規格によるLAN(Local Area Network)や、LAN同士を専用線で接続したWAN(Wide Area Network)などからなる。なお、ネットワーク240に接続される各構成の種類および台数は、図10に示す例に限定されない。
以下、音声補正システム200の作用について、説明する。
ユーザー端末であるPC210または携帯端末220は、サーバー装置230から伴奏データを取得し、図6に示すユーザー音声を録音する。以下では、携帯端末220が、伴奏データを取得したものとして説明する。携帯端末220は、ユーザーから録音の開始の指示を受け付け、伴奏データを再生し、ユーザー音声の録音を行う。ここで、ユーザー音声の録音は、携帯端末220に内蔵されたマイクロホンを介しても良いし、携帯端末220に外部接続されたマイクロホンを介してもよい。携帯端末220は、入力されたユーザー音声から、ユーザー音声データを生成する。そして、携帯端末220は、ネットワーク240を介して、ユーザー音声データをサーバー装置230に送信する。
サーバー装置230は、携帯端末220において生成されたユーザー音声データを、携帯端末220から受信する。そして、サーバー装置230は、図7に示す音声補正方法を開始する。
まず、サーバー装置230は、ステップS201〜S203の処理を行う。そして、ステップS204において、最大補正量の受付画面を、携帯端末220の表示部に表示させる。携帯端末220は、最大補正量の入力をユーザーから受け付け、サーバー装置230に送信する。
サーバー装置230は、ステップS205における最大補正量の入力を、携帯端末220から受け付ける。そして、サーバー装置230は、図7のステップS206以降の処理を行う。サーバー装置230は、ステップS212において、補正されたユーザー音声データと伴奏データとを組み合わせて、新たな楽曲データとして、携帯端末220に送信(出力)する。
携帯端末220は、補正されたユーザー音声データをサーバー装置230から受信し、保存または再生、あるいは保存および再生を行う。
以上のように、本発明の音声補正システム200によれば、ユーザー音声の録音は、PC210や携帯端末220などのユーザー端末によって行われ、ユーザー音声データの音声補正方法は、サーバー装置230によって行われる。音声補正システム200は、比較的処理能力が低いユーザー端末側において、音声補正方法を実行する必要がない。一方で、比較的処理能力が高いサーバー装置において、音声補正方法を実行できる。つまり、処理能力の高い装置において、処理負荷が大きい処理を実行でき、また、処理能力の低い装置において、処理負荷が小さい処理を実行できる。したがって、音声補正システム200は、処理を最適化できる。
また、ユーザーは、音声補正プログラムがインストールされたPCを保有したり、当該PCがある場所に出向いたりする必要がない。つまり、音声補正システム200によれば、ユーザー自身のPC210や携帯端末220に対して、手軽に音声補正のサービスを提供できる。
なお、サーバー装置230を介することによって、たとえば、ユーザーが、補正された音声データのファイルを他のユーザーと共有したり、交換したりできるシステムが提案されてもよい。音声補正システム200は、ユーザーに新たな音楽の楽しみ方を提供できる。
本発明による音声補正装置100による処理は、上記各手順を実行するための専用のハードウェア回路によっても、また、上記各手順を記述したプログラムをCPUが実行することによっても実現できる。後者により本発明を実現する場合、音声補正装置100を動作させる上記プログラムは、USBメモリー、フロッピー(登録商標)ディスクやCD−ROMなどのコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネットなどのネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、メモリーやハードディスクなどに転送され記憶される。また、このプログラムは、たとえば、単独のアプリケーションソフトとして提供されてもよいし、音声補正装置100の一機能としてその装置のソフトウェアに組み込んでもよい。
100 音声補正装置、
110 CPU、
111 伴奏データ再生部、
112 音声データ録音部、
113 周波数特定部、
114 レベル特定部、
115 基準レベル計算部、
116 最大補正量受付部、
117 周波数補正部、
118 レベル補正部、
119 補正データ出力部、
120 メモリー、
130 ハードディスク、
140 通信I/F部、
150 表示部、
160 操作部、
170 音声入力部、
180 音声出力部、
190 バス、
200 音声補正システム、
210 PC(ユーザー端末)、
220 携帯端末(ユーザー端末)、
230 サーバー装置、
240 ネットワーク。

Claims (18)

  1. ユーザーが歌唱して得られる音声を補正する音声補正方法であって、
    前記ユーザーが目標とする目標音声を表す目標音声データから、時間遷移する前記目標音声の周波数を特定し、前記ユーザーの音声であるユーザー音声を表すユーザー音声データから、時間遷移する前記ユーザー音声の周波数を特定する周波数特定ステップと、
    前記周波数特定ステップにおいて特定された前記目標音声の周波数および前記ユーザー音声の周波数を、歌唱の同一タイミングにおいて比較して、前記目標音声の周波数および前記ユーザー音声の周波数の差分が所定の最大補正量以下である場合、前記ユーザー音声の周波数を前記目標音声の周波数に合わせるように前記ユーザー音声データを補正し、前記目標音声の周波数および前記ユーザー音声の周波数の差分が前記最大補正量を超える場合、前記ユーザー音声の周波数を前記最大補正量の分だけ前記目標音声の周波数に近づけるように前記ユーザー音声データを補正する周波数補正ステップと、
    前記周波数補正ステップにおいて補正された前記ユーザー音声データを出力する補正データ出力ステップと、
    含む音声補正方法。
  2. 前記所定の最大補正量の入力を前記ユーザーから受け付ける最大補正量受付ステップをさらに含む請求項1に記載の音声補正方法。
  3. 前記最大補正量受付ステップにおいては、複数の最大補正量の候補から一つを選択させることによって、前記所定の最大補正量の入力を受け付ける請求項2に記載の音声補正方法。
  4. 前記周波数補正ステップにおいては、
    前記目標音声の基本周波数および前記ユーザー音声の基本周波数を比較して、前記ユーザー音声の基本周波数を前記目標音声の基本周波数に合わせるように、前記ユーザー音声データを補正し、
    前記ユーザー音声の基本周波数を変更した比率と同一の比率で、前記ユーザー音声の基本周波数以外の周波数を変更するように、前記ユーザー音声データをさらに補正する請求項1〜3のいずれか一項に記載の音声補正方法。
  5. 前記目標音声データから、時間遷移する前記目標音声のレベルを特定し、前記ユーザー音声データから、時間遷移する前記ユーザー音声のレベルを特定するレベル特定ステップと、
    前記目標音声のレベルの一部または全部を用いて、前記目標音声のレベルの基準となる目標基準レベルを計算し、前記ユーザー音声のレベルの一部または全部を用いて、前記ユーザー音声のレベルの基準となるユーザー基準レベルを計算する基準レベル計算ステップと、
    前記目標基準レベルに対する前記ユーザー基準レベルの比率を、前記目標音声のレベルに乗算して得られるレベルに、前記ユーザー音声のレベルを合わせるように、前記ユーザー音声データを補正するレベル補正ステップと、
    をさらに含み、
    前記補正データ出力ステップにおいて、前記周波数補正ステップおよび前記レベル補正ステップにおいて補正された前記ユーザー音声データを出力する請求項1〜4のいずれか一項に記載の音声補正方法。
  6. 前記レベル特定ステップにおいて特定された前記目標音声のレベルおよび前記ユーザー音声のレベルに基づいて、前記目標音声のレベルが所定の最小レベル以上である一方で、前記ユーザー音声のレベルが所定の最小レベル未満であるユーザー無音区間を特定し、当該ユーザー無音区間において、前記ユーザー無音区間の直前の所定の区間のデータを繰り返すように、前記ユーザー音声データを補完するデータ補完ステップをさらに含む請求項5に記載の音声補正方法。
  7. 前記ユーザーに伴奏音を提供するために、前記目標音声データと共に楽曲データに含まれる、伴奏データを再生する伴奏データ再生ステップをさらに含み、
    前記補正データ出力ステップにおいて、前記補正されたユーザー音声データを、前記伴奏データと組み合わせて出力する請求項1〜6のいずれか一項に記載の音声補正方法。
  8. 前記補正データ出力ステップにおける出力は、前記補正されたユーザー音声データの保存または再生、あるいは保存および再生である請求項1〜7のいずれか一項に記載の音声補正方法。
  9. 請求項1〜8に記載の音声補正方法をコンピューターに実行させるための音声補正プログラム。
  10. ユーザーが歌唱して得られる音声を補正する音声補正装置であって、
    前記ユーザーが目標とする目標音声を表す目標音声データから、時間遷移する前記目標音声の周波数を特定し、前記ユーザーの音声であるユーザー音声を表すユーザー音声データから、時間遷移する前記ユーザー音声の周波数を特定する周波数特定部と、
    前記周波数特定部によって特定された前記目標音声の周波数および前記ユーザー音声の周波数を、歌唱の同一タイミングにおいて比較して、前記目標音声の周波数および前記ユーザー音声の周波数の差分が所定の最大補正量以下である場合、前記ユーザー音声の周波数を前記目標音声の周波数に合わせるように前記ユーザー音声データを補正し、前記目標音声の周波数および前記ユーザー音声の周波数の差分が前記最大補正量を超える場合、前記ユーザー音声の周波数を前記最大補正量の分だけ前記目標音声の周波数に近づけるように前記ユーザー音声データを補正する周波数補正部と、
    前記周波数補正部によって補正された前記ユーザー音声データを出力する補正データ出力部と、
    を有する音声補正装置。
  11. 前記所定の最大補正量の入力を前記ユーザーから受け付ける最大補正量受付部をさらに有する請求項10に記載の音声補正装置。
  12. 前記最大補正量受付部は、複数の最大補正量の候補から一つを選択させることによって、前記所定の最大補正量の入力を受け付ける請求項11に記載の音声補正装置。
  13. 前記周波数補正部は、
    前記目標音声の基本周波数および前記ユーザー音声の基本周波数を比較して、前記ユーザー音声の基本周波数を前記目標音声の基本周波数に合わせるように、前記ユーザー音声データを補正し、
    前記ユーザー音声の基本周波数を変更した比率と同一の比率で、前記ユーザー音声の基本周波数以外の周波数を変更するように、前記ユーザー音声データをさらに補正する請求項10〜12のいずれか一項に記載の音声補正装置。
  14. 前記目標音声データから、時間遷移する前記目標音声のレベルを特定し、前記ユーザー音声データから、時間遷移する前記ユーザー音声のレベルを特定するレベル特定部と、
    前記目標音声のレベルの一部または全部を用いて、前記目標音声のレベルの基準となる目標基準レベルを計算し、前記ユーザー音声のレベルの一部または全部を用いて、前記ユーザー音声のレベルの基準となるユーザー基準レベルを計算する基準レベル計算部と、
    前記目標基準レベルに対する前記ユーザー基準レベルの比率を、前記目標音声のレベルに乗算して得られるレベルに、前記ユーザー音声のレベルを合わせるように、前記ユーザー音声データを補正するレベル補正部と、
    をさらに有し、
    前記補正データ出力部は、前記周波数補正部および前記レベル補正部によって補正された前記ユーザー音声データを出力する請求項10〜13のいずれか一項に記載の音声補正装置。
  15. 前記レベル特定部によって特定された前記目標音声のレベルおよび前記ユーザー音声のレベルに基づいて、前記目標音声のレベルが所定の最小レベル以上である一方で、前記ユーザー音声のレベルが所定の最小レベル未満であるユーザー無音区間を特定し、当該ユーザー無音区間において、前記ユーザー無音区間の直前の所定の区間のデータを繰り返すように、前記ユーザー音声データを補完するデータ補完部をさらに有する請求項14に記載の音声補正装置。
  16. 前記ユーザーに伴奏音を提供するために、前記目標音声データと共に楽曲データに含まれる、伴奏データを再生する伴奏データ再生部をさらに有し、
    前記補正データ出力部は、前記補正されたユーザー音声データを、前記伴奏データと組み合わせて出力する請求項10〜15のいずれか一項に記載の音声補正装置。
  17. 前記補正データ出力部による出力は、前記補正されたユーザー音声データの保存または再生、あるいは保存および再生である請求項10〜16のいずれか一項に記載の音声補正装置。
  18. ユーザーの音声であるユーザー音声からユーザー音声データを生成し、当該ユーザー音声データを、ネットワークを介して送信するユーザー端末と、
    前記ユーザー音声データを前記ユーザー端末から受信し、前記ユーザー音声データを、前記ユーザーが目標とする目標音声を表す目標音声データと比較して、前記ユーザー音声データを補正する請求項10〜16のいずれか一項に記載の音声補正装置として機能するサーバー装置と、
    を有し、
    前記ユーザー端末は、前記補正されたユーザー音声データを前記サーバー装置から受信し、当該補正されたユーザー音声データを保存または再生、あるいは保存および再生する音声補正システム。
JP2015216943A 2015-11-04 2015-11-04 音声補正方法、音声補正プログラム、音声補正装置および音声補正システム Active JP6654404B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015216943A JP6654404B2 (ja) 2015-11-04 2015-11-04 音声補正方法、音声補正プログラム、音声補正装置および音声補正システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015216943A JP6654404B2 (ja) 2015-11-04 2015-11-04 音声補正方法、音声補正プログラム、音声補正装置および音声補正システム

Publications (2)

Publication Number Publication Date
JP2017090546A JP2017090546A (ja) 2017-05-25
JP6654404B2 true JP6654404B2 (ja) 2020-02-26

Family

ID=58770508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015216943A Active JP6654404B2 (ja) 2015-11-04 2015-11-04 音声補正方法、音声補正プログラム、音声補正装置および音声補正システム

Country Status (1)

Country Link
JP (1) JP6654404B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5966687A (en) * 1996-12-30 1999-10-12 C-Cube Microsystems, Inc. Vocal pitch corrector
JP3843199B2 (ja) * 2000-02-25 2006-11-08 ヤマハ株式会社 音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体
JP3597156B2 (ja) * 2001-07-25 2004-12-02 株式会社第一興商 ピッチシフター付きカラオケ装置
JP5087292B2 (ja) * 2007-02-20 2012-12-05 株式会社カプコン ゲームプログラムおよびゲームシステム
JP2013195481A (ja) * 2012-03-16 2013-09-30 Panasonic Corp 音声制御装置
JP2015034923A (ja) * 2013-08-09 2015-02-19 ヤマハ株式会社 音高補正装置

Also Published As

Publication number Publication date
JP2017090546A (ja) 2017-05-25

Similar Documents

Publication Publication Date Title
US10790919B1 (en) Personalized real-time audio generation based on user physiological response
US8253006B2 (en) Method and apparatus to automatically match keys between music being reproduced and music being performed and audio reproduction system employing the same
JP6201460B2 (ja) ミキシング管理装置
JP4375810B1 (ja) カラオケホスト装置及びプログラム
JP2017111372A (ja) 音声合成方法、音声合成制御方法、音声合成装置および音声合成制御装置
JP4237768B2 (ja) 音声処理装置、音声処理プログラム
CN113035164A (zh) 歌声生成方法和装置、电子设备及存储介质
JP6102076B2 (ja) 評価装置
JP6654404B2 (ja) 音声補正方法、音声補正プログラム、音声補正装置および音声補正システム
JP7194559B2 (ja) プログラム、情報処理方法、及び情報処理装置
JP2017027070A (ja) 評価装置及びプログラム
CN112992110B (zh) 音频处理方法、装置、计算设备以及介质
KR20110008505A (ko) 사용자 개개인의 청력에 맞추어 오디오 기기의 음질을 제어하는 장치 및 방법
JP7419768B2 (ja) 楽曲生成方法および楽曲生成システム
JP6316099B2 (ja) カラオケ装置
JP2011215292A (ja) 歌唱判定装置およびカラオケ装置
JP6690165B2 (ja) 出力制御装置、電子楽器、出力制御方法及びプログラム
JP6236807B2 (ja) 歌唱音声評価装置および歌唱音声評価システム
JP5703555B2 (ja) 楽音信号処理装置及びプログラム
JP5731661B2 (ja) 記録装置、記録方法、及び記録制御用のコンピュータプログラム、並びに再生装置、再生方法、及び再生制御用のコンピュータプログラム
JP4168391B2 (ja) カラオケ装置、音声処理方法及びプログラム
JP2018072698A (ja) 信号処理方法、および信号処理装置
JP6781636B2 (ja) 情報出力装置及び情報出力方法
KR101060546B1 (ko) 사용자의 청력에 맞게 오디오 재생파일을 변환하는 장치
JP2013235632A (ja) オーディオ再生装置、その再生方法及び再生プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200130

R150 Certificate of patent or registration of utility model

Ref document number: 6654404

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250