JP3843199B2 - 音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体 - Google Patents

音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3843199B2
JP3843199B2 JP2000049966A JP2000049966A JP3843199B2 JP 3843199 B2 JP3843199 B2 JP 3843199B2 JP 2000049966 A JP2000049966 A JP 2000049966A JP 2000049966 A JP2000049966 A JP 2000049966A JP 3843199 B2 JP3843199 B2 JP 3843199B2
Authority
JP
Japan
Prior art keywords
sine wave
wave component
time
information
target sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000049966A
Other languages
English (en)
Other versions
JP2001242900A (ja
Inventor
竜児 中川
カノ ペドロ
セラ ザビエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2000049966A priority Critical patent/JP3843199B2/ja
Publication of JP2001242900A publication Critical patent/JP2001242900A/ja
Application granted granted Critical
Publication of JP3843199B2 publication Critical patent/JP3843199B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、音声や楽音などを時間伸長する音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
従来より、音声や楽音などの速度変換が広く行われている。例えば、録音した音声の再生時間を所定の時間にあわせるために時間伸長して再生する場合など目的は様々である。
ところで、ソプラノ歌手の歌声のテープを通常の回転速度よりも遅く再生すると、テノール歌手の歌声のような低い声で再生されることがよく知られている。これは、再生速度を遅くすることによって、各周波数成分が低い方向へ移動して基本周波数が低くなり、声道の共鳴特性を示すフォルマントも低域へ移動することによる現象である。
このように、音声信号全体を単に時間軸上で伸長すると、音声の特徴まで変換されてしまうので、基本周波数の高さを維持したまま時間伸長を行う技術が提案されている。
【0003】
例えば、図11に示すように、ある区間のサンプリングデータをループさせる技術がある。図11に示す例では、時間伸長を開始する前の数時間分の音声波形をループ区間としてサンプリングしておき、時間伸長を行う際にはループ区間でサンプリングデータを繰り返し再生することによって、時間伸長部分を補間している。これの技術によれば、伸長開始前の波形を用いて補間しているので、基本周波数の高さが変更されず、音色などの特徴も変更されずに時間伸長を行うことができるようになっている。
【0004】
【発明が解決しようとする課題】
しかしながら、上述した時間伸長技術では、ある区間のサンプリングデータを単純にループさせているので、ループ切り返し前後の振幅やピッチが不連続になる場合があり、聴感的に不自然な音色になってしまうという不具合があった。
【0005】
本発明は、上述した課題を解決するためになされたものであり、聴感的に自然な時間伸長を行うことができる音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体を提供することを目的としている。
【0006】
【課題を解決するための手段】
上述した課題を解決するために、請求項1に記載の発明は、時間伸長対象音を、所定時間単位毎に周波数および振幅で示される正弦波成分に分析する分析手段と、分析された前記正弦波成分に基づいて当該時間伸長対象音の状態を判定する状態判定手段と、前記状態判定手段において定常部と判定された前記伸長対象音の第1の所定区間に対応する前記正弦波成分から、前記第1の所定区間を構成する要素の変動傾向に対応した長区間平均情報を抽出する長区間平均情報抽出手段と、前記状態判定手段において定常部と判定された前記伸長対象音の前記第1の所定区間よりも短い第2の所定区間に対応する前記正弦波成分から、前記第2の所定区間を構成する要素の変動傾向に対応した短区間平均情報を抽出する短区間平均情報抽出手段と、前記状態判定手段において定常部と判定された前記伸長対象音の前記正弦波成分から前記短区間平均情報を控除したデータを微細情報として抽出する微細情報抽出手段と、前記状態判定手段において定常部と判定された前記伸長対象音の前記正弦波成分に対応する短区間平均情報から当該正弦波成分に対応する長区間平均情報を控除したデータをビブラート情報として抽出するビブラート情報抽出手段と、抽出した長区間平均情報、微細情報およびビブラート情報を所定の比率で合成して、時間伸長部分を補間した時間伸長音を生成する生成手段とを備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の音の時間伸長装置において、前記所定の比率を制御する制御手段を備えることを特徴とする。
請求項3に記載の発明は、請求項1に記載の音の時間伸長装置において、前記状態判定手段は、前記正弦波成分の変動量が所定値以下である場合に、前記時間伸長対象音が定常状態であると判定することを特徴とする。
【0007】
請求項に記載の発明は、時間伸長対象音を、所定時間単位毎に周波数および振幅で示される正弦波成分に分析する分析段階と、分析された前記正弦波成分に基づいて当該時間伸長対象音の状態を判定する状態判定段階と、前記状態判定段階において定常部と判定された前記伸長対象音の第1の所定区間に対応する前記正弦波成分から、前記第1の所定区間を構成する要素の変動傾向に対応した長区間平均情報を抽出する長区間平均情報抽出段階と、前記状態判定段階において定常部と判定された前記伸長対象音の前記第1の所定区間よりも短い第2の所定区間に対応する前記正弦波成分から、前記第2の所定区間を構成する要素の変更傾向に対応した短区間平均情報を抽出する短区間平均情報抽出段階と、前記状態判定段階において定常部と判定された前記伸長対象音の前記正弦波成分から前記短区間平均情報を控除したデータを微細情報として抽出する微細情報抽出段階と、前記状態判定段階において定常部と判定された前記伸長対象音の前記正弦波成分に対応する短区間平均情報から当該正弦波成分に対応する長区間平均情報を控除したデータをビブラート情報として抽出するビブラート情報抽出段階と、抽出した長区間平均情報、微細情報およびビブラート情報を所定の比率で合成して、時間伸長部分を補間した時間伸長音を生成する生成段階とを備えることを特徴とする。
請求項に記載の発明は、コンピュータに対して、時間伸長対象音を、所定の時間単位毎に周波数および振幅で示される正弦波成分に分析する分析段階と、分析された前記正弦波成分に基づいて当該時間伸長対象音の状態を判定する状態判定段階と、前記状態判定段階において定常部と判定された前記伸長対象音の第1の所定区間に対応する前記正弦波成分から、前記第1の所定区間を構成する要素の変動傾向に対応した長区間平均情報を抽出する長区間平均情報抽出段階と、前記状態判定段階において定常部と判定された前記伸長対象音の前記第1の所定区間よりも短い第2の所定区間に対応する前記正弦波成分から、前記第2の所定区間を構成する要素の変更傾向に対応した短区間平均情報を抽出する短区間平均情報抽出段階と、前記状態判定段階において定常部と判定された前記伸長対象音の前記正弦波成分から前記短区間平均情報を控除したデータを微細情報として抽出する微細情報抽出段階と、前記状態判定段階において定常部と判定された前記伸長対象音の前記正弦波成分に対応する短区間平均情報から当該正弦波成分に対応する長区間平均情報を控除したデータをビブラート情報として抽出するビブラート情報抽出段階と、抽出した長区間平均情報、微細情報およびビブラート情報を所定の比率で合成して、時間伸長部分を補間した時間伸長音を生成する生成段階とを実行させることを特徴とする。
【0008】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施の形態について説明する。
【0009】
[1.実施形態の概要]
まず、図1を参照しながら本実施形態の概要について説明する。
本実施形態では、時間伸長対象音である入力音声をSMS(Spectral Modeling Synthesis)分析して、音声の時間的変動を伴う特徴を抽出し、これを用いて時間的補間を行うことによって伸長音を合成する。なお、SMS分析については後に説明する。
【0010】
また、時間的変動によって示される特徴としては、音声を構成する音高や音量などといった要素の変動傾向に対応して歌唱の安定感を示す長区間平均情報、音高の周期に対応し歌唱のゆれを示すビブラート情報、および、構成要素の細かな変動に対応し歌唱者の個性を示す微細情報を用いる。
このような時間的変動を伴う特徴(ゆらぎ)のうち、長区間情報は比較的長時間における変化傾向を示すが、微細情報は短時間における変化傾向である。また、ビブラート情報は、長区間における音高の周期を示すので、長区間および短区間のいずれの要素も含む変化傾向といえる。
そこで、本実施形態では、短区間平均を算出し、長区間平均および短区間平均に基づいて微細情報およびビブラート情報を生成する。具体的な生成手段については後に詳しく説明するが、微細情報については、音声波形の成分から短区間平均を控除した成分から生成し、ビブラート情報については、音声波形の成分から長区間平均および微細情報を控除した成分から生成する。
【0011】
また、このような特徴を抽出する音声の区間としては、時間伸長開始より所定時間前の定常部から抽出する。時間伸長開始直前の音声の要素の時間的変動が比較的安定した定常部の特徴を用いることによって、より聴感上自然に時間伸長分の補間を行うなうことができる。
【0012】
ここで、図2を参照しながら定常部について説明する。図2は、音声が発音されてから消音するまでの振幅のエンベロープを示したものであり、この図に示すように、音声の状態には、通常、アタック部・定常部・リリース部の3状態がある。
本実施形態では、所定時間単位で検出した振幅の変化量に基づいて状態を判定するものとする。具体的には、振幅の変動量が所定値以上であり、かつ収束している場合にはアタック部と判定し、変動量が所定値以下である場合には定常部であると判定し、変動量が再び所定値以上になった場合にはリリース部と判定する。
先に説明したように、時間伸長を行う部分については、定常部から抽出した特徴に基づいて補間を行うが、この補間区間は、定常部からリリース部へ移行する区間に挿入するものとする。これにより、定常部をなめらかに伸長して振幅やピッチが自然に連続された音声波形を生成することができる。
【0013】
[2.実施形態の構成]
次に、上述した時間的変動によって示される特徴を抽出し、時間伸長を行うための具体的な構成について説明する。図3は、本実施形態の構成を示すブロック図である。なお、各ブロックに示す機能は、ハード的に構成してもよいし、ソフト的に構成してもよい。
本実施形態にかかる音声速度変換装置は、マイク1から入力された音声をSMS分析部2によってSMS分析し、これにより得られた正弦波成分および残差成分(後述する)を用いて合成した音声を出力するように構成されている。
そして音声を時間伸長する場合は、正弦波成分を用いて状態判定(上述したアタック部、定常部、リリース部)および音声の時間的変動を伴う特徴抽出を行うようになっている。
【0014】
ここで、図4を参照しながらSMS分析について説明する。SMS分析では、まず標本化された音声波形に窓関数を乗じた音声波形(フレーム)を切り出し、高速フーリエ変換(FFT)を行って得られる周波数スペクトルから、正弦波成分と残差成分とを抽出する。
正弦波成分とは、基本周波数および基本周波数の倍数にあたる周波数(倍音)の成分をいう。本実施形態では、正弦波成分を、基本周波数を“Pitch”として保持し、各成分の平均振幅を“Ave”として保持し、周波数−振幅座標におけるスペクトル包絡を示す関数を“Ev”として保持する。これによって基本周波数および倍音成分を再現できるので、各成分毎に周波数および振幅の組を保持しなくてもよいからである。
残差成分とは、入力信号から正弦波成分を除いた成分であり、本実施形態では、図4に示すように周波数領域のデータとして保持する。
【0015】
このようなSMS分析を行うために、本実施形態では、例えば、ハミング窓のような分析窓を生成し、分析窓と音声波形とを掛け合わせて、音声波形をフレーム単位で切り出す。なお、前回のフレームで検出したピッチの周期の固定倍の周期あるいは予め設定した固定周期で分析窓を生成する。
図5は、フレーム切り出しのイメージを示しており、本実施形態では、各フレームに対して切り出しの時系列による連番の符号(t0,t1,t2,t3……tn)を付している。
図5に示すようにして切り出された各フレーム毎の音声波形についてSMS分析部2から正弦波成分(上述した“Pitch”、“Ave”、“Ev”の組)が出力されるが、図3に示す構成においては、周波数・振幅検出部3においてこの正弦波成分から各フレームにおける各成分毎の周波数および振幅を検出し、これに基づいて状態判定および特徴抽出を行う。
【0016】
より具体的には、上述したように各フレーム毎の正弦波成分は、基本周波数、平均振幅およびスペクトラル包絡によって表されているので、まずこれらに基づいて、基本周波数および倍音成分の各周波数および振幅を検出し、当該フレームの各成分毎の周波数および振幅のデータ組として保持する。図5に示す例および実施形態の説明中では、基本周波数を“F0”と表記し、基本周波数成分の振幅を“A0”と表記している。各倍音成分については、倍数を付して(“F1”、“A1”)……(“Fn”、“An”)と表記している。
また、本実施形態では複数フレーム分のデータを用いた処理を行うので、各フレーム記号を付して、図5に示すように(F0t0,A0t0)……(Fnt0,Ant0)をフレームt0のデータ組として表記している。
【0017】
本実施形態では、このように検出したフレーム毎の周波数および振幅を示すデータを用いて、後に詳しく説明する特徴抽出処理をフレーム単位で行う。ここで、検出されたデータ組については、元フレームデータというものとする。
本実施形態では、元フレームデータに基づいて音声の特徴を抽出するために、実施形態の概要において説明した短区間平均および長区間平均を算出したデータを生成するように構成されている。具体的には、図3に示すように、周波数・振幅検出部3から出力された元フレームデータは、短区間平均化部4および長区間平均化部5に供給されるように構成されている。
【0018】
ここで、図6を参照しながら、短区間平均化および長区間平均化の具体的手法について説明する。
本実施形態では、元フレームデータのうちの連続した“s”フレーム分の区間を短区間として設定しており、各区間に属する元フレームデータに基づいて次式を実行して当該区間の平均化データを算出し、短区間平均フレームデータとする。
【数1】
Figure 0003843199
ここで、mは現時間におけるフレームであり、m=0、1、2……である。
【0019】
また、連続した“l”フレーム分の区間を長区間として設定しており、各区間に属する元フレームデータに基づいて次式を実行して当該区間の平均化データを算出し、長区間平均フレームデータとする。
【数2】
Figure 0003843199
ここで、mは現時間におけるフレームであり、m=0、1、2……である。
【0020】
本実施形態では、このようにして算出された短区間平均フレームデータは微細情報抽出部6に供給され、長区間平均フレームデータは、再合成バッファ10および微細情報+ビブラート抽出部7に供給される。
微細情報抽出部6は、元フレームデータから短区間平均フレームデータを控除したデータを微細情報として抽出し、微細情報バッファ8に記憶させるように構成されている。
一方、微細情報+ビブラート抽出部7は、元フレームデータから長区間平均フレームデータを控除したデータを微細情報+ビブラート情報として抽出し、さらに微細情報抽出部6で抽出した微細情報を控除したデータをビブラート情報として抽出し、ビブラートバッファ9に記憶させるように構成されている。
ところで、再合成バッファ10には長区間平均フレームデータが記憶されている。本実施形態では、再合成バッファ10に記憶されている長区間平均フレームデータとビブラートバッファ9に記憶されたフレームデータを加算し、さらに微細情報バッファ8に記憶されたフレームデータを加算したフレームデータを補間成分のフレームデータとして切換部11に供給する。このようにして切換部11に供給されるフレームデータは、図1を用いて概要説明した「特徴を平均化した成分」を周波数軸上で生成した周波数成分に相当する。なお、各バッファ(8〜10)の記憶容量は、ビブラート情報の1周期以上を保持でき、補間成分として用いるだけのフレーム数分を記憶できる大きさであればよい。
【0021】
切換部11は、SMS合成部12に供給する周波数成分の切換を行うものであり、時間伸長を行わない場合には、SMS分析部2から供給された正弦波成分をSMS合成部12に供給し、時間伸長を行う場合には、上述した補間成分を繰り返しSMS合成部12に供給する。
SMS分析部2からは、正弦波成分とともに上述した残差成分が出力されており、残差成分バッファ13に記憶されるように構成されている。切換部14は、残差成分バッファ13から出力すべきフレームデータの切り換えを行うものであり、時間伸長を行わない場合には、SMS分析部2から供給された残差成分を出力し、時間伸長を行う場合には、時間伸長開始より所定時間前の区間に相当するフレームの残差成分を繰り返し出力する。
【0022】
ところで、このような切換を制御しているのは伸長判定制御部15であり、周波数・振幅検出部3から出力される元フレームデータに基づいて、図2を参照しながら概要説明した状態判定を行って、特徴抽出処理の開始および終了や、時間伸長の開始および終了タイミングを制御する。
そして、SMS合成部12は、伸長判定制御部15の制御に基づいて供給された周波数成分および残差成分を合成して逆高速フーリエ変換部16に供給し、逆高速フーリエ変換部16は、供給された周波数成分を逆高速フーリエ変換して新たな音声信号を生成して出力するように構成されている。
なお、図3に示した正弦波成分バッファ17は、リリース部に対応する入力正弦波成分のフレームデータを記憶しておくバッファであり、入力音声がリリース部である場合には入力正弦波成分のフレームデータを記憶し、入力音声がアタック部や定常部である場合には、入力正弦波成分のフレームデータを記憶せずにSMS合成部12に供給するようになっている。
【0023】
[3.実施形態の動作]
次に、上記構成を備える本実施形態の動作について説明する。
図7は、伸長判定制御部15において行われる伸長判定制御をフローチャートとして示した図である。この図に示す処理は、伸長判定制御部15に元フレームデータが供給される毎に実行される。
伸長判定制御部15は、まず元フレームデータに基づいて上述した状態判定を行う(S1)。このステップS1の判定において入力音声がアタック部であると判定した場合は(S1;アタック部)、SMS分析部2から入力正弦波成分および残差成分をSMS合成部12に出力させる制御を行い(S2)、処理を初期判定に戻す。本実施形態では、定常部における特徴を補間部分に用いるので特徴抽出を行う必要がなく、定常部からリリース部に移行するタイミングにおいて時間伸長分の補間をするので、アタック部においては、正弦波成分を保持する必要がないからである。
【0024】
これに対して、ステップS1の判定において入力音声が定常部であると判定した場合は(S1;定常部)、特徴抽出を行う必要があると判断できるので、上述したように短区間平均および長区間平均を算出する平均化処理を行う(S3)。そして、短区間平均および長区間平均に基づいて特徴を抽出する処理および、この区間に対応する残差成分を保持する処理を行う(S4)。しかしながら、まだ補間を行うタイミングには至っていないと判定できるので、SMS分析部2から入力正弦波成分および残差成分をSMS合成部12に出力させる制御を行い(S5)、処理を初期判定に戻す。
【0025】
そして、ステップS1の判定において入力音声がリリース部であると判定した場合は(S1;リリース部)、補間を行うタイミングになったと判定できるので、SMS分析部2から出力されるリリース部の正弦波成分および残差成分の保持を開始し(S6)、定常部において抽出しておいた特徴に基づいて生成した補間成分と残差成分バッファ13に保持された残差成分をSMS合成部12に出力する制御を行う(S7)。
補間成分の出力を開始すると、伸長時間が経過したか否かを判定する(S8)。伸長すべき時間は、例えば定常部の継続時間および全体として伸長すべき時間の比などに基づいて決定される。
伸長判定制御部15は、伸長時間を経過していないと判定した場合は(S8;No)、処理をステップS7に戻して補間成分と残差成分の出力を続行し、伸長時間を経過したと判定した場合は(S8;Yes)、ステップ6から保持しておいたリリース部分の正弦波成分と残差成分をSMS合成部12に出力させ(S9)、処理を初期判定に戻す。
【0026】
ここで、先に説明した制御に基づいて生成されるデータについて、図8を参照しながら、より具体的に説明する。
図8において、a)は、マイク1から入力された音声をSMS分析部2においてSMS分析することによって得られた正弦波成分および残差成分を時系列で示したもので、ここでは入力系列の正弦波成分をFAtnとして記載し、残差成分をRestnとして記載したものである。
b)は、それぞれ再合成バッファ10、微細情報バッファ8、およびビブラートバッファ9に記憶される、上述した算出に基づいて生成した長区間平均、微細情報、およびビブラート情報、すなわち抽出された特徴の周波数成分を時系列で示したもので、ここでは特徴系列Bltn、dptn、Dtnとして記載したものである。
そして、c)は、伸長判定制御部15の制御に基づいて時間伸長部分の補間が行われて逆高速フーリエ変換部16に供給される周波数成分を時系列で示したものであり、ここでは出力系列として記載したものである。
【0027】
まず時刻t1およびt2においては、状態がアタック部であると判定され、生成された正弦波成分FAt1およびFAt2については特徴抽出が行われずに逆高速フーリエ変換部16へ出力される。
時刻t11以降は状態が定常部であると判定され、正弦波成分FAt11、FAt12、FAt13……から特徴として、長区間平均情報Blt11、Blt12、Blt13……、微細情報dpt11、dpt12、dpt13……、およびビブラート情報Dt11、Dt12、Dt13……がそれぞれ抽出され、それぞれ再合成バッファ10、微細情報バッファ8、ビブラートバッファ9に記憶される。
【0028】
時刻t21以降は状態がリリース部であると判定され、伸長部分の補間が開始される。このとき正弦波成分FAt21、FAt22、FAt23……および、この区間に対応する残差成分Rest21、Rest22、Rest23……は保持されて逆高速フーリエ変換部16には出力されず、再合成バッファ10、微細情報バッファ8、ビブラートバッファ9に最終的に記憶されたte分のフレームデータから生成した補間成分およびこの区間に対応する残差成分を伸長部分として出力する。図8では、時刻t13〜t13+e分のフレームデータが補間成分生成に用いられている。
そして、伸長部分の補間成分の出力が終了してから、先に保持していた正弦波成分FAt21、FAt22、FAt23……および残差成分Rest21、Rest22、Rest23……を出力する。
このようにして出力された周波数成分は、逆高速フーリエ変換部16において音声波形に変換されて、図1に示したような時間伸長された波形として出力される。この時間伸長分は、時間伸長開始より所定時間前の定常部における特徴を平均化した成分に基づいて補間しているので、聴感上自然に時間伸長されるようになる。
【0029】
.変形例]
本発明は、上述した実施形態に限定されるものではなく、以下に説明するような各種の変形が可能である。
【0030】
図9は、変形例の概要構成を示す図である。図9において時間伸長装置100は上記実施形態において説明した装置であり、カラオケ装置200はMIDI(Musical Instrument Digital Interface)形式の演奏データに基づいて楽音を生成する周知の装置であり、アンプ・スピーカ300は、時間伸長装置100から出力される音声信号とカラオケ装置200から出力される楽音信号を合成した上、増幅して出力するものである。
通常、演奏データには、歌唱のメロディーラインを示すガイドメロディーデータが含まれており、本発明にかかる時間伸長をカラオケに適用した場合には、ガイドメロディーデータが示す歌唱時間と歌唱者が実際に歌唱した時間が一致することが望ましい。
そこで、図9に示す例では、ガイドメロディーデータを時間伸長装置に供給し、これに基づいて時間伸長を行うものとする。
【0031】
例えば、図10に示すように、時間伸長装置100に供給されるガイドメロディーデータのONからOFFまでの時間を定常部とし、OFF以後をリリース部とする。歌唱者の入力音声の状態については、上記実施形態で説明したように判定を行い、ガイドメロディーの状態と比較する。
このとき、ガイドメロディーがいまだ定常部であるにもかかわらず入力音声がリリース部に移行した場合は、入力音声を保持しておいて、ガイドメロディーがリリース部に移行するまで上記実施形態で説明した補間を行う。これにより、ガイドメロディーの状態に入力音声の状態を一致させるような時間伸長を行うことができる。
【0032】
なお、上述の説明においては、入力音声をリアルタイムで処理するように説明しているが、予め記録しておいた音声に対する時間伸長を行ってもかまわない。
また、状態判定の手段についても、上述した説明のように振幅の変動に限らず、周波数の変動にもとづいて判定してもよい。上記例のように一旦周波数成分として分析されたデータに基づいて判定してもよいが、音声波形から判定してもかまわない。
【0033】
音声の時間的変動を伴う特徴としては、上述の例に限らず他の特徴を求めてもよいし、複数の特徴を求める場合には、各特徴を示す成分の合成比率を制御できるようにしてもよい。あるいは、上記例で用いた特徴を他のパラメータで示してもかまわない。例えば、ビブラート情報であればレベルと周期をパラメータとしてもよい。
また、特徴を抽出するための分析手段についても、上記実施形態で用いたSMS分析に限らず、所定時間単位毎に周波数および振幅で示されるパラメータを算出する他の分析方法を用いてもかまわないし、その他のパラメータを算出する分析方法を用いてもかまわない。
【0034】
なお、上述の説明においては、音声を対象として説明しているが、楽音など他の種類の音を対象とした時間伸長を行ってもかまわないことはもちろんである。また、上記実施形態では、本発明にかかる音の時間伸長を行う装置について説明したが、これを演算装置や記憶装置を備えた汎用のコンピュータに対して上述した処理を実行させるプログラムによって実現してもかまわない。このような場合は、当該プログラムを記録した記録媒体からプログラムを読み込んで実行してもよいし、予めコンピュータにインストールしておいてもよい。
【0035】
【発明の効果】
以上説明したように、本発明によれば、聴感的に自然な時間伸長を行うことができるようになる。
【図面の簡単な説明】
【図1】 本発明の概要を説明する図である。
【図2】 定常状態を説明する図である。
【図3】 実施形態の構成を示すブロック図である。
【図4】 SMS分析を説明する図である。
【図5】 フレームの切り出しを説明する図である。
【図6】 平均化を説明する図である。
【図7】 実施形態の動作を説明するフローチャートである。
【図8】 時間伸長の具体例を示した図である。
【図9】 変形例の構成を示すブロック図である。
【図10】 変形例における時間伸長を説明する図である。
【図11】 従来の時間伸長技術を説明する図である。
【符号の説明】
1……マイク、2……SMS分析部、3……周波数・振幅検出部、4……短区間平均化部、5……長区間平均化部、6……微細情報抽出部、7……微細情報・ビブラート抽出部、8……微細情報バッファ、9……ビブラートバッファ、10……再合成バッファ、11……切換部、12……SMS合成部、13……残差成分バッファ、14……切換部、15……伸長検出制御部、16……逆高速フーリエ変換部、17……正弦波成分バッファ。

Claims (5)

  1. 時間伸長対象音を、所定時間単位毎に周波数および振幅で示される正弦波成分に分析する分析手段と、
    分析された前記正弦波成分に基づいて当該時間伸長対象音の状態を判定する状態判定手段と、
    前記状態判定手段において定常部と判定された前記伸長対象音の第1の所定区間に対応する前記正弦波成分から、前記第1の所定区間を構成する要素の変動傾向に対応した長区間平均情報を抽出する長区間平均情報抽出手段と、
    前記状態判定手段において定常部と判定された前記伸長対象音の前記第1の所定区間よりも短い第2の所定区間に対応する前記正弦波成分から、前記第2の所定区間を構成する要素の変動傾向に対応した短区間平均情報を抽出する短区間平均情報抽出手段と、
    前記状態判定手段において定常部と判定された前記伸長対象音の前記正弦波成分から前記短区間平均情報を控除したデータを微細情報として抽出する微細情報抽出手段と、
    前記状態判定手段において定常部と判定された前記伸長対象音の前記正弦波成分に対応する短区間平均情報から当該正弦波成分に対応する長区間平均情報を控除したデータをビブラート情報として抽出するビブラート情報抽出手段と、
    抽出した長区間平均情報、微細情報およびビブラート情報を所定の比率で合成して、時間伸長部分を補間した時間伸長音を生成する生成手段と
    を備えることを特徴とする音の時間伸長装置。
  2. 請求項1に記載の音の時間伸長装置において、前記所定の比率を制御する制御手段を備えることを特徴とする音の時間伸長装置。
  3. 請求項1に記載の音の時間伸長装置において、前記状態判定手段は、前記正弦波成分の変動量が所定値以下である場合に、前記時間伸長対象音が定常状態であると判定することを特徴とする音の時間伸長装置。
  4. 時間伸長対象音を、所定時間単位毎に周波数および振幅で示される正弦波成分に分析する分析段階と、
    分析された前記正弦波成分に基づいて当該時間伸長対象音の状態を判定する状態判定段階と、
    前記状態判定段階において定常部と判定された前記伸長対象音の第1の所定区間に対応する前記正弦波成分から、前記第1の所定区間を構成する要素の変動傾向に対応した長区間平均情報を抽出する長区間平均情報抽出段階と、
    前記状態判定段階において定常部と判定された前記伸長対象音の前記第1の所定区間よりも短い第2の所定区間に対応する前記正弦波成分から、前記第2の所定区間を構成する要素の変更傾向に対応した短区間平均情報を抽出する短区間平均情報抽出段階と、
    前記状態判定段階において定常部と判定された前記伸長対象音の前記正弦波成分から前記短区間平均情報を控除したデータを微細情報として抽出する微細情報抽出段階と、
    前記状態判定段階において定常部と判定された前記伸長対象音の前記正弦波成分に対応する短区間平均情報から当該正弦波成分に対応する長区間平均情報を控除したデータをビブラート情報として抽出するビブラート情報抽出段階と、
    抽出した長区間平均情報、微細情報およびビブラート情報を所定の比率で合成して、時間伸長部分を補間した時間伸長音を生成する生成段階と
    を備えることを特徴とする音の時間伸長方法。
  5. コンピュータに対して、時間伸長対象音を、所定の時間単位毎に周波数および振幅で示される正弦波成分に分析する分析段階と、
    分析された前記正弦波成分に基づいて当該時間伸長対象音の状態を判定する状態判定段階と、
    前記状態判定段階において定常部と判定された前記伸長対象音の第1の所定区間に対応する前記正弦波成分から、前記第1の所定区間を構成する要素の変動傾向に対応した長区間平均情報を抽出する長区間平均情報抽出段階と、
    前記状態判定段階において定常部と判定された前記伸長対象音の前記第1の所定区間よ りも短い第2の所定区間に対応する前記正弦波成分から、前記第2の所定区間を構成する要素の変更傾向に対応した短区間平均情報を抽出する短区間平均情報抽出段階と、
    前記状態判定段階において定常部と判定された前記伸長対象音の前記正弦波成分から前記短区間平均情報を控除したデータを微細情報として抽出する微細情報抽出段階と、
    前記状態判定段階において定常部と判定された前記伸長対象音の前記正弦波成分に対応する短区間平均情報から当該正弦波成分に対応する長区間平均情報を控除したデータをビブラート情報として抽出するビブラート情報抽出段階と、
    抽出した長区間平均情報、微細情報およびビブラート情報を所定の比率で合成して、時間伸長部分を補間した時間伸長音を生成する生成段階と
    を実行させることを特徴とする音の時間伸長プログラムを記録した記録媒体。
JP2000049966A 2000-02-25 2000-02-25 音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体 Expired - Fee Related JP3843199B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000049966A JP3843199B2 (ja) 2000-02-25 2000-02-25 音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000049966A JP3843199B2 (ja) 2000-02-25 2000-02-25 音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006139302A Division JP4361919B2 (ja) 2006-05-18 2006-05-18 カラオケ装置

Publications (2)

Publication Number Publication Date
JP2001242900A JP2001242900A (ja) 2001-09-07
JP3843199B2 true JP3843199B2 (ja) 2006-11-08

Family

ID=18571820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000049966A Expired - Fee Related JP3843199B2 (ja) 2000-02-25 2000-02-25 音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3843199B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4313724B2 (ja) * 2004-05-18 2009-08-12 日本電信電話株式会社 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
JP2008107706A (ja) * 2006-10-27 2008-05-08 Yamaha Corp 話速変換装置およびプログラム
WO2009025142A1 (ja) * 2007-08-22 2009-02-26 Nec Corporation 話者速度変換システムおよびその方法ならびに速度変換装置
JP6654404B2 (ja) * 2015-11-04 2020-02-26 Jeインターナショナル株式会社 音声補正方法、音声補正プログラム、音声補正装置および音声補正システム
JP7200483B2 (ja) * 2018-03-09 2023-01-10 ヤマハ株式会社 音声処理方法、音声処理装置およびプログラム
JP7106897B2 (ja) * 2018-03-09 2022-07-27 ヤマハ株式会社 音声処理方法、音声処理装置およびプログラム

Also Published As

Publication number Publication date
JP2001242900A (ja) 2001-09-07

Similar Documents

Publication Publication Date Title
US6316710B1 (en) Musical synthesizer capable of expressive phrasing
EP2264696B1 (en) Voice converter with extraction and modification of attribute data
JP4839891B2 (ja) 歌唱合成装置および歌唱合成プログラム
JP2012037722A (ja) 音合成用データ生成装置およびピッチ軌跡生成装置
JP4293712B2 (ja) オーディオ波形再生装置
JP2006030575A (ja) 音声合成装置およびプログラム
JP3843199B2 (ja) 音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体
JP7139628B2 (ja) 音処理方法および音処理装置
JP3278863B2 (ja) 音声合成装置
JP4361919B2 (ja) カラオケ装置
JPH11259066A (ja) 音楽音響信号分離方法、その装置およびそのプログラム記録媒体
JP3834804B2 (ja) 楽音合成装置および方法
JP2001100756A (ja) 波形編集方法
JP4433734B2 (ja) 音声分析合成装置、音声分析装置、及びプログラム
JP4963345B2 (ja) 音声合成方法及び音声合成プログラム
JP2000010565A (ja) 波形デ―タ生成方法、波形デ―タ生成プログラムを記録した記録媒体、波形デ―タ生成装置および波形デ―タを記録した記録媒体
WO2006043790A1 (en) Apparatus and method for reproducing midi file
JP3649398B2 (ja) 波形処理方法および装置
JP7106897B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP7200483B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP3733964B2 (ja) 分析結果を用いた音源波形合成装置
JP3731476B2 (ja) 波形データ解析方法、波形データ解析装置および記録媒体
JP2010002937A (ja) 音声分析合成装置、音声分析装置、音声合成装置、及びプログラム
JP3659121B2 (ja) 楽音信号の分析・合成方法、楽音信号合成方法、楽音信号合成装置および記録媒体
JP3829732B2 (ja) 波形生成装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060814

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100818

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100818

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110818

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120818

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130818

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees