JP4361919B2 - カラオケ装置 - Google Patents
カラオケ装置 Download PDFInfo
- Publication number
- JP4361919B2 JP4361919B2 JP2006139302A JP2006139302A JP4361919B2 JP 4361919 B2 JP4361919 B2 JP 4361919B2 JP 2006139302 A JP2006139302 A JP 2006139302A JP 2006139302 A JP2006139302 A JP 2006139302A JP 4361919 B2 JP4361919 B2 JP 4361919B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- sound
- component
- sine wave
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
ところで、ソプラノ歌手の歌声のテープを通常の回転速度よりも遅く再生すると、テノール歌手の歌声のような低い声で再生されることがよく知られている。これは、再生速度を遅くすることによって、各周波数成分が低い方向へ移動して基本周波数が低くなり、声道の共鳴特性を示すフォルマントも低域へ移動することによる現象である。
このように、音声信号全体を単に時間軸上で伸長すると、音声の特徴まで変換されてしまうので、基本周波数の高さを維持したまま時間伸長を行う技術が提案されている。
まず、図1を参照しながら本実施形態の概要について説明する。本実施形態では、時間伸長対象音である入力音声をSMS(Spectral Modeling Synthesis)分析して、音声の時間的変動を伴う特徴を抽出し、これを用いて時間的補間を行うことによって伸長音を合成する。なお、SMS分析については後に説明する。
そこで、本実施形態では、短区間平均を算出し、長区間平均および短区間平均に基づいて微細情報およびビブラート情報を生成する。具体的な生成手段については後に詳しく説明するが、微細情報については、音声波形の成分から短区間平均を控除した成分から生成し、ビブラート情報については、音声波形の成分から長区間平均および微細情報を控除した成分から生成する。
本実施形態では、所定時間単位で検出した振幅の変化量に基づいて状態を判定するものとする。具体的には、振幅の変動量が所定値以上であり、かつ収束している場合にはアタック部と判定し、変動量が所定値以下である場合には定常部であると判定し、変動量が再び所定値以上になった場合にはリリース部と判定する。
先に説明したように、時間伸長を行う部分については、定常部から抽出した特徴に基づいて補間を行うが、この補間区間は、定常部からリリース部へ移行する区間に挿入するものとする。これにより、定常部をなめらかに伸長して振幅やピッチが自然に連続された音声波形を生成することができる。
次に、上述した時間的変動によって示される特徴を抽出し、時間伸長を行うための具体的な構成について説明する。図3は、本実施形態の構成を示すブロック図である。なお、各ブロックに示す機能は、ハード的に構成してもよいし、ソフト的に構成してもよい。
本実施形態にかかる音声速度変換装置は、マイク1から入力された音声をSMS分析部2によってSMS分析し、これにより得られた正弦波成分および残差成分(後述する)を用いて合成した音声を出力するように構成されている。
そして音声を時間伸長する場合は、正弦波成分を用いて状態判定(上述したアタック部、定常部、リリース部)および音声の時間的変動を伴う特徴抽出を行うようになっている。
正弦波成分とは、基本周波数および基本周波数の倍数にあたる周波数(倍音)の成分をいう。本実施形態では、正弦波成分を、基本周波数を"Pitch"として保持し、各成分の平均振幅を"Ave"として保持し、周波数−振幅座標におけるスペクトル包絡を示す関数を"Ev"として保持する。これによって基本周波数および倍音成分を再現できるので、各成分毎に周波数および振幅の組を保持しなくてもよいからである。
残差成分とは、入力信号から正弦波成分を除いた成分であり、本実施形態では、図4に示すように周波数領域のデータとして保持する。
図5は、フレーム切り出しのイメージを示しており、本実施形態では、各フレームに対して切り出しの時系列による連番の符号(t0,t1,t2,t3……tn)を付している。
図5に示すようにして切り出された各フレーム毎の音声波形についてSMS分析部2から正弦波成分(上述した"Pitch"、"Ave"、"Ev"の組)が出力されるが、図3に示す構成においては、周波数・振幅検出部3においてこの正弦波成分から各フレームにおける各成分毎の周波数および振幅を検出し、これに基づいて状態判定および特徴抽出を行う。
また、本実施形態では複数フレーム分のデータを用いた処理を行うので、各フレーム記号を付して、図5に示すように(F0t0,A0t0)……(Fnt0,Ant0)をフレームt0のデータ組として表記している。
本実施形態では、元フレームデータのうちの連続した"s"フレーム分の区間を短区間として設定しており、各区間に属する元フレームデータに基づいて次式を実行して当該区間の平均化データを算出し、短区間平均フレームデータとする。
ここで、mは現時間におけるフレームであり、m=0、1、2……である。
ここで、mは現時間におけるフレームであり、m=0、1、2……である。
微細情報抽出部6は、元フレームデータから短区間平均フレームデータを控除したデータを微細情報として抽出し、微細情報バッファ8に記憶させるように構成されている。
一方、微細情報+ビブラート抽出部7は、元フレームデータから長区間平均フレームデータを控除したデータを微細情報+ビブラート情報として抽出し、さらに微細情報抽出部6で抽出した微細情報を控除したデータをビブラート情報として抽出し、ビブラートバッファ9に記憶させるように構成されている。
ところで、再合成バッファ10には長区間平均フレームデータが記憶されている。本実施形態では、再合成バッファ10に記憶されている長区間平均フレームデータとビブラートバッファ9に記憶されたフレームデータを加算し、さらに微細情報バッファ8に記憶されたフレームデータを加算したフレームデータを補間成分のフレームデータとして切換部11に供給する。このようにして切換部11に供給されるフレームデータは、図1を用いて概要説明した「特徴を平均化した成分」を周波数軸上で生成した周波数成分に相当する。なお、各バッファ(8〜10)の記憶容量は、ビブラート情報の1周期以上を保持でき、補間成分として用いるだけのフレーム数分を記憶できる大きさであればよい。
SMS分析部2からは、正弦波成分とともに上述した残差成分が出力されており、残差成分バッファ13に記憶されるように構成されている。切換部14は、残差成分バッファ13から出力すべきフレームデータの切り換えを行うものであり、時間伸長を行わない場合には、SMS分析部2から供給された残差成分を出力し、時間伸長を行う場合には、時間伸長開始より所定時間前の区間に相当するフレームの残差成分を繰り返し出力する。
そして、SMS合成部12は、伸長判定制御部15の制御に基づいて供給された周波数成分および残差成分を合成して逆高速フーリエ変換部16に供給し、逆高速フーリエ変換部16は、供給された周波数成分を逆高速フーリエ変換して新たな音声信号を生成して出力するように構成されている。
なお、図3に示した正弦波成分バッファ17は、リリース部に対応する入力正弦波成分のフレームデータを記憶しておくバッファであり、入力音声がリリース部である場合には入力正弦波成分のフレームデータを記憶し、入力音声がアタック部や定常部である場合には、入力正弦波成分のフレームデータを記憶せずにSMS合成部12に供給するようになっている。
次に、上記構成を備える本実施形態の動作について説明する。
図7は、伸長判定制御部15において行われる伸長判定制御をフローチャートとして示した図である。この図に示す処理は、伸長判定制御部15に元フレームデータが供給される毎に実行される。
伸長判定制御部15は、まず元フレームデータに基づいて上述した状態判定を行う(S1)。このステップS1の判定において入力音声がアタック部であると判定した場合は(S1;アタック部)、SMS分析部2から入力正弦波成分および残差成分をSMS合成部12に出力させる制御を行い(S2)、処理を初期判定に戻す。本実施形態では、定常部における特徴を補間部分に用いるので特徴抽出を行う必要がなく、定常部からリリース部に移行するタイミングにおいて時間伸長分の補間をするので、アタック部においては、正弦波成分を保持する必要がないからである。
補間成分の出力を開始すると、伸長時間が経過したか否かを判定する(S8)。伸長すべき時間は、例えば定常部の継続時間および全体として伸長すべき時間の比などに基づいて決定される。伸長判定制御部15は、伸長時間を経過していないと判定した場合は(S8;No)、処理をステップS7に戻して補間成分と残差成分の出力を続行し、伸長時間を経過したと判定した場合は(S8;Yes)、ステップ6から保持しておいたリリース部分の正弦波成分と残差成分をSMS合成部12に出力させ(S9)、処理を初期判定に戻す。
図8において、a)は、マイク1から入力された音声をSMS分析部2においてSMS分析することによって得られた正弦波成分および残差成分を時系列で示したもので、ここでは入力系列の正弦波成分をFAtnとして記載し、残差成分をRestnとして記載したものである。
b)は、それぞれ再合成バッファ10、微細情報バッファ8、およびビブラートバッファ9に記憶される、上述した算出に基づいて生成した長区間平均、微細情報、およびビブラート情報、すなわち抽出された特徴の周波数成分を時系列で示したもので、ここでは特徴系列Bltn、dptn、Dtnとして記載したものである。
そして、c)は、伸長判定制御部15の制御に基づいて時間伸長部分の補間が行われて逆高速フーリエ変換部16に供給される周波数成分を時系列で示したものであり、ここでは出力系列として記載したものである。
時刻t11以降は状態が定常部であると判定され、正弦波成分FAt11、FAt12、FAt13……から特徴として、長区間平均情報Blt11、Blt12、Blt13……、微細情報dpt11、dpt12、dpt13……、およびビブラート情報Dt11、Dt12、Dt13……がそれぞれ抽出され、それぞれ再合成バッファ10、微細情報バッファ8、ビブラートバッファ9に記憶される。
そして、伸長部分の補間成分の出力が終了してから、先に保持していた正弦波成分FAt21、FAt22、FAt23……および残差成分Rest21、Rest22、Rest23……を出力する。
このようにして出力された周波数成分は、逆高速フーリエ変換部16において音声波形に変換されて、図1に示したような時間伸長された波形として出力される。この時間伸長分は、時間伸長開始より所定時間前の定常部における特徴を平均化した成分に基づいて補間しているので、聴感上自然に時間伸長されるようになる。
本発明は、上述した実施形態に限定されるものではなく、以下に説明するような各種の変形が可能である。
通常、演奏データには、歌唱のメロディーラインを示すガイドメロディーデータが含まれており、本発明にかかる時間伸長をカラオケに適用した場合には、ガイドメロディーデータが示す歌唱時間と歌唱者が実際に歌唱した時間が一致することが望ましい。
そこで、図9に示す例では、ガイドメロディーデータを時間伸長装置に供給し、これに基づいて時間伸長を行うものとする。
このとき、ガイドメロディーがいまだ定常部であるにもかかわらず入力音声がリリース部に移行した場合は、入力音声を保持しておいて、ガイドメロディーがリリース部に移行するまで上記実施形態で説明した補間を行う。これにより、ガイドメロディーの状態に入力音声の状態を一致させるような時間伸長を行うことができる。
また、上記実施形態では、本発明にかかる音の時間伸長を行う装置について説明したが、これを演算装置や記憶装置を備えた汎用のコンピュータに対して上述した処理を実行させるプログラムによって実現してもかまわない。このような場合は、当該プログラムを記録した記録媒体からプログラムを読み込んで実行してもよいし、予めコンピュータにインストールしておいてもよい。
Claims (1)
- 外部の音声を収音する収音手段と、
前記収音手段で収音した音声信号を、所定時間単位毎に周波数および振幅で示される正弦波成分に分析する分析手段と、
分析された前記正弦波成分に基づいて当該音声信号の状態を判定する状態判定手段と、
ガイドメロディーデータを含む演奏データを記憶する記憶手段と、
前記演奏データに基づく楽音信号を生成する楽音生成手段と、
前記状態判定手段で前記音声信号が定常部から非定常部に切り替わったと判定された時点から前記ガイドメロディーデータにおける定常区間の終了時点の間を時間伸長区間として、前記音声信号に対して前記定常部の音声信号を用いて前記時間伸長区間を補間することによって時間伸長音を生成する時間伸長処理手段と、
前記楽音生成手段で生成された楽音信号と前記時間伸長処理手段で生成された時間伸長音を放音する音響再生手段と
を有するカラオケ装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006139302A JP4361919B2 (ja) | 2006-05-18 | 2006-05-18 | カラオケ装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006139302A JP4361919B2 (ja) | 2006-05-18 | 2006-05-18 | カラオケ装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000049966A Division JP3843199B2 (ja) | 2000-02-25 | 2000-02-25 | 音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006259766A JP2006259766A (ja) | 2006-09-28 |
JP4361919B2 true JP4361919B2 (ja) | 2009-11-11 |
Family
ID=37099006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006139302A Expired - Fee Related JP4361919B2 (ja) | 2006-05-18 | 2006-05-18 | カラオケ装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4361919B2 (ja) |
-
2006
- 2006-05-18 JP JP2006139302A patent/JP4361919B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006259766A (ja) | 2006-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2264696B1 (en) | Voice converter with extraction and modification of attribute data | |
US6316710B1 (en) | Musical synthesizer capable of expressive phrasing | |
JP5605066B2 (ja) | 音合成用データ生成装置およびプログラム | |
EP1688912B1 (en) | Voice synthesizer of multi sounds | |
JP2008250008A (ja) | 楽音処理装置およびプログラム | |
JP2001188544A (ja) | オーディオ波形再生装置 | |
JP7139628B2 (ja) | 音処理方法および音処理装置 | |
JP3843199B2 (ja) | 音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体 | |
CN113178183A (zh) | 音效处理方法、装置、存储介质和计算设备 | |
JP4361919B2 (ja) | カラオケ装置 | |
JPH11259066A (ja) | 音楽音響信号分離方法、その装置およびそのプログラム記録媒体 | |
JP4433734B2 (ja) | 音声分析合成装置、音声分析装置、及びプログラム | |
JP4963345B2 (ja) | 音声合成方法及び音声合成プログラム | |
JP2013015601A (ja) | 音源の識別装置および音源に連動する情報処理装置 | |
JP3649398B2 (ja) | 波形処理方法および装置 | |
WO2006043790A1 (en) | Apparatus and method for reproducing midi file | |
JP4513556B2 (ja) | 音声分析合成装置、及びプログラム | |
JP2005309464A (ja) | 雑音除去方法、雑音除去装置およびプログラム | |
JP3733964B2 (ja) | 分析結果を用いた音源波形合成装置 | |
JP5375869B2 (ja) | 楽曲再生装置、楽曲再生方法及びプログラム | |
JP7106897B2 (ja) | 音声処理方法、音声処理装置およびプログラム | |
JP7200483B2 (ja) | 音声処理方法、音声処理装置およびプログラム | |
JP2010002937A (ja) | 音声分析合成装置、音声分析装置、音声合成装置、及びプログラム | |
JP2012118234A (ja) | 信号処理装置,及びプログラム | |
JP3659121B2 (ja) | 楽音信号の分析・合成方法、楽音信号合成方法、楽音信号合成装置および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090407 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090710 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090811 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090813 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120821 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130821 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |