JP4361919B2

JP4361919B2 - カラオケ装置

Info

Publication number: JP4361919B2
Application number: JP2006139302A
Authority: JP
Inventors: 竜児中川; カノペドロ; セラザビエル
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-05-18
Filing date: 2006-05-18
Publication date: 2009-11-11
Anticipated expiration: 2020-02-25
Also published as: JP2006259766A

Description

この発明は、音声や楽音などを時間伸長する技術に関する。

従来より、音声や楽音などの速度変換が広く行われている。例えば、録音した音声の再生時間を所定の時間にあわせるために時間伸長して再生する場合など目的は様々である。
ところで、ソプラノ歌手の歌声のテープを通常の回転速度よりも遅く再生すると、テノール歌手の歌声のような低い声で再生されることがよく知られている。これは、再生速度を遅くすることによって、各周波数成分が低い方向へ移動して基本周波数が低くなり、声道の共鳴特性を示すフォルマントも低域へ移動することによる現象である。
このように、音声信号全体を単に時間軸上で伸長すると、音声の特徴まで変換されてしまうので、基本周波数の高さを維持したまま時間伸長を行う技術が提案されている。

例えば、図１１に示すように、ある区間のサンプリングデータをループさせる技術がある。図１１に示す例では、時間伸長を開始する前の数時間分の音声波形をループ区間としてサンプリングしておき、時間伸長を行う際にはループ区間でサンプリングデータを繰り返し再生することによって、時間伸長部分を補間している。これの技術によれば、伸長開始前の波形を用いて補間しているので、基本周波数の高さが変更されず、音色などの特徴も変更されずに時間伸長を行うことができるようになっている。

しかしながら、上述した時間伸長技術では、ある区間のサンプリングデータを単純にループさせているので、ループ切り返し前後の振幅やピッチが不連続になる場合があり、聴感的に不自然な音色になってしまうという不具合があった。

本発明は、上述した課題を解決するためになされたものであり、聴感的に自然な時間伸長を行うことができる技術を提供することを目的としている。

上述した課題を解決するために、本発明は、外部の音声を収音する収音手段と、前記収音手段で収音した音声信号を、所定時間単位毎に周波数および振幅で示される正弦波成分に分析する分析手段と、分析された前記正弦波成分に基づいて当該音声信号の状態を判定する状態判定手段と、ガイドメロディーデータを含む演奏データを記憶する記憶手段と、前記演奏データに基づく楽音信号を生成する楽音生成手段と、前記状態判定手段で前記音声信号が定常部から非定常部に切り替わったと判定された時点から前記ガイドメロディーデータにおける定常区間の終了時点の間を時間伸長区間として、前記音声信号に対して前記定常部の音声信号を用いて前記時間伸長区間を補間することによって時間伸長音を生成する時間伸長処理手段と、前記楽音生成手段で生成された楽音信号と前記時間伸長処理手段で生成された時間伸長音を放音する音響再生手段とを有することを特徴とする。

本発明によれば、聴感的に自然な時間伸長を行うことができるようになる。

以下、図面を参照しながら、本発明の実施の形態について説明する。

[１．実施形態の概要]
まず、図１を参照しながら本実施形態の概要について説明する。本実施形態では、時間伸長対象音である入力音声をＳＭＳ（Spectral Modeling Synthesis）分析して、音声の時間的変動を伴う特徴を抽出し、これを用いて時間的補間を行うことによって伸長音を合成する。なお、ＳＭＳ分析については後に説明する。

また、時間的変動によって示される特徴としては、音声を構成する音高や音量などといった要素の変動傾向に対応して歌唱の安定感を示す長区間平均情報、音高の周期に対応し歌唱のゆれを示すビブラート情報、および、構成要素の細かな変動に対応し歌唱者の個性を示す微細情報を用いる。このような時間的変動を伴う特徴（ゆらぎ）のうち、長区間情報は比較的長時間における変化傾向を示すが、微細情報は短時間における変化傾向である。また、ビブラート情報は、長区間における音高の周期を示すので、長区間および短区間のいずれの要素も含む変化傾向といえる。
そこで、本実施形態では、短区間平均を算出し、長区間平均および短区間平均に基づいて微細情報およびビブラート情報を生成する。具体的な生成手段については後に詳しく説明するが、微細情報については、音声波形の成分から短区間平均を控除した成分から生成し、ビブラート情報については、音声波形の成分から長区間平均および微細情報を控除した成分から生成する。

また、このような特徴を抽出する音声の区間としては、時間伸長開始より所定時間前の定常部から抽出する。時間伸長開始直前の音声の要素の時間的変動が比較的安定した定常部の特徴を用いることによって、より聴感上自然に時間伸長分の補間を行うなうことができる。

ここで、図２を参照しながら定常部について説明する。図２は、音声が発音されてから消音するまでの振幅のエンベロープを示したものであり、この図に示すように、音声の状態には、通常、アタック部・定常部・リリース部の３状態がある。
本実施形態では、所定時間単位で検出した振幅の変化量に基づいて状態を判定するものとする。具体的には、振幅の変動量が所定値以上であり、かつ収束している場合にはアタック部と判定し、変動量が所定値以下である場合には定常部であると判定し、変動量が再び所定値以上になった場合にはリリース部と判定する。
先に説明したように、時間伸長を行う部分については、定常部から抽出した特徴に基づいて補間を行うが、この補間区間は、定常部からリリース部へ移行する区間に挿入するものとする。これにより、定常部をなめらかに伸長して振幅やピッチが自然に連続された音声波形を生成することができる。

[２．実施形態の構成]
次に、上述した時間的変動によって示される特徴を抽出し、時間伸長を行うための具体的な構成について説明する。図３は、本実施形態の構成を示すブロック図である。なお、各ブロックに示す機能は、ハード的に構成してもよいし、ソフト的に構成してもよい。
本実施形態にかかる音声速度変換装置は、マイク１から入力された音声をＳＭＳ分析部２によってＳＭＳ分析し、これにより得られた正弦波成分および残差成分（後述する）を用いて合成した音声を出力するように構成されている。
そして音声を時間伸長する場合は、正弦波成分を用いて状態判定（上述したアタック部、定常部、リリース部）および音声の時間的変動を伴う特徴抽出を行うようになっている。

ここで、図４を参照しながらＳＭＳ分析について説明する。ＳＭＳ分析では、まず標本化された音声波形に窓関数を乗じた音声波形（フレーム）を切り出し、高速フーリエ変換（FFT）を行って得られる周波数スペクトルから、正弦波成分と残差成分とを抽出する。
正弦波成分とは、基本周波数および基本周波数の倍数にあたる周波数（倍音）の成分をいう。本実施形態では、正弦波成分を、基本周波数を"Ｐｉｔｃｈ"として保持し、各成分の平均振幅を"Ａｖｅ"として保持し、周波数−振幅座標におけるスペクトル包絡を示す関数を"Ｅｖ"として保持する。これによって基本周波数および倍音成分を再現できるので、各成分毎に周波数および振幅の組を保持しなくてもよいからである。
残差成分とは、入力信号から正弦波成分を除いた成分であり、本実施形態では、図４に示すように周波数領域のデータとして保持する。

このようなＳＭＳ分析を行うために、本実施形態では、例えば、ハミング窓のような分析窓を生成し、分析窓と音声波形とを掛け合わせて、音声波形をフレーム単位で切り出す。なお、前回のフレームで検出したピッチの周期の固定倍の周期あるいは予め設定した固定周期で分析窓を生成する。
図５は、フレーム切り出しのイメージを示しており、本実施形態では、各フレームに対して切り出しの時系列による連番の符号（ｔ０，ｔ１，ｔ２，ｔ３……ｔｎ）を付している。
図５に示すようにして切り出された各フレーム毎の音声波形についてＳＭＳ分析部２から正弦波成分（上述した"Ｐｉｔｃｈ"、"Ａｖｅ"、"Ｅｖ"の組）が出力されるが、図３に示す構成においては、周波数・振幅検出部３においてこの正弦波成分から各フレームにおける各成分毎の周波数および振幅を検出し、これに基づいて状態判定および特徴抽出を行う。

より具体的には、上述したように各フレーム毎の正弦波成分は、基本周波数、平均振幅およびスペクトラル包絡によって表されているので、まずこれらに基づいて、基本周波数および倍音成分の各周波数および振幅を検出し、当該フレームの各成分毎の周波数および振幅のデータ組として保持する。図５に示す例および実施形態の説明中では、基本周波数を"Ｆ０"と表記し、基本周波数成分の振幅を"Ａ０"と表記している。各倍音成分については、倍数を付して（"Ｆ１"、"Ａ１"）……（"Ｆｎ"、"Ａｎ"）と表記している。
また、本実施形態では複数フレーム分のデータを用いた処理を行うので、各フレーム記号を付して、図５に示すように（Ｆ０ｔ０，Ａ０ｔ０）……（Ｆｎｔ０，Ａｎｔ０）をフレームｔ０のデータ組として表記している。

本実施形態では、このように検出したフレーム毎の周波数および振幅を示すデータを用いて、後に詳しく説明する特徴抽出処理をフレーム単位で行う。ここで、検出されたデータ組については、元フレームデータというものとする。本実施形態では、元フレームデータに基づいて音声の特徴を抽出するために、実施形態の概要において説明した短区間平均および長区間平均を算出したデータを生成するように構成されている。具体的には、図３に示すように、周波数・振幅検出部３から出力された元フレームデータは、短区間平均化部４および長区間平均化部５に供給されるように構成されている。

ここで、図６を参照しながら、短区間平均化および長区間平均化の具体的手法について説明する。
本実施形態では、元フレームデータのうちの連続した"ｓ"フレーム分の区間を短区間として設定しており、各区間に属する元フレームデータに基づいて次式を実行して当該区間の平均化データを算出し、短区間平均フレームデータとする。

ここで、ｍは現時間におけるフレームであり、ｍ＝０、１、２……である。

また、連続した"ｌ"フレーム分の区間を長区間として設定しており、各区間に属する元フレームデータに基づいて次式を実行して当該区間の平均化データを算出し、長区間平均フレームデータとする。

本実施形態では、このようにして算出された短区間平均フレームデータは微細情報抽出部６に供給され、長区間平均フレームデータは、再合成バッファ１０および微細情報＋ビブラート抽出部７に供給される。
微細情報抽出部６は、元フレームデータから短区間平均フレームデータを控除したデータを微細情報として抽出し、微細情報バッファ８に記憶させるように構成されている。
一方、微細情報＋ビブラート抽出部７は、元フレームデータから長区間平均フレームデータを控除したデータを微細情報＋ビブラート情報として抽出し、さらに微細情報抽出部６で抽出した微細情報を控除したデータをビブラート情報として抽出し、ビブラートバッファ９に記憶させるように構成されている。
ところで、再合成バッファ１０には長区間平均フレームデータが記憶されている。本実施形態では、再合成バッファ１０に記憶されている長区間平均フレームデータとビブラートバッファ９に記憶されたフレームデータを加算し、さらに微細情報バッファ８に記憶されたフレームデータを加算したフレームデータを補間成分のフレームデータとして切換部１１に供給する。このようにして切換部１１に供給されるフレームデータは、図１を用いて概要説明した「特徴を平均化した成分」を周波数軸上で生成した周波数成分に相当する。なお、各バッファ（８〜１０）の記憶容量は、ビブラート情報の１周期以上を保持でき、補間成分として用いるだけのフレーム数分を記憶できる大きさであればよい。

切換部１１は、ＳＭＳ合成部１２に供給する周波数成分の切換を行うものであり、時間伸長を行わない場合には、ＳＭＳ分析部２から供給された正弦波成分をＳＭＳ合成部１２に供給し、時間伸長を行う場合には、上述した補間成分を繰り返しＳＭＳ合成部１２に供給する。
ＳＭＳ分析部２からは、正弦波成分とともに上述した残差成分が出力されており、残差成分バッファ１３に記憶されるように構成されている。切換部１４は、残差成分バッファ１３から出力すべきフレームデータの切り換えを行うものであり、時間伸長を行わない場合には、ＳＭＳ分析部２から供給された残差成分を出力し、時間伸長を行う場合には、時間伸長開始より所定時間前の区間に相当するフレームの残差成分を繰り返し出力する。

ところで、このような切換を制御しているのは伸長判定制御部１５であり、周波数・振幅検出部３から出力される元フレームデータに基づいて、図２を参照しながら概要説明した状態判定を行って、特徴抽出処理の開始および終了や、時間伸長の開始および終了タイミングを制御する。
そして、ＳＭＳ合成部１２は、伸長判定制御部１５の制御に基づいて供給された周波数成分および残差成分を合成して逆高速フーリエ変換部１６に供給し、逆高速フーリエ変換部１６は、供給された周波数成分を逆高速フーリエ変換して新たな音声信号を生成して出力するように構成されている。
なお、図３に示した正弦波成分バッファ１７は、リリース部に対応する入力正弦波成分のフレームデータを記憶しておくバッファであり、入力音声がリリース部である場合には入力正弦波成分のフレームデータを記憶し、入力音声がアタック部や定常部である場合には、入力正弦波成分のフレームデータを記憶せずにＳＭＳ合成部１２に供給するようになっている。

[３．実施形態の動作]
次に、上記構成を備える本実施形態の動作について説明する。
図７は、伸長判定制御部１５において行われる伸長判定制御をフローチャートとして示した図である。この図に示す処理は、伸長判定制御部１５に元フレームデータが供給される毎に実行される。
伸長判定制御部１５は、まず元フレームデータに基づいて上述した状態判定を行う（Ｓ１）。このステップＳ１の判定において入力音声がアタック部であると判定した場合は（Ｓ１；アタック部）、ＳＭＳ分析部２から入力正弦波成分および残差成分をＳＭＳ合成部１２に出力させる制御を行い（Ｓ２）、処理を初期判定に戻す。本実施形態では、定常部における特徴を補間部分に用いるので特徴抽出を行う必要がなく、定常部からリリース部に移行するタイミングにおいて時間伸長分の補間をするので、アタック部においては、正弦波成分を保持する必要がないからである。

これに対して、ステップＳ１の判定において入力音声が定常部であると判定した場合は（Ｓ１；定常部）、特徴抽出を行う必要があると判断できるので、上述したように短区間平均および長区間平均を算出する平均化処理を行う（Ｓ３）。そして、短区間平均および長区間平均に基づいて特徴を抽出する処理および、この区間に対応する残差成分を保持する処理を行う（Ｓ４）。しかしながら、まだ補間を行うタイミングには至っていないと判定できるので、ＳＭＳ分析部２から入力正弦波成分および残差成分をＳＭＳ合成部１２に出力させる制御を行い（Ｓ５）、処理を初期判定に戻す。

そして、ステップＳ１の判定において入力音声がリリース部であると判定した場合は（Ｓ１；リリース部）、補間を行うタイミングになったと判定できるので、ＳＭＳ分析部２から出力されるリリース部の正弦波成分および残差成分の保持を開始し（Ｓ６）、定常部において抽出しておいた特徴に基づいて生成した補間成分と残差成分バッファ１３に保持された残差成分をＳＭＳ合成部１２に出力する制御を行う（Ｓ７）。
補間成分の出力を開始すると、伸長時間が経過したか否かを判定する（Ｓ８）。伸長すべき時間は、例えば定常部の継続時間および全体として伸長すべき時間の比などに基づいて決定される。伸長判定制御部１５は、伸長時間を経過していないと判定した場合は（Ｓ８；Ｎｏ）、処理をステップＳ７に戻して補間成分と残差成分の出力を続行し、伸長時間を経過したと判定した場合は（Ｓ８；Ｙｅｓ）、ステップ６から保持しておいたリリース部分の正弦波成分と残差成分をＳＭＳ合成部１２に出力させ（Ｓ９）、処理を初期判定に戻す。

ここで、先に説明した制御に基づいて生成されるデータについて、図８を参照しながら、より具体的に説明する。
図８において、ａ）は、マイク１から入力された音声をＳＭＳ分析部２においてＳＭＳ分析することによって得られた正弦波成分および残差成分を時系列で示したもので、ここでは入力系列の正弦波成分をＦＡｔｎとして記載し、残差成分をＲｅｓｔｎとして記載したものである。
ｂ）は、それぞれ再合成バッファ１０、微細情報バッファ８、およびビブラートバッファ９に記憶される、上述した算出に基づいて生成した長区間平均、微細情報、およびビブラート情報、すなわち抽出された特徴の周波数成分を時系列で示したもので、ここでは特徴系列Ｂｌｔｎ、ｄｐｔｎ、Ｄｔｎとして記載したものである。
そして、ｃ）は、伸長判定制御部１５の制御に基づいて時間伸長部分の補間が行われて逆高速フーリエ変換部１６に供給される周波数成分を時系列で示したものであり、ここでは出力系列として記載したものである。

まず時刻ｔ１およびｔ２においては、状態がアタック部であると判定され、生成された正弦波成分ＦＡｔ１およびＦＡｔ２については特徴抽出が行われずに逆高速フーリエ変換部１６へ出力される。
時刻ｔ１１以降は状態が定常部であると判定され、正弦波成分ＦＡｔ１１、ＦＡｔ１２、ＦＡｔ１３……から特徴として、長区間平均情報Ｂｌｔ１１、Ｂｌｔ１２、Ｂｌｔ１３……、微細情報ｄｐｔ１１、ｄｐｔ１２、ｄｐｔ１３……、およびビブラート情報Ｄｔ１１、Ｄｔ１２、Ｄｔ１３……がそれぞれ抽出され、それぞれ再合成バッファ１０、微細情報バッファ８、ビブラートバッファ９に記憶される。

時刻ｔ２１以降は状態がリリース部であると判定され、伸長部分の補間が開始される。このとき正弦波成分ＦＡｔ２１、ＦＡｔ２２、ＦＡｔ２３……および、この区間に対応する残差成分Ｒｅｓｔ２１、Ｒｅｓｔ２２、Ｒｅｓｔ２３……は保持されて逆高速フーリエ変換部１６には出力されず、再合成バッファ１０、微細情報バッファ８、ビブラートバッファ９に最終的に記憶されたｔｅ分のフレームデータから生成した補間成分およびこの区間に対応する残差成分を伸長部分として出力する。図８では、時刻ｔ１３〜ｔ１３＋ｅ分のフレームデータが補間成分生成に用いられている。
そして、伸長部分の補間成分の出力が終了してから、先に保持していた正弦波成分ＦＡｔ２１、ＦＡｔ２２、ＦＡｔ２３……および残差成分Ｒｅｓｔ２１、Ｒｅｓｔ２２、Ｒｅｓｔ２３……を出力する。
このようにして出力された周波数成分は、逆高速フーリエ変換部１６において音声波形に変換されて、図１に示したような時間伸長された波形として出力される。この時間伸長分は、時間伸長開始より所定時間前の定常部における特徴を平均化した成分に基づいて補間しているので、聴感上自然に時間伸長されるようになる。

[４．変形例]
本発明は、上述した実施形態に限定されるものではなく、以下に説明するような各種の変形が可能である。

図９は、変形例の概要構成を示す図である。図９において時間伸長装置１００は上記実施形態において説明した装置であり、カラオケ装置２００はＭＩＤＩ（Musical Instrument Digital Interface）形式の演奏データに基づいて楽音を生成する周知の装置であり、アンプ・スピーカ３００は、時間伸長装置１００から出力される音声信号とカラオケ装置２００から出力される楽音信号を合成した上、増幅して出力するものである。
通常、演奏データには、歌唱のメロディーラインを示すガイドメロディーデータが含まれており、本発明にかかる時間伸長をカラオケに適用した場合には、ガイドメロディーデータが示す歌唱時間と歌唱者が実際に歌唱した時間が一致することが望ましい。
そこで、図９に示す例では、ガイドメロディーデータを時間伸長装置に供給し、これに基づいて時間伸長を行うものとする。

例えば、図１０に示すように、時間伸長装置１００に供給されるガイドメロディーデータのＯＮからＯＦＦまでの時間を定常部とし、ＯＦＦ以後をリリース部とする。歌唱者の入力音声の状態については、上記実施形態で説明したように判定を行い、ガイドメロディーの状態と比較する。
このとき、ガイドメロディーがいまだ定常部であるにもかかわらず入力音声がリリース部に移行した場合は、入力音声を保持しておいて、ガイドメロディーがリリース部に移行するまで上記実施形態で説明した補間を行う。これにより、ガイドメロディーの状態に入力音声の状態を一致させるような時間伸長を行うことができる。

なお、上述の説明においては、入力音声をリアルタイムで処理するように説明しているが、予め記録しておいた音声に対する時間伸長を行ってもかまわない。また、状態判定の手段についても、上述した説明のように振幅の変動に限らず、周波数の変動にもとづいて判定してもよい。上記例のように一旦周波数成分として分析されたデータに基づいて判定してもよいが、音声波形から判定してもかまわない。

音声の時間的変動を伴う特徴としては、上述の例に限らず他の特徴を求めてもよいし、複数の特徴を求める場合には、各特徴を示す成分の合成比率を制御できるようにしてもよい。あるいは、上記例で用いた特徴を他のパラメータで示してもかまわない。例えば、ビブラート情報であればレベルと周期をパラメータとしてもよい。また、特徴を抽出するための分析手段についても、上記実施形態で用いたＳＭＳ分析に限らず、所定時間単位毎に周波数および振幅で示されるパラメータを算出する他の分析方法を用いてもかまわないし、その他のパラメータを算出する分析方法を用いてもかまわない。

なお、上述の説明においては、音声を対象として説明しているが、楽音など他の種類の音を対象とした時間伸長を行ってもかまわないことはもちろんである。
また、上記実施形態では、本発明にかかる音の時間伸長を行う装置について説明したが、これを演算装置や記憶装置を備えた汎用のコンピュータに対して上述した処理を実行させるプログラムによって実現してもかまわない。このような場合は、当該プログラムを記録した記録媒体からプログラムを読み込んで実行してもよいし、予めコンピュータにインストールしておいてもよい。

本発明の概要を説明する図である。定常状態を説明する図である。実施形態の構成を示すブロック図である。ＳＭＳ分析を説明する図である。フレームの切り出しを説明する図である。平均化を説明する図である。実施形態の動作を説明するフローチャートである。時間伸長の具体例を示した図である。変形例の構成を示すブロック図である。変形例における時間伸長を説明する図である。従来の時間伸長技術を説明する図である。

符号の説明

１……マイク、２……ＳＭＳ分析部、３……周波数・振幅検出部、４……短区間平均化部、５……長区間平均化部、６……微細情報抽出部、７……微細情報・ビブラート抽出部、８……微細情報バッファ、９……ビブラートバッファ、１０……再合成バッファ、１１……切換部、１２……ＳＭＳ合成部、１３……残差成分バッファ、１４……切換部、１５……伸長検出制御部、１６……逆高速フーリエ変換部、１７……正弦波成分バッファ。

Claims

外部の音声を収音する収音手段と、
前記収音手段で収音した音声信号を、所定時間単位毎に周波数および振幅で示される正弦波成分に分析する分析手段と、
分析された前記正弦波成分に基づいて当該音声信号の状態を判定する状態判定手段と、
ガイドメロディーデータを含む演奏データを記憶する記憶手段と、
前記演奏データに基づく楽音信号を生成する楽音生成手段と、
前記状態判定手段で前記音声信号が定常部から非定常部に切り替わったと判定された時点から前記ガイドメロディーデータにおける定常区間の終了時点の間を時間伸長区間として、前記音声信号に対して前記定常部の音声信号を用いて前記時間伸長区間を補間することによって時間伸長音を生成する時間伸長処理手段と、
前記楽音生成手段で生成された楽音信号と前記時間伸長処理手段で生成された時間伸長音を放音する音響再生手段と
を有するカラオケ装置。