JP2001117599A - 音声処理装置およびカラオケ装置 - Google Patents
音声処理装置およびカラオケ装置Info
- Publication number
- JP2001117599A JP2001117599A JP30027399A JP30027399A JP2001117599A JP 2001117599 A JP2001117599 A JP 2001117599A JP 30027399 A JP30027399 A JP 30027399A JP 30027399 A JP30027399 A JP 30027399A JP 2001117599 A JP2001117599 A JP 2001117599A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- singing
- frame
- frequency
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
ピッチ補正を行うことができる音声処理装置およびこれ
を用いたカラオケ装置を提供する。 【解決手段】 このカラオケ装置は、複数の基準フレー
ム毎の基準ピッチを含むピッチ補正スコアを記憶したピ
ッチ補正スコア記憶部66と、歌唱者の歌唱位置に対応
した基準フレームを特定するアライメント処理部64
と、上記ピッチ補正スコアに含まれる基準ピッチのう
ち、アライメント処理部64によって特定される基準フ
レームの基準ピッチとなるように、歌唱音声のピッチを
補正するピッチ補正部68とを具備する。かかるカラオ
ケ装置によれば、歌唱者の歌唱位置に対応したフレーム
の基準ピッチを用いて歌唱音声を補正するため、例えば
歌唱者による歌唱位置が本来の歌唱位置とずれている場
合であっても自然なピッチ補正を行うことができる。
Description
(周波数)を補正するピッチ補正機能を備えた音声処理
装置およびこれを用いたカラオケ装置に関する。
唱すべき正しいピッチに補正するピッチ補正機能を備え
たカラオケ装置が各種提供されている。この種のカラオ
ケ装置として、例えば、歌唱者が歌唱すべきメロディを
構成する楽音のピッチを含むピッチ補正スコアを記憶し
た記憶部と、歌唱者の歌唱音声のピッチを上記ピッチ補
正スコアに従って正しいピッチに補正して出力するピッ
チ補正部を具備するものが知られている。
オケ装置におけるピッチ補正の方法を示す概念図であ
る。図18(a)に示すように、ピッチ補正スコアに
は、歌唱者が歌唱すべきメロディを構成する楽音のピッ
チ(基準ピッチ)が1曲分にわたって含まれている。図
18(a)に示す例では、時刻t1〜t2における基準
ピッチはf1であり、時刻t2〜t3における基準ピッ
チはf2であり、時刻t3〜t4における基準ピッチは
f3となっている。なお、以下に示す図18(b)およ
び(d)においては、図18(a)に示す基準ピッチを
破線で示している。
歌唱音声のピッチ補正が行われる。例えば、歌唱音声の
ピッチの時間的変化が図18(b)に示すものである場
合、すなわち、歌唱者が、時刻t1〜t2の間ピッチF
1で歌唱し、時刻t2〜t3の間ピッチF2で歌唱し、
時刻t3〜t4の間ピッチF3で歌唱した場合には、時
刻t1〜t2においては歌唱音声のピッチF1が基準ピ
ッチf1に補正され、時刻t2〜t3においては歌唱音
声のピッチF2が基準ピッチf2に補正され、時刻t3
〜t4においては歌唱音声のピッチF3が基準ピッチf
3に補正される、といった具合である。この結果、図1
8(c)に示すように、歌唱者の歌唱音声のピッチが、
本来歌唱すべき正しいピッチに補正されて出力されるこ
ととなる。
ピッチ補正方法では、歌唱者による歌唱タイミングが、
ピッチ補正スコアに記憶された基準ピッチの切換わりタ
イミングと一致している場合には自然なピッチ補正が行
われることとなる。しかしながら、図18(d)に示す
ように、歌唱者による歌唱タイミングが、ピッチ補正ス
コアに記憶された基準ピッチの切換わりタイミングと一
致しない場合には、以下に示す問題が生じる。
応する楽音を本来の楽音の長さ(時刻t1〜t2)より
も長く(時刻t1〜t2’)歌ってしまった場合の歌唱
音声のピッチの時間的な変化を表している。かかる場合
に上述した方法でピッチ補正を行うと、図18(e)に
示すように、時刻t2〜t2’は、歌唱者が歌詞「き」
を歌唱している区間であるにもかかわらず、歌唱音声の
ピッチは歌詞「の」に対応するピッチf2に補正されて
しまう。この結果、出力される音声が、不自然に補正さ
れた音声になってしまうという問題があった。
れたものであり、歌唱タイミングの如何にかかわらず、
自然なピッチ補正を行うことのできる音声処理装置、お
よびこれを用いたカラオケ装置を提供することを目的と
している。
ために、請求項1に記載の音声処理装置は、歌唱者の歌
唱音声を入力する入力手段と、楽曲を時間軸上で分割し
た複数の基準フレームの各々に対応付けられた基準周波
数を含む周波数補正スコアを記憶した記憶手段と、前記
入力手段から入力される歌唱音声を時間軸上で複数の歌
唱フレームに分割し、各歌唱フレームに対応した基準フ
レームを探索するアライメント手段と、前記記憶手段に
記憶された周波数補正スコアに含まれる基準周波数のう
ち、前記アライメント手段によって探索された基準フレ
ームの基準周波数を読み出し、読み出した基準周波数に
基づいて歌唱音声の周波数を補正する周波数補正手段と
を具備することを特徴としている。また、請求項2に記
載の音声処理装置は、請求項1に記載の構成において、
前記周波数補正スコアに含まれる基準周波数は、前記複
数の基準フレームの各々において歌唱者が歌唱すべき楽
音の周波数であることを特徴としている。また、請求項
3に記載の音声処理装置は、請求項1に記載の構成にお
いて、前記周波数補正スコアの各基準フレーム毎の基準
周波数は、複数の楽音の周波数を含み、前記周波数補正
手段は、前記アライメント手段によって探索された基準
フレームの基準周波数に含まれる複数の楽音の周波数の
うち、前記歌唱音声の周波数に最も近い周波数となるよ
うに、前記歌唱音声の周波数を補正することを特徴とし
ている。また、請求項4に記載の音声処理装置は、請求
項3に記載の構成において、前記複数の楽音は、コード
を構成する複数の楽音であることを特徴としている。ま
た、請求項5に記載の音声処理装置は、請求項3に記載
の構成において、前記複数の楽音は、スケールを構成す
る複数の楽音であることを特徴としている。請求項6に
記載の音声処理装置は、請求項1〜5のいずれか1の請
求項に記載の構成において、前記周波数補正手段による
補正後の歌唱音声に対して、音程または音量の微細変化
を付加する微細変化付加手段を具備することを特徴とし
ている。また、請求項7に記載の音声処理装置は、請求
項1〜6のいずれか1の請求項に記載の構成において、
前記アライメント手段は、歌唱音声の音素と楽曲の歌詞
に対応した音素とを対比することにより各歌唱フレーム
に対応した基準フレームを探索することを特徴としてい
る。請求項8に記載の音声処理装置は、請求項1〜7の
いずれか1の請求項に記載の構成において、前記アライ
メント手段は、楽曲の音素列を記憶する音素列記憶手段
と、歌唱音声の代表的なパラメータを特徴ベクトルとし
て所定数のシンボルにクラスタ化した符号帳と、各音素
毎に状態遷移確率および前記各シンボルの観測確率とを
記憶する音素情報記憶手段と、歌唱音声を前記歌唱フレ
ーム単位で特徴パラメータ分析し、前記音素情報記憶手
段に記憶された符号帳に基づいて前記歌唱音声の特徴パ
ラメータをシンボル量子化して前記歌唱音声の観測シン
ボルとする量子化手段と、前記音素情報記憶手段に記憶
された状態遷移確率および観測確率に基づいて、前記音
素列記憶手段に記憶された音素列の各状態を有限状態ネ
ットワーク上で隠れマルコフモデルによって形成する状
態形成手段と、前記量子化手段によって量子化された観
測シンボルと、前記状態形成手段によって形成された前
記隠れマルコフモデルに従って、1パスビタビアルゴリ
ズムによって状態遷移を決定する状態遷移決定手段と、
決定した前記歌唱音声の状態遷移に基づいて、各歌唱フ
レームに対応した基準フレームを探索する探索手段とを
具備することを特徴としている。
請求項1〜8のいずれか1の請求項に記載の音声処理装
置と、楽曲データに従って楽音信号を生成して出力する
音源と、前記楽音信号と前記音声処理装置から出力され
る補正後の歌唱音声とをミキシングして出力する出力手
段とを具備することを特徴としている。
実施形態について説明する。かかる実施の形態は、本発
明の一態様を示すものであり、この発明を限定するもの
ではなく、本発明の範囲内で任意に変更可能である。
楽曲を一定時間間隔毎に区切った複数のフレーム(以
下、「基準フレーム」という)単位で基準ピッチを記憶
している。そして、歌唱音声を上記基準フレームと同様
のフレーム(以下、「歌唱フレーム」という)単位で分
割し、各歌唱フレームに対応した基準フレームを探索す
るとともに、当該歌唱フレームにおける歌唱音声のピッ
チが、探索された基準フレームの基準ピッチとなるよう
に、歌唱音声のピッチを補正する機能を有している。こ
うすることにより、歌唱者の歌唱タイミングがずれてい
る場合であっても、歌唱音声を違和感なく補正すること
ができる。
全体構成を示すブロック図である。同図に示すように、
このカラオケ装置1は、マイク2、楽曲データ記憶部
3、シーケンサ4、音源5、ピッチ補正処理部6、ミキ
サ7およびスピーカ8により構成されている。
気信号(以下、「歌唱音声信号」という)に変換して出
力する。
のピッチをピッチ補正スコアに従って補正して出力する
手段であり、音声信号切出部61、分析窓生成部62、
FFT部63、アライメント処理部64、基準ピッチ読
出部65、ピッチ補正スコア記憶部66、SMS部6
7、ピッチ補正部68および逆FFT部69により構成
されている。
タ記憶部3に記憶された複数の楽曲データの各々に対応
したピッチ補正スコアを記憶している。このピッチ補正
スコアは、図2に例示するように、楽曲を時間軸上で区
切った複数の基準フレームのいずれかを特定するための
基準フレーム番号と、各基準フレームに対応付けられた
基準ピッチとから構成されている。基準ピッチは、歌唱
者が歌唱すべきメロディ(主旋律)を構成する楽音のピ
ッチである。
した歌唱フレームに対応した分析窓を音声信号切出部6
1に順次出力する。音声信号切出部61は、この分析窓
生成部62から出力された分析窓と、マイク2から供給
される歌唱音声信号とを掛け合わせてFFT部63に出
力する。すなわち、分析窓生成部62および音声信号切
出部61は、歌唱音声信号を歌唱フレーム単位で切り出
すための手段である。FFT部63は、音声信号切出部
61から出力される各歌唱フレーム毎の歌唱音声信号に
対してFFTを施し、この結果得られた周波数スペクト
ルをアライメント処理部64およびSMS部67に出力
する。
中のどの部分を歌っているのかを求めるための手段であ
る。具体的には、アライメント処理部64は、歌唱者の
歌唱位置とピッチ補正スコア内の基準フレームとの時間
的位置関係を判別し、歌唱者が歌っている部分が、ピッ
チ補正スコア内のどの基準フレームに対応するのかを表
す歌唱位置情報を生成するための処理を行う。すなわ
ち、歌唱者による歌唱位置が、本来の歌唱すべき位置と
ずれている場合であっても、歌唱者の歌唱位置にあたる
歌唱フレームが、基準フレームのうちのいずれの基準フ
レームに該当するのかを判別することができるようにな
っている。
ア内の基準フレームのうち、アライメント処理部64か
ら出力される歌唱位置情報によって指定されるフレーム
に対応付けられた基準ピッチを読み出してピッチ補正部
68に出力する。
信号に対してSMS分析を行う。ここで、SMS分析と
は、上記FFT部63から出力された周波数スペクトル
(図3(a))から、正弦波成分と残差成分とを抽出す
るための処理である。正弦波成分とは、図3(b)に示
すように、基本周波数(Pitch)および基本周波数の倍
数にあたる周波数(倍音)の成分をいう。SMS部67
は、FFT部63から順次供給される各歌唱フレーム毎
の周波数スペクトルから正弦波成分を抽出し、当該正弦
波成分の基本周波数Fiと、各成分の平均アンプリチュ
ードAiとを(F1、A1)、(F2、A2)、…、
(Fi、Ai)という具合に、各歌唱フレーム毎に組に
してピッチ補正部68に出力する。以下では、こうして
ピッチ補正部68に出力される基本周波数FiとAiの
組を正弦波成分情報と呼ぶ。一方、残差成分とは、図3
(c)に示すように、歌唱音声信号から正弦波成分を除
いた部分である。SMS部67は、周波数領域のデータ
であるこの残差成分を逆FFT部69に出力する。
力される正弦波成分情報のうちのピッチFiを、基準ピ
ッチ読出部65から供給される基準ピッチfjに置き換
えて新たな正弦波成分情報(fj、Ai)(以下、「補
正後正弦波成分情報」という)を生成して、逆FFT部
69に出力する。逆FFT部69は、ピッチ補正部68
から出力される補正後正弦波成分情報と、SMS部67
から出力される残差成分とを混合した後、逆FFTを施
して補正後音声信号を生成し、ミキサ7に出力する。
ータや時間データおよび歌詞データなどを含む複数の楽
曲データを記憶している。シーケンサ4は、歌唱者によ
って指定された楽曲データ中のMIDIデータを時間デ
ータに従って再生する。音源5は、シーケンサ4の出力
信号に従って伴奏音等の楽音信号を生成して出力する。
ミキサ7は、音源5から出力される楽音信号と、ピッチ
補正処理部6内の逆FFT部69から出力される補正後
音声信号とをミキシングして出力する。スピーカ8はミ
キサ7からの出力信号を音として出力する。
メント処理部64の詳細な構成について説明する。アラ
イメント処理部64は、特徴パラメータ分析部641、
シンボル量子化部642、音素辞書記憶部643、音素
列状態形成部644、状態遷移決定部645およびアラ
イメント部646により構成されている。
63の出力信号から歌唱音声のスペクトル特性を特徴づ
ける特徴パラメータを抽出し、シンボル量子化部642
に出力する。本実施形態においては、特徴パラメータと
して、メルケプストラム係数、差分メルケプストラム係
数、エネルギ、差分エネルギおよびボイスネス(有声音
尤度)の5種類のパラメータを用いる。
部643に記憶された符号帳を参照して、特徴パラメー
タ分析部641から供給される歌唱フレーム毎の特徴パ
ラメータに対して最大尤度を持つ特徴シンボルを選び出
し、状態遷移決定部645に出力する。
データおよび音素記述列が記憶されている。符号帳は、
図5に示すように、上述した特徴パラメータを特徴ベク
トルとして所定のシンボルにクラスタ化したものであ
る。すなわち、上記シンボル量子化部642は、この符
号帳を参照して、歌唱音声信号を各特徴ベクトル(メル
ケプストラム係数、差分メルケプストラム係数、エネル
ギ、差分エネルギおよびボイスネス)にベクトル量子化
するのである。
おいて用いる特徴ベクトルについて説明する。 メルケプストラム係数(bMEL) メルケプストラム係数は、音声のスペクトル特性を少な
い次数で表す係数であり、本実施形態では12次元ベク
トルとして128シンボルにクラスタ化されている。 差分メルケプストラム係数(bdeltaMEL) 差分メルケプストラム係数は、直前の歌唱フレームと現
在の歌唱フレームとのメルケプストラム係数の差分値を
表す係数であり、本実施形態では12次元ベクトルとし
て128シンボルにクラスタ化されている。 エネルギ(bENERGY) エネルギは、音声の強さを表す係数であり、本実施形態
では1次元ベクトルとして32シンボルにクラスタ化さ
れている。 差分エネルギ(bdeltaENERGY) 差分エネルギは、直前の歌唱フレームと現在の歌唱フレ
ームとのエネルギの差分値を表す係数であり、1次元ベ
クトルとして32シンボルにクラスタ化されている。 ボイスネス(bVOICENESS) ボイスネスは、有声音らしさを表す特徴ベクトルであ
り、ゼロクロス率およびピッチエラーで特徴づける2次
元ベクトルとして32シンボルにクラスタ化されてい
る。以上が本実施形態において用いる特徴ベクトルであ
る。
確率データについて説明する。本実施形態では、音声を
モデル化するためのサブワード単位としてPLU(疑似
音素単位)を用いる。具体的には、図6に示すように、
日本語を27の音素単位で扱うものとし、各音素には状
態数が対応付けられている。状態数とは、サブワード単
位の持続する最も短い基準フレーム数をいう。例えば音
素/a/の状態数は「3」であるので、音素/a/は少
なくとも3つの基準フレームにわたって続くことを意味
している。
状態・リリース状態を擬似的に表したものである。音素
/b/や/g/などの破裂音は、本来持つ音韻が短いの
で2状態に設定されており、息継ぎ(ASPIRATION)も2
状態に設定されている。そして、無音(Silence)は、
時間的変動がないので1状態に設定されている。確率デ
ータには、図7に示すように、サブワード単位で表され
る27の音素に対して、各状態の遷移確率と、各特徴ベ
クトルのシンボルに対する観測シンボル発生確率とが記
述されている。
に記憶された複数の楽曲の各々に対応して記憶されたも
のであり、図8に示すように、演奏対象となる楽曲の歌
詞に対応して音素を並べた音素列と、音素列を構成する
各音素に対応する基準フレーム(通常は、1の音素に対
して複数の基準フレームが対応している)の基準フレー
ム番号とにより構成されている。例えば、図8に示す例
においては、基準フレームFt1〜Ft3が音素/Si
lence/に対応しており、基準フレームFt4〜F
t9が音素/n/に対応しており、基準フレームFt1
0〜が音素/a/に対応している。
4は、音素辞書記憶部643に記憶された音素記述列に
基づいて隠れマルコフモデルによる音素列の形成を行
う。状態遷移決定部645は、シンボル量子化部642
から供給される歌唱フレーム単位の特徴シンボルを用い
て、後述する1パスビタビ(Viterbi)アルゴリズムに
従って歌唱音声の状態遷移を決定する。アライメント部
646は、状態遷移決定部645によって決定された状
態遷移に基づいて、歌唱音声の歌唱フレームに対応する
基準フレームの基準フレーム番号を探索し、当該基準フ
レーム番号を歌唱位置情報として基準ピッチ読出部65
に出力する。以上が本実施形態に係るカラオケ装置1の
構成である。
者が図示しない操作部に対して所定の操作を行うことに
より、楽曲の選択および選択された楽曲の演奏開始を指
示すると、シーケンサ4は当該楽曲に対応した楽曲デー
タ中のMIDIデータを時間データに従って音源5に出
力する。音源5は、このMIDIデータに従って伴奏音
等の楽音信号を生成し、ミキサ7に出力する。この楽音
信号は、ミキサ7を介してスピーカ8から音として出力
される。
出力される伴奏音にのって歌を歌い出す。これによりマ
イク2から歌唱音声信号が入力される。この歌唱音声信
号は、音声信号切出部61において歌唱フレーム毎に切
り出された後、FFT部63においてFFTを施され、
この結果得られた周波数スペクトルがアライメント処理
部64およびSMS部67に出力される。
位置に対応する基準フレームを特定する歌唱位置情報を
生成して出力する。アライメント処理部64による詳細
な動作は以下の通りである。まず、特徴パラメータ分析
部641は、FFT部63から歌唱フレーム単位で供給
される周波数スペクトルから特徴パラメータを抽出して
出力する。シンボル量子化部642は、音素辞書記憶部
643に記憶された符号帳に含まれる特徴ベクトルのう
ち、特徴パラメータ分析部641から供給される各特徴
パラメータに対して最大尤度を持つ特徴シンボルを各特
徴ベクトル毎に読み出し、選び出した特徴シンボルを状
態遷移決定部645に出力する。一方、音素列状態形成
部644は、音素辞書記憶部643に記憶された確率デ
ータに含まれる状態遷移確率と音素記述列とに基づい
て、隠れマルコフモデルによる音素の状態形成を行う。
デルについて説明する。なお、音声の状態は一方向へ遷
移するので、left to right型のモデルを用いるものと
する。時刻tにおいて、状態がiからjに遷移する確率
(状態遷移離散確率)をaijと表す。すなわち、図9に
示す例では、状態にとどまる確率をa11と表し、状態
から状態へ遷移する確率をa12と表している。
在し、各々に異なる観測シンボルがある、これをX=
{x1、x2、…、xT}と表す。そして、時刻tにおい
て状態がjであるときに特徴ベクトルのシンボルxtを
発生させる確率(観測シンボル離散確率)をbj(xt)
と表す。モデルλにおいて、時刻Tまでの状態系列をQ
={q1、q2、…、qT}とすると、観測シンボル系列
Xと状態系列Qとの同時発生確率は、次式で表せる。
ないという理由で、このようなモデルが隠れマルコフモ
デルと呼ばれている。本実施形態では、音素辞書記憶部
643に記憶された音素記述列に基づいて、図9に示す
ようなFNS(有限状態ネットワーク)を音素単位で形
成する。
態形成部644によって形成された隠れマルコフモデル
と、シンボル量子化部642から供給される歌唱フレー
ム単位の各特徴シンボルを用い、1パスビタビアルゴリ
ズムによって歌唱音声の状態遷移を決定する。すなわ
ち、歌唱音声の各歌唱フレームが、いずれの音素に対応
するのかを特定する。
て説明する。下記式におけるΨt(j)は、時刻tに対
応する歌唱フレームまでの観測を踏まえて算出した、1
つのパスを経由して得られる時刻tの歌唱フレームにお
けるベスト確率δt(i)を最大とする状態を選択す
る。すなわち、Ψt(j)に従って音素状態が遷移して
いく。初期演算としてδ1(i)=1とし、繰り返し演
算として
遷移確率であり、bj(Ot)は特徴ベクトルの時刻tに
おけるシンボル発生確率である。各観測シンボルは、歌
唱音声から抽出された特徴ベクトルであるから、歌唱者
の発声態様によって観測シンボルが異なり、遷移の態様
も異なるようになる。
て計算された確率を○または△で示している。ここで、
○>△である。例えば、時刻tm1から時刻tm3まで
の観測を踏まえ、状態“Silence”から状態“n
1”へのパスが形成される確率は、状態“Silenc
e”から状態“Silence”へのパスが形成される
確率よりも高く、時刻tm3におけるベスト確率とな
り、図中太矢印で示すように状態遷移を決定する。
ム(Fm1、Fm2、…)に対応する時刻(tm1、t
m2、…)毎に行う。この結果、図10(c)に例示す
るように、時刻tm3において状態“Silence”
から状態“n1”に遷移し、時刻tm5において状態
“n1”から状態“n2”に遷移し、時刻tm9におい
て状態“n3”から状態“a1”に遷移する、といった
具合に歌唱音声の状態遷移が決定される。これにより、
歌唱音声の各歌唱フレームが、いずれの音素に対応する
のかを特定することができる。
歌唱音声の各歌唱フレームがいずれの音素に対応するの
かが順次特定されるのに並行して、アライメント部64
6は、特定された音素に対応する基準フレームを特定す
る。すなわち、歌唱フレームと基準フレームの、対応す
る音素が同じフレーム同士を、各フレーム毎に時系列で
一致させる処理を行う。具体的には、以下の通りであ
る。
8に示した音素記述列である。すなわち、フレームFt
1〜Ft3が音素/Silence/に対応し、基準フ
レームFt4〜Ft9が音素/n/に対応し、基準フレ
ームFt10〜の基準フレームが音素/a/に対応して
いる。
音声の状態遷移が決定され、この結果、図10(c)に
示すように、歌唱音声の歌唱フレームFm1およびFm
2が音素/Silence/に対応し、歌唱フレームF
m3〜Fm10が音素/n/に対応し、歌唱フレームF
m11〜が音素/a/に対応していることが判明したも
のとする。
唱音声の各歌唱フレームと、基準フレームとを対応付け
る(アライメントする)ことができる。具体的には、以
下の通りである。
フレームとして、歌唱音声の歌唱フレームFm1と基準
フレームFt1とを対応付け、歌唱音声の歌唱フレーム
Fm2と基準フレームFt2とを対応付ける。
声が歌唱フレームFm2からFm3に切換わる際に、状
態“Silence”から状態“n1”に遷移している
ので、音素/n/に対応する歌唱フレームとしては、歌
唱フレームFm3が最初のフレームとなる。一方、音素
/n/に対応する基準フレームは、図10(e)に示す
音素記述列によれば基準フレームFt4からであるか
ら、歌唱音声の歌唱フレームFm3と、基準フレームF
t4とを対応付ける。
いては、新たな音素(図10(c)に示す例においては
音素/a/)に移行していないので、歌唱音声の歌唱フ
レームFm4と、基準フレームFt5とを対応付ける。
以後同様の処理を繰り返し、歌唱音声の歌唱フレームF
m5〜Fm7の各々と、基準フレームFt6〜Ft8の
各々とを順次対応付けていく。
各フレーム毎の対応付けに並行して、歌唱音声の各歌唱
フレームに対応付けられた基準フレームの基準フレーム
番号を検出し、この基準フレーム番号を歌唱位置情報と
して基準ピッチ読出部65に順次出力する。つまり、基
準位置情報は、現在の歌唱位置に対応する基準フレーム
を特定する情報となる。
す例では、歌唱音声の歌唱フレームFm3〜Fm10の
8フレームが音素/n/に対応しているのに対して、音
素/n/に対応する基準フレームはFt4〜Ft9であ
る。このように、ある音素を本来歌うべき時間よりも長
い間、歌唱者が当該音素を発声してしまう場合が生じ得
る。このため、1つの音素に対応する複数の基準フレー
ムのうちの最後の基準フレーム(以下、「ループフレー
ム」という)には、当該基準フレームを繰り返すべき
(ループすべき)旨を指示するループデータが記述され
ている。すなわち、アライメント部646は、上述した
歌唱フレームと基準フレームの対応付けを行うに際し、
上述したループフレームを歌唱フレームに対応付けたに
もかかわらず、次の歌唱フレームが他の音素に遷移して
いない場合には、当該ループフレームを以後の歌唱フレ
ームに対応付ける。すなわち、図10(d)に示す例に
おいては、歌唱フレームFm8にループフレームFt9
を対応付けたが、次の歌唱フレームFm9も音素/n/
に対応しているため、この歌唱フレームFm9以後の音
素/n/に対応する歌唱フレームに対しては、ループフ
レームFt9を順次対応付けるのである。
理部64から出力される歌唱位置情報を受け取ると、当
該歌唱位置情報によって特定される基準フレームに対応
付けられた基準ピッチfjをピッチ補正スコア記憶部6
6から読み出し、ピッチ補正部68に出力する。
供給される周波数スペクトルから正弦波成分および残差
成分を抽出し、正弦波成分の基本周波数Fiと平均アン
プリチュードAiとを組にして正弦波成分情報としてピ
ッチ補正部68に出力する。さらに、SMS部67は、
残差成分を逆FFT部69に出力する。
給される正弦波成分情報のうち、基本周波数Fiを基準
ピッチ読出部65から供給される基準ピッチfjに置き
換え、補正後正弦波成分情報(fj、Ai)として逆F
FT部69に出力する。この処理により、歌唱音声のピ
ッチが、歌唱者の歌唱位置に対応した基準フレームの基
準ピッチに補正されることとなる。逆FFT部69は、
この補正後正弦波成分情報が示す正弦波成分と、SMS
部67から供給される残差成分とを合成した後、逆FF
Tを施し、この結果得られた補正後音声信号をミキサ7
に出力する。
号と、逆FFT部69から供給される補正後音声信号と
をミキシングして出力する。この出力信号は、スピーカ
8によって音として出力される。
て、本実施形態におけるピッチ補正の具体例を説明す
る。図11(a)は、ピッチ補正スコアに含まれる基準
ピッチの時間的な変化を例示する図であり、図11
(b)は、歌唱音声のピッチの時間的な変化を例示する
図であり、図11(c)は、補正後音声信号のピッチの
時間的な変化を例示する図である。なお、図11(b)
においては、図11(a)に示した基準ピッチを破線で
示している。
〜t2までの各基準フレーム(歌詞「き」に対応)に
は、基準ピッチf1が、時刻t2〜t3までの各基準フ
レームには基準ピッチf2が、時刻t3〜t4までの各
基準フレームには基準ピッチf3が、それぞれ対応付け
られている。
唱者は、歌詞「き」を時刻t1〜t2’の間、ピッチF
1で歌唱し、歌詞「の」を時刻t2’〜t3の間、ピッ
チF2で歌唱し、歌詞「う」を時刻t3〜t4の間、ピ
ッチF3で歌唱したものとする。つまり、歌唱者は、歌
詞「き」に対応する楽音を、本来歌唱すべき時間よりも
長い時間歌唱している。
唱者が歌詞「き」を歌唱した区間である時刻t1〜t
2’の間は、歌唱音声のピッチはf1に補正され、歌唱
者が歌詞「の」を歌唱した区間である時刻t2’〜t3
の間は、歌唱音声のピッチはf2に補正され、歌唱者が
歌詞「う」を歌唱した区間である時刻t3〜t4の間
は、歌唱音声のピッチはf3に補正されることとなる。
の歌唱位置に対応した基準フレームの基準ピッチを用い
て歌唱音声を補正するため、例えば歌唱者による歌唱位
置が本来の歌唱位置とずれている場合、すなわち、歌唱
タイミングがずれている場合であっても、かかる歌唱タ
イミングのずれの影響を受けることなく、自然なピッチ
補正を行うことができる。
て説明する。なお、本実施形態に係るカラオケ装置は、
上記第1実施形態に係るカラオケ装置1の構成と比較し
て、ピッチ補正スコアの内容と、基準ピッチ読出部65
およびピッチ補正部68の動作のみが異なる。従って、
上記第1実施形態に係るカラオケ装置1の各部と共通す
る部分についてはその説明を省略する。
おいては、ピッチ補正スコア内の各基準フレーム毎に、
歌唱者が歌唱すべきメロディを構成する楽音のピッチた
る基準ピッチを含ませるようにした。これに対し、本実
施形態においては、ピッチ補正スコア内には、各基準フ
レーム毎にコード(和音)を構成する複数の楽音のピッ
チ(以下、「基準ピッチ群」という)が含まれている。
スコアの構成を例示する図である。同図に示すように、
本実施形態におけるピッチ補正スコアは、基準フレーム
番号と、各基準フレームに対応付けられた基準ピッチ群
とから構成されている。この基準ピッチ群は、コードを
構成する複数の楽音のピッチの集合である。すなわち、
図12に示す例では、基準フレームFt1には、コード
「C」が対応付けられており、このコード「C」を構成
する楽音、「ド(…、C3、C4、…)」、「ミ(…、
E3、E4、…)」および「ソ(…、G3、G4、
…)」の各々のピッチが基準ピッチ群{…、fC3、f
E3、fG3、fC4、fE4、fG4、…}として記
憶されている。
う基準ピッチ読出部65およびピッチ補正部68の動作
について説明する。ピッチ補正処理部6内の基準ピッチ
読出部65は、ピッチ補正スコア内の基準フレームのう
ち、アライメント処理部64から供給される歌唱位置情
報によって特定される基準フレームに対応付けられた基
準ピッチ群を読み出してピッチ補正部68に出力する。
例えば、歌唱位置情報によって図12における基準フレ
ームFt1が指定される場合には、当該基準フレームF
t1に対応付けられた基準ピッチ群{…、fC3、fE
3、fG3、fC4、fE4、fG4、…}を読み出し
てピッチ補正部68に出力する。
5から出力される基準ピッチ群に含まれる各楽音のピッ
チのうち、SMS部67から供給される正弦波成分情報
(Fi、Ai)のピッチFiと最も近いピッチを選択す
る。そして、正弦波成分情報内の周波数Fiを、選択し
たピッチに置き換えて補正後正弦波情報として逆FFT
部69に出力する。例えば、上述したコード「C」に対
応する基準ピッチ群{…、fC3、fE3、fG3、f
C4、fE4、fG4、…}が基準ピッチ読出部65か
ら供給され、この基準ピッチ群に含まれるピッチのう
ち、SMS部67から供給される正弦波成分情報のピッ
チFiに最も近いピッチが「fE4」であったとする
と、ピッチ補正部68は、正弦波成分情報のピッチFi
を当該ピッチfE4に置き換え、この結果得られた補正
後正弦波成分情報(fE4、Ai)を逆FFT部69に
出力する。以後の動作は上記第1実施形態における動作
と同様である。
て、本実施形態におけるピッチ補正の具体例を説明す
る。図13(a)は、ピッチ補正スコアに記憶された基
準ピッチ群の時間的な変化を例示する図であり、図13
(b)は歌唱音声のピッチの時間的な変化を例示する図
であり、図13(c)は補正後音声信号のピッチの時間
的な変化を例示する図である。なお、図13(b)およ
び(c)においては、図13(a)に示した基準ピッチ
群を破線で示している。
2までの各基準フレーム(歌詞「き」に対応)には、コ
ード「C」に対応する基準ピッチ群{…、fC3、fE
3、fG3、fC4、…}が対応付けられており、時刻
t2〜t3までの各基準フレーム(歌詞「の」に対応)
には、コード「F」に対応する基準ピッチ群{…、fC
3、fF3、fA3、fC4、…}が対応付けられてい
る。
唱者は、歌詞「き」を時刻t1〜t2’の間、ピッチF
1で歌唱し、歌詞「の」を時刻t2’〜t3の間、ピッ
チF2で歌唱し、歌詞「う」を時刻t3〜t4の間、ピ
ッチF3で歌唱したものとする。ここで、ピッチF1
は、コード「C」の基準ピッチ群のうちのピッチfG3
に最も近く、ピッチF2は、コード「F」の基準ピッチ
群のうちのピッチfC4に最も近く、ピッチF3は、コ
ード「C」の基準ピッチ群のうちのピッチfE3に最も
近いものとする。
唱者が歌詞「き」を歌唱した区間である時刻t1〜t
2’の間は、歌唱音声のピッチは、fG3に補正され、
歌唱者が歌詞「の」を歌唱した区間である時刻t2’〜
t3の間は、歌唱音声のピッチはfC4に補正され、歌
唱者が歌詞「う」を歌唱した区間である時刻t3〜t4
の間は、歌唱音声のピッチはfE3に補正されることと
なる。
ピッチと同じ音階の楽音であるが、1オクターブ高い楽
音で歌唱した場合、音階としては本来歌唱すべき音階を
歌唱しているにもかかわらず、強制的に1オクターブ低
い楽音に補正されてしまうこととなる。すなわち、歌唱
者の歌唱音声と著しく異なるピッチに補正されることも
あり得るため、出力される音声が不自然になってしまう
ことも考えられる。これに対し、本実施形態によれば、
歌唱者が本来歌唱すべきピッチと著しく異なるピッチで
歌唱した場合であっても、当該歌唱音声と比較的近いピ
ッチの音声に補正することができるという利点がある。
すなわち、歌唱者の歌唱音声を、歌唱音声のピッチを反
映した音声に補正することができるのである。
異なるピッチで歌唱した場合であっても、本来歌唱すべ
き楽音とコード(和音)を構成する楽音に補正されるた
め、補正後の音声が、本来歌唱すべきピッチの音声と比
較して、それほど不自然に聞こえることがない。
以下のように構成してもよい。すなわち、例えば、複数
のマイクを当該カラオケ装置に接続し、そのうちのいず
れかのマイク(以下、「ピッチ補正マイク」という)か
ら供給される歌唱音声信号をピッチ補正処理部6に供給
する一方、その他のマイクから供給される歌唱音声信号
をピッチ補正処理部6を介することなく直接ミキサ7に
供給するようにしてもよい。そして、ミキサ7におい
て、ピッチ補正マイクから出力される補正後音声信号
と、その他のマイクから直接供給される歌唱音声信号
と、音源5から供給される楽音信号とをミキシングして
スピーカ8から出力するようにしてもよい。こうすれ
ば、ピッチ補正マイクを使った歌唱者の歌唱音声は、当
該歌唱者が適当に歌った場合であっても、本来歌唱すべ
き楽音と和音を構成するピッチの音声に補正されるか
ら、ピッチ補正マイク以外のマイクを使った歌唱者の歌
唱音声(本来歌唱すべきピッチの音声)と、違和感な
く、かつ容易にハーモニーを形成することができる。
て説明する。なお、本実施形態に係るカラオケ装置は、
上記第1実施形態に係るカラオケ装置1の構成と比較し
て、ピッチ補正スコアの内容と、基準ピッチ読出部65
およびピッチ補正部68の動作のみが異なる。従って、
上記第1実施形態に係るカラオケ装置1の各部と共通す
る部分についてはその説明を省略する。
いては、ピッチ補正スコア内の基準ピッチは歌唱者が歌
唱すべきメロディを構成する楽音のピッチであり、歌唱
音声のピッチがこの基準ピッチに補正されるようにし
た。これに対し、本実施形態においては、ピッチ補正ス
コア内の基準ピッチが特定のスケールを構成する複数の
楽音のピッチ(以下、「基準ピッチ群」という)を含ん
でいる。
スコアの構成を例示する図である。同図に示すように、
本実施形態におけるピッチ補正スコアは、基準フレーム
番号と、各基準フレームに対応付けられた基準ピッチ群
とから構成されている。本実施形態においては、この基
準ピッチ群は、スケールを構成する複数の楽音のピッチ
の集合である。すなわち、図14に示す例では、基準フ
レームFt1にはスケール「C」が対応付けられてお
り、このスケール「C」を構成する楽音「ド(…、C
3、C4、…)」、「レ(…、D3、D4、…)」、
「ミ(…、E3、E4、…)」、…、「シ(…、B3、
B4、…)」の各々のピッチが基準ピッチ群{…、fC
3、fD3、fE3、…、fB3、fC4、fD4、
…}として記憶されている。
う基準ピッチ読出部65およびピッチ補正部68の動作
について説明する。ピッチ補正処理部6内の基準ピッチ
読出部65は、ピッチ補正スコア内の基準フレームのう
ち、アライメント処理部64から供給される歌唱位置情
報によって特定される基準フレームに対応付けられた基
準ピッチ群を読み出してピッチ補正部68に出力する。
例えば、歌唱位置情報によって図14における基準フレ
ームFt1が指定される場合には、当該基準フレームF
t1に対応付けられた基準ピッチ群{…、fC3、fD
3、fE3、…、fB3、fC4、fD4、…}を読み
出してピッチ補正部68に出力する。
5から出力される基準ピッチ群に含まれる各楽音のピッ
チのうち、SMS部67から供給される正弦波成分情報
(Fi、Ai)のピッチFiと最も近いピッチを選択す
る。そして、正弦波成分情報内のピッチFiを、選択し
たピッチに置き換えて補正後正弦波情報として逆FFT
部69に出力する。例えば、上述したスケール「C」に
対応する基準ピッチ群{…、fC3、fD3、fE3、
…、fB3、fC4、fD4、…}が基準ピッチ読出部
65から供給され、この基準ピッチ群に含まれるピッチ
のうち、SMS部67から供給される正弦波成分情報の
ピッチFiに最も近いピッチが「fG3」であったとす
ると、ピッチ補正部68は、正弦波成分情報のピッチF
iを当該ピッチfG3に置き換え、この結果得られた補
正後正弦波成分情報(fG3、Ai)を逆FFT部69
に出力する。以後の動作は上記第1実施形態における動
作と同様である。
て、本実施形態におけるピッチ補正の具体例を説明す
る。図15(a)は、ピッチ補正スコアに記憶された基
準ピッチ群の時間的な変化を例示する図であり、図15
(b)は歌唱音声のピッチの時間的な変化を例示する図
であり、図15(c)は補正後音声信号のピッチの時間
的な変化を例示する図である。なお、図15(b)およ
び(c)においては、図15(a)に示す基準ピッチ群
を破線で示している。
2までの各基準フレーム(歌詞「き」に対応)には、ス
ケール「C」を構成する楽音のピッチの集合である基準
ピッチ群{…、fC3、fD3、fE3、fF3、fG
3、fA3、fB3、fC4、…}が対応付けられてお
り、時刻t2〜t3までの各基準フレーム(歌詞「の」
に対応)には、スケール「A」を構成する楽音のピッチ
の集合である基準ピッチ群{…、fA3、fB3、fC
#4、fD4、fE4、fF#4、fG#4、fA4、
…}が対応付けられている。
唱者は、歌詞「き」を時刻t1〜t2’の間、ピッチF
1で歌唱し、歌詞「の」を時刻t2’〜t3の間、ピッ
チF2で歌唱し、歌詞「う」を時刻t3〜t4の間、ピ
ッチF3で歌唱したものとする。ここで、ピッチF1
は、スケール「C」の基準ピッチ群のうちのピッチfG
3に最も近く、ピッチF2は、スケール「A」の基準ピ
ッチ群のうちのピッチfB4に最も近く、ピッチF3
は、スケール「C」の基準ピッチ群のうちのピッチfD
3に最も近いものとする。
唱者が歌詞「き」を歌唱した区間である時刻t1〜t
2’の間は、歌唱音声のピッチは、fG3に補正され、
歌唱者が歌詞「の」を歌唱した区間である時刻t2’〜
t3の間は、歌唱音声のピッチはfB4に補正され、歌
唱者が歌詞「う」を歌唱した区間である時刻t3〜t4
の間は、歌唱音声のピッチはfD3に補正されることと
なる。本実施形態においても、上記第2実施形態と同様
の効果が得られる。
施形態はあくまでも例示であり、上記実施形態に対して
は、本発明の趣旨から逸脱しない範囲で様々な変形を加
えることができる。変形例としては、例えば以下のよう
なものが考えられる。
は、歌唱すべきメロディを構成する楽音のピッチを基準
ピッチとしたが、基準ピッチの態様はこれに限られるも
のではない。例えば、演奏対象となる楽曲の歌手の歌唱
音声(以下、「基準歌唱音声」という)に基づいてピッ
チ補正スコアを作成するようにしてもよい。具体的に
は、以下の通りである。まず、楽曲の歌手の基準歌唱音
声を複数の基準フレーム毎に区切り、各基準フレーム毎
に当該歌唱音声の基本周波数を求める。そして、この基
準歌唱音声の基本周波数を基準ピッチとして各基準フレ
ームに対応付けたピッチ補正スコアを作成するのであ
る。上記第1実施形態に示したように、歌唱者が歌唱す
べきメロディのピッチを基準ピッチとした場合には、補
正後の歌唱音声が単調になってしまうことも考えられる
が、本変形例のように、歌唱者の歌唱音声を基準歌唱音
声のピッチに補正するようにすれば、このようなことが
なくなる。
任意に作成できるようにしてもよい。すなわち、例え
ば、ピッチ補正スコア内の各基準フレームに対応付けら
れる基準ピッチまたは基準ピッチ群を、ユーザが任意に
設定できるようにしてもよい。また、上記各実施形態に
おいて示したピッチ補正スコアを、ユーザが任意に変更
できるようにしてもよい。
形例1または2で示した各ピッチ補正スコアのうちのい
ずれかを、ユーザが任意に選択できるようにしてもよ
い。すなわち、 歌唱者が歌唱すべきメロディのピッチを基準ピッチと
して用いたピッチ補正スコア(第1実施形態) 楽曲中のコードを構成する楽音のピッチを基準ピッチ
群として用いたピッチ補正スコア(第2実施形態) 楽曲中のスケールを構成する楽音のピッチを基準ピッ
チ群として用いたピッチ補正スコア(第3実施形態) 楽曲の歌手の歌唱音声に基づいて作成されたピッチ補
正スコア(変形例1) ユーザが任意に作成したピッチ補正スコア(変形例
2) の各々をピッチ補正スコア記憶部66に記憶しておき、
ユーザが操作部に対して所定の操作を行うことにより、
これらのピッチ補正スコアのうちのいずれかを選択でき
るようにしてもよい。この場合、ピッチ補正処理部6内
の基準ピッチ読出部65は、ユーザによって選択された
ピッチ補正スコアから基準ピッチ(群)を読み出してピ
ッチ補正部68に出力するようにすればよい。こうする
ことにより、歌唱者の好みに合ったピッチ補正を行うこ
とができるという利点がある。なお、上記ピッチ補正ス
コアの選択は、楽曲の演奏に先立って行うようにしても
よいし、楽曲の演奏中に行うようにしてもよい。
歌唱音声のピッチをピッチ補正スコアに従って補正する
ようにしたが、これに加え、補正後の歌唱音声に対して
音程および音量の微細変化を付加するようにしてもよ
い。本変形例は、以下のようにして実現することができ
る。
1’の構成を示すブロック図である。同図に示すよう
に、本変形例に係るカラオケ装置1’は、前掲図1に示
したカラオケ装置1における逆FFT部69とミキサ7
との間に微細変化付加部70を介挿した構成となってい
る。それ以外の各部は、上記第1実施形態におけるカラ
オケ装置1と同様であるから、その説明を省略する。
歌唱音声に付加すべき音程または音量の微細変化を指定
するための音程微細変化情報および音量微細変化情報が
含まれている。この音程微細変化情報および音量微細変
化情報は、例えば、音程または音量の微細変化の周波数
と振幅とを含む情報である。ここで、音程または音量の
微細変化の1周期は、基準フレームの長さよりも十分大
きいため、複数の基準フレームにわたって同じ音程微細
変化情報および音量微細変化情報が対応付けられてい
る。基準ピッチ読出部65は、アライメント処理部64
から供給される歌唱位置情報によって特定される基準フ
レームの基準ピッチを読み出してピッチ補正部68に出
力するとともに、当該基準フレームに対応付けられた音
程微細変化情報および音量微細変化情報を読み出して微
細変化付加部70に出力する。そして、微細変化付加部
70は、逆FFT部69から供給される補正後音声信号
に対し、音程微細変化情報によって指定される音程の微
細変化、および音量微細変化情報によって指定される音
量の微細変化を付加してミキサ7に出力する。
部70から出力される音声信号の音程の様子を示す図で
ある。なお、図17においては、前掲図11(c)に示
した補正後音声信号が逆FFT部69から出力されたも
のとし、微細変化付加部70が、この補正後音声信号に
対して、音程微細変化情報に従った音程の微細変化を付
した場合の出力信号を模式的に例示している。なお、図
17においては、逆FFT部69からの出力信号を破線
で示している。また、図17においては、音声信号に対
して付加した音程の微細変化のみを示したが、音量につ
いても同様の微細変化が付加される。
定のピッチに補正されるため、出力される音声が単調に
(機械的に)なってしまうことも考えられるが、本変形
例によれば、音程または音量の微細変化を付した音声が
出力されるので、このようなことがなくなる。
歌唱者の歌唱位置に対応した基準フレームの基準ピッチ
を用いて歌唱音声を補正するため、例えば歌唱者による
歌唱位置が本来の歌唱位置とずれている場合であって
も、かかる歌唱タイミングのずれの影響を受けることな
く、自然なピッチ補正を行うことができる。
全体構成を示すブロック図である。
構成を例示する図である。
説明するための図である。
の構成を示すブロック図である。
する図である。
いて説明するための図である。
説明するための図である。
る図である。
図である。
体例を示す図である。
を例示する図である。
におけるピッチ補正スコアの構成を例示する図である。
を例示する図である。
におけるピッチ補正スコアの構成を例示する図である。
を例示する図である。
構成を示すブロック図である。
出力信号を例示する図である。
様子を例示する図である。
段)、3……楽曲データ記憶部、4……シーケンサ、5
……音源、6……ピッチ補正処理部(音声処理装置)、
61……音声信号切出部、62……分析窓生成部、63
……FFT部、64……アライメント処理部(アライメ
ント手段)、641……特徴パラメータ分析部(量子化
手段)、642……シンボル量子化部(量子化手段)、
643……音素辞書記憶部(音素列記憶手段、音素情報
記憶手段)、644……音素列状態形成部(状態形成手
段)、645……状態遷移決定部(状態遷移決定手
段)、646……アライメント部(探索手段)、65…
…基準ピッチ読出部(周波数補正手段)、66……ピッ
チ補正スコア記憶部(記憶手段)、67……SMS部、
68……ピッチ補正部(周波数補正手段)、69……逆
FFT部、70……微細変化付加部(微細変化付加手
段)、7……ミキサ、8……スピーカ。
て説明する。下記式におけるΨt(j)は、時刻tに対
応する歌唱フレームまでの観測を踏まえて算出した、1
つのパスを経由して得られる時刻tの歌唱フレームにお
けるベスト確率δt(j)を最大とする状態を選択す
る。すなわち、Ψt(j)に従って音素状態が遷移して
いく。初期演算としてδ1(i)=1とし、繰り返し演
算として
遷移確率であり、Nは歌唱する曲の音韻数によって決ま
る状態i、jのとりうる最大の状態数である。また、b
j(Ot)は特徴ベクトルの時刻tにおけるシンボル発生
確率である。各観測シンボルは、歌唱音声から抽出され
た特徴ベクトルであるから、歌唱者の発声態様によって
観測シンボルが異なり、遷移の態様も異なるようにな
る。
Claims (9)
- 【請求項1】 歌唱者の歌唱音声を入力する入力手段
と、 楽曲を時間軸上で分割した複数の基準フレームの各々に
対応付けられた基準周波数を含む周波数補正スコアを記
憶した記憶手段と、 前記入力手段から入力される歌唱音声を歌唱フレームに
順次分割し、分割により得られた歌唱フレームに対応し
た基準フレームを探索するアライメント手段と、 前記記憶手段に記憶された周波数補正スコアに含まれる
基準周波数のうち、前記アライメント手段によって探索
された基準フレームの基準周波数を読み出し、読み出し
た基準周波数に基づいて前記分割により得られた歌唱フ
レームの周波数を補正する周波数補正手段とを具備する
ことを特徴とする音声処理装置。 - 【請求項2】 前記周波数補正スコアに含まれる基準周
波数は、前記複数の基準フレームの各々において歌唱者
が歌唱すべき楽音の周波数であることを特徴とする請求
項1に記載の音声処理装置。 - 【請求項3】 前記周波数補正スコアの各基準フレーム
毎の基準周波数は、複数の楽音の周波数を含み、 前記周波数補正手段は、前記アライメント手段によって
探索された基準フレームの基準周波数に含まれる複数の
楽音の周波数のうち、前記歌唱フレームの周波数に最も
近い周波数となるように、当該歌唱フレームの周波数を
補正することを特徴とする請求項1に記載の音声処理装
置。 - 【請求項4】 前記複数の楽音は、コードを構成する複
数の楽音であることを特徴とする請求項3に記載の音声
処理装置。 - 【請求項5】 前記複数の楽音は、スケールを構成する
複数の楽音であることを特徴とする請求項3に記載の音
声処理装置。 - 【請求項6】 前記周波数補正手段による補正後の歌唱
音声に対して、音程または音量の微細変化を付加する微
細変化付加手段を具備することを特徴とする請求項1〜
5のいずれか1の請求項に記載の音声処理装置。 - 【請求項7】 前記アライメント手段は、歌唱音声の音
素と楽曲の歌詞に対応した音素とを対比することにより
各歌唱フレームに対応した基準フレームを探索すること
を特徴とする請求項1〜6のいずれか1の請求項に記載
の音声処理装置。 - 【請求項8】 前記アライメント手段は、 楽曲の音素列を記憶する音素列記憶手段と、 歌唱音声の代表的なパラメータを特徴ベクトルとして所
定数のシンボルにクラスタ化した符号帳と、各音素毎の
状態遷移確率および前記各シンボルの観測確率とを記憶
する音素情報記憶手段と、 前記分割により得られた歌唱フレームを特徴パラメータ
分析し、前記音素情報記憶手段に記憶された符号帳に基
づいて当該歌唱フレームの特徴パラメータをシンボル量
子化して当該歌唱フレームの観測シンボルとする量子化
手段と、 前記音素情報記憶手段に記憶された状態遷移確率および
観測確率に基づいて、前記音素列記憶手段に記憶された
音素列の各状態を有限状態ネットワーク上で隠れマルコ
フモデルによって形成する状態形成手段と、 前記量子化手段によって量子化された観測シンボルと、
前記状態形成手段によって形成された前記隠れマルコフ
モデルに従って、1パスビタビアルゴリズムによって状
態遷移を決定する状態遷移決定手段と、 決定した前記歌唱音声の状態遷移に基づいて、各歌唱フ
レームに対応した基準フレームを探索する探索手段とを
具備することを特徴とする請求項1〜7のいずれか1の
請求項に記載の音声処理装置。 - 【請求項9】 請求項1〜8のいずれか1の請求項に記
載の音声処理装置と、 楽曲データに従って楽音信号を生成して出力する音源
と、 前記楽音信号と前記音声処理装置から出力される補正後
の歌唱音声とをミキシングして出力する出力手段とを具
備することを特徴とするカラオケ装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30027399A JP2001117599A (ja) | 1999-10-21 | 1999-10-21 | 音声処理装置およびカラオケ装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30027399A JP2001117599A (ja) | 1999-10-21 | 1999-10-21 | 音声処理装置およびカラオケ装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001117599A true JP2001117599A (ja) | 2001-04-27 |
JP2001117599A5 JP2001117599A5 (ja) | 2006-05-11 |
Family
ID=17882815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30027399A Pending JP2001117599A (ja) | 1999-10-21 | 1999-10-21 | 音声処理装置およびカラオケ装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001117599A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008004641A1 (fr) * | 2006-07-05 | 2008-01-10 | Yamaha Corporation | Dispositif d'entraînement au chant |
JP2008145777A (ja) * | 2006-12-11 | 2008-06-26 | Yamaha Corp | 楽音信号発生装置及びカラオケ装置 |
JP2008529078A (ja) * | 2005-01-27 | 2008-07-31 | シンクロ アーツ リミテッド | 音響的特徴の同期化された修正のための方法及び装置 |
JP2008250049A (ja) * | 2007-03-30 | 2008-10-16 | Yamaha Corp | 音響変換装置およびプログラム |
CN107358969A (zh) * | 2017-07-19 | 2017-11-17 | 无锡冰河计算机科技发展有限公司 | 一种录音融合方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60221786A (ja) * | 1984-04-18 | 1985-11-06 | ヤマハ株式会社 | 歌唱指導装置 |
JPH0351899A (ja) * | 1989-07-19 | 1991-03-06 | Matsushita Electric Ind Co Ltd | カラオケ装置 |
JPH0481880A (ja) * | 1990-07-25 | 1992-03-16 | Sony Corp | カラオケ装置及びカラオケ装置における歌い手の歌唱の補正方法 |
JPH07191697A (ja) * | 1993-12-27 | 1995-07-28 | Tdk Corp | 音声発声装置 |
JPH07281684A (ja) * | 1994-04-06 | 1995-10-27 | Sony Corp | カラオケ用ディスクおよび再生装置 |
JPH08234772A (ja) * | 1995-02-27 | 1996-09-13 | Yamaha Corp | カラオケ装置 |
JPH0944171A (ja) * | 1995-07-31 | 1997-02-14 | Yamaha Corp | カラオケ装置 |
JPH09179572A (ja) * | 1995-12-25 | 1997-07-11 | Taito Corp | 音声変換回路とカラオケ装置 |
JPH10143180A (ja) * | 1996-11-15 | 1998-05-29 | Yamaha Corp | カラオケ装置 |
JPH11282483A (ja) * | 1999-02-08 | 1999-10-15 | Yamaha Corp | カラオケ装置 |
-
1999
- 1999-10-21 JP JP30027399A patent/JP2001117599A/ja active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60221786A (ja) * | 1984-04-18 | 1985-11-06 | ヤマハ株式会社 | 歌唱指導装置 |
JPH0351899A (ja) * | 1989-07-19 | 1991-03-06 | Matsushita Electric Ind Co Ltd | カラオケ装置 |
JPH0481880A (ja) * | 1990-07-25 | 1992-03-16 | Sony Corp | カラオケ装置及びカラオケ装置における歌い手の歌唱の補正方法 |
JPH07191697A (ja) * | 1993-12-27 | 1995-07-28 | Tdk Corp | 音声発声装置 |
JPH07281684A (ja) * | 1994-04-06 | 1995-10-27 | Sony Corp | カラオケ用ディスクおよび再生装置 |
JPH08234772A (ja) * | 1995-02-27 | 1996-09-13 | Yamaha Corp | カラオケ装置 |
JPH0944171A (ja) * | 1995-07-31 | 1997-02-14 | Yamaha Corp | カラオケ装置 |
JPH09179572A (ja) * | 1995-12-25 | 1997-07-11 | Taito Corp | 音声変換回路とカラオケ装置 |
JPH10143180A (ja) * | 1996-11-15 | 1998-05-29 | Yamaha Corp | カラオケ装置 |
JPH11282483A (ja) * | 1999-02-08 | 1999-10-15 | Yamaha Corp | カラオケ装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008529078A (ja) * | 2005-01-27 | 2008-07-31 | シンクロ アーツ リミテッド | 音響的特徴の同期化された修正のための方法及び装置 |
WO2008004641A1 (fr) * | 2006-07-05 | 2008-01-10 | Yamaha Corporation | Dispositif d'entraînement au chant |
US8027631B2 (en) | 2006-07-05 | 2011-09-27 | Yamaha Corporation | Song practice support device |
JP2008145777A (ja) * | 2006-12-11 | 2008-06-26 | Yamaha Corp | 楽音信号発生装置及びカラオケ装置 |
JP2008250049A (ja) * | 2007-03-30 | 2008-10-16 | Yamaha Corp | 音響変換装置およびプログラム |
JP4544258B2 (ja) * | 2007-03-30 | 2010-09-15 | ヤマハ株式会社 | 音響変換装置およびプログラム |
CN107358969A (zh) * | 2017-07-19 | 2017-11-17 | 无锡冰河计算机科技发展有限公司 | 一种录音融合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634460B (zh) | 电子乐器、电子乐器的控制方法以及存储介质 | |
CN110634461B (zh) | 电子乐器、电子乐器的控制方法以及存储介质 | |
CN110634464B (zh) | 电子乐器、电子乐器的控制方法以及存储介质 | |
JP6587007B1 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
CN112331222B (zh) | 一种转换歌曲音色的方法、系统、设备及存储介质 | |
US11942071B2 (en) | Information processing method and information processing system for sound synthesis utilizing identification data associated with sound source and performance styles | |
JP2019184936A (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP2004038071A (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP4153220B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP4205824B2 (ja) | 歌唱評価装置およびカラオケ装置 | |
Lindemann | Music synthesis with reconstructive phrase modeling | |
CN113160780A (zh) | 电子乐器、方法及存储介质 | |
JP6760457B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
Wada et al. | Sequential generation of singing f0 contours from musical note sequences based on wavenet | |
JP2001117599A (ja) | 音声処理装置およびカラオケ装置 | |
JP2002073064A (ja) | 音声処理装置、音声処理方法および情報記録媒体 | |
JP6801766B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP2022065554A (ja) | 音声合成方法およびプログラム | |
Winter | Interactive music: Compositional techniques for communicating different emotional qualities | |
Zhu et al. | Bachmmachine: An interpretable and scalable model for algorithmic harmonization for four-part baroque chorales | |
Nizami et al. | A DT-Neural Parametric Violin Synthesizer | |
JP7192834B2 (ja) | 情報処理方法、情報処理システムおよびプログラム | |
Horner | Evolution in digital audio technology | |
Hu | Automatic Construction of Synthetic Musical Instruments and Performers | |
JP2024137004A (ja) | 音変換方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060223 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090818 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100202 |