JP2001117599A

JP2001117599A - 音声処理装置およびカラオケ装置

Info

Publication number: JP2001117599A
Application number: JP30027399A
Authority: JP
Inventors: Hiroshi Kayama; 啓嘉山; Keino Pedro; ケイノペドロ
Original assignee: Universitat Pompeu Fabra UPF; Yamaha Corp
Current assignee: Universitat Pompeu Fabra UPF; Yamaha Corp
Priority date: 1999-10-21
Filing date: 1999-10-21
Publication date: 2001-04-27

Abstract

(57)【要約】【課題】歌唱タイミングの如何にかかわらず、自然な
ピッチ補正を行うことができる音声処理装置およびこれ
を用いたカラオケ装置を提供する。【解決手段】このカラオケ装置は、複数の基準フレー
ム毎の基準ピッチを含むピッチ補正スコアを記憶したピ
ッチ補正スコア記憶部６６と、歌唱者の歌唱位置に対応
した基準フレームを特定するアライメント処理部６４
と、上記ピッチ補正スコアに含まれる基準ピッチのう
ち、アライメント処理部６４によって特定される基準フ
レームの基準ピッチとなるように、歌唱音声のピッチを
補正するピッチ補正部６８とを具備する。かかるカラオ
ケ装置によれば、歌唱者の歌唱位置に対応したフレーム
の基準ピッチを用いて歌唱音声を補正するため、例えば
歌唱者による歌唱位置が本来の歌唱位置とずれている場
合であっても自然なピッチ補正を行うことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、歌唱音声のピッチ
（周波数）を補正するピッチ補正機能を備えた音声処理
装置およびこれを用いたカラオケ装置に関する。

【０００２】

【従来の技術】従来より、歌唱音声のピッチを、本来歌
唱すべき正しいピッチに補正するピッチ補正機能を備え
たカラオケ装置が各種提供されている。この種のカラオ
ケ装置として、例えば、歌唱者が歌唱すべきメロディを
構成する楽音のピッチを含むピッチ補正スコアを記憶し
た記憶部と、歌唱者の歌唱音声のピッチを上記ピッチ補
正スコアに従って正しいピッチに補正して出力するピッ
チ補正部を具備するものが知られている。

【０００３】図１８（ａ）〜（ｅ）は、上記従来のカラ
オケ装置におけるピッチ補正の方法を示す概念図であ
る。図１８（ａ）に示すように、ピッチ補正スコアに
は、歌唱者が歌唱すべきメロディを構成する楽音のピッ
チ（基準ピッチ）が１曲分にわたって含まれている。図
１８（ａ）に示す例では、時刻ｔ１〜ｔ２における基準
ピッチはｆ１であり、時刻ｔ２〜ｔ３における基準ピッ
チはｆ２であり、時刻ｔ３〜ｔ４における基準ピッチは
ｆ３となっている。なお、以下に示す図１８（ｂ）およ
び（ｄ）においては、図１８（ａ）に示す基準ピッチを
破線で示している。

【０００４】このようなピッチ補正スコアに基づいて、
歌唱音声のピッチ補正が行われる。例えば、歌唱音声の
ピッチの時間的変化が図１８（ｂ）に示すものである場
合、すなわち、歌唱者が、時刻ｔ１〜ｔ２の間ピッチＦ
１で歌唱し、時刻ｔ２〜ｔ３の間ピッチＦ２で歌唱し、
時刻ｔ３〜ｔ４の間ピッチＦ３で歌唱した場合には、時
刻ｔ１〜ｔ２においては歌唱音声のピッチＦ１が基準ピ
ッチｆ１に補正され、時刻ｔ２〜ｔ３においては歌唱音
声のピッチＦ２が基準ピッチｆ２に補正され、時刻ｔ３
〜ｔ４においては歌唱音声のピッチＦ３が基準ピッチｆ
３に補正される、といった具合である。この結果、図１
８（ｃ）に示すように、歌唱者の歌唱音声のピッチが、
本来歌唱すべき正しいピッチに補正されて出力されるこ
ととなる。

【０００５】

【発明が解決しようとする課題】このように、上述した
ピッチ補正方法では、歌唱者による歌唱タイミングが、
ピッチ補正スコアに記憶された基準ピッチの切換わりタ
イミングと一致している場合には自然なピッチ補正が行
われることとなる。しかしながら、図１８（ｄ）に示す
ように、歌唱者による歌唱タイミングが、ピッチ補正ス
コアに記憶された基準ピッチの切換わりタイミングと一
致しない場合には、以下に示す問題が生じる。

【０００６】図１８（ｄ）は、歌唱者が歌詞「き」に対
応する楽音を本来の楽音の長さ（時刻ｔ１〜ｔ２）より
も長く（時刻ｔ１〜ｔ２’）歌ってしまった場合の歌唱
音声のピッチの時間的な変化を表している。かかる場合
に上述した方法でピッチ補正を行うと、図１８（ｅ）に
示すように、時刻ｔ２〜ｔ２’は、歌唱者が歌詞「き」
を歌唱している区間であるにもかかわらず、歌唱音声の
ピッチは歌詞「の」に対応するピッチｆ２に補正されて
しまう。この結果、出力される音声が、不自然に補正さ
れた音声になってしまうという問題があった。

【０００７】本発明は、以上説明した事情に鑑みてなさ
れたものであり、歌唱タイミングの如何にかかわらず、
自然なピッチ補正を行うことのできる音声処理装置、お
よびこれを用いたカラオケ装置を提供することを目的と
している。

【０００８】

【課題を解決するための手段】上述した課題を解決する
ために、請求項１に記載の音声処理装置は、歌唱者の歌
唱音声を入力する入力手段と、楽曲を時間軸上で分割し
た複数の基準フレームの各々に対応付けられた基準周波
数を含む周波数補正スコアを記憶した記憶手段と、前記
入力手段から入力される歌唱音声を時間軸上で複数の歌
唱フレームに分割し、各歌唱フレームに対応した基準フ
レームを探索するアライメント手段と、前記記憶手段に
記憶された周波数補正スコアに含まれる基準周波数のう
ち、前記アライメント手段によって探索された基準フレ
ームの基準周波数を読み出し、読み出した基準周波数に
基づいて歌唱音声の周波数を補正する周波数補正手段と
を具備することを特徴としている。また、請求項２に記
載の音声処理装置は、請求項１に記載の構成において、
前記周波数補正スコアに含まれる基準周波数は、前記複
数の基準フレームの各々において歌唱者が歌唱すべき楽
音の周波数であることを特徴としている。また、請求項
３に記載の音声処理装置は、請求項１に記載の構成にお
いて、前記周波数補正スコアの各基準フレーム毎の基準
周波数は、複数の楽音の周波数を含み、前記周波数補正
手段は、前記アライメント手段によって探索された基準
フレームの基準周波数に含まれる複数の楽音の周波数の
うち、前記歌唱音声の周波数に最も近い周波数となるよ
うに、前記歌唱音声の周波数を補正することを特徴とし
ている。また、請求項４に記載の音声処理装置は、請求
項３に記載の構成において、前記複数の楽音は、コード
を構成する複数の楽音であることを特徴としている。ま
た、請求項５に記載の音声処理装置は、請求項３に記載
の構成において、前記複数の楽音は、スケールを構成す
る複数の楽音であることを特徴としている。請求項６に
記載の音声処理装置は、請求項１〜５のいずれか１の請
求項に記載の構成において、前記周波数補正手段による
補正後の歌唱音声に対して、音程または音量の微細変化
を付加する微細変化付加手段を具備することを特徴とし
ている。また、請求項７に記載の音声処理装置は、請求
項１〜６のいずれか１の請求項に記載の構成において、
前記アライメント手段は、歌唱音声の音素と楽曲の歌詞
に対応した音素とを対比することにより各歌唱フレーム
に対応した基準フレームを探索することを特徴としてい
る。請求項８に記載の音声処理装置は、請求項１〜７の
いずれか１の請求項に記載の構成において、前記アライ
メント手段は、楽曲の音素列を記憶する音素列記憶手段
と、歌唱音声の代表的なパラメータを特徴ベクトルとし
て所定数のシンボルにクラスタ化した符号帳と、各音素
毎に状態遷移確率および前記各シンボルの観測確率とを
記憶する音素情報記憶手段と、歌唱音声を前記歌唱フレ
ーム単位で特徴パラメータ分析し、前記音素情報記憶手
段に記憶された符号帳に基づいて前記歌唱音声の特徴パ
ラメータをシンボル量子化して前記歌唱音声の観測シン
ボルとする量子化手段と、前記音素情報記憶手段に記憶
された状態遷移確率および観測確率に基づいて、前記音
素列記憶手段に記憶された音素列の各状態を有限状態ネ
ットワーク上で隠れマルコフモデルによって形成する状
態形成手段と、前記量子化手段によって量子化された観
測シンボルと、前記状態形成手段によって形成された前
記隠れマルコフモデルに従って、１パスビタビアルゴリ
ズムによって状態遷移を決定する状態遷移決定手段と、
決定した前記歌唱音声の状態遷移に基づいて、各歌唱フ
レームに対応した基準フレームを探索する探索手段とを
具備することを特徴としている。

【０００９】また、請求項９に記載のカラオケ装置は、
請求項１〜８のいずれか１の請求項に記載の音声処理装
置と、楽曲データに従って楽音信号を生成して出力する
音源と、前記楽音信号と前記音声処理装置から出力され
る補正後の歌唱音声とをミキシングして出力する出力手
段とを具備することを特徴としている。

【００１０】

【発明の実施の形態】以下、図面を参照して、本発明の
実施形態について説明する。かかる実施の形態は、本発
明の一態様を示すものであり、この発明を限定するもの
ではなく、本発明の範囲内で任意に変更可能である。

【００１１】以下の各実施形態に示すカラオケ装置は、
楽曲を一定時間間隔毎に区切った複数のフレーム（以
下、「基準フレーム」という）単位で基準ピッチを記憶
している。そして、歌唱音声を上記基準フレームと同様
のフレーム（以下、「歌唱フレーム」という）単位で分
割し、各歌唱フレームに対応した基準フレームを探索す
るとともに、当該歌唱フレームにおける歌唱音声のピッ
チが、探索された基準フレームの基準ピッチとなるよう
に、歌唱音声のピッチを補正する機能を有している。こ
うすることにより、歌唱者の歌唱タイミングがずれてい
る場合であっても、歌唱音声を違和感なく補正すること
ができる。

【００１２】Ａ：第１実施形態Ａ−１：第１実施形態の構成図１は、本発明の第１実施形態であるカラオケ装置１の
全体構成を示すブロック図である。同図に示すように、
このカラオケ装置１は、マイク２、楽曲データ記憶部
３、シーケンサ４、音源５、ピッチ補正処理部６、ミキ
サ７およびスピーカ８により構成されている。

【００１３】マイク２は、歌唱者が発する歌唱音声を電
気信号（以下、「歌唱音声信号」という）に変換して出
力する。

【００１４】ピッチ補正処理部６は、歌唱者の歌唱音声
のピッチをピッチ補正スコアに従って補正して出力する
手段であり、音声信号切出部６１、分析窓生成部６２、
ＦＦＴ部６３、アライメント処理部６４、基準ピッチ読
出部６５、ピッチ補正スコア記憶部６６、ＳＭＳ部６
７、ピッチ補正部６８および逆ＦＦＴ部６９により構成
されている。

【００１５】ピッチ補正スコア記憶部６６は、楽曲デー
タ記憶部３に記憶された複数の楽曲データの各々に対応
したピッチ補正スコアを記憶している。このピッチ補正
スコアは、図２に例示するように、楽曲を時間軸上で区
切った複数の基準フレームのいずれかを特定するための
基準フレーム番号と、各基準フレームに対応付けられた
基準ピッチとから構成されている。基準ピッチは、歌唱
者が歌唱すべきメロディ（主旋律）を構成する楽音のピ
ッチである。

【００１６】図１において、分析窓生成部６２は、上述
した歌唱フレームに対応した分析窓を音声信号切出部６
１に順次出力する。音声信号切出部６１は、この分析窓
生成部６２から出力された分析窓と、マイク２から供給
される歌唱音声信号とを掛け合わせてＦＦＴ部６３に出
力する。すなわち、分析窓生成部６２および音声信号切
出部６１は、歌唱音声信号を歌唱フレーム単位で切り出
すための手段である。ＦＦＴ部６３は、音声信号切出部
６１から出力される各歌唱フレーム毎の歌唱音声信号に
対してＦＦＴを施し、この結果得られた周波数スペクト
ルをアライメント処理部６４およびＳＭＳ部６７に出力
する。

【００１７】アライメント処理部６４は、歌唱者が楽曲
中のどの部分を歌っているのかを求めるための手段であ
る。具体的には、アライメント処理部６４は、歌唱者の
歌唱位置とピッチ補正スコア内の基準フレームとの時間
的位置関係を判別し、歌唱者が歌っている部分が、ピッ
チ補正スコア内のどの基準フレームに対応するのかを表
す歌唱位置情報を生成するための処理を行う。すなわ
ち、歌唱者による歌唱位置が、本来の歌唱すべき位置と
ずれている場合であっても、歌唱者の歌唱位置にあたる
歌唱フレームが、基準フレームのうちのいずれの基準フ
レームに該当するのかを判別することができるようにな
っている。

【００１８】基準ピッチ読出部６５は、ピッチ補正スコ
ア内の基準フレームのうち、アライメント処理部６４か
ら出力される歌唱位置情報によって指定されるフレーム
に対応付けられた基準ピッチを読み出してピッチ補正部
６８に出力する。

【００１９】ＳＭＳ部６７は、ＦＦＴ部６３からの出力
信号に対してＳＭＳ分析を行う。ここで、ＳＭＳ分析と
は、上記ＦＦＴ部６３から出力された周波数スペクトル
（図３（ａ））から、正弦波成分と残差成分とを抽出す
るための処理である。正弦波成分とは、図３（ｂ）に示
すように、基本周波数（Pitch）および基本周波数の倍
数にあたる周波数（倍音）の成分をいう。ＳＭＳ部６７
は、ＦＦＴ部６３から順次供給される各歌唱フレーム毎
の周波数スペクトルから正弦波成分を抽出し、当該正弦
波成分の基本周波数Ｆｉと、各成分の平均アンプリチュ
ードＡｉとを（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、…、
（Ｆｉ、Ａｉ）という具合に、各歌唱フレーム毎に組に
してピッチ補正部６８に出力する。以下では、こうして
ピッチ補正部６８に出力される基本周波数ＦｉとＡｉの
組を正弦波成分情報と呼ぶ。一方、残差成分とは、図３
（ｃ）に示すように、歌唱音声信号から正弦波成分を除
いた部分である。ＳＭＳ部６７は、周波数領域のデータ
であるこの残差成分を逆ＦＦＴ部６９に出力する。

【００２０】ピッチ補正部６８は、ＳＭＳ部６７から出
力される正弦波成分情報のうちのピッチＦｉを、基準ピ
ッチ読出部６５から供給される基準ピッチｆｊに置き換
えて新たな正弦波成分情報（ｆｊ、Ａｉ）（以下、「補
正後正弦波成分情報」という）を生成して、逆ＦＦＴ部
６９に出力する。逆ＦＦＴ部６９は、ピッチ補正部６８
から出力される補正後正弦波成分情報と、ＳＭＳ部６７
から出力される残差成分とを混合した後、逆ＦＦＴを施
して補正後音声信号を生成し、ミキサ７に出力する。

【００２１】一方、楽曲データ記憶部３は、ＭＩＤＩデ
ータや時間データおよび歌詞データなどを含む複数の楽
曲データを記憶している。シーケンサ４は、歌唱者によ
って指定された楽曲データ中のＭＩＤＩデータを時間デ
ータに従って再生する。音源５は、シーケンサ４の出力
信号に従って伴奏音等の楽音信号を生成して出力する。
ミキサ７は、音源５から出力される楽音信号と、ピッチ
補正処理部６内の逆ＦＦＴ部６９から出力される補正後
音声信号とをミキシングして出力する。スピーカ８はミ
キサ７からの出力信号を音として出力する。

【００２２】ここで、図４を参照して、上述したアライ
メント処理部６４の詳細な構成について説明する。アラ
イメント処理部６４は、特徴パラメータ分析部６４１、
シンボル量子化部６４２、音素辞書記憶部６４３、音素
列状態形成部６４４、状態遷移決定部６４５およびアラ
イメント部６４６により構成されている。

【００２３】特徴パラメータ分析部６４１は、ＦＦＴ部
６３の出力信号から歌唱音声のスペクトル特性を特徴づ
ける特徴パラメータを抽出し、シンボル量子化部６４２
に出力する。本実施形態においては、特徴パラメータと
して、メルケプストラム係数、差分メルケプストラム係
数、エネルギ、差分エネルギおよびボイスネス（有声音
尤度）の５種類のパラメータを用いる。

【００２４】シンボル量子化部６４２は、音素辞書記憶
部６４３に記憶された符号帳を参照して、特徴パラメー
タ分析部６４１から供給される歌唱フレーム毎の特徴パ
ラメータに対して最大尤度を持つ特徴シンボルを選び出
し、状態遷移決定部６４５に出力する。

【００２５】音素辞書記憶部６４３には、符号帳、確率
データおよび音素記述列が記憶されている。符号帳は、
図５に示すように、上述した特徴パラメータを特徴ベク
トルとして所定のシンボルにクラスタ化したものであ
る。すなわち、上記シンボル量子化部６４２は、この符
号帳を参照して、歌唱音声信号を各特徴ベクトル（メル
ケプストラム係数、差分メルケプストラム係数、エネル
ギ、差分エネルギおよびボイスネス）にベクトル量子化
するのである。

【００２６】ここで、図５を参照しつつ、本実施形態に
おいて用いる特徴ベクトルについて説明する。メルケプストラム係数（ｂ_MEL）メルケプストラム係数は、音声のスペクトル特性を少な
い次数で表す係数であり、本実施形態では１２次元ベク
トルとして１２８シンボルにクラスタ化されている。差分メルケプストラム係数（ｂ_deltaMEL）差分メルケプストラム係数は、直前の歌唱フレームと現
在の歌唱フレームとのメルケプストラム係数の差分値を
表す係数であり、本実施形態では１２次元ベクトルとし
て１２８シンボルにクラスタ化されている。エネルギ（ｂ_ENERGY）エネルギは、音声の強さを表す係数であり、本実施形態
では１次元ベクトルとして３２シンボルにクラスタ化さ
れている。差分エネルギ（ｂ_deltaENERGY）差分エネルギは、直前の歌唱フレームと現在の歌唱フレ
ームとのエネルギの差分値を表す係数であり、１次元ベ
クトルとして３２シンボルにクラスタ化されている。ボイスネス（ｂ_VOICENESS）ボイスネスは、有声音らしさを表す特徴ベクトルであ
り、ゼロクロス率およびピッチエラーで特徴づける２次
元ベクトルとして３２シンボルにクラスタ化されてい
る。以上が本実施形態において用いる特徴ベクトルであ
る。

【００２７】次に、音素辞書記憶部６４３に記憶された
確率データについて説明する。本実施形態では、音声を
モデル化するためのサブワード単位としてＰＬＵ（疑似
音素単位）を用いる。具体的には、図６に示すように、
日本語を２７の音素単位で扱うものとし、各音素には状
態数が対応付けられている。状態数とは、サブワード単
位の持続する最も短い基準フレーム数をいう。例えば音
素／ａ／の状態数は「３」であるので、音素／ａ／は少
なくとも３つの基準フレームにわたって続くことを意味
している。

【００２８】３状態の各々は、発音の立ち上がり・定常
状態・リリース状態を擬似的に表したものである。音素
／ｂ／や／ｇ／などの破裂音は、本来持つ音韻が短いの
で２状態に設定されており、息継ぎ（ASPIRATION）も２
状態に設定されている。そして、無音（Silence）は、
時間的変動がないので１状態に設定されている。確率デ
ータには、図7に示すように、サブワード単位で表され
る２７の音素に対して、各状態の遷移確率と、各特徴ベ
クトルのシンボルに対する観測シンボル発生確率とが記
述されている。

【００２９】また、音素記述列は、楽曲データ記憶部３
に記憶された複数の楽曲の各々に対応して記憶されたも
のであり、図８に示すように、演奏対象となる楽曲の歌
詞に対応して音素を並べた音素列と、音素列を構成する
各音素に対応する基準フレーム（通常は、１の音素に対
して複数の基準フレームが対応している）の基準フレー
ム番号とにより構成されている。例えば、図８に示す例
においては、基準フレームＦｔ１〜Ｆｔ３が音素／Ｓｉ
ｌｅｎｃｅ／に対応しており、基準フレームＦｔ４〜Ｆ
ｔ９が音素／ｎ／に対応しており、基準フレームＦｔ１
０〜が音素／ａ／に対応している。

【００３０】再び図４において、音素列状態形成部６４
４は、音素辞書記憶部６４３に記憶された音素記述列に
基づいて隠れマルコフモデルによる音素列の形成を行
う。状態遷移決定部６４５は、シンボル量子化部６４２
から供給される歌唱フレーム単位の特徴シンボルを用い
て、後述する１パスビタビ（Viterbi）アルゴリズムに
従って歌唱音声の状態遷移を決定する。アライメント部
６４６は、状態遷移決定部６４５によって決定された状
態遷移に基づいて、歌唱音声の歌唱フレームに対応する
基準フレームの基準フレーム番号を探索し、当該基準フ
レーム番号を歌唱位置情報として基準ピッチ読出部６５
に出力する。以上が本実施形態に係るカラオケ装置１の
構成である。

【００３１】Ａ−２：第１実施形態の動作次に、本実施形態の動作について説明する。まず、歌唱
者が図示しない操作部に対して所定の操作を行うことに
より、楽曲の選択および選択された楽曲の演奏開始を指
示すると、シーケンサ４は当該楽曲に対応した楽曲デー
タ中のＭＩＤＩデータを時間データに従って音源５に出
力する。音源５は、このＭＩＤＩデータに従って伴奏音
等の楽音信号を生成し、ミキサ７に出力する。この楽音
信号は、ミキサ７を介してスピーカ８から音として出力
される。

【００３２】一方、歌唱者は、こうしてスピーカ８から
出力される伴奏音にのって歌を歌い出す。これによりマ
イク２から歌唱音声信号が入力される。この歌唱音声信
号は、音声信号切出部６１において歌唱フレーム毎に切
り出された後、ＦＦＴ部６３においてＦＦＴを施され、
この結果得られた周波数スペクトルがアライメント処理
部６４およびＳＭＳ部６７に出力される。

【００３３】アライメント処理部６４は、歌唱者の歌唱
位置に対応する基準フレームを特定する歌唱位置情報を
生成して出力する。アライメント処理部６４による詳細
な動作は以下の通りである。まず、特徴パラメータ分析
部６４１は、ＦＦＴ部６３から歌唱フレーム単位で供給
される周波数スペクトルから特徴パラメータを抽出して
出力する。シンボル量子化部６４２は、音素辞書記憶部
６４３に記憶された符号帳に含まれる特徴ベクトルのう
ち、特徴パラメータ分析部６４１から供給される各特徴
パラメータに対して最大尤度を持つ特徴シンボルを各特
徴ベクトル毎に読み出し、選び出した特徴シンボルを状
態遷移決定部６４５に出力する。一方、音素列状態形成
部６４４は、音素辞書記憶部６４３に記憶された確率デ
ータに含まれる状態遷移確率と音素記述列とに基づい
て、隠れマルコフモデルによる音素の状態形成を行う。

【００３４】ここで、図９を参照して、隠れマルコフモ
デルについて説明する。なお、音声の状態は一方向へ遷
移するので、left to right型のモデルを用いるものと
する。時刻ｔにおいて、状態がｉからｊに遷移する確率
（状態遷移離散確率）をａ_ijと表す。すなわち、図９に
示す例では、状態にとどまる確率をａ₁₁と表し、状態
から状態へ遷移する確率をａ₁₂と表している。

【００３５】各状態の中には特徴ベクトルがそれぞれ存
在し、各々に異なる観測シンボルがある、これをＸ＝
｛ｘ₁、ｘ₂、…、ｘ_T｝と表す。そして、時刻ｔにおい
て状態がｊであるときに特徴ベクトルのシンボルｘ_tを
発生させる確率（観測シンボル離散確率）をｂ_j（ｘ_t）
と表す。モデルλにおいて、時刻Ｔまでの状態系列をＱ
＝｛ｑ₁、ｑ₂、…、ｑ_T｝とすると、観測シンボル系列
Ｘと状態系列Ｑとの同時発生確率は、次式で表せる。

【数１】観測シンボル系列は判っているが、状態系列は観測し得
ないという理由で、このようなモデルが隠れマルコフモ
デルと呼ばれている。本実施形態では、音素辞書記憶部
６４３に記憶された音素記述列に基づいて、図９に示す
ようなＦＮＳ（有限状態ネットワーク）を音素単位で形
成する。

【００３６】次に、状態遷移決定部６４５は、音素列状
態形成部６４４によって形成された隠れマルコフモデル
と、シンボル量子化部６４２から供給される歌唱フレー
ム単位の各特徴シンボルを用い、１パスビタビアルゴリ
ズムによって歌唱音声の状態遷移を決定する。すなわ
ち、歌唱音声の各歌唱フレームが、いずれの音素に対応
するのかを特定する。

【００３７】ここで、１パスビタビアルゴリズムについ
て説明する。下記式におけるΨ_t（ｊ）は、時刻ｔに対
応する歌唱フレームまでの観測を踏まえて算出した、１
つのパスを経由して得られる時刻ｔの歌唱フレームにお
けるベスト確率δ_t（ｉ）を最大とする状態を選択す
る。すなわち、Ψ_t（ｊ）に従って音素状態が遷移して
いく。初期演算としてδ₁（ｉ）＝１とし、繰り返し演
算として

【数２】を実行する。ここで、ａ_ijは状態ｉから状態ｊへの状態
遷移確率であり、ｂ_j（Ｏ_t）は特徴ベクトルの時刻ｔに
おけるシンボル発生確率である。各観測シンボルは、歌
唱音声から抽出された特徴ベクトルであるから、歌唱者
の発声態様によって観測シンボルが異なり、遷移の態様
も異なるようになる。

【００３８】図１０（ｂ）に示す例では、上記式によっ
て計算された確率を○または△で示している。ここで、
○＞△である。例えば、時刻ｔｍ１から時刻ｔｍ３まで
の観測を踏まえ、状態“Ｓｉｌｅｎｃｅ”から状態“ｎ
１”へのパスが形成される確率は、状態“Ｓｉｌｅｎｃ
ｅ”から状態“Ｓｉｌｅｎｃｅ”へのパスが形成される
確率よりも高く、時刻ｔｍ３におけるベスト確率とな
り、図中太矢印で示すように状態遷移を決定する。

【００３９】このような演算を歌唱音声の各歌唱フレー
ム（Ｆｍ１、Ｆｍ２、…）に対応する時刻（ｔｍ１、ｔ
ｍ２、…）毎に行う。この結果、図１０（ｃ）に例示す
るように、時刻ｔｍ３において状態“Ｓｉｌｅｎｃｅ”
から状態“ｎ１”に遷移し、時刻ｔｍ５において状態
“ｎ１”から状態“ｎ２”に遷移し、時刻ｔｍ９におい
て状態“ｎ３”から状態“ａ１”に遷移する、といった
具合に歌唱音声の状態遷移が決定される。これにより、
歌唱音声の各歌唱フレームが、いずれの音素に対応する
のかを特定することができる。

【００４０】こうして、状態遷移決定部６４５により、
歌唱音声の各歌唱フレームがいずれの音素に対応するの
かが順次特定されるのに並行して、アライメント部６４
６は、特定された音素に対応する基準フレームを特定す
る。すなわち、歌唱フレームと基準フレームの、対応す
る音素が同じフレーム同士を、各フレーム毎に時系列で
一致させる処理を行う。具体的には、以下の通りであ
る。

【００４１】図１０（ｅ）に示す音素記述列は、前掲図
８に示した音素記述列である。すなわち、フレームＦｔ
１〜Ｆｔ３が音素／Ｓｉｌｅｎｃｅ／に対応し、基準フ
レームＦｔ４〜Ｆｔ９が音素／ｎ／に対応し、基準フレ
ームＦｔ１０〜の基準フレームが音素／ａ／に対応して
いる。

【００４２】一方、状態遷移決定部６４５によって歌唱
音声の状態遷移が決定され、この結果、図１０（ｃ）に
示すように、歌唱音声の歌唱フレームＦｍ１およびＦｍ
２が音素／Ｓｉｌｅｎｃｅ／に対応し、歌唱フレームＦ
ｍ３〜Ｆｍ１０が音素／ｎ／に対応し、歌唱フレームＦ
ｍ１１〜が音素／ａ／に対応していることが判明したも
のとする。

【００４３】この結果、図１０（ｄ）に示すように、歌
唱音声の各歌唱フレームと、基準フレームとを対応付け
る（アライメントする）ことができる。具体的には、以
下の通りである。

【００４４】まず、音素／Ｓｉｌｅｎｃｅ／に対応する
フレームとして、歌唱音声の歌唱フレームＦｍ１と基準
フレームＦｔ１とを対応付け、歌唱音声の歌唱フレーム
Ｆｍ２と基準フレームＦｔ２とを対応付ける。

【００４５】また、図１０（ｃ）に示すように、歌唱音
声が歌唱フレームＦｍ２からＦｍ３に切換わる際に、状
態“Ｓｉｌｅｎｃｅ”から状態“ｎ１”に遷移している
ので、音素／ｎ／に対応する歌唱フレームとしては、歌
唱フレームＦｍ３が最初のフレームとなる。一方、音素
／ｎ／に対応する基準フレームは、図１０（ｅ）に示す
音素記述列によれば基準フレームＦｔ４からであるか
ら、歌唱音声の歌唱フレームＦｍ３と、基準フレームＦ
ｔ４とを対応付ける。

【００４６】次に、歌唱音声の歌唱フレームＦｍ４にお
いては、新たな音素（図１０（ｃ）に示す例においては
音素／ａ／）に移行していないので、歌唱音声の歌唱フ
レームＦｍ４と、基準フレームＦｔ５とを対応付ける。
以後同様の処理を繰り返し、歌唱音声の歌唱フレームＦ
ｍ５〜Ｆｍ７の各々と、基準フレームＦｔ６〜Ｆｔ８の
各々とを順次対応付けていく。

【００４７】一方、アライメント部６４６は、上述した
各フレーム毎の対応付けに並行して、歌唱音声の各歌唱
フレームに対応付けられた基準フレームの基準フレーム
番号を検出し、この基準フレーム番号を歌唱位置情報と
して基準ピッチ読出部６５に順次出力する。つまり、基
準位置情報は、現在の歌唱位置に対応する基準フレーム
を特定する情報となる。

【００４８】ところで、図１０（ｃ）および（ｄ）に示
す例では、歌唱音声の歌唱フレームＦｍ３〜Ｆｍ１０の
８フレームが音素／ｎ／に対応しているのに対して、音
素／ｎ／に対応する基準フレームはＦｔ４〜Ｆｔ９であ
る。このように、ある音素を本来歌うべき時間よりも長
い間、歌唱者が当該音素を発声してしまう場合が生じ得
る。このため、１つの音素に対応する複数の基準フレー
ムのうちの最後の基準フレーム（以下、「ループフレー
ム」という）には、当該基準フレームを繰り返すべき
（ループすべき）旨を指示するループデータが記述され
ている。すなわち、アライメント部６４６は、上述した
歌唱フレームと基準フレームの対応付けを行うに際し、
上述したループフレームを歌唱フレームに対応付けたに
もかかわらず、次の歌唱フレームが他の音素に遷移して
いない場合には、当該ループフレームを以後の歌唱フレ
ームに対応付ける。すなわち、図１０（ｄ）に示す例に
おいては、歌唱フレームＦｍ８にループフレームＦｔ９
を対応付けたが、次の歌唱フレームＦｍ９も音素／ｎ／
に対応しているため、この歌唱フレームＦｍ９以後の音
素／ｎ／に対応する歌唱フレームに対しては、ループフ
レームＦｔ９を順次対応付けるのである。

【００４９】基準ピッチ読出部６５は、アライメント処
理部６４から出力される歌唱位置情報を受け取ると、当
該歌唱位置情報によって特定される基準フレームに対応
付けられた基準ピッチｆｊをピッチ補正スコア記憶部６
６から読み出し、ピッチ補正部６８に出力する。

【００５０】一方、ＳＭＳ部６７は、ＦＦＴ部６３から
供給される周波数スペクトルから正弦波成分および残差
成分を抽出し、正弦波成分の基本周波数Ｆｉと平均アン
プリチュードＡｉとを組にして正弦波成分情報としてピ
ッチ補正部６８に出力する。さらに、ＳＭＳ部６７は、
残差成分を逆ＦＦＴ部６９に出力する。

【００５１】ピッチ補正部６８は、ＳＭＳ部６７から供
給される正弦波成分情報のうち、基本周波数Ｆｉを基準
ピッチ読出部６５から供給される基準ピッチｆｊに置き
換え、補正後正弦波成分情報（ｆｊ、Ａｉ）として逆Ｆ
ＦＴ部６９に出力する。この処理により、歌唱音声のピ
ッチが、歌唱者の歌唱位置に対応した基準フレームの基
準ピッチに補正されることとなる。逆ＦＦＴ部６９は、
この補正後正弦波成分情報が示す正弦波成分と、ＳＭＳ
部６７から供給される残差成分とを合成した後、逆ＦＦ
Ｔを施し、この結果得られた補正後音声信号をミキサ７
に出力する。

【００５２】ミキサ７は、音源５から供給される楽音信
号と、逆ＦＦＴ部６９から供給される補正後音声信号と
をミキシングして出力する。この出力信号は、スピーカ
８によって音として出力される。

【００５３】ここで、図１１（ａ）〜（ｃ）を参照し
て、本実施形態におけるピッチ補正の具体例を説明す
る。図１１（ａ）は、ピッチ補正スコアに含まれる基準
ピッチの時間的な変化を例示する図であり、図１１
（ｂ）は、歌唱音声のピッチの時間的な変化を例示する
図であり、図１１（ｃ）は、補正後音声信号のピッチの
時間的な変化を例示する図である。なお、図１１（ｂ）
においては、図１１（ａ）に示した基準ピッチを破線で
示している。

【００５４】図１１（ａ）に例示するように、時刻ｔ１
〜ｔ２までの各基準フレーム（歌詞「き」に対応）に
は、基準ピッチｆ１が、時刻ｔ２〜ｔ３までの各基準フ
レームには基準ピッチｆ２が、時刻ｔ３〜ｔ４までの各
基準フレームには基準ピッチｆ３が、それぞれ対応付け
られている。

【００５５】一方、図１１（ｂ）に例示するように、歌
唱者は、歌詞「き」を時刻ｔ１〜ｔ２’の間、ピッチＦ
１で歌唱し、歌詞「の」を時刻ｔ２’〜ｔ３の間、ピッ
チＦ２で歌唱し、歌詞「う」を時刻ｔ３〜ｔ４の間、ピ
ッチＦ３で歌唱したものとする。つまり、歌唱者は、歌
詞「き」に対応する楽音を、本来歌唱すべき時間よりも
長い時間歌唱している。

【００５６】この場合、図１１（ｃ）に示すように、歌
唱者が歌詞「き」を歌唱した区間である時刻ｔ１〜ｔ
２’の間は、歌唱音声のピッチはｆ１に補正され、歌唱
者が歌詞「の」を歌唱した区間である時刻ｔ２’〜ｔ３
の間は、歌唱音声のピッチはｆ２に補正され、歌唱者が
歌詞「う」を歌唱した区間である時刻ｔ３〜ｔ４の間
は、歌唱音声のピッチはｆ３に補正されることとなる。

【００５７】このように、本実施形態によれば、歌唱者
の歌唱位置に対応した基準フレームの基準ピッチを用い
て歌唱音声を補正するため、例えば歌唱者による歌唱位
置が本来の歌唱位置とずれている場合、すなわち、歌唱
タイミングがずれている場合であっても、かかる歌唱タ
イミングのずれの影響を受けることなく、自然なピッチ
補正を行うことができる。

【００５８】Ｂ：第２実施形態次に、本発明の第２実施形態に係るカラオケ装置につい
て説明する。なお、本実施形態に係るカラオケ装置は、
上記第１実施形態に係るカラオケ装置１の構成と比較し
て、ピッチ補正スコアの内容と、基準ピッチ読出部６５
およびピッチ補正部６８の動作のみが異なる。従って、
上記第１実施形態に係るカラオケ装置１の各部と共通す
る部分についてはその説明を省略する。

【００５９】上記第１実施形態に係るカラオケ装置１に
おいては、ピッチ補正スコア内の各基準フレーム毎に、
歌唱者が歌唱すべきメロディを構成する楽音のピッチた
る基準ピッチを含ませるようにした。これに対し、本実
施形態においては、ピッチ補正スコア内には、各基準フ
レーム毎にコード（和音）を構成する複数の楽音のピッ
チ（以下、「基準ピッチ群」という）が含まれている。

【００６０】図１２は、本実施形態におけるピッチ補正
スコアの構成を例示する図である。同図に示すように、
本実施形態におけるピッチ補正スコアは、基準フレーム
番号と、各基準フレームに対応付けられた基準ピッチ群
とから構成されている。この基準ピッチ群は、コードを
構成する複数の楽音のピッチの集合である。すなわち、
図１２に示す例では、基準フレームＦｔ１には、コード
「Ｃ」が対応付けられており、このコード「Ｃ」を構成
する楽音、「ド（…、Ｃ３、Ｃ４、…）」、「ミ（…、
Ｅ３、Ｅ４、…）」および「ソ（…、Ｇ３、Ｇ４、
…）」の各々のピッチが基準ピッチ群｛…、ｆＣ３、ｆ
Ｅ３、ｆＧ３、ｆＣ４、ｆＥ４、ｆＧ４、…｝として記
憶されている。

【００６１】次に、上記第１実施形態と異なる動作を行
う基準ピッチ読出部６５およびピッチ補正部６８の動作
について説明する。ピッチ補正処理部６内の基準ピッチ
読出部６５は、ピッチ補正スコア内の基準フレームのう
ち、アライメント処理部６４から供給される歌唱位置情
報によって特定される基準フレームに対応付けられた基
準ピッチ群を読み出してピッチ補正部６８に出力する。
例えば、歌唱位置情報によって図１２における基準フレ
ームＦｔ１が指定される場合には、当該基準フレームＦ
ｔ１に対応付けられた基準ピッチ群｛…、ｆＣ３、ｆＥ
３、ｆＧ３、ｆＣ４、ｆＥ４、ｆＧ４、…｝を読み出し
てピッチ補正部６８に出力する。

【００６２】ピッチ補正部６８は、基準ピッチ読出部６
５から出力される基準ピッチ群に含まれる各楽音のピッ
チのうち、ＳＭＳ部６７から供給される正弦波成分情報
（Ｆｉ、Ａｉ）のピッチＦｉと最も近いピッチを選択す
る。そして、正弦波成分情報内の周波数Ｆｉを、選択し
たピッチに置き換えて補正後正弦波情報として逆ＦＦＴ
部６９に出力する。例えば、上述したコード「Ｃ」に対
応する基準ピッチ群｛…、ｆＣ３、ｆＥ３、ｆＧ３、ｆ
Ｃ４、ｆＥ４、ｆＧ４、…｝が基準ピッチ読出部６５か
ら供給され、この基準ピッチ群に含まれるピッチのう
ち、ＳＭＳ部６７から供給される正弦波成分情報のピッ
チＦｉに最も近いピッチが「ｆＥ４」であったとする
と、ピッチ補正部６８は、正弦波成分情報のピッチＦｉ
を当該ピッチｆＥ４に置き換え、この結果得られた補正
後正弦波成分情報（ｆＥ４、Ａｉ）を逆ＦＦＴ部６９に
出力する。以後の動作は上記第１実施形態における動作
と同様である。

【００６３】ここで、図１３（ａ）〜（ｃ）を参照し
て、本実施形態におけるピッチ補正の具体例を説明す
る。図１３（ａ）は、ピッチ補正スコアに記憶された基
準ピッチ群の時間的な変化を例示する図であり、図１３
（ｂ）は歌唱音声のピッチの時間的な変化を例示する図
であり、図１３（ｃ）は補正後音声信号のピッチの時間
的な変化を例示する図である。なお、図１３（ｂ）およ
び（ｃ）においては、図１３（ａ）に示した基準ピッチ
群を破線で示している。

【００６４】図１３（ａ）に示す例では、時刻ｔ１〜ｔ
２までの各基準フレーム（歌詞「き」に対応）には、コ
ード「Ｃ」に対応する基準ピッチ群｛…、ｆＣ３、ｆＥ
３、ｆＧ３、ｆＣ４、…｝が対応付けられており、時刻
ｔ２〜ｔ３までの各基準フレーム（歌詞「の」に対応）
には、コード「Ｆ」に対応する基準ピッチ群｛…、ｆＣ
３、ｆＦ３、ｆＡ３、ｆＣ４、…｝が対応付けられてい
る。

【００６５】一方、図１３（ｂ）に例示するように、歌
唱者は、歌詞「き」を時刻ｔ１〜ｔ２’の間、ピッチＦ
１で歌唱し、歌詞「の」を時刻ｔ２’〜ｔ３の間、ピッ
チＦ２で歌唱し、歌詞「う」を時刻ｔ３〜ｔ４の間、ピ
ッチＦ３で歌唱したものとする。ここで、ピッチＦ１
は、コード「Ｃ」の基準ピッチ群のうちのピッチｆＧ３
に最も近く、ピッチＦ２は、コード「Ｆ」の基準ピッチ
群のうちのピッチｆＣ４に最も近く、ピッチＦ３は、コ
ード「Ｃ」の基準ピッチ群のうちのピッチｆＥ３に最も
近いものとする。

【００６６】この場合、図１３（ｃ）に示すように、歌
唱者が歌詞「き」を歌唱した区間である時刻ｔ１〜ｔ
２’の間は、歌唱音声のピッチは、ｆＧ３に補正され、
歌唱者が歌詞「の」を歌唱した区間である時刻ｔ２’〜
ｔ３の間は、歌唱音声のピッチはｆＣ４に補正され、歌
唱者が歌詞「う」を歌唱した区間である時刻ｔ３〜ｔ４
の間は、歌唱音声のピッチはｆＥ３に補正されることと
なる。

【００６７】上記第１実施形態においては、例えば基準
ピッチと同じ音階の楽音であるが、１オクターブ高い楽
音で歌唱した場合、音階としては本来歌唱すべき音階を
歌唱しているにもかかわらず、強制的に１オクターブ低
い楽音に補正されてしまうこととなる。すなわち、歌唱
者の歌唱音声と著しく異なるピッチに補正されることも
あり得るため、出力される音声が不自然になってしまう
ことも考えられる。これに対し、本実施形態によれば、
歌唱者が本来歌唱すべきピッチと著しく異なるピッチで
歌唱した場合であっても、当該歌唱音声と比較的近いピ
ッチの音声に補正することができるという利点がある。
すなわち、歌唱者の歌唱音声を、歌唱音声のピッチを反
映した音声に補正することができるのである。

【００６８】また、歌唱者が、本来歌唱すべきピッチと
異なるピッチで歌唱した場合であっても、本来歌唱すべ
き楽音とコード（和音）を構成する楽音に補正されるた
め、補正後の音声が、本来歌唱すべきピッチの音声と比
較して、それほど不自然に聞こえることがない。

【００６９】なお、本実施形態に係るカラオケ装置は、
以下のように構成してもよい。すなわち、例えば、複数
のマイクを当該カラオケ装置に接続し、そのうちのいず
れかのマイク（以下、「ピッチ補正マイク」という）か
ら供給される歌唱音声信号をピッチ補正処理部６に供給
する一方、その他のマイクから供給される歌唱音声信号
をピッチ補正処理部６を介することなく直接ミキサ７に
供給するようにしてもよい。そして、ミキサ７におい
て、ピッチ補正マイクから出力される補正後音声信号
と、その他のマイクから直接供給される歌唱音声信号
と、音源５から供給される楽音信号とをミキシングして
スピーカ８から出力するようにしてもよい。こうすれ
ば、ピッチ補正マイクを使った歌唱者の歌唱音声は、当
該歌唱者が適当に歌った場合であっても、本来歌唱すべ
き楽音と和音を構成するピッチの音声に補正されるか
ら、ピッチ補正マイク以外のマイクを使った歌唱者の歌
唱音声（本来歌唱すべきピッチの音声）と、違和感な
く、かつ容易にハーモニーを形成することができる。

【００７０】Ｃ：第３実施形態次に、本発明の第３実施形態に係るカラオケ装置につい
て説明する。なお、本実施形態に係るカラオケ装置は、
上記第１実施形態に係るカラオケ装置１の構成と比較し
て、ピッチ補正スコアの内容と、基準ピッチ読出部６５
およびピッチ補正部６８の動作のみが異なる。従って、
上記第１実施形態に係るカラオケ装置１の各部と共通す
る部分についてはその説明を省略する。

【００７１】上記第１実施形態に係るカラオケ装置にお
いては、ピッチ補正スコア内の基準ピッチは歌唱者が歌
唱すべきメロディを構成する楽音のピッチであり、歌唱
音声のピッチがこの基準ピッチに補正されるようにし
た。これに対し、本実施形態においては、ピッチ補正ス
コア内の基準ピッチが特定のスケールを構成する複数の
楽音のピッチ（以下、「基準ピッチ群」という）を含ん
でいる。

【００７２】図１４は、本実施形態におけるピッチ補正
スコアの構成を例示する図である。同図に示すように、
本実施形態におけるピッチ補正スコアは、基準フレーム
番号と、各基準フレームに対応付けられた基準ピッチ群
とから構成されている。本実施形態においては、この基
準ピッチ群は、スケールを構成する複数の楽音のピッチ
の集合である。すなわち、図１４に示す例では、基準フ
レームＦｔ１にはスケール「Ｃ」が対応付けられてお
り、このスケール「Ｃ」を構成する楽音「ド（…、Ｃ
３、Ｃ４、…）」、「レ（…、Ｄ３、Ｄ４、…）」、
「ミ（…、Ｅ３、Ｅ４、…）」、…、「シ（…、Ｂ３、
Ｂ４、…）」の各々のピッチが基準ピッチ群｛…、ｆＣ
３、ｆＤ３、ｆＥ３、…、ｆＢ３、ｆＣ４、ｆＤ４、
…｝として記憶されている。

【００７３】次に、上記第１実施形態と異なる動作を行
う基準ピッチ読出部６５およびピッチ補正部６８の動作
について説明する。ピッチ補正処理部６内の基準ピッチ
読出部６５は、ピッチ補正スコア内の基準フレームのう
ち、アライメント処理部６４から供給される歌唱位置情
報によって特定される基準フレームに対応付けられた基
準ピッチ群を読み出してピッチ補正部６８に出力する。
例えば、歌唱位置情報によって図１４における基準フレ
ームＦｔ１が指定される場合には、当該基準フレームＦ
ｔ１に対応付けられた基準ピッチ群｛…、ｆＣ３、ｆＤ
３、ｆＥ３、…、ｆＢ３、ｆＣ４、ｆＤ４、…｝を読み
出してピッチ補正部６８に出力する。

【００７４】ピッチ補正部６８は、基準ピッチ読出部６
５から出力される基準ピッチ群に含まれる各楽音のピッ
チのうち、ＳＭＳ部６７から供給される正弦波成分情報
（Ｆｉ、Ａｉ）のピッチＦｉと最も近いピッチを選択す
る。そして、正弦波成分情報内のピッチＦｉを、選択し
たピッチに置き換えて補正後正弦波情報として逆ＦＦＴ
部６９に出力する。例えば、上述したスケール「Ｃ」に
対応する基準ピッチ群｛…、ｆＣ３、ｆＤ３、ｆＥ３、
…、ｆＢ３、ｆＣ４、ｆＤ４、…｝が基準ピッチ読出部
６５から供給され、この基準ピッチ群に含まれるピッチ
のうち、ＳＭＳ部６７から供給される正弦波成分情報の
ピッチＦｉに最も近いピッチが「ｆＧ３」であったとす
ると、ピッチ補正部６８は、正弦波成分情報のピッチＦ
ｉを当該ピッチｆＧ３に置き換え、この結果得られた補
正後正弦波成分情報（ｆＧ３、Ａｉ）を逆ＦＦＴ部６９
に出力する。以後の動作は上記第１実施形態における動
作と同様である。

【００７５】ここで、図１５（ａ）〜（ｃ）を参照し
て、本実施形態におけるピッチ補正の具体例を説明す
る。図１５（ａ）は、ピッチ補正スコアに記憶された基
準ピッチ群の時間的な変化を例示する図であり、図１５
（ｂ）は歌唱音声のピッチの時間的な変化を例示する図
であり、図１５（ｃ）は補正後音声信号のピッチの時間
的な変化を例示する図である。なお、図１５（ｂ）およ
び（ｃ）においては、図１５（ａ）に示す基準ピッチ群
を破線で示している。

【００７６】図１５（ａ）に示す例では、時刻ｔ１〜ｔ
２までの各基準フレーム（歌詞「き」に対応）には、ス
ケール「Ｃ」を構成する楽音のピッチの集合である基準
ピッチ群｛…、ｆＣ３、ｆＤ３、ｆＥ３、ｆＦ３、ｆＧ
３、ｆＡ３、ｆＢ３、ｆＣ４、…｝が対応付けられてお
り、時刻ｔ２〜ｔ３までの各基準フレーム（歌詞「の」
に対応）には、スケール「Ａ」を構成する楽音のピッチ
の集合である基準ピッチ群｛…、ｆＡ３、ｆＢ３、ｆＣ
＃４、ｆＤ４、ｆＥ４、ｆＦ＃４、ｆＧ＃４、ｆＡ４、
…｝が対応付けられている。

【００７７】一方、図１５（ｂ）に例示するように、歌
唱者は、歌詞「き」を時刻ｔ１〜ｔ２’の間、ピッチＦ
１で歌唱し、歌詞「の」を時刻ｔ２’〜ｔ３の間、ピッ
チＦ２で歌唱し、歌詞「う」を時刻ｔ３〜ｔ４の間、ピ
ッチＦ３で歌唱したものとする。ここで、ピッチＦ１
は、スケール「Ｃ」の基準ピッチ群のうちのピッチｆＧ
３に最も近く、ピッチＦ２は、スケール「Ａ」の基準ピ
ッチ群のうちのピッチｆＢ４に最も近く、ピッチＦ３
は、スケール「Ｃ」の基準ピッチ群のうちのピッチｆＤ
３に最も近いものとする。

【００７８】この場合、図１５（ｃ）に示すように、歌
唱者が歌詞「き」を歌唱した区間である時刻ｔ１〜ｔ
２’の間は、歌唱音声のピッチは、ｆＧ３に補正され、
歌唱者が歌詞「の」を歌唱した区間である時刻ｔ２’〜
ｔ３の間は、歌唱音声のピッチはｆＢ４に補正され、歌
唱者が歌詞「う」を歌唱した区間である時刻ｔ３〜ｔ４
の間は、歌唱音声のピッチはｆＤ３に補正されることと
なる。本実施形態においても、上記第２実施形態と同様
の効果が得られる。

【００７９】Ｄ：変形例以上この発明の一実施形態について説明したが、上記実
施形態はあくまでも例示であり、上記実施形態に対して
は、本発明の趣旨から逸脱しない範囲で様々な変形を加
えることができる。変形例としては、例えば以下のよう
なものが考えられる。

【００８０】＜変形例１＞上記第１実施形態において
は、歌唱すべきメロディを構成する楽音のピッチを基準
ピッチとしたが、基準ピッチの態様はこれに限られるも
のではない。例えば、演奏対象となる楽曲の歌手の歌唱
音声（以下、「基準歌唱音声」という）に基づいてピッ
チ補正スコアを作成するようにしてもよい。具体的に
は、以下の通りである。まず、楽曲の歌手の基準歌唱音
声を複数の基準フレーム毎に区切り、各基準フレーム毎
に当該歌唱音声の基本周波数を求める。そして、この基
準歌唱音声の基本周波数を基準ピッチとして各基準フレ
ームに対応付けたピッチ補正スコアを作成するのであ
る。上記第１実施形態に示したように、歌唱者が歌唱す
べきメロディのピッチを基準ピッチとした場合には、補
正後の歌唱音声が単調になってしまうことも考えられる
が、本変形例のように、歌唱者の歌唱音声を基準歌唱音
声のピッチに補正するようにすれば、このようなことが
なくなる。

【００８１】＜変形例２＞ピッチ補正スコアをユーザが
任意に作成できるようにしてもよい。すなわち、例え
ば、ピッチ補正スコア内の各基準フレームに対応付けら
れる基準ピッチまたは基準ピッチ群を、ユーザが任意に
設定できるようにしてもよい。また、上記各実施形態に
おいて示したピッチ補正スコアを、ユーザが任意に変更
できるようにしてもよい。

【００８２】＜変形例３＞上記各実施形態および上記変
形例１または２で示した各ピッチ補正スコアのうちのい
ずれかを、ユーザが任意に選択できるようにしてもよ
い。すなわち、歌唱者が歌唱すべきメロディのピッチを基準ピッチと
して用いたピッチ補正スコア（第１実施形態）楽曲中のコードを構成する楽音のピッチを基準ピッチ
群として用いたピッチ補正スコア（第２実施形態）楽曲中のスケールを構成する楽音のピッチを基準ピッ
チ群として用いたピッチ補正スコア（第３実施形態）楽曲の歌手の歌唱音声に基づいて作成されたピッチ補
正スコア（変形例１）ユーザが任意に作成したピッチ補正スコア（変形例
２）の各々をピッチ補正スコア記憶部６６に記憶しておき、
ユーザが操作部に対して所定の操作を行うことにより、
これらのピッチ補正スコアのうちのいずれかを選択でき
るようにしてもよい。この場合、ピッチ補正処理部６内
の基準ピッチ読出部６５は、ユーザによって選択された
ピッチ補正スコアから基準ピッチ（群）を読み出してピ
ッチ補正部６８に出力するようにすればよい。こうする
ことにより、歌唱者の好みに合ったピッチ補正を行うこ
とができるという利点がある。なお、上記ピッチ補正ス
コアの選択は、楽曲の演奏に先立って行うようにしても
よいし、楽曲の演奏中に行うようにしてもよい。

【００８３】＜変形例４＞上記各実施形態においては、
歌唱音声のピッチをピッチ補正スコアに従って補正する
ようにしたが、これに加え、補正後の歌唱音声に対して
音程および音量の微細変化を付加するようにしてもよ
い。本変形例は、以下のようにして実現することができ
る。

【００８４】図１６は、本変形例に係るカラオケ装置
１’の構成を示すブロック図である。同図に示すよう
に、本変形例に係るカラオケ装置１’は、前掲図１に示
したカラオケ装置１における逆ＦＦＴ部６９とミキサ７
との間に微細変化付加部７０を介挿した構成となってい
る。それ以外の各部は、上記第１実施形態におけるカラ
オケ装置１と同様であるから、その説明を省略する。

【００８５】本変形例におけるピッチ補正スコアには、
歌唱音声に付加すべき音程または音量の微細変化を指定
するための音程微細変化情報および音量微細変化情報が
含まれている。この音程微細変化情報および音量微細変
化情報は、例えば、音程または音量の微細変化の周波数
と振幅とを含む情報である。ここで、音程または音量の
微細変化の１周期は、基準フレームの長さよりも十分大
きいため、複数の基準フレームにわたって同じ音程微細
変化情報および音量微細変化情報が対応付けられてい
る。基準ピッチ読出部６５は、アライメント処理部６４
から供給される歌唱位置情報によって特定される基準フ
レームの基準ピッチを読み出してピッチ補正部６８に出
力するとともに、当該基準フレームに対応付けられた音
程微細変化情報および音量微細変化情報を読み出して微
細変化付加部７０に出力する。そして、微細変化付加部
７０は、逆ＦＦＴ部６９から供給される補正後音声信号
に対し、音程微細変化情報によって指定される音程の微
細変化、および音量微細変化情報によって指定される音
量の微細変化を付加してミキサ７に出力する。

【００８６】図１７は、本変形例における微細変化付加
部７０から出力される音声信号の音程の様子を示す図で
ある。なお、図１７においては、前掲図１１（ｃ）に示
した補正後音声信号が逆ＦＦＴ部６９から出力されたも
のとし、微細変化付加部７０が、この補正後音声信号に
対して、音程微細変化情報に従った音程の微細変化を付
した場合の出力信号を模式的に例示している。なお、図
１７においては、逆ＦＦＴ部６９からの出力信号を破線
で示している。また、図１７においては、音声信号に対
して付加した音程の微細変化のみを示したが、音量につ
いても同様の微細変化が付加される。

【００８７】上記各実施形態においては、歌唱音声が一
定のピッチに補正されるため、出力される音声が単調に
（機械的に）なってしまうことも考えられるが、本変形
例によれば、音程または音量の微細変化を付した音声が
出力されるので、このようなことがなくなる。

【００８８】

【発明の効果】以上説明したように、本発明によれば、
歌唱者の歌唱位置に対応した基準フレームの基準ピッチ
を用いて歌唱音声を補正するため、例えば歌唱者による
歌唱位置が本来の歌唱位置とずれている場合であって
も、かかる歌唱タイミングのずれの影響を受けることな
く、自然なピッチ補正を行うことができる。

【図面の簡単な説明】

【図１】本発明の第１実施形態に係るカラオケ装置の
全体構成を示すブロック図である。

【図２】同カラオケ装置におけるピッチ補正スコアの
構成を例示する図である。

【図３】同カラオケ装置におけるＳＭＳ分析について
説明するための図である。

【図４】同カラオケ装置におけるアライメント処理部
の構成を示すブロック図である。

【図５】同カラオケ装置における符号帳の内容を例示
する図である。

【図６】同カラオケ装置において用いられる音素につ
いて説明するための図である。

【図7】同カラオケ装置における確率データについて
説明するための図である。

【図８】同カラオケ装置における音素記述列を例示す
る図である。

【図９】隠れマルコフモデルについて説明するための
図である。

【図１０】同カラオケ装置におけるアライメントの具
体例を示す図である。

【図１１】同カラオケ装置におけるピッチ補正の様子
を例示する図である。

【図１２】本発明の第２実施形態に係るカラオケ装置
におけるピッチ補正スコアの構成を例示する図である。

【図１３】同カラオケ装置におけるピッチ補正の様子
を例示する図である。

【図１４】本発明の第３実施形態に係るカラオケ装置
におけるピッチ補正スコアの構成を例示する図である。

【図１５】同カラオケ装置におけるピッチ補正の様子
を例示する図である。

【図１６】本発明の変形例に係るカラオケ装置の全体
構成を示すブロック図である。

【図１７】同カラオケ装置における微細変化付加部の
出力信号を例示する図である。

【図１８】従来のカラオケ装置におけるピッチ補正の
様子を例示する図である。

【符号の説明】

１，１’……カラオケ装置、２……マイク（入力手
段）、３……楽曲データ記憶部、４……シーケンサ、５
……音源、６……ピッチ補正処理部（音声処理装置）、
６１……音声信号切出部、６２……分析窓生成部、６３
……ＦＦＴ部、６４……アライメント処理部（アライメ
ント手段）、６４１……特徴パラメータ分析部（量子化
手段）、６４２……シンボル量子化部（量子化手段）、
６４３……音素辞書記憶部（音素列記憶手段、音素情報
記憶手段）、６４４……音素列状態形成部（状態形成手
段）、６４５……状態遷移決定部（状態遷移決定手
段）、６４６……アライメント部（探索手段）、６５…
…基準ピッチ読出部（周波数補正手段）、６６……ピッ
チ補正スコア記憶部（記憶手段）、６７……ＳＭＳ部、
６８……ピッチ補正部（周波数補正手段）、６９……逆
ＦＦＴ部、７０……微細変化付加部（微細変化付加手
段）、７……ミキサ、８……スピーカ。

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１２年２月８日（２０００．２．８）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】００３７

【補正方法】変更

【補正内容】

【００３７】ここで、１パスビタビアルゴリズムについ
て説明する。下記式におけるΨ_t（ｊ）は、時刻ｔに対
応する歌唱フレームまでの観測を踏まえて算出した、１
つのパスを経由して得られる時刻ｔの歌唱フレームにお
けるベスト確率δ_t（ｊ）を最大とする状態を選択す
る。すなわち、Ψ_t（ｊ）に従って音素状態が遷移して
いく。初期演算としてδ₁（ｉ）＝１とし、繰り返し演
算として

【数２】を実行する。ここで、ａ_ijは状態ｉから状態ｊへの状態
遷移確率であり、Ｎは歌唱する曲の音韻数によって決ま
る状態ｉ、ｊのとりうる最大の状態数である。また、ｂ
_j（Ｏ_t）は特徴ベクトルの時刻ｔにおけるシンボル発生
確率である。各観測シンボルは、歌唱音声から抽出され
た特徴ベクトルであるから、歌唱者の発声態様によって
観測シンボルが異なり、遷移の態様も異なるようにな
る。

フロントページの続き (72)発明者ペドロケイノスペインバルセロナ 08002 メルセ 12 Ｆターム(参考） 5D015 BB02 HH22 KK02 5D045 AA07 BA01 DA11 5D108 BA32 BA39 BB06 BF01 BF06

Claims

【特許請求の範囲】

【請求項１】歌唱者の歌唱音声を入力する入力手段
と、楽曲を時間軸上で分割した複数の基準フレームの各々に
対応付けられた基準周波数を含む周波数補正スコアを記
憶した記憶手段と、前記入力手段から入力される歌唱音声を歌唱フレームに
順次分割し、分割により得られた歌唱フレームに対応し
た基準フレームを探索するアライメント手段と、前記記憶手段に記憶された周波数補正スコアに含まれる
基準周波数のうち、前記アライメント手段によって探索
された基準フレームの基準周波数を読み出し、読み出し
た基準周波数に基づいて前記分割により得られた歌唱フ
レームの周波数を補正する周波数補正手段とを具備する
ことを特徴とする音声処理装置。
【請求項２】前記周波数補正スコアに含まれる基準周
波数は、前記複数の基準フレームの各々において歌唱者
が歌唱すべき楽音の周波数であることを特徴とする請求
項１に記載の音声処理装置。
【請求項３】前記周波数補正スコアの各基準フレーム
毎の基準周波数は、複数の楽音の周波数を含み、前記周波数補正手段は、前記アライメント手段によって
探索された基準フレームの基準周波数に含まれる複数の
楽音の周波数のうち、前記歌唱フレームの周波数に最も
近い周波数となるように、当該歌唱フレームの周波数を
補正することを特徴とする請求項１に記載の音声処理装
置。
【請求項４】前記複数の楽音は、コードを構成する複
数の楽音であることを特徴とする請求項３に記載の音声
処理装置。
【請求項５】前記複数の楽音は、スケールを構成する
複数の楽音であることを特徴とする請求項３に記載の音
声処理装置。
【請求項６】前記周波数補正手段による補正後の歌唱
音声に対して、音程または音量の微細変化を付加する微
細変化付加手段を具備することを特徴とする請求項１〜
５のいずれか１の請求項に記載の音声処理装置。
【請求項７】前記アライメント手段は、歌唱音声の音
素と楽曲の歌詞に対応した音素とを対比することにより
各歌唱フレームに対応した基準フレームを探索すること
を特徴とする請求項１〜６のいずれか１の請求項に記載
の音声処理装置。
【請求項８】前記アライメント手段は、楽曲の音素列を記憶する音素列記憶手段と、歌唱音声の代表的なパラメータを特徴ベクトルとして所
定数のシンボルにクラスタ化した符号帳と、各音素毎の
状態遷移確率および前記各シンボルの観測確率とを記憶
する音素情報記憶手段と、前記分割により得られた歌唱フレームを特徴パラメータ
分析し、前記音素情報記憶手段に記憶された符号帳に基
づいて当該歌唱フレームの特徴パラメータをシンボル量
子化して当該歌唱フレームの観測シンボルとする量子化
手段と、前記音素情報記憶手段に記憶された状態遷移確率および
観測確率に基づいて、前記音素列記憶手段に記憶された
音素列の各状態を有限状態ネットワーク上で隠れマルコ
フモデルによって形成する状態形成手段と、前記量子化手段によって量子化された観測シンボルと、
前記状態形成手段によって形成された前記隠れマルコフ
モデルに従って、１パスビタビアルゴリズムによって状
態遷移を決定する状態遷移決定手段と、決定した前記歌唱音声の状態遷移に基づいて、各歌唱フ
レームに対応した基準フレームを探索する探索手段とを
具備することを特徴とする請求項１〜７のいずれか１の
請求項に記載の音声処理装置。
【請求項９】請求項１〜８のいずれか１の請求項に記
載の音声処理装置と、楽曲データに従って楽音信号を生成して出力する音源
と、前記楽音信号と前記音声処理装置から出力される補正後
の歌唱音声とをミキシングして出力する出力手段とを具
備することを特徴とするカラオケ装置。