JP2009169103A

JP2009169103A - 練習支援装置

Info

Publication number: JP2009169103A
Application number: JP2008007098A
Authority: JP
Inventors: Eiko Kobayashi; 詠子小林; Takuro Sone; 卓朗曽根
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-01-16
Filing date: 2008-01-16
Publication date: 2009-07-30

Abstract

【課題】歌唱者が自身の歌唱をどのように修正すればよいかを聴覚的に認識することのできる技術を提供する。
【解決手段】カラオケ装置１のＣＰＵ１１は、模範音声データと練習者音声データとを区切データの示す区間毎に時間軸方向に対応付ける。このとき、ＣＰＵ１１は、区切データの示す区間内の模範音声データと、区切データの示す区間よりも大きい区間内の練習者音声データとの対応付けを行う。次いで、ＣＰＵ１１は、対応付け結果に応じて、練習者音声データのピッチを、当該ピッチに対応する模範音声データのピッチに一致させるようにシフトするとともに、練習者音声データの区間（音節）の区間長を、当該区間に対応する模範音声データの区間の区間長に一致させるように、当該区間を時間軸方向に圧縮又は伸長する。音声処理部１８はＣＰＵ１１から供給される練習者音声データをアナログ信号に変換し、スピーカ１９から放音させる。
【選択図】図１

Description

本発明は、練習支援装置に関する。

近年、カラオケ装置において、歌唱者の歌唱の巧拙を採点するための方法が種々提案されている。例えば、特許文献１には、ユーザ入力の音声信号に基づく音声データから、所定のフレーム毎のピッチを抽出し、フレーム毎に抽出されたピッチと、楽音データに基づく音高とを比較し、ユーザの音声のピッチの正確さを判定する方法が提案されている。このように歌唱の巧拙を採点するカラオケ装置においては、採点結果である点数を画面に表示するものが一般的である。
特開２００５−１２８３７２号公報

ところで、歌唱者が自身の歌唱のどの部分をどのように修正すればよいかが音で認識できれば好適である。しかしながら、従来の採点方法においては、点数が表示されるだけであるため、歌唱者は自身の歌唱をどのように修正すればよいかを音で認識することはできなかった。これは楽曲の歌唱に限らず、楽器の演奏についても同様である。また、これは歌唱や演奏に限らず、語学学習の際の発音練習等についても同様である。
本発明は上述した背景の下になされたものであり、練習者が自身の歌唱、演奏又は発音をどのように修正すればよいかを聴覚的に認識することのできる技術を提供することを目的とする。

上述した課題を解決するため、本発明は、模範音声データを記憶するとともに、該模範音声データにおける時間軸方向の区切位置を示す区切情報を記憶する記憶手段と、前記記憶手段に記憶された区切情報の示す区切位置で区切られる第１の区間のそれぞれについて、該第１の区間を含む第２の区間を特定する区間特定手段と、前記第１の区間のそれぞれについて、該第１の区間内の模範音声データと該第１の区間について前記区間特定手段によって特定された第２の区間内の練習者音声データとを時間軸方向に対応付ける対応付手段と、前記対応付手段の対応付け結果に応じて、前記第１の区間のそれぞれについて、該第１の区間の模範音声データに対応する前記練習者音声データの区間を第３の区間として特定する対応区間特定手段と、前記対応付手段の対応付け結果に応じて、前記練習者音声データのピッチを、当該ピッチに対応する前記模範音声データのピッチに一致させるようにシフトするピッチシフト手段と、前記対応付手段の対応付け結果に応じて、前記練習者音声データにおける前記第３の区間の区間長を、当該第３の区間に対応する模範音声データの前記第１の区間の区間長に一致させるように、当該第３の区間を時間軸方向に圧縮又は伸長するタイムストレッチ手段と、前記ピッチシフト手段によりピッチをシフトされるとともに前記タイムストレッチ手段により時間軸方向に圧縮又は伸長された練習者音声データを放音手段に出力する出力手段とを備えることを特徴とする練習支援装置を提供する。

本発明の好ましい態様において、前記模範音声データの前記第１の区間の区間長と該第１の区間に対応する前記練習者音声データの前記第３の区間の区間長との比を算出する区間長比算出手段と、前記区間長比算出手段により算出された比に応じて、区間毎の模範音声と練習者音声の対応箇所を所定時間長のフレーム単位で特定する対応箇所特定手段とを備え、前記ピッチシフト手段は、前記対応箇所特定手段の特定結果に応じて、前記練習者音声データの示す練習者音声のピッチを、当該ピッチに対応する模範音声のピッチに一致させるようにシフトしてもよい。

また、本発明の更に好ましい態様において、前記記憶手段は、該記憶手段に記憶された区切情報に対応する第２の区切情報を記憶し、前記区間特定手段は、前記記憶手段に記憶された区切情報に対応する第２の区切情報の示す区切り位置で区切られる区間を前記第２の区間として特定してもよい。

また、本発明の別の好ましい態様において、前記練習者音声データのテンポを検出するテンポ検出手段を備え、前記区間特定手段は、前記記憶手段に記憶された区切情報の示す区切位置を前記テンポ検出手段によって検出されたテンポに応じて変更したときの区間を前記第２の区間として特定してもよい。

また、本発明の更に好ましい態様において、前記対応付手段は、前記第１の区間のそれぞれについて、該第１の区間内の模範音声データと該第１の区間について前記区間特定手段によって特定された第２の区間内の練習者音声データとを時間軸方向に対応付け、該対応付け結果が予め定められた条件を満たさない場合に、該第２の区間を時間軸方向に拡張し、拡張した第２の区間内の練習者音声データと該第１の区間内の模範音声データとの対応付けを行ってもよい。

また、本発明の別の好ましい態様において、前記記憶手段は、該記憶手段に記憶された区切情報の少なくともいずれか一つについて、該区切情報と他の区切情報との対応関係を記憶し、前記対応付手段は、前記第１の区間のそれぞれについて、該第１の区間内の模範音声データと該第１の区間について前記区間特定手段によって特定された第２の区間内の練習者音声データとを時間軸方向に対応付け、該対応付手段による対応付け結果が予め定められた条件を満たさない場合に、該第１の区間に対応する他の第１の区間を前記記憶手段に記憶された対応関係を参照して特定し、特定した他の第１の区間内の模範音声データと該第２の区間内の練習者音声データとの対応付けを行ってもよい。

また、本発明の更に好ましい態様において、前記ピッチシフト手段は、前記対応箇所特定手段の特定結果に応じて、前記模範音声のピッチに対応する練習者音声のピッチが検出されたフレームにおいては、検出されたピッチを当該ピッチに対応する模範音声のピッチに一致させるようにシフトし、一方、ピッチが検出されなかったフレームにおいては、当該フレームに近接するフレームのピッチで当該フレームのピッチを補間してもよい。

本発明によれば、練習者が自身の歌唱、演奏又は発音をどのように修正すればよいかを聴覚的に認識することができる。

次に、この発明を実施するための最良の形態を説明する。
＜Ａ：構成＞
図１は、この発明の一実施形態である楽曲練習支援装置としてのカラオケ装置１のハードウェア構成を例示したブロック図である。ＣＰＵ（Central Processing Unit）１１は
、ＲＯＭ（Read Only Memory）１２または記憶部１４に記憶されているコンピュータプログラムを読み出してＲＡＭ（Random Access Memory）１３にロードし、これを実行することにより、カラオケ装置１の各部を制御する。記憶部１４は、例えばハードディスクなどの大容量の記憶手段であり、伴奏・歌詞データ記憶領域１４ａと、区切データ記憶領域１４ｂと、模範音声データ記憶領域１４ｃと、練習者音声データ記憶領域１４ｄとを有している。表示部１５は、例えば液晶ディスプレイなどであり、ＣＰＵ１１の制御の下で、カラオケ装置１を操作するためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。操作部１６は、各種のキーを備えており、押下されたキーに対応した信号をＣＰＵ１１へ出力する。マイクロフォン１７は、練習者が発声した音声を収音し、アナログ音声信号を出力する。音声処理部１８は、マイクロフォン１７が出力するアナログ音声信号をＡ／Ｄ変換によりデジタル音声データに変換してＣＰＵ１１に出力する。スピーカ１９は、音声処理部１８で、デジタル音声データからＤ／Ａ変換されて出力されるアナログ音声信号に応じた強度で放音する。

なお、この実施形態では、マイクロフォン１７とスピーカ１９とがカラオケ装置１に含まれている場合について説明するが、音声処理部１８に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロフォンを接続するとしても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロフォン１７から音声処理部１８へ入力される音声信号及び音声処理部１８からスピーカ１９へ出力される音声信号がアナログ音声信号である場合について説明するが、デジタル音声データを入出力するようにしても良い。このような場合には、音声処理部１８にてＡ／Ｄ変換やＤ／Ａ変換を行う必要はない。表示部１５、操作部１６についても同様であり、カラオケ装置１に内蔵される形式であってもよく、外付けされる形式であってもよい。

記憶部１４の伴奏・歌詞データ記憶領域１４ａには、楽曲の伴奏を行う各種楽器の演奏音が楽曲の進行に伴って記された伴奏データと、楽曲の歌詞を示す歌詞データとが関連付けられて記憶されている。伴奏データは、例えばＭＩＤＩ（Musical Instruments Digital Interface）形式などのデータ形式であり、練習者がカラオケ歌唱する際に再生される。歌詞データは、そのカラオケ歌唱の際に歌詞テロップとして表示部１５に表示される。

模範音声データ記憶領域１４ｃには、例えばＷＡＶＥ形式やＭＰ３（MPEG1 Audio Layer-3）形式などの音声データであって、伴奏データによって表される伴奏に従って歌唱者が歌唱した音声（以下、模範音声）を表す音声データ（以下、模範音声データ）が記憶されている。

区切データ記憶領域１４ｂには、模範音声データ記憶領域１４ｃに記憶された模範音声データの示す模範音声に含まれる音節（区間）毎の区切り位置を示す区切データが記憶されている。本実施形態においては、この区切データは、各区間の開始時刻を示す情報である。記憶部１４の練習者音声データ記憶領域１４ｄには、マイクロフォン１７から音声処理部１８を経てＡ／Ｄ変換された音声データが、例えばＷＡＶＥ形式やＭＰ３形式で、伴奏開始からの経過時間を表す情報と共に時系列に記憶される。この音声データは、練習者の音声（以下、練習者音声）を表す音声データであるから、以下では、練習者音声データという。

次に、図２に示すブロック図を参照しながら、カラオケ装置１のソフトウェア構成について説明する。図２に示した基礎分析部１１１、ピッチシフト指示情報生成部１１２、タイムストレッチ指示情報生成部１１３、加工処理部１１４及び出力部１１５は、ＣＰＵ１１がＲＯＭ１２又は記憶部１４に記憶されたコンピュータプログラムを実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示したものである。

図２において、基礎分析部１１１は、模範音声データ記憶領域１４ｃから読み出された模範音声データと、練習者音声データ記憶領域１４ｄから読み出された練習者音声データとを、それぞれ所定時間長のフレーム単位で各音声データのピッチ及びスペクトルを検出する。スペクトルの検出にはＦＦＴ（Fast Fourier Transform）が用いられる。基礎分析部１１１によって検出された模範音声データのピッチと練習者音声データのピッチは、ピッチシフト指示情報生成部１１２に出力される。

また、基礎分析部１１１は、検出したスペクトルに基づいて模範音声データと練習者音声データとを時間軸方向に対応付ける。模範音声と練習者音声とは時間的に前後にずれている可能性がある。例えば、練習者が発音タイミングを間違えて歌唱した場合や、または、模範となる歌唱者が歌い始めや歌い終わりを意図的にずらして歌唱した場合などは、模範音声と練習者音声とは時間的に前後にずれている。このように模範音声と練習者音声とが時間的に前後にずれている場合であっても、両者を対応付けられるようにするため、練習者音声データの時間軸を伸縮させる時間正規化（ＤＴＷ：Dynamic Time Warping）を行い、両者の時間軸を合わせる。

このとき、基礎分析部１１１は、区切データ記憶領域１４ｂに記憶された区切データの示す区切位置で区切られる区間（以下「基準区間」という）を処理単位として対応付け処理を行う。このとき、基礎分析部１１１は、各基準区間内の模範音声データと、基準区間を含む区間、すなわち基準区間よりも大きい区間（以下「オーバーラップ区間」という）内の練習者音声データとの対応付けを行う。
図３は、対応付け処理の処理単位となる基準区間とオーバーラップ区間との関係を説明するための図である。図において、区間ｃｉ（ｉ＝１，２，…）は、基準区間（模範音声データを区切データ記憶領域１４ｂに記憶された区切データの示す区切位置で区切った際の各区間）を示している。また、区間ｄｉは、オーバーラップ区間を示している。図示のように、基礎分析部１１１は、基準区間ｃｉを前後に予め定められた時間長ずつ広げた区間をオーバーラップ区間ｄｉとして用いる。図示のように、オーバーラップ区間ｄｉは基準区間ｃｉを含み、また、それぞれのオーバーラップ区間ｄｉは、隣接するオーバーラップ区間ｄｉと互いにオーバーラップする関係となっている。

基礎分析部１１１は、基準区間内の模範音声データと、オーバーラップ区間内の練習者音声データとの対応付けを行う。具体的には、図３に示す例においては、基準区間ｃ１内の模範音声データとオーバーラップ区間ｄ１内の練習者音声データとが対応付けられ、基準区間ｃ２内の模範音声データとオーバーラップ区間ｄ２内の練習者音声データとが対応付けられる。

さて、上述の時間正規化（ＤＴＷ）を行うための手法としては、この実施形態ではＤＰ（Dynamic Programming：動的計画法）を用いる。ここで、このＤＴＷの具体的な処理の内容の一例について、図４を参照しつつ説明する。
基礎分析部１１１は、図４に示すような座標平面（以下、ＤＰプレーンという）をＲＡＭ１３に形成する。このＤＰプレーンの縦軸は、模範音声データの各フレームのスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータに対応しており、横軸は、練習者音声データの各フレームから得たスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータ（ケプストラム）に対応している。図４において、ａ１、ａ２、ａ３・・・ａｎは、模範音声データの各フレームを時間軸に従って並べたものであり、ｂ１、ｂ２、ｂ３・・・ｂｎは、練習者音声データの各フレームを時間軸に従って並べたものである。縦軸のａ１、ａ２、ａ３・・・ａｎの間隔と横軸のｂ１、ｂ２、ｂ３・・・ｂｎの間隔は、いずれもフレームの時間長と対応している。このＤＰプレーンにおける各格子点の各々には、ａ１、ａ２、ａ３・・・の各パラメータと、ｂ１、ｂ２、ｂ３・・・の各パラメータのユークリッド距離を夫々示す値であるＤＰマッチングスコアが対応付けられている。例えば、ａ１とｂ１とにより位置決めされる格子点には、模範音声データの一連のフレームのうち最初のフレームから得たパラメータと練習者音声データの一連のフレームのうち最初のフレームから得たパラメータのユークリッド距離を示す値が対応付けられることになる。基礎分析部１１１は、このような構造を成すＤＰプレーンを形成した後、ａ１とｂ１とにより位置決めされる格子点（始端）からａｎとｂｎとにより位置決めされる格子点（終端）に至る全経路を探索し、探索した各経路毎に、その始端から終端までの間に辿る各格子点のＤＰマッチングスコアを累算して行き、最小の累算値を求める。このＤＰマッチングスコアの累算値が最も小さくなる経路は、練習者音声データの各フレームの時間軸を模範音声データの時間軸に合わせて伸縮する際における伸縮の尺度として参酌される。

そして、基礎分析部１１１は、ＤＰマッチングスコアの累算値が最小となる経路をＤＰプレーン上から特定し、特定した経路の内容に応じて練習者音声データの時間軸を伸縮する処理であるアライメント処理を行う。具体的には、ＤＰプレーン上から特定された経路上の各格子点のＤＰマッチングスコアが時間軸上の位置を同じくするフレームから得たパラメータのユークリッド距離を表わすものとなるように、練習者音声データの各フレームのタイムスタンプの内容を書き換えた上で、時間軸上の位置を同じくする各フレームを組として順次対応付けていく。例えば、図４に示すＤＰプレーン上に記された経路においては、ａ１とｂ１により位置決めされる始点からその右上のａ２とｂ２により位置決めされる格子点に進んでいることが分かる。この場合、ａ２とｂ２のフレームの時間軸上の位置は当初から同じであるので、ｂ２のフレームのタイムスタンプの内容を書き換える必要はない。更に、この経路においては、ａ２とｂ２により位置決めされる格子点からその右のａ２とｂ３により位置決めされる格子点に進んでいることが分かる。この場合、ｂ２のフレームだけでなくｂ３のフレームもａ２のフレームと時間軸上の位置を同じくする必要があるので、ｂ３のフレームと対を成していたタイムスタンプをフレーム一つ分だけ早いものと置き換える。この結果、ａ２のフレームとｂ２及びｂ３のフレームが時間軸上の位置を同じくするフレームの組として対応付けられることになる。このようなタイムスタンプの置き換えとフレームの対応付けがｂ１からｂｎに至る全フレーム区間について行われる。これにより、練習者音声の発音タイミングと模範音声の発音タイミングとがずれていたとしても、合わせられた時間軸上の位置を同じくするフレーム（音素）どうしを対応付けることができる。
以上がＤＰマッチングの仕組みである。

上述したように、模範音声と練習者音声とは時間的に前後にずれている可能性がある。模範音声と練習者音声とが時間的に前後にずれている場合であっても、模範音声に対応付ける練習者音声のオーバーラップ区間をオーバーラップさせることで、マッチング処理の処理精度を向上させることができる。

図５は練習者音声と模範音声との対応付けの一例を示す図であり、図５（ａ）は練習者音声のピッチの時間的変化を示すグラフの一例を示すものであり、同図（ｂ）は模範音声のピッチの時間的変化を示すグラフの一例を示すものである。図においては、練習者音声の発音タイミングｔ１１と模範音声の発音タイミングｔ２１とが対応付けられ、練習者音声の発音タイミングｔ１２と模範音声の発音タイミングｔ２２とが対応付けられた様子を示している。
基礎分析部１１１によって検出された対応箇所は、ピッチシフト指示情報生成部１１２に出力されるとともに、とタイムストレッチ指示情報生成部１１３に出力される。

ピッチシフト指示情報生成部１１２は、模範音声データのピッチ、練習者音声データのピッチ、模範音声と練習者音声の対応箇所及び区切データに基づいて、練習者音声データのピッチと当該ピッチに対応する箇所における模範音声データのピッチとのピッチ差を示すピッチシフト指示情報を生成する。ピッチシフト指示情報生成部１１２によって生成されたピッチシフト指示情報は、加工処理部１１４に出力される。

タイムストレッチ指示情報生成部１１３は、基礎分析部１１１により検出された対応箇所と区切データとに基づいて、フレーム毎のタイムストレッチをかける程度を示すタイムストレッチ指示情報を生成する。タイムストレッチ指示情報生成部１１３により生成されたタイムストレッチ指示情報は、加工処理部１１４に出力される。

加工処理部１１４は、ピッチシフト指示情報生成部１１２により生成されたピッチシフト指示情報に基づいて練習者音声データのピッチをシフトするとともに、タイムストレッチ指示情報生成部１１３により生成されたタイムストレッチ指示情報に基づいて練習者音声データに対してタイムストレッチ処理を施し、練習者音声加工データを生成する。加工処理部１１４により生成された練習者音声加工データは、出力部１１５に出力される。
出力部１１５は、加工処理部１１４により生成された練習者音声加工データを音声処理部１８に出力する。

＜Ｂ：動作＞
次に、図６に示すフローチャートを参照しつつ、カラオケ装置１の動作を説明する。
練習者は、カラオケ装置１の操作部１６を操作して、歌唱したい楽曲を選択する操作を行い、楽曲の再生を指示する。操作部１６は操作された内容に応じた信号をＣＰＵ１１へ出力し、ＣＰＵ１１は、操作部１６から供給される信号に応じて、カラオケ伴奏を開始する（ステップＳ１）。すなわち、ＣＰＵ１１は、伴奏・歌詞データ記憶領域１４ａから伴奏データを読み出して音声処理部１８に供給し、音声処理部１８は、伴奏データをアナログ信号に変換し、スピーカ１９に供給して放音させる。また、ＣＰＵ１１は、伴奏・歌詞データ記憶領域１４ａから歌詞データを読み出して歌詞テロップを表示部１５に表示させる。
練習者は、スピーカ１９から放音される伴奏に合わせて歌唱を行う。このとき、練習者の音声はマイクロフォン１７によって収音されて音声信号に変換され、音声処理部１８へと出力される。音声処理部１８によってＡ／Ｄ変換された練習者音声データは、伴奏開始からの経過時間を表す情報と共に、練習者音声データ記憶領域１４ｄに時系列に記憶（録音）されていく（ステップＳ２）。

伴奏データの再生が終了すると、ＣＰＵ１１は、練習者音声データ記憶領域１４ｄに記憶された練習者音声データと、模範音声データ記憶領域１４ｃに予め記憶されている模範音声データに対して、上述した基礎分析部１１１の処理を行う。つまり、ＣＰＵ１１は、練習者音声データを所定時間長のフレーム単位でピッチ及びスペクトルを算出するとともに（ステップＳ３）、模範音声データを所定時間長のフレーム単位でピッチ及びスペクトルを算出する（ステップＳ４）。次いで、ＣＰＵ１１は、模範音声のスペクトルと練習者音声のスペクトルとに基づいて、練習者音声データの時間軸と模範音声データの時間軸とを合わせ、その時間軸上の位置を同じくする音どうしを対応付けることによって両者の対応箇所を検出する（ステップＳ５）。

次いで、ＣＰＵ１１は、上述したピッチシフト指示情報生成部１１２の処理を行う。つまり、ＣＰＵ１１は、模範音声データのピッチ、練習者音声データのピッチ、模範音声と練習者音声の対応箇所及び区切データに基づいてピッチシフト指示情報を生成する（ステップＳ６）。

ここで、ステップＳ６に示すピッチシフト指示情報生成処理の詳細について、図７に示すフローチャートを参照しつつ以下に説明する。
図７において、ＣＰＵ１１は、まず、ステップＳ５の処理によって検出された模範音声と練習者音声の対応関係に基づいて、区切データ記憶領域１４ｂに記憶された区切データの示す各区間の開始時刻に対応する時刻を算出し、模範音声の区間（基準区間（第１の区間））の区間長とその区間に対応する練習者音声の区間（第３の区間）の区間長との比を算出する（ステップＳ６１）。すなわち、ＣＰＵ１１は、区切データ記憶領域１４ｂに記憶された区切データとステップＳ５の処理によって検出された模範音声データと練習者音声データの対応関係に応じて、模範音声と練習者音声とを区間毎に対応付け、各区間毎に、模範音声の区間長と練習者音声の区間長との比を算出する。

ここで、ステップＳ６１に示す処理の具体例について、図８を参照しつつ以下に説明する。図８において、グラフＧ１は、模範音声のピッチの時間的な変化を示すグラフの一例であり、グラフＧ２は、練習者音声のピッチの時間的な変化を示すグラフの一例である。区切データ記憶領域１４ｂに記憶された区切データの示す区間毎の区切り位置（区間の開始時刻）が、図８のｔ１，ｔ２の位置である場合には、ＣＰＵ１１は、ステップＳ５において検出された対応関係に基づいて、練習者音声において区切データの示す区切り位置と対応する位置ｔ２１，ｔ２２を算出する。次いで、ＣＰＵ１１は、ｔ１〜ｔ２の区間長Ｔ１と、ｔ２１〜ｔ２２の区間長Ｔ２との比を算出する。

次いで、ＣＰＵ１１は、練習者音声に含まれる各ピッチ要素について、そのピッチ要素の区間における位置を算出する（ステップＳ６２）。次いで、ＣＰＵ１１は、ステップＳ６１で算出した比に応じて、区間毎の模範音声と練習者音声の対応箇所をフレーム単位で特定し、ステップＳ６２で算出された練習者音声の各ピッチ要素の位置に対応する位置（時刻）に模範音声のピッチ要素があるか否かを判定する（ステップＳ６３）。具体的には、例えば、ＣＰＵ１１は、ステップＳ６１で算出した比で比例配分することによって、ステップＳ６２で算出した各ピッチ要素の位置に対応する模範音声の位置を特定する。具体的には、例えば、図８に示す例において、練習者音声におけるピッチ要素の位置ｐ１に対応する模範音声の位置をｐ２とすると、
Ｔ１：Ｔ２＝（ｐ１−ｔ１）：（ｐ２−ｔ２１）
であるから、
ｐ２＝ｔ２１＋Ｔ２／Ｔ１（ｐ１−ｔ１）
として算出される。

ステップＳ６３において、模範音声の区間中の対応する位置にピッチ要素があると判定された場合、すなわち、練習者音声において特定された位置に対応する模範音声の位置でピッチが検出された場合には（ステップＳ６３；ＹＥＳ）、ＣＰＵ１１は、対応する模範音声のピッチ要素のピッチを算出する（ステップＳ６４）。一方、模範音声の区間中の対応する位置にピッチ要素がないと判定された場合には（ステップＳ６３；ＮＯ）、ＣＰＵ１１は、模範音声においてステップＳ６３で特定されたフレームに近接するフレームのピッチで当該フレームのピッチを補間する（ステップＳ６５）。この補間処理は、例えば線形補間などによって行う。

次いで、ＣＰＵ１１は、ステップＳ６４又はステップＳ６５で算出されたピッチと練習者音声のピッチ要素との差値が閾値以上であるか否かを判定する（ステップＳ６６）。閾値以上であると判定された場合には（ステップＳ６６；ＹＥＳ）、ＣＰＵ１１は、その差値を示す情報をピッチシフト指示情報として生成し、生成したピッチシフト指示情報を出力する（ステップＳ６７）。一方、ステップＳ６６において、閾値未満であると判定された場合には、ＣＰＵ１１は、ピッチシフト指示情報を生成せずに、ステップＳ６８の処理に進む。次いで、ＣＰＵ１１は、次のピッチ要素があるか否かを判定し（ステップＳ６８）、次のピッチ要素があると判定された場合には（ステップＳ６８；ＹＥＳ）、ＣＰＵ１１は、ステップＳ６２の処理に戻って、次のピッチ要素について上述したステップＳ６２からステップＳ６７の処理を実行する。一方、次のピッチ要素がないと判断された場合には（ステップＳ６８；ＮＯ）、ＣＰＵ１１は、そのまま処理を終了する。

ところで、歌唱音声の場合は、持続される同じ発音の部分（例えばフレーズの末尾部分等）が存在する。この持続部分では発音内容が同じであるため、模範音声と練習者音声との対応箇所の検出結果をそのままアライメント（対応付け）すると、例えば図９の時刻ｔ２２１〜ｔ２２２の区間に示されるように、グラフＧ２１によって示される模範音声とグラフＧ２２によって示される練習者音声とのアライメント先がばらつく場合がある。このような場合には、単純にアライメント先のピッチを参照してピッチシフトを行うと、加工後のピッチは、図９のグラフＧ２３に示されるような、模範音声のピッチのなめらかな変化を反映できないものとなってしまう場合があった。これに対し本実施形態においては、ＣＰＵ１１が区切データ記憶領域１４ｂに記憶された区切データを用いて、区間長の比に応じて対応付けを行うから、図８のグラフＧ３に示すような、模範音声のなめらかな変化を反映したピッチシフト処理を施すことができる。
また、音節の区切りのみが記憶されており、音素の区切りが記憶されていない場合、音声のピッチの抽出状況を以って、発音内容の対応をつけてもよい。これは、持続される母音部分はピッチが抽出されるのに対して、子音部分はピッチが抽出されないことが多いためである。

図６の説明に戻る。ピッチシフト指示情報生成処理（ステップＳ６）に次いで、ＣＰＵ１１は、上述したタイムストレッチ指示情報生成部１１３の処理を行う。すなわち、ＣＰＵ１１は、対応箇所と区切データとに基づいて、タイムストレッチ指示情報をフレーム毎に生成する（ステップＳ７）。

次いで、ＣＰＵ１１は、上述した加工処理部１１４の処理を行う。つまり、ＣＰＵ１１は、練習者音声データ記憶領域１４ｄに記憶された練習者音声データのピッチを、ピッチシフト指示情報に基づいて、練習者音声のピッチを模範音声のピッチに一致させるようにシフトするとともに、タイムストレッチ指示情報に基づいて、練習者音声の発音時間（第３の区間の区間長）を模範音声の発音時間（基準区間（第１の区間）の区間長）に一致させるように、練習者音声データを時間軸方向に圧縮又は伸長し、練習者音声加工データを生成する（ステップＳ８）。
なお、ステップＳ８においては、ＣＰＵ１１は、ピッチシフト処理を行った後にタイムストレッチ処理を行うようにしてもよく、または、タイムストレッチ処理を施した後にピッチシフト処理を行うようにしてもよい。または、練習者音声データに対して時系列に、ピッチシフト処理とタイムストレッチ処理とを並行して行うようにしてもよい。

ＣＰＵ１１は、生成された練習者音声加工データを音声処理部１８に出力する（ステップＳ９）。音声処理部１８は、練習者音声加工データをアナログ信号に変換し、スピーカ１９から放音させる。

このように、練習者音声データに対してピッチシフト処理を施すことによって、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出すいわゆる「ビブラート」や、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていくいわゆる「しゃくり」など、模範音声で用いられている様々な技法を練習者音声に反映させることができる。また、練習者音声データに対してタイムストレッチ処理を施すことによって、練習者の発音タイミングのずれを補正したり、または、模範音声において歌い始めや歌い終わりを意図的にずらすいわゆる「つっこみ」や「ため」などの技法が用いられている場合であっても、それらの技法を練習者音声に反映させることができる。出力される音声の声質は練習者の音声の声質と同様であるから、練習者は、放音される音声を聴くことで、自身が正しく歌った場合のイメージを持つことができる。

また、この実施形態によれば、ＣＰＵ１１が、ＤＰマッチング処理を行う際に、模範音声と練習者音声のマッチングをとるための対象フレーズ（区間）をオーバーラップさせるから、これにより、模範音声と練習者音声のマッチングをとる際に生ずるタイミングずれを考慮し、練習者が楽曲の進行を極端にずらした場合にも対応することができる。

＜Ｃ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
（１）上述した実施形態においては、練習者の歌唱練習を支援する場合を例に挙げて説明したが、これに限らず、練習者の楽器演奏の練習や語学学習などの発音練習を支援するようにしてもよい。楽器演奏の練習の場合には、伴奏・歌詞データ記憶領域１４ａには、練習したい楽器（例えばギター）以外の楽器（例えばベースやドラム）の演奏データが記憶されており、模範音声データ記憶領域１４ｃには、模範となる模範演奏データが記憶されており、練習者音声データ記憶領域１４ｄには、練習者の演奏音を表す演奏データが記憶される。練習者は練習したい楽器を演奏し、その演奏音はマイクロフォン１７によって収音されて音声信号に変換され、音声処理部１８でデジタル信号に変換されて練習者音声データ記憶領域１４ｄに記憶される。また、区切データ記憶領域１４ｂには、模範音声データの表す演奏音に含まれる各音の開始時刻や終了時刻などの音の区切り位置を示す情報が記憶される。ＣＰＵ１１は、これらのデータに基づき、上記と同様の処理を経て練習者音声加工データを生成して放音する。

（２）上述した実施形態では、練習者音声データを記憶する際には歌詞を表示し、さらに伴奏データを再生しながら練習者に歌唱させる、所謂カラオケ歌唱を行うようにしていたが、これは必ずしも必要ではない。つまり、練習者が歌詞の表示や伴奏データの再生が無いままで歌唱し、これを録音して練習者加工データを生成するようにしてもよい。

（３）上述した実施形態においては、模範音声データを模範音声データ記憶領域１４ｃに記憶させて、カラオケ装置１のＣＰＵ１１が記憶部１４から模範音声データを読み出すようにしたが、これに代えて、通信ネットワークを介して模範音声データを受信するようにしてもよい。
または、模範音声データそのものを記憶しておくようにせず、模範音声のピッチやスペクトルを示すデータを記憶させておくようにしてもよい。この場合は、カラオケ装置のＣＰＵは、模範音声のピッチ、スペクトルの算出処理を行わず、記憶部に記憶されたピッチデータやスペクトルデータに基づいて、対応箇所の検出やピッチシフト処理、タイムストレッチ処理を施す。
また、上述した実施形態では、マイクロフォン１７で練習者の音声を収音して音声処理部１８が練習者音声データを生成するようにしたが、これに代えて、通信ネットワークを介して練習者音声データを受信するようにしてもよく、または、ＵＳＢ（Universal Serial Bus）等のインタフェースを介して練習者音声データを入力するようにしてもよい。要するに、カラオケ装置のＣＰＵに練習者音声データを入力するものであればどのようなものであってもよい。

（４）上述した実施形態においては、音節毎の開始時刻を示す情報を区切情報として用いたが、区切情報は音節毎の開始時刻を示す情報に限らず、音節毎の開始時刻と終了時刻とを示す情報であってもよく、または、例えば予め定められた音符単位の開始時刻または終了時刻を示す情報であってもよい。要するに、音節、音符、フレーズなどの予め定められた区間の区切り位置を示す情報であればどのようなものであってもよい。

（５）また、歌唱を行う場合においては、自分の音域に合わないなどの理由により、キーコントロールを行って歌唱を行う場合がある。この場合、正しい音声のキーが変わってくることから、ユーザにフィードバックする音声もキーコントロール後のキーに変える必要がある。この場合は、ＣＰＵは、操作部を介してキーコントロールの内容を示すキーコントロールデータの入力を受け付け、入力されたキーコントロールデータの示す内容に応じて模範音声データのピッチをシフトし、ピッチをシフトした模範音声データを記憶部に記憶しておいてもよい。

または、ＣＰＵ１１がピッチシフト指示情報を生成する処理において、ＣＰＵ１１が、操作部１６を介してキーコントロールの内容を示すキーコントロールデータの入力を受け付け（図２に鎖線で図示）、入力されたキーコントロールデータの示す内容をピッチシフト指示情報に算入するようにしてもよい。具体的には、ＣＰＵ１１が、模範音声と練習者音声のピッチの差値とキーコントロールデータの示す値との和を、ピッチシフト指示情報として生成してもよい。
また、タイムストレッチ処理についても同様であり、ＣＰＵ１１がタイムストレッチ指示情報を生成する処理において、ＣＰＵ１１が、操作部１６を介してテンポコントロールの内容を示すテンポコントロールデータの入力を受け付け（図２に鎖線で図示）、入力されたテンポコントロールデータの示す内容に応じて、模範音声データを時間軸方向に圧縮又は伸長するタイムストレッチ処理を行い、タイムストレッチ処理が施された模範音声データと練習者音声データとに応じて、タイムストレッチ指示情報を生成してもよい。

（６）上述した実施形態においては、ＣＰＵ１１がピッチシフト指示情報を生成するか否かの判定において、図７のステップＳ６６に示したように、予め定められた閾値と比較して判定を行うようにしたが、これに限らず、ピッチシフト指示情報を生成するか否かの判定を行わない構成としてもよい。

（７）上述した実施形態では、カラオケ装置１が、図２に示した機能の全てを実現するようになっていた。これに対し、通信ネットワークで接続された２以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のカラオケ装置１を実現するようにしてもよい。例えば、マイクロフォンやスピーカ、表示装置及び入力装置を備えるコンピュータ装置と、基礎分析部１１１、ピッチシフト指示情報生成部１１２、タイムストレッチ指示情報生成部１１３、加工処理部１１４及び出力部１１５を実現するサーバ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。この場合は、コンピュータ装置が、マイクロフォンから入力された音声を音声データに変換してサーバ装置に送信し、サーバ装置が、受信した音声データと模範音声データ及び区切データとに基づいて練習者音声データを加工し、生成された練習者音声加工データをコンピュータ装置に送信するようにすればよい。

（８）上述の実施形態におけるカラオケ装置１のＣＰＵ１１によって実行されるプログラムは、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどの、コンピュータが読取可能な記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置１にダウンロードさせることも可能である。
上述した実施形態におけるカラオケ装置１のＣＰＵ１１によって実行されるプログラムの概要は以下のとおりである。
「模範音声データを記憶するとともに、該模範音声データにおける時間軸方向の区切位置を示す区切情報を記憶する記憶手段を備えるコンピュータに、前記記憶手段に記憶された区切情報の示す区切位置で区切られる第１の区間のそれぞれについて、該第１の区間を含む第２の区間を特定する区間特定機能と、前記第１の区間のそれぞれについて、該第１の区間内の模範音声データと該第１の区間について前記区間特定機能により特定された第２の区間内の練習者音声データとを時間軸方向に対応付ける対応付機能と、前記対応付機能の対応付け結果に応じて、前記第１の区間のそれぞれについて、該第１の区間の模範音声データに対応する前記練習者音声データの区間を第３の区間として特定する対応区間特定機能と、前記対応付機能の対応付け結果に応じて、前記練習者音声データのピッチを、当該ピッチに対応する前記模範音声データのピッチに一致させるようにシフトするピッチシフト機能と、前記対応付機能の対応付け結果に応じて、前記練習者音声データにおける前記第３の区間の区間長を、当該第３の区間に対応する模範音声データの前記第１の区間の区間長に一致させるように、当該第３の区間を時間軸方向に圧縮又は伸長するタイムストレッチ機能と、前記ピッチシフト機能によりピッチをシフトされるとともに前記タイムストレッチ機能により時間軸方向に圧縮又は伸長された練習者音声データを放音手段に出力する出力機能とを実現させるプログラム。」

また、上述した実施形態におけるカラオケ装置１の制御方法としての概要をまとめると、以下のとおりである。
「模範音声データを記憶するとともに、該模範音声データにおける時間軸方向の区切位置を示す区切情報を記憶する記憶手段と、制御手段とを備えた練習支援装置の制御方法であって、前記制御手段が、前記記憶手段に記憶された区切情報の示す区切位置で区切られる第１の区間のそれぞれについて、該第１の区間を含む第２の区間を特定するステップと、前記制御手段が、前記第１の区間のそれぞれについて、該第１の区間内の模範音声データと該第１の区間について特定された第２の区間内の練習者音声データとを時間軸方向に対応付けるステップと、前記制御手段が、対応付け結果に応じて、前記第１の区間のそれぞれについて、該第１の区間の模範音声データに対応する前記練習者音声データの区間を第３の区間として特定するステップと、前記制御手段が、対応付け結果に応じて、前記練習者音声データのピッチを、当該ピッチに対応する前記模範音声データのピッチに一致させるようにシフトするステップと、前記制御手段が、対応付け結果に応じて、前記練習者音声データにおける前記第３の区間の区間長を、当該第３の区間に対応する模範音声データの前記第１の区間の区間長に一致させるように、当該第３の区間を時間軸方向に圧縮又は伸長するステップと、前記制御手段が、ピッチをシフトされるとともに時間軸方向に圧縮又は伸長された練習者音声データを放音手段に出力するステップとを備えることを特徴とする制御方法。」

（９）上述の実施形態では、オーバーラップ区間として、基準区間を前後に予め定められた時間長ずつ広げた区間を用いた。オーバーラップ区間の特定方法はこれに限らず、基準区間を含む区間であればどのようなものであってもよい。例えば、区切データ記憶領域１４ｂに記憶された区切データに対応する練習者区切データを記憶部１４に予め記憶させておき、ＣＰＵ１１が、区切データに対応する練習者区切データの示す区切位置で区切られる区間をオーバーラップ区間として特定するようにしてもよい。練習者区切データとしては、具体的には、例えば、楽曲の流れにおいて歌唱者がテンポずれを起こし易い箇所や、一呼吸前に飛び出してしまいやすい箇所、間延びしてしまう箇所等、歌唱者の歌唱ずれが生じうると考えられる箇所において、区切位置をずらすためのデータを用いてもよい。この場合、ＣＰＵ１１が、予め記憶された練習者区切データに応じたオーバーラップ区間を用いてマッチング処理を行うことによって、歌唱者の歌唱のテンポずれ等によってタイミングずれが生じた場合であっても、マッチングの処理精度を向上させることができる。

また、ＣＰＵ１１が、練習者音声データからテンポを検出し、検出したテンポに応じてオーバーラップ区間を動的に変更するようにしてもよい。この場合は、ＣＰＵ１１が、区切データ記憶領域１４ｂに記憶された区切データの示す区切位置を、検出したテンポに応じて変更した場合に示される区間をオーバーラップ区間として用いればよい。練習者音声データのテンポの検出としては、例えば、ＣＰＵ１１が、フレーム単位でのマッチング結果を用いて、対応箇所の両者の時間的な差分からテンポを算出するようにしてもよく、また、例えば、ＣＰＵ１１が練習者音声データに対してビート検出処理を行い、検出されたビートからテンポを検出するようにしてもよい。

（１０）上述の実施形態において、ＣＰＵ１１が、マッチング処理を行った際に、マッチング結果が著しく悪い場合には、オーバーラップ区間を広げてマッチング処理をやり直すようにしてもよい。すなわち、ＣＰＵ１１が、基準区間内の模範音声データとオーバーラップ区間内の練習者音声データとを時間軸方向に対応付け、対応付け結果が予め定められた条件を満たさない場合に、オーバーラップ区間を拡張し、拡張したオーバーラップ区間内の練習者音声データと基準区間内の模範音声データとの対応付けを行うようにしてもよい。

また、歌唱者がフレーズを飛ばして歌唱してしまう場合等、歌唱位置を誤って歌唱してしまう場合があり得る。このような場合に対応するために、例えば、サビ部分の区間を示す区切データを複数関連付けておき、マッチング結果が著しく悪い場合には、その区間に関連付けられた他の区間の模範音声データを用いてマッチング処理を行うようにしてもよい。すなわち、区切データ記憶領域１４ｂに記憶された区切データの少なくともいずれか一つについて、その区切データと他の区切データとの対応関係を記憶部１４に予め記憶しておき、ＣＰＵ１１が、基準区間内の模範音声データとオーバーラップ区間内の練習者音声データとを時間軸方向に対応付け、対応付け結果が予め定められた条件を満たさない場合に、その基準区間に対応する他の基準区間を記憶部１４に記憶された対応関係を参照して特定し、特定した他の基準区間の模範音声データを用いてマッチング処理をやり直すようにしてもよい。この態様によれば、歌唱者がフレーズを飛ばして歌唱した場合等であっても、マッチング処理の処理精度を向上させることができる。

カラオケ装置のハードウェア構成の一例を示すブロック図である。カラオケ装置のソフトウェア構成の一例を示すブロック図である。基礎分析部１１１が行う対応付処理の内容を説明するための図である。ＤＰマッチングを示す図である。模範音声と練習者音声の対応関係の一例を示す図である。カラオケ装置のＣＰＵが行う処理の流れを示すフローチャートである。カラオケ装置のＣＰＵが行う処理の流れを示すフローチャートである。模範音声と練習者音声の対応関係の一例を示す図である。模範音声と練習者音声の対応関係の一例を示す図である。

符号の説明

１…カラオケ装置、１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…記憶部、１５…表示部、１６…操作部、１７…マイクロフォン、１８…音声処理部、１９…スピーカ。

Claims

模範音声データを記憶するとともに、該模範音声データにおける時間軸方向の区切位置を示す区切情報を記憶する記憶手段と、
前記記憶手段に記憶された区切情報の示す区切位置で区切られる第１の区間のそれぞれについて、該第１の区間を含む第２の区間を特定する区間特定手段と、
前記第１の区間のそれぞれについて、該第１の区間内の模範音声データと該第１の区間について前記区間特定手段によって特定された第２の区間内の練習者音声データとを時間軸方向に対応付ける対応付手段と、
前記対応付手段の対応付け結果に応じて、前記第１の区間のそれぞれについて、該第１の区間の模範音声データに対応する前記練習者音声データの区間を第３の区間として特定する対応区間特定手段と、
前記対応付手段の対応付け結果に応じて、前記練習者音声データのピッチを、当該ピッチに対応する前記模範音声データのピッチに一致させるようにシフトするピッチシフト手段と、
前記対応付手段の対応付け結果に応じて、前記練習者音声データにおける前記第３の区間の区間長を、当該第３の区間に対応する模範音声データの前記第１の区間の区間長に一致させるように、当該第３の区間を時間軸方向に圧縮又は伸長するタイムストレッチ手段と、
前記ピッチシフト手段によりピッチをシフトされるとともに前記タイムストレッチ手段により時間軸方向に圧縮又は伸長された練習者音声データを放音手段に出力する出力手段と
を備えることを特徴とする練習支援装置。
前記模範音声データの前記第１の区間の区間長と該第１の区間に対応する前記練習者音声データの前記第３の区間の区間長との比を算出する区間長比算出手段と、
前記区間長比算出手段により算出された比に応じて、区間毎の模範音声と練習者音声の対応箇所を所定時間長のフレーム単位で特定する対応箇所特定手段とを備え、
前記ピッチシフト手段は、前記対応箇所特定手段の特定結果に応じて、前記練習者音声データの示す練習者音声のピッチを、当該ピッチに対応する模範音声のピッチに一致させるようにシフトする
ことを特徴とする請求項１に記載の練習支援装置。
前記記憶手段は、該記憶手段に記憶された区切情報に対応する第２の区切情報を記憶し、
前記区間特定手段は、前記記憶手段に記憶された区切情報に対応する第２の区切情報の示す区切り位置で区切られる区間を前記第２の区間として特定する
ことを特徴とする請求項１又は２に記載の練習支援装置。
前記練習者音声データのテンポを検出するテンポ検出手段
を備え、
前記区間特定手段は、前記記憶手段に記憶された区切情報の示す区切位置を前記テンポ検出手段によって検出されたテンポに応じて変更したときの区間を前記第２の区間として特定する
ことを特徴とする請求項１又は２に記載の練習支援装置。
前記対応付手段は、前記第１の区間のそれぞれについて、該第１の区間内の模範音声データと該第１の区間について前記区間特定手段によって特定された第２の区間内の練習者音声データとを時間軸方向に対応付け、該対応付け結果が予め定められた条件を満たさない場合に、該第２の区間を時間軸方向に拡張し、拡張した第２の区間内の練習者音声データと該第１の区間内の模範音声データとの対応付けを行う
ことを特徴とする請求項１乃至４のいずれか１項に記載の練習支援装置。
前記記憶手段は、該記憶手段に記憶された区切情報の少なくともいずれか一つについて、該区切情報と他の区切情報との対応関係を記憶し、
前記対応付手段は、前記第１の区間のそれぞれについて、該第１の区間内の模範音声データと該第１の区間について前記区間特定手段によって特定された第２の区間内の練習者音声データとを時間軸方向に対応付け、該対応付手段による対応付け結果が予め定められた条件を満たさない場合に、該第１の区間に対応する他の第１の区間を前記記憶手段に記憶された対応関係を参照して特定し、特定した他の第１の区間内の模範音声データと該第２の区間内の練習者音声データとの対応付けを行う
ことを特徴とする請求項１乃至４のいずれか１項に記載の練習支援装置。
前記ピッチシフト手段は、前記対応箇所特定手段の特定結果に応じて、前記模範音声のピッチに対応する練習者音声のピッチが検出されたフレームにおいては、検出されたピッチを当該ピッチに対応する模範音声のピッチに一致させるようにシフトし、一方、ピッチが検出されなかったフレームにおいては、当該フレームに近接するフレームのピッチで当該フレームのピッチを補間する
ことを特徴とする請求項２に記載の練習支援装置。