JP2017049538A

JP2017049538A - カラオケ装置、及びカラオケシステム

Info

Publication number: JP2017049538A
Application number: JP2015174773A
Authority: JP
Inventors: 典昭阿瀬見; Noriaki Asemi
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2015-09-04
Filing date: 2015-09-04
Publication date: 2017-03-09
Anticipated expiration: 2035-09-04
Also published as: JP6406182B2

Abstract

【課題】不慣れな楽曲を歌唱するユーザーが、歌唱開始タイミングを容易に合わせられるように支援する技術の提供。【解決手段】カラオケ装置は、指定楽曲の楽譜データを取得し（Ｓ５２０）、その取得した楽譜データに基づいて指定楽曲を演奏する（Ｓ５５０）。さらに、指定楽曲の演奏中にマイクを介して入力された歌唱音声データを取得する（Ｓ５８０）。そして、取得した歌唱音声データと、楽譜データとに基づいて、音声を発した人物の指定楽曲に対する習熟の度合いを特定する（Ｓ６１０）。その特定した習熟の度合いが低いほど、対象音符の中の一部の音符である制御対象音が強調されるように、制御対象音を一音単位で制御する強調制御を実行する（Ｓ６２０，Ｓ６３０，Ｓ５５０）。なお、対象音符とは、指定楽曲において歌詞が割り当てられた音符である。【選択図】図７

Description

本発明は、楽譜データに基づいて楽曲を演奏する技術に関する。

従来、時間軸に沿って配置された複数の音符のうち少なくとも一部に歌詞が割り当てられた楽曲を演奏すると共に、その楽曲の演奏に併せてマイクを介して入力されたユーザーの歌唱音声をスピーカから出力するカラオケ装置が知られている（特許文献１参照）。

この特許文献１に記載のカラオケ装置においては、歌唱音声の音高推移と、楽曲における歌唱旋律の音高推移とを比較した結果、音高差が大きいほど、歌唱旋律の音量を大きくする。

特開平０３−２９３６９９号公報

ところで、特許文献１に記載されたカラオケ装置では、歌唱旋律を構成する全ての音符の音量を大きくすることで、ユーザーに音高推移を認識させるように支援をしている。しかしながら、歌唱旋律を構成する全ての音符の音量を大きくすると、音量が大きい聴覚情報の密度が増加し、ユーザーは、歌詞が割り当てられた音符に対し、どのタイミングでどの歌詞の言葉の発声を開始すればよいか分からず、歌唱開始タイミングを認識できない。カラオケ装置のユーザーは、不慣れな楽曲を歌唱する場合、音高推移を認識できないほか、歌詞が割り当てられた音符に対する歌唱開始タイミングを認識できないことにより、楽曲の進行に対して歌唱の遅れが生じるおそれがある。カラオケ装置のユーザーが、不慣れな楽曲に慣れるためには、音高を合わせるより先に、歌詞に割り当てられた音符に対する歌唱開始タイミングを認識させ、歌唱開始タイミングを合わせることが、より効果的である。

つまり、従来の技術では、ユーザーにとって不慣れな楽曲を歌唱する場合、歌詞が割り当てられた音符に対する歌唱開始タイミングを認識させ、楽曲の進行に対して歌唱開始タイミングを合わせることが困難であるという課題があった。

そこで、本発明は、不慣れな楽曲を歌唱するユーザーが、歌唱開始タイミングを容易に合わせられるように支援する技術を提供することを目的とする。

上記目的を達成するためになされた本発明は、楽譜データ取得手段と、演奏手段と、音声取得手段と、習熟度特定手段と、強調制御手段とを備える、カラオケ装置に関する。
楽譜データ取得手段は、時間軸に沿って配置された複数の音符のうち少なくとも一部に歌詞が割り当てられた楽曲の楽譜を表す楽譜データであって、指定された楽曲である指定楽曲の楽譜データを取得する。

演奏手段は、楽譜データ取得手段で取得した楽譜データに基づいて、指定楽曲を演奏する。音声取得手段は、演奏手段での指定楽曲の演奏中にマイクを介して入力された音声を表す歌唱音声データを取得する。

さらに、習熟度特定手段は、音声取得手段で取得した歌唱音声データと、楽譜データ取得手段で取得した楽譜データとに基づいて、音声を発した人物の指定楽曲に対する習熟の度合いを特定する。

強調制御手段は、指定楽曲において歌詞が割り当てられた音符を対象音符とし、習熟度特定手段で判定した習熟の度合いが低いほど、対象音符の中の一部の音符である制御対象音が強調されるように、当該制御対象音を一音単位で演奏手段を制御する強調制御を実行する。

このようなカラオケ装置では、制御対象音を一音単位で強調できる。制御対象音は、歌詞が割り当てられた音符の中の一部の音符である。
このため、カラオケ装置によれば、マイクを介して入力された音声を発した人物、即ち、ユーザーが指定楽曲について不慣れであれば、制御対象音を一音単位で強調できる。

そして、カラオケ装置において制御対象音が一音単位で強調されることにより、ユーザーは、対象楽曲における歌唱旋律を認識でき、対象楽曲を歌いやすくなる。
これらにより、カラオケ装置によれば、不慣れな楽曲をユーザーがスムーズに歌唱するように支援できる。

カラオケ装置の強調制御手段は、次の２つの音符のうちの少なくとも一方を制御対象音として強調制御を実行してもよい。
指定楽曲において拍節が開始される音符。

指定楽曲において拍節が開始される音符とは異なる音符であって、指定楽曲の歌詞を構成する形態素それぞれに含まれる音節の中で時間軸に沿った最初の音節が割り当てられた音符。

そして、前者の音符を制御対象音として強調制御を実行すれば、不慣れな楽曲であっても、ユーザーは、その楽曲のリズムを取りやすくなる。
また、後者の音符を制御対象音として強調制御を実行すれば、指定楽曲における拍節の開始音符と、歌詞を構成する形態素の開始位置とが不一致であっても、ユーザーは、その形態素が開始される音符を認識しやすくなる。

カラオケ装置における演奏手段は、楽譜データと、指定楽曲において模範とすべき歌声の推移を表す模範歌声データとに基づいて、指定楽曲の演奏および歌声を出力してもよい。

そして、強調制御手段は、制御対象音に割り当てられた歌詞を歌唱した模範歌声データを対象として、強調制御を実行する。
このようなカラオケ装置によれば、指定楽曲におけるリズムと、歌詞を構成する形態素の音節の開始位置とが不一致である場合に、その不一致な形態素の音節の開始位置をユーザーが認識しやすくなるように制御できる。これにより、ユーザーは、不慣れな楽曲について、より歌唱しやすくなる。

さらに、カラオケ装置では、遅延時間算出手段が、対象音符それぞれの演奏開始タイミングに対して発声の開始が遅れた時間を算出し、その算出した時間を累積した結果を発声遅延時間として算出してもよい。

そして、習熟度特定手段は、遅延時間算出手段で算出した発声遅延時間の増加率が大きいほど、習熟の度合いが低いものとしてもよい。
このようなカラオケ装置によれば、対象音符それぞれの演奏開始タイミングに対して発声の開始が遅れた時間を累積した結果を発声遅延時間とし、その発声遅延時間の増加率が大きいほど、習熟の度合いが低いものとすることができる。

また、カラオケ装置における音声取得手段は、指定楽曲の規定された区間である規定区間の演奏が終了するごとに、当該規定区間の歌唱音声データを取得してもよい。そして、習熟度特定手段は、音声取得手段で歌唱音声データを取得するごとに、習熟の度合いを特定してもよい。さらに、強調制御手段は、区間特定手段と、実行手段とを備えていてもよい。

このうち、区間特定手段は、指定楽曲において、音声取得手段で取得した歌唱音声データに対応する規定区間の旋律に類似する規定区間である類似区間を特定する。実行手段は、区間特定手段で特定した類似区間に含まれる制御対象音について強調制御を実行する。

このようなカラオケ装置によれば、ユーザーが歌唱中の指定楽曲についても、その指定楽曲に対する習熟の度合いを特定し、歌唱を終えた規定区間よりも時間軸に沿って後の類似区間に対して強調制御を実行できる。この結果、カラオケ装置によれば、ユーザーが歌唱中の指定楽曲であっても、ユーザーがスムーズに歌唱するように支援できる。

また、カラオケ装置では、強調データ取得手段が強調データを取得してもよい。ここで言う強調データとは、規定区間それぞれに含まれる制御対象音が強調されるように、規定区間それぞれに含まれる制御対象音の音圧の増幅率を表す強調ゲインと、各規定区間における旋律の類似度合いを表す類似度とを、規定区間ごとに対応付けたデータである。この強調データは、指定楽曲ごとに生成される。

強調データを取得する場合、区間特定手段は、強調データ取得手段で取得した強調データに基づいて、音声取得手段で取得した歌唱音声データに対応する規定区間と類似度が予め規定された閾値以上である他の規定区間を類似区間として特定してもよい。さらに、実行手段は、強調データ取得手段で取得した強調データのうちの制御対象音の音圧の増幅率に従って、制御対象音の音圧を増幅させることを、強調制御として実行してもよい。

このようなカラオケ装置によれば、強調データのうちの制御対象音の音圧の増幅率に従って強調制御を実行できる。
ところで、本発明は、データ生成装置と、カラオケ装置とを備える、カラオケシステムとしてなされていてもよい。

この場合、データ生成装置は、データ取得手段と、分割手段と、ゲイン設定手段と、類似度特定手段と、データ生成手段とを有する。
このうち、データ取得手段は、楽譜データを取得する。分割手段は、データ取得手段で取得した楽譜データを、規定された区間である規定区間ごとに分割する。そして、ゲイン設定手段は、分割手段で分割された規定区間それぞれに含まれる制御対象音が強調されるように、規定区間それぞれに含まれる制御対象音の音圧の増幅率を表す強調ゲインを設定する。

類似度特定手段は、分割手段で分割された規定区間ごとに、各規定区間における旋律の類似度を特定する。そして、データ生成手段は、ゲイン設定手段で設定された強調ゲインと、類似度特定手段で特定した規定区間における旋律の類似度とを、規定区間ごとに対応付けた強調データを生成する。

カラオケ装置は、楽譜データ取得手段と、演奏手段と、強調データ取得手段と、音声取得手段と、習熟度特定手段と、強調制御手段とを有する。
このようなカラオケシステムによれば、マイクを介して入力された音声を発した人物、即ち、ユーザーが指定楽曲について不慣れであれば、制御対象音を強調できる。すなわち、カラオケシステムによれば、不慣れな楽曲をユーザーがスムーズに歌唱するように支援できる。

カラオケシステムの概略構成を示すブロック図である。楽曲解析処理の処理手順を示すフローチャートである。（Ａ）は、音符間の休符長を説明する説明図であり、（Ｂ）は、規定区間を説明する説明図である。類似度マップの一例を示す図である。楽曲解析処理の処理手順の続きを示すフローチャートである。（Ａ）は楽曲解析処理にて設定する規定ゲインαを例示する図であり、（Ｂ）は楽曲解析処理にて設定する設定ゲインβを例示する図である。演奏処理の処理手順を示すフローチャートである。演奏処理における習熟の度合いの算出を説明する説明図である。

以下に本発明の実施形態を図面と共に説明する。
＜カラオケシステム＞
図１に示すカラオケシステム１は、情報処理装置２と、情報処理サーバ１０と、カラオケ装置３０とを備えている。

カラオケシステム１では、ユーザーによって指定された楽曲を演奏すると共に、ユーザーの習熟の度合いに従って、ユーザーによる当該楽曲の歌唱をサポートする。
その楽曲の歌唱のサポートに必要となる強調データＥＭは、楽曲の楽譜を表すＭＩＤＩ楽曲ＭＤ及びそのＭＩＤＩ楽曲によって表される楽曲のメロディラインを歌唱した歌唱音声を含む楽曲データＷＤに基づいて、情報処理装置２にて生成される。

ここで言う楽曲は、時間軸に沿って配置された複数の音符のうち少なくとも一部に歌詞が割り当てられた楽曲である。なお、以下では、カラオケ装置３０のユーザーによって指定された楽曲を指定楽曲と称す。

カラオケ装置３０は、情報処理サーバ１０に記憶されたＭＩＤＩ楽曲ＭＤに従って指定楽曲を演奏すると共に、その指定楽曲に対するユーザーの習熟の度合いに従って指定楽曲の演奏をサポートする。なお、カラオケシステム１は、複数のカラオケ装置３０を備えている。
＜楽曲データ＞
次に、楽曲データＷＤは、楽曲ごとに予め用意されたデータである。楽曲データＷＤは、楽曲管理情報と、歌唱音声データとを備えている。

楽曲管理情報は、楽曲を識別する情報であり、楽曲ごとに割り当てられた固有の識別情報である楽曲ＩＤを有する。
歌唱音声データは、歌唱旋律をプロの歌手が歌唱した歌唱音声を表すデータである。また、歌唱音声データは、非圧縮音声ファイルフォーマットの音声ファイルによって構成されたデータであっても良いし、音声圧縮フォーマットの音声ファイルによって構成されたデータであっても良い。
＜ＭＩＤＩ楽曲＞
ＭＩＤＩ楽曲ＭＤは、楽曲ごとに予め用意されたものであり、楽譜データと、歌詞データとを有している。

このうち、楽譜データは、周知のＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって、一つの楽曲の楽譜を表したデータである。この楽譜データは、楽曲ＩＤと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックとを有している。

そして、楽譜トラックには、ＭＩＤＩ音源から出力される個々の演奏音について、少なくとも、音高（いわゆるノートナンバー）と、ＭＩＤＩ音源が演奏音を出力する期間（以下、音価と称す）とが規定されている。楽譜トラックにおける音価は、当該演奏音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング（いわゆるノートオンタイミング）と、当該演奏音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング（いわゆるノートオフタイミング）とによって規定されている。

すなわち、楽譜トラックでは、ノートナンバーと、ノートオンタイミング及びノートオフタイミングによって表される音価とによって、１つの音符ＮＯが規定される。そして、楽譜トラックは、音符ＮＯが演奏順に配置されることによって、１つの楽譜として機能する。

本実施形態における楽譜トラックとして、少なくとも、歌唱旋律を表すメロディラインを担当する特定の楽器の楽譜トラックが用意されている。この特定の楽器の一例として、ヴィブラフォンが考えられる。

歌詞データは、楽曲の歌詞に関するデータである。歌詞データは、歌詞テロップデータと、歌詞割当データとを備えている。
歌詞テロップデータは、楽曲の歌詞を構成する文字（以下、歌詞構成文字とする）を表す。歌詞割当データは、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽譜データを構成する各音符の演奏と対応付けるタイミング対応関係が規定されたデータである。

具体的に、本実施形態におけるタイミング対応関係では、楽譜データの演奏を開始するタイミングに、歌詞テロップデータの出力を開始するタイミングが対応付けられている。さらに、タイミング対応関係では、楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、楽譜データの演奏開始からの経過時間によって規定されている。これにより、楽譜トラックに規定された個々の演奏音（即ち、音符ＮＯ）と、歌詞構成文字それぞれとが対応付けられる。
＜情報処理装置＞
情報処理装置２は、入力受付部３と、外部出力部４と、記憶部５と、制御部６とを備えた周知の情報処理装置である。情報処理装置２の一例として、パーソナルコンピュータが考えられる。

入力受付部３は、外部からの情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、可搬型の記憶媒体（例えば、ＣＤやＤＶＤ、フラッシュメモリ）に記憶されたデータを読み取る読取ドライブ、通信網を介して情報を取得する通信ポートなどである。外部出力部４は、外部に情報を出力する出力装置である。ここでの出力装置とは、可搬型の記憶媒体にデータを書き込む書込ドライブや、通信網に情報を出力する通信ポートなどである。

記憶部５は、記憶内容を読み書き可能に構成された周知の記憶装置である。記憶部５には、楽曲データＷＤが、その楽曲データＷＤでの発声内容を表すＭＩＤＩ楽曲ＭＤと対応付けて記憶されている。

制御部６は、ＲＯＭ７，ＲＡＭ８，ＣＰＵ９を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。
本実施形態のＲＯＭ７には、記憶部５に記憶されている楽曲データＷＤ及びＭＩＤＩ楽曲ＭＤに基づいて強調データＥＭを生成する楽曲解析処理を、制御部６が実行するための処理プログラムが記憶されている。
＜情報処理サーバ＞
情報処理サーバ１０は、通信部１２と、記憶部１４と、制御部１６とを備えている。

このうち、通信部１２は、通信網を介して、情報処理サーバ１０が外部との間で通信を行う。すなわち、情報処理サーバ１０は、通信網を介してカラオケ装置３０と接続されている。なお、ここで言う通信網は、有線による通信網であっても良いし、無線による通信網であっても良い。

記憶部１４は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部１４には、複数のＭＩＤＩ楽曲ＭＤと、各ＭＩＤＩ楽曲ＭＤによって表される楽曲の強調データＥＭとが同一の楽曲ごとに対応付けて記憶される。なお、図１に示す符号「ｎ」は、情報処理サーバ１０の記憶部１４に記憶されているＭＩＤＩ楽曲ＭＤを識別する識別子であり、楽曲ごとに割り当てられている。この符号「ｎ」は、１以上の自然数である。

制御部１６は、ＲＯＭ１８，ＲＡＭ２０，ＣＰＵ２２を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。
＜カラオケ装置＞
カラオケ装置３０は、通信部３２と、入力受付部３４と、楽曲再生部３６と、記憶部３８と、音声制御部４０と、映像制御部４６と、制御部５０とを備えている。

通信部３２は、通信網を介して、カラオケ装置３０が外部との間で通信を行う。入力受付部３４は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。

楽曲再生部３６は、情報処理サーバ１０からダウンロードしたＭＩＤＩ楽曲ＭＤに基づく楽曲の演奏を実行する。この楽曲再生部３６の一例として、周知のＭＩＤＩ音源が考えられる。

音声制御部４０は、音声の入出力を制御するデバイスである。音声制御部４０は、出力部４２と、マイク入力部４４とを備えている。マイク入力部４４には、マイク６２が接続される。これにより、マイク入力部４４は、マイク６２を介して入力された音声を取得する。出力部４２には、スピーカ６０が接続されている。出力部４２は、楽曲再生部３６によって再生される楽曲の音源信号、マイク入力部４４からの歌唱音の音源信号をスピーカ６０に出力する。スピーカ６０は、出力部４２から出力される音源信号を音に換えて出力する。

映像制御部４６は、制御部５０から送られてくるデータに基づく映像または画像の出力を行う。映像制御部４６には、映像または画像を表示する表示部６４が接続されている。
制御部５０は、ＲＯＭ５２，ＲＡＭ５４，ＣＰＵ５６を少なくとも有した周知のコンピュータを中心に構成されている。

本実施形態のＲＯＭ５２には、演奏処理を制御部５０が実行するための処理プログラムが記憶されている。演奏処理は、指定楽曲を演奏すると共に、その指定楽曲に対するユーザーの習熟の度合いに従って、ユーザーが歌いやすくなるように指定楽曲の演奏をサポートする処理である。
＜楽曲解析処理＞
情報処理装置２が実行する楽曲解析処理について説明する。

楽曲解析処理が起動されると、制御部６は、図２に示すように、まず、楽曲ＩＤを取得する（Ｓ１１０）。このＳ１１０にて取得する楽曲ＩＤは、強調データＥＭの生成対象となる楽曲を表す楽曲ＩＤである。本実施形態のＳ１１０では、制御部６は、入力受付部３を介して入力された楽曲に対応する楽曲ＩＤを取得すればよい。以下、Ｓ１１０で取得した楽曲ＩＤに対応する楽曲を特定楽曲と称す。

また、楽曲解析処理では、制御部６は、Ｓ１１０で取得した楽曲ＩＤが含まれるＭＩＤＩ楽曲ＭＤを取得する（Ｓ１２０）。そして、制御部６は、Ｓ１２０で取得したＭＩＤＩ楽曲ＭＤに含まれる歌詞割当データを取得する（Ｓ１３０）。

さらに、制御部６は、Ｓ１２０で取得したＭＩＤＩ楽曲ＭＤに含まれる楽譜データに従って、その楽譜データによって表される特定楽曲の歌唱旋律における音符間の休符長を算出する（Ｓ１４０）。ここで言う音符間の休符長とは、図３（Ａ）に示すように、時間軸に沿って連続する２つの音符のうち、時間軸に沿った前の音符の演奏終了タイミングから、時間軸に沿った後の音符の演奏開始タイミングまでの時間長である。

そして、制御部６は、Ｓ１４０にて算出した音符間の休符長のヒストグラムを求める（Ｓ１５０）。続いて、楽曲解析処理では、制御部６は、Ｓ１５０で求めたヒストグラムに基づいて、休符閾値を決定する（Ｓ１６０）。このＳ１６０では、制御部６は、例えば、音符間の休符長のヒストグラムにおいて、規定された有意水準に含まれる音符間の休符それぞれを、休符閾値として決定すればよい。

さらに、制御部６は、Ｓ１６０で決定した休符閾値それぞれで、特定楽曲の歌唱旋律を規定区間に区切る（Ｓ１７０）。すなわち、Ｓ１７０では、制御部６は、図３（Ｂ）に示すように、特定楽曲の歌唱旋律を休符閾値の終了タイミングで分割することで、複数の規定区間を特定する。ここで言う規定区間とは、指定楽曲において、休符閾値の終了タイミング間によって規定された区間それぞれである。

そして、楽曲解析処理では、制御部６は、Ｓ１７０で分割した規定区間の総数である区間数Ｍを特定する（Ｓ１８０）。さらに、制御部６は、判定主体区間ｊを初期値に設定する（Ｓ１９０）。ここで言う判定主体区間ｊとは、後述するＳ２００からＳ２６０までのステップにおいて、各規定区間との類似度を算出する比較主体としての区間であり、区間インデックスｊによって識別される規定区間である。区間インデックスｊとは、各規定区間を識別するインデックスである。本実施形態では、区間インデックスｊとして、特定楽曲の時間軸に沿って最初の規定区間にインデックス「０」が割り当てられ、以降、時間軸に沿って登場する規定区間ごとに１つずつインクリメントしたインデックスが割り当てられている。また、ここで言う初期値は、例えば「０」である。

続いて、楽曲解析処理では、制御部６は、判定主体区間ｊが区間数Ｍよりも小さいか否かを判定する（Ｓ２００）。このＳ２００での判定の結果、判定主体区間ｊが区間数Ｍ以上であれば（Ｓ２００：ＮＯ）、制御部６は、詳しくは後述するＳ２８０へと楽曲解析処理を移行させる。一方、Ｓ２００での判定の結果、判定主体区間ｊが区間数Ｍ未満であれば（Ｓ２００：ＹＥＳ）、制御部６は、楽曲解析処理をＳ２１０へと移行させる。

そのＳ２１０では、制御部６は、区間インデックスｊ＋１によって識別される規定区間を、類似判定区間ｋとして設定する。類似判定区間ｋとは、Ｓ２３０からＳ２５０までのステップにおいて、判定主体区間との類似度合いを表す類似度の算出対象となる区間である。

続いて、楽曲解析処理では、制御部６は、類似判定区間ｋが区間数Ｍよりも小さいか否かを判定する（Ｓ２２０）。このＳ２２０での判定の結果、類似判定区間ｋが区間数Ｍ以上であれば（Ｓ２２０：ＮＯ）、制御部６は、詳しくは後述するＳ２７０へと楽曲解析処理を移行させる。一方、Ｓ２２０での判定の結果、類似判定区間ｋが区間数Ｍ未満であれば（Ｓ２２０：ＹＥＳ）、制御部６は、楽曲解析処理をＳ２３０へと移行させる。

そのＳ２３０では、制御部６は、判定主体区間ｊと類似判定区間ｋとの相対音高差ベクトルＶＤの内積を算出する。ここで言う相対音高差ベクトルＶＤの内積とは、判定主体区間ｊに含まれる複数の音符であって時間軸に沿って互いに隣接する２つ音符間の音高差それぞれと、類似判定区間ｋに含まれる複数の音符であって時間軸に沿って隣接する音符間の音高差それぞれとのベクトルの内積である。

続いて、制御部６は、判定主体区間ｊと類似判定区間ｋとの相対時間比ベクトルＶＬの内積を算出する（Ｓ２４０）。ここで言う相対時間比ベクトルＶＬの内積とは、判定主体区間ｊに含まれる複数の音符であって時間軸に沿って互いに隣接する２つの音符間の音価それぞれと、類似判定区間ｋに含まれる複数の音符であって時間軸に沿って互いに隣接する２つの音符の音価それぞれとのベクトルの内積である。

さらに、制御部６は、下記（１）式に従って、Ｓ２３０で算出した相対音高差ベクトルＶＤの内積と、Ｓ２４０で算出した相対時間比ベクトルＶＬの内積との平均値Ｓを算出する（Ｓ２５０）。

さらに、Ｓ２５０では、制御部６は、算出した平均値Ｓを、判定主体区間ｊでの歌唱旋律に対する類似判定区間ｋでの歌唱旋律の類似度として記憶する。続いて、制御部６は、類似判定区間ｋを１つインクリメントして（Ｓ２６０）、楽曲解析処理をＳ２２０へと戻す。

なお、Ｓ２２０での判定の結果、類似判定区間ｋが区間数Ｍ以上である場合に移行されるＳ２７０では、制御部６は、判定主体区間ｊを１つインクリメントする。その後、制御部６は、楽曲解析処理をＳ２００へと戻す。

これらのＳ２００からＳ２７０までのステップを繰り返すことで、類似度マップが生成される。類似度マップは、図４に示すように、判定主体区間ｊに対する類似判定区間ｋそれぞれの類似度を表すマップとなる。

ところで、図５に示すように、判定主体区間ｊが区間数Ｍ以上である場合に移行するＳ２８０では、制御部６は、特定楽曲の歌唱旋律を構成する模範歌唱データの各音符の音量ゲイン及びフォルマント強調ゲインを初期化する。模範歌声データとは、指定楽曲において模範とすべき歌声の推移を表すデータであり、いわゆるガイドボーカルである。模範歌声データの生成方法としては、例えば、楽譜トラックによって表された歌唱旋律を構成する音符と各音符に割り当てられた歌詞の音素とに基づくフォルマント合成（即ち、音声合成）が考えられる。ここで言う音量ゲインとは、模範歌声データの音圧の増幅率である。また、ここで言うフォルマントゲインとは、模範歌声データにおけるフォルマントの強さの増幅率である。このフォルマントゲインによってフォルマントが強調されることで、模範歌声データにおける特定のフォルマントが強くなる。また、ここで言う初期化とは、例えば、「１」に設定することである。

なお、以下では、音量ゲインとフォルマントゲインとを併せて、強調ゲインと称す。
続いて、制御部６は、図６（Ａ）に示すように、特定楽曲において拍節が開始される音符それぞれの強調ゲインを、予め規定された規定値αに設定する（Ｓ２９０）。ここで言う拍節が開始される音符とは、各規定区間に含まれる少なくとも１つの音符のうち時間軸に沿った最初の音符である。また、ここで言う規定値αは、１よりも大きな値である。

さらに、制御部６は、Ｓ１２０で取得したＭＩＤＩ楽曲ＭＤに含まれる歌詞テキストデータを形態素解析する（Ｓ３００）。この形態素解析は、テキストを形態素に分割すると共に、各形態素が自立語である付属語であるかを判別する周知の処理である。

そして、制御部６は、Ｓ３００にて形態素解析を実施した結果に従って、特定楽曲の歌詞において時間軸に沿って順次登場する形態素の総数である形態素数Ｎをカウントする（Ｓ３１０）。

続いて、楽曲解析処理では、制御部６は、対象形態素ｉを初期値に設定する（Ｓ３２０）。対象形態素ｉとは、Ｓ３３０からＳ３７０までのステップを実行する対象としての形態素であり、形態素インデックスｉによって識別される形態素である。また、ここで言う形態素インデックスｉとは、特定楽曲に用いられている形態素を時間軸に沿って識別する識別子である。本実施形態では、形態素インデックスｉとして、例えば、特定楽曲の時間軸に沿って最初の形態素にインデックス「０」が割り当てられ、以降、時間軸に沿って登場する形態素ごとに１つずつインクリメントしたインデックスが割り当てられている。

そして、楽曲解析処理では、制御部６は、対象形態素ｉが形態素数Ｎ未満であるか否かを判定する（Ｓ３３０）。このＳ３３０での判定の結果、対象形態素ｉが形態素数Ｎ以上であれば（Ｓ３３０：ＮＯ）、制御部６は、詳しくは後述するＳ３８０へと楽曲解析処理を移行させる。一方、Ｓ３３０での判定の結果、対象形態素ｉが形態素数Ｎ未満であれば（Ｓ３３０：ＹＥＳ）、制御部６は、楽曲解析処理をＳ３４０へと移行させる。

そのＳ３４０では、制御部６は、対象形態素ｉが自立語であるか否かを判定する。この自立語であるか否かの判定は、Ｓ３００での形態素解析の結果に従って実施すればよい。
そして、Ｓ３４０での判定の結果、対象形態素ｉが自立語でなければ（Ｓ３４０：ＮＯ）、制御部６は、詳しくは後述するＳ３７０へと楽曲解析処理を移行させる。一方、Ｓ３４０での判定の結果、対象形態素ｉが自立語であれば（Ｓ３４０：ＹＥＳ）、制御部６は、その対象形態素ｉの開始音節が割り当てられた音符の強調ゲインが初期値であるか否かを判定する（Ｓ３５０）。ここで言う開始音節とは、対象形態素ｉを構成する各音節の中で、時間軸に沿って最初に登場する音節である。

このＳ３５０での判定の結果、開始音節が割り当てられた音符の強調ゲインが初期値でなければ（Ｓ３５０：ＮＯ）、制御部６は、楽曲解析処理をＳ３７０へと移行させる。一方、Ｓ３５０での判定の結果、開始音節が割り当てられた音符の強調ゲインが初期値であれば（Ｓ３５０：ＹＥＳ）、制御部６は、図６（Ｂ）に示すように、その開始音節が割り当てられた音符の強調ゲインを設定値βに設定する（Ｓ３６０）。ここで言う設定値βは、規定値αよりも大きな値であり、予め設定された値である。

続いて、楽曲解析処理では、制御部６は、対象形態素ｉを１つインクリメントする（Ｓ３７０）。その後、制御部６は、楽曲解析処理をＳ３３０へと戻す。
なお、Ｓ３３０での判定の結果、対象形態素ｉが形態素数Ｎ以上である場合に移行するＳ３８０では、制御部６は、強調データＥＭを生成して記憶部５に記憶する。

ここで言う強調データＥＭとは、特定楽曲の歌唱旋律を構成する音符であって、Ｓ２９０及びＳ３６０にて特定された制御対象音に対して設定された強調ゲインと、規定区間それぞれにおける旋律の類似度とを、規定区間ごとに対応付けたデータである。さらに、各強調データＥＭには、特定楽曲ごとに楽曲ＩＤが対応付けられている。

なお、ここで言う制御対象音とは、特定楽曲の歌唱旋律を構成し歌詞が割り当てられた音符であって、楽曲解析処理のＳ２９０で特定された規定区間における最初の音符、及びＳ３６０にて特定された開始音節が割り当てられた音符である。

また、Ｓ２９０で特定された規定区間における最初の音符は、特定楽曲において拍節が開始される音符である。そして、Ｓ３６０にて特定された開始音節が割り当てられた音符は、特定楽曲において拍節が開始される音符とは異なる音符であって、特定楽曲の歌詞を構成する形態素それぞれに含まれる音節の中で時間軸に沿った最初の音節が割り当てられた音符である。

その後、本楽曲解析処理を終了する。
すなわち、楽曲解析処理では、特定楽曲の楽譜データを規定区間ごとに分割し、その分割された規定区間それぞれに含まれる制御対象音が強調されるように強調ゲインを設定する。さらに、楽曲解析処理では、分割された規定区間ごとに、各規定区間における旋律の類似度を特定し、設定された強調ゲインと特定した規定区間における旋律の類似度とを規定区間ごとに対応付けることで、強調データＥＭを生成する。

なお、情報処理装置２の制御部６が楽曲解析処理を実行することで生成される強調データＥＭ及び類似度マップは、可搬型の記憶媒体を用いて情報処理サーバ１０の記憶部１４に記憶されても良い。情報処理装置２と情報処理サーバ１０とが通信網を介して接続されている場合には、情報処理装置２の記憶部５に記憶された強調データＥＭ及び類似度マップは、通信網を介して転送されることで、情報処理サーバ１０の記憶部１４に記憶されても良い。
＜演奏処理＞
次に、カラオケ装置３０の制御部５０が実行する演奏処理について説明する。

図７に示す演奏処理が起動されると、制御部５０は、まず、入力受付部３４を介して指定された楽曲（即ち、指定楽曲）の楽曲ＩＤを取得する（Ｓ５１０）。そして、制御部５０は、Ｓ５１０で取得した楽曲ＩＤを含むＭＩＤＩ楽曲ＭＤを、情報処理サーバ１０の記憶部１４から取得する（Ｓ５２０）。

続いて、演奏処理では、制御部５０は、Ｓ５１０で取得した楽曲ＩＤを含む強調データＥＭを取得する（Ｓ５３０）。続いて、演奏処理では、制御部５０は、演奏対象区間ｐを初期値に設定する（Ｓ５４０）。ここで言う演奏対象区間ｐとは、Ｓ５５０において演奏の対象とする規定区間であり、区間インデックスｐによって識別される規定区間である。なお、ここで言う区間インデックスｐは、区間インデックスｊと同じインデックスである。

そして、制御部５０は、ＭＩＤＩ楽曲ＭＤに基づいて演奏対象区間ｐを演奏する（Ｓ５５０）。このＳ５５０におけるＭＩＤＩ楽曲ＭＤに基づく演奏では、制御部５０は、楽曲再生部３６にＭＩＤＩ楽曲ＭＤを時間軸に沿って順次出力する。そのＭＩＤＩ楽曲ＭＤを取得した楽曲再生部３６は、楽曲の演奏を行う。そして、楽曲再生部３６によって演奏された楽曲の音源信号が、出力部４２を介してスピーカ６０へと出力される。すると、スピーカ６０は、音源信号を音に換えて出力する。

さらに、Ｓ５５０におけるＭＩＤＩ楽曲ＭＤに基づく指定楽曲の演奏では、模範歌声データを時間軸に沿って順次出力部４２に出力する。
続いて、演奏処理では、制御部５０は、演奏対象区間ｐが指定楽曲の区間数Ｍ未満であるか否かを判定する（Ｓ５６０）。このＳ５６０での判定の結果、演奏対象区間ｐが指定楽曲の区間数Ｍ以上であれば（Ｓ５６０：ＮＯ）、指定楽曲の演奏が終了しているため、制御部５０は、演奏処理を終了する。

一方、Ｓ５６０での判定の結果、演奏対象区間ｐが指定楽曲の区間数Ｍ未満であれば（Ｓ５６０：ＹＥＳ）、制御部５０は、演奏処理をＳ５７０へと移行させる。そのＳ５７０では、制御部５０は、演奏対象区間ｐの演奏が終了したか否かを判定する。

このＳ５７０での判定の結果、演奏対象区間ｐの演奏が終了していなければ（Ｓ５７０：ＮＯ）、制御部５０は、演奏処理をＳ５５０へと戻す。すなわち、制御部５０は、演奏対象区間ｐの演奏が終了するまで、Ｓ５５０からＳ５７０までのステップを繰り返す。一方、Ｓ５７０での判定の結果、演奏対象区間ｐの演奏が終了していれば（Ｓ５７０：ＹＥＳ）、制御部５０は、演奏処理をＳ５８０へと移行させる。

そのＳ５８０では、制御部５０は、マイク６２及びマイク入力部４４を介して入力された音声を歌唱音声データとして取得する（Ｓ５８０）。そして、制御部５０は、Ｓ５８０で取得した歌唱音声データに基づいて、その歌唱音声データによって表される歌唱音声の振幅を周知の手法により算出する（Ｓ５９０）。

続いて、演奏処理では、制御部５０は、Ｓ５８０で取得した歌唱音声データに基づいて、その歌唱音声データによって表される歌唱音声の基本周波数ｆ０を算出する（Ｓ６００）。この基本周波数ｆ０の算出方法として、以下の方法が考えられる。

本実施形態の基本周波数ｆ０の算出では、制御部５０は、歌唱音声データに規定時間窓を設定する。この規定時間窓は、予め規定された単位時間（例えば、１０［ｍｓ］）を有した分析窓であり、時間軸に沿って互いに隣接かつ連続するように設定される。続いて、制御部５０は、規定時間窓それぞれの歌唱音声データについて周波数解析（例えば、ＤＦＴ）を実施する。さらに、制御部５０は、自己相関の結果、最も強い周波数成分を基本周波数ｆ０とすることで、１つの規定時間窓に対して１つの基本周波数ｆ０を算出する。

続いて、演奏処理では、制御部５０は、下記（２）式に従って不慣度ＤＳを算出する（Ｓ６１０）。

（２）式に含まれるΔＶＤＴ（ｌ）は、図８に示すように、各対象音符の演奏開始タイミングに対する発声開始の遅れ時間である。ここで言う対象音符とは、歌唱旋律を構成する音符であって歌詞が割り当てられた音符である。

そして、ΔＶＤＴ（ｌ）を算出する方法として、発声開始タイミングと、各対象音符それぞれの演奏開始タイミングとの差分を、ΔＶＤＴ（ｌ）とすることが考えられる。なお、ここで言う発声開始タイミングとは、歌唱音声データによって表される歌唱音声の振幅が閾値以上となり、かつ、対象音符の音高と歌唱音声の音高との差が閾値以下となったタイミングである。この発声開始タイミングの特定方法は、周知であるため、ここでの詳しい説明は省略する。

また、（２）式における符号Ｑは、演奏対象区間に含まれる対象音符の個数から「１」を減算した数値である。また、（２）式における符号ｌは、演奏対象区間に含まれる対象音符を識別する識別子である。

すなわち、本実施形態においては、発声遅延時間を不慣度ＤＳとして算出する。ここで言う発声遅延時間とは、演奏対象区間ｐに含まれる対象音符それぞれの演奏開始タイミングに対して発声の開始が遅れた時間を累積した結果である。

さらに、演奏処理では、制御部５０は、演奏対象区間ｐの歌唱旋律に類似する歌唱旋律を有した規定区間である類似区間を特定する（Ｓ６２０）。具体的にＳ６２０では、制御部５０は、楽曲解析処理で求めた類似度マップに基づいて、演奏対象区間ｐの歌唱旋律との類似度が予め規定された閾値以上である他の規定区間を、類似区間として特定する。

続いて演奏処理では、制御部５０は、Ｓ６２０で特定した類似区間に含まれる制御対象音が一音単位で強調されるように、Ｓ６１０で求めた不慣度ＤＳ及び強調データＥＭに基づいて、規定値または設定値が設定された音符に対し、制御対象音として強調ゲインを設定する（Ｓ６３０）。具体的にＳ６３０では、制御部５０は、不慣度ＤＳが大きいほど、制御対象音の強調ゲインを大きくする。強調ゲインの音量ゲインおよびフォルマントゲインのうち、いずれかのゲインの値を大きくしてもよい。例えば、音量ゲインを大きくしてもよい。Ｓ６３０における強調ゲインの設定方法として、制御対象音の強調ゲインとしての規定値αや設定値βに対して、不慣度ＤＳが大きいほど大きい倍率を乗算することが考えられる。初期値ゲインが設定されている音符に対しては、１倍を乗算する。

さらに、演奏処理では、制御部５０は、演奏対象区間ｐを１つインクリメントする（Ｓ６６０）。その後、制御部５０は、演奏処理をＳ５５０へと移行させる。
そのＳ５５０では、演奏対象区間ｐが類似区間であれば、Ｓ６３０で設定された強調ゲインに従って、制御対象音に割り当てられた歌詞を歌唱した模範歌声データによって表される音の強さが大きくなるように演奏する強調制御を実行する。この場合のＳ５５０では、強調制御が実行され、制御対象音に割り当てられた歌詞を歌唱した模範歌声データによって表される音の強さが大きくなる。

すなわち、演奏処理では、指定楽曲に対するユーザーの習熟の度合いを、指定楽曲において歌唱されている規定区間ごとに算出する。そして、演奏処理では、演奏対象区間ｐの習熟度合いが低ければ、演奏対象区間ｐ以降に歌唱する規定区間であって、演奏対象区間ｐに類似する規定区間に含まれる制御対象音が強調して出力されるように強調制御を実行する。
［実施形態の効果］
以上説明したように、カラオケ装置３０が実行する演奏処理では、マイクを介して入力された音声を発した人物（即ち、ユーザー）が指定楽曲について不慣れであれば、制御対象音を一音単位で強調している。

このように、カラオケ装置３０において制御対象音を一音単位で強調することにより、ユーザーは、対象楽曲における歌唱旋律を認識でき、対象楽曲を歌いやすくなる。
これらにより、演奏処理によれば、不慣れな楽曲をユーザーがスムーズに歌唱するように支援できる。

しかも、演奏処理では、ユーザーが歌唱中の指定楽曲に対する習熟の度合いを特定し、歌唱を終えた規定区間よりも時間軸に沿って後の類似区間に対して強調制御を実行している。

この結果、演奏処理によれば、ユーザーが歌唱中の指定楽曲であっても、ユーザーがスムーズに歌唱するように支援できる。
そして、演奏処理によれば、楽曲において拍節が開始される音符を制御対象音として強調制御を実行しているため、ユーザーにとって不慣れな楽曲であっても、楽曲のリズムを取りやすくできる。

また、本実施形態の演奏処理においては、楽曲において拍節が開始される音符とは異なる音符であって、楽曲の歌詞を構成する形態素それぞれに含まれる音節の中で時間軸に沿った最初の音節が割り当てられた音符を制御対象音として強調制御を実行している。

このため、カラオケ装置３０のユーザーは、指定楽曲における拍節の開始音符と、歌詞を構成する形態素の開始位置とが不一致であっても、その形態素が開始される音符を認識しやすくなる。これにより、ユーザーは、不慣れな楽曲について、より歌唱しやすくなる。

ところで、演奏処理においては、演奏対象区間ｐに含まれる対象音符それぞれの演奏開始タイミングに対して発声の開始が遅れた時間を累積した結果の増加率が大きいほど、指定楽曲に対する習熟の度合いが低い（即ち、不慣度ＤＳが大きい）ものとしている。

このような演奏処理によれば、対象音符それぞれの演奏開始タイミングに対して発声の開始が遅れた時間を累積した結果を発声遅延時間とし、その発声遅延時間の増加率が大きいほど、習熟の度合いが低いものとすることができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

（１）上記実施形態では、楽曲データＷＤにおける歌唱音声データとして、プロの歌手が歌唱した音声波形データを想定していたが、楽曲データＷＤにおける歌唱音声データは、これに限るものではなく、カラオケ装置３０のユーザーが楽曲を歌唱した音声波形データを想定してもよい。この場合、歌唱音声データは、ユーザーが歌唱した音声を録音することで生成されても良いし、その他の方法で生成されても良い。

（２）上記実施形態においては、以下の２種類の音符の双方を制御対象音としていたが、制御対象音は、以下の２種類の音符のいずれか一方でもよい。
楽曲において拍節が開始される音符。または、楽曲において拍節が開始される音符とは異なる音符であって、楽曲の歌詞を構成する形態素それぞれに含まれる音節の中で時間軸に沿った最初の音節が割り当てられた音符。

（３）上記実施形態における演奏処理では、指定楽曲の歌唱中に類似区間を特定し、その特定した類似区間に対して強調制御を実行していたが、強調制御の実行対象とする規定区間の特定方法は、これに限るものではなく、歌唱者本人の歌唱履歴をもとに特定してもよい。

具体的には、まず、制御部５０は、楽曲が歌唱されるごとに、歌唱者ＩＤ，楽曲ＩＤ，規定区間ごとの不慣度ＤＳを歌唱履歴として収集する。そして、制御部５０は、収集した履歴情報に基づいて指定楽曲における最初の規定区間から不慣度ＤＳを特定し、不慣度ＤＳが高ければ、指定楽曲における最初の規定区間から強調制御を実行してもよい。

（４）上記実施形態における演奏処理では、強調制御の実行対象とする規定区間を、１人のユーザーが歌唱した歌唱音声データに基づいて特定していたが、強調制御の実行対象とする規定区間を特定するために用いる歌唱音声データは、１人のユーザーが歌唱した歌唱音声データに限るものではなく、１つの楽曲を歌唱した全てのユーザーの歌唱音声データを用いてもよいし、１つの楽曲を歌唱したユーザーの中で一部のユーザーの歌唱音声データを用いてもよい。

（５）上記実施形態の演奏処理では、強調制御を実行する対象を、演奏対象区間ｐに類似する類似区間だけとしていたが、強調制御を実行する対象は、これに限るものではなく、類似区間に連続する少なくとも１つの規定区間を含んでもよいし、演奏対象区間ｐ以降の規定区間であってもよい。

後者の場合、具体的には、制御部５０は、指定楽曲の時間軸に沿った最初の１つまたは複数の演奏対象区間ｐから算出した不慣度ＤＳが一定値以上であれば、当該指定楽曲自体に慣れていないと判定する。そして、演奏対象区間ｐに続く規定数の規定区間は類似度に関係なく模範音声データに対して強調制御を実行する。この場合、制御部５０は、強調制御の実行対象とする規定区間より１つの前の規定区間における不慣度ＤＳもしくは数区間分前の規定区間における不慣度ＤＳの平均値に基づいて強調ゲインを設定してもよい。また、連続する複数の規定区間における不慣度ＤＳの平均値が一定値より小さくなった場合には（すなわち、指定楽曲に慣れてきたと判断されれば）、類似区間だけを強調制御の対象としてもよい。また、不慣度ＤＳに代えて、習熟度を算出し、習熟度が一定値を下回るとき、当該指定楽曲事態に慣れていないと判断してもよい。

（６）上記実施形態の演奏処理においては、発声遅延時間を不慣度ＤＳとしていた、不慣度ＤＳは、これに限るものでない。例えば、音高のズレと、時間軸に沿って後の音符が前の音符より高い方向である場合に歌唱音声が下がっている度合いと、対象音符に対する発声時間長とのうちの少なくとも１つを不慣度としてもよい。すなわち、指定楽曲に対するユーザーの習熟の度合いを不慣度として算出可能であれば、不慣度はどのような指標であってもよい。

（７）上記実施形態の構成の一部を省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。

（８）本発明は、前述したカラオケ装置３０の他、当該カラオケ装置３０を構成要素とするカラオケシステム１、当該カラオケ装置３０としてコンピュータを機能させるためのプログラム、このプログラムを記録した媒体など、種々の形態で本発明を実現することもできる。

（９）上記実施形態における演奏処理では、歌唱音声データの強調ゲインを、初期化の値である「１」より大きい値の規定値または設定値に設定することにより、強調制御としていたがこれに限らない。例えば、特定楽曲において拍節が開始される音符以外の音符または開始音節が割り当てられた音符以外の音符の強調ゲインを初期化の値「１」より小さい値に設定することにより、特定楽曲において拍節が開始される音符または開始音節が割り当てられた音符が相対的に強調されることで強調制御とするものであってもよい。

（１０）上記実施形態における演奏処理では、演奏開始タイミングに対して発生の開始が遅れた時間を累積した結果の増加率が大きいほど、習熟の度合いが低いものとしていたが、習熟の度合いが低いものとする基準はこれに限らない。発声遅延時間の増加率に限らず、例えば、区間ごとに演奏開始タイミングに対して発声の開始が遅れた箇所の数を累積した結果の増加率が大きいほど、習熟の度合いが低いものとしてもよい。

（１１）上記実施形態における演奏処理では、演奏対象区間ｐの歌唱旋律に類似する歌唱旋律を有した類似区間を、類似度マップに基づいて特定しているが、類似区間の特定はこれに限らない。例えば、演奏対象区間ｐ以降の歌唱旋律から、演奏対象区間ｐの歌唱旋律に類似する歌唱旋律を検索することにより、類似区間を特定してもよい。より具体的には、演奏対象区間ｐの歌唱旋律と、演奏対象区間ｐ以降の所定の区間ごとの歌唱旋律とを比較し、所定の基準以上の旋律の合致があるとき、類似区間と特定してもよい。
＜対応関係の例示＞
演奏処理のＳ５２０を実行することで得られる機能が、楽譜データ取得手段の一例である。Ｓ５５０を実行することで得られる機能が、演奏手段の一例である。Ｓ５８０を実行することで得られる機能が、音声取得手段の一例である。Ｓ６１０を実行することで得られる機能が、習熟度特定手段の一例である。

また、演奏処理のＳ５５０，Ｓ６２０，Ｓ６３０を実行することで得られる機能が、強調制御手段の一例である。このうち、Ｓ６２０を実行することで得られる機能が、区間特定手段の一例である。また、Ｓ６３０を実行することで得られる機能が、実行手段の一例である。

そして、演奏処理のＳ６１０を実行することで得られる機能が遅延時間算出手段の一例である。Ｓ５３０を実行することで得られる機能が、強調データ取得手段の一例である。
さらに、楽曲解析処理のＳ１２０を実行することで得られる機能が、データ取得手段の一例である。Ｓ１７０を実行することで得られる機能が、分割手段の一例である。Ｓ２９０及びＳ３６０を実行することで得られる機能が、ゲイン設定手段の一例である。

また、楽曲解析処理のＳ２３０〜Ｓ２５０を実行することで得られる機能が、類似度特定手段の一例である。Ｓ３８０を実行することで得られる機能が、データ生成手段の一例である。

１…カラオケシステム２…情報処理装置３…入力受付部４…外部出力部５，１４，３８…記憶部６，１６，５０…制御部７，１８，５２…ＲＯＭ８，２０，５４…ＲＡＭ９，２２，５６…ＣＰＵ１０…情報処理サーバ１２…通信部３０…カラオケ装置３２…通信部３４…入力受付部３６…楽曲再生部４０…音声制御部４２…出力部４４…マイク入力部４６…映像制御部６０…スピーカ６２…マイク６４…表示部

Claims

時間軸に沿って配置された複数の音符のうち少なくとも一部に歌詞が割り当てられた楽曲の楽譜を表す楽譜データであって、指定された楽曲である指定楽曲の楽譜データを取得する楽譜データ取得手段と、
前記楽譜データ取得手段で取得した楽譜データに基づいて、前記指定楽曲を演奏する演奏手段と、
前記演奏手段での指定楽曲の演奏中にマイクを介して入力された音声を表す歌唱音声データを取得する音声取得手段と、
前記音声取得手段で取得した歌唱音声データと、前記楽譜データ取得手段で取得した楽譜データとに基づいて、前記音声を発した人物の前記指定楽曲に対する習熟の度合いを特定する習熟度特定手段と、
前記指定楽曲において前記歌詞が割り当てられた音符を対象音符とし、前記習熟度特定手段で特定した習熟の度合いが低いほど、前記対象音符の中の一部の音符である制御対象音が強調されるように、前記演奏手段で演奏される当該制御対象音を一音単位で制御する強調制御を実行する強調制御手段と
を備える、カラオケ装置。
前記強調制御手段は、
前記指定楽曲において拍節が開始される音符と、前記指定楽曲において拍節が開始される音符とは異なる音符であって、前記指定楽曲の歌詞を構成する形態素それぞれに含まれる音節の中で時間軸に沿った最初の音節が割り当てられた音符とのうち、少なくとも一方を、前記制御対象音として、前記強調制御を実行する、請求項１に記載のカラオケ装置。
前記演奏手段は、前記楽譜データと、前記指定楽曲において模範とすべき歌声の推移を表す模範歌声データとに基づいて、前記指定楽曲の演奏および歌声を出力するものであり、
前記強調制御手段は、
前記制御対象音に割り当てられた歌詞を歌唱した模範歌声データを対象として、前記強調制御を実行する、請求項１または請求項２に記載のカラオケ装置。
前記対象音符それぞれの演奏開始タイミングに対して発声の開始が遅れた時間を算出し、その算出した時間を累積した結果を発声遅延時間として算出する遅延時間算出手段を備え、
前記習熟度特定手段は、
前記遅延時間算出手段で算出した発声遅延時間の増加率が大きいほど、前記習熟の度合いが低いものとする、請求項１から請求項３までのいずれか一項に記載のカラオケ装置。
前記音声取得手段は、前記指定楽曲の規定された区間である規定区間の演奏が終了するごとに、当該規定区間の前記歌唱音声データを取得し、
前記習熟度特定手段は、前記音声取得手段で歌唱音声データを取得するごとに、前記習熟の度合いを特定し、
前記強調制御手段は、
前記指定楽曲において、前記音声取得手段で取得した歌唱音声データに対応する前記規定区間の旋律に類似する規定区間である類似区間を特定する区間特定手段と、
前記区間特定手段で特定した類似区間に含まれる前記制御対象音について前記強調制御を実行する実行手段と
を備える、請求項１から請求項４までのいずれか一項に記載のカラオケ装置。
前記規定区間それぞれに含まれる前記制御対象音が強調されるように、前記規定区間それぞれに含まれる前記制御対象音の音圧の増幅率を表す強調ゲインと、前記規定区間ごとに各規定区間における旋律の類似度合いを表す類似度とを、前記指定楽曲に対する強調データとして取得する強調データ取得手段を備え、
前記区間特定手段は、
前記強調データ取得手段で取得した類似度に基づいて、前記音声取得手段で取得した歌唱音声データに対応する前記規定区間と前記類似度が予め規定された閾値以上である他の規定区間を前記類似区間として特定し、
前記実行手段は、
前記強調データ取得手段で取得した強調ゲインのうちの前記制御対象音の音圧の増幅率に従って、前記制御対象音の音圧を増幅させることを、前記強調制御として実行する、請求項５に記載のカラオケ装置。
前記楽譜データを取得するデータ取得手段と、
前記データ取得手段で取得した楽譜データを、規定された区間である規定区間ごとに分割する分割手段と、
前記分割手段で分割された規定区間それぞれに含まれる前記制御対象音が強調されるように、前記規定区間それぞれに含まれる前記制御対象音の音圧の増幅率を表す強調ゲインを設定するゲイン設定手段と、
前記分割手段で分割された規定区間ごとに、各規定区間における旋律の類似度を特定する類似度特定手段と、
前記ゲイン設定手段で設定された強調ゲインと、前記類似度特定手段で特定した前記規定区間における旋律の類似度とを、前記規定区間ごとに対応付けた強調データを生成するデータ生成手段と
を有するデータ生成装置と、
時間軸に沿って配置された複数の音符のうち少なくとも一部に歌詞が割り当てられた楽曲の楽譜を表す楽譜データであって、指定された楽曲である指定楽曲の楽譜データを取得する楽譜データ取得手段と、
前記楽譜データ取得手段で取得した楽譜データに基づいて、前記指定楽曲を演奏する演奏手段と、
前記データ生成装置で生成された強調データを取得する強調データ取得手段と、
前記演奏手段での指定楽曲の演奏中にマイクを介して入力された音声を表す歌唱音声データを取得する音声取得手段と、
前記音声取得手段で取得した歌唱音声データと、前記楽譜データ取得手段で取得した楽譜データとに基づいて、前記音声を発した人物の前記指定楽曲に対する習熟の度合いを特定する習熟度特定手段と、
前記指定楽曲において前記歌詞が割り当てられた音符を対象音符とし、前記習熟度特定手段で判定した習熟の度合いが低いほど、前記対象音符の中の一部の音符である制御対象音が強調されるように、前記強調データ取得手段で取得した強調データに基づいて、前記演奏手段で演奏される当該制御対象音を一音単位で制御する強調制御を実行する強調制御手段と
を有するカラオケ装置と、
を備える、カラオケシステム。