JP2016157086A

JP2016157086A - 歌詞音声出力装置、歌詞音声出力方法、及び、プログラム

Info

Publication number: JP2016157086A
Application number: JP2015036702A
Authority: JP
Inventors: 啓太郎菅原; Keitaro Sugawara
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2015-02-26
Filing date: 2015-02-26
Publication date: 2016-09-01
Anticipated expiration: 2035-02-26
Also published as: JP6691737B2

Abstract

【課題】歌詞を含む音楽を再生している際に、ユーザがその曲を歌うための歌詞音声を聞き取り易く提供する。
【解決手段】歌詞音声出力装置は、外部機器により再生されている楽曲を特定し、再生されている楽曲の再生位置を決定する。また、再生されている楽曲の歌詞データを取得し、歌詞データに基づいて、歌詞音声データを生成する。そして、再生位置に基づいて、再生されている楽曲中の歌詞部分に先行して、歌詞音声データを出力する。
【選択図】図１４

Description

本発明は、楽曲の再生に伴って歌詞の情報を出力する手法に関する。

カラオケの演奏曲に先行して歌詞データを音声合成して出力するカラオケ装置が知られている（例えば、特許文献１、２）。

特開４−６７４６７号公報特開１０−６３２７４号公報

カラオケ装置の場合、再生される楽曲に歌詞が含まれないため、先行技術により出力される歌詞音声が聞き取りにくくなることはない。しかし、カラオケではなく通常の音楽を再生して聞いているような場合には、先行技術の手法により歌詞を音声出力すると、出力された歌詞音声が元の音楽に含まれる歌詞の部分と重なって聞き取りにくくなってしまうことがある。また、例えば車両の運転中に音楽を聞いている場合には、先行技術の手法により出力される歌詞音声が車載用ナビゲーション装置による道案内の音声メッセージなどと重なって聞き取りにくくなってしまうこともある。

本発明の解決しようとする課題としては、上記のものが一例として挙げられる。本発明は、歌詞を含む音楽を再生している際に、ユーザがその曲を歌うための歌詞音声を聞き取り易く提供することを目的とする。

請求項１に記載の発明は、歌詞音声出力装置であって、外部機器により再生されている楽曲を特定する楽曲特定情報を取得する取得手段と、前記再生されている楽曲の再生位置を決定する再生位置決定手段と、前記再生されている楽曲の歌詞データを取得する歌詞データ取得手段と、前記歌詞データに基づいて、歌詞音声データを生成する歌詞音声データ生成手段と、前記再生位置に基づいて、前記再生されている楽曲中の歌詞部分に先行して、前記歌詞音声データを出力する出力手段と、を備えることを特徴とする。

請求項７に記載の発明は、コンピュータを備える端末装置により実行される歌詞音声出力方法であって、外部機器により再生されている楽曲を特定する楽曲特定情報を取得する取得工程と、前記再生されている楽曲の再生位置を決定する再生位置決定工程と、前記再生されている楽曲の歌詞データを取得する歌詞データ取得工程と、前記歌詞データに基づいて、歌詞音声データを生成する歌詞音声データ生成工程と、前記再生位置に基づいて、前記再生されている楽曲中の歌詞部分に先行して、前記歌詞音声データを出力する出力工程と、を備えることを特徴とする。

請求項８に記載の発明は、コンピュータを備える端末装置により実行されるプログラムであって、外部機器により再生されている楽曲を特定する楽曲特定情報を取得する取得手段、前記再生されている楽曲の再生位置を決定する再生位置決定手段、前記再生されている楽曲の歌詞データを取得する歌詞データ取得手段、前記歌詞データに基づいて、歌詞音声データを生成する歌詞音声データ生成手段、前記再生位置に基づいて、前記再生されている楽曲中の歌詞部分に先行して、前記歌詞音声データを出力する出力手段、として前記コンピュータを機能させることを特徴とする。

アシストボーカルの概念を示す図である。アシストボーカル処理のフローチャートである。スピーチ情報生成処理のフローチャートである。スピーチ情報生成処理の概要を示す。歌詞ブロック化の例を示す。スピーチ挿入方法の例を示す。スピーチ強調処理の例を示す。スピーチ強調処理の他の例に係る構成を示す。スピーチ強調処理の他の例に係る構成を示す。楽曲再生システムの全体構成を示すブロック図である。端末装置の内部構成例を示すブロック図である。第１実施例の楽曲再生システムによるアシストボーカル処理のフローチャートである。第２実施例の楽曲再生システムによるアシストボーカル処理のフローチャートである。スピーチのみを再生するアシストボーカル処理のフローチャートである。外部ソースにより再生されている楽曲の特定方法を説明する図である。

本発明の好適な実施形態では、歌詞音声出力装置は、外部機器により再生されている楽曲を特定する楽曲特定情報を取得する取得手段と、前記再生されている楽曲の再生位置を決定する再生位置決定手段と、前記再生されている楽曲の歌詞データを取得する歌詞データ取得手段と、前記歌詞データに基づいて、歌詞音声データを生成する歌詞音声データ生成手段と、前記再生位置に基づいて、前記再生されている楽曲中の歌詞部分に先行して、前記歌詞音声データを出力する出力手段と、を備える。

上記の歌詞音声出力装置は、外部機器により再生されている楽曲を特定し、再生されている楽曲の再生位置を決定する。また、再生されている楽曲の歌詞データを取得し、歌詞データに基づいて、歌詞音声データを生成する。そして、再生位置に基づいて、再生されている楽曲中の歌詞部分に先行して、歌詞音声データを出力する。これにより、ユーザは、外部機器により再生されている楽曲の歌詞音声を聞き、その楽曲に合わせて歌唱することができる。

上記の歌詞音声出力装置の一態様では、前記取得手段は、前記再生されている楽曲の音声データを集音する集音手段と、集音した前記音声データを外部サーバへ送信する送信手段と、集音された音声データに基づいて前記外部サーバにより特定された、前記再生されている楽曲の楽曲特定情報を受信する受信手段と、を備える。この態様では、再生されている楽曲の音声データをサーバへ送信し、その楽曲特定情報を受信することにより楽曲を特定する。

上記の歌詞音声出力装置の他の一態様では、前記受信手段は、前記送信手段により前記外部サーバへ送信した音声データの、前記再生されている楽曲の先頭からの経過時間を示す楽曲再生位置情報を前記外部サーバから受信し、前記再生位置決定手段は、前記楽曲再生位置情報と、前記送信手段が前記音声データを前記外部サーバへ送信した時刻からの経過時間とに基づいて、前記再生位置を決定する。この態様では、再生されている楽曲の先頭からの経過時間を示す楽曲再生位置情報をサーバから受信し、それに基づいて現在の再生位置を決定する。

上記の歌詞音声出力装置の他の一態様は、前記楽曲の再生が中断したか否かを判定する中断判定手段を備え、前記出力手段は、前記楽曲の再生が中断した場合に、前記歌詞音声データの出力を終了する。この態様では、外部機器による楽曲の再生が中断したと判定された場合には、自動的に歌詞音声データの出力が終了する。

上記の歌詞音声出力装置の他の一態様では、前記取得手段がそれまで再生されていた楽曲とは別の楽曲の楽曲特定情報を取得した場合には、前記出力手段は前記歌詞音声データの出力を終了する。この態様では、外部機器により再生されていた楽曲が変わった場合には、自動的に歌詞音声データの出力が終了する。

上記の歌詞音声出力装置の他の一態様では、前記取得手段がそれまで再生されていた楽曲とは別の楽曲の楽曲特定情報を取得した場合には、前記出力手段は、当該別の楽曲に対応する前記歌詞音声データの出力を継続する。この態様では、外部機器により再生されていた楽曲が変わった場合には、変更後の楽曲に対応する歌詞音声データが出力される。

本発明の他の好適な実施形態では、コンピュータを備える端末装置により実行される歌詞音声出力方法は、外部機器により再生されている楽曲を特定する楽曲特定情報を取得する取得工程と、前記再生されている楽曲の再生位置を決定する再生位置決定工程と、前記再生されている楽曲の歌詞データを取得する歌詞データ取得工程と、前記歌詞データに基づいて、歌詞音声データを生成する歌詞音声データ生成工程と、前記再生位置に基づいて、前記再生されている楽曲中の歌詞部分に先行して、前記歌詞音声データを出力する出力工程と、を備える。この方法によっても、ユーザは、外部機器により再生されている楽曲の歌詞音声を聴き、その楽曲に合わせて歌唱することができる。

本発明の他の好適な実施形態では、コンピュータを備える端末装置により実行されるプログラムは、外部機器により再生されている楽曲を特定する楽曲特定情報を取得する取得手段、前記再生されている楽曲の再生位置を決定する再生位置決定手段、前記再生されている楽曲の歌詞データを取得する歌詞データ取得手段、前記歌詞データに基づいて、歌詞音声データを生成する歌詞音声データ生成手段、前記再生位置に基づいて、前記再生されている楽曲中の歌詞部分に先行して、前記歌詞音声データを出力する出力手段、として前記コンピュータを機能させる。このプログラムをコンピュータで実行することにより、上記の端末装置を実現することができる。このプログラムは、記憶媒体に記憶して取り扱うことができる。

以下、図面を参照して本発明の好適な実施例について説明する。

［１］アシストボーカル
［１．１］アシストボーカルの概念
車両を運転しているユーザが車内で音楽を再生して聞いている際、聞いている曲を歌いたくなることがある。しかし、運転中は歌詞の情報を見ることができないため、ユーザはその曲の歌詞を記憶していないと歌うことはできない。

本実施例では、歌詞を含む楽曲を再生している際に、その楽曲に含まれる歌詞を音声信号として出力し、ユーザに教える。具体的には、端末装置のメモリなどに記憶されている楽曲を再生している際に、その楽曲に含まれる歌詞を、その歌詞がその楽曲中で再生される前に、音声として出力してユーザに伝える。これにより、ユーザは、運転中であっても、再生中の曲を歌うことができる。また、運転手以外のユーザも、歌詞集などを見ることなく曲を歌うことができる。

このように、楽曲中で歌詞が再生されるタイミングに先行して、その歌詞の内容を音声出力してユーザに伝える機能を「アシストボーカル」と呼ぶ。なお、本実施例では、再生される楽曲はカラオケではなく、歌詞を含む通常の曲であるものとする。

図１は、アシストボーカルの概念を示す。図１は、１つの楽曲を模式的に示したものである。図１の横軸は時間を示す。１つの楽曲中には、複数のブロックに分けて歌詞の部分が含まれている。再生される楽曲に含まれる歌詞の部分を「ボーカル」と呼ぶ。また、楽曲中において、ボーカル以外の部分を「間奏」と呼ぶ。よって、通常１つの楽曲は、複数の間奏と複数のボーカルとにより構成される。

図１の例では、楽曲は、３つのボーカル１〜３と、複数の間奏とにより構成されている。ボーカル１の内容（歌詞）は「あいうえお」であり、ボーカル２の内容は「かきくけこ」であり、ボーカル３の内容は「さしすせそ」であるものとする。

このような楽曲が再生されている状況において、本実施例では、楽曲中のボーカル１が再生されるタイミングに先行して、ボーカル１に対応する歌詞「あいうえお」が音声出力される。なお、本明細書では、アシストボーカルにより音声出力される歌詞音声を「スピーチ」と呼んで、楽曲中に含まれる「ボーカル」と区別する。

図１の例では、ボーカル１に先行して、ボーカル１に対応するスピーチ１が出力される。同様に、ボーカル２に先行してスピーチ２が出力され、ボーカル３に先行してスピーチ３が出力される。

スピーチは、曲に含まれるボーカルの歌詞のみを音声信号として出力するものであり、基本的に音程やリズムなどの要素を含まない。また、後述するように、スピーチは基本的に対応するボーカルの前の間奏に挿入されるので、必要に応じてその長さが調整され、通常は楽曲の再生中にボーカルとして再生される場合よりも短い時間とされる。典型的な例では、スピーチは対応するボーカルの歌詞を早口で話した音声となる。

［１．２］アシストボーカル処理
次に、スピーチを出力するためのアシストボーカル処理について説明する。図２は、アシストボーカル処理のフローチャートである。なお、この処理は、車両に搭載された端末装置、典型的にはスマートフォンなどの携帯端末などにより実行されるが、その詳細については後述する。以下の説明では、端末装置が処理を実行するものとして説明する。

まず、端末装置は、アシストボーカルがオンになっているか否かを判定する（ステップＳ１）。ここで、アシストボーカルのオン／オフは、ユーザが手動で行う場合と、自動で行う場合とがある。手動で行う場合、ユーザはアシストボーカルによりスピーチの再生を行いたいときに所定のボタンなどを操作してアシストボーカルをオンに設定し、端末装置はこれを検出する。一方、自動で行う場合、端末装置は例えばマイクなどを利用してユーザの声を判定し、ユーザが歌唱している又は歌唱に準ずる行為を行っている場合に、自動的にアシストボーカルをオンに設定する。なお、アシストボーカルの自動設定方法についてはさらに後述する。

アシストボーカルがオンに設定されていない場合（ステップＳ１：Ｎｏ）、処理は終了する。一方、アシストボーカルがオンに設定されている場合（ステップＳ１：Ｙｅｓ）、端末装置は、再生中の楽曲を特定する（ステップＳ２）。この場合に、車内で再生されている楽曲は、サーバからダウンロードされるなどして端末装置の内部に記憶されている楽曲、ＣＤや車載器のメモリなどの記憶媒体に記憶されている楽曲、ラジオなどから再生されている楽曲などを含む。端末装置の内部に記憶されている楽曲を再生している場合、端末装置はその再生中の楽曲を容易に特定することができる。一方、ＣＤなどの記憶媒体に記憶されている楽曲が再生されている場合やラジオから楽曲が再生されている場合には、端末装置は、車内のスピーカから再生されている楽曲をマイクで集音し、そのオーディオデータを外部の音楽検索サーバに送信する。音楽検索サーバは、多数の楽曲のデータをデータベース化して記憶しており、端末装置から受信したオーディオデータと一致する楽曲を特定してその楽曲を示す情報（例えば、曲名、アーティスト名など、以下、「楽曲特定情報」と呼ぶ。）を端末装置に送信する。こうして、端末装置は、現在再生されている楽曲の楽曲特定情報を取得する。

こうして、再生中の楽曲が特定されると、端末装置は、スピーチ情報生成処理を実行する（ステップＳ３）。図３は、スピーチ情報生成処理のフローチャートである。また、図４は、スピーチ情報生成処理の概要を示す。

図３において、端末装置は、ステップＳ２で特定された楽曲の歌詞データを外部サーバなどから取得する（ステップＳ３１）。ここで、「歌詞データ」とは、その楽曲において、どのタイミングにどのような歌詞が再生されるかを規定する情報であり、具体的には、楽曲に含まれる歌詞を示す歌詞テキストデータと、その歌詞が再生される再生時刻（曲の開始時刻からの経過時間）を示す再生時刻データとを対応付けた情報である。

次に、端末装置は、楽曲解析データを取得する（ステップＳ３２）。楽曲解析データとは、その楽曲における拍位置、小節位置などの音楽的特徴を示す情報であり、再生された楽曲のオーディオデータに基づいて生成される。具体的には、端末装置は内部に楽曲解析アプリケーションを内蔵しておき、車両のスピーカから再生された楽曲をマイクで集音してオーディオデータを取得し、そのオーディオデータを解析することにより拍位置などの楽曲解析データを取得する。なお、端末装置に楽曲解析アプリケーションを内蔵する代わりに、外部の楽曲解析装置やサーバなどを利用して楽曲解析データを取得してもよい。

次に、端末装置は、歌詞ブロック化を行う（ステップＳ３３）。歌詞ブロック化とは、ステップＳ３１で取得した歌詞データに含まれる歌詞テキストデータをブロック化する処理であり、１つのブロックは、１つのスピーチに対応する。即ち、歌詞ブロック化は、歌詞テキストデータを、スピーチの単位に分割する処理である。

図４の例では、端末装置は、歌詞テキストデータとして「あいうえおかきくけこさしすせそ」を取得しており、端末装置は、これを「あいうえお」、「かきくけこ」、「さしすせそ」の３つのブロックに分割してブロック歌詞データを生成する。

図５は、歌詞ブロック化の例を示す。図５（Ａ）に第１の方法を示す。この方法では、楽曲に含まれる間奏と間奏との間を１つのブロックとする。なお、「間奏」は、楽曲のうち「ボーカル」以外の部分である。具体的には、端末装置は、ボーカル以外の区間（非ボーカル区間）の長さＩｔが所定長さｔ１よりも長い場合に、その区間を間奏と判定する。

但し、例外的に、間奏の長さとの関係で複数のブロックを１つのブロックにまとめる場合がある。図５（Ｂ）に示す例のように、ボーカル３の長さＶｔ３に対して、その直前の間奏２の長さＩｔ２が非常に短い（Ｉｔ２＜α１・Ｖｔ３；α１は任意の係数）場合、間奏２の間にボーカル３のスピーチを出力することは難しい。このような場合に、その１つの前の間奏１の長さＩｔ１が所定長より長ければ、端末装置は、ボーカル２とボーカル３を１つのブロックとする。これにより、ボーカル２とボーカル３に対応するスピーチは間奏１においてされる。

図５（Ｃ）に第２の方法を示す。この方法では、端末装置は、歌詞データに含まれる区切りに基づいて各ブロックを決定する。即ち、歌詞データに含まれる歌詞テキストデータに予め区切りの情報が含まれている場合には、端末装置はその区切りに従って歌詞テキストデータをブロック化することができる。

次に、端末装置は、歌詞スピーチ化を行う（ステップＳ３４）。歌詞ブロック化により得られたブロック歌詞データはあくまで歌詞を示すテキストデータであり、歌詞スピーチ化はブロック歌詞データを音声データに変換する処理である。具体的には、端末装置は、テキスト−音声変換（ＴＴＳ：ＴｅｘｔＴｏＳｐｅｅｃｈ）ソフトウェアを内蔵し、ステップＳ３３で得られた各ブロック歌詞データを音声データに変換する。これにより、図４に示すように、各ブロック歌詞データから、音声データであるスピーチ１〜３が生成される。なお、端末装置にＴＴＳソフトウェアを内蔵する代わりに、外部サーバなどによるＴＴＳ変換を利用してもよい。

次に、端末装置は、スピーチ長変更を行う（ステップＳ３５）。スピーチ長変更とは、歌詞スピーチ化により得られた各スピーチの時間的な長さを短縮して、短い時間で再生できるようにする処理である。既に述べたように、各スピーチは対応するボーカルに先行する間奏において再生されるが、間奏の時間的な長さには制限があるので、スピーチを短くして再生する必要がある。このため、スピーチ長変更が行われる。

基本的には、人間により聞き取り可能な範囲で、各スピーチの再生時間を短く（再生速度を速く）する。例えば、ステップＳ３４で得られた各スピーチの時間的な長さ（「オリジナルスピーチ長」と呼ぶ。）を「Ｓｔ」とし、スピーチ長変換係数を「α２」とすると、スピーチ長変更による変更後の長さ「Ｓｔｖ」は、
Ｓｔｖ＝Ｓｔ・α２（α２＜１．０）（１）
で与えられる。例えば、α２＝０．７とすれば、スピーチ長変更により各スピーチは元の３割増しの速さで再生されることになる。

また、上記のような一括変更に加えて、各スピーチ毎に対応する間奏の時間に応じてさらに再生時間を短くしてもよい。なお、この場合、同じ文字数のスピーチ、又は、同じ歌詞の言葉であっても、曲中の位置（先行する間奏の長さ）に応じて、再生時間が異なることになる。

次に、端末装置は、スピーチ挿入タイミングを算出する（ステップＳ３６）。端末装置は、あるボーカルに対応するスピーチを、そのボーカルの再生タイミングに先行して挿入する。図４に示す例では、ボーカル１に対応するスピーチ１はボーカルの再生タイミングより前に挿入される。同様に、ボーカル２に対応するスピーチ２はボーカル２の再生タイミングより前に挿入され、ボーカル３に対応するスピーチ３はボーカル３の再生タイミングより前に挿入される。

スピーチを挿入する方法の具体例を図６に示す。図６は、ボーカル２に対応するスピーチ２を挿入するタイミングの例を示す。

方法１では、スピーチは、対応するボーカルの開始タイミングよりも一定時間前に終了する。具体的に、図６に示すように、スピーチ２は、ボーカル２の再生開始タイミングより一定時間Ｔ２前に終了するように挿入される。即ち、スピーチ２はボーカル２の再生開始より一定時間Ｔ２前に終了する。この場合、スピーチ２の再生開始タイミングはスピーチ２の長さに応じて決まる。方法１では、スピーチの再生が終了してから、対応するボーカルが再生されるまでに一定時間が確保されるので、ユーザは余裕を持ってボーカル部分を歌うことができる。

方法２では、スピーチの終了タイミングを楽曲の拍位置と一致させる。具体的に、図６の例では、スピーチ２は、ボーカル２の再生開始タイミングよりＮ拍前（Ｎは任意の整数；本例ではＮ＝１）に終了するように挿入される。この場合、スピーチ２の再生開始タイミングはスピーチ２の長さに応じて決まる。なお、楽曲の拍の位置は、前述の楽曲解析データから取得される。

方法３では、スピーチの再生開始タイミングと再生終了タイミングの両方を楽曲の拍位置と一致させる。具体的に、図６の例では、スピーチ２の再生開始タイミング及び再生終了タイミングをともに４拍子の３拍目に一致させている。

方法２、３のように、スピーチの終了タイミング、又は、開始／終了タイミングの両方を楽曲の拍位置と一致させると、スピーチが楽曲と連動するのでユーザが楽曲を歌いやすくなる。

以上のようにして、端末装置は、スピーチの挿入タイミングを決定する。具体的には、各スピーチについて、その再生開始タイミングと再生終了タイミングとを、楽曲の先頭からの経過時間により規定する。各スピーチの再生開始タイミングと再生終了タイミングは、スピーチ情報の一部として記憶される。即ち、スピーチ情報は、各スピーチに対応する音声信号（以下、「スピーチ信号」とも呼ぶ。）と、各スピーチの再生開始タイミング／再生終了タイミングとを含む。

次に、処理は図２に示すメインルーチンに戻り、端末装置は、再生中の楽曲の現在の再生位置を取得する（ステップＳ４）。具体的には、端末装置は、再生中の楽曲の再生開始時刻からの経過時間をカウントすることにより、現在の再生位置を取得する。

次に、端末装置は、スピーチ強調処理を行う（ステップＳ５）。スピーチ強調処理は、楽曲に含まれるボーカルと、スピーチとを区別して聞き取り易くする処理であるが、その詳細は後述する。

次に、端末装置は、スピーチ情報に含まれる各スピーチの再生開始タイミング／再生終了タイミングと、現在の再生位置とに基づいて、スピーチを再生する（ステップＳ６）。具体的には、スピーチの再生開始タイミングでスピーチの再生を開始し、スピーチの再生終了タイミングでスピーチの再生を終了する。これにより、楽曲中のボーカルに先行して、対応するスピーチが再生されることになる。

次に、端末装置は、スピーチの再生を終了すべきか否かを判定する（ステップＳ７）。スピーチの再生を終了すべき場合とは、スピーチ情報が無くなった場合、楽曲の再生自体が終了した場合、ユーザの操作によりアシストボーカルがオフされた場合、などが挙げられる。スピーチの再生を終了すべきでない場合（ステップＳ７：Ｎｏ）、処理はステップＳ４へ戻り、スピーチの再生を継続する。一方、スピーチの再生を終了すべきである場合（ステップＳ７：Ｙｅｓ）、アシストボーカル処理は終了する。

［１．３］アシストボーカルの自動オン設定方法
次に、図２に示すアシストボーカル処理のステップＳ１においてアシストボーカルを自動的にオンに設定する方法について説明する。

基本的な方法としては、端末装置は、ユーザが発している音声をマイクで集音し、ユーザが楽曲に合わせて歌唱している（歌を歌っている）又は歌唱に準ずる行為を行っていると判定される場合にアシストボーカルを自動的にオンにする。例えば、マイクにより集音した音声データを解析した結果、鼻歌を歌っている、断片的に曲を歌っている、ハミングしているなどと判定される場合には、アシストボーカルをオンにする。一方、音声データが歌唱しているのではなく、同乗者との会話である場合にはアシストボーカルをオンにしない。音声データが鼻歌を歌っている部分を含んでいるような場合でも、大部分が会話であるような場合にもアシストボーカルをオンにはしない。

なお、音声データに含まれるユーザの音声が歌唱であるか否かは、音声データに含まれるリズムや音程の有無に基づいて判断することができる。例えばリズムが規則的である場合や音程の変化が大きい場合には歌唱であると判断し、リズムが不規則である場合は音程の変化が小さい場合に歌唱ではない（会話である）と判断することができる。また、前述の楽曲解析アプリケーションを利用し、音声データから拍や小節が抽出できた場合に歌唱であると判断し、抽出できない場合に歌唱ではないと判断してもよい。また、前述の音楽検索サーバ又は音楽検索機能を利用し、音声データから楽曲が特定できた場合に歌唱であると判断し、楽曲が特定できない場合に歌唱ではないと判断してもよい。

また、端末装置は、集音した音声データと、再生中の楽曲との相関を算出し、一定値以上の相関がある場合に、ユーザが歌唱していると判断してアシストボーカルをオンにしてもよい。また、端末装置が再生中の曲の歌詞データを既に取得している場合には、マイクにより集音した音声データと歌詞データとの相関が一定値以上である場合に、ユーザが歌っていると判断してもよい。また、歌詞データに基づいて、歌詞が存在しないはずの楽曲の間奏位置においてもユーザの音声が出力されている場合には、それは会話であると判断してもよい。

また、マイクで集音したリズムの情報を利用してもよい。例えば、ユーザが楽曲のリズムに合わせて手や指でステアリングなどを叩いているとか、足で床を踏んでリズムを取っていると判断される場合には、ユーザが歌唱に準ずる行為を行っていると判定し、アシストボーカルをオンにしてもよい。この場合、マイクで集音したリズムと再生中の楽曲のリズムとの相関を算出し、相関が一定値以上である場合にアシストボーカルをオンにしてもよい。また、再生中の楽曲のリズムとの相関を算出しなくても、マイクで集音されたリズムが、一定のリズムの繰り返しになっているような場合には、アシストボーカルをオンにしてもよい。

さらには、車内を撮影するカメラでユーザの状態を撮影し、ユーザが楽曲に合わせて首を振っているような場合に、アシストボーカルをオンにしてもよい。また、車内を撮影するカメラにより、助手席や後部座席に同乗者がいるか否かを検出し、同乗者の有無により、ユーザが歌っているのか会話しているのかの判定基準を変化させてもよい。

また、上記の例では、ユーザが歌唱していると判断した場合に、アシストボーカルをオンにする例を説明したが、ユーザが歌唱していても、ユーザが歌詞を知っていてアシストボーカルを再生する必要がないと判断した場合には、アシストボーカルをオンにしなくてもよい。具体的には、例えば集音した音声データと、再生中の楽曲との相関が一定値以上であり、かつ歌詞データとの相関が一定値以上である場合には、ユーザが歌詞を知っていると判断し、歌唱していてもアシストボーカルをオンにしない。

ただしこの場合、ユーザが途中から歌詞が分からなくなる可能性があるため、スピーチ情報を生成し、出力する準備をしておいてもよい。そのあとに、集音した音声データと、再生中の楽曲との相関が一定値未満であり、または歌詞データとの相関が一定値未満である場合には、ユーザは歌詞を知らないと判断し、アシストボーカルを出力する。

また、上記の例では、アシストボーカルの自動オン設定の方法について説明したが、アシストボーカルの自動オフ設定も行うことができる。アシストボーカルをオンしている間に、ユーザが楽曲に合わせて歌唱していない（歌を歌っていない）又は歌唱に準ずる行為（鼻歌を歌っている、断片的に曲を歌っている、ハミングをしている等）を行っていないと判定された場合に、アシストボーカルを自動的にオフにしてもよい。同様に、会話が検出されたら、アシストボーカルを自動的にオフにしてもよいし、リズムをとっていないと判断されたり、ユーザが楽曲に合わせて頭を振っていないと判断された場合、アシストボーカルを自動的にオフにしてもよい。

また、上記の例では、ユーザが歌唱しているもしくは歌唱に準ずる行為をしているか否かに基づき、アシストボーカルの自動オン設定もしくは自動オフ設定を行うことを説明したが、再生されている楽曲の構成に基づき自動オン設定もしくは自動オフ設定してもよい。例えば、楽曲のサビの部分だけ歌唱したいというユーザに対しては、楽曲のサビの部分を再生する際に、アシストボーカルを自動的にオン設定し、楽曲のサビ以外の部分を再生する際に、アシストボーカルを自動的にオフ設定してもよい。逆に、サビの部分は知っていてサビ以外の部分を練習したいというユーザに対しては、楽曲のサビ以外の部分を再生する際に、アシストボーカルを自動的にオン設定し、楽曲のサビの部分を再生する際に、アシストボーカルを自動的にオフ設定してもよい。

［１．４］スピーチ強調処理
次に、図２に示すアシストボーカル処理のステップＳ５において実行されるスピーチ強調処理について説明する。スピーチ強調処理は、ユーザがスピーチとボーカルとを区別して聞き取り易くする方法であり、以下のいくつかの方法を示す。

［１．４．１］スピーチとボーカルが重なる場合の処理
スピーチは基本的に対応するボーカルの直前の間奏中に再生され、ボーカルとは時間的に重ならないことが好ましい。このために前述のスピーチ長変更処理（ステップＳ３５）を行うのであるが、スピーチの長さと間奏の長さによっては、スピーチ長を短縮してもスピーチを間奏中に再生しきれないこともある。即ち、間奏の長さよりも、スピーチの長さの方が長い場合、スピーチとボーカルとが部分的に重なって再生される。このようにスピーチとボーカルとを重ねて再生することに代えて、以下のいずれかの処理を行ってもよい。

（１）ボーカルのレベルを調整する。

スピーチとボーカルとが重なってしまう場合、ボーカルの音量レベルを下げる方法がある。図７（Ａ）は、スピーチの後方部分と、ボーカルの先頭部分とが重なり、重複部分Ｘが生じる場合を示す。この場合、重複部分Ｘにおいてボーカルの音量を調整する。具体的には、ボーカルの音量をスピーチが聞こえる程度まで低下させる、もしくはゼロにする。これにより、重複部分Ｘでは、スピーチの再生が優先され、スピーチが聞き取り易くなる。

図７（Ｂ）は、逆にスピーチの先頭部分と、１つ前のボーカルの後方部分とが重なり、重複部分Ｘが生じる場合を示す。この場合にも、重複部分Ｘにおいて、ボーカルの音量を調整する。具体的には、ボーカルの音量をスピーチが聞こえる程度まで低下させる、もしくはゼロにする。また、重複部分Ｘにおいて、急にボーカルの音量レベルを下げるのではなく、ボーカルをフェードアウトさせて徐々に音量レベルを下げるようにしてもよい。これにより、重複部分Ｘでは、スピーチの再生が優先され、スピーチが聞き取り易くなる。

具体的に上記のレベル調整は、楽曲信号においてボーカルの成分と楽器などの演奏の成分とが分離している場合には、ボーカルの成分の音量レベルを低下させればよい。一方、ボーカルの部分が楽器などの演奏の部分と合成されており、ボーカルのみの音量を調整できない場合には、楽曲信号全体の音量レベルを低下させてもよいし、又は、楽曲信号のうち一般的にボーカル（人間の声）に相当する周波数帯域の成分のみ音量レベルを低下させるようにしてもよい。

（２）スピーチのレベルを調整する。

スピーチとボーカルとが重なってしまう場合、逆にスピーチの音量レベルを下げる方法もある。図７（Ｃ）は、スピーチの後方部分と、ボーカルの先頭部分とが重なり、重複部分Ｘが生じる場合を示す。この場合、重複部分Ｘにおいて、スピーチの音量を調整する。具体的には、スピーチの音量を低下させる、もしくはゼロにする。急にスピーチの音量を下げるのではなく、スピーチをフェードアウトさせて徐々に音量を下げるようにしてもよい。この場合、重複部分Ｘでは、スピーチが聞き取れなくなるが、一般的にユーザがある程度知っている楽曲を聞く場合には、歌詞の全てを覚えてはいないものの、歌詞の先頭部分がわかれば、その後は歌詞を思い出して歌うことができるということも多い。よって、図７（Ｃ）のように、スピーチの先頭部分が聞き取れれば、スピーチの後方部分が聞き取りにくくなっても構わないということも多い。この手法はそのような場合に有効である。

［１．４．２］スピーチとボーカルを異なる方向から聞かせる処理
人間には、同時に異なる方向から到来する音を聞き分ける能力がある（いわゆるカクテルパーティ効果）。これを利用し、ユーザがスピーチとボーカルとを聞き分けることができるようにする手法が考えられる。なお、この手法は、スピーチとボーカルとが時間的に重なるか否かに拘わらず実行される。

（１）左右のスピーカで位相を調整する方法
図８（Ａ）は、左右のスピーカから出力されるスピーチの位相を反転させる構成を示す。左（Ｌ）チャンネルの楽曲信号は加算器３２に供給され、右（Ｒ）チャンネルの楽曲信号は加算器３３に供給される。一方、スピーチ信号は、そのまま加算器３３に供給されるとともに、位相反転器３１で位相が反転されて加算器３２に供給される。加算器３２の出力は左スピーカ３０Ｌに供給され、加算器３３の出力は右スピーカ３０Ｒに供給される。

この構成によれば、ボーカルを含む楽曲の音像は左右スピーカの間に定位するのに対し、スピーチの音像はユーザの耳回りに定位することになり、ユーザはスピーチと楽曲中のボーカルとを聞き分けやすくなる。なお、図８（Ａ）の例では、位相反転器３１により左スピーカ３０Ｌに供給されるスピーチ信号の位相のみを反転しているが、逆に右スピーカ３０Ｒに供給されるスピーチ信号の位相のみを反転させてもよい。また、左右のスピーカに供給されるスピーチ信号の間に一定の位相差があればスピーチの音像位置と楽曲の音像位置とを異ならせることができるので、一方のスピーカに供給されるスピーチ信号を必ずしも反転（１８０°変化）させる必要はない。即ち、一方のスピーカに供給されるスピーチ信号と、他方のスピーカに供給されるスピーチ信号との間に一定の位相差を与えてやればよい。

（２）音像の定位を制御する方法
図８（Ｂ）は、スピーチの音像を任意の位置に設定可能な構成を示す。左（Ｌ）チャンネルの楽曲信号は加算器３２に供給され、右（Ｒ）チャンネルの楽曲信号は、加算器３３に供給される。一方、スピーチ信号は、音像定位制御演算部３４、クロストークキャンセル部３５を経由して加算器３２、３３に供給される。音像定位制御演算部３４は、目標のスピーカ位置と聴取位置（ユーザの位置）との間の伝達関数をスピーチ信号に畳み込み、クロストークキャンセル部３５は楽曲を出力しているスピーカと聴取位置との間の伝達関数をキャンセルする処理を行う。これにより、楽曲の音像は左右のスピーカ３０Ｌ、３０Ｒの間に定位させるとともに、スピーチの音像を目標のスピーカ位置に定位させることができるので、ユーザはスピーチとボーカルとを聞き分けやすくなる。

（３）ヘッドレストスピーカを利用する方法
車両のスピーカに加えて車両のシートにヘッドレストスピーカが搭載されている場合、車両のスピーカからボーカルを含む楽曲を出力し、ヘッドレストスピーカからスピーチを出力することができる。この場合の構成例を図９に示す。

左右チャンネルの楽曲信号はそれぞれ車両のスピーカ３０Ｌ、３０Ｒに供給される。また、スピーチ信号は、そのまま右のヘッドレストスピーカ３５Ｒに供給されるとともに、位相反転器３１で位相が反転されて左のヘッドレストスピーカ３５Ｌに供給される。この場合も、２つのヘッドレストスピーカ３５Ｌ、３５Ｒに供給されるスピーチ信号に位相差が与えられているため、スピーチの音像は楽曲の音像と異なる位置に定位し、ユーザはスピーチと楽曲中のボーカルとを聞き分けやすくなる。なお、この例においても、図８（Ａ）の例と同様に、一方のヘッドレストスピーカに供給されるスピーチ信号と、他方のヘッドレストスピーカに供給されるスピーチ信号との間に一定の位相差を与えてやればよい。

ヘッドレストスピーカを利用する場合には、運転席のヘッドレストスピーカの代わりに、助手席のヘッドレストスピーカを利用してスピーチを再生してもよい。また、車両の複数の座席にヘッドレストスピーカが搭載されている場合には、各座席毎にスピーチの再生の要否を選択して設定できるようにしてもよい。こうすると、スピーチを聞いて楽曲を歌いたい搭乗者の座席のヘッドレストスピーカのみからスピーチが再生されるように設定することができる。

また、位相差を与えることに代えて、図８（Ｂ）で説明した処理と同様に、音像定位制御演算部３４と、クロストークキャンセル部３５とを用いることで、スピーチの音像を任意の位置に定位させてもよい。これにより、ユーザがスピーチとボーカルとを聞き分けやすくすることができる。

［２］システム構成
次に、上述のアシストボーカルを実現する楽曲再生システムの構成例を説明する。

［２．１］第１実施例
第１実施例では、アシストボーカル処理を主として端末装置側で実行する。第１実施例による楽曲再生システムの全体構成を図１０に示す。第１実施例の楽曲再生システムでは、複数の車両１と、コンテンツプロバイダ２と、ゲートサーバ３とがネットワーク４を介して通信可能とされる。なお、複数の車両１は、無線通信によりネットワーク４を介してコンテンツサーバ２、ゲートサーバ３と通信可能となっている。

コンテンツプロバイダ２は、音楽配信業者などのサーバであり、楽曲データ、楽曲のメタデータ、歌詞データなどを提供する。ゲートサーバ３は、本実施例によるアシストボーカルを実現するために機能するサーバであり、コンテンツプロバイダ２から必要な楽曲の楽曲データ、メタデータ、歌詞データなどを取得して、図示しないデータベースに記憶している。

車両１の内部構成の一例を図１１（Ａ）に示す。車両１は、端末装置１０と、音楽再生装置２０と、スピーカ３０とを備える。

端末装置１０は、典型的にはスマートフォンなどの携帯端末であり、通信部１１と、制御部１２と、記憶部１３と、マイク１４と、操作部１５とを備える。通信部１１は、ネットワーク４を通じてゲートサーバ３と通信する。制御部１２は、ＣＰＵなどからなり、端末装置１０の全体を制御する。

記憶部１３は、ＲＯＭ、ＲＡＭなどのメモリであり、制御部１２が各種の処理を実行するためのプログラムを記憶するとともに、ワークメモリとしても機能する。記憶部１３に記憶されたプログラムを制御部１２が実行することにより、アシストボーカル処理を含む処理が実行される。また、記憶部１３は、ユーザが保存した楽曲の楽曲データを記憶していてもよい。

マイク１４は、車内で再生されている楽曲、ユーザによる歌唱、会話などの音声を集音して音声データを生成する。操作部１５は、典型的にはタッチパネルなどであり、ユーザによる操作、選択の入力を受け付ける。

音楽再生装置２０は、例えばカーオーディオなどであり、アンプなどを含む。スピーカ３０は、車両に搭載されたスピーカである。音楽再生装置２０は、端末装置１０から供給される楽曲データに基づいて楽曲をスピーカ３０から再生する。

車両１の内部構成の他の例を図１１（Ｂ）に示す。この例では、車両１は端末装置１０ｘを備える。端末装置１０ｘは、図１１（Ａ）に示す携帯端末などの端末装置１０とカーオーディオなどの音楽再生装置２０の機能を併せ持つ装置である。端末装置１０ｘは、端末装置１０と同様に通信部１１、制御部１２、記憶部１３、マイク１４、操作部１５を備えるとともに、音楽再生装置２０に相当する音楽再生部１６を備える。端末装置１０ｘはスピーカ３０に接続され、楽曲データに基づいて楽曲をスピーカ３０から再生する。

次に、第１実施例の楽曲再生システムによるアシストボーカル処理について説明する。図１２は、第１実施例に係るアシストボーカル処理のフローチャートである。この処理では、アシストボーカル処理を主として端末装置１０又は１０ｘ（以下、代表して単に「端末装置１０」と記す。）により実行する。

まず、ゲートサーバ３は、ネットワーク４を介してコンテンツプロバイダ２に接続し、複数の楽曲について、楽曲データ及び歌詞データを取得し、内部のデータベースに保存しておく（ステップＳ１０１）。

端末装置１０は、ユーザによる操作部１５の操作により、再生すべき楽曲の指定を受け取り（ステップＳ１０２）、その楽曲を指定する楽曲指定情報をゲートサーバ３へ送信する（ステップＳ１０３）。ゲートサーバ３は、受け取った楽曲指定情報に対応する楽曲の楽曲データ及び歌詞データをデータベースから取得し、端末装置１０へ送信する（ステップＳ１０４）。

次に、端末装置１０は、受信した楽曲データ及び歌詞データを利用して、ステップＳ１０５〜Ｓ１０９の処理を行う。ここで、ステップＳ１０５〜Ｓ１０９の処理は、図２におけるステップＳ３〜Ｓ７と同様であるので、説明を省略する。

こうして、第１実施例の楽曲再生システムにおいては、車両１に搭載された端末装置１０が主としてアシストボーカル処理を実行する。

上記の例では、ステップＳ１０１でゲートサーバ３はコンテンツプロバイダから楽曲データを取得しているが、楽曲データが端末装置１０に保存されている場合には、ゲートサーバ３は端末装置１０から楽曲データを取得してもよい。また、ゲートサーバ３内のデータベースに楽曲データが保存されている場合には、そこから楽曲データを取得してもよい。

［２．２］第２実施例
第２実施例では、アシストボーカル処理の一部をゲートサーバ３側で実行する。第２実施例による楽曲再生システムの全体構成は、図１０に示す第１実施例と同様であるので、説明を省略する。

次に、第２実施例の楽曲再生システムによるアシストボーカル処理について説明する。図１３は、第２実施例に係るアシストボーカル処理のフローチャートである。この処理では、ゲートサーバ３がスピーチ情報を生成し、さらにスピーチ付楽曲データを生成して端末装置１０へ送信する。端末装置１０は、スピーチ付楽曲データを受信して再生する。以下、詳しく説明する。

まず、ゲートサーバ３は、ネットワーク４を介してコンテンツプロバイダ２に接続し、複数の楽曲について、楽曲データ及び歌詞データを取得し、内部のデータベースに保存する（ステップＳ２０１）。そして、ゲートサーバ３は、各楽曲について、取得した楽曲データと歌詞データとに基づいてスピーチ情報を生成する（ステップＳ２０２）。このスピーチ情報生成処理は、図２のステップＳ３と同一であるので、説明を省略する。

スピーチ情報を生成すると、ゲートサーバ３は、楽曲データにスピーチを付加してスピーチ付楽曲データを生成する（ステップＳ２０３）。具体的に、ゲートサーバ３は、生成したスピーチ情報に基づいて、各スピーチに対応するスピーチ信号を、図３のステップＳ３６の処理により算出したタイミングで楽曲データに合成し、スピーチ付楽曲データを生成してデータベースに記憶する。つまり、スピーチ付楽曲データは、そのまま再生することにより、楽曲に加えてスピーチが再生されるデータである。

端末装置１０は、ユーザによる操作部１５の操作により、再生すべき楽曲の指定を受け取り（ステップＳ２０４）、その楽曲を指定する楽曲指定情報をゲートサーバ３へ送信する（ステップＳ２０５）。ゲートサーバ３は、受け取った楽曲指定情報に対応する楽曲のスピーチ付楽曲データを端末装置１０へ送信する（ステップＳ２０６）。

次に、端末装置１０は、受信したスピーチ付楽曲データを再生する（ステップＳ２０７）。これにより、楽曲の再生中の適切なタイミングで、スピーチが再生される。次に、端末装置１０は、楽曲の再生を終了すべきか否かを判定する（ステップＳ２０８）。その楽曲が最後まで再生された場合、又は、ユーザが再生を中止した場合など、再生を終了すべき場合には（ステップＳ２０８：Ｙｅｓ）、端末装置１０は再生を終了する。一方、楽曲の再生を終了すべきではない場合（ステップＳ２０８：Ｎｏ）、処理はステップＳ２０７へ戻り、スピーチ付楽曲データの再生が継続される。

こうして、第２実施例の楽曲再生システムにおいては、ゲートサーバ３側でスピーチ付楽曲データが生成され、端末装置１０へ提供される。端末装置１０は、受信したスピーチ付楽曲データを再生することにより、スピーチを含む楽曲を聞くことができる。

上記の例では、ステップＳ２０１でゲートサーバ３はコンテンツプロバイダから楽曲データを取得しているが、楽曲データが端末装置１０に保存されている場合には、ゲートサーバ３は端末装置１０から楽曲データを取得してもよい。また、ゲートサーバ３内のデータベースに楽曲データが保存されている場合には、そこから楽曲データを取得してもよい。

［３］スピーチのみを再生するアシストボーカル
上述のアシストボーカル処理では、端末装置１０により再生している楽曲に対して、スピーチを付加して再生している。しかし、端末装置１０以外のソース、例えば車内のラジオ、ＣＤなど(以下、「外部ソース」と呼ぶ。）から再生されている楽曲に対してスピーチを付加することができれば便利である。この場合、端末装置１０は、基本的に上述の方法でスピーチ情報を生成し、外部ソースから再生されている楽曲の再生位置に応じたタイミングでスピーチのみを再生すればよい。

この場合のアシストボーカル処理のフローチャートを図１４に示す。まず、端末装置１０は、外部ソースから再生されている楽曲をマイク１４により集音して再生楽曲データを取得し（ステップＳ１５１）、これをゲートサーバ３へ送信する（ステップＳ１５２）。

ゲートサーバ１５３は、端末装置１０から再生楽曲データを受信し、対応する楽曲及びその再生位置を特定する（ステップＳ１５３）。具体的には、ゲートサーバ３は、前述の音楽検索サーバの機能を有する音楽検索部を備え、再生楽曲データに基づいて、その楽曲を特定するとともに、その再生楽曲データの部分に対応する再生位置を特定する。そして、ゲートサーバ３は、特定した楽曲の楽曲名やアーティスト名とともに、歌詞データと、再生位置情報とを端末装置１０へ送信する（ステップＳ１５４）。

端末装置１０は、受信した歌詞データを利用して、スピーチ情報を生成する（ステップＳ１５５）。なお、スピーチ情報の生成は、図３を参照して説明したのと同様の方法で行われる。なお、端末装置１０は、マイク１４で取得した再生楽曲データを解析することにより、楽曲解析データを取得することができる（図３のステップＳ３２の処理）。

次に、端末装置１０は、ゲートサーバ３から取得した再生位置情報に基づいて、その楽曲における現在の再生位置を算出する（ステップＳ１５６）。この方法については後述する。次に、端末装置１０は、スピーチ強調処理を行い（ステップＳ１５７）、外部ソースにより再生されている楽曲に合わせて適切なタイミングでスピーチを再生する（ステップＳ１５８）。これにより、外部ソースから再生されている楽曲に合わせて、スピーチが再生される。

そして、端末装置１０は、スピーチの再生を終了すべきか否かを判定し（ステップＳ１５９）、終了させるべきでない場合には、ステップＳ１５６へ戻って処理を継続する。一方、外部ソースからの楽曲の再生が終了した場合、再生されている楽曲が別の楽曲に変わった場合、再生すべきスピーチが無くなった場合など、スピーチの再生を終了すべき場合には（ステップＳ１５９：Ｙｅｓ）、処理を終了する。

次に、図１５を参照して、ステップＳ１５６において楽曲の現在の再生位置を特定する方法を説明する。端末装置１０からゲートサーバ３へ送信される再生楽曲データは、実際には複数のオーディオフレームのデータとなる。即ち、端末装置１０は、外部ソースにより再生されている楽曲をマイク１４で集音し、複数のオーディオフレームとして順次ゲートサーバ３へ送信する。

図１５の例では、端末装置１０は、外部ソースにより再生されている楽曲のオーディオフレームｎ、（ｎ＋１）、（ｎ＋２）、．．．を、再生楽曲データとして順次ゲートサーバ３へ送信する。この際、端末装置１０は、最初に再生楽曲データを送信した時刻、図１５の例ではオーディオフレームｎを送信した時刻（以下、「基準時刻ｔ０」と呼ぶ。）を記憶しておく。

ゲートサーバ３の音楽検索部は、データベースに記憶された多数の楽曲の情報を参照し、受信した複数のオーディオフレームに基づいて楽曲を特定する。図１５の例では、ゲートサーバ３の音楽検索部は、オーディオフレームｎ〜（ｎ＋４）に基づいて楽曲を特定できたものとする。この場合、ゲートサーバ３は、楽曲判定結果として、楽曲名、アーティスト名などに加えて、端末装置１０から最初に受信したオーディオフレームｎの曲先頭からの再生時間（ｔｎ）を再生位置情報として端末装置１０へ送信する。即ち、図１４のステップＳ１５４でゲートサーバ３から端末装置１０へ送信される再生位置情報は、端末装置１０がゲートサーバ３へ最初に送信したオーディオフレームｎの、その楽曲の先頭からの経過時間となっている。そこで、ステップＳ１５６において、端末装置１０は、予め記憶していた基準時刻ｔ０から現在までの経過時間の経過時間Δｔを算出し、これを再生時間ｔｎに加算する。即ち、ゲートサーバ３から送信される再生時間ｔｎは、その楽曲の先頭からオーディオフレームｎまでの時間であり、経過時間Δｔはオーディオフレームｎから現在までの時間である。よって、現在の再生位置（再生時間）Ｔｃは、以下の式で算出される。

Ｔｃ＝ｔｎ＋Δｔ（２）
以上のように、ゲートサーバ３に音楽検索機能を設け、再生楽曲データに基づいて楽曲及びその再生位置を特定することにより、外部ソースから再生されている楽曲に合わせてスピーチを再生することができる。また、ゲートサーバ３に音楽検索機能を設ける代わりに、外部の音楽検索サーバを利用しても良い。

なお、ステップＳ１５９では、１つの楽曲が終了したときに再生を終了してもよいが、１つの楽曲が終了した後で別の楽曲が再生されているような場合には、処理を継続してもよい。即ち、端末装置１０からゲートサーバ３への楽曲再生データの送信を継続している間は、スピーチの再生を継続することとしてもよい。これにより、外部ソースから再生される曲が変わっても、それに追従してスピーチの再生を継続することが可能となる。

なお、上記の構成において、制御部１２は本発明の再生位置決定手段、歌詞データ取得手段、歌詞音声データ生成手段、歌詞音声付楽曲データ生成手段、中断判定手段の一例であり、マイク１４は本発明の集音手段の一例であり、通信部１１は本発明の送信手段、受信手段の一例である。

１車両
２コンテンツプロバイダ
３ゲートサーバ
４ネットワーク
１０、１０ｘ端末装置
１２制御部
１３記憶部
１４マイク
２０音楽再生装置
３０スピーカ

Claims

外部機器により再生されている楽曲を特定する楽曲特定情報を取得する取得手段と、
前記再生されている楽曲の再生位置を決定する再生位置決定手段と、
前記再生されている楽曲の歌詞データを取得する歌詞データ取得手段と、
前記歌詞データに基づいて、歌詞音声データを生成する歌詞音声データ生成手段と、
前記再生位置に基づいて、前記再生されている楽曲中の歌詞部分に先行して、前記歌詞音声データを出力する出力手段と、
を備えることを特徴とする歌詞音声出力装置。
前記取得手段は、
前記再生されている楽曲の音声データを集音する集音手段と、
集音した前記音声データを外部サーバへ送信する送信手段と、
集音された音声データに基づいて前記外部サーバにより特定された、前記再生されている楽曲の楽曲特定情報を受信する受信手段と、
を備えることを特徴とする請求項１に記載の歌詞音声出力装置。
前記受信手段は、前記送信手段により前記外部サーバへ送信した音声データの、前記再生されている楽曲の先頭からの経過時間を示す楽曲再生位置情報を前記外部サーバから受信し、
前記再生位置決定手段は、前記楽曲再生位置情報と、前記送信手段が前記音声データを前記外部サーバへ送信した時刻からの経過時間とに基づいて、前記再生位置を決定することを特徴とする請求項２に記載の歌詞音声出力装置。
前記楽曲の再生が中断したか否かを判定する中断判定手段を備え、
前記出力手段は、前記楽曲の再生が中断した場合に、前記歌詞音声データの出力を終了することを特徴とする請求項１乃至３のいずれか一項に記載の歌詞音声出力装置。
前記取得手段がそれまで再生されていた楽曲とは別の楽曲の楽曲特定情報を取得した場合には、前記出力手段は前記歌詞音声データの出力を終了することを特徴とする請求項１乃至３のいずれか一項に記載の歌詞音声出力装置。
前記取得手段がそれまで再生されていた楽曲とは別の楽曲の楽曲特定情報を取得した場合には、前記出力手段は、当該別の楽曲に対応する前記歌詞音声データの出力を継続することを特徴とする請求項１乃至３のいずれか一項に記載の歌詞音声出力装置。
コンピュータを備える端末装置により実行される歌詞音声出力方法であって、
外部機器により再生されている楽曲を特定する楽曲特定情報を取得する取得工程と、
前記再生されている楽曲の再生位置を決定する再生位置決定工程と、
前記再生されている楽曲の歌詞データを取得する歌詞データ取得工程と、
前記歌詞データに基づいて、歌詞音声データを生成する歌詞音声データ生成工程と、
前記再生位置に基づいて、前記再生されている楽曲中の歌詞部分に先行して、前記歌詞音声データを出力する出力工程と、
を備えることを特徴とする歌詞音声出力方法。
コンピュータを備える端末装置により実行されるプログラムであって、
外部機器により再生されている楽曲を特定する楽曲特定情報を取得する取得手段、
前記再生されている楽曲の再生位置を決定する再生位置決定手段、
前記再生されている楽曲の歌詞データを取得する歌詞データ取得手段、
前記歌詞データに基づいて、歌詞音声データを生成する歌詞音声データ生成手段、
前記再生位置に基づいて、前記再生されている楽曲中の歌詞部分に先行して、前記歌詞音声データを出力する出力手段、
として前記コンピュータを機能させることを特徴とするプログラム。
請求項８に記載のプログラムを記憶したことを特徴とする記憶媒体。