JP2008020622A

JP2008020622A - オーサリングシステムおよびプログラム

Info

Publication number: JP2008020622A
Application number: JP2006191632A
Authority: JP
Inventors: Juichi Sato; 寿一佐藤; Akane Noguchi; あかね野口
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-07-12
Filing date: 2006-07-12
Publication date: 2008-01-31

Abstract

【課題】ガイドボーカルの各音素の発音タイミングと歌詞との対応付けを自動的に生成する。
【解決手段】ＣＰＵ１１は、楽曲データを読み出し（ＳＡ１）、歌詞テキストデータに対して形態素解析を施して、各文字の発音を表す平仮名列を取得する（ＳＡ２）。そして、ＣＰＵ１１は、平仮名列の各文字に対応付けて歌詞発音タイミングデータを生成する（ＳＡ３）。次に、ＣＰＵ１１は、歌詞発音タイミングデータを参照して、処理単位に対応する区間の音声データを抽出する（ＳＡ４）。ＣＰＵ１１は、歌詞の文字に対応付けられている歌詞発音タイミングデータに代えて、対応する音声データの区間の音素の発音タイミングを各歌詞（仮名）に対応付ける（ＳＡ５）。
【選択図】図４

Description

本発明は、歌詞の発音の区切りを示すタイミングを検出する技術に関する。

カラオケ装置においては、楽曲の自動伴奏に伴ってモニタ画面に歌詞を表示するとともに、曲の進行に対応して歌詞の色を変えるワイプ処理が行われている。（例えば、特許文献１）

また、カラオケ装置には、歌唱者の歌唱の巧拙を採点する採点機能を備えたものがある。一般にこの種のカラオケ装置においては、カラオケ演奏時に、カラオケの楽曲データに含まれるガイドメロディのデータと歌唱者の音声をデジタル化した歌唱音声データとの比較結果に基づいて歌唱の評価を行う。その評価手法のひとつとして、１楽曲を小節単位等の複数部分に区切って比較を行うものがある。（例えば、特許文献２）
特開平１０−１２４０７５号公報特開２００４−１０９２６５号公報

このような採点機能を備えたカラオケ装置を応用し、歌唱力の指導を行うことも考えられている。その歌唱力を指導する方法として、予め記憶された見本となる歌唱音声と利用者の歌唱音声とを比較して、その比較結果から指導内容を提示する方法がある。

しかしながら、見本となる歌唱（以下、ガイドボーカルという）は、ガイドメロディのように音符の通りに歌唱されている理由ではなく、曲に味わいを持たせるため、音符の発音タイミングを少しずらして歌っていたり、音符の音高に対して少し低い音程から歌い上げるなどの技巧を組み合わせたりして歌唱している。この場合に、利用者の歌声についてガイドメロディを基準に評価してしまうと、ガイドボーカルに近い上手な歌声でも低く評価され、不適切な指導内容を提示してしまうことになる。

一方、利用者の歌声とガイドボーカルとを比較する場合、ガイドボーカルが歌詞のどの部分を歌っているかを正確に認識していないと、それに対応する箇所の利用者の歌声と比較することはできない。しかしながら、ガイドボーカルのデータは見本となる歌手の歌声を記録した音声データであるから、歌詞との対応関係を示すデータは含まれていない。そこで、ガイドボーカルの各音素について、その発音タイミングを検出してデータとして添付すればよいが、このような編集作業には、編集者が耳で発音を確認しながら、音声データの音素の区切りを見つけなければならず、非常に多くの労力がかかってしまう。

本発明は、上述の事情を鑑みてなされたものであり、一般的なカラオケ装置に含まれるカラオケコンテンツを利用して、ガイドボーカルの各音素の発音タイミングと歌詞との対応付けを生成するコンテンツオーサリングシステムを提供することを目的とする。

上記目的を達成するために、本発明は、楽曲における歌詞の各文字を示すテキストデータと、前記テキストデータの各々の文字に対して発音タイミングを示すタイミングデータとを有する曲データを記憶する記憶手段と、音声を表す音声データを記憶する音声データ記憶手段と、前記音声データの各部の特徴からその発音を特定するとともに、特定した発音と前記記憶手段内のテキストデータとを前記タイミングデータを参照することにより比較し、比較結果から前記テキストデータが示す各文字に対応している前記音声データの区間を検出する対応区間検出手段と、前記対応区間検出手段が検出した各区間の開始タイミングを、対応する文字の発音タイミングとして特定する発音タイミング特定手段と、前記発音タイミング特定手段が特定した発音タイミングと、これに対応する文字を対にしてコンテンツデータを生成するコンテンツデータ生成手段とを具備することを特徴とするオーサリングシステムを提供する。

このオーサリングシステムの好ましい態様において、前記発音タイミングを示すタイミングデータは歌詞の文字の色変えタイミングを示すワイプ開始タイミングデータである。

また、本発明は、コンピュータに、楽曲における歌詞の各文字を示すテキストデータと、前記テキストデータの各々の文字に対して発音タイミングを示すタイミングデータとを有する曲データを記憶手段に記憶させる機能と、音声を表す音声データを音声データ記憶手段に記憶させる機能と、前記音声データの各部の特徴からその発音を特定するとともに、特定した発音と前記記憶手段内のテキストデータとを前記タイミングデータを参照することにより比較し、比較結果から前記テキストデータが示す各文字に対応している前記音声データの区間を検出する機能と、検出した各区間の開始タイミングを、対応する文字の発音タイミングとして特定する機能と、特定した発音タイミングと、これに対応する文字を対にしてコンテンツデータを生成する機能とを実現させるプログラムを提供する。

本発明によれば、ガイドボーカルの各音素の発音タイミングと歌詞との対応付けを自動的に生成することができる。

＜Ａ：構成＞
図１は、本実施形態に係るコンピュータ装置１の構成を示すブロック図である。図１に示すように、コンピュータ装置１は、ＣＰＵ（Central Processing Unit）１１が、ＲＯＭ（Read Only Memory）１２又は記憶部１４に記憶されているコンピュータプログラムを読み出してＲＡＭ（Random Access Memory）１３にロードし、これを実行することにより、コンピュータ装置１の各部を制御する。記憶部１４は、例えばハードディスクなどの大容量の記憶手段であり、楽曲データ記憶領域１４ａと、音響モデルテーブル１４ｂと、コンテンツ記憶領域１４ｃとを有している。表示部１５は、例えば液晶ディスプレイなどであり、ＣＰＵ１１の制御の下で、コンピュータ装置１を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部１６は、各種のキーを備えており、押下されたキーに対応した信号をＣＰＵ１１へ出力する。

楽曲データ記憶領域１４ａには、楽曲を表す楽曲データが記憶されている。この楽曲データはガイドボーカルトラック１４１ａ、ワイプデータトラック１４２ａおよび伴奏データトラック１４３ａを有している。
ガイドボーカルトラック１４１ａには、ガイドボーカルを表す音声データ（ガイドボーカルデータ）が記録される。ワイプデータトラック１４２ａには、楽曲の歌詞を表す歌詞テキストデータと、曲の進行に合わせて表示部１５や図示せぬカラオケ装置のモニタに表示される画面上での歌詞の表示色を変更（これをワイプと呼ぶ）するタイミングを示す情報と、歌詞の改行を示す改行情報とが記録される。この場合、ワイプのタイミングを示す情報は、歌詞テキストデータに含まれる各キャラクタ（文字）を表すテキストデータ毎にワイプの開始時刻を示す時刻情報（以下、ワイプ開始タイミングデータという）として記憶されている。また、改行情報は、後述する処理において、歌詞を１行ずつ表示するための処理単位を識別する情報として用いられる。
なお、実施形態では、ワイプの開始時刻になると、対応する歌詞テロップの文字の領域が左側から色が変化され始めて、次の文字のワイプの開始時刻が到来すると、ワイプが終了するようにしている。

図２は、ワイプデータトラック１４２ａのデータ構造を説明する図である。図においては、まず「ゆきどけ」の各文字にワイプの開始時刻が設定され、さらに、「／」で表される改行情報には、この行の改行すべき表示終了時刻が設定されている。なお、改行情報として、便宜上「／」として表しているが、これは歌詞テロップとして表示されるのではなく、表示単位の区切り（改行）を示す符号として用いられる。
図２に示す例では、「ゆ」の文字にはワイプ開始タイミングデータｔ１が指定されており、「き」の文字にはワイプ開始タイミングデータｔ２が指定され、以下同様に、「ど」の文字にはｔ３、「け」の文字にはｔ４が指定されている。また、改行を示す符号「／」には、改行時刻として時刻ｔ５が指定されている。また、次の行の「まぢかの」という歌詞テロップについても上記と同様になっており、ワイプ開始タイミングデータｔ６〜ｔ１０が指定されている。

伴奏データトラック１４３ａには、例えばＭＩＤＩ（Musical Instruments Digital Interface：登録商標）形式の伴奏データが記録されており、伴奏データには各曲の伴奏を行う各種楽器の旋律の音程（ピッチ）や強さ（ベロシティ）や効果の付与等を示す情報が含まれている。これらのデータは、楽曲の進行に従って読み出されるようになっている。また、この伴奏データの中には、楽曲のメロディの音階を示すメロディデータが含まれている。

音響モデルテーブル１４ｂには、音声から抽出した特徴量と、発音を示す文字（この実施形態の場合は平仮名）の候補とが対応付けて記憶されたデータベース（以下、音響モデルという）が記憶されている。ここで、図３に音響モデルのデータ構造の一例を示す。音響モデルは、図３に示すように、音声波形の特徴量を表す特徴量データ（＃１，＃２・・・）と、これに対応する仮名の候補とがテーブル形式で記憶されている。
図において、一つの特徴量データに対して、複数の仮名の候補が対応付けられ、これらの候補は確率が高い順に「候補１」、「候補２」、「候補３」・・・という順番で並べられている。例えば、特徴量「♯１」に対しては「あ」である確率が８０％、「い」である確率が２０％であることを示している。また、特徴量「♯２」に対しては「わ」である確率が４０％、「や」である確率が３０％、「ゆ」である確率が２０％であることを示している。

次に、コンテンツ記憶領域１４ｃは、後述するコンテンツ生成処理によって生成されるコンテンツが記憶される領域である。

＜Ｂ：動作＞
次に、本実施形態の動作について、図４に示すフローチャートを参照しつつ説明する。図４は、コンピュータ装置１のＣＰＵ１１が行う処理の流れを示すフローチャートである。
ＣＰＵ１１は、まず、楽曲データを読み出す（ステップＳＡ１）。ＣＰＵ１１は、読み出した楽曲データ内の歌詞テキストデータの改行情報に基づいて処理を行う単位を決定する。本実施形態においては、歌詞テキストデータの１行分を処理単位として順次処理を実行する。次に、最初の処理単位、すなわち、第１行目の歌詞テキストデータに対して形態素解析を施して、各文字の発音を表す平仮名列を取得する（ステップＳＡ２）。
形態素解析は、処理単位に含まれる歌詞テキストデータを形態素に分解し、歌詞テキストデータの各文字の発音を表す平仮名列を得る処理である。
ここで、形態素解析とは、文章から単語を認識する処理である。この場合、日本語文章は英語文書と異なり、“分かち書き”されていないため単語間にスペースがなく、単語を切り出して認識することが困難である。そこで、形態素解析においては、予め記憶した形態素辞書（図示略）に基づいて形態素解析を行って単語単位に分割して品詞を判定する。また、本実施形態においては、実際に発音される音に対応する仮名に変換する。例えば、「こんにちは」という単語について説明すると、この発音を表す平仮名列は「こんにちわ」となる。すなわち、形態素辞書を用いて「こんにちは」という単語を抽出し、さらにその実際の発音は「こんにちわ」であると認識され、その認識結果に対応する仮名が求められる。

また、歌詞テロップに漢字が含まれている場合にも同様にして文字と発音との関係が求められる。例えば、「いい日旅立ち」というテキストデータについて形態素解析を行って、「いい」「ひ」「たびだち」というかな文字のテキストデータへの変換を行う。なお、漢字に対してルビが振られている場合は、そのルビを参照して形態素解析を行う。

上述のようにして歌詞１行分に対応する平仮名列が得られる。また、ワイプデータトラック１４２ａのうち、処理単位に対応する部分から各文字についてのワイプ開始タイミングデータを読み出し、平仮名列の各文字に対応付けた「歌詞発音タイミングデータ」を生成する（ステップＳＡ３）。
そして、ＣＰＵ１１は、処理単位内の各文字のワイプ開始タイミングデータを参照して、ガイドボーカルトラック１４１ａから処理単位に対応する区間（１行分）の音声データを抽出する（ステップＳＡ４）。この場合、大凡対応する区間を抽出できればよいので、処理単位に対応する開始時刻よりも少し早いタイミングから、処理単位に対応する終了時刻よりも少し遅いタイミングまでの区間を抽出する。

そして、ＣＰＵ１１は、上記のようにして抽出した音声データに対して、図３に示す音響モデルテーブル１４ｂを参照して、その発音、すなわち、仮名を特定する。この特定に際して、歌詞発音タイミングデータの各仮名文字に対応付けられているワイプ開始タイミングデータを参照し、その仮名文字が現れる音声データのおおよその位置を推定してもよく、また、その位置には、歌詞発音タイミングデータの対応する各仮名文字が現れるはずであるから、音響モデルテーブル１４ｂの候補の順位についても、歌詞発音タイミングデータ内の対応する仮名文字を優先するように処理してもよい。

今、歌詞発音タイミングデータが図５（ａ）に示すように、「ゆ」「き」「ど」「け」という仮名文字であり、かつ、各仮名文字に対応つけられているワイプ開始タイミングデータがｔ１，ｔ２，ｔ３，ｔ４であったとする。ここで、音響モデルテーブル１４ｂを参照して上述のようにして音声データの発音（仮名）を特定した結果、図５（ｂ）に示すように時刻ｔ１’から始まる音声データの波形が「ゆ」と特定されたとする。ここで、音声データの「ゆ」の部分と歌詞発音タイミングデータの「ゆ」とがマッチングされ、歌詞発音タイミングデータの「ゆ」に対応付けられていたワイプ開始タイミングデータに代えて、音声データから検出された時刻ｔ１’が対応付けられる。
以下同様にして、「き」「ど」「け」について処理が行われ、これらの仮名文字に対応付けられていたワイプ開始タイミングデータに代えて、マッチングにより音声データから検出された時刻ｔ２’，ｔ３’，ｔ４’が対応付けられる。これにより、ガイドボーカルの音声データの各音素の発音タイミングと歌詞の文字との対応付けが正確に行われる（ステップＳＡ５）。

次に、ＣＰＵ１１は、全ての行（処理単位）について処理が終了したか否かを判定し（ステップＳＡ６）、未処理の行が残っていると判定すれば（ステップＳＡ６；ＮＯ）、ステップＳＡ２からの処理を繰り返し、全ての処理単位について処理が終了したと判定すれば（ステップＳＡ６；ＹＥＳ）、全ての処理結果をコンテンツとして、コンテンツデータをコンテンツ記憶領域１４ｃに記憶させる（ステップＳＡ７）。なお、記憶処理を省略して他の機器やネットワーク上に出力してもよい。

本実施形態においては、一行分の歌詞テキストデータを１つの処理単位として処理を行っているので、以下の効果が得られる。コンピュータ装置１が歌詞テロップのワイプの開始時刻と、ガイドボーカルの音素と発音タイミングとの対応関係を求める場合に、その途中で何らかの事情により、それらの対応関係がずれる場合がある。このとき、楽曲全体を一連の処理単位として処理する方法では、楽曲が終了するまで、このような“ずれ”が影響してしまい、正確な対応関係を求めることができなくなってしまう。よって、楽曲データが適当な処理単位に分割されていれば、“ずれ”が生じた場合にも処理単位の中で調整することができ、他の処理単位について影響を及ぼさない。なお、処理単位は１行単位と限ることはなく、２行単位、３行単位、あるいは他の任意の長さを単位としてもよい。

また、音響モデルは、一般に市販されている汎用のものを用いることができるが、歌唱音声をもとに作成されたものを用いると好適である。ガイドボーカルデータは歌唱音声特有の特徴を持つためである。また、ガイドボーカルが収録される場所は、主にスタジオであるから、リバーブのかかった歌唱音声となる場合がしばしばある。リバーブは、スタジオ以外にも、例えば映画館、コンサートホールおよび教会などの空間の違いによってその成分の大きさは異なり、比較的狭い空間ではリバーブ成分は比較的少なくなるし、コンサートホールのように大きな空間では、リバーブ成分は比較的大きくなる。よって、ガイドボーカルの収録される環境に応じて作成された音響モデルが用いられれば、コンテンツの精度を向上させることに寄与することができる。

＜Ｃ：変形例＞
なお、本発明は上述した実施形態にのみ限定されるものではなく、種々の態様にて実施することが可能である。具体的には、例えば以下のような変形が挙げられる。なお、これらの変形は、各々を適宜に組み合わせることも可能である。

（１）上述した実施形態においては、ワイプデータトラック１４２ａにおいて、歌詞の各文字に対してワイプの開始時刻が設定されていたが、さらにワイプの終了時刻が設定されていてもよい。このようにすれば、ＣＰＵ１１は、各文字がワイプされる時刻をさらに精度良く認識することができるため、ガイドボーカルデータから処理単位に対応する音声データを抽出する際の精度も向上する。よって、ＣＰＵ１１は、処理単位の音声データをガイドボーカルトラックから抽出する際に、より正確な範囲を抽出することができ、処理に関わる余分な音声データを削減することができるから、コンテンツデータの生成処理に要する時間を低減させることができる。

（２）上述した実施形態においては、ガイドボーカルトラック１４１ａに記録されるガイドボーカルデータはＷＡＶＥやＭＰ３形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
なお、上述した実施形態においては、ガイドボーカルデータをガイドボーカルトラック１４１ａに記録させて、コンピュータ装置１のＣＰＵ１１がガイドボーカルトラック１４１ａからガイドボーカルデータを読み出すようにしたが、これに代えて、通信ネットワークを介してガイドボーカルデータを受信するようにしてもよい。

（３）上述した実施形態においては、或る１つの音響モデルについてのみ説明したが、複数の音響モデルを併用しても良い。例えば、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」などの歌唱技法を用いた歌唱をするか否かによって、同じ発音を表す音素でも歌唱方法により、その特徴量が大きく異なる場合があるが、複数の音響モデルを使用するとこれらに対応させることができる。

（４）上述した実施形態においては、歌詞の発音タイミングを示すデータとしてワイプ開始タイミングデータを用いたが、その他のデータを使用してもよい。例えば、メロディの各音を示すガイドメロディデータを用い、対応する歌詞の発音タイミングを求め、この結果得られるデータを、発音タイミングを示すデータとして用いてもよい。また、歌唱の優劣を判定するために、メロディデータの音高や強さを示す歌唱採点用のデータがある場合には、このデータを用いて発音タイミングを示すデータを生成してもよい。要するに、歌詞の発音タイミングを示すデータが生成されるなら、どのようなデータを用いてもよい。

（５）上述した実施形態におけるコンピュータ装置１のＣＰＵ１１によって実行されるプログラムは、磁気テープ、磁気ディスク、フロッピー（登録商標）ディスク、光記録媒体、光磁気記録媒体、ＣＤ（Compact Disk）−ＲＯＭ、ＤＶＤ（Digital Versatile Disk）、ＲＡＭなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でコンピュータ装置１にダウンロードさせることも可能である。

本発明の実施形態に係るコンピュータ装置のハードウェア構成を示したブロック図である。ワイプデータトラックのデータ構造を説明する図である。音響モデルのデータ構造を説明する図である。ＣＰＵが行う処理の流れを示すフローチャートである。音素の発音タイミングと歌詞の文字との関係を説明する図である。

符号の説明

１…コンピュータ装置、１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…記憶部、１５…表示部、１６…操作部。

Claims

楽曲における歌詞の各文字を示すテキストデータと、前記テキストデータの各々の文字に対して発音タイミングを示すタイミングデータとを有する曲データを記憶する記憶手段と、
音声を表す音声データを記憶する音声データ記憶手段と、
前記音声データの各部の特徴からその発音を特定するとともに、特定した発音と前記記憶手段内のテキストデータとを前記タイミングデータを参照することにより比較し、比較結果から前記テキストデータが示す各文字に対応している前記音声データの区間を検出する対応区間検出手段と、
前記対応区間検出手段が検出した各区間の開始タイミングを、対応する文字の発音タイミングとして特定する発音タイミング特定手段と、
前記発音タイミング特定手段が特定した発音タイミングと、これに対応する文字を対にしてコンテンツデータを生成するコンテンツデータ生成手段と
を具備することを特徴とするオーサリングシステム。
前記発音タイミングを示すタイミングデータは歌詞の文字の色変えタイミングを示すワイプ開始タイミングデータであることを特徴とする請求項１記載のオーサリングシステム。
コンピュータに、
楽曲における歌詞の各文字を示すテキストデータと、前記テキストデータの各々の文字に対して発音タイミングを示すタイミングデータとを有する曲データを記憶手段に記憶させる機能と、
音声を表す音声データを音声データ記憶手段に記憶させる機能と、
前記音声データの各部の特徴からその発音を特定するとともに、特定した発音と前記記憶手段内のテキストデータとを前記タイミングデータを参照することにより比較し、比較結果から前記テキストデータが示す各文字に対応している前記音声データの区間を検出する機能と、
検出した各区間の開始タイミングを、対応する文字の発音タイミングとして特定する機能と、
特定した発音タイミングと、これに対応する文字を対にしてコンテンツデータを生成する機能と
を実現させるプログラム。