JP5895740B2

JP5895740B2 - 歌唱合成を行うための装置およびプログラム

Info

Publication number: JP5895740B2
Application number: JP2012144811A
Authority: JP
Inventors: 水口　哲也; 哲也水口; 杉井　清久; 清久杉井
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-06-27
Filing date: 2012-06-27
Publication date: 2016-03-30
Anticipated expiration: 2032-06-27
Also published as: EP2680254A2; US20140006031A1; JP2014010190A; CN103514874A; EP2680254A3; US9489938B2; EP2680254B1

Description

この発明は、歌唱合成技術に係り、特にリアルタイムに行う歌唱合成に好適な装置およびプログラムに関する。

最近では、ライブ演奏等において歌唱合成装置を用いてボーカル演奏が行われるようになってきており、リアルタイムな歌唱合成の可能な歌唱合成装置が求められている。このような要求に応えるため、特許文献１は、ユーザが鍵盤操作等により発生するメロディデータを受け取りつつ歌詞データをメモリから順次読み出し、歌唱合成を行う構成の歌唱合成装置を提案している。また、特許文献２は、メロディデータをメモリに記憶させ、歌詞を構成する表音文字を指定する操作に応じて、メロディデータが示すメロディに沿った歌唱音声を合成する歌唱合成装置を提案している。

特開２００８−１７０５９２号公報

特開２０１２−８３５６９号公報

ところで、上述した従来の歌唱合成装置は、歌唱合成の際、歌詞またはメロディの一方をメモリに予め記憶させておく必要があるため、即興的に歌詞およびメロディの両方を変更して歌唱合成を行うのが困難であった。そこで、最近、左手でのキー操作により歌詞を構成する表音文字の母音と子音を指定させると同時に右手での鍵盤操作によりピッチ指定を行わせ、指定された表音文字に対応し、かつ、指定されたピッチを有する歌唱合成音をリアルタイムに合成する歌唱合成装置が提案されている。この歌唱合成装置は、左手による歌詞の入力と、右手によるピッチの指定とを独立に並列実行することができるので、任意の歌詞を任意のメロディで歌唱させることができる。しかし、右手でメロディ演奏を行いつつ、左手の操作により歌詞の母音と子音を逐一入力するのは忙しい作業であるため、かなりの習熟を積まないと、即興性に富んだボーカル演奏を行うのは困難である。

この発明は以上のような事情に鑑みてなされたものであり、簡単な操作により即興性に富んだリアルタイムなボーカル演奏を行うことが可能な歌唱合成装置を提供することを目的としている。

この発明は、操作手段の操作により歌詞を選択する歌詞選択手段と、前記歌詞選択手段により選択された歌詞の任意の区間を前記操作手段の操作に応じて選択し、選択した区間を前記操作手段の操作により指定されたピッチの歌唱音声として出力するための制御を行う音声出力制御手段とを具備することを特徴とする歌唱合成装置を提供する。

かかる発明によれば、操作手段の操作により歌詞を選択し、選択した歌詞の任意の区間を操作手段の操作により選択し、この選択した歌詞の区間を操作手段の操作により所望のピッチの歌唱音声として出力することができる。従って、即興性に富んだリアルタイムなボーカル演奏が可能になる。

この発明の一実施形態である歌唱合成装置の外観を示す斜視図である。同歌唱合成装置の電気的構成を示すブロック図である。同歌唱合成装置にインストールされた歌唱合成プログラムの構成を示すブロック図である。同実施形態の編集モードにおける表示画面を示す図である。自動再生モードにおける同歌唱合成プログラムの合成部の状態を示すブロック図である。リアルタイム再生モードにおける同歌唱合成装置の表示画面を示す図である。リアルタイム再生モードの第1モードにおける同合成部の状態を示すブロック図である。リアルタイム再生モードの第１モードにおける同合成部の動作例を示す図である。リアルタイム再生モードの第２モードにおける同合成部の状態を示すブロック図である。リアルタイム再生モードの第２モードにおける同合成部の動作例を示す図である。リアルタイム再生モードの第３モードにおける同合成部の状態を示すブロック図である。リアルタイム再生モードの第３モードにおける同合成部の動作例を示す図である。

以下、図面を参照し、この発明の実施形態について説明する。
図１は、この発明の一実施形態である歌唱合成装置の外観を示す斜視図である。また、図２は本実施形態による歌唱合成装置の電気的構成を示すブロック図である。図２において、ＣＰＵ１は、この歌唱合成装置の各部を制御する制御中枢である。ＲＯＭ２は、ローダなど、この歌唱合成装置の基本的な動作を制御するための制御プログラムを記憶した読み出し専用メモリである。ＲＡＭ３は、ＣＰＵ１によってワークエリアとして使用される揮発性メモリである。鍵盤４は、通常の鍵盤楽器に設けられているものと同様な鍵盤であり、本実施形態では音符の入力手段として用いられる。タッチパネル５は、装置の動作状態や入力データおよび操作者（ユーザ）に対するメッセージなどを表示する表示機能と、ユーザによって行われる操作を受け付ける入力機能とを有するユーザインタフェースである。ユーザが行う操作の内容には、歌詞を示す情報の入力、音符を示す情報の入力、合成歌唱音の再生指示の入力などが含まれる。本実施形態による歌唱合成装置は、図１に示すように折り畳みが可能な筐体を有しており、鍵盤４およびタッチパネル５は、この筐体の内側の２面に設けられている。

図２において、インタフェース群６は、パーソナルコンピュータ等の他の装置との間でデータ通信を行うためのインタフェースや、フラッシュメモリなどの外部記憶媒体との間でデータの授受を行うためのドライバなどを含む。

サウンドシステム７は、この歌唱合成装置により得られる合成歌唱音の波形を示す時系列デジタルデータを音声として出力する手段であり、合成歌唱音の波形を示す時系列デジタルデータをアナログ音声信号に変換するＤ／Ａ変換器と、このアナログ音声信号を増幅するアンプと、このアンプの出力信号を音として出力するスピーカ等により構成されている。操作子群９は、ピッチベンドホイール、ボリューム摘み等、鍵盤４以外の操作子からなる。

不揮発性メモリ８は、各種のプログラムやデータベースなどの情報を記憶するための記憶装置であり、例えばＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃＥｒａｓａｂｌｅＰｒｏｇｒａｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ；電気的に消去および書き込みが可能なＲＯＭ）が用いられる。不揮発性メモリ８の記憶内容のうち本実施形態に特有のものとして、歌唱合成プログラムがある。ＣＰＵ１は、タッチパネル５等を介して入力される指示に従い、不揮発性メモリ８内のプログラムをＲＡＭ３にロードして実行する。

なお、不揮発性メモリ８に記憶されているプログラム等は、ネットワークを介してダウンロードにより取引されても良い。この場合、プログラム等は、インターネット内のサイトからインタフェース群６の中の適当なものを介してダウンロードされ不揮発性メモリ８内にインストールされる。また、コンピュータ読み取り可能な記憶媒体に記憶された状態で取引されても良い。この場合、プログラム等は、フラッシュメモリなどの外部記憶媒体を介して不揮発性メモリ８内にインストールされる。

図３は不揮発性メモリ８にインストールされた歌唱合成プログラム１００の構成を示すブロック図である。図３では、歌唱合成プログラム１００の機能の理解を容易にするため、タッチパネル５、鍵盤４、インタフェース群６、不揮発性メモリ８に記憶された音声素片データベース１３０およびフレーズデータベース１４０が歌唱合成プログラム１００の構成要素とともに図示されている。

本実施形態による歌唱合成装置の動作モードは編集モードと再生モードに大別することができる。編集モードは、鍵盤４、タッチパネル５またはインタフェース群６の中の適切なインタフェースを介して供給される情報に従って、歌詞データと音符データの対を生成する動作モードである。ここで、音符データは、曲を構成する各音符について、そのピッチ、発音タイミング、音符長を示す時系列データである。歌詞データは、音符データが示す各音符に合わせて歌唱する歌詞を示す時系列データである。なお、歌詞は、楽曲の歌詞の他、詩や台詞でも良いし、ＴＷＩＴＴＥＲ（登録商標）などのつぶやきや、一般的な文章でもよい(ラップ歌唱の歌詞のようなものであってもよい)。また、再生モードは、鍵盤４、タッチパネル５等の操作手段の操作に応じて、歌詞データと音符データの対からフレーズデータを生成し、または事前に生成されたフレーズデータから別のフレーズデータを生成し、歌唱合成音としてサウンドシステム７から出力させる動作モードである。ここで、フレーズデータとは、歌唱合成音の元となる時系列データであり、歌唱音声波形の時系列サンプルデータを含んでいる。本実施形態における歌唱合成プログラム１００は、編集モードでの動作を実現するための編集部１１０と、再生モードでの動作を実現するための合成部１２０とを有する。

編集部１１０は、文字入力部１１１、歌詞一括入力部１１２、音符入力部１１３、音符連続入力部１１４および音符調整部１１５を有している。ここで、文字入力部１１１は、タッチパネル５に表示されたソフトウェアキーを指示することにより入力される文字情報を受け取り、歌詞データの生成に用いるソフトウェアモジュールである。歌詞一括入力部１１２は、インタフェース群６の中の１つのインタフェースを介してパーソナルコンピュータから供給されるテキストデータを受け取り、歌詞データの生成に用いるソフトウェアモジュールである。音符入力部１１３は、タッチパネル５にピアノ鍵盤と音符表示欄の各画像からなるピアノロールが表示された状態において、ユーザが音符表示欄の所望の位置を指示することにより入力する音符情報を受け取り、音符データの生成に使用するソフトウェアモジュールである。なお、音符入力部１１３は、鍵盤４から音符情報を受け取るものであってもよい。音符連続入力部１１４は、ユーザが鍵盤４を用いた鍵盤演奏を行うことにより発生する押鍵イベントを順次受け取り、受け取った押鍵イベントを用いて音符データを生成するソフトウェアモジュールである。音符調整部１１５は、タッチパネル５等の操作に応じて、音符データが示す音符のピッチ、音符長、発音タイミングを調整するソフトウェアモジュールである。

編集部１１０は、文字入力部１１１、歌詞一括入力部１１２、音符入力部１１３または音符連続入力部１１４を利用して、歌詞データと音符データの対を生成する。本実施形態では、この歌詞データと音符データの対を生成するための編集モードが何種類か用意されている。

ある種類の編集モードにおいて、編集部１１０は、図４に例示するように、ピアノ鍵盤とその右横の音符表示欄の各画像からなるピアノロールをタッチパネル５に表示させる。この状態において、ユーザが音符表示欄の所望の位置を指示することにより音符を入力すると、音符入力部１１３は、図４に例示するように、入力された音符を示す矩形（図４では黒塗り矩形）を五線譜上に表示させるとともに、ＲＡＭ３内に設定された音符データ用記憶領域にその音符に対応した情報をマッピングする。また、ユーザがタッチパネル５に表示された所望の音符を指示し、図示しないソフトウェアキーを操作して歌詞を入力すると、文字入力部１１１は、入力された歌詞を図４に例示するように音符表示欄に表示するとともに、ＲＡＭ３内に設定された歌詞データ用記憶領域にその歌詞に対応した情報をマッピングする。

他の種類の編集モードでは、ユーザが鍵盤演奏を行う。編集部１１０の音符連続入力部１１４は、鍵盤演奏により発生する押鍵イベントを順次受け取り、受け取った押鍵イベントが示す音符に関する情報をＲＡＭ３内に設定された音符データ用記憶領域内にマッピングしてゆく。また、ユーザは、鍵盤演奏を行った曲の歌詞を示すテキストデータを例えばパーソナルコンピュータからインタフェース群６の中の１つのインタフェースに供給させる。ここで、パーソナルコンピュータがマイク等の音声入力手段と音声認識ソフトウェアを備えている場合、ユーザが発声した歌詞をパーソナルコンピュータが音声認識ソフトウェアによりテキストデータに変換し、このテキストデータを歌唱合成装置のインタフェースに供給することが可能である。編集部１１０の歌詞一括入力部１１２は、パーソナルコンピュータから供給されるテキストデータを音節に区切り、各音節に対応したテキストデータが、音符データが示す各音符のタイミングにおいて発音されるように、ＲＡＭ３内に設定された音符データ用記憶領域内にマッピングしてゆく。

さらに別の種類の編集モードでは、ユーザは、鍵盤演奏を行う代わりに、曲をハミングする。図示しないパーソナルコンピュータは、このハミングをマイクにより収音して、ハミング音のピッチを求め、音符データを生成し、インタフェース群６の中の１つのインタフェースに供給させる。編集部１１０の音符連続入力部１１４は、このパーソナルコンピュータから供給される音符データをＲＡＭ３の音符データ用記憶領域に書き込む。歌詞データの入力は、上記と同様に歌詞一括入力部１１２により行われる。この編集モードは、音符データを簡単に入力することができる利点がある。
以上が編集部１１０の機能の詳細である。

図３に示すように、合成部１２０は、再生モードでの動作を実現するための手段として、読出制御部１２１と、ピッチ変換部１２２と、連結部１２３とを有する。

本実施形態において、合成部１２０が実現する再生モードは、自動再生モードとリアルタイム再生モードに分けることができる。

図５は自動再生モードにおける合成部１２０の状態を示すブロック図である。自動再生モードでは、図５に示すように、編集部１１０により生成されてＲＡＭ３内に格納された歌詞データおよび音符データの対と音声素片データベース１３０とからフレーズデータを生成する。

ここで、音声素片データベース１３０は、無音から子音への遷移部分、子音から母音への遷移部分、母音の伸ばし音、母音から無音への遷移部分等、歌声の素材となる各種の音声素片を示す音声素片データの集合体である。これらの音声素片データは、実際の人間が発した音声波形から抽出された音声素片に基づいて作成されたデータである。

自動再生モードにおいて、読出制御部１２１は、ユーザから例えばタッチパネル５を利用して再生指示が与えられたとき、図３に示すように、ＲＡＭ３内の歌詞データおよび音符データの各々を先頭から走査してゆく。そして、音符データの中から１つの音符の音符情報（ピッチ等）を読み出すとともに、歌詞データの中からその音符に合わせて発音すべき音節を示す情報を読み出すと、発音すべき音節を音声素片に分解し、それらの音声素片に対応した音声素片データを音声素片データベース１３０から読み出し、音符データの中から読み出したピッチとともにピッチ変換部１２２に供給する。ピッチ変換部１２２は、読出制御部１２１によって音声素片データベース１３０から読み出された音声素片データに対してピッチ変換を施すことにより、読出制御部１２１が読み出した音符データが示すピッチを持った音声素片データを生成する。そして、連結部１２３は、このようにして音節毎に得られるピッチ変換後の音声素片データを時間軸上において繋ぎ合わせることによりフレーズデータを生成するのである。

自動再生モードでは、以上のようにして歌詞データおよび音符データの対からフレーズデータを生成したとき、このフレーズデータをサウンドシステム７に送り、歌唱音声として出力させる。

本実施形態では、このようにして歌詞データおよび音符データの対から生成されたフレーズデータをフレーズデータベース１４０に保存することが可能である。フレーズデータベース１４０を構成する各フレーズデータは、図３に例示するように、各々が１音節に対応した複数の音節データにより構成されている。各音節データは、音節テキストデータと音節波形データと音節ピッチデータとにより構成されている。ここで、音節テキストデータは、フレーズデータの元となった歌詞データを音節毎に区分することにより得られたテキストデータであり、その音節に対応した文字を示す。音節波形データは、その音節を表す音声波形のサンプルデータである。音節ピッチデータは、その音節を表す音声波形のピッチ（すなわち、その音節に対応した音符のピッチ）を示すデータである。なお、フレーズデータの単位は、音節に限らず、単語や文節でもよく、ユーザが選択する任意であってもよい。

リアルタイム再生モードは、タッチパネル５の操作に応じて、図3に示すように、フレーズデータベース１４０の中からフレーズデータを選択し、タッチパネル５や鍵盤４等の操作手段の操作に応じて、この選択したフレーズデータから別のフレーズデータを生成する動作モードである。

このリアルタイム再生モードにおいて、読出制御部１２１は、フレーズデータベース１４０内の各フレーズデータから音節テキストデータを各々抽出し、各フレーズデータが示す歌詞としてタッチパネル５にメニュー表示させる。この状態において、ユーザは、タッチパネル５にメニュー表示された歌詞の中の所望の歌詞を指示することができる。読出制御部１２１は、ユーザが指示した歌詞に対応したフレーズデータを再生対象としてフレーズデータベース１４０から読み出し、ＲＡＭ３内の再生対象エリアに格納するとともに、タッチパネル５に表示させる。

図６はこの場合のタッチパネル５の表示例を示している。図６に示すように、タッチパネル５の左側のエリアは、歌詞のメニューが表示されるメニュー表示エリアとなっており、右側のエリアは、ユーザが指でタッチすることにより選択した歌詞が表示される演出エリアとなっている。図示の例では、ユーザによって選択された歌詞“Ｈａｐｐｙｂｉｒｈｔｄａｙｔｏｙｏｕ”が演出エリアに表示されており、この歌詞に対応したフレーズデータがＲＡＭ３の再生対象エリアに格納されている。ここで、メニュー表示エリアにおける歌詞のメニューは、指で触れた状態で指を上下に動かすことにより上下方向にスクロール可能である。この例では、指示操作が容易になるように、中央近くに位置する歌詞ほど大きな文字で表示し、上下方向に離れるに従い歌詞を小さな文字で表示している。

この状態において、ユーザは、鍵盤４やタッチパネル５等の操作手段の操作により、再生対象エリアに格納されたフレーズデータの任意の区間（具体的には音節）を再生対象として選択するとともに、その再生対象を歌唱合成音として再生する際のピッチを指定することができる。なお、再生対象とする区間の選択方法、ピッチの指定方法に関しては、説明の重複を避けるため、本実施形態の動作説明において明らかにする。

読出制御部１２１は、ＲＡＭ３の再生対象エリアに記憶されたフレーズデータの中から、このようにしてユーザによって指定された区間のデータ（具体的には指定された音節の音節データ）を選んで読み出し、ピッチ変換部１２２に供給する。ピッチ変換部１２２は、読出制御部１２１から供給された音節データから音節波形データと音節ピッチデータを取り出し、ユーザによって指定されたピッチＰ１と音節ピッチデータが示すピッチＰ２との比であるピッチ比Ｐ１／Ｐ２を求める。そして、例えば音節波形データをピッチ比Ｐ１／Ｐ２に応じた比率で時間軸圧伸またはピッチテンポ変換する等の方法により音節波形データにピッチ変換を施し、ユーザによって指定されたピッチＰ１を有する音節波形データを生成し、元の音節波形データと入れ替える。連結部１２３は、このピッチ変換部１２２の処理を経た音節データを順次受け取り、前後した各音節データの中の音節波形データを時間軸上において滑らかに繋いで出力する。
以上が合成部１２０の機能の詳細である。

次に本実施形態の動作を説明する。本実施形態において、ユーザは、例えばタッチパネル５の操作により、歌唱合成装置の動作モードを編集モードとし、あるいは再生モードとすることができる。ここで、編集モードは、既に述べたように、編集部１１０がユーザからの指示に従って歌詞データと音符データの対を生成する動作モードである。一方、再生モードは、上述した合成部１２０がユーザからの指示に従ってフレーズデータを生成し、このフレーズデータを歌唱合成音としてサウンドシステム７から出力する動作モードである。

既に述べたように再生モードには、自動再生モードと、リアルタイム再生モードとがある。そして、リアルタイム再生モードには、第１モード〜第３モードまでの３モードがある。歌唱合成装置をいずれの動作モードで動作させるかはタッチパネル５の操作により指定可能である。

自動再生モードが設定された場合、合成部１２０は、上述したようにＲＡＭ３内の歌詞データおよび音符データの対からフレーズデータを生成する。

リアルタイム再生モードが設定された場合、合成部１２０は、上述したようにＲＡＭ３の再生対象エリア内のフレーズデータから別のフレーズデータを生成し、歌唱合成音としてサウンドシステム７から出力させる。このフレーズデータから別のフレーズデータを生成する動作の詳細は、第１〜第３モードの各モード間で異なる。

図７は第１モードにおける合成部１２０の状態を示している。第１モードでは、読出制御部１２１およびピッチ変換部１２２の両方が鍵盤４からの押鍵イベントに基づいて動作する。鍵盤４において最初の押鍵イベントが発生したとき、読出制御部１２１は、再生対象エリア内のフレーズデータ中の最初の音節データを読み出してピッチ変換部１２２へ供給する。ピッチ変換部１２２は、この最初の音節データ中の音節波形データにピッチ変換を施して、最初の押鍵イベントが示すピッチ（押下された鍵のピッチ）を有する音節波形データを生成し、元の音節波形データと入れ替える。そして、このピッチ変換を経た音節データを連結部１２３に供給する。次に鍵盤４において２番目の押鍵イベントが発生したとき、読出制御部１２１は、再生対象エリア内のフレーズデータ中の２番目の音節データを読み出してピッチ変換部１２２へ供給する。ピッチ変換部１２２は、この２番目の音節データ中の音節波形データにピッチ変換を施して、２番目の押鍵イベントが示すピッチを有する音節波形データを生成し、元の音節波形データと入れ替える。そして、このピッチ変換を経た音節データを連結部１２３に供給する。以下、同様であり、押鍵イベントが発生する都度、後続の音節データを順次読み出し、押鍵イベントに基づくピッチ変換を行う。

図８はこの第１モードの動作例を示すものである。この例では、“ＨａｐｐｙＢｉｒｔｈｄａｙｔｏｙｏｕ”という歌詞がタッチパネル５に表示されており、この歌詞のフレーズデータが再生対象エリアに記憶されている。ユーザは、６回に亙って、鍵盤４の押鍵を行っている。１回目の押鍵が行われた期間Ｔ１では、１番目の音節“Ｈａｐ”の音節データが再生対象エリアから読み出され、押鍵イベントに基づくピッチ変換が施され、歌唱合成音となって出力される。２回目の押鍵が行われた期間Ｔ２では、２番目の音節“ｐｙ”の音節データが再生対象エリアから読み出され、押鍵イベントに基づくピッチ変換が施され、歌唱合成音となって出力される。以下同様であり、各々押鍵イベントが発生する期間Ｔ３〜Ｔ６において、後続の各音節の音節データが順次読み出され、押鍵イベントに基づくピッチ変換が施され、歌唱合成音となって出力される。

図示は省略したが、ユーザは、タッチパネル５に表示された歌詞の全ての音節について歌唱合成音を発生させる前に、別の歌詞を選択し、その歌詞の各音声について歌唱合成音を発生させることも可能である。例えば図８に示す例において、ユーザは、鍵盤４の押鍵により音節“ｄａｙ”までの歌唱合成音を発生させた後、例えば図６に示す別の歌詞“Ｗｅ’ｒｅｇｅｔｔｉｎｇｏｕｔｏｆｈｅｒｅ”を指示してもよい。これにより読出制御部１２１は、ユーザにより選択された歌詞に対応したフレーズデータをフレーズデータベース１４０から読み出し、ＲＡＭ３内の再生対象エリアに格納するとともに、このフレーズデータの音節テキストデータに基づいて歌詞“Ｗｅ’ｒｅｇｅｔｔｉｎｇｏｕｔｏｆｈｅｒｅ”をタッチパネル５に表示させる。この状態において、ユーザは、鍵盤４の押鍵を行うことにより、新たな歌詞の各音節の歌唱合成音を生成することが可能である。

以上のように、第１モードにおいて、ユーザはタッチパネル５の操作により所望の歌詞を選択し、鍵盤４の押鍵操作により、歌詞の各音節を所望のタイミングにおいて所望のピッチで歌唱合成音に変換して出力することができる。また、第１モードでは、押鍵に同期して音節の選択とその歌唱合成が行われるので、例えばユーザが任意にテンポを設定し、設定したテンポに合わせて鍵盤演奏を行うことにより、テンポ変更を伴う歌唱合成を行うことも可能である。

図９は第２モードにおける合成部１２０の状態を示している。第２モードでは、読出制御部１２１は、タッチパネル５の操作に基づいて動作し、ピッチ変換部１２２は、鍵盤４からの押鍵イベントに基づいて動作する。さらに詳述すると、読出制御部１２１は、タッチパネル５に表示された歌詞を構成する各音節のうちユーザによって指示されている音節を判定し、再生対象エリア内のフレーズデータ中のこの指示された音節の音節データを読み出してピッチ変換部１２２へ供給する。ピッチ変換部１２２は、鍵盤４から押鍵イベントが発生したとき、その直前に与えられた音節データ中の音節波形データに対してピッチ変換を施して、押鍵イベントが示すピッチ（押下された鍵のピッチ）を有する音節波形データを生成し、元の音節波形データと入れ替え、連結部１２３に供給する。

図１０はこの第２モードの動作例を示すものである。この例でも、“ＨａｐｐｙＢｉｒｔｈｄａｙｔｏｙｏｕ”という歌詞がタッチパネル５に表示されており、この歌詞のフレーズデータが再生対象エリアに記憶されている。そして、ユーザは、タッチパネル５に表示された音節“Ｈａｐ”を指示し、その後の期間Ｔ１において鍵盤４の押鍵を行っている。このため、音節“Ｈａｐ”の音節データが再生対象エリアから読み出され、押鍵イベントに基づくピッチ変換が施され、歌唱合成音となって出力される。次にユーザはタッチパネル５に表示された音節“ｐｙ”を指示し、その後の期間Ｔ２において鍵盤４の押鍵を行っている。このため、音節“ｐｙ”の音節データが再生対象エリアから読み出され、押鍵イベントに基づくピッチ変換が施され、歌唱合成音となって出力される。次にユーザは、音節“ｂｉｒｔｈ”を指示し、その後の期間Ｔ３（１）〜Ｔ３（３）において３回に亙って鍵盤４の押鍵を行っている。このため、音節“ｂｉｒｔｈ”の音節データが再生対象エリアから読み出され、期間Ｔ３（１）〜Ｔ３（３）の各々において、その時点で発生した押鍵イベントに基づくピッチ変換が音節“ｂｉｒｔｈ”の音節波形データに施され、歌唱合成音となって各々出力される。その後の各期間Ｔ４〜Ｔ６においても同様である。

以上のように、第２モードにおいて、ユーザはタッチパネル５の操作により所望の歌詞を選択し、タッチパネル５の操作により、歌詞の中の所望の音節を選択し、鍵盤４の操作により、この選択した音節を所望のタイミングにおいて所望のピッチで歌唱合成音に変換して出力することができる。

図１１は第３モードにおける合成部１２０の状態を示している。第３モードでは、読出制御部１２１およびピッチ変換部１２２の両方がタッチパネル５の操作に基づいて動作する。さらに詳述すると、第３モードにおいて、読出制御部１２１は、再生対象エリアに格納されたフレーズデータ中の各音節の音節ピッチデータと音節テキストデータを読み出し、図１２に示すように、横軸を時間軸とし、縦軸をピッチ軸とする２次元座標系に各音節のピッチを時系列順にプロットした画像をタッチパネル５に表示させる。この図１２において、黒塗りした矩形は音節のピッチを示し、矩形に添えられた“Ｈａｐ”等の文字は、その音節を示している。

この状態において、ユーザが例えば音節“Ｈａｐ”のピッチを示す矩形を指示すると、読出制御部１２１は、再生対象エリアに格納されたフレーズデータ中の音節“Ｈａｐ”に対応した音節データを読み出してピッチ変換部１２２に供給するとともに、タッチパネル５におけるユーザの指示位置に対応したピッチ、すなわち、この例では音節“Ｈａｐ”の音節ピッチデータが示す本来のピッチへのピッチ変換をピッチ変換部１２２に対して指示する。この結果、ピッチ変換部１２２は、音節“Ｈａｐ”の音節データ中の音節波形データに対して、指示されたピッチ変換を施し、ピッチ変換後の音節波形データ（この場合、元の音節波形データと同じ音節波形データ）を含む音節データを連結部１２３に供給する。その後、ユーザが音節“ｐｙ”のピッチを示す矩形、音節“ｂｉｒｔｈ”のピッチを示す矩形を指示した場合も以上と同様な動作が行われる。

次にユーザが図１２に示すように音節“ｄａｙ”のピッチを示す矩形の下方の位置を指示したとする。この場合、読出制御部１２１は、再生対象エリアから音節“ｄａｙ”に対応した音節データを読み出してピッチ変換部１２２に供給するとともに、タッチパネル５におけるユーザの指示位置に対応したピッチ、すなわち、この例では音節“ｄａｙ”の音節ピッチデータが示すピッチよりも低いピッチへのピッチ変換をピッチ変換部１２２に対して指示する。この結果、ピッチ変換部１２２は、音節“ｄａｙ”の音節データ中の音節波形データに対して、指示されたピッチ変換を施し、ピッチ変換後の音節波形データ（この場合、元の音節波形データよりもピッチが低い音節波形データ）を含む音節データを連結部１２３に供給する。

以上のように、第３モードにおいて、ユーザは、タッチパネル５の操作により、所望の歌詞を選択し、タッチパネル５の操作により、この選択した歌詞の所望の音節を所望のタイミングにおいて所望のピッチで歌唱合成音に変換して出力することができる。

以上説明したように、本実施形態によれば、ユーザは、操作手段の操作により、表示された歌詞の中から所望の歌詞を選択し、その歌詞の中の各音節を所望のピッチで歌唱合成音に変換して出力させることができる。従って、即興性の富んだリアルタイムなボーカル演奏を容易に実現することができる。また、本実施形態によれば、各種の歌詞に対応したフレーズデータが予め記憶され、ユーザが選択した歌詞に対応したフレーズデータを用いて歌唱合成音を生成するので、歌唱合成音を生成するための所要時間が少なくて済む。

＜他の実施形態＞
以上、この発明の一実施形態について説明したが、この発明には他にも実施形態が考えられる。例えば次の通りである。

（１）タッチパネル５に表示可能な歌詞の数にも限りがあるので、例えばフレーズデータベース１４０を構成する各フレーズデータを示す各アイコンをタッチパネルに表示し、これらのアイコンの中の所望のアイコンの選択操作をユーザに行わせることにより、タッチパネル５に歌詞メニューの表示を行うフレーズデータを決定してもよい。

（２）歌詞の選択を容易にするために、例えば演奏する曲のジャンル等に基づいて、フレーズデータベース１４０を構成する各フレーズデータに優先度付けを行い、例えば優先度の高い順に各フレーズデータの歌詞メニューをタッチパネル５に表示させるようにしてもよい。あるいは優先度の高いフレーズデータの歌詞ほど中央に表示させたり、文字サイズを大きくしてもよい。

（３）歌詞の選択を容易にするために、歌詞を階層化し、上位階層から下位階層までの各階層を指定することにより所望の歌詞を選択することができるようにしてもよい。例えばユーザに所望の歌詞のジャンルを選択させ、次に所望の歌詞の先頭文字（アルファベット）を選択させ、選択されたジャンルに属し、かつ、選択された先頭文字を有する歌詞をタッチパネル５に表示させる。ユーザは、この表示された歌詞の中から所望の歌詞を選択するのである。あるいは関連度の高いフレーズデータをグルーピングしてそれらの歌詞を表示したり、関連度の高いフレーズデータの歌詞を近くに表示するなど関連度に基づく表示方法を採用してもよい。その際、ユーザが1つのフレーズデータを選ぶと、その選んだフレーズデータに関連のあるフレーズデータの歌詞が表示されるようにしてもよい。例えば、元々は１つの歌詞の一部であった複数の歌詞のフレーズデータがある場合において、ある歌詞のフレーズデータがユーザによって選択された場合、同じ歌詞に帰属する他の歌詞を表示してもよい。あるいは、同じ曲の1番、2番、3番の歌詞を関連付けておき、１つの歌詞が選択された場合にこれに関連付けられた他の歌詞を表示してもよい。あるいは、フレーズデータベース１４０内の音節テキストデータを対象として、ユーザが選択した歌詞と関連のあるフレースデータのキーワード検索を行い、ヒットしたフレーズデータの歌詞（音節テキストデータ）を表示してもよい。

（４）歌詞データの入力を行うための態様として次のものが考えられる。まず、歌唱合成装置にカメラを設ける。そして、ユーザに所望の歌詞を歌唱させ、その際のユーザの口をカメラで撮像する。この撮像により得られる画像データを解析し、ユーザの口形状の動きに基づいて、ユーザが歌唱している歌詞を示す歌詞データを生成するのである。

（５）編集モードにおいて、歌詞データおよび音符データにおける音節の発音タイミングは、予め設定されたリズムパターンにおけるリズム音の発生タイミングとなるように量子化してもよい。あるいはソフトキー操作により歌詞を入力する場合に、音節の入力タイミングを歌詞データおよび音符データにおける音節の発音タイミングとしてもよい。

（６）上記実施形態では、ピッチ指定および発音タイミングの指定のための操作手段として鍵盤を用いたが、例えばドラムパッド等、鍵盤以外の装置を用いてもよい。

（７）上記実施形態では、歌詞データおよび音符データの対からフレーズデータを生成し、フレーズデータベース１４０に格納したが、録音した歌唱音声からフレーズデータを生成してフレーズデータベース１４０に格納してもよい。さらに詳述すると、ユーザに所望の歌詞を歌唱させ、その歌唱音声を録音する。そして、録音した歌唱音声の波形データを解析することにより、歌唱音声の波形データを音節波形データに分け、各音節波形データを解析することにより各音節の内容を表音文字として示す音節テキストデータと、各音節のピッチを示す音節ピッチデータを生成し、それらをまとめることによりフレーズデータを生成するのである。

（８）上記実施形態では、音声素片データベース１３０やフレーズデータベース１４０を不揮発性メモリ８に記憶させたが、サーバに記憶させ、歌唱合成装置がネットワークを介してこのサーバ内の音声素片データベース１３０およびフレーズデータベース１４０にアクセスすることにより歌唱合成を行ってもよい。

（９）上記実施形態では、合成部１２０の処理により得られたフレーズデータを歌唱合成音としてサウンドシステム７から出力させたが、生成したフレーズデータをメモリに格納するのみにしてもよい。あるいは生成したフレーズデータをネットワークを介して遠隔地に転送するようにしてもよい。

（１０）上記実施形態では、合成部１２０の処理により得られたフレーズデータを歌唱合成音としてサウンドシステム７から出力させたが、フレーズデータに対して、ユーザによって指定されたエフェクト処理を施して出力させるようにしてもよい。

（１１）リアルタイム再生モードにおいて、タッチパネル５における指示位置の変化に応じて、特殊な歌唱合成を行うようにしてもよい。例えばリアルタイム再生モードの第２モードにおいて、ユーザが演出エリアに表示された１つの音節を最後尾から先頭に向けて指でなぞった場合に、その音節に対応した音節波形データを前後逆転してピッチ変換部１２２に供給するようにしてもよい。あるいはリアルタイム再生モードの第１モードにおいて、ユーザが演出エリアに表示された歌詞を最後尾から先頭に向けて指でなぞった後、鍵盤演奏を行った場合、押鍵の都度、最後尾の音節から順に各音節を選択し、各音節に対応した歌唱合成を行うようにしてもよい。あるいはリアルタイム再生モードの第１モードにおいて、ユーザが演出エリアに表示された歌詞の先頭を指示してその歌詞を選択した後、鍵盤演奏を行った場合、押鍵の都度、先頭の音節から順に各音節を選択し、各音節に対応した歌唱合成を行い、演出エリアに表示された歌詞の最後尾を指示してその歌詞を選択した後、鍵盤演奏を行った場合、押鍵の都度、最後尾の音節から順に各音節を選択し、各音節に対応した歌唱合成を行うようにしてもよい。

（１２）上記実施形態では、歌唱音声を示すフレーズデータをユーザに選択させ、鍵盤操作等に応じてこのフレーズデータを加工して出力した。しかし、フレーズデータとして、歌唱音声以外の音波形を示すフレーズデータをユーザに選択させ、鍵盤操作等に応じてこのフレーズデータを加工して出力するようにしてもよい。また、フレーズデータに携帯電話メールで使われるような絵文字が含ませ、この絵文字を含む歌詞をタッチパネルに表示させ、フレーズデータの選択に利用しても良い。

（１３）リアルタイム再生モードにおいて、ユーザが選択した歌詞をタッチパネルの演出エリアに表示する際、例えば図８に示すように音節の区切りを示す記号（図８では“／”）を追加して歌詞を表示してもよい。このようにすることで、ユーザは音節を視認するのが容易になる。また、現在、歌唱合成を行っている音節の表示色を変える等、歌唱合成箇所の表示態様を他の部分に対して変化させ、歌唱合成箇所が分かるようにしてもよい。

（１４）フレーズデータを構成する音節データを音節テキストデータのみとしてもよい。この場合、リアルタイム再生モードでは、ある音節が再生対象として指定され、鍵盤等によりピッチが指定されたときに、その音節に対応した音節テキストデータを鍵盤等で指定されたピッチを持った音声波形データに変換し、サウンドシステム７から出力すればよい。

（１５）タッチパネル５の操作等により所定のコマンドが入力された場合に、リアルタイム再生モードの第1モードを次のように変更してもよい。まず、鍵盤４の押鍵があったときに、タッチパネル５の演出エリアに表示された歌詞の中のある音節が指示されていた場合には、第1モードから第2モードに切り換え、指示された音節を押鍵により指示されたピッチの歌唱合成音として出力する。また、鍵盤４の押鍵があったときに、タッチパネル５の演出エリアが指示されていない場合には、第1モードを維持し、前回、歌唱合成を行った音節の次の音節を押鍵により指示されたピッチの歌唱合成音として出力するのである。この場合、例えば歌詞“Ｈａｐｐｙｂｉｒｔｈｄａｙｔｏｙｏｕ”が演出エリアに表示されているとき、ユーザが音節“ｂｉｒｔｈ”を指示して押鍵すると、第２モードとなり、音節“ｂｉｒｔｈ”が押鍵された鍵のピッチで発音される。その後、ユーザが演出エリアを指示することなく押鍵を行うと、第１モードとなり、前回、歌唱合成を行った音節の次の音節“ｄａｙ”が押鍵された鍵のピッチで発音される。この態様によれば、ボーカル演奏の自由度をさらに高めることができる。

１…ＣＰＵ、２…ＲＯＭ、３…ＲＡＭ、４…鍵盤、５…タッチパネル、６…インタフェース群、７…サウンドシステム、８…不揮発性メモリ、９…操作子群、１００…歌唱合成プログラム、１１０…編集部、１１１…文字入力部、１１２…歌詞一括入力部、１１３…音符入力部、１１４…音符連続入力部、１１５…音符調整部、１２０…合成部、１２１…読出制御部、１２２…ピッチ変換部、１２３…連結部、１３０…音声素片データベース、１４０…フレーズデータベース。

Claims

操作手段の操作により歌詞を選択する歌詞選択手段と、
前記歌詞選択手段により選択された歌詞の任意の区間を前記操作手段の操作に応じて選択し、選択した区間を前記操作手段の操作により指定されたピッチの歌唱音声として出力するための制御を行う音声出力制御手段と
を具備することを特徴とする歌唱合成装置。
前記操作手段は、第１の操作部と第２の操作部とを含み、前記歌詞選択手段により選択された歌詞の任意の区間を前記第１の操作部の操作に応じて選択し、選択した歌詞の区間を前記第２の操作部の操作により指定されたピッチの歌唱音声として出力するための制御を行うことを特徴とする請求項１に記載の歌唱合成装置。
前記音声出力制御手段は、前記複数の歌詞に各々対応した音声を示す複数のフレーズデータを記憶する記憶手段にアクセス可能であり、前記歌詞選択手段により選択された歌詞に対応したフレーズデータを前記記憶手段から読み出し、このフレーズデータの任意の区間を前記操作手段の操作に応じて選択し、選択したフレーズデータの区間を前記操作手段の操作により指定されたピッチの歌唱音声として出力するための制御を行うことを特徴とする請求項１または２に記載の歌唱合成装置。
コンピュータを、
操作手段の操作により歌詞を選択する歌詞選択手段と、
前記歌詞選択手段により選択された歌詞の任意の区間を前記操作手段の操作に応じて選択し、選択した区間を前記操作手段の操作により指定されたピッチの歌唱音声として出力するための制御を行う音声出力制御手段と
して機能させることを特徴とするプログラム。