JP3823930B2

JP3823930B2 - 歌唱合成装置、歌唱合成プログラム

Info

Publication number: JP3823930B2
Application number: JP2003055898A
Authority: JP
Inventors: 秀紀剣持
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2003-03-03
Filing date: 2003-03-03
Publication date: 2006-09-20
Anticipated expiration: 2023-03-03
Also published as: DE602004000873D1; JP2004264676A; US7383186B2; US20040186720A1; DE602004000873T2; EP1455340B1; EP1455340A1

Description

【０００１】
【発明の属する技術分野】
本発明は、歌唱合成装置に係り、特に、表情を付けた自然な歌唱音を合成する歌唱合成装置に関する。
【０００２】
【従来の技術】
従来より、実際に発声した音声を分析して得た各種パラメータを準備し、これらパラメータを組み合わせて歌唱音声を合成するといったことが行われている。このような技術の一つを開示した文献に、特開２００２−２６８６５９がある。（特許文献１参照）。
【０００３】
同文献に開示する技術は以下のようなものである。まず、各音韻のフォルマントなどを特徴付けるパラメータを格納したデータベースと、このパラメータに時系列的な変化を与えるためのテンプレートデータを格納したデータベースとを予め準備する。
【０００４】
また、歌詞の音韻を時系列的に指定する音韻トラック、歌い出し部分や音符の遷移部分等とその時刻を指定するノートトラック、各音韻の音高を指定するピッチトラック、各時刻における音声の強さを指定するダイナミクストラック、及び各時刻における唇開度を指定するオープニングトラックを備えるスコアデータを予め準備する。
【０００５】
演奏を行う際は、スコアデータの各トラックからパラメータを読み出し、このパラメータに上記テンプレートデータを適用することによって時間毎の微小な変動を持たせた最終的なパラメータを取得し、この最終的なパラメータから音声合成を行う。
【０００６】
音声合成を行うために準備するパラメータやテンプレートデータの種類は多様であり、より細かな種類のパラメータやテンプレートデータを用意してこれらから音声を合成することによって、多様で且つ人間の発声に近い歌唱音声を合成することができる。
【０００７】
【特許文献１】
特開２００２−２６８６５９号公報
【０００８】
【発明が解決しようとする課題】
上述したような、多様で且つ人間の発声に近い歌唱音声を合成するために用意することが望ましいテンプレートデータの一つとして、アクセント、ポルタメントといった表情に関するものがある。表情を付けて歌唱する場合とそうでない場合とでは、音韻のフォルマントやピッチの変動する態様は変わってくるし、表情の種別によってもこの変動の態様は変わってくるからである。したがって、異なる各表情に対応するテンプレートを用意し、ユーザに指定された表情のテンプレートをこの表情が指定された区間に適用するようにすれば、より一層多様な歌唱音声の合成が実現できる。
【０００９】
しかし、このような表情を違えた音声合成を実現するためには克服すべき問題もあった。同種の表情を付けて歌唱するにしても、その表情を付ける区間の前につながった音符がある場合とそうでない場合とでは、音韻のフォルマントやピッチの変動する態様が異なるため、表情を付ける区間の前につながった音符がある場合とそうでない場合とでは異なるテンプレートデータを適用しなければ適切な歌い回しを再現できない。
【００１０】
表情を付する区間の前につながった音符があるかどうかにより２つの異なるテンプレートデータを用意すること自体は、実際にそのような条件で歌唱した音声をそれぞれ分析すれば比較的簡単に実現できる。しかし、歌唱データを作成するユーザは、ある区間に表情を付するために２つの異なるテンプレートデータのうちいずれのテンプレートデータを適用するかを逐一判断するという煩わしい作業を強いられることになる。
【００１１】
この発明は、このような問題を克服するために案出されたものであり、歌唱データを作成するユーザが特定区間に表情を与えようとする場合に、その区間の前に連続する音符があるかといったことを意識しなくても、適切な表情テンプレートが適用される歌唱合成装置を提供することを目的とする。
【００１２】
【課題を解決するための手段】
本発明は、立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートアタック表情テンプレートデータベースと、非立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートトランジッション表情テンプレートデータベースと、歌詞を構成する一連の音韻を指定するとともに、当該各音韻の発音タイミングを関連付けた音韻トラックと、前記各音韻に対する表情を指定する表情トラックとを含む音声情報を入力する入力手段と、前記音声情報により指定された各音韻が、時系列的に先行して発音される先行音韻を有し且つ当該先行音韻との発音タイミングの差が所定期間未満である音韻であるかを前記音韻トラックに基づいて夫々判断し、前記先行音韻を有し且つ当該先行音韻との発音タイミングの差が所定期間未満である音韻を非立ち上がり音と特定すると共に、前記先行音韻を有さず又は前記先行音韻との発音タイミングの差が所定期間以上である音韻を立ち上がり音と特定する特定手段と、前記音声情報により指定された一連の音韻のうち前記特定手段に立ち上がり音と特定された音韻については、前記ノートアタック表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成し、前記一連の音韻のうち前記特定手段に非立ち上がり音と特定された音韻については、前記ノートトランジッション表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該非立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成する合成手段とを備える、歌唱合成装置を提供する。
ここで、「立ち上がり音」とは、何も歌唱していない状態から歌唱を開始するという起点に位置する音韻をいう。
【００１３】
また、本発明は、立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートアタック表情テンプレートデータベースと、非立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートトランジッション表情テンプレートデータベースと、歌詞を構成する一連の音韻を指定する音韻トラックと、当該各音韻に対する表情を指定する表情トラックと、前記各音韻に付する音高の遷移を前記各音韻の発音タイミングに対応させて記録したピッチトラックとを含む音声情報を入力する入力手段と、前記音声情報により指定された各音韻の発音タイミングから所定期間遡ったタイミングまでの先行区間に音高を指定する値が記録されているかを前記ピッチトラックに基づいて夫々判断し、前記先行区間に音高を指定する値が記録されている音韻を非立ち上がり音と特定すると共に、前記先行区間に音高を指定する値が記録されていない音韻を立ち上がり音と特定する特定手段と、前記音声情報により指定された一連の音韻のうち前記特定手段に立ち上がり音と特定された音韻については、前記ノートアタック表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成し、
前記一連の音韻のうち前記特定手段に非立ち上がり音と特定された音韻については、前記ノートトランジッション表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該非立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成する合成手段とを備えた、歌唱合成装置を提供する。
【００１４】
また、本発明は、立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートアタック表情テンプレートデータベースと、非立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートトランジッション表情テンプレートデータベースとを有するコンピュータを動作させる歌唱合成プログラムであって、歌詞を構成する一連の音韻を指定するとともに、当該各音韻の発音タイミングを関連付けた音韻トラックと、前記各音韻に対する表情を指定する表情トラックとを含む音声情報を入力する入力工程と、前記音声情報により指定された各音韻が、時系列的に先行して発音される先行音韻を有し且つ当該先行音韻との発音タイミングの差が所定期間未満である音韻であるかを前記音韻トラックに基づいて夫々判断し、前記先行音韻を有し且つ当該先行音韻との発音タイミングの差が所定期間未満である音韻を非立ち上がり音と特定すると共に、前記先行音韻を有さず又は前記先行音韻との発音タイミングの差が所定期間以上である音韻を立ち上がり音と特定する特定工程と、前記音声情報により指定された一連の音韻のうち前記特定工程にて立ち上がり音と特定された音韻については、前記ノートアタック表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成し、前記一連の音韻のうち前記特定工程にて非立ち上がり音と特定された音韻については、前記ノートトランジッション表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該非立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成する合成工程とをコンピュータに実行させる歌唱合成プログラムを提供する。
【００１５】
また、本発明は、立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートアタック表情テンプレートデータベースと、非立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情に対応した複数のデータベースに記憶するノートトランジッション表情テンプレートデータベースとを有するコンピュータを動作させる歌唱合成プログラムであって、歌詞を構成する一連の音韻を指定する音韻トラックと、当該各音韻に対する表情を指定する表情トラックと、前記各音韻に付する音高の遷移を前記各音韻の発音タイミングに対応させて記録したピッチトラックとを含む音声情報を入力する入力工程と、前記音声情報により指定された各音韻の発音タイミングから所定期間遡ったタイミングまでの先行区間に音高を指定する値が記録されているかを前記ピッチトラックに基づいて夫々判断し、前記先行区間に音高を指定する値が記録されている音韻を非立ち上がり音と特定すると共に、前記先行区間に音高を指定する値が記録されていない音韻を立ち上がり音と特定する特定工程と、前記音声情報により指定された一連の音韻のうち前記特定工程にて立ち上がり音と特定された音韻については、前記ノートアタック表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成し、前記一連の音韻のうち前記特定工程にて非立ち上がり音と特定された音韻については、前記ノートトランジッション表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該非立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成する合成工程とをコンピュータに実行させる歌唱合成プログラムを提供する。
【００１６】
【発明の実施の形態】
Ａ第１の実施の形態
以下、図面を参照しつつ、本発明の第１の実施の形態について説明する。本実施形態の特徴は、表情を付けて歌唱することを指示された区間の最初の音韻のコンテキストを判別し、このコンテキストの種類に応じた適切な表情テンプレートデータを当該区間に適用する点にある。
【００１７】
テンプレートデータとは、歌唱音を特徴付ける値を如何なる態様で時間的に変化させるかを定義したデータを意味するが、その具体的内容は後に詳述する。また、コンテキストとは、発音する音韻の前後関係を意味する。そして、本実施形態におけるコンテキストには、ノートアタックとノートトランジッションの２つの種類がある。ノートアタックとは、何も歌唱していない状態から歌唱を開始するという起点に位置することをいい、ノートトランジッションとは、ノートアタックでないこと、即ち、発音中の音韻がある音韻から後発の音韻へと遷移する際の後発に位置することをいう。
【００１８】
ある特定の区間を特定の表情を付して歌唱した場合、同じ種類の表情を付するにしても、その特定の区間の最初の音韻がノートアタックかノートトランジッションかによって歌い回しは異なる。このような歌いまわしの違いを適切に再現するべく、本実施形態では、後に詳述するような動作によって、表情を付ける区間の最初の音韻のコンテキストに応じた適切なテンプレートデータを自動的に選び出して適用することにしている。
【００１９】
ここで、本実施形態における「音韻」について定義しておく。本実施形態においては、音高を付けて発音することができる音素又は音素列をひとつの「音韻」の単位として説明を行う。具体的には、子音の音素とこれに引き続く母音の音素とをつなぎ合わせた音素列（例えば「か」）、或いは母音のみの音素（例えば「あ」）を一つの「音韻」と考える。
【００２０】
＜実施形態の構成＞
図１は、本実施形態に係る歌唱合成装置の物理的構成を示すブロック図である。同図に示すように、当該歌唱合成装置は、ＣＰＵ１００、ＲＯＭ１１０、ＲＡＭ１２０、タイマ１３０、ディスプレイ１４０、マウス１５０、キーボード１６０、ＤＡＣ（Ｄ／Ａコンバータ）１７０、サウンドシステム１８０、ＭＩＤＩインターフェース１９０、記憶装置２００およびバスを備えている。なお、ディスプレイ１４０、マウス１５０、キーボード１６０および記憶装置２００の各種インターフェースは図示を省略してある。
【００２１】
記憶装置２００は、例えば、ハードディスク装置（ＨＤＤ）であり、ＯＳ（オペレーティングシステム）および各種のアプリケーションプログラムを記憶している。なお、記憶装置２００は、ＣＤ−ＲＯＭ装置、光磁気ディスク（ＭＯ）装置、デジタル多目的ディスク（ＤＶＤ）装置等であってもよい。ＣＰＵ１００は、例えば記憶装置２００にインストールされたＯＳ（オペレーティングシステム）を実行し、ディスプレイ１４０の表示とマウス１５０の操作による所謂ＧＵＩ（グラフィカル・ユーザーズ・インターフェース）をユーザに提供する。また、ＣＰＵ１００は、ＧＵＩを介してユーザからアプリケーションプログラムの実行指示を受け取り、指示されたアプリケーションプログラムを記憶装置２００から読み出して実行する。記憶装置２００に記憶されたアプリケーションプログラムとして、歌唱合成プログラムがある。この歌唱合成プログラムは、本実施形態に特有の動作をＣＰＵ１００に実行させる。ＲＡＭ１２０は、その際にワーキングエリアとして使用される。
【００２２】
ＭＩＤＩインターフェース１９０は、他のＭＩＤＩ機器から歌唱データを受け取り、あるいは歌唱データをＭＩＤＩ機器に出力する機能を有する。
【００２３】
図２は、本実施形態に係る歌唱合成装置の論理的構成を示すブロック図である。同図左側には、ＣＰＵ１００がその役割を担う各部の構成を示し、同図右側には、記憶装置２００に編成されたデータベースの構成を示す。
【００２４】
まず、記憶装置２００にインストールされた歌唱合成プログラムを実行することによって、ＣＰＵ１００は、インターフェース制御部１０１、スコアデータ生成部１０２、コンテキスト判別部１０４、スコアデータ更新部１０３、特徴パラメータ発生部１０５、及び歌唱合成部１０６としての役割を担う。
【００２５】
インターフェース制御部１０１は、ディスプレイ１４０に表示する歌唱データ編集画面の制御を司る。ユーザは、この歌唱データ編集画面を参照することにより歌唱スコアデータを編集するためのデータ入力を行う。この歌唱スコアデータは、時間とともに変化する歌唱音のフレーズを複数のトラックによって表した歌唱データである。なお、この歌唱データ編集画面の構成及び歌唱スコアデータは後に詳述する。
【００２６】
スコアデータ生成部１０２は、ユーザからの入力データを用いて歌唱スコアデータを生成する。コンテキスト判別部１０４は、上記歌唱スコアデータによって表された各音韻のコンテキストを判別する。スコアデータ更新部１０３は、上記コンテキスト判別部１０４による判別結果に基づいて、上記歌唱スコアデータにコンテキストデータを追加する。このコンテキストデータは、当該歌唱スコアデータによって表されている各音韻がノートアタックの音かそれともノートトランジッションの音かを特定するためのデータである。
【００２７】
特徴パラメータ発生部１０５は、歌唱スコアデータおよびコンテキストデータに基づいて、発生すべき歌唱音の特徴パラメータを発生して、歌唱合成部１０６に出力する。この特徴パラメータは、例えば、励起波形スペクトルのエンベロープ、励起レゾナンス、フォルマント、差分スペクトルの４つに分類することが出来る。これらの４つの特徴パラメータは、実際の人間の音声等（オリジナルの音声）を分析して得られる調和成分のスペクトル・エンベロープ（オリジナルのスペクトル）を分解することにより得られるものである。
【００２８】
歌唱合成部１０６は、歌唱スコアデータの各トラックに記録された値と、上記特徴パラメータとによってデジタル音楽信号を合成する。
【００２９】
次に、図２右側に示す各種データベースを説明する。Ｔｉｍｂｒｅデータベース２１０は、音韻名、ピッチを異にする各特徴パラメータを集めたデータベースである。ある時刻における音声は特徴パラメータ（励起スペクトル、励起レゾナンス、フォルマント、差分スペクトルのセット）で表現でき、同じ音声でもピッチが異なればこれを表現する特徴パラメータも異なる。このＴｉｍｂｒｅデータベース２１０は、インデックスとして音韻名、ピッチを持つ。従って、ＣＰＵ１００は、上記歌唱スコアデータの音韻トラック及びピッチトラックに属するデータをキーとして、ある時刻ｔにおける特徴パラメータを読み出すことができる。
【００３０】
表情テンプレートデータベース２００は、音韻に対して表情付けを行うのに使用するテンプレートデータを集めたデータベースである。本実施形態において、音韻に付ける表情には、アクセント、ソフト、レガート、ポルタメントがある。本実施形態では、これらの表情を音韻に付けるため、音韻に対応した音声波形の特徴パラメータやピッチを時間経過に伴って変化させる。テンプレートデータは、歌唱音を特徴付けるパラメータを如何なる態様で時間的に変化させるかを定義したデータであることは上述したところであるが、ここにいう「歌唱音を特徴付けるパラメータ」とは、具体的には、特徴パラメータＰとピッチＰｉｔｃｈである。本実施形態におけるテンプレートデータは、時間ｔの関数として表された特徴パラメータＰとピッチＰｉｔｃｈとを一定時間Δｔ間隔でサンプリングしたデジタル値のシーケンスと、特徴パラメータＰとピッチＰｉｔｃｈの区間長Ｔ（ｓｅｃ.）の組により構成されるものであり、以下の式（Ａ）により表すことができる。
【数１】
Template=[Ｐ（ｔ），Pitch(ｔ)，T]…（Ａ）
【００３１】
なお、ｔ＝０、Δｔ、２Δｔ、３Δｔ、…Ｔであり、本実施形態では、Δｔは５ｍｓとする。Δｔを小さくすると時間分解能がよくなるので音質は良くなるがデータベースのサイズが大きくなり、逆にΔｔを大きくすると音質が悪くなるがデータベースのサイズは小さくなる。Δｔを決定する際には音質とデータベースのサイズとの優先度を考慮して決定すればよい。
【００３２】
表情テンプレートデータベース２００は、ノートアタック表情テンプレートデータベース２２０とノートトランジッション表情テンプレートデータベース２３０とに分かれている。
【００３３】
ここで、ノートアタック表情テンプレートデータベース２２０は、ノートアタックの音から始まる区間の表情付けに使用するテンプレートデータを集めたデータベースである。このノートアタック表情テンプレートデータベース２２０は、表情付けの種類により、アクセントテンプレートデータベース２２１とソフトテンプレートデータベース２２２とに区分されている。そして、ノートアタック表情テンプレートデータベース２２０内の各テンプレートデータベースには、予め想定した複数の音韻および複数の代表ピッチの全組み合わせについて、図３に示すように、音韻名と代表ピッチをインデックスとするテンプレートデータが用意されている。ここで、図２に示すように、ノートアタック表情テンプレートデータベース２２０には、レガート及びポルタメントを指定した区間に適用されるテンプレートデータのデータベースが用意されていないが、これは、音の立ち上がり時にレガート又はポルタメントをかけて発声するということがありえないからである。
【００３４】
一方、ノートトランジッション表情テンプレートデータベース２３０は、ノートトランジションの音から始まる区間の表情付けに使用する表情テンプレートデータを集めたデータベースである。このノートトランジション表情テンプレートデータベース２３０は、表情付けの種類により、アクセントテンプレートデータベース２３１とソフトテンプレートデータベース２３２とレガートテンプレートデータベース２３３とポルタメントテンプレートデータベース２３４とに区分されている。ノートトランジッション表情テンプレートデータベース２３０内の各テンプレートデータベースには、予め想定された複数の先発音韻名、複数の後発音韻名、複数の代表ピッチの全組み合わせについて、図４に示すように、先発音韻名、後発音韻名、代表ピッチをインデックスとするテンプレートデータが用意されている。
【００３５】
表情テンプレートデータベース２００を構成するテンプレートデータは、後に詳述する歌唱データ編集画面において、アクセント、ソフト（やわらかく）、レガート（なめらかに）、ポルタメントといった表情の指定が行なわれた区間に適用される。
【００３６】
音韻テンプレートデータベース２４０は、音韻テンプレートデータを格納している。この音韻テンプレートデータは、上記歌唱スコアデータにおける音韻と音韻との遷移区間に適用するデータである。人間が２つの音韻を連続して発する場合には、突然変化するのではなくゆるやかに移行していく。例えば「あ」という母音の後に区切りを置かないで連続して「え」という母音を発音する場合には、最初に「あ」が発音され、「あ」と「え」の中間に位置する発音を経て「え」に変化する。従って、音韻の結合部分が自然になるように歌唱合成を行うには、ある言語において組合せ可能な音韻の組合せについて、結合部分の音声情報を何らかの形で持つことが好ましい。これを考慮し、本実施形態では、音韻が遷移する区間における、特徴パラメータとピッチの変動量をテンプレートデータとして準備し、歌唱スコアデータにおける音韻の遷移区間にこのテンプレートデータを適用することによって、より実際の歌唱に近い音声の合成を実現している。
【００３７】
この音韻テンプレートデータは、上記表情テンプレートデータと同様に、特徴パラメータＰとピッチＰｉｔｃｈのペアが一定時間ごとに並んだシーケンス、及びその区間の長さＴ（ｓｅｃ.）の組であり、上記算出式（Ａ）で表すことが出来る。但し、上記表情テンプレートデータは時系列にしたがって変動する特徴パラメータ及びピッチの絶対値そのものを持つ構造となっているのに対し、この音韻テンプレートデータは、時間毎の特徴パラメータ及びピッチの変動量を持つ構造になっている。これは、後に詳述するように、表情テンプレートデータと音韻テンプレートデータとでは適用の仕方が異なるからである。
【００３８】
状態テンプレートデータベース２５０は、状態テンプレートデータを格納する。状態テンプレートデータは、上記歌唱スコアデータにおける、音韻の立ち上がり部分、及び音韻の遷移部分に全般的に適用するデータである。ある音韻を一定のピッチで発声しようとしたときの立ち上がり部分を解析すると、振幅が徐々に大きくなり一定のレベルで安定していくことが明らかになっている。また、２つの音符を連続して間を置かずに歌唱するときは、ピッチ及び特徴パラメータが微小な揺らぎを持ちながら変動していくことが明らかになっている。これを考慮し、本実施形態では、音韻の立ち上がりや遷移区間における特徴パラメータとピッチの変動量をテンプレートデータとして準備し、歌唱スコアデータにおける音韻の立ち上がりや遷移区間にこのテンプレートデータを適用することによって、より実際の歌唱に近い音声の合成を実現している。
【００３９】
この状態テンプレートデータも、特徴パラメータＰとピッチＰｉｔｃｈのペアが一定時間ごとに並んだシーケンス、及びその区間の長さＴ（ｓｅｃ.）の組であり、上記算出式（Ａ）で表すことが出来る。そして、上記音韻テンプレートデータと同様に、時間毎の特徴パラメータ及びピッチの変動量を持つ構造になっている。
【００４０】
＜実施形態の動作＞
以下、上記構成を有する歌唱合成装置の動作について説明する。図５は、当該歌唱合成装置の動作の概要を示すフローチャートである。
【００４１】
ＣＰＵ１００は、ＧＵＩを介して歌唱合成の実行指示を受け取ると、記憶装置２００から歌唱合成プログラムを読み出して実行する。この歌唱合成プログラムの実行過程では、図５に示す処理が行われる。まず、歌唱合成プログラムを構成するモジュールの１つであるインターフェース制御部１０１が、ディスプレイ１４０に歌唱データ編集画面を表示する（Ｓ１１０）。図６に歌唱データ編集画面を示す。歌唱データ編集画面のウィンドウ６００は、ノートデータをピアノロール形式で表示するイベント表示領域６０１を備えている。イベント表示領域６０１の右側には、イベント表示領域６０１の表示画面を上下にスクロールするためのスクロールバー６０６が設けられている。イベント表示領域６０１の下側には、イベント表示領域６０１の表示画面を左右にスクロールするためのスクロールバー６０７が設けられている。
【００４２】
イベント表示領域６０１の左側にはピアノの鍵盤を模した鍵盤表示６０２（ピッチを示す座標軸）が表示され、イベント表示領域６０１の上側には楽曲の先頭からの小節位置を示す小節表示６０４が表示される。６０３はピアノロール表示領域であり、鍵盤表示６０２で示されるピッチの小節表示６０４で示される時間位置にノートデータを横長の矩形（バー）で表示している。バーの左端位置は発声開始タイミングを示し、バーの長さは発声継続時間を示し、バーの左端位置は発声終了タイミングを示している。
【００４３】
ユーザは、所望のピッチ及び時間位置に対応した表示画面上の位置にマウスポインタを移動してクリックし、発声開始位置を特定する。そして、ドラッグ操作により発声開始位置から発声終了位置に至るノートデータのバー（以下ノートバーという）をイベント表示領域６０１に形成し、その後、マウス１５０をドロップする。例えば、ノートバー６１１を形成するためには、第５３小節目の第１拍め先頭の位置にマウスポインタを位置決めしてマウス１５０をクリックし、１拍後までドラッグすればよい。
【００４４】
上記ドラッグアンドドロップによってノートバーを形成したユーザは、当該ノートバーに割り当てる歌詞の入力操作と、任意の指定である表情の入力操作とを行う。
【００４５】
歌詞の入力操作は、上記形成したノートバーにマウスポインタを移動しマウス１５０を右クリックすることによって、図７の拡大図に示すような歌詞入力欄をノートバーの上部に表示させ、キーボード１６０によって当該入力欄へ歌詞を入力する。
【００４６】
一方、表情の入力操作は、上記形成したノートバーにマウスポインタを移動しマウス１５０を左クリックすることによって、図８に示すような表情選択リストをノートバーの下部にプルダウン表示させ、そのリストの中から当該ノートバーに割り当てる表情を選択する。表情選択リストに表示される表情は、アクセント、やわらかく（ソフト）、レガート、ポルタメントの４つである。
【００４７】
ここで、同じピッチで複数の音韻を間を置かずに歌唱する場合でも、ユーザは、図９の拡大図に示すように同じピッチのノートバーを複数に分けて形成しなければならない。さもなければ、前の音韻をどこまで伸ばして、後の音韻をどこから発声するのか特定することができないからである。また、異なるピッチで単一の音韻を歌唱させるとき、ユーザは、図１０の拡大図に示すように、まず、異なるピッチのノートバーを別々に形成し、先の音韻の歌詞を入力し、後の音韻の歌詞として「−」（ハイフン）を入力しなければならない。
【００４８】
このような操作によって、楽曲を演奏するのに必要なノートバー、歌詞、及び表情を入力したユーザは、図示しない歌唱音声出力ボタンをクリックする。
【００４９】
この歌唱音声出力ボタンがクリックされると、スコアデータ生成部１０２が、この入力されたノートデータ、表情に基づいて歌唱スコアデータを生成する（Ｓ１２０）。
【００５０】
図１１は、スコアデータ生成部１０２が生成する歌唱スコアデータの一例を示す概念図である。この歌唱スコアデータは、音韻トラック、ピッチトラック、表情トラックによって構成されている。
【００５１】
音韻トラックには、音韻名と、その発音継続時間が記録される。この音韻トラックには、上記歌唱データ編集画面で各ノートバーに割り当てた歌詞が反映される。
【００５２】
ピッチトラックには、各時刻において発音すべき音声の基本周波数が記録される。このピッチトラックには、上記歌唱データ編集画面の各ノートバーの縦座標が反映される。なお、実際に発音される音声のピッチはこのピッチトラックに記録されているピッチ情報に他の情報を作用させて算出されるので、実際に発音されているピッチと、ここに記録されているピッチとは異なる場合がある。
【００５３】
表情トラックには、特定の音韻について指定された表情と、その表情の継続時間が記録される。表情には、「アクセント」を示す「Ａ」と、「やわらかく（ソフト）」を示す「Ｓ」と、「なめらかに（レガート）」を示す「Ｒ」と、「ポルタメント」を示す「Ｐ」とがある。例えば、図１１の例では、音韻「い」と「た」の区間に「Ａ」のデータが記録されている。また、音韻「は」と「な」の区間に「Ｓ」のデータが記録されている。この表情トラックには、上記歌唱データ編集画面の各ノートバー毎に任意に指定された表情が反映される。
【００５４】
ここで、歌唱データ編集画面においては、ノートバーがノートアタックの音の歌唱を指示するものであるかそれともノートトランジッションの音の歌唱を指示するものであるかを区別することなく、「アクセント」、「ソフト（やわらかく）」、「レガート（なめらかに）」、「ポルタメント」のいずれの表情の指定であってもすることができた。しかしながら、レガート又はポルタメントをかけてノートアタックの音を歌唱することは現実にはありえない。従って、スコアデータ生成部１０２は、このような本来ありえない指定が行われているかを検出し、このような指定が行なわれているときはこれを無視する。
【００５５】
図５のフローチャートにおいて、スコアデータ生成部１０２による歌唱スコアデータの生成（Ｓ１２０）が終わると、スコアデータ更新部１０３は、歌唱スコアデータの状態トラックにデータを追加して、歌唱スコアデータを更新する（Ｓ１３０）。この際、スコアデータ更新部１０３は、歌唱スコアデータの各音韻のコンテキストをコンテキスト判別部１０４に問い合わせる。そして、この判別結果に応じて、ノートアタックの音であることを示すコンテキストデータ或いはノートトランジッションの音であることを示すコンテキストデータを各音韻と関連付けて記録する。図１２は、状態トラックにコンテキストデータが追加された歌唱スコアデータの一例を示す概念図である。同図では、音韻「さ」と「は」には、ノートアタックの音を示すコンテキストデータである「ａｔｔａｃｋ」が関連付けられ、音韻「い」と「た」と「な」には、ノートトランジッションの音を示すコンテキストデータである「ｔｒａｎｓｉｔｉｏｎ」が関連付けられている。
【００５６】
ここで、上記コンテキスト判別部１０４によるコンテキストの判別方法としては、歌唱スコアデータの音韻トラックに着目する第１の判別方法と、歌唱スコアデータのピッチトラックに着目する第２の判別方法とがある。
【００５７】
まず、第１の判別方法の手順を以下に示す。まず、歌唱スコアデータの音韻トラックから、当該判別対象の音韻に時系列的に先行する直近の音韻の発音タイミングを特定する。そして、当該判断対の音韻と上記先行する音韻との発音タイミングの差を求める。更に、当該判断対象の音韻と上記先行する音韻との差が予め設定された所定の間隔以内であれば、当該判断対象の音韻をノートトランジッションの音であると特定し、当該判断対象の音韻と上記先行する音韻との差が上記設定された所定の期間を超えるとき、或いは先行する音韻が存在していないときは、当該判断対象の音韻をノートアタックの音と特定する。
【００５８】
第２の判別方法の手順を以下に示す。上述のように、歌唱スコアデータのピッチトラックには、各時刻において発音すべき各音韻の音声の基本周波数が記録される。したがって、まず、歌唱スコアデータのピッチトラックから、当該判別対象となる音韻のピッチの始点と、予め設定された所定期間を当該始点から時系列的にさかのぼった時刻とを特定する。そして、この特定した時刻から上記始点までのピッチトラックの区間に、ピッチを指定する値が記録されているか判断する。この区間にピッチを指定する値が記録されていれば当該判断対象の音韻をノートトランジッションの音と特定し、記録されていなければノートアタックの音と特定する。
【００５９】
図５のフローチャートの説明に戻って、特徴パラメータ発生部１０５は、時刻ｔを進めながら、各時刻ｔにおける音韻に関する情報を歌唱スコアデータから取り出し、その音韻に対応した音声波形を合成するのに必要な特徴パラメータをＴｉｍｂｒｅデータベース２１０から読み出してＲＡＭ１２０上に展開する（Ｓ１４０）。上述のように、Ｔｉｍｂｒｅデータベース２１０は音韻名とピッチをインデックスとして編成されているので、歌唱スコアデータの音韻トラックの各音韻及びこれに対応するピッチトラックのピッチをキーとして、発音すべき音韻に対応した特徴パラメータを特定することが可能である。
【００６０】
特徴パラメータ発生部１０５は、歌唱スコアデータの時刻ｔにおける表情トラックの値に基づいて表情指定区間を特定し、表情テンプレートデータベース２００から読み出した表情テンプレートデータをこの表情指定区間の特徴パラメータ及びピッチに適用する（Ｓ１５０）。このステップ１５０の表情テンプレートデータ適用処理を、図１３のフローチャートを参照して更に詳細に説明する。
【００６１】
ステップ１５１において特徴パラメータ発生部１０５は、時刻ｔにおいて何らかの表情が表情トラックで指定されているか判断する。時刻ｔにおいて「Ａ」、「Ｓ」、「Ｒ」、「Ｐ」のいずれかのデータが表情トラックに記録されているときは、表情の指定があると判断する。表情が指定されているときは、ステップ１５２に進み、表情が指定されていないときは、ステップ１５１に再び戻り、時刻ｔを進めて、以降の処理を実行する。
【００６２】
ステップ１５２において、特徴パラメータ発生部１０５は、表情トラックにおいて時刻ｔにおける表情と同じ表情属性を持つ領域の開始時刻及び終了時刻（例えば時刻ｔにおける表情属性がアクセントを示す「Ａ」である場合には、その「Ａ」が始まる時刻と終了する時刻）を求める。この開始時刻と終了時刻の間が表情テンプレートデータを適用する表情指定区間になる。
【００６３】
ステップ１５３において、特徴パラメータ発生部１０５は、状態トラックの時刻ｔにおけるデータが「ａｔｔａｃｋ」のコンテキストデータであるかそれとも「ｔｒａｎｓｉｔｉｏｎ」のコンテキストデータであるかを判断する。「ａｔｔａｃｋ」のコンテキストデータが記録されているときはステップ１５４に進み、「ｔｒａｎｓｉｔｉｏｎ」のコンテキストデータが記録されているときはステップ１５５に進む。
【００６４】
ステップ１５４では、特徴パラメータ発生部１０５が、ノートアタック表情テンプレートデータベース２２０から表情テンプレートデータを読み出す。上述のように、ノートアタック表情テンプレートデータベース２２０内には、アクセントテンプレートデータベース２２１とソフトテンプレートデータベース２２２とを備えており、これらデータベースはいずれも、音韻名と代表ピッチをインデックスとして編成されている。従って、ステップ１５４では、まず、時刻ｔにおける表情トラックの表情属性に対応するデータベース（例えば表情属性が「Ａ」ならアクセントテンプレートデータベース２２１）を特定し、時刻ｔにおける音韻トラック及びピッチトラックの値に対応するテンプレートデータをこのデータベースから更に特定する。
【００６５】
一方、ステップ１５５では、特徴パラメータ発生部１０５が、ノートトランジッション表情テンプレートデータベース２３０から表情テンプレートデータを読み出す。上述のように、ノートトランジッション表情テンプレートデータベース２３０内には、アクセントテンプレートデータベース２３１とソフトテンプレートデータベース２３２とレガートテンプレートデータベース２３３とポルタメントテンプレートデータベース２３４とを備えられており、これらデータベースはいずれも、先頭音韻名、後続音韻名、代表ピッチをインデックスとして編成されている。従って、ステップ１５５では、時刻ｔにおける表情トラックの値に対応するデータベース（例えば「Ａ」ならアクセントテンプレートデータベース２３１）を特定し、音韻トラックに記憶された時刻ｔにおける音韻（すなわち、図４における後続音韻）とその直前の音韻（すなわち、図４における先頭音韻）及びピッチトラックに記録された時刻ｔにおけるピッチ（すなわち、図４における代表ピッチ）をインデックスとするテンプレートデータをこのデータベースから更に特定する。
【００６６】
ステップ１５６において、特徴パラメータ発生部１０５は、ステップ１５４または１５５において読み出した表情テンプレートデータを上記表情指定区間に対応する時間長に伸張し、当該表情指定区間のピッチ及び特徴パラメータと当該伸張した表情テンプレートデータの値とを交換する。
【００６７】
以上の処理を時刻ｔを増加させながら繰り返し行うことにより、アクセント、レガートといった表情の指定に応じた特徴パラメータ及びピッチが、演奏時間の経過に従って生成される。
【００６８】
以上説明した図１３の処理が終了すると、図５のフローチャートにおいて、特徴パラメータ発生部１０５は、音韻テンプレートデータベース２４０から読み出した音韻テンプレートデータを特徴パラメータ及びピッチに適用する（Ｓ１６０）。この音韻テンプレートデータの適用は、歌唱スコアデータの音韻トラックの値から音韻の遷移区間を特定し、音韻テンプレートデータベース２４０から読み出した音韻テンプレートデータをこの遷移区間に対応する時間長に伸張し、上記遷移区間のピッチ及び特徴パラメータに当該伸張した音韻テンプレートデータの値を加算するといった処理によって実現する。但し、このような適用手順は従来技術の範疇であるため詳細な説明は省略する。
【００６９】
特徴パラメータ発生部１０５は、状態テンプレートデータベース２５０から読み出した状態テンプレートデータを特徴パラメータ及びピッチに適用する（Ｓ１７０）。この状態テンプレートデータの適用は、歌唱スコアデータの状態トラック及びピッチトラックの値から音韻の立ち上がり或いは遷移区間を特定し、状態テンプレートデータベース２５０から読み出した状態テンプレートデータをこれら区間に対応する時間長に伸張し、上記各区間のピッチ及び特徴パラメータに当該伸張した状態テンプレートデータの値を加算するといった処理によって実現する。但し、このような適用手順は従来技術の範疇であるため詳細な説明は省略する。
【００７０】
最後に、歌唱合成部１０６は、以上のようにして最終的に得られた特徴パラメータ及びピッチに基づいて、デジタル音声データを合成する（Ｓ１８０）。そして、この合成された音声データは、ＤＡＣ１７０でアナログデータに変換され、サウンドシステム１８０から発音されることになる。
【００７１】
以上説明したように、本実施形態によれば、歌唱データの合成のためのデータ入力を行うユーザは、所望の区間に表情付けを行いたい場合、その区間が置かれたコンテキストを意識することなく、その区間に付けるべき表情を指定するだけで、その区間が置かれているコンテキストおよびユーザが指定した表情に合った適切な歌唱データが合成される。
【００７２】
Ｂ第２の実施の形態
＜実施形態の構成＞
本実施形態に係る歌唱合成装置の物理的構成は、上記第１の実施の形態と同様であり、図を参照しての再度の説明を省略する。
【００７３】
図１４は、当該歌唱合成装置の論理的構成を示すブロック図である。同図左側には、ＣＰＵ１００がその役割を担う各部の構成を示し、同図右側には、記憶装置２００に編成されたデータベースの構成を示す。
【００７４】
まず、記憶装置２００にインストールされた歌唱合成プログラムを実行することによって、ＣＰＵ１００は、インターフェース制御部１０１、スコアデータ生成部１０２、コンテキスト判別部１０４、特徴パラメータ発生部１０５、及び歌唱合成部１０６としての役割を担う。上記第１の実施の形態と異なり、スコアデータ更新部１０３は備えていない。
【００７５】
インターフェース制御部１０１の機能は上記第１の実施の形態と同様であり、図６に示した歌唱データ編集画面をディスプレイ１４０に表示する。また、スコアデータ生成部１０２の機能も上記第１の実施の形態と同様である。
【００７６】
本実施形態におけるコンテキスト判別部１０４は、特徴パラメータ発生部１０５からの問い合わせを受け、歌唱スコアデータに記録された特定の音韻のコンテキストを判別する。特徴パラメータ発生部１０５は、特徴パラメータをデータベースから読み出すと共に、上記コンテキスト判別部１０４の判別結果に応じたテンプレートデータを読み出して当該特徴パラメータに適用する。
【００７７】
歌唱合成部１０６の機能は上記第１の実施の形態と同様である。
【００７８】
また、データ−ベースの編成も上記第１の実施の形態と同様である。
【００７９】
＜実施形態の動作＞
以下、上記構成を有する歌唱合成装置の動作について説明する。図１５は、本実施形態に係る歌唱合成装置の動作の概要を示すフローチャートである。
【００８０】
ＣＰＵ１００は、ＧＵＩを介して歌唱合成の実行指示を受け取ると、記憶装置２００から歌唱合成プログラムを読み出して実行する。この歌唱合成プログラムの実行過程では、図１５に示す処理が行われる。この図１５において、ステップＳ２１０〜Ｓ２２０およびステップＳ２４０〜Ｓ２７０の処理内容は、上述した第１の実施形態の図５におけるステップＳ１１０〜Ｓ１２０およびステップＳ１５０〜Ｓ１８０の処理内容と同じである。図５における処理では、ステップＳ１３０において、歌唱スコアデータに状態トラックのデータを追加する更新処理が行われた。これに対し、図１５に示す処理は、このステップＳ１３０に相当する処理を含んでいない。その代わりに、図１５においてステップＳ２３０において実行される処理は、図１３に示すものから図１６に示すものに置き換えられている。本実施形態と上記第１の実施形態との相違は以上の点にある。
【００８１】
図１６において、ステップＳ２４１〜Ｓ２４２およびステップＳ２４４〜Ｓ２４６の処理内容は、図１３におけるステップＳ１５１〜Ｓ１５２およびステップＳ１５４〜Ｓ１５６の処理内容と同じである。図１６では、図１３におけるステップＳ１５３がステップＳ２４３ａおよびＳ２４３ｂに置き換えられている。従って、説明の重複を避けるため、以下、これらのステップのみについて説明する。
【００８２】
まず、ステップ２４３ａにおいて、特徴パラメータ発生部１０５は、時刻ｔを終期とする一定時間内に属するデータを歌唱スコアデータの音韻トラックとピッチトラックから取り出し、コンテキスト判別部１０４に引き渡して、時刻ｔにおける音韻のコンテキストを問い合わせる。
【００８３】
次にステップ２４３ｂにおいて、コンテキスト判別部１０４は、特徴パラメータ発生部１０５から引き渡されたデータに基づいて、時刻ｔにおける音韻のコンテキストを判別する。当該コンテキスト判別部１０４によって当該音韻がノートアタックの音であると判別されたときは、ステップ２４４に進み、ノートトランジッションの音であると判別されたときは、ステップ２４５に進む。
【００８４】
以上説明した第２の実施の形態は、歌唱スコアデータに記録された各音韻のコンテキストを判別するタイミングが上記第１の実施の形態と異なる。上記第１の実施の形態では、特徴パラメータの生成を開始する前の段階で各音韻のコンテキストを判別し、この判別結果に応じて「ａｔｔａｃｋ」または「Ｔｒａｎｓｉｔｉｏｎ」のいずれかのコンテキストデータを歌唱スコアデータに記録するようになっていた。これに対し、本実施形態では、各音韻のコンテキストを特定するデータを何ら有しない歌唱スコアデータを特徴パラメータ発生部１０５が取得する。そして、特徴パラメータ発生部１０５がテンプレートデータをデータベースから読み出す段階で、各音韻のコンテキストの判別が行われるようになっている。このような構成をとる本実施形態では、状態トラックを歌唱スコアデータに設ける必要がなくなるため、歌唱スコアデータの容量を小さくすることができる。
【００８５】
Ｃ変形例
以上この発明の一実施形態について説明したが、上記実施形態はあくまでも例示であり、上記実施形態に対しては、様々な変形を加えることができる。変形例としては、例えば以下のようなものが考えられる。
【００８６】
＜Ｃ−１変形例１＞
上記実施の形態における歌唱データ編集画面では、「アクセント」、「ソフト（やわらかく）」、「レガート（なめらかに）」、「ポルタメント」のいずれかの表情を各ノートバー毎に指定するが、この指定は、ノートアタックの音の歌唱を指示するノートバーであるとノートトランジッションの音の歌唱を指示するノートバーであるとを問わずに行うことができるようになっていた。そして、ノートアタックの音にレガートの表情を指定するような本来ありえない指定が行われているかを、スコアデータ生成の際、或いは特徴パラメータ生成の際に判断し、このような指定を無視するような構成にしていた。
【００８７】
これに対し、図１７に示すような論理的構成をとることによって、本来ありえない指定を行えないように、インターフェース制御部１０１が上記歌唱データ編集画面からの入力を制限するようにしてもよい。この入力の制限の方法は以下のようなものが想定できる。まず、上記歌唱データ編集画面に形成されたノートバーについての表情の指定が入力されると、インターフェース制御部１０１が、当該ノートバーがノートアタックの音の歌唱を指示するものかそれともノートトランジッションの音の歌唱を指示するものかをコンテキスト判別部１０４に問い合わせる。そして、この判別の結果、当該ノートバーがノートアタックの音の歌唱を指示するものであったとき、当該インターフェース制御部１０１は、「この音符は立ち上がり音なので、レガート及びポルタメントをかけることができません。」といったメッセージを表示する。
【００８８】
＜Ｃ−２変形例２＞
上記実施の形態における歌唱スコアデータは、音韻トラック、ピッチトラック、表情トラックの３トラック、或いはこれに状態トラックを加えた４トラックで構成したが、別のトラック構成をとってもよい。例えば、音声の強さを示すパラメータである各時刻のダイナミクス値を記録するトラックや、唇の開き具合を示すパラメータである各時刻のオープニング値を記録するトラックを更に加えることによって、より一層人間の肉声に近い歌唱音声を再現することが可能である。
【００８９】
【発明の効果】
以上説明したように、本発明によると、音声情報に含まれる各音韻が立ち上がり音であるかそれとも非立ち上がり音であるかを判別する判別手段を備え、立ち上がり音に適用するテンプレートデータと、非立ち上がり音に適用するテンプレートデータとを個別に用意しておく。そして、音声情報が入力されたときは、この音声情報に適用するテンプレートデータを上記判別手段の判別結果に応じて自動的に特定する。従って、ユーザは、各音韻が立ち上がり音であるか非立ち上がり音であるかを意識することなく、表情を持たせた音声を合成するための音声情報を容易に生成できる。
【図面の簡単な説明】
【図１】歌唱合成装置の物理的構成を示すブロック図である。
【図２】歌唱合成装置の論理的構成を示すブロック図である。
【図３】テンプレートデータベースのデータ構造の一例である。
【図４】テンプレートデータベースのデータ構造の一例である。
【図５】実施形態の動作を示すフローチャートである。
【図６】歌唱データ編集画面の一例である。
【図７】歌詞入力欄の一例である。
【図８】表情選択リストの一例である。
【図９】ノートバーの入力例である。
【図１０】歌詞の入力例である。
【図１１】歌唱スコアデータの一例である。
【図１２】歌唱スコアデータの一例である。
【図１３】表情テンプレート適用処理を示すフローチャートである。
【図１４】歌唱合成装置の論理的構成を示すブロック図である。
【図１５】実施形態の動作を示すフローチャートである。
【図１６】表情テンプレート適用処理を示すフローチャートである。
【図１７】歌唱合成装置の論理的構成を示すブロック図である。
【符号の説明】
１００…ＣＰＵ、１１０…ＲＯＭ、１２０…ＲＡＭ、１３０…タイマ、１４０…ディスプレイ、１５０…マウス、１６０…キーボード、１７０…ＤＡＣ、１８０…サウンドシステム、１９０…ＭＩＤＩインターフェース、２００…記憶装置、１０１…インターフェース制御部、１０２…スコアデータ生成部、１０３…スコアデータ更新部、１０４…コンテキスト判別部、１０５…特徴パラメータ発生部、１０６…歌唱合成部、２１０…Ｔｉｍｂｒｅデータベース、２２０…ノートアタック表情テンプレートデータベース、２３０…ノートトランジッション表情テンプレートデータベース、２４０…音韻テンプレートデータベース、２５０…状態テンプレートデータベース。

Claims

立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートアタック表情テンプレートデータベースと、
非立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートトランジッション表情テンプレートデータベースと、
歌詞を構成する一連の音韻を指定するとともに、当該各音韻の発音タイミングを関連付けた音韻トラックと、前記各音韻に対する表情を指定する表情トラックとを含む音声情報を入力する入力手段と、
前記音声情報により指定された各音韻が、時系列的に先行して発音される先行音韻を有し且つ当該先行音韻との発音タイミングの差が所定期間未満である音韻であるかを前記音韻トラックに基づいて夫々判断し、前記先行音韻を有し且つ当該先行音韻との発音タイミングの差が所定期間未満である音韻を非立ち上がり音と特定すると共に、前記先行音韻を有さず又は前記先行音韻との発音タイミングの差が所定期間以上である音韻を立ち上がり音と特定する特定手段と、
前記音声情報により指定された一連の音韻のうち前記特定手段に立ち上がり音と特定された音韻については、前記ノートアタック表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成し、
前記一連の音韻のうち前記特定手段に非立ち上がり音と特定された音韻については、前記ノートトランジッション表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該非立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成する合成手段と
を備える歌唱合成装置。
立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートアタック表情テンプレートデータベースと、
非立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートトランジッション表情テンプレートデータベースと、
歌詞を構成する一連の音韻を指定する音韻トラックと、当該各音韻に対する表情を指定する表情トラックと、前記各音韻に付する音高の遷移を前記各音韻の発音タイミングに対応させて記録したピッチトラックとを含む音声情報を入力する入力手段と、
前記音声情報により指定された各音韻の発音タイミングから所定期間遡ったタイミングまでの先行区間に音高を指定する値が記録されているかを前記ピッチトラックに基づいて夫々判断し、前記先行区間に音高を指定する値が記録されている音韻を非立ち上がり音と特定すると共に、前記先行区間に音高を指定する値が記録されていない音韻を立ち上がり音と特定する特定手段と、
前記音声情報により指定された一連の音韻のうち前記特定手段に立ち上がり音と特定された音韻については、前記ノートアタック表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成し、
前記一連の音韻のうち前記特定手段に非立ち上がり音と特定された音韻については、前記ノートトランジッション表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該非立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成する合成手段と
を備える歌唱合成装置。
立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートアタック表情テンプレートデータベースと、非立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートトランジッション表情テンプレートデータベースとを有するコンピュータを動作させる歌唱合成プログラムであって、
歌詞を構成する一連の音韻を指定するとともに、当該各音韻の発音タイミングを関連付けた音韻トラックと、前記各音韻に対する表情を指定する表情トラックとを含む音声情報を入力する入力工程と、
前記音声情報により指定された各音韻が、時系列的に先行して発音される先行音韻を有し且つ当該先行音韻との発音タイミングの差が所定期間未満である音韻であるかを前記音韻トラックに基づいて夫々判断し、前記先行音韻を有し且つ当該先行音韻との発音タイミングの差が所定期間未満である音韻を非立ち上がり音と特定すると共に、前記先行音韻を有さず又は前記先行音韻との発音タイミングの差が所定期間以上である音韻を立ち上がり音と特定する特定工程と、
前記音声情報により指定された一連の音韻のうち前記特定工程にて立ち上がり音と特定された音韻については、前記ノートアタック表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成し、
前記一連の音韻のうち前記特定工程にて非立ち上がり音と特定された音韻については、前記ノートトランジッション表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該非立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成する合成工程と
をコンピュータに実行させる歌唱合成プログラム。
立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情の種類に対応した複数のデータベースに記憶するノートアタック表情テンプレートデータベースと、非立ち上がり音が各種の表情を持つために必要な特徴量の時間的変化を表情に対応した複数のデータベースに記憶するノートトランジッション表情テンプレートデータベースとを有するコンピュータを動作させる歌唱合成プログラムであって、
歌詞を構成する一連の音韻を指定する音韻トラックと、当該各音韻に対する表情を指定する表情トラックと、前記各音韻に付する音高の遷移を前記各音韻の発音タイミングに対応させて記録したピッチトラックとを含む音声情報を入力する入力工程と、
前記音声情報により指定された各音韻の発音タイミングから所定期間遡ったタイミングまでの先行区間に音高を指定する値が記録されているかを前記ピッチトラックに基づいて夫々判断し、前記先行区間に音高を指定する値が記録されている音韻を非立ち上がり音と特定すると共に、前記先行区間に音高を指定する値が記録されていない音韻を立ち上がり音と特定する特定工程と、
前記音声情報により指定された一連の音韻のうち前記特定工程にて立ち上がり音と特定された音韻については、前記ノートアタック表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成し、
前記一連の音韻のうち前記特定工程にて非立ち上がり音と特定された音韻については、前記ノートトランジッション表情テンプレートデータベースに記憶された複数のデータベースのうち、前記音声情報により指定された当該非立ち上がり音の表情に対応したデータベースのテンプレートデータを用いて音声を合成する合成工程と
をコンピュータに実行させる歌唱合成プログラム。