JP2018077283A

JP2018077283A - 音声合成方法

Info

Publication number: JP2018077283A
Application number: JP2016217381A
Authority: JP
Inventors: ジョルディ　ボナダ; Bonada Jordi; ボナダジョルディ; ブラアウメルレイン; Brau Melrain; 慶二郎才野; Keijiro Saino; 竜之介大道; Ryunosuke Daido; 基小笠原; Motoi Ogasawara; 誠橘; Makoto Tachibana; 橘　　誠; マイケルウィルソン; Wilson Michael; 久湊　裕司; Yuji Hisaminato; 裕司久湊
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-11-07
Filing date: 2016-11-07
Publication date: 2018-05-17

Abstract

【課題】より簡単に音声表現を与えるためのユーザーインターフェースを提供する。【解決手段】一実施形態に係る音声合成方法は、合成音に付与される音声表現の素片の合成に用いられる複数のパラメーターの値を同時に変更するための単一の操作子を示す第１画像オブジェクトを表示するステップと、前記第１画像オブジェクトに対する操作を受け付けるステップと、前記操作に応じて値が変更された前記複数のパラメーターを用いて制御された音声表現の素片が加味された前記合成音を出力するステップとを有する。【選択図】図１９

Description

本発明は、音声合成に関する。

歌唱等の音声を合成する技術が知られている。より表現力豊かな歌唱音声を生成するため、単に与えられた音階で与えられた歌詞の音声を出力するだけでなく、この音声に音楽的な歌唱表現を付与することが試みられている。特許文献１は、２つの音声信号を、調波成分の周波数帯域が互いに近傍に位置するように調整することによって声質を変換する技術を開示している。

特開２０１４−２３３８号公報

特許文献１に記載の技術においては、合成歌唱に与える歌唱表現を指定するためのユーザーインターフェースに改良の余地があった。これに対し本発明は、より簡単に音声表現を与えるためのユーザーインターフェースを提供する。

本発明は、合成音に付与される音声表現の素片の合成に用いられる複数のパラメーターの値を同時に変更するための単一の操作子を示す第１画像オブジェクトを表示するステップと、前記第１画像オブジェクトに対する操作を受け付けるステップと、前記操作に応じて値が変更された前記複数のパラメーターを用いて制御された音声表現の素片が加味された前記合成音を出力するステップとを有する音声合成方法を提供する。

前記第１画像オブジェクトは、合成音における表現開始時刻を基準として付与される第１音声表現の素片の合成に用いられる複数のパラメーターの値を同時に変更するための単一の操作子を示し、この音声合成方法は、前記合成音における表現終了時刻を基準として付与される第２音声表現の素片の合成に用いられる複数のパラメーターの値を同時に変更するための単一の操作子を示す第２画像オブジェクトを表示するステップと、前記操作に応じて値が変更された前記複数のパラメーターを用いて合成された前記第１音声表現および前記第２音声表現の素片が加味された前記合成音を出力するステップとを有してもよい。

この音声合成方法は、複数の音声表現の中から一の音声表現を選択するための第３画像オブジェクトを表示するステップと、前記第３画像オブジェクトに対する操作を受け付けるステップとを有し、前記合成音を出力するステップにおいて、前記第３画像オブジェクトに対する操作に応じて選択された音声表現の素片が加味された前記合成音が出力されてもよい。

前記第１画像オブジェクトは、ユーザーの操作に応じて変位する操作子を表し、この音声合成方法は、前記複数の音声表現の各々に対し、前記変位と前記複数のパラメーターの変化とを対応付ける情報を参照して前記複数のパラメーターの値を変化させるステップを有してもよい。

本発明によれば、より簡単に音声表現を与えるためのユーザーインターフェースを提供することができる。

関連技術に係るＧＵＩを例示する図。一実施形態に係る歌唱表現付与の概念を示す図。一実施形態に係る音声合成装置１の機能構成を例示する図。音声合成装置１のハードウェア構成を例示する図。データベース１０の構造を示す模式図。アタック基準の歌唱表現における基準時刻を例示する図。リリース基準の歌唱表現における基準時刻を例示する図。合成器２０の機能構成を例示する図。歌唱表現の素片の時間長が短い例におけるマッピング関数を例示する図。歌唱表現の素片の時間長が長い例におけるマッピング関数を例示する図。スペクトル包絡およびスペクトル包絡概形の関係を例示する図。歌唱表現の素片の基本周波数をシフトする処理を例示する図。周波数領域で合成するための、合成手段２４の機能構成を例示する図。合成器２０の動作を例示するシーケンスチャート。時間領域で合成するための、合成手段２４の機能構成を例示する図。ＵＩ部３０の機能構成を例示する図。ＵＩ部３０において用いられるＧＵＩを例示する図。歌唱表現を選択するＵＩを例示する図。歌唱表現を選択するＵＩの別の例を示す図。ダイヤルの回転角とモーフィング係数とを対応させるテーブルの例。歌唱表現に係るパラメーターを編集するためのＵＩの別の例。

１．音声合成技術
音声合成のための種々の技術が知られている。音声のうち音階の変化およびリズムを伴うものを歌唱（歌声）という。歌唱合成としては、素片接続型歌唱合成および統計的歌唱合成が知られている。素片接続型歌唱合成では、多数の歌唱素片を収録したデータベースが用いられる。歌唱素片（音声素片の一例）は、主として音韻（単音素または音素連鎖）によって区分される。歌唱の合成に際して、これらの歌唱素片は、基本周波数、タイミング、および継続長が楽譜情報に応じて調整されたうえで接続される。素片接続型歌唱合成に用いられる歌唱素片は、データベースに登録される全ての音韻に渡って音質ができるだけ一定であることが要求される。音質が一定でないと、歌唱を合成した際に不自然な音声の変動が発生してしまうからである。また、これらの素片に含まれる動的な音響変化のうち歌唱表現（音声表現の一例）に対応する部分は、合成時にそれが表出しないように処理される必要がある。歌唱表現は音楽的な文脈に依存して歌唱に付与されるべきものであり、音韻の種別と直接に対応付けられるべきものではないからである。特定の音韻に対して常に同じ歌唱表現が表出されると、得られる合成歌唱は不自然なものとなる。したがって、素片接続型歌唱合成においては、例えば基本周波数および音量の変化は、歌唱素片に含まれるものを直接的に用いるのではなく、楽譜情報およびあらかじめ決められたルールに基づいて生成された基本周波数および音量の変化が用いられる。仮に、音韻と歌唱表現とのすべての組み合わせに対応する歌唱素片をデータベースに収録すれば、楽譜情報に一致する音韻および音楽的文脈に対して自然な歌唱表現の双方に対応する歌唱素片を選択することが可能になる。しかし、あらゆる音韻に対してあらゆる歌唱表現に対応する歌唱素片を収録するには膨大な手間がかかり、データベースの容量も膨大なものとなってしまう。また、素片同士の組み合わせの数は素片の数に対して爆発的に増加するため、素片同士のあらゆる接続に対して不自然な合成歌唱とならないことを保証することは難しい。

一方、統計的歌唱合成では、多数の訓練データを利用して楽譜情報と歌唱の音響的特徴との関係を統計モデルとしてあらかじめ学習しておく。合成時には、入力された楽譜情報から最も尤もらしい音響的特徴量を推定し、それを用いて歌唱を合成する。統計的歌唱合成では様々な歌唱スタイルごとに訓練データを構築することで、種々の歌唱表現を含んだ統計モデルを学習可能である利点がある。しかし、統計的歌唱合成には主として２つの問題がある。第１の問題は過剰平滑化である。多数の訓練データから統計モデルを学習する過程は本質的にデータの平均化と次元削減を伴うため、合成出力される音響的特徴は必然的に、通常の単一の歌唱よりも特徴量の分散が小さくなってしまう。その結果、合成音の表現力やリアルさが損なわれる。第２の問題は、統計モデルを学習可能な音響的特徴量の種類が限られている点である。特に位相情報は巡回的な値域を持つことから統計的なモデリングが困難であり、たとえば調波成分どうしまたは特定の調波成分とその周辺に存在する成分との位相関係やそれらの時間的変動を適切にモデリングすることは困難である。しかし、実際には濁声や嗄声などを含む表現力豊かな歌唱を合成するためには、位相情報を適切に利用することが必要である。

歌唱合成において多様な声質を合成できるようにする技術として、特許文献１に記載のＶＱＭ（Voice Quality Modification）が知られている。ＶＱＭにおいては、ある種の歌唱表現に相当する声質の第１音声信号、および歌唱合成による第２音声信号が用いられる。第２音声信号は、素片接続型歌唱合成によるものであっても、統計的歌唱合成によるものであってもよい。これら２つの音声信号を用いれば、位相情報を含めて歌唱を合成することができる。その結果、通常の歌唱合成よりもリアルで表現力豊かな歌唱を合成できる。しかし、この技術においては、第１音声信号の音響的特徴の時間変化を歌唱合成に反映する方法が明らかではない。なおここでいう時間変化とは、定常的に濁声や嗄声を発声した際にも観測されるような音響的特徴の高速な変動を指すのではなく、例えば発声を開始した直後にはそのような高速な変動の程度が大きく、その後時間の経過に伴い徐々に減衰し、さらに時間が経過すると一定の程度で安定するといった、比較的巨視的な声質の推移に相当する。このような声質の変化は、歌唱表現の種別によって大きな違いが現れる。

図１は、関連技術に係るＧＵＩを例示する図である。このＧＵＩは、関連技術に係る歌唱合成プログラムにおいて使用される。このＧＵＩは、楽譜表示領域９１１、ウインドウ９１２、およびウインドウ９１３を含む。楽譜表示領域９１１は、音声合成に係る楽譜が表示される領域であり、この例ではいわゆるピアノロールに相当する形式で楽譜が表される。楽譜表示領域９１１内において横軸は時間を、縦軸は音階を、それぞれ表す。ウインドウ９１２は、ユーザーの操作に応じて表示されるポップアップウインドウであり、合成歌唱に対して付与することができる歌唱表現の一覧を含む。ユーザーは、この一覧の中から適用される歌唱表現を選択する。ウインドウ９１３には、選択された歌唱表現の適用の程度を表すグラフが表示される。ウインドウ９１３内において横軸は時間を、縦軸は歌唱表現の適用の強さを、それぞれ表す。ユーザーは、ウインドウ９１３においてグラフを編集し、ＶＱＭの適用の程度の時間変化を入力する。しかし、この例では、ＶＱＭの適用の程度の時間変化をユーザーが手作業で入力しなければならないので、自然で表現力豊かな歌唱を合成するのは困難である。

２．構成
図２は、一実施形態に係る歌唱表現付与の概念を示す図である。なお、以下において、「合成歌唱」とは合成された音声であって特に音階と歌詞とが与えられた音声をいう。特に断りの無い限り、単に「合成歌唱」というときは、本実施形態に係る歌唱表現が付与されていない合成音声を指す。「歌唱表現」とは合成音声に対して付与される音楽的な表現をいい、例えば、ボーカルフライ（fry）、うなり声（growl）、および嗄れ声（rough）のような表現を含む。本実施形態においては、あらかじめ収録された局所的な歌唱表現の素片（サンプル）を、通常の（歌唱表現が付与されていない）合成歌唱にモーフィングによって加算することを「合成歌唱に対し歌唱表現を付与する」という。ここで、歌唱表現の素片は、歌唱音声全体または１個のノートに対し、時間的に局所的なものである。時間的に局所的とは、歌唱表現の占める時間が、歌唱音声全体または１個のノートに対し部分的であることをいう。歌唱表現の素片は、歌唱者による歌唱表現をあらかじめ録音したものであり、歌唱中の、局所的な時間においてなされている歌唱表現（音楽的な表現）の素片である。素片とは歌唱者の発した音声波形の一部をデータ化したものである。また、モーフィングとは、歌唱表現の素片および合成歌唱の少なくとも一方に、時間の経過に伴って増加または減少する係数を乗算して両者を加算する処理をいう。歌唱表現の素片と通常の合成歌唱とは、タイミングを合わせてモーフィングされる。モーフィングにおいて、歌唱表現における音響的特徴の時間変化は保たれたままである。歌唱表現の素片をモーフィングによって加算するときには、通常の合成歌唱のうちの、局所的な時間における合成歌唱に対して、モーフィングを行う。

この例で、合成歌唱と歌唱表現の素片との加算の基準時刻は、ノート（すなわち音符）の先頭時刻およびノートの末尾時刻である。以下、ノートの先頭時刻を基準時刻とすることを「アタック基準」といい、末尾時刻を基準時刻とすることを「リリース基準」という。

図３は、一実施形態に係る音声合成装置１の機能構成を例示する図である。音声合成装置１は、データベース１０、合成器２０、およびＵＩ（User Interface）部３０を有する。この例では素片接続型歌唱合成が用いられる。データベース１０は、歌唱素片および歌唱表現の素片が収録されたデータベースである。合成器２０は、楽譜情報および歌唱表現を指示する情報に基づいてデータベース１０から歌唱素片および歌唱表現の素片を読み出し、これらを用いて歌唱表現付きの歌唱音声を合成する。ＵＩ部３０は、楽譜情報、歌唱表現、および歌唱音声の入力、編集、および出力を行うためのインターフェースである。

図４は、音声合成装置１のハードウェア構成を例示する図である。音声合成装置１は、ＣＰＵ（Central processing Unit）１０１、メモリー１０２、ストレージ１０３、入出力ＩＦ１０４、ディスプレイ１０５、および入力装置１０６を有するコンピュータ装置、具体的には例えばタブレット端末である。ＣＰＵ１０１は、プログラムを実行して音声合成装置１の他の要素を制御する制御装置である。メモリー１０２は主記憶装置であり、例えばＲＯＭ（Read Only Memory）およびＲＡＭ（Random Access Memory）を含む。ＲＯＭは、音声合成装置１を起動するためのプログラム等を記憶する。ＲＡＭは、ＣＰＵ１０１がプログラムを実行する際のワークエリアとして機能する。ストレージ１０３は補助記憶装置であり、各種のデータおよびプログラムを記憶する。ストレージ１０３は、例えば、ＨＤＤ（Hard Disk Drive）およびＳＳＤ（Solid State Drive）の少なくとも一方を含む。入出力ＩＦ１０４は、他の装置との間で情報の入出力を行うためのインターフェースであり、例えば、無線通信インターフェースまたはＮＩＣ（Network Interface Controller）を含む。ディスプレイ１０５は情報を表示する装置であり、例えばＬＣＤ（Liquid Crystal Display）を含む。入力装置１０６は、音声合成装置１に情報を入力するための装置であり、例えば、タッチスクリーン、キーパッド、ボタン、マイクロフォン、およびカメラの少なくとも１つを含む。

この例で、ストレージ１０３は、コンピュータ装置を音声合成装置１として機能させるプログラム（以下「歌唱合成プログラム」という）を記憶する。ＣＰＵ１０１が歌唱合成プログラムを実行することにより、コンピュータ装置に図３の機能が実装される。ストレージ１０３は、データベース１０を記憶する記憶手段の一例である。ＣＰＵ１０１は、合成器２０の一例である。ＣＰＵ１０１、ディスプレイ１０５、および入力装置１０６は、ＵＩ部３０の一例である。以下、図３の機能要素の詳細をそれぞれ説明する。

２−１．データベース１０
データベース１０は歌唱素片が収録されたデータベース（素片データベース）および歌唱表現の素片が収録されたデータベース（歌唱表現データベース）を含むが、素片データベースについては、従来知られている素片接続型歌唱合成において用いられるものと同じであるので詳細な説明は省略する。以下、特に断りの無い限り、歌唱表現データベースを単にデータベース１０という。データベース１０においては、歌唱合成時の計算負荷の低減と音響的特徴の推定誤りの防止とを両立するため、歌唱表現の素片の音響的特徴を事前に推定しておき、推定した音響的特徴をデータベースに収録しておくことが好ましい。データベース１０に収録される音響的特徴は、人の手によって修正されたものであってもよい。

図５は、データベース１０の構造を例示する模式図である。ユーザーまたはプログラムが目的とする歌唱表現を容易に見つけられるようにするため、データベース１０において歌唱表現の素片は組織化されて収録される。図５は、木構造の例を示す。木構造における末端の葉が、それぞれ一つの歌唱表現に相当する。例えば、「Attack−Fry−Power−High」は、フライ発声を主とするアタック基準の歌唱表現のうち、力強い声質で、高音域に適した歌唱表現を意味する。木構造の末端の葉だけでなく、節に歌唱表現を配置してもよい。例えば、上記の例に加えて「Attack−Fry−Power」に相当する歌唱表現を収録してもよい。

データベース１０には、歌唱表現１個につき少なくとも１個の素片が収録される。音韻に応じて２個以上の素片が収録されてもよい。歌唱表現の素片は全ての音韻に対して独自のものを収録する必要はない。なぜなら、歌唱表現の素片は合成歌唱とモーフィングされるので、歌唱としての基本的な品質は合成歌唱によって既に確保されているからである。例えば、素片接続型歌唱合成において良い品質の歌唱を得るには、２音素連鎖の音韻（例えば、／ａ−ｉ／または／ａ−ｏ／といった組み合わせ）毎に素片を収録する必要がある。しかし、歌唱表現の素片は、単音素毎（例えば、／ａ／または／ｏ／）に独自のものを収録してもよいし、あるいはさらに数を減らして、歌唱表現１個につき歌唱表現の素片１個（例えば／ａ／だけ）だけを収録してもよい。歌唱表現毎に何個の素片を収録するかは、歌唱表現データベース作成の工数と合成歌唱の品質とのバランスを考慮してデータベース作製者が決定する。より高品質な（リアルな）合成歌唱を得るには、音韻毎に独自の歌唱表現の素片を収録する。歌唱表現データベース作成の工数を削減するには、歌唱表現１個あたりの素片の数を減らす。

歌唱表現１個につき２個以上の素片が収録される場合、素片と音韻とのマッピング（対応付け）の定義が必要である。一例としては、ある歌唱表現に関し、素片ファイル「Ｓ００００」が音韻／ａ／および／ｉ／にマッピングされ、素片ファイル「Ｓ０００１」が音韻／ｕ／、／ｅ／、および／ｏ／にマッピングされる。このようなマッピングは、歌唱表現毎に定義される。データベース１０に収録される素片の数は、歌唱表現毎に異なっていてもよい。例えば、ある歌唱表現については２個の素片が収録され、別の歌唱表現には５個の素片が収録されてもよい。

データベース１０において、歌唱表現の素片毎に基準時刻（表現基準時刻）を示す情報が記録される。この基準時刻は、歌唱表現の素片の波形における時間軸上の特徴点である。基準時刻には、歌唱表現開始時刻、歌唱表現終了時刻、ノートオンセット開始時刻、ノートオフセット開始時刻、ノートオンセット終了時刻、およびノートオフセット終了時刻のうち少なくとも１つが含まれる。

図６および図７は、各基準時刻を例示する図である。この例で、歌唱表現の素片の音声波形の時間領域は、プレ区間、オンセット区間、サステイン区間、オフセット区間、およびポスト区間に区分される。これらの区間は、例えばデータベース１０の作成者により区分される。図６はアタック基準の歌唱表現を、図７はリリース基準の歌唱表現を、それぞれ示している。

アタック基準の歌唱表現は、プレ区間、オンセット区間、およびサステイン区間に区分される。サステイン区間は、音響的特徴（例えば基本周波数）が所定の範囲内に安定する区間である。サステイン区間の基本周波数が、この歌唱表現の音高に相当する。オンセット区間は、サステイン区間の前段の区間であって、音響的特徴が時間に伴って変化する区間である。プレ区間は、オンセット区間の前段の区間である。アタック基準の歌唱表現において、プレ区間の始期が歌唱表現開始時刻である。オンセット区間の始期がノートオンセット開始時刻である。オンセット区間の終期がノートオンセット終了時刻である。サステイン区間の終期が歌唱表現終了時刻である。

リリース基準の歌唱表現は、サステイン区間、オフセット区間、およびポスト区間に区分される。オフセット区間は、サステイン区間の後段の区間であって、音響的特徴が時間に伴って変化する区間である。ポスト区間は、オフセット区間の後段の区間である。サステイン区間の始期が歌唱表現開始時刻である。サステイン区間の終期がノートオフセット開始時刻である。オフセット区間の終期がノートオフセット終了時刻である。ポスト区間の終期が歌唱表現終了時刻である。

データベース１０には、歌唱合成に適用されるパラメーターのテンプレートが記録される。ここでいうパラメーターには、例えば、モーフィング係数（適用率）の時間推移および適用時間、並びに歌唱表現のスピードが含まれる。例えば、データベース作成者により複数のテンプレートが作成され、歌唱表現毎にどのテンプレートが適用されるかデータベース作成者があらかじめ決定しておいてもよい。すなわち、どの歌唱表現に対しどのテンプレートが適用されるかあらかじめ決まっていてもよい。あるいは、テンプレートそれ自体がデータベース１０に含まれ、歌唱合成の際にどのテンプレートを使用するかユーザーが選択してもよい。

２−２．合成器２０
図８は、合成器２０の機能構成を例示する図である。合成器２０は、タイミング計算手段２１、時間伸縮マッピング手段２２、短時間スペクトル操作手段２３、合成手段２４、特定手段２５、および取得手段２６を有する。

タイミング計算手段２１は、歌唱表現の素片に対して記録された基準時刻を利用して、歌唱表現の素片と合成歌唱とを一致させるタイミング（時間軸上の位置）を計算する。例えば、タイミング計算手段２１は、アタック基準の歌唱表現の素片に対しては、ノートオンセット開始時刻（合成音基準時刻の一例）を合成歌唱の母音開始時刻に一致させる。リリース基準の歌唱表現の素片に対しては、ノートオフセット終了時刻（合成音基準時刻の別の例）を合成歌唱の母音終了時刻に一致させるか、または、歌唱表現終了時刻を合成歌唱の発音終了時刻に一致させる。

時間伸縮マッピング手段２２は、歌唱表現の素片の時間伸縮マッピングを計算する（時間軸上の伸張処理を行う）。ここでは、時間伸縮マッピング手段２２は、合成歌唱と歌唱表現の素片との時刻の対応を示すマッピング関数を計算する。ここで用いられるマッピング関数は、歌唱表現の素片の基準時刻毎に特性を区分した非線形関数である。このような関数を用いることで素片に含まれる歌唱表現の性質を極力損なうことなく合成歌唱に加算することができる。時間伸縮マッピング手段２２は、歌唱表現の素片のうち特徴部分を、特徴部分以外の部分とは異なるアルゴリズムで（すなわち異なるマッピング関数を用いて）時間伸張を行う。特徴部分とは、例えば、後述するようにアタック基準の歌唱表現においてはプレ区間およびオンセット区間である。

図９は、合成歌唱より歌唱表現の素片の方が時間長が短い例におけるマッピング関数を例示する図である。これは、例えば、特定のノートについてアタック基準の歌唱表現を適用する場合において、合成歌唱より歌唱表現の素片の方が時間長が短いときに用いられる。まず、マッピング関数の基本的な考え方を説明する。歌唱表現の素片において、プレ区間およびオンセット区間には、歌唱表現としての音響的特徴の動的変動が多く含まれている。そのため、この区間を時間伸縮すると歌唱表現の性質が変わってしまう。そこで、時間伸縮マッピング手段２２は、プレ区間およびオンセット区間は可能な限り時間伸縮を行わず、サステイン区間を引き延ばすことによって所望の時間伸縮マッピングを得る。

図９（ａ）は、サステイン区間においてマッピング関数の傾きを緩やかにする、すなわち歌唱表現の素片のデータ読み出し速度を遅くすることによって素片全体の時間を引き延ばす例を示す。図９（ｂ）は、サステイン区間においても読み出し速度は一定のまま、データ読み出し位置を何度も手前に戻すことによって素片全体の時間を引き延ばす例を示す。これは、サステイン区間では概ね定常的な音響的特徴が維持されるという特性を利用したものである。このとき、データ読出し位置を戻す時刻と戻る時刻は、音響的特徴に現れる時間的周期性の開始位置と終了位置に対応していることが好ましい。このようなデータ読出し位置を採用することにより、自然な歌唱表現が付与された合成歌唱を得ることができる。これらの開始位置および終了位置は、例えば、歌唱表現の素片の音響的特徴量の時系列に対して自己相関関数を求め、そのピークを採用することによって求めることができる。図９（ｃ）は、サステイン区間においていわゆるランダムミラーループ（Random-Mirror-Loop）を適用して素片全体の時間を引き延ばす例を示す。ランダムミラーループは、読み出しの途中でデータ読み出し速度の符号を何度も反転させることによって素片全体の時間を引き延ばす手法である。歌唱表現サンプルに本来含まれない人工的な周期性が発生しないようにするため、符号を反転する時刻は擬似乱数に基づいて決定される。

図９（ａ）〜（ｃ）はプレ区間およびオンセット区間におけるデータ読み出し速度を変えない例を示すが、ユーザーが歌唱表現のスピードを調整したい場合がある。一例としては、「しゃくり」の歌唱表現において、素片として収録されている歌唱表現よりも速くしたい場合がある。このような場合、プレ区間およびオンセット区間におけるデータ読み出し速度を変えればよい。具体的に、素片よりも速くしたい場合はデータ読み出し速度を速くする。図９（ｄ）はプレ区間およびオンセット区間におけるデータ読み出し速度を速くする例を示す。サステイン区間においてはデータ読み出し速度を遅くし、素片全体の時間を引き延ばす。

図１０は、合成歌唱より歌唱表現の素片の方が時間長が長い例におけるマッピング関数を例示する図である。これは、例えば、特定のノートについてアタック基準の歌唱表現を適用する場合において、合成歌唱より歌唱表現の素片の方が時間長が長いときに用いられる。これらの例でも、時間伸縮マッピング手段２２は、プレ区間およびオンセット区間は可能な限り時間伸縮を行わず、サステイン区間を短縮することによって所望の時間伸縮マッピングを得る。

図１０（ａ）は、サステイン区間においてマッピング関数の傾きを急にする、すなわち歌唱表現の素片のデータ読み出し速度を速くすることによって素片全体の時間を短縮する例を示す。図１０（ｂ）は、サステイン区間においても読み出し速度は一定のまま、サステイン区間の途中でデータ読み出しを打ち切ることによって素片全体の時間を短縮する例を示す。サステイン区間の音教的特徴は定常的であるので、データ読み出し速度を変えるよりもデータ読み出し速度は一定のまま単に素片の末尾を使用しない方が自然な合成歌唱が得られる。図１０（ｃ）は、合成歌唱の時間が、歌唱表現の素片のプレ区間およびオンセット区間の時間長の和よりも短い場合に用いられるマッピング関数を示す。この例では、時間伸縮マッピング手段２２は、オンセット区間の終期が合成歌唱の終期と一致するように、オンセット区間におけるデータ読み出し速度を速くする。図１０（ｄ）は、合成歌唱の時間が、歌唱表現の素片のプレ区間およびオンセット区間の時間長の和よりも短い場合に用いられるマッピング関数の別の例を示す。この例では、時間伸縮マッピング手段２２は、オンセット区間においてもデータ読み出し速度は一定のまま、オンセット区間の途中でデータ読み出しを打ち切ることによって素片全体の時間を短縮する。なお図１０（ｄ）の例では、基本周波数の決定に注意が必要である。オンセット区間の音高はノートの音高と異なることが多いため、オンセット区間の末尾を使用しないと合成歌唱の基本周波数がノートの音高に到達せず、音が外れたように（音痴に）聞こえてしまう場合がある。これを避けるためには、時間伸縮マッピング手段２２は、オンセット区間内でノートの音高に相当する基本周波数の代表値を決め、この基本周波数がノートの音高に一致するように歌唱表現の素片全体の基本周波数をシフトする。基本周波数の代表値としては、例えば、オンセット区間の末尾の基本周波数が用いられる。

図９および図１０は、アタック基準の歌唱表現に対する時間伸縮マッピングを例示するものであったが、リリース基準の歌唱表現に対する時間伸縮マッピングも考え方は同じである。すなわち、リリース基準の歌唱表現においてはオフセット区間およびポスト区間が特徴部分であり、他の部分とは異なったアルゴリズムで時間伸張マッピングが行われる。

短時間スペクトル操作手段２３は、歌唱表現の素片の短時間スペクトルをいくつかの成分（音響的特徴）に分解する。短時間スペクトル操作手段２３は、分解により得られた成分の一部を、合成歌唱の同じ成分に対してモーフィングすることで、歌唱表現が付与された合成歌唱の短時間スペクトルの系列を得る。短時間スペクトル操作手段２３は、歌唱表現の素片の短時間スペクトルを、例えば以下のうち１つ以上の成分に分解する。
（ａ）スペクトル包絡
（ｂ）スペクトル包絡概形
（ｃ）位相スペクトル包絡
（ｄ）スペクトル包絡（または調波振幅）の時間的微細変動
（ｅ）位相スペクトル包絡（または調波位相）の時間的微細変動
（ｆ）基本周波数
なお、歌唱表現の素片と合成歌唱との間でこれらの成分を独立にモーフィングするためには、合成歌唱に対しても上記の分解が行われる必要があるが、歌唱合成器においては合成の途中でこれらの情報が生成されている場合があるので、それを利用すればよい。以下に各成分を説明する。

スペクトル包絡は、振幅スペクトルの概形であり、主に音韻と個人性の知覚に関する。スペクトル包絡の推定法は多数提案されており、たとえば低次のケプストラム係数による推定が利用できる。本実施形態においてスペクトル包絡を他の成分と独立して扱うことには特別な意義がある。すなわち、仮に、音韻または個人性が合成歌唱とは異なる歌唱表現の素片を使用しても、スペクトル包絡に関するモーフィング適用率をゼロとすれば、合成歌唱の音韻および個人性が１００％現れる。そのため、音韻または個人性が異なる歌唱表現の素片（例えば、本人の他音韻または全くの他人の素片）を転用することができる。なお、意図的に音韻や個人性を変化させるような歌唱表現において、その程度を制御するためにこの成分は独立にモーフィングされてもよい。

スペクトル包絡概形は、振幅スペクトル包絡をさらに大まかに表現した概形であり、主に声の明るさに関する。スペクトル包絡概形は様々な方法で求めることが可能であり、例えば、スペクトル包絡よりもさらに低次のケプストラム係数によって求めることができる。スペクトル包絡とは異なり、スペクトル包絡概形には音韻や個人性の情報はほとんど含まれない。そこで、スペクトル包絡のモーフィングを行わない場合であっても、スペクトル包絡概形成分のみモーフィングを行うことで、歌唱表現に含まれる声の明るさとその時間的な動きを保持することができる。

位相スペクトル包絡は、位相スペクトルの概形である。位相スペクトル包絡は様々な方法で求めることが可能である。例えば、信号の周期に同期するフレーム間隔における短時間スペクトルの分析をし、その後、各調波成分における位相の値のみを採用し、この段階でアンラッピングし、さらに調波成分以外の周波数（調波と調波の間）においては最近傍補間や線形または高次の曲線補間などすることで、単なる位相スペクトルではなく位相スペクトル包絡を得ることができる。

図１１は、スペクトル包絡およびスペクトル包絡概形の関係を例示する図である。スペクトル包絡の時間的変動および位相スペクトル包絡の時間的変動は、ごく短時間のうちの音声スペクトルにおいて高速に変動する成分に相当し、濁声や嗄声のガサガサ感に相当する。スペクトル包絡の時間的微細変動は，これらの推定値に対して時間軸上での差分をとるか、一定時間区間内で平滑化したこれらの値と注目フレームにおける値との差分をとることで得ることができる。位相スペクトル包絡の時間的変動は、位相スペクトル包絡に対して時間軸上での差分をとるか、または一定時間区間内で平滑化したこれらの値と注目フレームにおける値との差分をとることでその微細変動を得ることができる。これらの処理はいずれもある種の高域通過フィルタに相当する。

音響的特徴としてスペクトル包絡およびスペクトル包絡概形の両方が用いられる場合、実際のモーフィングには、スペクトル包絡そのもの（例えば図１１）が用いられるのではなく、
（ａ’）スペクトル包絡概形とスペクトル包絡との差分、および
（ｂ）スペクトル包絡概形
の２つの音響的特徴が用いられる。例えば図１１のようにスペクトル包絡とスペクトル包絡概形とを分離すると、スペクトル包絡にスペクトル包絡概形の情報まで含まれてしまうので、両者を分離して扱うためである。このように分離すると、絶対的な音量に関する情報はスペクトル包絡概形に含まれる。人間が発する声の強さを変化させるとき、個人性や音韻性はある程度保つことができる一方、音量とスペクトルの全体的な傾斜が同時に変化することが多いので、スペクトル包絡概形に音量の情報を含めるのは自然なことと言える。

なお、スペクトル包絡および位相スペクトル包絡に代えて、調波振幅および調波位相が用いられてもよい。スペクトル包絡および位相スペクトル包絡を用いるか、または調波振幅および調波位相を用いるかの選択は、合成方式の選択に依存する。パルス列の合成または時変フィルタによる合成が行われる場合はスペクトル包絡および位相スペクトル包絡が用いられ、ＳＭＳ、ＳＰＰ、またはＷＢＨＳＭのように正弦波モデルを基礎とする合成方式では調波振幅および調波位相を用いる。

基本周波数は、主に音高の知覚に関する。他の音響的特徴と異なり、変換の適用率による単純な補間で基本周波数を求めることはできない。なぜならば、歌唱表現の素片におけるノートの音高と合成歌唱のノートの音高は一般に異なっており、歌唱表現の素片の基本周波数と合成歌唱の基本周波数を単純に補間した基本周波数で合成しても、合成されるべき音高とはまったく異なった音高になってしまうためである。そこで本実施形態において、短時間スペクトル操作手段２３は、まず歌唱表現の素片に付与されたノートの音高が合成歌唱のノートの音高に一致するように、歌唱表現の素片全体の基本周波数を一定量シフトする。この処理は、歌唱表現の素片の各時刻の基本周波数を合成音に一致させるものではなく、歌唱表現の素片に含まれる基本周波数の動的な変動は保持される。

図１２は、歌唱表現の素片の基本周波数をシフトする処理を例示する図である。図１２において、破線がシフト前の（すなわちデータベース１０に収録された）歌唱表現の素片の特性を、実線がシフト後の特性を、それぞれ示す。この処理では、プレ区間およびオンセット区間における基本周波数の変動が維持されたまま、サステイン区間の基本周波数が所望の周波数となるよう、素片の特性曲線全体がそのままシフトされる。歌唱表現の適用率のパラメーターを基本周波数に対して適用する場合、短時間スペクトル操作手段２３は、この処理により得られた基本周波数と通常歌唱合成における基本周波数とを各時刻で補間する。

合成手段２４は、合成歌唱と歌唱表現の素片とを合成し、歌唱表現が付与された合成歌唱を得る。合成歌唱と歌唱表現の素片とを合成し、最終的に時間領域の波形として得る方法には種々のものが存在するが、これらの方法は入力とするスペクトルの表現方法によって２種類に大別できる。一つは調波成分に基づく方法で、もう一つはスペクトル包絡に基づく方法である。

調波成分に基づく合成方法としては、例えばＳＭＳが知られている（Serra, Xavier, and Julius Smith. "Spectral modeling synthesis: A sound analysis/synthesis system based on a deterministic plus stochastic decomposition." Computer Music Journal 14.4 (1990): 12-24.）。有声音のスペクトルは基本周波数とそのおおよそ整数倍の周波数における正弦波成分の周波数、振幅、および位相によって表現される。ＳＭＳによってスペクトルを生成し、逆フーリエ変換すると、窓関数が乗算された数周期分の波形が得られる。窓関数を除算したうえで合成結果の中心付近のみを別の窓関数で切り出し、出力結果バッファに重畳加算する。この処理をフレーム間隔ごとに繰り返すことで長時間の連続的な波形が得られる。

スペクトル包絡に基づく合成方法としては、例えばＮＢＶＰＭ（Bonada, Jordi. "High quality voice transformations based on modeling radiated voice pulses in frequency domain." Proc. Digital Audio Effects (DAFx). 2004.）が知られている。この例では、スペクトルは、振幅スペクトル包絡と位相スペクトル包絡によって表現され、基本周波数や調波成分の周波数情報は含まれない。このスペクトルを逆フーリエ変換すると１周期分の声帯振動とそれに対する声道応答に相当するパルス波形が得られる。これを出力バッファに重畳加算する。このとき、隣接するパルス同士のスペクトルにおける位相スペクトル包絡がおおよそ同一の値であれば、出力バッファに重畳加算する時間間隔の逆数が最終的な合成音の基本周波数となる。

歌唱音声と歌唱表現との合成には、周波数領域で行う方法と時間領域で行う方法がある。いずれの方法が用いられる場合でも、歌唱音声と歌唱表現との合成は、基本的には以下の手順で行われる。まず、振幅および位相の時間的微細変動成分以外の成分について、歌唱音声と歌唱表現とをモーフィングする。次に、各調波成分（またはその周辺周波数帯域）の振幅および位相の時間的微細変動成分を加算することにより、歌唱表現を付与した合成歌唱を生成する。

なお、歌唱音声と歌唱表現との合成の際、時間的微細変動成分についてのみ、それ以外の成分とは異なる時間伸縮マッピングが用いられてもよい。これは、例えば以下の２つの場合において有効である。

第１には、ユーザーが意図して歌唱表現のスピードを変化させた場合である。時間的微細変動成分は、その変動の速さや周期性が「ガサガサ」、「ガリガリ」、または「シュワシュワ」といった声の質感の性質と深く関わるものであり、この変動速度を変化させてしまうと声の質感の性質が変わってしまう。例えば、図７に示したような末尾で音高が下がる歌唱表現においてユーザーがそのスピードを速める指示を入力したとき、ユーザーは具体的には、音高を下げつつ、それに伴う音色や質感の変化の速度を速める意図を有しているものの、歌唱表現の質感の性質そのものを変化させることは意図していないと推察される。したがって、ユーザーの意図どおりの歌唱表現を得るには、基本周波数およびスペクトル包絡等の成分については線形時間伸縮によってポスト区間のデータ読出し速度を速めればよいが、時間的微細変動成分については適当な周期でループさせたり（図９（ｂ）のサステイン区間と同様）、ランダムミラーループ（図９（ｃ）のサステイン区間と同様）させたりする。

第２には、時間的微細変動成分の変動周期が基本周波数に依存すべき歌唱表現を合成する場合である。調波成分の振幅および位相に周期的な変調を有する歌唱表現においては、振幅および位相の変動周期に基本周波数との相関を持たせた方が自然に聞こえる場合があることが経験的に分かっている。このような質感を有する歌唱表現を、例えば「ラフ」または「グロウル」という。振幅および位相の変動周期に基本周波数との相関を持たせる手法としては、歌唱表現波形を合成する際に適用される基本周波数の変換比と同じ比率を時間的微細変動成分のデータ読出し速度に適用する手法を用いることができる。

合成手段２４は、合成歌唱と歌唱表現波形とを合成する。すなわち、合成手段２４は、合成歌唱に対し歌唱表現を付与する。合成歌唱と歌唱表現波形との合成は、上述の音響的特徴（ａ）〜（ｆ）のうち少なくとも１つを用いて行われる。音響的特徴（ａ）〜（ｆ）のうちどの特徴を用いるかは、歌唱表現毎に設定される。例えば、音楽用語でいうクレッシェンドまたはデクレッシェンドという歌唱表現は、主に発声の強さの時間的な変化に関係する。したがって、モーフィングの対象とすべき主要な音響的特徴はスペクトル包絡概形である。音韻および個人性は、クレッシェンドまたはデクレッシェンドを構成する主要な音響的特徴ではないと考えられる。したがって、スペクトル包絡のモーフィング適用量（係数）がゼロとなるようにすれば、ただ１人の歌唱者のただ１個の音韻の歌唱から収録されたクレッシェンドの歌唱表現の素片を、あらゆる歌唱者のあらゆる音韻に対して適用することもできる。別の例で、ビブラートのような歌唱表現では、基本周波数が周期的に変動し、またそれに同期して音量も変動する。したがって、モーフィングの対象とすべき音響的特徴は、基本周波数およびスペクトル包絡概形である。

また、スペクトル包絡は音韻に関連した音響的特徴であるので、スペクトル包絡をモーフィングの対象から除外することにより、音韻によらない歌唱表現を付与することができる。例えば、ある特定の音韻（例えば／ａ／）についてのみしか素片が収録されていない歌唱表現も、スペクトル包絡をモーフィングの対象から除外することにより、特定の音韻以外の音韻の合成歌唱に対してもその歌唱表現の素片をモーフィングすることができる。

このように、歌唱表現の種類毎に、モーフィングの対象とすべき音響的特徴は限定することができる。このようにモーフィングの対象とする音響的特徴を限定してもよいし、歌唱表現の種類によらず全ての音響的特徴をモーフィングの対処としてもよい。多くの音響的特徴をモーフィングの対象とすると元の歌唱表現の素片に近い合成歌唱が得られるのでその部分の自然性は向上する。しかし、歌唱表現を付与しない部分との音質の差は大きくなってしまうので、歌唱全体を通して聞いたときに違和感が出る可能性もある。したがって、モーフィングする音響的特徴をテンプレート化する際には、自然性と違和感とのバランスを考慮してモーフィングの対象となる音響的特徴を決定する。

図１３は、歌唱音声と歌唱表現の素片とを周波数領域で合成するための、合成手段２４のより詳細な機能構成を例示する図である。この例で、合成手段２４は、スペクトル生成手段２４０１、逆フーリエ変換手段２４０２、合成窓適用手段２４０３、および重畳加算手段２４０４を有する。

図１４は、合成器２０の動作を例示するシーケンスチャートである。ステップＳ１４００において、特定手段２５は、データベース１０に含まれる素片データベースおよび歌唱表現データベースの中から、合成歌唱の生成に用いられる素片、および歌唱表現の付与に用いられる素片を特定する。スペクトル生成手段２４０１は、ＵＩ部３０から供給される情報に基づいてこれらの素片を特定する。

ステップＳ１４０１において、取得手段２６は、合成歌唱の生成に用いられる音響的特徴の時間変化を取得する。ここで取得される音響的特徴は、スペクトル包絡Ｈ（ｆ）、スペクトル包絡概形Ｇ（ｆ）、位相スペクトル包絡Ｐ（ｆ）、スペクトル包絡の時間的微細変動Ｉ（ｆ）、位相スペクトル包絡の時間的微細変動Ｑ（ｆ）、および基本周波数Ｆ０のうち少なくとも１つを含む。取得手段２６は、例えば、ステップＳ１４００において特定された素片に対して処理を行った短時間スペクトル操作手段２３からこれらの音響的特徴を取得する。

ステップＳ１４０２において、取得手段２６は、歌唱表現の付与に用いられる音響的特徴の時間変化を取得する。ここで取得される音響的特徴は、合成歌唱の生成に用いられるものと同じである。合成歌唱の音響的特徴と歌唱表現の音響的特徴とを区別するときは、合成歌唱の音響的特徴に添字ｖを、歌唱表現の音響的特徴に添字ｐを、歌唱表現が付与された合成歌唱に添字ｖｐを、それぞれ付与する。取得手段２６は、例えば、ステップＳ１４００において特定された素片に対して処理を行った短時間スペクトル操作手段２３からこれらの音響的特徴を取得する。

ステップＳ１４０３において、取得手段２６は、付与される歌唱表現の素片に対して設定された基準時刻を取得する。ここで取得される基準時刻は、既に説明したように、歌唱表現開始時刻、歌唱表現終了時刻、ノートオンセット開始時刻、ノートオフセット開始時刻、ノートオンセット終了時刻、およびノートオフセット終了時刻のうち少なくとも１つを含む。

ステップＳ１４０４において、タイミング計算手段２１は、歌唱表現の素片に対して記録された基準時刻を利用して、歌唱表現の素片とノート（合成歌唱）とを一致させるタイミング（時間軸上の位置）を計算する。

ステップＳ１４０５において、時間伸縮マッピング手段２２は、対象となるノートの時間長と歌唱表現の素片の時間長との関係に応じて、歌唱表現の素片に対し時間伸縮マッピングを施す。

ステップＳ１４０６において、時間伸縮マッピング手段２２は、歌唱音声の基準周波数Ｆ０ｖと、歌唱表現の基準周波数Ｆ０ｐとが一致するように（すなわち両者の音高が一致するように）、歌唱表現の素片の音高をシフトする。

ステップＳ１４０７において、スペクトル生成手段２４０１は、各音響的特徴について、合成歌唱および歌唱表現のそれぞれにモーフィング係数を乗算してから加算する。一例として、スペクトル包絡概形Ｇ（ｆ）、スペクトル包絡Ｈ（ｆ）、およびスペクトル包絡の時間的微細変動Ｉ（ｆ）について、
Ｇｖｐ（ｆ）＝（１−ａＧ）Ｇｖ（ｆ）＋ａＧ・Ｇｐ（ｆ） …（１）
Ｈｖｐ（ｆ）＝（１−ａＨ）Ｈｖ（ｆ）＋ａＨ・Ｈｐ（ｆ） …（２）
Ｉｖｐ（ｆ）＝（１−ａＩ）Ｉｖ（ｆ）＋ａＩ・Ｉｐ（ｆ） …（３）
により合成歌唱および歌唱表現をモーフィングする。なお、ａＧ、ａＨ、およびａＩは、それぞれ、スペクトル包絡概形Ｇ（ｆ）、スペクトル包絡Ｈ（ｆ）、およびスペクトル包絡の時間的微細変動Ｉ（ｆ）に対するモーフィング係数である。これらはそれぞれ独自に設定されてもよい。

ステップＳ１４０８において、スペクトル生成手段２４０１は、音響的特徴を加算することにより得られたスペクトルを出力する。スペクトルが入力されると、逆フーリエ変換手段２４０２は、入力されたスペクトルに対し逆フーリエ変換を施し（ステップＳ１４０９）、時間領域の波形を出力する。時間領域の波形が入力されると、合成窓適用手段２４０３は、逆入力された波形に対し所定の窓関数を適用し（ステップＳ１４１０）、その結果を出力する。重畳加算手段２４０４は、窓関数が適用された波形を、重畳加算する（ステップＳ１４１１）。この処理をフレーム間隔毎に繰り返すことで長時間の連続的な波形が得られる。

周波数領域で合成する方法は、複数の合成処理を実行せずに済むため計算量を抑制することができるという利点がある。ただし、振幅および位相の微細変動成分をモーフィングするためには、歌唱合成手段（図１３では図示略）もこれらの音響特徴量を用いるものでなければならない。

図１５は、歌唱音声と歌唱表現の素片とを時間領域で合成するための、合成手段２４のより詳細な機能構成を例示する図である。この例で、合成手段２４は、スペクトル生成手段２４１１、逆フーリエ変換手段２４１２、合成窓適用手段２４１３、重畳加算手段２４１４、歌唱合成手段２４１５、乗算手段２４１６、乗算手段２４１７、および加算手段２４１８を有する。

この例で、スペクトル生成手段２４１１には、合成歌唱のスペクトル包絡Ｈ（ｆ）、スペクトル包絡概形Ｇ（ｆ）、位相スペクトル包絡Ｐ（ｆ）、および基本周波数Ｆ０、並びに歌唱表現の素片のスペクトル包絡の時間的微細変動Ｉ（ｆ）および位相スペクトル包絡の時間的微細変動Ｑ（ｆ）が入力される。スペクトル生成手段２４１１は、入力された音響的特徴からスペクトルを得る。

逆フーリエ変換手段２４１２は、入力されたスペクトルに対し逆フーリエ変換を施し、時間領域の波形を得る。合成窓適用手段２４１３は、逆フーリエ変換により得られた波形に対し所定の窓関数を適用する。重畳加算手段２４１４は、窓関数が適用された波形を、重畳加算する。この処理をフレーム間隔毎に繰り返すことで長時間の連続的な波形が得られる。この波形は、基本周波数が合成歌唱の基本周波数にシフトされた、歌唱表現の素片の波形を示す。

歌唱合成手段２４１５には、合成歌唱のスペクトル包絡Ｈ（ｆ）、スペクトル包絡概形Ｇ（ｆ）、位相スペクトル包絡Ｐ（ｆ）、および基本周波数Ｆ０が入力される。歌唱合成手段２４１５は、例えば公知の手法を用いて、これらの音響的特徴から合成歌唱の時間領域の波形を生成する。

乗算手段２４１６は、重畳加算手段２４１４の出力に対し、微細変動成分の適用係数ａを乗算する。乗算手段２４１７は、歌唱合成手段２４１５の出力に対し、係数（１−ａ）を乗算する。加算手段２４１８は、乗算手段２４１６の出力および乗算手段２４１７の出力を加算する。

時間領域で合成する方法は、微細変動成分については歌唱表現の波形を合成する部分（図１５の右半分）のみで扱う。この方法によれば、歌唱合成手段２４１５は振幅および位相の微細変動成分を用いる方式のものである必要はない。この場合、歌唱合成手段２４１５において、例えば、ＳＰＰ（Spectral Peak Processing）（Bonada, Jordi, Alex Loscos, and H. Kenmochi. "Sample-based singing voice synthesizer by spectral concatenation." Proceedings of Stockholm Music Acoustics Conference. 2003.）という手法を用いることができる。ＳＰＰでは、時間的微細変動ではなく調波ピーク周辺のスペクトル形状によって声の質感に相当する成分が合成される。このような手法を採用した既存の歌唱合成手段に対し歌唱表現を付加する場合には、時間領域で合成する方法を採用する方が、既存の歌唱合成手段をそのまま使用できる点において簡便である。なお、時間領域で合成する場合、歌唱合成と歌唱表現合成とで位相が異なっていると、波形が互いに打ち消しあったり、うなりが生じたりしてしまう。このような問題が生じないようにするには、位相スペクトル包絡が双方の合成で一致し、かつ周期ごとの音声パルスの基準位置（いわゆるピッチマーク）が一致する必要がある。

なお、音声を短時間フーリエ変換などで分析して得られる位相スペクトルの値は一般にθ＋ｎ２πすなわち整数ｎに対して不定性を持っていることから、位相スペクトル包絡のモーフィングには困難を伴う場合がある。位相スペクトル包絡が音の知覚に与える影響は他の音響的特徴成分に比べて小さいので、位相スペクトル包絡は必ずしも補間しなくてもよく、任意の値を与えてもよい。最も簡便かつ自然性の高い位相スペクトル包絡の決定方法は、振幅スペクトル包絡から計算される最小位相を用いる方法である。この場合、図１３または図１５のＨ（ｆ）およびＧ（ｆ）から、まず微細変動成分を除くスペクトル包絡Ｈ（ｆ）＋Ｇ（ｆ）を求め、これに対応する最小位相を求めてＰ（ｆ）とする。任意の振幅スペクトル包絡に対応する最小位相を計算する方法としては、例えばケプストラムを介する方法（Oppenheim, Alan V., and Ronald W. Schafer. Discrete-time signal processing. Pearson Higher Education, 2010.）を用いることができる。

２−３．ＵＩ部３０
２−３−１．機能構成
図１６は、ＵＩ部３０の機能構成を例示する図である。ＵＩ部３０は、表示手段３１、受け付け手段３２、および音出力手段３３を有する。表示手段３１は、ＵＩの画面を表示する。受け付け手段３２は、ＵＩを介して操作を受け付ける。音出力手段３３は、ＵＩを介して受け付けられた操作に応じて、合成歌唱を出力する。表示手段３１により表示されるＵＩは、後述するように、例えば、合成歌唱に付与される歌唱表現の合成に用いられる複数のパラメーターの値を同時に変更するための画像オブジェクトを含む。受け付け手段は、この画像オブジェクトに対する操作を受け付ける。

２−３−２．ＵＩ例（概要）
図１７は、ＵＩ部３０において用いられるＧＵＩを例示する図である。このＧＵＩは、一実施形態に係る歌唱合成プログラムにおいて使用される。このＧＵＩは、楽譜表示領域５１１、ウインドウ５１２、およびウインドウ５１３を含む。楽譜表示領域５１１は、歌唱合成に係る楽譜が表示される領域であり、この例ではいわゆるピアノロールに相当する形式で楽譜が表される。楽譜表示領域５１１内において横軸は時間を、縦軸は音階を、それぞれ表す。この例では、ノート５１１１〜５１１５の５つの音符に相当する画像オブジェクトが表示されている。各ノートには、歌詞が割り当てられる。この例では、ノート５１１１〜５１１５に対し、「I」、「love」、「you」、「so」、および「much」という歌詞が割り当てられている。ユーザーはピアノロール上をクリックすることにより、楽譜上の任意の位置に新たなノートを追加することができる。楽譜上に設定されたノートに対しては、いわゆるドラッグ＆ドロップ等の操作により、ノートの時間軸上の位置、音階、または長さ等の属性を編集することができる。歌詞は、あらかじめ一曲分の歌詞が入力され、それが所定のアルゴリズムに従って各ノートに自動的に割り当てられてもよいし、ユーザーが各ノートに手動で歌詞を割り当ててもよい。

ウインドウ５１２およびウインドウ５１３は、それぞれ、楽譜表示領域５１１において選択された１以上のノートに対してアタック基準の歌唱表現およびリリース基準の歌唱表現を付与するための操作子を示す画像オブジェクトが表示される領域である。楽譜表示領域５１１におけるノートの選択は所定の操作（例えば、マウスの左ボタンクリック）により行われる。

２−３−３．ＵＩ例（歌唱表現の選択）
図１８は、歌唱表現を選択するＵＩを例示する図である。このＵＩは、ポップアップウインドウを用いる。歌唱表現を付与したいノートに対してユーザーが所定の操作（例えば、マウスの右ボタンクリック）を行うと、ポップアップウインドウ５１４が表示される。ポップアップウインドウ５１４は、木構造に組織化された歌唱表現のうち第１階層を選択するためのウインドウであり、複数の選択肢の表示を含む。ポップアップウインドウ５１４に含まれる複数の選択肢のうち位一の選択肢に対しユーザーが所定の操作（例えば、マウスの左ボタンクリック）を行うと、ポップアップウインドウ５１５が表示される。ポップアップウインドウ５１５は、組織化された歌唱表現の第２階層を選択するためのウインドウである。ポップアップウインドウ５１５に対しユーザーが一の選択肢を選択する操作を行うと、ポップアップウインドウ５１６が表示される。ポップアップウインドウ５１６は、組織化された歌唱表現の第３階層を選択するためのウインドウである。ＵＩ部３０は、図１８のＵＩを介して選択された歌唱表現を特定する情報を合成器２０に出力する。こうして、ユーザーは、所望の歌唱表現を組織化された構造の中から選択することができる。

なお、楽譜表示領域５１１において、ノート５１１１の周辺にはアイコン５１１６およびアイコン５１１７が表示される。アイコン５１１６は、アタック基準の歌唱表現の編集を指示するためのアイコン（画像オブジェクトの一例）であり、アイコン５１１７は、リリース基準の歌唱表現の編集を指示するためのアイコンである。例えば、ユーザーがマウスポインターをアイコン５１１６に当てた状態でマウスの右ボタンをクリックすると、アタック基準の歌唱表現を選択するためのポップアップウインドウ５１４が表示される。

図１９は、歌唱表現を選択するＵＩの別の例を示す図である。この例では、ウインドウ５１２において、アタック基準の歌唱表現を選択するための画像オブジェクトが表示される。詳細には、ウインドウ５１２には、複数のアイコン５１２１が表示される。各アイコンは、それぞれ歌唱表現を代表するものである。この例ではデータベース１０には１０種類の歌唱表現が収録されており、ウインドウ５１２には１０種類のアイコン５１２１が表示されている。ユーザーは、楽譜表示領域５１１において対象となる１以上のノートを選択した状態で、ウインドウ５１２のアイコン５１２１の中から、付与する歌唱表現に対応するアイコンを選択する。リリース基準の歌唱表現についても同様に、ユーザーは、ウインドウ５１３においてアイコンを選択する。ＵＩ部３０は、図１９のＵＩを介して選択された歌唱表現を特定する情報を合成器２０に出力する。合成器２０はこの情報に基づいて歌唱表現が付与された合成歌唱を生成する。ＵＩ部３０の音出力手段３３は、生成された合成歌唱を出力する。

２−３−４．ＵＩ例（歌唱表現のパラメーター入力）
図１９の例において、ウインドウ５１２には、アタック基準の歌唱表現の程度を変化させるためのダイヤル５１２２の画像オブジェクトが表示される。ダイヤル５１２２は、合成歌唱に付与される歌唱表現の付与に用いられる複数のパラメーターの値を同時に変更するための単一の操作子の一例である。さらに、ダイヤル５１２２は、ユーザーの操作に応じて変位する操作子の一例である。この例では、単一のダイヤル５１２２の操作によって、歌唱表現に係る複数のパラメーターが同時に調整される。リリース基準の歌唱表現の程度も、同様にウインドウ５１３に表示されるダイヤル５１３２を介して調整される。歌唱表現に係る複数のパラメーターは、例えば、各音響的特徴のモーフィング係数の最大値である。モーフィング係数の最大値とは、各ノートにおいて時間の経過に伴ってモーフィング係数が変化する際の最大値である。図２の例では、アタック基準の歌唱表現はノートの始期においてモーフィング係数が最大値をとり、リリース基準の歌唱表現はノートの終期においてモーフィング係数が最大値をとっている。ＵＩ部３０は、ダイヤル５１２２の基準位置からの回転角に応じてモーフィング係数の最大値を変化させるための情報（例えばテーブル）を有している。

図２０は、ダイヤル５１２２の回転角とモーフィング係数の最大値とを対応させるテーブルを例示する図である。このテーブルは、各歌唱表現について定義される。複数の音響的特徴（スペクトル包絡Ｈ（ｆ）、スペクトル包絡概形Ｇ（ｆ）、位相スペクトル包絡Ｐ（ｆ）、スペクトル包絡の時間的微細変動Ｉ（ｆ）、位相スペクトル包絡の時間的微細変動Ｑ（ｆ）、および基本周波数Ｆ０）の各々について、モーフィング係数の最大値がダイヤル５１２２の回転角と対応付けて定義される。例えば、回転角が３０°のとき、スペクトル包絡Ｈ（ｆ）のモーフィング係数の最大値はゼロであり、スペクトル包絡概形Ｇ（ｆ）のモーフィング係数の最大値は０．３である。この例では回転角の離散的な値に対してのみ各パラメーターの値が定義されているが、テーブルで定義されていない回転角に対しては補間により各パラメーターの値が特定される。

ＵＩ部３０は、ユーザーの操作に応じてダイヤル５１２２の回転角を検知する。ＵＩ部３０は、検知した回転角に対応するモーフィング係数の最大値を、図２０のテーブルを参照して特定する。ＵＩ部３０は、特定されたモーフィング係数の最大値を、合成器２０に出力する。なお、歌唱表現に係るパラメーターはモーフィング係数の最大値に限定されない。モーフィング係数の増加率または減少率等、他のパラメーターが調整されてもよい。なお、ユーザーは、どの音符のどの歌唱表現部分を編集対象とするかを、楽譜表示領域５１１上で選択する。このとき、ＵＩ部３０は、選択された歌唱表現に対応するテーブルを、ダイヤル５１２２の操作に応じて参照されるテーブルとして設定する。

図２１は、歌唱表現に係るパラメーターを編集するためのＵＩの別の例を示す図である。この例では、楽譜表示領域５１１において選択されたノートに対する歌唱表現の音響的特徴に適用されるモーフィング係数の時間変化を示すグラフの形状が編集される。編集の対象となる歌唱表現は、アイコン６１６により指定される。アイコン６１１は、アタック基準の歌唱表現においてモーフィング係数が最大値をとる期間の始期を指定するための画像オブジェクトである。アイコン６１２は、アタック基準の歌唱表現においてモーフィング係数が最大値をとる期間の終期を指定するための画像オブジェクトである。アイコン６１３は、アタック基準の歌唱表現におけるモーフィング係数の最大値を指定するための画像オブジェクトである。ユーザーは、アイコン６１１〜６１３をドラッグ＆ドロップ等の操作により移動することにより、モーフィング係数が最大値をとる期間、およびモーフィング係数の最大値を調整することができる。ダイヤル６１４は、歌唱表現の適用開始からモーフィング係数が最大に達するまでの曲線の形状（モーフィング係数の増加率のプロファイル）を調整するための画像オブジェクトである。ダイヤル６１４を操作すると、歌唱表現の適用開始からモーフィング係数が最大に達するまでの曲線が、例えば下に凸なプロファイルから線形なプロファイルを経て、上に凸なプロファイルに変化する。ダイヤル６１５は、モーフィング係数の最大期間の終期から歌唱表現の適用終了までの曲線の形状（モーフィング係数の減少率のプロファイル）を調整するための画像オブジェクトである。ユーザーは、ダイヤル６１４および６１５を操作することにより、ノート内の時間経過に伴うモーフィング係数の変化曲線の形状を調整することができる。ＵＩ部３０は、図２１のグラフにより特定されるパラメーターを合成器２０に出力する。合成器２０は、これらのパラメーターを用いて制御された歌唱表現の素片が加味された合成歌唱を生成する。「パラメーターを用いて制御された歌唱表現の素片が加味された合成歌唱」とは、例えば図１４の処理により処理された素片が加算された合成歌唱をいう。既に説明したようにこの加算は時間領域で行われてもよいし周波数領域で行われてもよい。ＵＩ部３０の音出力手段３３は、生成された合成歌唱を出力する。

３．変形例
本発明は上述の実施携帯に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち２つ以上のものが組み合わせて用いられてもよい。

歌唱表現が付与される対象は歌唱音声に限定されず、歌唱を伴わない音声であってもよい。すなわち歌唱表現は音声表現であってもよい。また、音声表現が付与される対象となる音はコンピュータ装置により合成された合成音に限定されず、実際の人間の歌唱音声であってもよい。さらに、歌唱表現が付与される対象は、人間の声を基にしたものではない音であってもよい。

音声合成装置１の機能構成は実施形態で例示したものに限定されない。実施形態で例示した機能の一部は省略されてもよい。例えば、音声合成装置１は、タイミング計算手段２１、時間伸縮マッピング手段２２、短時間スペクトル操作手段２３のうち少なくとも一部の機能が省略されてもよい。

音声合成装置１のハードウェア構成は実施形態で例示したものに限定されない。要求される機能を実現できるものであれば、音声合成装置１はどのようなハードウェア構成を有していてもよい。例えば、音声合成装置１は、ネットワーク上のサーバ装置と協働するクライアント装置であってもよい。すなわち、音声合成装置１としての機能は、ネットワーク上のサーバ装置およびローカルのクライアント装置に分散されてもよい。

ＣＰＵ１０１等により実行されるプログラムは、光ディスク、磁気ディスク、半導体メモリーなどの記憶媒体により提供されてもよいし、インターネット等の通信回線を介してダウンロードされてもよい。

１…音声合成装置、１０…データベース、２０…合成器、２１…タイミング計算手段、２２…時間伸縮マッピング手段、２３…短時間スペクトル操作手段、２４…合成手段、２５…特定手段、２６…取得手段、３０…ＵＩ部、３１…表示手段、３２…受け付け手段、３３…音出力手段、１０１…ＣＰＵ、１０２…メモリー、１０３…ストレージ、１０４…入出力ＩＦ、１０５…ディスプレイ、１０６…入力装置、９１１…楽譜表示領域、９１２…ウインドウ、９１３…ウインドウ、２４０１…スペクトル生成手段、２４０２…逆フーリエ変換手段、２４０３…合成窓適用手段、２４０４…重畳加算手段、２４１１…スペクトル生成手段、２４１２…逆フーリエ変換手段、２４１３…合成窓適用手段、２４１４…重畳加算手段、２４１５…歌唱合成手段、２４１６…乗算手段、２４１７…乗算手段、２４１８…加算手段

Claims

合成音に付与される音声表現の素片の合成に用いられる複数のパラメーターの値を同時に変更するための単一の操作子を示す第１画像オブジェクトを表示するステップと、
前記第１画像オブジェクトに対する操作を受け付けるステップと、
前記操作に応じて値が変更された前記複数のパラメーターを用いて制御された音声表現の素片が加味された前記合成音を出力するステップと
を有する音声合成方法。
前記第１画像オブジェクトは、合成音における表現開始時刻を基準として付与される第１音声表現の素片の合成に用いられる複数のパラメーターの値を同時に変更するための単一の操作子を示し、
前記合成音における表現終了時刻を基準として付与される第２音声表現の素片の合成に用いられる複数のパラメーターの値を同時に変更するための単一の操作子を示す第２画像オブジェクトを表示するステップと、
前記操作に応じて値が変更された前記複数のパラメーターを用いて合成された前記第１音声表現および前記第２音声表現の素片が加味された前記合成音を出力するステップと
を有する請求項１に記載の音声合成方法。
複数の音声表現の中から一の音声表現を選択するための第３画像オブジェクトを表示するステップと、
前記第３画像オブジェクトに対する操作を受け付けるステップと
を有し、
前記合成音を出力するステップにおいて、前記第３画像オブジェクトに対する操作に応じて選択された音声表現の素片が加味された前記合成音が出力される
請求項１または２に記載の音声合成方法。
前記第１画像オブジェクトは、ユーザーの操作に応じて変位する操作子を表し、
前記複数の音声表現の各々に対し、前記変位と前記複数のパラメーターの変化とを対応付ける情報を参照して前記複数のパラメーターの値を変化させるステップを有する
請求項１ないし３のいずれか一項に記載の音声合成方法。