JP2018077280A - 音声合成方法 - Google Patents

音声合成方法 Download PDF

Info

Publication number
JP2018077280A
JP2018077280A JP2016217377A JP2016217377A JP2018077280A JP 2018077280 A JP2018077280 A JP 2018077280A JP 2016217377 A JP2016217377 A JP 2016217377A JP 2016217377 A JP2016217377 A JP 2016217377A JP 2018077280 A JP2018077280 A JP 2018077280A
Authority
JP
Japan
Prior art keywords
expression
singing
song
time
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016217377A
Other languages
English (en)
Other versions
JP6683103B2 (ja
Inventor
ジョルディ ボナダ
Bonada Jordi
ボナダ ジョルディ
ブラアウ メルレイン
Brau Melrain
ブラアウ メルレイン
慶二郎 才野
Keijiro Saino
慶二郎 才野
マイケル ウィルソン
Wilson Michael
マイケル ウィルソン
竜之介 大道
Ryunosuke Daido
竜之介 大道
久湊 裕司
Yuji Hisaminato
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2016217377A priority Critical patent/JP6683103B2/ja
Publication of JP2018077280A publication Critical patent/JP2018077280A/ja
Application granted granted Critical
Publication of JP6683103B2 publication Critical patent/JP6683103B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】より豊かな音声表現を与える。【解決手段】一実施形態に係る音声合成方法は、合成音の合成に用いられるスペクトル包絡概形の時間変化を取得するステップと、合成音に付与される音声表現の表現素片の合成に用いられるスペクトル包絡概形の時間変化を取得するステップと、合成音のスペクトル包絡概形の時間変化に第1係数を乗算し、表現素片の前記スペクトル包絡概形の時間変化に第2係数を乗算し、両者を加算するステップと、加算により得られたスペクトル包絡概形の時間変化を用いて、音声表現が付与された合成音を生成するステップとを有する。【選択図】図14

Description

本発明は、音声合成に関する。
歌唱等の音声を合成する技術が知られている。より表現力豊かな歌唱音声を生成するため、単に与えられた音階で与えられた歌詞の音声を出力するだけでなく、この音声に音楽的な歌唱表現を付与することが試みられている。特許文献1は、2つの音声信号を、調波成分の周波数帯域が互いに近傍に位置するように調整することによって声質を変換する技術を開示している。
特開2014−2338号公報
特許文献1に記載の技術においては、合成歌唱に与えられる歌唱表現が十分でない場合があった。これに対し本発明は、より豊かな音声表現を与える技術を提供する。
本発明は、合成音の合成に用いられるスペクトル包絡概形の時間変化を取得するステップと、前記合成音に付与される音声表現の表現素片の合成に用いられる前記スペクトル包絡概形の時間変化を取得するステップと、前記合成音の前記スペクトル包絡概形の時間変化に第1係数を乗算し、前記表現素片の前記スペクトル包絡概形の時間変化に第2係数を乗算し、両者を加算するステップと、加算により得られた前記スペクトル包絡概形の時間変化を用いて、前記音声表現が付与された合成音を生成するステップとを有する音声合成方法を提供する。
この音声合成方法は、前記合成音の合成に用いられるスペクトル包絡の時間変化を取得するステップと、音声表現の合成に用いられる前記スペクトル包絡の時間変化を取得するステップと、前記合成音の前記スペクトル包絡の時間変化に前記第1係数を乗算し、前記表現素片の前記スペクトル包絡の時間変化に前記第2係数を乗算し、両者を加算するステップと、加算により得られた前記スペクトル包絡概形および前記スペクトル包絡の時間変化を用いて、音声表現が付与された合成音を生成するステップとを有してもよい。
この音声合成方法は、合成音の合成に用いられるスペクトル包絡概形の時間的微細変動を取得するステップと、音声表現の表現素片の合成に用いられる前記スペクトル包絡概形の時間的微細変動を取得するステップと、前記合成音の前記スペクトル包絡の時間的微細変動に前記第1係数を乗算し、前記表現素片の前記スペクトル包絡に前記第2係数を乗算し、両者を加算するステップと、加算により得られた前記スペクトル包絡概形の時間変化および前記スペクトル包絡概形の時間的微細変動を用いて、音声表現が付与された合成音を生成するステップとを有してもよい。
この音声合成方法は、前記表現素片の基準となる音高を取得するステップと、加算の前に、前記表現素片の音高と前記合成音の音高とが一致するように、当該表現素片の音高をシフトするステップとを有してもよい。
本発明によれば、より豊かな音声表現を与えることができる。
関連技術に係るGUIを例示する図。 一実施形態に係る歌唱表現付与の概念を示す図。 一実施形態に係る音声合成装置1の機能構成を例示する図。 音声合成装置1のハードウェア構成を例示する図。 データベース10の構造を示す模式図。 アタック基準の歌唱表現における基準時刻を例示する図。 リリース基準の歌唱表現における基準時刻を例示する図。 合成器20の機能構成を例示する図。 歌唱表現の素片の時間長が短い例におけるマッピング関数を例示する図。 歌唱表現の素片の時間長が長い例におけるマッピング関数を例示する図。 スペクトル包絡およびスペクトル包絡概形の関係を例示する図。 歌唱表現の素片の基本周波数をシフトする処理を例示する図。 周波数領域で合成するための、合成手段24の機能構成を例示する図。 合成器20の動作を例示するシーケンスチャート。 時間領域で合成するための、合成手段24の機能構成を例示する図。 UI部30の機能構成を例示する図。 UI部30において用いられるGUIを例示する図。 歌唱表現を選択するUIを例示する図。 歌唱表現を選択するUIの別の例を示す図。 ダイヤルの回転角とモーフィング係数とを対応させるテーブルの例。 歌唱表現に係るパラメーターを編集するためのUIの別の例。
1.音声合成技術
音声合成のための種々の技術が知られている。音声のうち音階の変化およびリズムを伴うものを歌唱(歌声)という。歌唱合成としては、素片接続型歌唱合成および統計的歌唱合成が知られている。素片接続型歌唱合成では、多数の歌唱素片を収録したデータベースが用いられる。歌唱素片(音声素片の一例)は、主として音韻(単音素または音素連鎖)によって区分される。歌唱の合成に際して、これらの歌唱素片は、基本周波数、タイミング、および継続長が楽譜情報に応じて調整されたうえで接続される。素片接続型歌唱合成に用いられる歌唱素片は、データベースに登録される全ての音韻に渡って音質ができるだけ一定であることが要求される。音質が一定でないと、歌唱を合成した際に不自然な音声の変動が発生してしまうからである。また、これらの素片に含まれる動的な音響変化のうち歌唱表現(音声表現の一例)に対応する部分は、合成時にそれが表出しないように処理される必要がある。歌唱表現は音楽的な文脈に依存して歌唱に付与されるべきものであり、音韻の種別と直接に対応付けられるべきものではないからである。特定の音韻に対して常に同じ歌唱表現が表出されると、得られる合成歌唱は不自然なものとなる。したがって、素片接続型歌唱合成においては、例えば基本周波数および音量の変化は、歌唱素片に含まれるものを直接的に用いるのではなく、楽譜情報およびあらかじめ決められたルールに基づいて生成された基本周波数および音量の変化が用いられる。仮に、音韻と歌唱表現とのすべての組み合わせに対応する歌唱素片をデータベースに収録すれば、楽譜情報に一致する音韻および音楽的文脈に対して自然な歌唱表現の双方に対応する歌唱素片を選択することが可能になる。しかし、あらゆる音韻に対してあらゆる歌唱表現に対応する歌唱素片を収録するには膨大な手間がかかり、データベースの容量も膨大なものとなってしまう。また、素片同士の組み合わせの数は素片の数に対して爆発的に増加するため、素片同士のあらゆる接続に対して不自然な合成歌唱とならないことを保証することは難しい。
一方、統計的歌唱合成では、多数の訓練データを利用して楽譜情報と歌唱の音響的特徴との関係を統計モデルとしてあらかじめ学習しておく。合成時には、入力された楽譜情報から最も尤もらしい音響的特徴量を推定し、それを用いて歌唱を合成する。統計的歌唱合成では様々な歌唱スタイルごとに訓練データを構築することで、種々の歌唱表現を含んだ統計モデルを学習可能である利点がある。しかし、統計的歌唱合成には主として2つの問題がある。第1の問題は過剰平滑化である。多数の訓練データから統計モデルを学習する過程は本質的にデータの平均化と次元削減を伴うため、合成出力される音響的特徴は必然的に、通常の単一の歌唱よりも特徴量の分散が小さくなってしまう。その結果、合成音の表現力やリアルさが損なわれる。第2の問題は、統計モデルを学習可能な音響的特徴量の種類が限られている点である。特に位相情報は巡回的な値域を持つことから統計的なモデリングが困難であり、たとえば調波成分どうしまたは特定の調波成分とその周辺に存在する成分との位相関係やそれらの時間的変動を適切にモデリングすることは困難である。しかし、実際には濁声や嗄声などを含む表現力豊かな歌唱を合成するためには、位相情報を適切に利用することが必要である。
歌唱合成において多様な声質を合成できるようにする技術として、特許文献1に記載のVQM(Voice Quality Modification)が知られている。VQMにおいては、ある種の歌唱表現に相当する声質の第1音声信号、および歌唱合成による第2音声信号が用いられる。第2音声信号は、素片接続型歌唱合成によるものであっても、統計的歌唱合成によるものであってもよい。これら2つの音声信号を用いれば、位相情報を含めて歌唱を合成することができる。その結果、通常の歌唱合成よりもリアルで表現力豊かな歌唱を合成できる。しかし、この技術においては、第1音声信号の音響的特徴の時間変化を歌唱合成に反映する方法が明らかではない。なおここでいう時間変化とは、定常的に濁声や嗄声を発声した際にも観測されるような音響的特徴の高速な変動を指すのではなく、例えば発声を開始した直後にはそのような高速な変動の程度が大きく、その後時間の経過に伴い徐々に減衰し、さらに時間が経過すると一定の程度で安定するといった、比較的巨視的な声質の推移に相当する。このような声質の変化は、歌唱表現の種別によって大きな違いが現れる。
図1は、関連技術に係るGUIを例示する図である。このGUIは、関連技術に係る歌唱合成プログラムにおいて使用される。このGUIは、楽譜表示領域911、ウインドウ912、およびウインドウ913を含む。楽譜表示領域911は、音声合成に係る楽譜が表示される領域であり、この例ではいわゆるピアノロールに相当する形式で楽譜が表される。楽譜表示領域911内において横軸は時間を、縦軸は音階を、それぞれ表す。ウインドウ912は、ユーザーの操作に応じて表示されるポップアップウインドウであり、合成歌唱に対して付与することができる歌唱表現の一覧を含む。ユーザーは、この一覧の中から適用される歌唱表現を選択する。ウインドウ913には、選択された歌唱表現の適用の程度を表すグラフが表示される。ウインドウ913内において横軸は時間を、縦軸は歌唱表現の適用の強さを、それぞれ表す。ユーザーは、ウインドウ913においてグラフを編集し、VQMの適用の程度の時間変化を入力する。しかし、この例では、VQMの適用の程度の時間変化をユーザーが手作業で入力しなければならないので、自然で表現力豊かな歌唱を合成するのは困難である。
2.構成
図2は、一実施形態に係る歌唱表現付与の概念を示す図である。なお、以下において、「合成歌唱」とは合成された音声であって特に音階と歌詞とが与えられた音声をいう。特に断りの無い限り、単に「合成歌唱」というときは、本実施形態に係る歌唱表現が付与されていない合成音声を指す。「歌唱表現」とは合成音声に対して付与される音楽的な表現をいい、例えば、ボーカルフライ(fry)、うなり声(growl)、および嗄れ声(rough)のような表現を含む。本実施形態においては、あらかじめ収録された局所的な歌唱表現の素片(サンプル)を、通常の(歌唱表現が付与されていない)合成歌唱にモーフィングによって加算することを「合成歌唱に対し歌唱表現を付与する」という。ここで、歌唱表現の素片は、歌唱音声全体または1個のノートに対し、時間的に局所的なものである。時間的に局所的とは、歌唱表現の占める時間が、歌唱音声全体または1個のノートに対し部分的であることをいう。歌唱表現の素片は、歌唱者による歌唱表現をあらかじめ録音したものであり、歌唱中の、局所的な時間においてなされている歌唱表現(音楽的な表現)の素片である。素片とは歌唱者の発した音声波形の一部をデータ化したものである。また、モーフィングとは、歌唱表現の素片および合成歌唱の少なくとも一方に、時間の経過に伴って増加または減少する係数を乗算して両者を加算する処理をいう。歌唱表現の素片と通常の合成歌唱とは、タイミングを合わせてモーフィングされる。モーフィングにおいて、歌唱表現における音響的特徴の時間変化は保たれたままである。歌唱表現の素片をモーフィングによって加算するときには、通常の合成歌唱のうちの、局所的な時間における合成歌唱に対して、モーフィングを行う。
この例で、合成歌唱と歌唱表現の素片との加算の基準時刻は、ノート(すなわち音符)の先頭時刻およびノートの末尾時刻である。以下、ノートの先頭時刻を基準時刻とすることを「アタック基準」といい、末尾時刻を基準時刻とすることを「リリース基準」という。
図3は、一実施形態に係る音声合成装置1の機能構成を例示する図である。音声合成装置1は、データベース10、合成器20、およびUI(User Interface)部30を有する。この例では素片接続型歌唱合成が用いられる。データベース10は、歌唱素片および歌唱表現の素片が収録されたデータベースである。合成器20は、楽譜情報および歌唱表現を指示する情報に基づいてデータベース10から歌唱素片および歌唱表現の素片を読み出し、これらを用いて歌唱表現付きの歌唱音声を合成する。UI部30は、楽譜情報、歌唱表現、および歌唱音声の入力、編集、および出力を行うためのインターフェースである。
図4は、音声合成装置1のハードウェア構成を例示する図である。音声合成装置1は、CPU(Central processing Unit)101、メモリー102、ストレージ103、入出力IF104、ディスプレイ105、および入力装置106を有するコンピュータ装置、具体的には例えばタブレット端末である。CPU101は、プログラムを実行して音声合成装置1の他の要素を制御する制御装置である。メモリー102は主記憶装置であり、例えばROM(Read Only Memory)およびRAM(Random Access Memory)を含む。ROMは、音声合成装置1を起動するためのプログラム等を記憶する。RAMは、CPU101がプログラムを実行する際のワークエリアとして機能する。ストレージ103は補助記憶装置であり、各種のデータおよびプログラムを記憶する。ストレージ103は、例えば、HDD(Hard Disk Drive)およびSSD(Solid State Drive)の少なくとも一方を含む。入出力IF104は、他の装置との間で情報の入出力を行うためのインターフェースであり、例えば、無線通信インターフェースまたはNIC(Network Interface Controller)を含む。ディスプレイ105は情報を表示する装置であり、例えばLCD(Liquid Crystal Display)を含む。入力装置106は、音声合成装置1に情報を入力するための装置であり、例えば、タッチスクリーン、キーパッド、ボタン、マイクロフォン、およびカメラの少なくとも1つを含む。
この例で、ストレージ103は、コンピュータ装置を音声合成装置1として機能させるプログラム(以下「歌唱合成プログラム」という)を記憶する。CPU101が歌唱合成プログラムを実行することにより、コンピュータ装置に図3の機能が実装される。ストレージ103は、データベース10を記憶する記憶手段の一例である。CPU101は、合成器20の一例である。CPU101、ディスプレイ105、および入力装置106は、UI部30の一例である。以下、図3の機能要素の詳細をそれぞれ説明する。
2−1.データベース10
データベース10は歌唱素片が収録されたデータベース(素片データベース)および歌唱表現の素片が収録されたデータベース(歌唱表現データベース)を含むが、素片データベースについては、従来知られている素片接続型歌唱合成において用いられるものと同じであるので詳細な説明は省略する。以下、特に断りの無い限り、歌唱表現データベースを単にデータベース10という。データベース10においては、歌唱合成時の計算負荷の低減と音響的特徴の推定誤りの防止とを両立するため、歌唱表現の素片の音響的特徴を事前に推定しておき、推定した音響的特徴をデータベースに収録しておくことが好ましい。データベース10に収録される音響的特徴は、人の手によって修正されたものであってもよい。
図5は、データベース10の構造を例示する模式図である。ユーザーまたはプログラムが目的とする歌唱表現を容易に見つけられるようにするため、データベース10において歌唱表現の素片は組織化されて収録される。図5は、木構造の例を示す。木構造における末端の葉が、それぞれ一つの歌唱表現に相当する。例えば、「Attack−Fry−Power−High」は、フライ発声を主とするアタック基準の歌唱表現のうち、力強い声質で、高音域に適した歌唱表現を意味する。木構造の末端の葉だけでなく、節に歌唱表現を配置してもよい。例えば、上記の例に加えて「Attack−Fry−Power」に相当する歌唱表現を収録してもよい。
データベース10には、歌唱表現1個につき少なくとも1個の素片が収録される。音韻に応じて2個以上の素片が収録されてもよい。歌唱表現の素片は全ての音韻に対して独自のものを収録する必要はない。なぜなら、歌唱表現の素片は合成歌唱とモーフィングされるので、歌唱としての基本的な品質は合成歌唱によって既に確保されているからである。例えば、素片接続型歌唱合成において良い品質の歌唱を得るには、2音素連鎖の音韻(例えば、/a−i/または/a−o/といった組み合わせ)毎に素片を収録する必要がある。しかし、歌唱表現の素片は、単音素毎(例えば、/a/または/o/)に独自のものを収録してもよいし、あるいはさらに数を減らして、歌唱表現1個につき歌唱表現の素片1個(例えば/a/だけ)だけを収録してもよい。歌唱表現毎に何個の素片を収録するかは、歌唱表現データベース作成の工数と合成歌唱の品質とのバランスを考慮してデータベース作製者が決定する。より高品質な(リアルな)合成歌唱を得るには、音韻毎に独自の歌唱表現の素片を収録する。歌唱表現データベース作成の工数を削減するには、歌唱表現1個あたりの素片の数を減らす。
歌唱表現1個につき2個以上の素片が収録される場合、素片と音韻とのマッピング(対応付け)の定義が必要である。一例としては、ある歌唱表現に関し、素片ファイル「S0000」が音韻/a/および/i/にマッピングされ、素片ファイル「S0001」が音韻/u/、/e/、および/o/にマッピングされる。このようなマッピングは、歌唱表現毎に定義される。データベース10に収録される素片の数は、歌唱表現毎に異なっていてもよい。例えば、ある歌唱表現については2個の素片が収録され、別の歌唱表現には5個の素片が収録されてもよい。
データベース10において、歌唱表現の素片毎に基準時刻(表現基準時刻)を示す情報が記録される。この基準時刻は、歌唱表現の素片の波形における時間軸上の特徴点である。基準時刻には、歌唱表現開始時刻、歌唱表現終了時刻、ノートオンセット開始時刻、ノートオフセット開始時刻、ノートオンセット終了時刻、およびノートオフセット終了時刻のうち少なくとも1つが含まれる。
図6および図7は、各基準時刻を例示する図である。この例で、歌唱表現の素片の音声波形の時間領域は、プレ区間、オンセット区間、サステイン区間、オフセット区間、およびポスト区間に区分される。これらの区間は、例えばデータベース10の作成者により区分される。図6はアタック基準の歌唱表現を、図7はリリース基準の歌唱表現を、それぞれ示している。
アタック基準の歌唱表現は、プレ区間、オンセット区間、およびサステイン区間に区分される。サステイン区間は、音響的特徴(例えば基本周波数)が所定の範囲内に安定する区間である。サステイン区間の基本周波数が、この歌唱表現の音高に相当する。オンセット区間は、サステイン区間の前段の区間であって、音響的特徴が時間に伴って変化する区間である。プレ区間は、オンセット区間の前段の区間である。アタック基準の歌唱表現において、プレ区間の始期が歌唱表現開始時刻である。オンセット区間の始期がノートオンセット開始時刻である。オンセット区間の終期がノートオンセット終了時刻である。サステイン区間の終期が歌唱表現終了時刻である。
リリース基準の歌唱表現は、サステイン区間、オフセット区間、およびポスト区間に区分される。オフセット区間は、サステイン区間の後段の区間であって、音響的特徴が時間に伴って変化する区間である。ポスト区間は、オフセット区間の後段の区間である。サステイン区間の始期が歌唱表現開始時刻である。サステイン区間の終期がノートオフセット開始時刻である。オフセット区間の終期がノートオフセット終了時刻である。ポスト区間の終期が歌唱表現終了時刻である。
データベース10には、歌唱合成に適用されるパラメーターのテンプレートが記録される。ここでいうパラメーターには、例えば、モーフィング係数(適用率)の時間推移および適用時間、並びに歌唱表現のスピードが含まれる。例えば、データベース作成者により複数のテンプレートが作成され、歌唱表現毎にどのテンプレートが適用されるかデータベース作成者があらかじめ決定しておいてもよい。すなわち、どの歌唱表現に対しどのテンプレートが適用されるかあらかじめ決まっていてもよい。あるいは、テンプレートそれ自体がデータベース10に含まれ、歌唱合成の際にどのテンプレートを使用するかユーザーが選択してもよい。
2−2.合成器20
図8は、合成器20の機能構成を例示する図である。合成器20は、タイミング計算手段21、時間伸縮マッピング手段22、短時間スペクトル操作手段23、合成手段24、特定手段25、および取得手段26を有する。
タイミング計算手段21は、歌唱表現の素片に対して記録された基準時刻を利用して、歌唱表現の素片と合成歌唱とを一致させるタイミング(時間軸上の位置)を計算する。例えば、タイミング計算手段21は、アタック基準の歌唱表現の素片に対しては、ノートオンセット開始時刻(合成音基準時刻の一例)を合成歌唱の母音開始時刻に一致させる。リリース基準の歌唱表現の素片に対しては、ノートオフセット終了時刻(合成音基準時刻の別の例)を合成歌唱の母音終了時刻に一致させるか、または、歌唱表現終了時刻を合成歌唱の発音終了時刻に一致させる。
時間伸縮マッピング手段22は、歌唱表現の素片の時間伸縮マッピングを計算する(時間軸上の伸張処理を行う)。ここでは、時間伸縮マッピング手段22は、合成歌唱と歌唱表現の素片との時刻の対応を示すマッピング関数を計算する。ここで用いられるマッピング関数は、歌唱表現の素片の基準時刻毎に特性を区分した非線形関数である。このような関数を用いることで素片に含まれる歌唱表現の性質を極力損なうことなく合成歌唱に加算することができる。時間伸縮マッピング手段22は、歌唱表現の素片のうち特徴部分を、特徴部分以外の部分とは異なるアルゴリズムで(すなわち異なるマッピング関数を用いて)時間伸張を行う。特徴部分とは、例えば、後述するようにアタック基準の歌唱表現においてはプレ区間およびオンセット区間である。
図9は、合成歌唱より歌唱表現の素片の方が時間長が短い例におけるマッピング関数を例示する図である。これは、例えば、特定のノートについてアタック基準の歌唱表現を適用する場合において、合成歌唱より歌唱表現の素片の方が時間長が短いときに用いられる。まず、マッピング関数の基本的な考え方を説明する。歌唱表現の素片において、プレ区間およびオンセット区間には、歌唱表現としての音響的特徴の動的変動が多く含まれている。そのため、この区間を時間伸縮すると歌唱表現の性質が変わってしまう。そこで、時間伸縮マッピング手段22は、プレ区間およびオンセット区間は可能な限り時間伸縮を行わず、サステイン区間を引き延ばすことによって所望の時間伸縮マッピングを得る。
図9(a)は、サステイン区間においてマッピング関数の傾きを緩やかにする、すなわち歌唱表現の素片のデータ読み出し速度を遅くすることによって素片全体の時間を引き延ばす例を示す。図9(b)は、サステイン区間においても読み出し速度は一定のまま、データ読み出し位置を何度も手前に戻すことによって素片全体の時間を引き延ばす例を示す。これは、サステイン区間では概ね定常的な音響的特徴が維持されるという特性を利用したものである。このとき、データ読出し位置を戻す時刻と戻る時刻は、音響的特徴に現れる時間的周期性の開始位置と終了位置に対応していることが好ましい。このようなデータ読出し位置を採用することにより、自然な歌唱表現が付与された合成歌唱を得ることができる。これらの開始位置および終了位置は、例えば、歌唱表現の素片の音響的特徴量の時系列に対して自己相関関数を求め、そのピークを採用することによって求めることができる。図9(c)は、サステイン区間においていわゆるランダムミラーループ(Random-Mirror-Loop)を適用して素片全体の時間を引き延ばす例を示す。ランダムミラーループは、読み出しの途中でデータ読み出し速度の符号を何度も反転させることによって素片全体の時間を引き延ばす手法である。歌唱表現サンプルに本来含まれない人工的な周期性が発生しないようにするため、符号を反転する時刻は擬似乱数に基づいて決定される。
図9(a)〜(c)はプレ区間およびオンセット区間におけるデータ読み出し速度を変えない例を示すが、ユーザーが歌唱表現のスピードを調整したい場合がある。一例としては、「しゃくり」の歌唱表現において、素片として収録されている歌唱表現よりも速くしたい場合がある。このような場合、プレ区間およびオンセット区間におけるデータ読み出し速度を変えればよい。具体的に、素片よりも速くしたい場合はデータ読み出し速度を速くする。図9(d)はプレ区間およびオンセット区間におけるデータ読み出し速度を速くする例を示す。サステイン区間においてはデータ読み出し速度を遅くし、素片全体の時間を引き延ばす。
図10は、合成歌唱より歌唱表現の素片の方が時間長が長い例におけるマッピング関数を例示する図である。これは、例えば、特定のノートについてアタック基準の歌唱表現を適用する場合において、合成歌唱より歌唱表現の素片の方が時間長が長いときに用いられる。これらの例でも、時間伸縮マッピング手段22は、プレ区間およびオンセット区間は可能な限り時間伸縮を行わず、サステイン区間を短縮することによって所望の時間伸縮マッピングを得る。
図10(a)は、サステイン区間においてマッピング関数の傾きを急にする、すなわち歌唱表現の素片のデータ読み出し速度を速くすることによって素片全体の時間を短縮する例を示す。図10(b)は、サステイン区間においても読み出し速度は一定のまま、サステイン区間の途中でデータ読み出しを打ち切ることによって素片全体の時間を短縮する例を示す。サステイン区間の音教的特徴は定常的であるので、データ読み出し速度を変えるよりもデータ読み出し速度は一定のまま単に素片の末尾を使用しない方が自然な合成歌唱が得られる。図10(c)は、合成歌唱の時間が、歌唱表現の素片のプレ区間およびオンセット区間の時間長の和よりも短い場合に用いられるマッピング関数を示す。この例では、時間伸縮マッピング手段22は、オンセット区間の終期が合成歌唱の終期と一致するように、オンセット区間におけるデータ読み出し速度を速くする。図10(d)は、合成歌唱の時間が、歌唱表現の素片のプレ区間およびオンセット区間の時間長の和よりも短い場合に用いられるマッピング関数の別の例を示す。この例では、時間伸縮マッピング手段22は、オンセット区間においてもデータ読み出し速度は一定のまま、オンセット区間の途中でデータ読み出しを打ち切ることによって素片全体の時間を短縮する。なお図10(d)の例では、基本周波数の決定に注意が必要である。オンセット区間の音高はノートの音高と異なることが多いため、オンセット区間の末尾を使用しないと合成歌唱の基本周波数がノートの音高に到達せず、音が外れたように(音痴に)聞こえてしまう場合がある。これを避けるためには、時間伸縮マッピング手段22は、オンセット区間内でノートの音高に相当する基本周波数の代表値を決め、この基本周波数がノートの音高に一致するように歌唱表現の素片全体の基本周波数をシフトする。基本周波数の代表値としては、例えば、オンセット区間の末尾の基本周波数が用いられる。
図9および図10は、アタック基準の歌唱表現に対する時間伸縮マッピングを例示するものであったが、リリース基準の歌唱表現に対する時間伸縮マッピングも考え方は同じである。すなわち、リリース基準の歌唱表現においてはオフセット区間およびポスト区間が特徴部分であり、他の部分とは異なったアルゴリズムで時間伸張マッピングが行われる。
短時間スペクトル操作手段23は、歌唱表現の素片の短時間スペクトルをいくつかの成分(音響的特徴)に分解する。短時間スペクトル操作手段23は、分解により得られた成分の一部を、合成歌唱の同じ成分に対してモーフィングすることで、歌唱表現が付与された合成歌唱の短時間スペクトルの系列を得る。短時間スペクトル操作手段23は、歌唱表現の素片の短時間スペクトルを、例えば以下のうち1つ以上の成分に分解する。
(a)スペクトル包絡
(b)スペクトル包絡概形
(c)位相スペクトル包絡
(d)スペクトル包絡(または調波振幅)の時間的微細変動
(e)位相スペクトル包絡(または調波位相)の時間的微細変動
(f)基本周波数
なお、歌唱表現の素片と合成歌唱との間でこれらの成分を独立にモーフィングするためには、合成歌唱に対しても上記の分解が行われる必要があるが、歌唱合成器においては合成の途中でこれらの情報が生成されている場合があるので、それを利用すればよい。以下に各成分を説明する。
スペクトル包絡は、振幅スペクトルの概形であり、主に音韻と個人性の知覚に関する。スペクトル包絡の推定法は多数提案されており、たとえば低次のケプストラム係数による推定が利用できる。本実施形態においてスペクトル包絡を他の成分と独立して扱うことには特別な意義がある。すなわち、仮に、音韻または個人性が合成歌唱とは異なる歌唱表現の素片を使用しても、スペクトル包絡に関するモーフィング適用率をゼロとすれば、合成歌唱の音韻および個人性が100%現れる。そのため、音韻または個人性が異なる歌唱表現の素片(例えば、本人の他音韻または全くの他人の素片)を転用することができる。なお、意図的に音韻や個人性を変化させるような歌唱表現において、その程度を制御するためにこの成分は独立にモーフィングされてもよい。
スペクトル包絡概形は、振幅スペクトル包絡をさらに大まかに表現した概形であり、主に声の明るさに関する。スペクトル包絡概形は様々な方法で求めることが可能であり、例えば、スペクトル包絡よりもさらに低次のケプストラム係数によって求めることができる。スペクトル包絡とは異なり、スペクトル包絡概形には音韻や個人性の情報はほとんど含まれない。そこで、スペクトル包絡のモーフィングを行わない場合であっても、スペクトル包絡概形成分のみモーフィングを行うことで、歌唱表現に含まれる声の明るさとその時間的な動きを保持することができる。
位相スペクトル包絡は、位相スペクトルの概形である。位相スペクトル包絡は様々な方法で求めることが可能である。例えば、信号の周期に同期するフレーム間隔における短時間スペクトルの分析をし、その後、各調波成分における位相の値のみを採用し、この段階でアンラッピングし、さらに調波成分以外の周波数(調波と調波の間)においては最近傍補間や線形または高次の曲線補間などすることで、単なる位相スペクトルではなく位相スペクトル包絡を得ることができる。
図11は、スペクトル包絡およびスペクトル包絡概形の関係を例示する図である。スペクトル包絡の時間的変動および位相スペクトル包絡の時間的変動は、ごく短時間のうちの音声スペクトルにおいて高速に変動する成分に相当し、濁声や嗄声のガサガサ感に相当する。スペクトル包絡の時間的微細変動は,これらの推定値に対して時間軸上での差分をとるか、一定時間区間内で平滑化したこれらの値と注目フレームにおける値との差分をとることで得ることができる。位相スペクトル包絡の時間的変動は、位相スペクトル包絡に対して時間軸上での差分をとるか、または一定時間区間内で平滑化したこれらの値と注目フレームにおける値との差分をとることでその微細変動を得ることができる。これらの処理はいずれもある種の高域通過フィルタに相当する。
音響的特徴としてスペクトル包絡およびスペクトル包絡概形の両方が用いられる場合、実際のモーフィングには、スペクトル包絡そのもの(例えば図11)が用いられるのではなく、
(a’)スペクトル包絡概形とスペクトル包絡との差分、および
(b)スペクトル包絡概形
の2つの音響的特徴が用いられる。例えば図11のようにスペクトル包絡とスペクトル包絡概形とを分離すると、スペクトル包絡にスペクトル包絡概形の情報まで含まれてしまうので、両者を分離して扱うためである。このように分離すると、絶対的な音量に関する情報はスペクトル包絡概形に含まれる。人間が発する声の強さを変化させるとき、個人性や音韻性はある程度保つことができる一方、音量とスペクトルの全体的な傾斜が同時に変化することが多いので、スペクトル包絡概形に音量の情報を含めるのは自然なことと言える。
なお、スペクトル包絡および位相スペクトル包絡に代えて、調波振幅および調波位相が用いられてもよい。スペクトル包絡および位相スペクトル包絡を用いるか、または調波振幅および調波位相を用いるかの選択は、合成方式の選択に依存する。パルス列の合成または時変フィルタによる合成が行われる場合はスペクトル包絡および位相スペクトル包絡が用いられ、SMS、SPP、またはWBHSMのように正弦波モデルを基礎とする合成方式では調波振幅および調波位相を用いる。
基本周波数は、主に音高の知覚に関する。他の音響的特徴と異なり、変換の適用率による単純な補間で基本周波数を求めることはできない。なぜならば、歌唱表現の素片におけるノートの音高と合成歌唱のノートの音高は一般に異なっており、歌唱表現の素片の基本周波数と合成歌唱の基本周波数を単純に補間した基本周波数で合成しても、合成されるべき音高とはまったく異なった音高になってしまうためである。そこで本実施形態において、短時間スペクトル操作手段23は、まず歌唱表現の素片に付与されたノートの音高が合成歌唱のノートの音高に一致するように、歌唱表現の素片全体の基本周波数を一定量シフトする。この処理は、歌唱表現の素片の各時刻の基本周波数を合成音に一致させるものではなく、歌唱表現の素片に含まれる基本周波数の動的な変動は保持される。
図12は、歌唱表現の素片の基本周波数をシフトする処理を例示する図である。図12において、破線がシフト前の(すなわちデータベース10に収録された)歌唱表現の素片の特性を、実線がシフト後の特性を、それぞれ示す。この処理では、プレ区間およびオンセット区間における基本周波数の変動が維持されたまま、サステイン区間の基本周波数が所望の周波数となるよう、素片の特性曲線全体がそのままシフトされる。歌唱表現の適用率のパラメーターを基本周波数に対して適用する場合、短時間スペクトル操作手段23は、この処理により得られた基本周波数と通常歌唱合成における基本周波数とを各時刻で補間する。
合成手段24は、合成歌唱と歌唱表現の素片とを合成し、歌唱表現が付与された合成歌唱を得る。合成歌唱と歌唱表現の素片とを合成し、最終的に時間領域の波形として得る方法には種々のものが存在するが、これらの方法は入力とするスペクトルの表現方法によって2種類に大別できる。一つは調波成分に基づく方法で、もう一つはスペクトル包絡に基づく方法である。
調波成分に基づく合成方法としては、例えばSMSが知られている(Serra, Xavier, and Julius Smith. "Spectral modeling synthesis: A sound analysis/synthesis system based on a deterministic plus stochastic decomposition." Computer Music Journal 14.4 (1990): 12-24.)。有声音のスペクトルは基本周波数とそのおおよそ整数倍の周波数における正弦波成分の周波数、振幅、および位相によって表現される。SMSによってスペクトルを生成し、逆フーリエ変換すると、窓関数が乗算された数周期分の波形が得られる。窓関数を除算したうえで合成結果の中心付近のみを別の窓関数で切り出し、出力結果バッファに重畳加算する。この処理をフレーム間隔ごとに繰り返すことで長時間の連続的な波形が得られる。
スペクトル包絡に基づく合成方法としては、例えばNBVPM(Bonada, Jordi. "High quality voice transformations based on modeling radiated voice pulses in frequency domain." Proc. Digital Audio Effects (DAFx). 2004.)が知られている。この例では、スペクトルは、振幅スペクトル包絡と位相スペクトル包絡によって表現され、基本周波数や調波成分の周波数情報は含まれない。このスペクトルを逆フーリエ変換すると1周期分の声帯振動とそれに対する声道応答に相当するパルス波形が得られる。これを出力バッファに重畳加算する。このとき、隣接するパルス同士のスペクトルにおける位相スペクトル包絡がおおよそ同一の値であれば、出力バッファに重畳加算する時間間隔の逆数が最終的な合成音の基本周波数となる。
歌唱音声と歌唱表現との合成には、周波数領域で行う方法と時間領域で行う方法がある。いずれの方法が用いられる場合でも、歌唱音声と歌唱表現との合成は、基本的には以下の手順で行われる。まず、振幅および位相の時間的微細変動成分以外の成分について、歌唱音声と歌唱表現とをモーフィングする。次に、各調波成分(またはその周辺周波数帯域)の振幅および位相の時間的微細変動成分を加算することにより、歌唱表現を付与した合成歌唱を生成する。
なお、歌唱音声と歌唱表現との合成の際、時間的微細変動成分についてのみ、それ以外の成分とは異なる時間伸縮マッピングが用いられてもよい。これは、例えば以下の2つの場合において有効である。
第1には、ユーザーが意図して歌唱表現のスピードを変化させた場合である。時間的微細変動成分は、その変動の速さや周期性が「ガサガサ」、「ガリガリ」、または「シュワシュワ」といった声の質感の性質と深く関わるものであり、この変動速度を変化させてしまうと声の質感の性質が変わってしまう。例えば、図7に示したような末尾で音高が下がる歌唱表現においてユーザーがそのスピードを速める指示を入力したとき、ユーザーは具体的には、音高を下げつつ、それに伴う音色や質感の変化の速度を速める意図を有しているものの、歌唱表現の質感の性質そのものを変化させることは意図していないと推察される。したがって、ユーザーの意図どおりの歌唱表現を得るには、基本周波数およびスペクトル包絡等の成分については線形時間伸縮によってポスト区間のデータ読出し速度を速めればよいが、時間的微細変動成分については適当な周期でループさせたり(図9(b)のサステイン区間と同様)、ランダムミラーループ(図9(c)のサステイン区間と同様)させたりする。
第2には、時間的微細変動成分の変動周期が基本周波数に依存すべき歌唱表現を合成する場合である。調波成分の振幅および位相に周期的な変調を有する歌唱表現においては、振幅および位相の変動周期に基本周波数との相関を持たせた方が自然に聞こえる場合があることが経験的に分かっている。このような質感を有する歌唱表現を、例えば「ラフ」または「グロウル」という。振幅および位相の変動周期に基本周波数との相関を持たせる手法としては、歌唱表現波形を合成する際に適用される基本周波数の変換比と同じ比率を時間的微細変動成分のデータ読出し速度に適用する手法を用いることができる。
合成手段24は、合成歌唱と歌唱表現波形とを合成する。すなわち、合成手段24は、合成歌唱に対し歌唱表現を付与する。合成歌唱と歌唱表現波形との合成は、上述の音響的特徴(a)〜(f)のうち少なくとも1つを用いて行われる。音響的特徴(a)〜(f)のうちどの特徴を用いるかは、歌唱表現毎に設定される。例えば、音楽用語でいうクレッシェンドまたはデクレッシェンドという歌唱表現は、主に発声の強さの時間的な変化に関係する。したがって、モーフィングの対象とすべき主要な音響的特徴はスペクトル包絡概形である。音韻および個人性は、クレッシェンドまたはデクレッシェンドを構成する主要な音響的特徴ではないと考えられる。したがって、スペクトル包絡のモーフィング適用量(係数)がゼロとなるようにすれば、ただ1人の歌唱者のただ1個の音韻の歌唱から収録されたクレッシェンドの歌唱表現の素片を、あらゆる歌唱者のあらゆる音韻に対して適用することもできる。別の例で、ビブラートのような歌唱表現では、基本周波数が周期的に変動し、またそれに同期して音量も変動する。したがって、モーフィングの対象とすべき音響的特徴は、基本周波数およびスペクトル包絡概形である。
また、スペクトル包絡は音韻に関連した音響的特徴であるので、スペクトル包絡をモーフィングの対象から除外することにより、音韻によらない歌唱表現を付与することができる。例えば、ある特定の音韻(例えば/a/)についてのみしか素片が収録されていない歌唱表現も、スペクトル包絡をモーフィングの対象から除外することにより、特定の音韻以外の音韻の合成歌唱に対してもその歌唱表現の素片をモーフィングすることができる。
このように、歌唱表現の種類毎に、モーフィングの対象とすべき音響的特徴は限定することができる。このようにモーフィングの対象とする音響的特徴を限定してもよいし、歌唱表現の種類によらず全ての音響的特徴をモーフィングの対処としてもよい。多くの音響的特徴をモーフィングの対象とすると元の歌唱表現の素片に近い合成歌唱が得られるのでその部分の自然性は向上する。しかし、歌唱表現を付与しない部分との音質の差は大きくなってしまうので、歌唱全体を通して聞いたときに違和感が出る可能性もある。したがって、モーフィングする音響的特徴をテンプレート化する際には、自然性と違和感とのバランスを考慮してモーフィングの対象となる音響的特徴を決定する。
図13は、歌唱音声と歌唱表現の素片とを周波数領域で合成するための、合成手段24のより詳細な機能構成を例示する図である。この例で、合成手段24は、スペクトル生成手段2401、逆フーリエ変換手段2402、合成窓適用手段2403、および重畳加算手段2404を有する。
図14は、合成器20の動作を例示するシーケンスチャートである。ステップS1400において、特定手段25は、データベース10に含まれる素片データベースおよび歌唱表現データベースの中から、合成歌唱の生成に用いられる素片、および歌唱表現の付与に用いられる素片を特定する。スペクトル生成手段2401は、UI部30から供給される情報に基づいてこれらの素片を特定する。
ステップS1401において、取得手段26は、合成歌唱の生成に用いられる音響的特徴の時間変化を取得する。ここで取得される音響的特徴は、スペクトル包絡H(f)、スペクトル包絡概形G(f)、位相スペクトル包絡P(f)、スペクトル包絡の時間的微細変動I(f)、位相スペクトル包絡の時間的微細変動Q(f)、および基本周波数F0のうち少なくとも1つを含む。取得手段26は、例えば、ステップS1400において特定された素片に対して処理を行った短時間スペクトル操作手段23からこれらの音響的特徴を取得する。
ステップS1402において、取得手段26は、歌唱表現の付与に用いられる音響的特徴の時間変化を取得する。ここで取得される音響的特徴は、合成歌唱の生成に用いられるものと同じである。合成歌唱の音響的特徴と歌唱表現の音響的特徴とを区別するときは、合成歌唱の音響的特徴に添字vを、歌唱表現の音響的特徴に添字pを、歌唱表現が付与された合成歌唱に添字vpを、それぞれ付与する。取得手段26は、例えば、ステップS1400において特定された素片に対して処理を行った短時間スペクトル操作手段23からこれらの音響的特徴を取得する。
ステップS1403において、取得手段26は、付与される歌唱表現の素片に対して設定された基準時刻を取得する。ここで取得される基準時刻は、既に説明したように、歌唱表現開始時刻、歌唱表現終了時刻、ノートオンセット開始時刻、ノートオフセット開始時刻、ノートオンセット終了時刻、およびノートオフセット終了時刻のうち少なくとも1つを含む。
ステップS1404において、タイミング計算手段21は、歌唱表現の素片に対して記録された基準時刻を利用して、歌唱表現の素片とノート(合成歌唱)とを一致させるタイミング(時間軸上の位置)を計算する。
ステップS1405において、時間伸縮マッピング手段22は、対象となるノートの時間長と歌唱表現の素片の時間長との関係に応じて、歌唱表現の素片に対し時間伸縮マッピングを施す。
ステップS1406において、時間伸縮マッピング手段22は、歌唱音声の基準周波数F0vと、歌唱表現の基準周波数F0pとが一致するように(すなわち両者の音高が一致するように)、歌唱表現の素片の音高をシフトする。
ステップS1407において、スペクトル生成手段2401は、各音響的特徴について、合成歌唱および歌唱表現のそれぞれにモーフィング係数を乗算してから加算する。一例として、スペクトル包絡概形G(f)、スペクトル包絡H(f)、およびスペクトル包絡の時間的微細変動I(f)について、
Gvp(f)=(1−aG)Gv(f)+aG・Gp(f) …(1)
Hvp(f)=(1−aH)Hv(f)+aH・Hp(f) …(2)
Ivp(f)=(1−aI)Iv(f)+aI・Ip(f) …(3)
により合成歌唱および歌唱表現をモーフィングする。なお、aG、aH、およびaIは、それぞれ、スペクトル包絡概形G(f)、スペクトル包絡H(f)、およびスペクトル包絡の時間的微細変動I(f)に対するモーフィング係数である。これらはそれぞれ独自に設定されてもよい。
ステップS1408において、スペクトル生成手段2401は、音響的特徴を加算することにより得られたスペクトルを出力する。スペクトルが入力されると、逆フーリエ変換手段2402は、入力されたスペクトルに対し逆フーリエ変換を施し(ステップS1409)、時間領域の波形を出力する。時間領域の波形が入力されると、合成窓適用手段2403は、逆入力された波形に対し所定の窓関数を適用し(ステップS1410)、その結果を出力する。重畳加算手段2404は、窓関数が適用された波形を、重畳加算する(ステップS1411)。この処理をフレーム間隔毎に繰り返すことで長時間の連続的な波形が得られる。
周波数領域で合成する方法は、複数の合成処理を実行せずに済むため計算量を抑制することができるという利点がある。ただし、振幅および位相の微細変動成分をモーフィングするためには、歌唱合成手段(図13では図示略)もこれらの音響特徴量を用いるものでなければならない。
図15は、歌唱音声と歌唱表現の素片とを時間領域で合成するための、合成手段24のより詳細な機能構成を例示する図である。この例で、合成手段24は、スペクトル生成手段2411、逆フーリエ変換手段2412、合成窓適用手段2413、重畳加算手段2414、歌唱合成手段2415、乗算手段2416、乗算手段2417、および加算手段2418を有する。
この例で、スペクトル生成手段2411には、合成歌唱のスペクトル包絡H(f)、スペクトル包絡概形G(f)、位相スペクトル包絡P(f)、および基本周波数F0、並びに歌唱表現の素片のスペクトル包絡の時間的微細変動I(f)および位相スペクトル包絡の時間的微細変動Q(f)が入力される。スペクトル生成手段2411は、入力された音響的特徴からスペクトルを得る。
逆フーリエ変換手段2412は、入力されたスペクトルに対し逆フーリエ変換を施し、時間領域の波形を得る。合成窓適用手段2413は、逆フーリエ変換により得られた波形に対し所定の窓関数を適用する。重畳加算手段2414は、窓関数が適用された波形を、重畳加算する。この処理をフレーム間隔毎に繰り返すことで長時間の連続的な波形が得られる。この波形は、基本周波数が合成歌唱の基本周波数にシフトされた、歌唱表現の素片の波形を示す。
歌唱合成手段2415には、合成歌唱のスペクトル包絡H(f)、スペクトル包絡概形G(f)、位相スペクトル包絡P(f)、および基本周波数F0が入力される。歌唱合成手段2415は、例えば公知の手法を用いて、これらの音響的特徴から合成歌唱の時間領域の波形を生成する。
乗算手段2416は、重畳加算手段2414の出力に対し、微細変動成分の適用係数aを乗算する。乗算手段2417は、歌唱合成手段2415の出力に対し、係数(1−a)を乗算する。加算手段2418は、乗算手段2416の出力および乗算手段2417の出力を加算する。
時間領域で合成する方法は、微細変動成分については歌唱表現の波形を合成する部分(図15の右半分)のみで扱う。この方法によれば、歌唱合成手段2415は振幅および位相の微細変動成分を用いる方式のものである必要はない。この場合、歌唱合成手段2415において、例えば、SPP(Spectral Peak Processing)(Bonada, Jordi, Alex Loscos, and H. Kenmochi. "Sample-based singing voice synthesizer by spectral concatenation." Proceedings of Stockholm Music Acoustics Conference. 2003.)という手法を用いることができる。SPPでは、時間的微細変動ではなく調波ピーク周辺のスペクトル形状によって声の質感に相当する成分が合成される。このような手法を採用した既存の歌唱合成手段に対し歌唱表現を付加する場合には、時間領域で合成する方法を採用する方が、既存の歌唱合成手段をそのまま使用できる点において簡便である。なお、時間領域で合成する場合、歌唱合成と歌唱表現合成とで位相が異なっていると、波形が互いに打ち消しあったり、うなりが生じたりしてしまう。このような問題が生じないようにするには、位相スペクトル包絡が双方の合成で一致し、かつ周期ごとの音声パルスの基準位置(いわゆるピッチマーク)が一致する必要がある。
なお、音声を短時間フーリエ変換などで分析して得られる位相スペクトルの値は一般にθ+n2πすなわち整数nに対して不定性を持っていることから、位相スペクトル包絡のモーフィングには困難を伴う場合がある。位相スペクトル包絡が音の知覚に与える影響は他の音響的特徴成分に比べて小さいので、位相スペクトル包絡は必ずしも補間しなくてもよく、任意の値を与えてもよい。最も簡便かつ自然性の高い位相スペクトル包絡の決定方法は、振幅スペクトル包絡から計算される最小位相を用いる方法である。この場合、図13または図15のH(f)およびG(f)から、まず微細変動成分を除くスペクトル包絡H(f)+G(f)を求め、これに対応する最小位相を求めてP(f)とする。任意の振幅スペクトル包絡に対応する最小位相を計算する方法としては、例えばケプストラムを介する方法(Oppenheim, Alan V., and Ronald W. Schafer. Discrete-time signal processing. Pearson Higher Education, 2010.)を用いることができる。
2−3.UI部30
2−3−1.機能構成
図16は、UI部30の機能構成を例示する図である。UI部30は、表示手段31、受け付け手段32、および音出力手段33を有する。表示手段31は、UIの画面を表示する。受け付け手段32は、UIを介して操作を受け付ける。音出力手段33は、UIを介して受け付けられた操作に応じて、合成歌唱を出力する。表示手段31により表示されるUIは、後述するように、例えば、合成歌唱に付与される歌唱表現の合成に用いられる複数のパラメーターの値を同時に変更するための画像オブジェクトを含む。受け付け手段は、この画像オブジェクトに対する操作を受け付ける。
2−3−2.UI例(概要)
図17は、UI部30において用いられるGUIを例示する図である。このGUIは、一実施形態に係る歌唱合成プログラムにおいて使用される。このGUIは、楽譜表示領域511、ウインドウ512、およびウインドウ513を含む。楽譜表示領域511は、歌唱合成に係る楽譜が表示される領域であり、この例ではいわゆるピアノロールに相当する形式で楽譜が表される。楽譜表示領域511内において横軸は時間を、縦軸は音階を、それぞれ表す。この例では、ノート5111〜5115の5つの音符に相当する画像オブジェクトが表示されている。各ノートには、歌詞が割り当てられる。この例では、ノート5111〜5115に対し、「I」、「love」、「you」、「so」、および「much」という歌詞が割り当てられている。ユーザーはピアノロール上をクリックすることにより、楽譜上の任意の位置に新たなノートを追加することができる。楽譜上に設定されたノートに対しては、いわゆるドラッグ&ドロップ等の操作により、ノートの時間軸上の位置、音階、または長さ等の属性を編集することができる。歌詞は、あらかじめ一曲分の歌詞が入力され、それが所定のアルゴリズムに従って各ノートに自動的に割り当てられてもよいし、ユーザーが各ノートに手動で歌詞を割り当ててもよい。
ウインドウ512およびウインドウ513は、それぞれ、楽譜表示領域511において選択された1以上のノートに対してアタック基準の歌唱表現およびリリース基準の歌唱表現を付与するための操作子を示す画像オブジェクトが表示される領域である。楽譜表示領域511におけるノートの選択は所定の操作(例えば、マウスの左ボタンクリック)により行われる。
2−3−3.UI例(歌唱表現の選択)
図18は、歌唱表現を選択するUIを例示する図である。このUIは、ポップアップウインドウを用いる。歌唱表現を付与したいノートに対してユーザーが所定の操作(例えば、マウスの右ボタンクリック)を行うと、ポップアップウインドウ514が表示される。ポップアップウインドウ514は、木構造に組織化された歌唱表現のうち第1階層を選択するためのウインドウであり、複数の選択肢の表示を含む。ポップアップウインドウ514に含まれる複数の選択肢のうち位一の選択肢に対しユーザーが所定の操作(例えば、マウスの左ボタンクリック)を行うと、ポップアップウインドウ515が表示される。ポップアップウインドウ515は、組織化された歌唱表現の第2階層を選択するためのウインドウである。ポップアップウインドウ515に対しユーザーが一の選択肢を選択する操作を行うと、ポップアップウインドウ516が表示される。ポップアップウインドウ516は、組織化された歌唱表現の第3階層を選択するためのウインドウである。UI部30は、図18のUIを介して選択された歌唱表現を特定する情報を合成器20に出力する。こうして、ユーザーは、所望の歌唱表現を組織化された構造の中から選択することができる。
なお、楽譜表示領域511において、ノート5111の周辺にはアイコン5116およびアイコン5117が表示される。アイコン5116は、アタック基準の歌唱表現の編集を指示するためのアイコン(画像オブジェクトの一例)であり、アイコン5117は、リリース基準の歌唱表現の編集を指示するためのアイコンである。例えば、ユーザーがマウスポインターをアイコン5116に当てた状態でマウスの右ボタンをクリックすると、アタック基準の歌唱表現を選択するためのポップアップウインドウ514が表示される。
図19は、歌唱表現を選択するUIの別の例を示す図である。この例では、ウインドウ512において、アタック基準の歌唱表現を選択するための画像オブジェクトが表示される。詳細には、ウインドウ512には、複数のアイコン5121が表示される。各アイコンは、それぞれ歌唱表現を代表するものである。この例ではデータベース10には10種類の歌唱表現が収録されており、ウインドウ512には10種類のアイコン5121が表示されている。ユーザーは、楽譜表示領域511において対象となる1以上のノートを選択した状態で、ウインドウ512のアイコン5121の中から、付与する歌唱表現に対応するアイコンを選択する。リリース基準の歌唱表現についても同様に、ユーザーは、ウインドウ513においてアイコンを選択する。UI部30は、図19のUIを介して選択された歌唱表現を特定する情報を合成器20に出力する。合成器20はこの情報に基づいて歌唱表現が付与された合成歌唱を生成する。UI部30の音出力手段33は、生成された合成歌唱を出力する。
2−3−4.UI例(歌唱表現のパラメーター入力)
図19の例において、ウインドウ512には、アタック基準の歌唱表現の程度を変化させるためのダイヤル5122の画像オブジェクトが表示される。ダイヤル5122は、合成歌唱に付与される歌唱表現の付与に用いられる複数のパラメーターの値を同時に変更するための単一の操作子の一例である。さらに、ダイヤル5122は、ユーザーの操作に応じて変位する操作子の一例である。この例では、単一のダイヤル5122の操作によって、歌唱表現に係る複数のパラメーターが同時に調整される。リリース基準の歌唱表現の程度も、同様にウインドウ513に表示されるダイヤル5132を介して調整される。歌唱表現に係る複数のパラメーターは、例えば、各音響的特徴のモーフィング係数の最大値である。モーフィング係数の最大値とは、各ノートにおいて時間の経過に伴ってモーフィング係数が変化する際の最大値である。図2の例では、アタック基準の歌唱表現はノートの始期においてモーフィング係数が最大値をとり、リリース基準の歌唱表現はノートの終期においてモーフィング係数が最大値をとっている。UI部30は、ダイヤル5122の基準位置からの回転角に応じてモーフィング係数の最大値を変化させるための情報(例えばテーブル)を有している。
図20は、ダイヤル5122の回転角とモーフィング係数の最大値とを対応させるテーブルを例示する図である。このテーブルは、各歌唱表現について定義される。複数の音響的特徴(スペクトル包絡H(f)、スペクトル包絡概形G(f)、位相スペクトル包絡P(f)、スペクトル包絡の時間的微細変動I(f)、位相スペクトル包絡の時間的微細変動Q(f)、および基本周波数F0)の各々について、モーフィング係数の最大値がダイヤル5122の回転角と対応付けて定義される。例えば、回転角が30°のとき、スペクトル包絡H(f)のモーフィング係数の最大値はゼロであり、スペクトル包絡概形G(f)のモーフィング係数の最大値は0.3である。この例では回転角の離散的な値に対してのみ各パラメーターの値が定義されているが、テーブルで定義されていない回転角に対しては補間により各パラメーターの値が特定される。
UI部30は、ユーザーの操作に応じてダイヤル5122の回転角を検知する。UI部30は、検知した回転角に対応するモーフィング係数の最大値を、図20のテーブルを参照して特定する。UI部30は、特定されたモーフィング係数の最大値を、合成器20に出力する。なお、歌唱表現に係るパラメーターはモーフィング係数の最大値に限定されない。モーフィング係数の増加率または減少率等、他のパラメーターが調整されてもよい。なお、ユーザーは、どの音符のどの歌唱表現部分を編集対象とするかを、楽譜表示領域511上で選択する。このとき、UI部30は、選択された歌唱表現に対応するテーブルを、ダイヤル5122の操作に応じて参照されるテーブルとして設定する。
図21は、歌唱表現に係るパラメーターを編集するためのUIの別の例を示す図である。この例では、楽譜表示領域511において選択されたノートに対する歌唱表現の音響的特徴に適用されるモーフィング係数の時間変化を示すグラフの形状が編集される。編集の対象となる歌唱表現は、アイコン616により指定される。アイコン611は、アタック基準の歌唱表現においてモーフィング係数が最大値をとる期間の始期を指定するための画像オブジェクトである。アイコン612は、アタック基準の歌唱表現においてモーフィング係数が最大値をとる期間の終期を指定するための画像オブジェクトである。アイコン613は、アタック基準の歌唱表現におけるモーフィング係数の最大値を指定するための画像オブジェクトである。ユーザーは、アイコン611〜613をドラッグ&ドロップ等の操作により移動することにより、モーフィング係数が最大値をとる期間、およびモーフィング係数の最大値を調整することができる。ダイヤル614は、歌唱表現の適用開始からモーフィング係数が最大に達するまでの曲線の形状(モーフィング係数の増加率のプロファイル)を調整するための画像オブジェクトである。ダイヤル614を操作すると、歌唱表現の適用開始からモーフィング係数が最大に達するまでの曲線が、例えば下に凸なプロファイルから線形なプロファイルを経て、上に凸なプロファイルに変化する。ダイヤル615は、モーフィング係数の最大期間の終期から歌唱表現の適用終了までの曲線の形状(モーフィング係数の減少率のプロファイル)を調整するための画像オブジェクトである。ユーザーは、ダイヤル614および615を操作することにより、ノート内の時間経過に伴うモーフィング係数の変化曲線の形状を調整することができる。UI部30は、図21のグラフにより特定されるパラメーターを合成器20に出力する。合成器20は、これらのパラメーターを用いて制御された歌唱表現の素片が加味された合成歌唱を生成する。「パラメーターを用いて制御された歌唱表現の素片が加味された合成歌唱」とは、例えば図14の処理により処理された素片が加算された合成歌唱をいう。既に説明したようにこの加算は時間領域で行われてもよいし周波数領域で行われてもよい。UI部30の音出力手段33は、生成された合成歌唱を出力する。
3.変形例
本発明は上述の実施携帯に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上のものが組み合わせて用いられてもよい。
歌唱表現が付与される対象は歌唱音声に限定されず、歌唱を伴わない音声であってもよい。すなわち歌唱表現は音声表現であってもよい。また、音声表現が付与される対象となる音はコンピュータ装置により合成された合成音に限定されず、実際の人間の歌唱音声であってもよい。さらに、歌唱表現が付与される対象は、人間の声を基にしたものではない音であってもよい。
音声合成装置1の機能構成は実施形態で例示したものに限定されない。実施形態で例示した機能の一部は省略されてもよい。例えば、音声合成装置1は、タイミング計算手段21、時間伸縮マッピング手段22、短時間スペクトル操作手段23のうち少なくとも一部の機能が省略されてもよい。
音声合成装置1のハードウェア構成は実施形態で例示したものに限定されない。要求される機能を実現できるものであれば、音声合成装置1はどのようなハードウェア構成を有していてもよい。例えば、音声合成装置1は、ネットワーク上のサーバ装置と協働するクライアント装置であってもよい。すなわち、音声合成装置1としての機能は、ネットワーク上のサーバ装置およびローカルのクライアント装置に分散されてもよい。
CPU101等により実行されるプログラムは、光ディスク、磁気ディスク、半導体メモリーなどの記憶媒体により提供されてもよいし、インターネット等の通信回線を介してダウンロードされてもよい。
1…音声合成装置、10…データベース、20…合成器、21…タイミング計算手段、22…時間伸縮マッピング手段、23…短時間スペクトル操作手段、24…合成手段、25…特定手段、26…取得手段、30…UI部、31…表示手段、32…受け付け手段、33…音出力手段、101…CPU、102…メモリー、103…ストレージ、104…入出力IF、105…ディスプレイ、106…入力装置、911…楽譜表示領域、912…ウインドウ、913…ウインドウ、2401…スペクトル生成手段、2402…逆フーリエ変換手段、2403…合成窓適用手段、2404…重畳加算手段、2411…スペクトル生成手段、2412…逆フーリエ変換手段、2413…合成窓適用手段、2414…重畳加算手段、2415…歌唱合成手段、2416…乗算手段、2417…乗算手段、2418…加算手段

Claims (3)

  1. 合成音の合成に用いられるスペクトル包絡概形の時間変化を取得するステップと、
    前記合成音に付与される音声表現の表現素片の合成に用いられる前記スペクトル包絡概形の時間変化を取得するステップと、
    前記合成音の前記スペクトル包絡概形の時間変化に第1係数を乗算し、前記表現素片の前記スペクトル包絡概形の時間変化に第2係数を乗算し、両者を加算するステップと、
    加算により得られた前記スペクトル包絡概形の時間変化を用いて、前記音声表現が付与された合成音を生成するステップと
    を有する音声合成方法。
  2. 前記合成音の合成に用いられるスペクトル包絡の時間変化を取得するステップと、
    音声表現の合成に用いられる前記スペクトル包絡の時間変化を取得するステップと、
    前記合成音の前記スペクトル包絡の時間変化に第3係数を乗算し、前記表現素片の前記スペクトル包絡の時間変化に第4係数を乗算し、両者を加算するステップと、
    加算により得られた前記スペクトル包絡概形および前記スペクトル包絡の時間変化を用いて、音声表現が付与された合成音を生成するステップと
    を有する請求項1に記載の音声合成方法。
  3. 前記表現素片の基準となる音高を取得するステップと、
    加算の前に、前記表現素片の音高と前記合成音の音高とが一致するように、当該表現素片の音高をシフトするステップと
    を有する請求項1または2のいずれか一項に記載の音声合成方法。
JP2016217377A 2016-11-07 2016-11-07 音声合成方法 Expired - Fee Related JP6683103B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016217377A JP6683103B2 (ja) 2016-11-07 2016-11-07 音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016217377A JP6683103B2 (ja) 2016-11-07 2016-11-07 音声合成方法

Publications (2)

Publication Number Publication Date
JP2018077280A true JP2018077280A (ja) 2018-05-17
JP6683103B2 JP6683103B2 (ja) 2020-04-15

Family

ID=62149009

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016217377A Expired - Fee Related JP6683103B2 (ja) 2016-11-07 2016-11-07 音声合成方法

Country Status (1)

Country Link
JP (1) JP6683103B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110720122A (zh) * 2017-06-28 2020-01-21 雅马哈株式会社 音发生装置及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018097A (ja) * 2000-12-28 2005-01-20 Yamaha Corp 歌唱合成装置
JP2014002338A (ja) * 2012-06-21 2014-01-09 Yamaha Corp 音声処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018097A (ja) * 2000-12-28 2005-01-20 Yamaha Corp 歌唱合成装置
JP2014002338A (ja) * 2012-06-21 2014-01-09 Yamaha Corp 音声処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110720122A (zh) * 2017-06-28 2020-01-21 雅马哈株式会社 音发生装置及方法
CN110720122B (zh) * 2017-06-28 2023-06-27 雅马哈株式会社 音发生装置及方法

Also Published As

Publication number Publication date
JP6683103B2 (ja) 2020-04-15

Similar Documents

Publication Publication Date Title
JP6791258B2 (ja) 音声合成方法、音声合成装置およびプログラム
JP5958866B2 (ja) 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
JP6724932B2 (ja) 音声合成方法、音声合成システムおよびプログラム
KR20150016225A (ko) 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환
JP2002202790A (ja) 歌唱合成装置
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP4813796B2 (ja) 信号を合成するための方法、記憶媒体及びコンピュータシステム
US20210375248A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
Bonada et al. Sample-based singing voice synthesizer by spectral concatenation
JP6821970B2 (ja) 音声合成装置および音声合成方法
JP2018077283A (ja) 音声合成方法
JP6737320B2 (ja) 音響処理方法、音響処理システムおよびプログラム
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
JP2015161774A (ja) 音合成方法及び音合成装置
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JP2002268658A (ja) 音声分析及び合成装置、方法、プログラム
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP6683103B2 (ja) 音声合成方法
JP6834370B2 (ja) 音声合成方法
JP2003345400A (ja) ピッチ変換装置、ピッチ変換方法及びプログラム
JP6011039B2 (ja) 音声合成装置および音声合成方法
JP4490818B2 (ja) 定常音響信号のための合成方法
JP6822075B2 (ja) 音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200309

R151 Written notification of patent or utility model registration

Ref document number: 6683103

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees