JP6004358B1 - 音声合成装置および音声合成方法 - Google Patents

音声合成装置および音声合成方法 Download PDF

Info

Publication number
JP6004358B1
JP6004358B1 JP2015229428A JP2015229428A JP6004358B1 JP 6004358 B1 JP6004358 B1 JP 6004358B1 JP 2015229428 A JP2015229428 A JP 2015229428A JP 2015229428 A JP2015229428 A JP 2015229428A JP 6004358 B1 JP6004358 B1 JP 6004358B1
Authority
JP
Japan
Prior art keywords
parameter
series
parameter series
speech synthesizer
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015229428A
Other languages
English (en)
Other versions
JP2017097176A (ja
Inventor
恵一 徳田
恵一 徳田
圭一郎 大浦
圭一郎 大浦
和寛 中村
和寛 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Techno Speech Inc
Original Assignee
Techno Speech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Techno Speech Inc filed Critical Techno Speech Inc
Priority to JP2015229428A priority Critical patent/JP6004358B1/ja
Application granted granted Critical
Publication of JP6004358B1 publication Critical patent/JP6004358B1/ja
Publication of JP2017097176A publication Critical patent/JP2017097176A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】構成パラメータから生成される加算パラメータを編集する際の操作性を向上させる。【解決手段】音声合成装置は、統計的手法により学習された音響パラメータを含む音響モデルを予め記憶する記憶部と、音響パラメータから生成され入力された楽譜に対応した音響パラメータ値の変化を表す第1のパラメータ系列と、第1のパラメータ系列から生成される第2のパラメータ系列と、をそれぞれ生成するパラメータ生成部と、少なくとも第2のパラメータ系列を編集可能な態様で使用者に提示するパラメータ提示部と、第1のパラメータ系列に含まれる各音響パラメータ値と第2のパラメータ系列に含まれる各音響パラメータ値との少なくとも一方を用いて歌声を合成する合成部を備える。パラメータ生成部は、第2のパラメータ系列が編集された場合、編集後の第2のパラメータ系列を用いて第1のパラメータ系列を再生成する。【選択図】図10

Description

本発明は、音声合成の技術に関する。
従来から、自然な音声をコンピュータによって合成する装置が種々提案されている。こうした音声合成を可能とする方式としては、波形接続方式や、隠れマルコフモデル(HMM、Hidden Markov Model)を用いた方式が知られている。
音声合成のうち、特に歌声を合成する歌声合成においては、ピッチ(音高)やボリューム(音の大きさ)を変動させることで聴感的に自然な合成音を生成できることが知られている。従来、ピッチやボリュームを変動させる方法として、ピッチやボリュームを構成する種々のパラメータ(例えば、基本周波数パラメータ、ビブラート等の歌唱表現のパラメータ、以降「構成パラメータ」とも呼ぶ。)をGUI(Graphical User Interface)により編集可能とした装置が知られている(例えば、特許文献1)。このような装置では、使用者は、GUIを用いて構成パラメータを変更することによってピッチやボリュームを変動させることができる。
特開2015−049253号公報
しかし、上述した従来の技術では、ピッチやボリュームの変動は、あくまで構成パラメータの変更に追随して起こるに過ぎない。すなわち、従来の技術では、使用者がピッチやボリュームを直接編集することができず、直感的な操作ができないという課題があった。なお、このような課題は、ピッチとボリュームの何れか一方を変動させようとする場合と、ピッチとボリュームの両方を変動させようとする場合と、に共通する課題であった。また、このような課題は、ピッチやボリュームに限らず、構成パラメータから生成される各種パラメータ(以降「加算パラメータ」とも呼ぶ。)に共通する課題であった。
本発明は、構成パラメータから生成される加算パラメータを編集する際の操作性を向上させることを目的とする。
本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の形態として実現することが可能である。本発明の第1の実施形態として、音声合成装置が提供される。この音声合成装置は、統計的手法により学習された音響パラメータを含む音響モデルを予め記憶する記憶部と、パラメータ生成部と、少なくとも前記第2のパラメータ系列を、編集可能な態様で使用者に提示するパラメータ提示部と、前記第1のパラメータ系列に含まれる各音響パラメータ値と、前記第2のパラメータ系列に含まれる各音響パラメータ値と、の少なくとも一方を用いて歌声を合成する合成部と、を備える。この音声合成装置におけるパラメータ生成部は、入力された楽譜を解析して得られた情報と前記記憶されている音響モデルとを用いて生成された音響パラメータの系列であり、歌唱表現を加えていない基本データが少なくとも含まれる第1のパラメータ系列と、関係する前記第1のパラメータ系列を加算することで生成される第2のパラメータ系列とをそれぞれ生成する。しかも、このパラメータ生成部は、前記第2のパラメータ系列が編集された場合、編集後の前記第2のパラメータ系列を用いて、前記加算に使用された前記第1のパラメータ系列のうち、前記編集の内容に応じた少なくとも一部を再生成する。
(1)本発明の一形態によれば、音声合成装置が提供される。この音声合成装置は;統計的手法により学習された音響パラメータを含む音響モデルを予め記憶する記憶部と;パラメータ生成部であって;記憶されている前記音響パラメータから生成される第1のパラメータ系列であって、入力された楽譜に対応した音響パラメータ値の変化を表す第1のパラメータ系列と;前記第1のパラメータ系列から生成される第2のパラメータ系列と、をそれぞれ生成するパラメータ生成部と;少なくとも前記第2のパラメータ系列を、編集可能な態様で使用者に提示するパラメータ提示部と;前記第1のパラメータ系列に含まれる各音響パラメータ値と、前記第2のパラメータ系列に含まれる各音響パラメータ値と、の少なくとも一方を用いて歌声を合成する合成部と、を備え;前記パラメータ生成部は;前記第2のパラメータ系列が編集された場合、編集後の前記第2のパラメータ系列を用いて前記第1のパラメータ系列を再生成する。
この形態の音声合成装置によれば、入力された楽譜に対応した音響パラメータ値の変化を表す第1のパラメータ系列(すなわち構成パラメータ系列)と、第1のパラメータ系列から生成される第2のパラメータ系列(すなわち加算パラメータ系列)とが取り扱われる。本形態の音声合成装置によれば、第2のパラメータ系列(加算パラメータ系列)がパラメータ提示部により編集可能な態様で提示される。このため、使用者は、第2のパラメータ系列(加算パラメータ系列)中の各値を、直接、所望の値に編集することができるため、第2のパラメータ系列(加算パラメータ系列)を編集する際の操作性を向上させることができる。
(2)上記形態の音声合成装置において;前記パラメータ提示部は;前記第2のパラメータ系列に加えてさらに、前記第1のパラメータ系列を使用者に提示し;前記第1のパラメータ系列が再生成された場合は、再生成後の前記第1のパラメータ系列を使用者に提示してもよい。
この形態の音声合成装置によれば、使用者は、第1,2のパラメータ系列の両方を確認することができ、かつ、再生成後の第1のパラメータ系列を確認することもできるため、使用者における利便性を向上させることができる。
(3)上記形態の音声合成装置において;前記パラメータ提示部は;使用者が、前記第1のパラメータ系列と、前記第2のパラメータ系列とを同時に視認可能な態様で提示してもよい。
この形態の音声合成装置によれば、使用者は、第1,2のパラメータ系列を同時に確認することができるため、使用者における利便性をより向上させることができる。
(4)上記形態の音声合成装置において;前記パラメータ提示部は;前記第2のパラメータ系列の視認性を、前記第1のパラメータ系列と比較して高くした状態で、前記第1のパラメータ系列と前記第2のパラメータ系列とを提示してもよい。
この形態の音声合成装置によれば、使用者は、同時に提示される第1,2のパラメータ系列の間において、第2のパラメータ系列をより確認(視認)しやすくなる。このため、使用者は、第2のパラメータ系列が編集対象であるという旨を直感的に理解することができる。
(5)上記形態の音声合成装置において;前記パラメータ提示部は、前記第2のパラメータ系列に加えてさらに、前記第1のパラメータ系列を編集可能な態様で使用者に提示し;前記パラメータ生成部は、さらに、前記第1のパラメータ系列が編集された場合、編集後の前記第1のパラメータ系列を用いて前記第2のパラメータ系列を再生成し;前記パラメータ提示部は、さらに、前記第2のパラメータ系列が再生成された場合は、再生成後の前記第2のパラメータ系列を使用者に提示してもよい。
この形態の音声合成装置によれば、使用者は、第1,2のパラメータ系列の両方を直接、所望の値に編集することができ、かつ、再生成後の第1,2のパラメータ系列を確認することもできる。即ち使用者は、第1,2のパラメータ系列を双方向に編集し、その結果をリアルタイムに確認することができるため、使用者における利便性をより向上させることができる。
(6)上記形態の音声合成装置において、さらに;前記編集の内容を取得するパラメータ取得部を備え;前記パラメータ取得部は;予め割り当てられた第1の操作方法による操作を、前記第1のパラメータ系列に含まれる、あるパラメータ系列に対する編集内容として取得し;予め割り当てられた第2の操作方法であって、前記第1の操作方法とは異なる第2の操作方法による操作を、前記第1のパラメータ系列に含まれる、別のパラメータ系列に対する編集内容として取得してもよい。
この形態の音声合成装置によれば、使用者は、異なる操作方法を用いることによって、第1のパラメータ系列に含まれる種々のパラメータ系列の中から、編集を意図する1つのパラメータ系列を指定することができるため、使用者における利便性をより向上させることができる。
(7)上記形態の音声合成装置において、さらに;前記編集の内容を取得するパラメータ取得部を備え;前記パラメータ取得部は;予め割り当てられた第3の操作方法による操作を、前記第1のパラメータ系列に対する編集内容として取得し;予め割り当てられた第4の操作方法であって、前記第3の操作方法とは異なる第4の操作方法による操作を、前記第2のパラメータ系列に対する編集内容として取得してもよい。
この形態の音声合成装置によれば、使用者は、異なる操作方法を用いることによって、第1,2のパラメータ系列のうち、編集を意図するパラメータ系列を指定することができるため、使用者における利便性をより向上させることができる。
(8)上記形態の音声合成装置において;前記第1のパラメータ系列には、少なくとも;音高のパラメータ値の変化を表す音高のパラメータ系列と;歌唱表現のパラメータ値の変化を表す歌唱表現パラメータ系列と;が含まれ;前記パラメータ提示部は;前記第1のパラメータ系列に含まれる全てのパラメータ系列を使用者に提示してもよい。
この形態の音声合成装置によれば、使用者は、第1のパラメータ系列に含まれる全てのパラメータ系列を確認することができるため、使用者における利便性をより向上させることができる。
(9)上記形態の音声合成装置において;前記歌唱表現には、少なくとも、ビブラート、しゃくり、こぶし、アタック、リリースのうちの1つが含まれてもよい。
(10)上記形態の音声合成装置において;前記音声合成装置には、ポインティングデバイスを備える画像表示装置が接続され;前記パラメータ提示部は;グラフィカルユーザインタフェースを用い、かつ、前記ポインティングデバイスによる操作が可能な態様で、前記第2のパラメータ系列を前記画像表示装置に対して表示させてもよい。
この形態の音声合成装置によれば、使用者は、GUI表示された第2のパラメータ系列を、ポインティングデバイスを用いることによって簡単に編集することができる。
(11)上記形態の音声合成装置において;第2のパラメータ系列には、少なくとも、音高に関するパラメータ系列と、音の大きさに関するパラメータ系列と、声の年齢に関するパラメータ系列と、音のかすれ具合に関するパラメータ系列と、のうちのいずれか1つを含んでもよい。
なお、本発明は、種々の態様で実現することが可能であり、例えば、歌声合成装置、歌声合成装置を利用した歌声合成システム、歌声合成装置や歌声合成システムの機能を実現するために情報処理装置において実行される方法、コンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。
歌声合成装置の実施形態の概略構成図。 HMMを用いた音響モデルとその学習の原理を示す説明図。 歌声合成準備ルーチンを示すフローチャート。 データから抽出される代表的なパラメータを示す説明図。 音響モデルを用いた学習の基本単位であるコンテキスト依存の音素を示す説明図。 HMMの状態の集合をクラスタリングする様子を示す説明図。 状態継続長モデルと各パラメータの決定木の様子を示す説明図。 歌声合成ルーチンの手順を示すフローチャート。 編集画面の一例を示す図。 パラメータ系列の編集方法の第1の例を示す図。 パラメータ系列の編集方法の第2の例を示す図。 パラメータ系列の編集方法の第3の例を示す図。 パラメータ系列の編集方法の第4の例を示す図。 パラメータ系列の編集方法の第5の例を示す図。
A.実施形態:
本発明のいくつかの実施形態について、図面を参照しながら説明する。
A−1.歌声処理装置の構成:
図1は、本発明の歌声処理装置の第1実施形態を示す概略構成図である。本実施形態の歌声処理装置100は、統計的手法により学習された音響パラメータを含む音響モデルから歌声を合成する装置であって、使用者が、合成される音の高低(以降、「音高」または「ピッチ」とも呼ぶ)および音の大きさ(以降「ボリューム」とも呼ぶ)を編集する際の操作性を向上させた歌声処理装置100である。歌声処理装置100は、予め歌声を合成するための音響パラメータを学習する構成と、実際に歌声を合成する構成(即ち歌声合成装置としての構成)と、の両方を含んでいる。単に歌声の合成のみを行なうのであれば、前者の構成は必要ない。ここでは、両方を併せて説明するが、歌声合成のみを行なうのであれば、学習済みの音響モデルをハードディスクなどの記憶部に記憶しておき、この音響モデルを用いて音声合成を行なえばよい。
図1に示した歌声処理装置100は、ネットワークNWを介して接続されたコンピュータPC1と、サーバ30およびサーバ30に接続されたもう一台のコンピュータPC2とから構成されている。歌声処理装置100は、一台のコンピュータによって構成することもできるし、ネットワーク上に分散して置かれた複数のコンピュータから構成することも可能である。
コンピュータPC1は、歌声を入力するために設けられており、楽譜入力部10および歌唱(歌声として音声)を入力するための音声入力部20とを備える。楽譜入力部10は一般にはキーボードが用いられ、音声入力部20としてはマイクが用いられる。歌い手が音声入力部20としてマイクに向かって歌い、その歌詞を含む楽譜を楽譜入力部10であるキーボードから入力すると、楽譜と歌声とが対応付けられて、コンピュータPC1内に保存される。楽譜を入力する場合、五線紙に記載された楽譜の形で入力しても良いが、鍵盤タイプのキーボードを用いて入力しても良い。後者の場合、楽譜入力部10として、テキスト入力用のキーボードの他に、ピアノ鍵盤タイプのキーボードを併用するものとし、鍵盤タイプのキーボードによる音程および音の長さの入力と、テキスト入力用のキーボードによる歌詞(日本語の場合は、各音に対応したかな文字列)の入力とを、対応付けながら行えば良い。歌唱の楽譜と歌声のデータは、一回当たり少なくとも数分蓄積される。後述するように、この楽譜と歌声のデータは、サーバ30内の音響パラメータ学習部により解析される。解析するためには、楽譜と歌声のデータに、全ての音素やその組み合わせ、全ての歌唱表現が含まれている必要はないが、統計的な学習が可能な程度の種類の音素とその組み合わせ、および種々の歌唱表現が含まれていることが望ましい。従って、一般に、おおよそ数分から数十分程度の歌声が必要とされる。
歌声入力用のコンピュータPC1をサーバ30と分離したのは、複数の歌い手のデータ入力を容易にするためである。コンピュータPC1は、マイクを備えたノートパソコンなどにより実現でき、簡易に持ち運んで、楽譜と歌声を採取・保存することができる。なお、この例では、歌声は、直接マイクなどの音声入力部20から入力するものとしたが、音源は生歌である必要はなく、CDやDVDなどに記録された歌声から採取するものとしても差し支えない。あるいはネットワークNWを介して入力するものとしても良い。
こうして採取・記録された歌声のデータは、ネットワークNWを介してサーバ30に送られ、サーバ30内のハードディスク31に保存される。サーバ30内には、楽譜解析部33と音響パラメータ学習部40と音響モデル記憶部50とが備えられている。音響モデル記憶部50は「記憶部」として機能する。サーバ30には、この他、パラメータ取得部55、パラメータ提示部56、楽譜解析部57、音声合成部60が設けられており、音響モデル記憶部50と共に、歌声合成装置を構成している。音声合成部60は「合成部」として機能する。
パラメータ取得部55とパラメータ提示部56と楽譜解析部57とは、コンピュータPC2との間でデータのやり取りを行なう。コンピュータPC2には、キーボード51、マウスなどのポインティングデバイス52、および表示部53が設けられている。キーボード51からは、主に合成しようとする歌声の楽譜のデータが入力される。また表示部53には、後述する音響パラメータを表すGUI(Graphical User Interface)が表示される。コンピュータPC2は、GUIを用い、ポインティングデバイス52により、この音響パラメータを指定あるいは修正することができる。詳細は後述する。
サーバ30内の学習部40について説明する。学習部は、ハードディスク31内に記憶された各楽譜と音声データとの組から、音響モデルを構築するための学習を行なう。この学習は、最終的に歌声の合成を行なうためになされるので、本実施形態で用いる歌声合成の手法について先にその概略を説明する。本実施形態では、人が歌声を生成するのに用いている声帯や口蓋などの諸器官を、音源(励振源)と所定の伝達特性を持ったフィルタであるとして捉え、これをデジタルフィルタにより模擬する。このとき、音声波形から抽出されたスペクトルパラメータ、基本周波数、周期/非周期情報からなる音響パラメータの時間軸に沿った列を用いる。これらの音響パラメータの列を、楽譜から推定することができれば、楽譜からそれに対応した音声を合成することができる。そこで、実際の歌声のデータと楽譜とから、音響パラメータの列とそれに対応する楽譜との関係を、所定の音響モデルを用いて学習するのである。こうした音響モデルとしては、本実施形態では、隠れマルコフモデル(HMM、Hidden Markov Model)を採用した場合を例示する。
図2は、HMMを用いた音響モデルとその学習の原理を示す説明図である。図2では、音素を最小単位とし、この最小単位内において、観測系列の経時的変動を例として3つの状態で表しており、最初に位置する状態に「1」を、中央に位置する状態に「2」を、最後に位置する状態に「3」をそれぞれ付した。
図2において、aijは、遷移確率を示している。i=jの場合には、音素の同じ部分に留まる確率を示し、j=i+1の場合には、次の部分に遷移する確率を示す。このとき、観測系列oは、出力確率密度関数bq(o)により得られる値となる。このように、本実施形態では、楽譜と歌声データとから、コンテキストを考慮したHMMを学習するのであり、一旦、歌い手毎に学習されたHMMが出来上がれば、このHMMを用いて、楽譜から歌声を合成するのである。こうしたHMMで学習される状態遷移確率aijと出力確率密度関数bq(o)は、最尤推定法の1つである期待値最大化(EM)アルゴリズムを用いて推定することができる。
次に、HMMの学習で用いられる音響パラメータについて説明する。基本的に音響パラメータとして、音声波形から抽出されたスペクトルパラメータ、基本周波数、周期/非周期情報が想定されることは既に説明した。ここで、スペクトルパラメータとしてはメルケプストラムや線スペクトル対(LSP)などを用いる。本実施形態では、メルケプストラムを用いた。メルケプストラムとは、音声信号のフーリエ変換の対数を更に逆フーリエ変換したものに、人の聴覚特性に合わせて低周波数領域の情報を多く持つようにした情報である。基本周波数とは、一般に、対数を取った値を用いる。周期/非周期とは、母音のように周期的な音声か子音のように周期性のない音声かの区別である。この他、動的特徴と呼ばれるパラメータも用いられる。動的特徴とは、基本周波数やメルケプストラムなどのパラメータの時間方向の1次微分(デルタ)や二次微分(デルタデルタ)に対応するパラメータである。これらのパラメータは、HMMが時系列データの時間軸方向の相関関係をモデル化しにくいという点を補うために用いられる。動的特徴を扱うことで、音素列を合成する際のつなぎ目が滑らかになる。
ここまで、音響モデルは、スペクトルパラメータや基本周波数を用いたHMMであるとして説明したが、実際に用いられるモデルはもっと複雑である。以下、実際に導入されているモデルについて簡略に説明する。
(A)状態継続長モデル:歌声の中に含まれる各音素の長さは、歌唱スタイルなどによって変動することから、音声の時間的な構造(どれだけその音素が継続するか)をより精度良くモデル化するために、明示的な状態継続長分布を用いている。これは隠れセミマルコフモデルと呼ばれるモデルである。なお、本実施形態では、単に「HMM」というとき、状態継続長モデル付きのHMMを意味する。
(B)コンテキスト依存モデル:音声のスペクトルや基本周波数、継続長といった音響パラメータは、歌詞に含まれる言語的な情報や楽譜に基づく歌い方の影響を受けやすい。このため、歌詞の言語情報と、更に楽譜から得られる音高、テンポ、調性、拍子などのコンテキストを考慮してモデル化している。
(C)多空間確率分布HMM:音声には無声部があって、そこでは基本周波数の時系列データそのものが存在しない。本実施形態では、こうした特殊な時系列を扱うために、多空間確率分布HMM(MSD−HMM)を用いる。
(D)歌唱表現モデル:歌声には、楽譜から見た場合、様々なズレが存在する。これを広義の歌唱表現と呼ぶ。歌唱表現は、特定の歌唱スタイルによる歌唱を特徴付けるものとなっているため、これらも学習に使用される。以下、広義の歌唱表現に含まれるものを挙げる。歌唱表現には、これら全てが含まれる必要はない。
(1)タイミング:実際の歌声は、楽譜から計算される音符の時間軸上の位置から意図せずもしくは意図的にずれることがある。例えば、子音はその音符の開始タイミングより少し前で発声されることが多い。また「前ノリ」「後ノリ」「タメ」など、発声のタイミングを意図的にずらす歌唱表現が存在する。このため、楽譜から計算される絶対的な時間を基準とした実際の発声との時間的なズレを、音素単位でモデル化している。
(2)音高のビブラート:音高(ピッチ)のビブラートは、音高を周期的に揺らす歌唱表現である。歌声において音高のビブラートがかかるタイミングやその周期、振幅の変化は、歌唱スタイル毎に異なるため、歌唱スタイル毎の音響モデルの学習に用いられる。音高のビブラートは、更にその周期と振幅の2つのパラメータとして扱われ、音響モデルに組み込まれる。
(3)音の大きさのビブラート:音の大きさ(ボリューム)のビブラートは、音の大きさを周期的に揺らす歌唱表現である。音高のビブラートと同様に、歌声における音の大きさのビブラートがかかるタイミングやその周期、振幅の変化は歌唱スタイル毎に異なる。このため、音の大きさのビブラートも、歌唱スタイル毎の音響モデルの学習に用いられる。音の大きさのビブラートは、更にその周期と振幅の2つのパラメータとして扱われ、音響モデルに組み込まれる。
(4)その他の歌唱表現:上記のビブラート以外にも様々な歌唱表現が存在する。例えば、音高(ピッチ)に影響を与える歌唱表現として「しゃくり」「こぶし」などがある。ここで「しゃくり」には、しゃくり上げやしゃくり下げが含まれる。また、音の大きさ(ボリューム)に影響を与える歌唱表現として「アタック・リリース」などがある。こうした歌唱表現は、ピッチやボリュームの音符途中での変動量として扱うことができ、音響モデルに組み込まれる。
本明細書では、上述した各モデルを含めて、HMMと称する。なお、上述した音響モデルは、必ずしも全て使用される必要はなく、その一部を省略してもよい。
図1に戻って、サーバ30内の構成について、更に説明する。上述したように、歌声合成のための音響モデルを学習するために、ハードディスク31に記憶された歌声のデータから、歌声の基本周波数やその微分(デルタパラメータ)を抽出するF0抽出部41、歌声に含まれるスペクトルパラメータやその微分(デルタパラメータ)を抽出するSP抽出部43、上述した広義の歌唱表現パラメータを抽出する歌唱P抽出部44、これらの抽出した音響パラメータを用いて、HMMを学習するHMM学習部45が含まれる。これらのパラメータは、図2を用いて説明したように、音素の配列である音素列データ(コンテキスト依存モデル)を基本として、学習される。
図3を用いて、歌声合成の準備のために実行される処理について説明する。図3に示した歌声合成準備ルーチンの前半(ステップS110〜S120)は、コンピュータPC1により実行される。後半(ステップS140〜S160)は、サーバにより実行される。
A−2.歌声合成準備ルーチン:
この歌声合成準備ルーチンが開始されると、まず歌声のデータの入力が行なわれる(ステップS110)。歌声のデータは、少なくとも数分分の歌唱を、マイクなどの音声入力部20を介して入力し、デジタルデータとして記憶することにより入力される。続いて楽譜入力部10により楽譜の入力が行なわれる(ステップS120)。歌声データに対して、入力された楽譜から抽出された音程と歌詞(発音)とが対応付けられる。
次にこの歌声データと楽譜とを受け取ったサーバ30において、データの解析が行なわれる(ステップS140)。データの解析は、ハードディスク31に記憶された歌声を順次取り出して行なわれる。データ解析には、楽譜解析部33を用いた楽譜の解析と、学習部40のF0抽出部41による基本周波数およびその関連パラメータの解析、SP抽出部43によるスペクトルパラメータ(SP)およびその関連パラメータの解析、更には、歌唱表現関連のパラメータの解析が含まれる。図4に、こうした解析により抽出される各種パラメータを例示した。
基本周波数は、一般に対数基本周波数pとして扱われており、その関連パラメータとしては、有声/無声の区別、対数基本周波数の一次微分(Δp)や二次微分(Δ)が考えられる。これらは音源情報と呼ばれることがある。なお、無声部分は対数基本周波数pの値を持たない。このため、無声部分に所定の定数を入れる等の方法によって有声/無声の区別を行う。また、スペクトルパラメータとしては、メルケプストラムcやその一次微分(Δc)、二次微分(Δ)などがある。一時微分と二次微分とは、時間的変動を考慮するために使用される。これらは、スペクトル情報と呼ばれることがある。更に、こうした音源情報、スペクトル情報の他に、本実施形態では、歌唱表現情報を扱う。
歌唱表現情報には、音高のビブラートの周期V1fおよび振幅V1aと、音の大きさのビブラートの周期V2fおよび振幅V2aと、しゃくりに関するパラメータセットS1〜S6と、アタック・リリースに関するパラメータセットAR1〜AR6とが、音素単位でモデル化されて含まれている。音高のビブラートの周期、音高のビブラートの振幅、音の大きさのビブラートの周期、音の大きさのビブラートの振幅については、それぞれに対応する一時微分(Δ)と、二次微分(Δ)とを持つ。図示の便宜上、図4ではこれら周期および振幅についての一時微分、二次微分の図示を省略している。本実施形態では、しゃくりとアタック・リリースに関しては、「長さ」「高さ」「急峻度」の3つのパラメータを音符の先頭と末尾に、それぞれ持っている。従って、それぞれ6つのパラメータからなる。しゃくりのパラメータ等の学習の手法は、後で説明する。上記パラメータのうち、メルケプストラムcを初めとする各パラメータの一次微分や二次微分は、時間変動を考慮するために用いられる。動的特徴を考慮することにより、歌声の合成時における音と音のつながりが滑らかなものとなる。動的特徴を用いた音声合成の手法については、説明を省略する。
続いて、解析したデータを用いて、コンテキスト依存モデルを構築する(ステップS150)。コンテキスト依存モデルの構築は、抽出した各パラメータを用いて、隠れセミマルコフモデルを学習するものであり、概略以下の処理を行なう。上述したように、コンテキスト依存モデルの構築は、基の歌声データに含まれる音素毎に行なうが、音素を単独で扱うのではなく、音声合成において、音声変動を引き起こす多数の要因と共にHMM学習を行なう。合成しようとする音声に音声変動を引き起こする要因としては、例えばその音素の前後の音素の組み合わせ(前後の音素と当該音素の組合せである音素列トライフォンや、更にその前後の音素を考慮したクインフォンなど)や、楽譜情報や言語情報などがある。楽譜情報としては、前後の音素の音程や、休止符の長さなどがある。また言語情報としては、当該音素が属する語の品詞、活用形あるいはアクセントの位置、アクセント型など種々の情報がある。これらの要因をまとめて、コンテキストと呼ぶ。
滑らかな音声合成を行なう場合、考慮すべき要因は多数に上るが、学習の手法を概説するために、図5では、コンテキスト付きの音素の一例として上記のトライフォンを示した。図5は、「さっぱりわからない」という歌声を例に、トライフォンを取り出す場合を示す説明図である。「さっぱりわからない」という音声データの中には、音素aは複数回出現するが、同じ音素であっても前後の音素等のコンテキストが異なると音声の音響的特徴が異なる。そのため、当該音素が同じaであっても、前後の音素を考慮したトライフォンとして別々にモデル化する。なお、特定の音素に着目したとき、これに先行あるいは後続する音素が存在しない場合もあることから、その場合は「sil」などの無音を表す音素があるものとする。ハードディスク31に記憶された歌声から、音素を、コンテキストを考慮した状態で順次取り出す。コンテキストが考慮された音素を、以下、コンテキスト依存音素と呼ぶ。数分から数十分の歌声から取り出されるコンテキスト依存音素の数は数百から数万に上る。ハードディスク31から取りだしたコンテキスト依存音素の全てに対して、図2に示した状態遷移確率aijと出力確率密度関数bq(o)を学習する。つまり、コンテキスト依存音素が属するフレーム毎に図4に示したパラメータを抽出し、各コンテキスト依存音素のHMMを学習するのである。
続いて、コンテキスト依存モデルをクラスタリングして、各クラスタ毎に代表的なガウス分布を求める(ステップS160)。具体的には、コンテキスト依存モデルの構築(ステップS150)で構築されたコンテキスト依存モデルを二分木によって分類していく。はじめにコンテキスト依存モデルの構築(ステップS150)で構築された全てのコンテキスト依存モデルを1つのクラスタとする。そのクラスタに対して予め準備されたコンテキストに関する質問のリストから最適な質問を選択し、当該質問を、クラスタ内のコンテキスト依存モデル(実際は状態番号が同じもの)に対して適用することでクラスタを2分割する。そして、分類されたクラスタに対して同様に質問を選択して適用し、更にクラスタを分割する。これを繰り返すことで分類を行う。クラスタリングがなされた決定木の一例を、図6に示した。図6において、太い矢印は、各二分木の分岐条件に対する判断が「YES」である場合を、細い矢印は各二分木における判断が「NO」であることを示している。このように、各クラスタ毎に代表的なガウス分布が求められれば、クラスタリングされたコンテキスト毎に音声合成が可能なモデル(コンテキスト依存モデル)が得られたことになる。換言すれば、クラスタリングは、音声合成に用いるコンテキスト依存モデルを選択するための決定木を構築するために行なう。音声合成の際には、可能であれば、コンテキストが同一のコンテキスト依存モデルを用いることが望ましい。しかし、限られた音声データからは、上述したように、全てのコンテキストの組み合わせに対応するコンテキスト依存音素が得られる訳ではなく、全てのコンテキストの組み合わせに対応したコンテキスト依存モデルを学習できる訳ではない。そこで、クラスタリングにより、決定木を作り、音声合成時に、最も適したコンテキスト依存モデルを選択できるように準備するのである。
クラスタリングと代表的なガウス分布を求める処理は、統計的に学習された全ての特徴について行なう。この様子を、図7に模式的に示した。1つのコンテキスト依存音素に着目すると、各状態は、状態継続長モデルにより、各状態が継続する長さが与えられる。多数のコンテキスト依存音素からこの状態継続長を決定する二分木が学習されている。これを状態継続長の決定木と呼ぶ。また、コンテキストを考慮したタイミングモデルから、楽譜の時間情報と実際の歌唱タイミングとのずれを決定する二分木が学習されている。これをタイミングの決定木と呼ぶ。同様に、しゃくり上げやしゃくり下げを含むしゃくりモデルからしゃくりの決定木が、アタック・リリースモデルからはアタック・リリースの決定木が学習されている。さらに、解析されたパラメータ毎に、メルケプストラムの決定木、基本周波数の決定木、および、各歌唱表現(音高のビブラート、音の大きさのビブラート等)の決定木などが構成される。
歌唱表現に関するモデルとその決定木の作り方について、しゃくりを例にして以下簡略に説明する。まずしゃくりのパラメータを無視して音響モデルを作り、これを用いて歌声合成を行なう。合成されたものは、しゃくりを含まない歌声である。そして、しゃくりを含むものとして予め記憶した音声データの基本周波数の系列を、しゃくりを含まない音響モデルから生成した歌声の基本周波数の系列と比較する。両者の差分は、しゃくりの有無であることから、各音符の先頭部分と末尾部分のそれぞれについてしゃくりの「高さ」「長さ」「急峻度」を抽出し、音符単位でコンテキスト依存モデルを作成することができる。そして、抽出したコンテキストを考慮したしゃくりモデルを構築し、コンテキストクラスタリングによりしゃくりの決定木を作る。アタック・リリースについては、ボリュームに関して差分をとる同様の処理を行ない、これからアタック・リリースモデルを構築し、アタック・リリースの決定木をつくる。このようにして、特定の歌唱スタイルの歌声データを基にして、これらの決定木の集合が求められるということが、結局その歌唱スタイルの音響モデルが学習されたことに他ならない。
このようにして学習された音響モデルは、音響モデル記憶部50に記憶される。以上で、歌声合成のための準備が完了する。本実施形態では、音響モデルの準備から説明したが、予め準備された音響モデルを用いて歌声合成をおこなってもよい。音響モデルの学習は上記の手法に限らず、他の手法によってもよい。予め準備された音響モデルを用いて本実施形態の歌声合成を行う場合、図1のPC1、ハードディスク31、楽譜解析部33、FO抽出部41、SP抽出部43、歌唱P抽出部44、HMM学習部45については省略してもよい。
上述した歌声合成準備ルーチン(図3)が実行されると、サーバ30の音響モデル記憶部50には音響モデルが記憶された状態となる。歌声合成は、この音響モデルを用い、サーバ30とコンピュータPC2とを用いて行なう。サーバ30には、パラメータ取得部55、パラメータ提示部56、楽譜解析部57、音声合成部60が設けられている。パラメータ取得部55とパラメータ提示部56とは、使用者による音響パラメータの調整を可能とするために設けられている。詳細は後述する。楽譜解析部57は、合成しようする歌声を表した楽譜を解析して、合成すべき音素列(有声音の音程と音素の組み合わせ)を出力する。音声合成部60は、パラメータ取得部55と楽譜解析部57との出力を受けて音声の合成を行なう。
音声合成部60は、パラメータ生成部61、音源生成部63、合成フィルタ65等を備える。パラメータ生成部61は、楽譜解析部57の出力を受け取り、学習済みの音響モデルから、基本周波数やメルケプストラムパラメータ、歌唱表現パラメータなどの各種の音響パラメータを生成する。音源生成部63は、基本周波数、音高のビブラート、しゃくり、こぶしなどの音高に関与するパラメータを受け取って、励振源パラメータを時間軸に沿って生成する。また、合成フィルタ65は、主にメルケプストラムにより音声を合成するフィルタである。こうしたフィルタとしては、例えばMLSAフィルタなどが知られている。歌唱表現パラメータのうち、音源生成部63での音源生成に関与しないパラメータは、メルケプストラムの一部として、合成フィルタ65に入力される。
A−3.歌声合成ルーチン:
図8は、歌声合成ルーチンの手順を示すフローチャートである。歌声合成ルーチンは、音響モデル記憶部50に記憶されている音響モデルを用いて歌声を合成する処理である。歌声合成ルーチンは使用者の指示を契機として開始され、サーバ30とコンピュータPC2とが協働することにより実行される。
まず、サーバ30は、入力された楽譜を解析する(ステップS210)。使用者は、歌声を合成しようとする歌の楽譜をコンピュータPC2から入力する。具体的には、例えば、ピアノロール画面をコンピュータPC2の表示部53に表示させる。使用者は、ポインティングデバイス52を用いてピアノロール画面の所定部分をなぞることによって、音符および音の長さ(即ちメロディライン)を入力する。また、使用者は、キーボード51を用いてピアノロール画面に入力した音符に対して文字列を割り当てることで、各音符に対応した歌詞を入力する。なお、メロディラインの入力は、鍵盤タイプのキーボードを用いて行われてもよい。また、楽譜の入力は、所定形式の楽譜ファイルを読み込むことによって代替されてもよい。サーバ30は、このようにして入力された楽譜を取得し、取得した楽譜を楽譜解析部57により解析する。楽譜解析部57での解析によって、入力された楽譜に対応したコンテキスト依存音素列のデータ(図2)が生成される。なお、生成された音素列のデータには、音の高さの情報が含まれている。
次に、サーバ30は、構成パラメータ系列を生成する(ステップS220)。構成パラメータ系列の生成は、具体的には例えば、以下の手順a1〜a4によって実施できる。
(a1)パラメータ生成部61は、音響モデル記憶部50に記憶されている音響モデルの中から、ステップS210で得られた各音素列に対応した音響モデルをそれぞれ取得する。
(a2)パラメータ生成部61は、手順a1で取得した音響モデルのうちの状態継続長モデルに従って、時間軸上における各音素の境界(すなわち各音素の区切り)を設定する。パラメータ生成部61は、手順a1で取得した音響モデルのうちのタイミングモデルに従って、時間軸上において設定した各音素の境界を前後に修正する。
(a3)パラメータ生成部61は、手順a1で取得した音響モデルに含まれる各種の音響パラメータ(図4)が格納されたフレームを、時間軸上に配置する。即ち「フレーム」とは、単位時間における各種の音響パラメータの集合を意味する。なお、パラメータ生成部61は、時間軸上にフレームを配置する際、手順a2で設定した各音素の境界に従う。
(a4)パラメータ生成部61は、構成パラメータ系列を生成する。具体的には、パラメータ生成部61は、手順a3で配置されたフレームに含まれる音響パラメータの1つ(例えば、基本周波数)について、動的特徴量を考慮して音素間におけるパラメータ値の変化を滑らかにしたパラメータ系列を生成する。即ち「パラメータ系列」とは、時間軸上におけるパラメータ値の変化を表す情報である。音声パラメータ生成部61は、手順a3で配置されたフレームに含まれる音響パラメータの全てに対して上述の処理を繰り返すことにより、音響パラメータの全てにそれぞれ対応するパラメータ系列をそれぞれ生成する。これにより、スペクトルパラメータ系列、基本周波数のパラメータ系列、歌唱表現パラメータのパラメータ系列などが生成される。歌唱表現パラメータのパラメータ系列には、例えば、音高のビブラートのパラメータ系列、音の大きさのビブラートのパラメータ系列、しゃくりのパラメータ系列、こぶしのパラメータ系列、アタック・リリースのパラメータ系列などが含まれる。以降、音響パラメータについてのパラメータ系列の集合を「構成パラメータ系列」とも呼ぶ。構成パラメータ系列は、「第1のパラメータ系列」として機能する。
次に、サーバ30は、構成パラメータ系列から、音高のパラメータ系列と、音の大きさのパラメータ系列とを生成する(ステップS230)。具体的には、パラメータ生成部61は、構成パラメータ系列のうち、音高に関係するパラメータ(例えば、基本周波数、音高のビブラート、しゃくり、こぶしなど)のパラメータ系列を加算することで、音高のパラメータ系列を生成する。また、パラメータ生成部61は、構成パラメータ系列のうち、音の大きさに関係するパラメータ(例えば、スペクトルパラメータ、音の大きさのビブラート、アタック・リリースなど)のパラメータ系列を加算することで、音の大きさのパラメータ系列を生成する。即ち、音高のパラメータ系列と音の大きさのパラメータ系列とは、構成パラメータ系列の各要素を加算することにより得られるパラメータ系列である。このため、音高のパラメータ系列と音の大きさのパラメータ系列とを総称して「加算パラメータ系列」とも呼ぶ。加算パラメータ系列は、「第2のパラメータ系列」として機能する。なお、ステップS230の「加算」には、列挙した各パラメータを単純に加算することと、列挙した各パラメータを対数領域で加算することとの両方を含む。
図9は、編集画面の一例を示す図である。図9ではピアノロールの図示を省略している。歌声合成ルーチン(図8)においてサーバ30のパラメータ提示部56は、生成した各パラメータ系列を表した画面W1を生成し、コンピュータPC2の表示部53に表示させる(ステップS240)。
図9に示す本実施形態では、画面W1は、加算パラメータ系列の編集に適した画面として構成されている。画面W1には、ツールバーTBと、2つのメインタブMT1、MT2と、メインウィンドウMWと、4つのサブタブST1〜ST4と、サブウィンドウSWと、が含まれている。
ツールバーTBには、各パラメータ系列を編集操作するために使用される種々のツールと、画面W1を操作するために使用される種々のツール(またはボタン)とが含まれている。例えば、図9の例では、ペンツールT1と、消しゴムツールT2と、選択ツールT3と、編集終了ボタンTnとが含まれている。ペンツールT1は、ポインティングデバイス52のドラッグによって各パラメータ系列の形状を描画するためのツールである。消しゴムツールT2は、描画内容を取り消すためツールである。選択ツールT3は、パラメータ系列の中の任意の点(または範囲)を選択するためのツールである。編集終了ボタンTnは、編集作業を終了し、画面W1に表示されている各パラメータ系列を用いた歌声の合成をサーバ30に指示するためのボタンである。なお、ツールバーTBには、例示以外の様々なツール(ボタン)が含まれ得る。
メインタブMT1、MT2は、メインウィンドウMWに表示させる加算パラメータ系列を指定するために使用される。例えば、図9の例では、メインタブMT1には音高(ピッチ)、メインタブMT2には音の大きさ(ボリューム)が、それぞれ割り当てられている。
メインウィンドウMWは、メインタブMT1、MT2によって選択されている加算パラメータ系列を表示するために使用される。図9の例では、メインタブMT1(音高(ピッチ))が選択された場合、メインウィンドウMWには音高のパラメータ系列が表示される。また、メインタブMT2(音の大きさ(ボリューム))が選択された場合、メインウィンドウMWには音の大きさのパラメータ系列が表示される。音高のパラメータ系列と、音の大きさのパラメータ系列とは、いずれも、ステップS230で生成されたものを使用できる。また、いずれの場合においても、メインウィンドウMWのパラメータ系列の背後には、楽譜のメロディラインと歌詞とを表すピアノロール画面が表示される。メロディラインと歌詞とは、ステップS210で取得したものを使用できる。
メインウィンドウMWに表示されているパラメータ系列におけるパラメータ値は、ツールバーTBにおいて選択されているツールでの編集方法(例えば、描画、削除など)に従って、キーボード51やポインティングデバイス52を使用して変更することができる。
サブタブST1〜ST4は、サブウィンドウSWに表示させる構成パラメータ系列を指定するために使用される。例えば、図9の例では、サブタブST1には音高の基本データ(図9:基本)、サブタブST2にはビブラートの周期(図9:Vf)、サブタブST3にはビブラートの振幅(図9:Va)、サブタブST4にはしゃくり(S)が、それぞれ割り当てられている。なお、各サブタブに表示される項目、および、全サブタブの個数は、メインタブMT1、MT2において選択されている項目によって変動する。例えば、メインタブMT2(音の大きさ(ボリューム))が選択された場合、サブタブST1には音の大きさの基本データ、サブタブST2には音の大きさのビブラートの周期、サブタブST3には音の大きさのビブラートの振幅、サブタブST4にはアタック・リリースが、それぞれ割り当てられる。
サブウィンドウSWは、サブタブST1〜ST4によって選択されている構成パラメータ系列を表示するために使用される。図9に示す本実施形態の例では、サブタブST1において基本データ(基本)が選択された場合、サブウィンドウSWには音高基本データのパラメータ系列が表示される。基本データとは、ビブラート等の歌唱表現を加えていない音高(ピッチ)を意味する。同様に、サブタブST2においてビブラートの周期(Vf)が選択された場合、サブウィンドウSWには音高のビブラートの周期のパラメータ系列が、サブタブST3においてビブラートの振幅(Va)が選択された場合、サブウィンドウSWには音高のビブラートの振幅のパラメータ系列が、サブタブST4においてしゃくり(S)が選択され場合、サブウィンドウSWにはしゃくりのパラメータが、それぞれ表示される。上述した各パラメータ系列は、いずれも、ステップS220で生成されたものを使用できる。なお、ボリュームのパラメータ系列は、スペクトルパラメータの一部としてモデル化されることが多く、スペクトルパラメータ系列(ステップS220)から取得することができる。
図9に示す本実施形態の例では、サブウィンドウSWに表示されているパラメータ系列は、表示のみに使用され、変更できない。
メインウィンドウMWとサブウィンドウSWは、それぞれ、横軸が時間軸上の前後方向を表しており、両者の時間単位は同一とされている。また、メインウィンドウMWおよびサブウィンドウSWの縦軸は、ウィンドウに表示されるパラメータ系列によって変化する。例えば、音高を表示するウィンドウである場合、縦軸は音の高さ(例えば対数Hz)となり、音の大きさを表示するウィンドウである場合、縦軸は音の大きさ(例えばdb)となる。
図10は、パラメータ系列の編集方法の第1の例を示す図である。図10ではピアノロールの図示を省略している。上述の通り、使用者は、メインウィンドウMWに表示されているパラメータ系列(図10の例では、音高のパラメータ系列P1)を、コンピュータPC2の入力デバイスを用いて編集することができる。例えば、図10において(1)を付した矢印で表すように、使用者は、ペンツールT1を選択後、ポインティングデバイス52のドラッグ操作によって所望の軌跡を描くことで、音高のパラメータ系列P1中の各値を上昇、下降、時間を前後に移動することができる。
歌声合成ルーチン(図8)においてサーバ30は、編集が終了したか否かを判定する(ステップS250)。具体的には、サーバ30は、画面W1の編集終了ボタンTnの押下を取得した場合に、編集が終了したと判定する。編集が終了した場合(ステップS250:YES)、サーバ30は処理をステップS280に遷移させる。詳細は後述する。
編集が終了していない場合(ステップS250:NO)、即ち編集終了ボタンTnの押下を検出していない場合、サーバ30は処理をステップS260に遷移させる。サーバ30のパラメータ取得部55は、画面W1のメインウィンドウMWにおいて行われた編集内容を取得する(ステップS260)。編集内容は、例えば、元のパラメータ系列からの変化量により特定できる。
次に、サーバ30のパラメータ生成部61は、ステップS260により取得した編集内容(具体的には、元のパラメータ系列からの変化量)に従って、構成パラメータ系列を変更する(ステップS270)。その後、処理はステップS230に遷移される。この結果、変更後の構成パラメータ系列に基づいて、加算パラメータ系列が再生成され(ステップS230)、再生成された加算パラメータ系列が画面W1のメインウィンドウMWに表示されると共に、再生成された構成パラメータ系列が画面W1のサブウィンドウSWに表示される(ステップS240)。なお、ステップS240では、初回にステップS240を実施した際に表示した加算パラメータ系列および構成パラメータ系列の軌跡(即ちデフォルト値による各パラメータ系列の軌跡)を破線表記、色を変更した表記等により残しておくことが好ましい。
この処理を図10の具体例に沿って説明する。使用者が音高のパラメータ系列P1に対する編集(図10:(1)を付した矢印)を施した後、パラメータ取得部55によって、音高のパラメータ系列P1に対する編集内容が取得される(ステップS260)。その後、パラメータ生成部61によって、編集内容に従った構成パラメータ系列の変更が行われる(ステップS270)。この際、ステップS270では、少なくとも音高に関する全ての構成パラメータ系列(基本データ、音高のビブラートの周期、音高のビブラートの振幅、しゃくり、こぶし)の中から、編集内容に応じた少なくとも一部の構成パラメータ系列の各値が変更される。さらに、変更後の構成パラメータ系列に基づいて、音高のパラメータ系列P1が再生成される。最後に、再生成された音高のパラメータ系列P1が画面W1のメインウィンドウMWに表示されると共に、再生成された構成パラメータ系列のうち、サブタブにおいて選択されている基本データのパラメータ系列P11が、画面W1のサブウィンドウSWに表示される(ステップS240)。このようにして、図10において(2)を付した矢印で表すように、音高のパラメータ系列P1に対する編集内容が、基本データのパラメータ系列P11に反映される。
以上のように、歌声合成ルーチン(図8)において、加算パラメータ系列の生成(ステップS230)と、表示(ステップS240)と、編集内容の取得(ステップS260)と、編集内容の反映(ステップS270)とを繰り返すことによって、コンピュータPC2上の画面W1では、メインウィンドウMWに表示されているパラメータ系列(図9および図10の例では、音高のパラメータ系列P1)に対する編集内容が、サブウィンドウSWに表示されているパラメータ系列(図9および図10の例では、基本データのパラメータ系列P11)に対して、リアルタイムに反映される。
歌声合成ルーチン(図8)において編集が終了した場合(ステップS250:YES)、サーバ30は、歌声を合成し、出力する(ステップS280)。具体的には、まず、サーバ30のパラメータ取得部55は、画面W1における最新の構成パラメータ系列および加算パラメータ系列を取得する。次にパラメータ生成部61は、取得された各パラメータ系列を用いて、音源生成部63と合成フィルタ65との設定を行う。その後、歌声処理装置100は、音源生成部63と合成フィルタ65とに設定された各パラメータ系列を用いて合成された歌声を、スピーカ70に出力する。この結果、スピーカ70からは、画面W1に表示されている各パラメータ系列を用いて合成された歌声が再生される。図8の例では、この後処理を終了させるが、使用者は、スピーカ70から再生された歌声が望んだものではない場合などに、処理をステップS230に遷移させて編集操作を継続してもよい。
図11は、パラメータ系列の編集方法の第2の例を示す図である。図11ではピアノロールの図示を省略している。図11において(1)を付した矢印で示すように、使用者は、選択ツールT3を選択後、ポインティングデバイス52のドラッグ操作によって加算パラメータ系列(図の例では、音高のパラメータ系列)中の任意の範囲を選択する。その後、使用者は、選択範囲内の任意の部分を左右にドラッグする。これにより使用者は、加算パラメータ系列の周期を変更することができる。また、この編集内容は、上述の処理により構成パラメータ系列にも反映され、構成パラメータ系列(図の例では、音高のビブラートの周期のパラメータ系列)も変更される。
図12は、パラメータ系列の編集方法の第3の例を示す図である。図12ではピアノロールの図示を省略している。図12において(1)を付した矢印で示すように、使用者は、選択ツールT3を選択後、ポインティングデバイス52のドラッグ操作によって加算パラメータ系列(図の例では、音高のパラメータ系列)中の任意の範囲を選択する。その後、使用者は、選択範囲内の任意の部分を上下にドラッグする。これにより使用者は、加算パラメータ系列の振幅を変更することができる。また、この編集内容は、上述の処理により構成パラメータ系列にも反映され、構成パラメータ系列(図の例では、音高のビブラートの振幅のパラメータ系列)も変更される。
図13は、パラメータ系列の編集方法の第4の例を示す図である。図13ではピアノロールの図示を省略している。図13において(1)を付した矢印で示すように、使用者は、選択ツールT3を選択後、ポインティングデバイス52のクリック操作によって加算パラメータ系列(図の例では、音高のパラメータ系列)中の任意の点を選択する。その後、使用者は、選択した点を左右にドラッグする。これにより使用者は、加算パラメータ系列の周期を変更することができる。また、この編集内容は、上述の処理により構成パラメータ系列にも反映され、構成パラメータ系列(図の例では、音高のビブラートの振幅のパラメータ系列)も変更される。
図14は、パラメータ系列の編集方法の第5の例を示す図である。本実施形態の例では、音高のパラメータ系列を構成する「しゃくり」のパラメータ系列は、上述の通り音符単位でモデル化されている。このため、サブタブST4(しゃくり)が選択されている場合、サブウィンドウSWには、図示のように、各音符について、当該音符の先頭に対応した高さ、長さ、急峻度の各値と、当該音符の末尾に対応した高さ、長さ、急峻度の各値とが、それぞれ表示される。これらの点は、音の大きさのパラメータ系列を構成する「アタック・リリース」も同様である。
使用者は、選択ツールT3を選択後、ポインティングデバイス52のクリック操作によって、加算パラメータ系列中の、編集を所望する音符に対応した任意の点を選択する。その後、使用者は、選択した点を上下方向(図14:D1方向)にドラッグすることによって、当該音符に割り当てられている高さを変更することができる。同様に、使用者は、選択した点を左右方向(図14:D2方向)にドラッグすることによって、当該音符に割り当てられている長さを変更することができ、選択した点を斜め方向(図14:D3方向)にドラッグすることによって、当該音符に割り当てられている急峻度を変更することができる。また、この編集内容は、上述の処理により構成パラメータ系列にも反映され、構成パラメータ(図の例では、対応する音符のしゃくりのパラメータ)における各値も変更される。
なお、ツールバーTBを選択する操作に代えて、キーボード51に予め割り当てられている所定のキーを押下する操作を採用してもよい。この場合、例えば、キーを押下しないで行うポインティングデバイス52の操作を選択ツールT3による操作、Ctrlキーを押下しつつ行うポインティングデバイス52の操作をペンツールT1による操作、Altキーを押下しつつ行うポインティングデバイス52の操作を消しゴムツールT2による操作、等と使い分けることができ、操作性を向上させることができる。また、サブタブST1〜ST4を選択する操作を、キーボード51に予め割り当てられている所定のキーを押下する操作で実現してもよい。この場合、例えば、F1キー押下によりサブタブST1を選択、F2キー押下によりサブタブST2を選択等としてもよい。
また、メインウィンドウMWでの編集内容をどの構成パラメータ系列に反映させるかの指定を、キーボード51に予め割り当てられている所定のキーを押下する操作で実現してもよい。この場合、サブタブST1〜ST4を選択する操作は必要ない。例えば、利用者がCtrlキーを押下しつつメインウィンドウMWの音高のパラメータ系列を左右に動かした場合、当該操作は音高のビブラートの周期に対する編集として取得され、上下に動かした場合、当該操作は音高のビブラートの振幅に対する編集として取得される。また、例えば、利用者がキーを押下しないでメインウィンドウMWの音高のパラメータ系列上の曲線を操作した場合、当該操作は基本データのパラメータ系列に対する編集として取得される。なお、この場合、サブウィンドウSWに表示されるパラメータ系列(およびアクティブ状態となるサブタブST1〜ST4)も、利用者の操作に応じて自動的に切り替わってもよい。
さらに、利用者が、メインウィンドウMWに表示されている音高のパラメータ系列のうち、ビブラートがかかっている部分にポインティングデバイス52を合わせた場合、例えば矢印やアイコン等の案内画像が表示され、当該案内画像に従って(例えば、矢印画像のドラッグを音高のビブラートの周期や振幅に対する編集とする)、構成パラメータ系列の編集を行うことができるように構成してもよい。
以上のように、上記実施形態の音声合成装置(歌声処理装置100)によれば、使用者は、音高(ピッチ)に関するパラメータ系列中の各値と、音の大きさ(ボリューム)に関するパラメータ系列中の各値と、のうち、パラメータ提示部56により編集可能な態様で提示(具体的には画面W1に表示)されている少なくとも一方を、例えば上述した各種の編集方法を用いて、直接、所望の値に編集することができる。このように使用者は、直感的な操作によってピッチやボリュームを変動させることができるため、上記実施形態の音声合成装置によれば、ピッチとボリュームとの少なくとも何れか一方を編集する際の操作性を向上させることができる。
また、上記実施形態の音声合成装置(歌声処理装置100)によれば、使用者は、画面W1を用いて、第1,2のパラメータ系列の両方(即ち、構成パラメータ系列と、加算パラメータ系列の両方)を確認することができ、かつ、再生成後の第1のパラメータ系列(構成パラメータ系列)をリアルタイムに確認することもできるため、使用者における利便性を向上させることができる。
さらに、上記実施形態の音声合成装置(歌声処理装置100)によれば、使用者は、画面W1を用いて、メインウィンドウMWにより第2のパラメータ系列(加算パラメータ系列)を、サブウィンドウSWにより第1のパラメータ系列(構成パラメータ系列)を、同時に確認することができるため、使用者における利便性をより向上させることができる。
さらに、上記実施形態の音声合成装置(歌声処理装置100)によれば、第2のパラメータ系列(加算パラメータ系列)が表示されるメインウィンドウMWは、第1のパラメータ系列(構成パラメータ系列)が表示されるサブウィンドウSWと比較して、画面上に占める表示領域が大きい(換言すれば、視認性が高い)。このため、使用者は、同時に提示される第1,2のパラメータ系列(即ち、構成パラメータ系列と、加算パラメータ系列)の間において、第2のパラメータ系列(加算パラメータ系列)をより確認しやすくなる。このため、使用者は、第2のパラメータ系列(加算パラメータ系列)が編集対象であるという旨を直感的に理解することができる。
A−4.編集画面の変形:
上記実施形態において説明した編集画面は、以下に例示するような種々の変形が可能である。変形b1〜b8は、単独で採用されてもよく、組み合わせて採用されてもよい。また変形b1〜b8の採用の有無を、使用者からの指定によって切り替えてもよい。
(b1)変形1:メインウィンドウとサブウィンドウを用いた双方向編集
上述した画面W1では、各サブウィンドウSWに表示されているパラメータ系列は表示のみに使用され、パラメータ値の変更ができないとした。しかし、各サブウィンドウSWに表示されているパラメータ系列に対しても、メインウィンドウMWと同様に、キーボード51やポインティングデバイス52を使用したパラメータ値の変更を可能にしてもよい。この場合、編集対象のウィンドウ(メインウィンドウMW/サブウィンドウSW)の指定を、キー割り当てにより実現できる。例えば、キーを押下しないで行うポインティングデバイス52の操作をメインウィンドウMWに対する操作とし、Shiftキーを押下しつつ行うポインティングデバイス52の操作をサブウィンドウSWに対する操作とすることができる。また、サブタブST1〜ST4のうち、どの項目に対する編集であるかの指定は、上述の通りキーボード51に予め割り当てられている所定のキーを押下する操作で実現できる。
なお、サブウィンドウSWに表示されているパラメータ系列に対する編集内容は、歌声合成ルーチン(図8)において加算パラメータ系列の生成(ステップS230)〜編集内容の反映(ステップS270)が繰り返されることによって、上記実施形態と同様に、メインウィンドウMWに表示されている加算パラメータ系列と、サブウィンドウSWに表示されている構成パラメータ系列とに対して、リアルタイムに反映される。変形1によれば、使用者は、メインウィンドウMWとサブウィンドウSWとを用いて、加算パラメータ系列と構成パラメータ系列とを双方向に編集し、その結果をリアルタイムに確認することができる。この結果、使用者における利便性をより向上させることができる。
(b2)変形2:1つだけの加算パラメータ系列の編集
上述したメインタブMT1、MT2のいずれか一方は、省略してもよい。例えばメインタブMT2を省略する場合、歌声合成ルーチン(図8)における音の大きさのパラメータ系列に関する処理は、省略してもよい。例えばメインタブMT1を省略する場合、音声合成ルーチンにおける音高のパラメータ系列に関する処理は、省略してもよい。変形2によれば、音声合成ルーチンにおける処理を簡略化することができる。
(b3)変形3:3つ以上の加算パラメータ系列の編集
上述したメインタブMT1、MT2はあくまで一例であり、種々の態様を採用できる。例えば、以下に示すような新たなメインタブを備えていてもよい。
・「ジェンダー」タブ:ジェンダータブが選択された場合、加算パラメータがジェンダーパラメータ系列となる。ジェンダーパラメータ系列は、子供っぽい声であるか、大人っぽい声であるかを表すパラメータ系列である。ジェンダーパラメータ系列の構成要素(構成パラメータ系列)は、例えば、ジェンダーパラメータの基本データのパラメータ系列と、音符単位でモデル化された音符の先頭と末尾とのそれぞれに対する高さ、長さ、急峻度のパラメータである。
・「有声・無声比率」タブ:有声・無声比率タブが選択された場合、加算パラメータが有声・無声比率パラメータ系列となる。有声・無声比率パラメータ系列は、声のかすれ具合を表すパラメータ系列である。有声・無声比率パラメータ系列を実現するために、サーバ30の学習部40には、さらに「有声・無声比率抽出部」を備える構成とする。有声・無声比率抽出部は、歌声合成準備ルーチン(図3)のステップS140において、歌声に含まれる有声・無声比率と、その微分とを抽出する。この結果、解析により抽出される各種パラメータ(図4)には、上述の各パラメータに加えてさらに、有声・無声比率情報として、有声・無声比率の静的特徴量と、その一次微分と、二次微分とが含まれる。また、統計的に学習された音響モデル(図7)には、上述の各二分木に加えてさらに、有声・無声比率の決定木が含まれる。有声・無声比率パラメータ系列の構成要素(構成パラメータ系列)は、有声・無声比率の基本データ系列と、音符単位でモデル化された音符の先頭と末尾とのそれぞれに対する高さ、長さ、急峻度のパラメータである。
変形3によれば、使用者は、上述した各メインタブを切り替えることによって、3つ以上の加算パラメータ系列を編集し、その結果をリアルタイムに確認することができる。この結果、使用者における利便性をより向上させることができる。
(b4)変形4:サブウィンドウの省略
画面W1において、サブタブST1〜ST4およびサブウィンドウSWを省略してもよい。この場合、サブウィンドウSWに対応した構成パラメータ系列の表示・再表示も省略可能である。また、画面W1において、サブタブST1〜ST4およびサブウィンドウSWの表示/非表示を切り替え可能としてもよい。変形4によれば、編集画面をシンプルにすることができる。
(b5)変形5:サブウィンドウの省略
画面W1において、サブウィンドウSWを省略し、サブウィンドウSWに対応した構成パラメータ系列の表示を、全てメインウィンドウMW内に行ってもよい。この場合、メインウィンドウMWには、ピアノロールと、加算パラメータと、構成パラメータとの全ての項目が表示される。なお、この場合、メインウィンドウMW内において、加算パラメータの視認性を、構成パラメータと比較して高くすることが好ましい。視認性に差異を出す方法としては、例えば、描画された波形の線の太さ、色を変化させる方法が採用できる。変形5によれば、使用者は、1つのウィンドウで全ての項目を同時に確認することができる。
(b6)変形6:メインウィンドウとサブウィンドウとの異画面表示
メインウィンドウMWと、サブウィンドウSWとを別の画面として表示させてもよい。変形7によれば、使用者は、必要な画面のみを参照しつつ編集作業を行うことができる。
(b7)変形7:サブウィンドウ内での同時表示
画面W1において、サブタブST1〜ST4を省略してもよい。この場合、例えばサブウィンドウSW内に全ての構成パラメータが表示される。変形7によれば、使用者は、1つのサブウィンドウSWで全ての項目を同時に確認することができる。また、例えば、サブタブST1〜ST4を省略し、サブタブST1〜ST4にそれぞれ対応する4つのサブウィンドウSWを並べて同時に表示してもよい。
(b8)変形8:メインウィンドウでの構成パラメータの表示
上述した画面W1では、メインウィンドウMWには、ピアノロールと、加算パラメータ系列とを表示させるとした。しかし、メインウィンドウMWにおいて、構成パラメータ系列の一部をさらに表示させてもよい。この場合、例えば、加算パラメータ系列に対する編集に追従して変動する構成パラメータ系列(例えば、音高のパラメータ系列の周期が編集された場合は、音高のビブラートの周期のパラメータ系列)を、メインウィンドウMWに表示させる。使用者における視認性向上のために、メインウィンドウWM内における、加算パラメータ系列の表示態様と、構成パラメータ系列の表示態様とは、区別することが好ましい。例えば、加算パラメータ系列を実線(または太線、濃い色)とし、構成パラメータ系列を破線(または細線、薄い色)とすることが好ましい。変形8によれば、使用者は、メインウィンドウMW内において、加算パラメータ系列の変更によって影響を受ける構成パラメータ系列を確認することができる。
B.変形例:
上記実施形態において、ハードウェアによって実現されるとした構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されるとした構成の一部をハードウェアに置き換えるようにしてもよい。その他、以下のような変形も可能である。
・変形例1:
上記実施形態では、歌声処理装置の構成を例示した。しかし、上記実施形態における歌声処理装置の構成はあくまで一例であり、任意の態様を採用することができる。例えば、その構成要素の一部を省略したり、更なる構成要素を付加したり、構成要素の一部を変更したりする変形が可能である。例えば、上述した歌声処理装置の各機能は、複数の装置が協働することによって実現されてもよい。例えば、音響モデルは、複数の装置に分散して記憶されていてもよい。
上記実施形態において、HMM方式を採用した音声合成について説明したが、本発明は、任意の方式での音声合成に適用できる。具体的には、例えば、HMM方式に代えてDNN(Deep Neural Network)方式を採用してもよく、HMM方式に代えて波形接続方式を採用してもよい。
・変形例2:
上記実施形態の歌声合成ルーチン(図8)において、構成パラメータ系列として例示した各パラメータ系列は、その一部を省略してもよく、他のパラメータ系列を追加してもよい。例えば、構成パラメータ系列の1つである「アタック」について、リリース(音符の最後に音量が小さくなる歌唱表現)を省略してもよい。また、アタックとリリースとのいずれか一方の歌唱表現を採用してもよい。同様に、加算パラメータ系列として例示した音高のパラメータ系列と、音の大きさのパラメータ系列とは、一方を省略してもよく、他のパラメータ系列を追加してもよい。例えば、音高/音の大きさのパラメータ系列に代えて、上述したジェンダーパラメータ系列や、有声・無声比率パラメータ系列を採用してもよい。
上記実施形態の歌声合成ルーチン(図8)では、音高のパラメータ系列と、音の大きさのパラメータ系列とを生成・編集の対象とした。ここで、「音高のパラメータ系列」には、音の高さそのものについてのパラメータ系列だけでなく、音高に関するパラメータ系列全般(例えば、音の高さの対数についてのパラメータ系列、音の高さに比例する変数についてのパラメータ系列など)を含み得る。同様に、「音の大きさのパラメータ」には、音の大きさそのものについてのパラメータ系列だけでなく、音の大きさに関するパラメータ系列全般を含み得る。
上記実施形態の歌声合成ルーチン(図8)では、キーボードやポインティングデバイスを利用した各パラメータ系列の編集方法の一例を示した。しかし、各パラメータ系列は、任意の方法で編集できる。例えば、入力デバイスとして、キーボードやポインティングデバイスに代えて、または、キーボードやポインティングデバイスと共に、タッチパッド、タブレット、マイク、無線通信等を採用できる。マイクを使用する場合、音声によるコマンドを用いて各パラメータ系列を編集できる。無線通信を使用する場合、受信コマンドを用いて各パラメータ系列を編集できる。また、上記実施形態において例示したポインティングデバイスの使用方法(ドラッグ、クリック)についても、任意の方法に変更できる。例えば、マウスホイールの押下、マウスに割り当てられたショートカット等を用いてもよい。
・変形例3:
以上本発明のいくつかの実施形態・変形例について説明したが、本発明はこうした実施形態に限定されるものではなく、本発明の要旨を変更しない範囲内において、種々なる態様で実施できることはもちろんである。例えば、歌声学習の機能がない歌声合成装置のみとして実施しても良い。また、歌声としては平均律に基づくものに限らず、民族音楽のように固有の音律に従うものを用いても良い。例えば日本における雅楽、謡曲、声明、お経や、ヨーロッパにおけるグレゴリオ聖歌などの平均律以前の音律に従う歌声などの合成に適用しても良い。
10…楽譜入力部
20…音声入力部
30…サーバ
31…ハードディスク
33…楽譜解析部
40…学習部
41…F0抽出部
43…SP抽出部
44…歌唱P抽出部
45…HMM学習部
50…音響モデル記憶部
51…キーボード
52…ポインティングデバイス
53…表示部
55…パラメータ取得部
56…パラメータ提示部
57…楽譜解析部
60…音声合成部
61…パラメータ生成部
63…音源生成部
65…合成フィルタ
100…歌声処理装置

Claims (12)

  1. 音声合成装置であって、
    統計的手法により学習された音響パラメータを含む音響モデルを予め記憶する記憶部と、
    パラメータ生成部であって、
    入力された楽譜を解析して得られた情報と前記記憶されている音響モデルとを用いて生成された音響パラメータの系列であり、歌唱表現を加えていない基本データが少なくとも含まれる第1のパラメータ系列と、
    関係する前記第1のパラメータ系列を加算することで生成される第2のパラメータ系列と、
    をそれぞれ生成するパラメータ生成部と、
    少なくとも前記第2のパラメータ系列を、編集可能な態様で使用者に提示するパラメータ提示部と、
    前記第1のパラメータ系列に含まれる各音響パラメータ値と、前記第2のパラメータ系列に含まれる各音響パラメータ値と、の少なくとも一方を用いて歌声を合成する合成部と、
    を備え、
    前記パラメータ生成部は、
    前記第2のパラメータ系列が編集された場合、編集後の前記第2のパラメータ系列を用いて、前記加算に使用された前記第1のパラメータ系列のうち、前記編集の内容に応じた少なくとも一部を再生成する、音声合成装置。
  2. 請求項1に記載の音声合成装置であって、
    前記パラメータ提示部は、
    前記第2のパラメータ系列に加えてさらに、前記第1のパラメータ系列を使用者に提示し、
    前記第1のパラメータ系列の前記再生成が行なわれた場合は、再生成後の前記第1のパラメータ系列を使用者に提示する、音声合成装置。
  3. 請求項2に記載の音声合成装置であって、
    前記パラメータ提示部は、
    使用者が、前記第1のパラメータ系列と、前記第2のパラメータ系列とを同時に視認可能な態様で提示する、音声合成装置。
  4. 請求項3に記載の音声合成装置であって、
    前記パラメータ提示部は、
    前記第2のパラメータ系列の視認性を、前記第1のパラメータ系列と比較して高くした状態で、前記第1のパラメータ系列と前記第2のパラメータ系列とを提示する、音声合成装置。
  5. 請求項1から請求項4のいずれか一項に記載の音声合成装置であって、
    前記パラメータ提示部は、前記第2のパラメータ系列に加えてさらに、前記第1のパラメータ系列を編集可能な態様で使用者に提示し、
    前記パラメータ生成部は、さらに、前記第1のパラメータ系列が編集された場合、編集後の前記第1のパラメータ系列を用いて前記第2のパラメータ系列の前記生成を再度行ない
    前記パラメータ提示部は、さらに、前記第2のパラメータ系列の前記再度の生成が行なわれた場合は、再生成後の前記第2のパラメータ系列を使用者に提示する、音声合成装置。
  6. 請求項1から請求項4のいずれか一項に記載の音声合成装置であって、さらに、
    前記編集の内容を取得するパラメータ取得部を備え、
    前記パラメータ取得部は、
    予め割り当てられた第1の操作方法による操作を、前記第1のパラメータ系列に含まれる、あるパラメータ系列に対する編集内容として取得し、
    予め割り当てられた第2の操作方法であって、前記第1の操作方法とは異なる第2の操作方法による操作を、前記第1のパラメータ系列に含まれる、別のパラメータ系列に対する編集内容として取得する、音声合成装置。
  7. 請求項5に記載の音声合成装置であって、さらに、
    前記編集の内容を取得するパラメータ取得部を備え、
    前記パラメータ取得部は、
    予め割り当てられた第3の操作方法による操作を、前記第1のパラメータ系列に対する編集内容として取得し、
    予め割り当てられた第4の操作方法であって、前記第3の操作方法とは異なる第4の操作方法による操作を、前記第2のパラメータ系列に対する編集内容として取得する、音声合成装置。
  8. 請求項2から請求項7のいずれか一項に記載の音声合成装置であって、
    前記第1のパラメータ系列には、少なくとも、
    音高のパラメータ値の変化を表す音高のパラメータ系列と、
    歌唱表現のパラメータ値の変化を表す歌唱表現パラメータ系列と、
    が含まれ、
    前記パラメータ提示部は、
    前記第1のパラメータ系列に含まれる全てのパラメータ系列を使用者に提示する、音声合成装置。
  9. 請求項8に記載の音声合成装置であって、
    前記歌唱表現には、少なくとも、ビブラート、しゃくり、こぶし、アタック、リリースのうちの1つが含まれる、音声合成装置。
  10. 請求項1から請求項9のいずれか一項に記載の音声合成装置であって、
    前記音声合成装置には、ポインティングデバイスを備える画像表示装置が接続され、
    前記パラメータ提示部は、
    グラフィカルユーザインタフェースを用い、かつ、前記ポインティングデバイスによる操作が可能な態様で、前記第2のパラメータ系列を前記画像表示装置に対して表示させる、音声合成装置。
  11. 請求項1から請求項10のいずれか一項に記載の音声合成装置であって、
    第2のパラメータ系列には、少なくとも、音高に関するパラメータ系列と、音の大きさに関するパラメータ系列と、声の年齢に関するパラメータ系列と、音のかすれ具合に関するパラメータ系列と、のうちのいずれか1つを含む、音声合成装置。
  12. 音声合成方法であって、
    入力された楽譜を解析して得られた情報と予め記憶されている音響モデルとを用いて生成された音響パラメータの系列であり、歌唱表現を加えていない基本データが少なくとも含まれる第1のパラメータ系列を生成する工程と、
    関係する前記第1のパラメータ系列を加算することで第2のパラメータ系列を生成する工程と、
    少なくとも前記第2のパラメータ系列を、編集可能な態様で使用者に提示する工程と、
    前記第1のパラメータ系列に含まれる各音響パラメータ値と、前記第2のパラメータ系列に含まれる各音響パラメータ値と、の少なくとも一方を用いて歌声を合成する工程と、
    を備え、
    前記第1のパラメータ系列を生成する工程では、さらに、
    前記第2のパラメータ系列が編集された場合、編集後の前記第2のパラメータ系列を用いて、前記加算に使用された前記第1のパラメータ系列のうち、前記編集の内容に応じた少なくとも一部を再生成する、音声合成方法。
JP2015229428A 2015-11-25 2015-11-25 音声合成装置および音声合成方法 Active JP6004358B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015229428A JP6004358B1 (ja) 2015-11-25 2015-11-25 音声合成装置および音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015229428A JP6004358B1 (ja) 2015-11-25 2015-11-25 音声合成装置および音声合成方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016165467A Division JP2017097332A (ja) 2016-08-26 2016-08-26 音声合成装置および音声合成方法

Publications (2)

Publication Number Publication Date
JP6004358B1 true JP6004358B1 (ja) 2016-10-05
JP2017097176A JP2017097176A (ja) 2017-06-01

Family

ID=57048620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015229428A Active JP6004358B1 (ja) 2015-11-25 2015-11-25 音声合成装置および音声合成方法

Country Status (1)

Country Link
JP (1) JP6004358B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109952609A (zh) * 2016-11-07 2019-06-28 雅马哈株式会社 声音合成方法
CN113016028A (zh) * 2018-11-06 2021-06-22 雅马哈株式会社 音响处理方法及音响处理系统

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6729539B2 (ja) * 2017-11-29 2020-07-22 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
JP6587008B1 (ja) * 2018-04-16 2019-10-09 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6587007B1 (ja) * 2018-04-16 2019-10-09 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
WO2019239972A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
JP7124870B2 (ja) * 2018-06-15 2022-08-24 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
JP6547878B1 (ja) 2018-06-21 2019-07-24 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6610715B1 (ja) 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6610714B1 (ja) 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP7059972B2 (ja) 2019-03-14 2022-04-26 カシオ計算機株式会社 電子楽器、鍵盤楽器、方法、プログラム
JP6819732B2 (ja) * 2019-06-25 2021-01-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6766935B2 (ja) * 2019-09-10 2020-10-14 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6760457B2 (ja) * 2019-09-10 2020-09-23 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP7180642B2 (ja) * 2020-07-01 2022-11-30 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01159700A (ja) * 1987-12-17 1989-06-22 Meidensha Corp 音素パラメータ作成装置
JP2008292587A (ja) * 2007-05-22 2008-12-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP2013137520A (ja) * 2011-11-29 2013-07-11 Yamaha Corp 音楽データ編集装置
JP2014178512A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音声合成装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01159700A (ja) * 1987-12-17 1989-06-22 Meidensha Corp 音素パラメータ作成装置
JP2008292587A (ja) * 2007-05-22 2008-12-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP2013137520A (ja) * 2011-11-29 2013-07-11 Yamaha Corp 音楽データ編集装置
JP2014178512A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音声合成装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109952609A (zh) * 2016-11-07 2019-06-28 雅马哈株式会社 声音合成方法
CN109952609B (zh) * 2016-11-07 2023-08-15 雅马哈株式会社 声音合成方法
CN113016028A (zh) * 2018-11-06 2021-06-22 雅马哈株式会社 音响处理方法及音响处理系统

Also Published As

Publication number Publication date
JP2017097176A (ja) 2017-06-01

Similar Documents

Publication Publication Date Title
JP6004358B1 (ja) 音声合成装置および音声合成方法
US9818396B2 (en) Method and device for editing singing voice synthesis data, and method for analyzing singing
JP2017107228A (ja) 歌声合成装置および歌声合成方法
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
EP2680254B1 (en) Sound synthesis method and sound synthesis apparatus
US8423367B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
US9355634B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US20100066742A1 (en) Stylized prosody for speech synthesis-based applications
JP2022116335A (ja) 電子楽器、方法及びプログラム
JP7180587B2 (ja) 電子楽器、方法及びプログラム
JP2017111372A (ja) 音声合成方法、音声合成制御方法、音声合成装置および音声合成制御装置
EP3975167A1 (en) Electronic musical instrument, control method for electronic musical instrument, and storage medium
JP2017097332A (ja) 音声合成装置および音声合成方法
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
KR20220165666A (ko) 자연어로 표현된 스타일 태그를 이용한 합성 음성 생성 방법 및 시스템
CN112712783B (zh) 生成音乐的方法和装置、计算机设备和介质
JP6756151B2 (ja) 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JPWO2008056604A1 (ja) 音声収録システム、音声収録方法、および収録処理プログラム
JP2020204755A (ja) 音声処理装置、および音声処理方法
JP2020204651A (ja) 音声処理装置、および音声処理方法
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP7186476B1 (ja) 音声合成装置
JP6587308B1 (ja) 音声処理装置、および音声処理方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160826

R150 Certificate of patent or registration of utility model

Ref document number: 6004358

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350