JP6342428B2

JP6342428B2 - 音声合成装置、音声合成方法およびプログラム

Info

Publication number: JP6342428B2
Application number: JP2015553318A
Authority: JP
Inventors: 悠那須; 正統田村; 亮森中; 眞弘森田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2018-06-13
Anticipated expiration: 2033-12-20
Also published as: WO2015092936A1; JPWO2015092936A1; US20160300564A1; US9830904B2

Description

本発明の実施形態は、音声合成装置、音声合成方法およびプログラムに関する。

入力したテキストから音声信号を生成する音声合成装置が知られている。音声合成装置で用いられる技術の一つとして、隠れマルコフモデル（ＨＭＭ）に基づく音声合成技術がある。

ＨＭＭに基づく音声合成技術では、所望の話者（目標話者）の声質および所望の口調（目標口調）の特徴を有する音声信号を生成することができる。ＨＭＭに基づく音声合成技術では、例えば、喜びの感情が表現された口調の音声信号を生成することができる。

目標話者の声質および目標口調の特徴を有する音声信号を生成する方法として、目標話者が目標口調で発声した音声を用いて予めＨＭＭを作成する方法がある。しかし、この方法では、目標話者が全ての目標口調で音声を発声しなければならないので、音声収録およびラベリング等に大きなコストを要する。

また、目標話者の声質および目標口調の特徴を有する音声信号を生成する方法として、目標話者の声質および基準口調（目標口調以外の口調、例えば、平静感情で読み上げる口調）の特徴を有する音声信号と、目標口調の特徴とを用いる方法がある。このような方法の具体例として、例えば以下の第１の方法および第２の方法がある。

第１の方法では、まず、同一の話者（基準話者）の声質で、基準口調のＨＭＭおよび目標口調のＨＭＭを予め作成する。次に、目標話者が基準口調で発声した音声を取り込んだ音声信号と、基準話者の声質の基準口調のＨＭＭとを用いて、話者適応によって目標話者の声質の基準口調のＨＭＭを作成する。さらに、基準話者の声質の基準口調のＨＭＭと、基準話者の声質の目標口調のＨＭＭとのパラメータの相対関係（差または比等）を用いて、目標話者の声質の基準口調のＨＭＭを補正して目標話者の声質の目標口調のＨＭＭを作成する。そして、このような目標話者の声質の目標口調のＨＭＭを用いて、目標話者の声質の目標口調の音声信号を生成する。

ところで、口調の変化によって音声信号に反映される特徴には、大域的に現れる特徴と、局所的に現れる特徴がある。局所的に現れる特徴は、口調によって異なるコンテキスト依存性を有する。例えば、喜びの感情を表現する口調では、語尾のピッチが上昇し、また悲しみの感情を表現する口調では、ポーズの時間が長くなる等の現象が生じる。しかし、第１の方法では、口調によって異なるコンテキスト依存性を考慮していないので、局所的に現れる目標口調の特徴を十分に再現することが困難である。

第２の方法では、ＨＭＭのパラメータを複数のクラスタパラメータの線形結合を用いて表現するクラスタ適応学習（ＣＡＴ）によって、複数の話者および複数の口調（基準口調および目標口調を含む）の音声信号を用いて、事前にモデルを学習しておく。それぞれのクラスタは、コンテキスト依存性を表す決定木を別個に有する。ある一の話者およびある一の口調の組み合わせは、クラスタパラメータの線形結合を行う際の重みベクトルによって表される。重みベクトルは、話者重みベクトルと口調重みベクトルとを連結したベクトルである。目標話者の声質および目標口調の特徴を有する音声信号を生成するためには、まず、目標話者の声質および基準口調の特徴を有する音声信号を用いてＣＡＴによる話者適応を行い、目標話者を表す話者重みベクトルを算出する。次に、基準話者を表す話者重みベクトルと、予め算出済みの目標口調を表す口調重みベクトルとを連結して、目標話者の声質の目標口調を表す重みベクトルを作成する。そして、作成した重みベクトルを用いて目標話者の声質の目標口調の音声信号を生成する。

第２の方法では、それぞれのクラスタが別個に決定木を有するので、口調によって異なるコンテキスト依存性を再現することができる。しかし、第２の方法では、話者適応をＣＡＴの枠組みで行わなければならなく、最尤線形回帰（ＭＬＬＲ）等の手法による話者適応と比較して、目標話者の声質を十分に再現できない。

このように、第１の方法では、口調により異なるコンテキスト依存性を考慮しないため、目標口調を十分に再現できないという問題があった。また、第２の方法では、話者適応にＣＡＴの枠組みを使用しなければならないため、目標話者の声質を十分に再現できないという問題があった。

特開２０１１−２８１３０号公報

Ｊ．Ｙａｍａｇｉｓｈｉ，Ｋ．Ｏｎｉｓｈｉ，Ｔ．Ｍａｓｕｋｏ，Ｔ．Ｋｏｂａｙａｓｈｉ，"ＡｃｏｕｓｔｉｃｍｏｄｅｌｉｎｇｏｆｓｐｅａｋｉｎｇｓｔｙｌｅｓａｎｄｅｍｏｔｉｏｎａｌＦｅｘｐｒｅｓｓｉｏｎｓｉｎＨＭＭ−ｂａｓｅｄｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ，" ＩＥＩＣＥＴｒａｎｓ．ｏｎＩｎｆ．＆Ｓｙｓｔ．，ｖｏｌ．Ｅ８８−Ｄ，ｎｏ．３，ｐｐ．５０３−５０９，２００５．Ｊ．Ｌａｔｏｒｒｅ，Ｖ．Ｗａｎ，Ｍ．Ｊ．Ｆ．Ｇａｌｅｓ，Ｌ．Ｃｈｅｎ，Ｋ．Ｋ．Ｃｈｉｎ，Ｋ．ＫｎｉｌｌａｎｄＭ．Ａｋａｍｉｎｅ，"ＳｐｅｅｃｈｆａｃｔｏｒｉｚａｔｉｏｎｆｏｒＨＭＭ−ＴＴＳｂａｓｅｄｏｎｃｌｕｓｔｅｒａｄａｐｔｉｖｅｔｒａｉｎｉｎｇ，" ｉｎＰｒｏｃ．ＩｎｔｅｒＳｐｅｅｃｈ，２０１２．

本発明が解決しようとする課題は、目標話者の声質および目標口調の特徴を有する音声信号を精度良く生成することにある。

実施形態の音声合成装置は、コンテキスト取得部と、音響モデルパラメータ取得部と、変換パラメータ取得部と、変換部と、波形生成部と、を備える。前記コンテキスト取得部は、音声の変動を表す情報系列であるコンテキスト系列を取得する。前記音響モデルパラメータ取得部は、前記コンテキスト系列に対応する、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を取得する。前記変換パラメータ取得部は、前記コンテキスト系列に対応する、前記基準口調の音響モデルパラメータを前記基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を取得する。前記変換部は、前記音響モデルパラメータ系列を前記変換パラメータ系列を用いて変換する。前記波形生成部は、変換後の前記音響モデルパラメータ系列に基づき音声信号を生成する。

第１実施形態に係る音声合成装置の構成を示す図。決定木クラスタリングがされた音響モデルパラメータ等を示す図。出力確率分布の変換例を示す図。第１実施形態に係る音声合成装置の処理内容を示すフロー図。第２実施形態に係る音声合成装置の構成を示す図。第３実施形態に係る音声合成装置の構成を示す図。第４実施形態に係る音声合成装置の構成を示す図。音声合成装置のハードウェアブロックを示す図。

以下に、実施形態を図面を参照して詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は略同一の動作をし、相違点を除き重複する説明を適宜省略する。

（第１実施形態）
図１は、第１実施形態に係る音声合成装置１０の構成を示す図である。第１実施形態に係る音声合成装置１０は、入力したテキストに応じて、ある特定の話者（目標話者）の声質およびある特定の口調（目標口調）の特徴を有する音声信号を出力する。口調（ＳｐｅａｋｉｎｇＳｔｙｌｅ）とは、感情、発話内容および場面等によって変化する音声の特徴をいう。例えば、口調には、文章を平静感情で読み上げる口調、喜びの感情を表現した口調、悲しみの感情を表現した口調、怒りの感情を表現した口調等がある。

音声合成装置１０は、コンテキスト取得部１２と、音響モデルパラメータ記憶部１４と、音響モデルパラメータ取得部１６と、変換パラメータ記憶部１８と、変換パラメータ取得部２０と、変換部２２と、波形生成部２４とを備える。

コンテキスト取得部１２は、テキストを入力する。コンテキスト取得部１２は、入力したテキストを形態素解析等の方法で解析して、入力したテキストに応じたコンテキスト系列を取得する。

コンテキスト系列は、音声の変動を表す情報系列であり、少なくとも音素列を含む。音素列は、例えば、バイフォンまたはトライフォン等の、前後の音素との組み合わせで表された音素の系列であってもよいし、半音素の系列であってもよいし、音節単位の情報系列であってもよい。また、コンテキスト系列は、それぞれの音素のテキスト内での位置、アクセントの位置等の情報も含んでもよい。

また、コンテキスト取得部１２は、テキストに代えて、コンテキスト系列を直接入力してもよい。また、コンテキスト取得部１２は、ユーザにより与えられたテキストまたはコンテキスト系列を入力してもよいし、他の装置からネットワーク等を介して受信したテキストまたはコンテキスト系列を入力してもよい。

音響モデルパラメータ記憶部１４は、目標話者が基準口調（例えば、平静感情の読み上げ口調）で発声した音声を取り込んだ音声信号を用いて学習することにより作成された音響モデルの情報を記憶する。音響モデルの情報には、コンテキストに応じて分類された複数の音響モデルパラメータ、および、コンテキストに対応する音響モデルパラメータを決定するための第１分類情報が含まれる。

音響モデルは、音声の特徴を表す音声パラメータのそれぞれの出力確率を表した確率モデルである。本実施形態において、音響モデルは、ＨＭＭである。ＨＭＭは、それぞれの状態に、基本周波数および声道パラメータ等の音声パラメータが対応付けられている。また、それぞれの音声パラメータの出力確率分布は、ガウス分布でモデル化されている。なお、音響モデルが隠れセミマルコフモデル等である場合には、状態継続長の確率分布もガウス分布でモデル化されている。

本実施形態においては、音響モデルパラメータは、それぞれの音声パラメータの出力確率分布の平均を表す平均ベクトル、および、それぞれの音声パラメータの出力確率分布の共分散を表す共分散行列を含む。

また、本実施形態において、音響モデルパラメータ記憶部１４に記憶される複数の音響モデルパラメータは、決定木に基づきクラスタリングされている。この決定木は、コンテキストに関する質問により複数の音響モデルパラメータを階層的に分割する。全ての音響モデルパラメータは、決定木の何れかのリーフに属する。本実施形態において、第１分類情報は、このような決定木から、入力されたコンテキストに対応する１つの音響モデルパラメータを取得するための情報である。

また、音響モデルパラメータ記憶部１４に記憶される音響モデルパラメータは、目標話者が発声した音声のみを用いて学習して作成された情報であってもよい。また、音響モデルパラメータ記憶部１４に記憶される音響モデルパラメータは、目標話者以外の１以上の話者が発声した音声を用いて学習して作成された音響モデルから、目標話者が発声した音声を用いた話者適応等によって作成された情報であってもよい。このような話者適応によって作成された音響モデルパラメータは、比較的少量の音声を用いて作成できるので、コストが小さく精度が良い。また、音響モデルパラメータ記憶部１４に記憶される音響モデルパラメータは、予め学習して作成された情報であってもよいし、目標話者が発声した音声を取り込んだ音声信号に対して、最尤線形回帰（ＭＬＬＲ）等の手法による話者適応を行って計算された情報であってもよい。

音響モデルパラメータ取得部１６は、コンテキスト系列に対応する、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を、音響モデルパラメータ記憶部１４から取得する。より具体的には、音響モデルパラメータ取得部１６は、コンテキスト取得部１２が取得したコンテキスト系列に対応する音響モデルパラメータ系列を、音響モデルパラメータ記憶部１４に記憶された第１分類情報に基づき決定する。

本実施形態においては、音響モデルパラメータ取得部１６は、入力されたコンテキスト系列に含まれるそれぞれのコンテキストについて、そのコンテキストの内容に従って決定木をルートノードから順次にリーフまで辿り、辿りついたリーフに属する１つの音響モデルパラメータを取得する。そして、音響モデルパラメータ取得部１６は、取得した音響モデルパラメータのそれぞれを、コンテキスト系列に従った順序で連結して音響モデルパラメータ系列として出力する。

変換パラメータ記憶部１８は、コンテキストに応じて分類された複数の変換パラメータ、および、コンテキストに対応する１つの変換パラメータを決定するための第２分類情報を記憶する。

変換パラメータは、基準口調の音響モデルパラメータを、基準口調とは異なる目標口調の音響モデルパラメータに変換するための情報である。例えば、変換パラメータは、平常感情の読み上げ口調の音響モデルパラメータを、平静感情以外の口調（喜びの感情を表現した口調等）の音響モデルパラメータに変換するための情報である。より具体的には、変換パラメータは、基準口調の音響モデルパラメータから再現される音声のパワー、フォルマント、ピッチ、話速等を変化させるためのパラメータである。

変換パラメータ記憶部１８に記憶される変換パラメータは、同一の話者が基準口調で発声した音声と目標口調で発声した音声とを用いて作成される。

例えば、変換パラメータ記憶部１８に記憶される変換パラメータは、次のように作成される。まず、ある一の話者が発声した基準口調の音声を用いて基準口調のＨＭＭを学習して作成する。続いて、変換パラメータを用いて基準口調のＨＭＭを変換した場合に、一の話者が発声した目標口調の音声に対して尤度を最大化するような変換パラメータを算出することで作成される。また、同一のテキストを基準口調および目標口調で発声した音声のパラレルコーパスを用いる場合では、変換パラメータは、対応する基準口調の音声パラメータと目標口調の音声パラメータとからも作成できる。

なお、変換パラメータ記憶部１８に記憶される変換パラメータは、目標話者とは異なる話者が発声した音声を用いて学習することにより作成されてもよい。また、変換パラメータ記憶部１８に記憶される変換パラメータは、複数の話者のそれぞれが基準口調および目標口調で発声した音声を用いて作成された平均的なパラメータであってもよい。

また、本実施形態において、変換パラメータは、音響モデルパラメータに含まれる平均ベクトルと、同一次元を有するベクトルであってよい。この場合、変換パラメータは、基準口調の音響モデルパラメータに含まれる平均ベクトルから、目標口調の音響モデルパラメータに含まれる平均ベクトルへの差分を表す差分ベクトルであってよい。これにより、変換パラメータは、基準口調の音響モデルパラメータに含まれる平均ベクトルに加算されることによって、基準口調の音響モデルパラメータに含まれる平均ベクトルを、目標口調の音響モデルパラメータに含まれるべき平均ベクトルに変換させることができる。

また、本実施形態において、変換パラメータ記憶部１８に記憶される複数の変換パラメータは、決定木に基づきクラスタリングされている。この決定木は、コンテキストに関する質問により複数の変換パラメータを階層的に分割する。全ての変換パラメータは、決定木の何れかのリーフに属する。本実施形態において、第２分類情報は、このような決定木から、入力されたコンテキストに対応する１つの変換パラメータを取得するための情報である。

ここで、変換パラメータ記憶部１８に記憶される複数の変換パラメータを分類するための決定木は、音響モデルパラメータ記憶部１４に記憶されている音響モデルパラメータを分類するための決定木に制約を受けない。例えば、図２に示されるように、音響モデルパラメータ記憶部１４に記憶されている複数の音響モデルパラメータを分類するための決定木３１と、変換パラメータ記憶部１８に記憶される複数の変換パラメータを分類するための決定木３２とは、異なる木構造であってよい。従って、あるコンテキストｃが与えられた場合、このコンテキストｃに対応する音響モデルパラメータ（平均ベクトルμ_ｃ，共分散行列Σ_ｃ）が属するリーフの位置と、このコンテキストｃに対応する変換パラメータ（差分ベクトルｄ_ｃ）が属するリーフの位置とは異なっていてよい。これにより、音声合成装置１０は、口調を変換して生成される音声信号に目標口調のコンテキスト依存性が精度良く反映され、目標口調を精度良く再現することができる。従って、音声合成装置１０は、例えば、喜びの感情を表す口調では語尾のピッチが高くなる、といったコンテキスト依存性を精度良く表現することができる。

変換パラメータ取得部２０は、コンテキスト系列に対応する、基準口調の音響モデルパラメータを基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を、変換パラメータ記憶部１８から取得する。より具体的には、変換パラメータ取得部２０は、コンテキスト取得部１２が取得したコンテキスト系列に対応する変換パラメータ系列を、変換パラメータ記憶部１８に記憶された第２分類情報に基づき決定する。

本実施形態においては、変換パラメータ取得部２０は、入力されたコンテキスト系列に含まれるそれぞれのコンテキストについて、そのコンテキストの内容に従って決定木をルートノードから順次にリーフまで辿り、辿りついたリーフに属する１つの変換パラメータを取得する。そして、変換パラメータ取得部２０は、取得した変換パラメータのそれぞれを、コンテキスト系列に従った順序で連結して変換パラメータ系列として出力する。

なお、同一のコンテキスト系列に対して、音響モデルパラメータ取得部１６から出力される音響モデルパラメータ系列の長さと、変換パラメータ取得部２０から出力される変換パラメータ系列の長さとは、同一である。そして、音響モデルパラメータ取得部１６から出力される音響モデルパラメータ系列に含まれるそれぞれの音響モデルパラメータと、変換パラメータ取得部２０から出力される変換パラメータ系列に含まれるそれぞれの変換パラメータは、一対一に対応付けられている。

変換部２２は、音響モデルパラメータ取得部１６により取得された音響モデルパラメータ系列を変換パラメータ取得部２０により取得された変換パラメータ系列を用いて、基準口調とは異なる口調の音響モデルパラメータに変換する。これにより、変換部２２は、目標話者の声質および目標口調の音響モデルを表す音響モデルパラメータ系列を生成することができる。

本実施形態においては、変換部２２は、音響モデルパラメータ系列に含まれるそれぞれの平均ベクトルに、変換パラメータ系列に含まれるそれぞれの変換パラメータ（差分ベクトル）を加算することにより、変換後の音響モデルパラメータ系列を生成する。

例えば、図３に音響モデルパラメータの平均ベクトルが１次元である場合の変換例を示す。基準口調の確率密度関数４１の平均ベクトルがμ_ｃ、共分散行列Σ_ｃであるとする。また、変換パラメータに含まれる差分ベクトル４３をｄ_ｃとする。この場合、変換部２２は、音響モデルパラメータ系列に含まれるそれぞれの平均ベクトルμ_ｃに、変換パラメータ系列に含まれる対応する差分ベクトルｄ_ｃを加算する。これにより、変換部２２は、基準口調の確率密度関数４１（Ｎ（μ_ｃ，Σ_ｃ））を、目標口調の確率密度関数４２（Ｎ（μ_ｃ＋ｄ_ｃ，Σ_ｃ））に変換することができる。

なお、変換部２２は、差分ベクトルを定数倍してから平均ベクトルに加算してもよい。これにより、変換部２２は、口調変換の度合いを制御することができる。すなわち、変換部２２は、喜びの度合い、悲しみの度合い等を変更した音声信号を出力させることができる。また、変換部２２は、テキスト中の特定の部分に対して口調を変化させたり、テキスト中で徐々に口調の度合いを変化させたりしてもよい。

波形生成部２４は、変換部２２による変換後の音響モデルパラメータ系列に基づき、音声信号を生成する。波形生成部２４は、一例として、まず、変換後の音響モデルパラメータ系列（例えば、平均ベクトルおよび共分散行列の系列）から、最尤法等により、音声パラメータ系列（例えば、基本周波数および声道パラメータの系列）を生成する。次に、波形生成部２４は、一例として、音声パラメータ系列に含まれるそれぞれの音声パラメータに応じて、対応する信号源およびフィルタ等を制御して、音声信号を生成する。

図４は、第１実施形態に係る音声合成装置１０の処理内容を示すフロー図である。まず、ステップＳ１１において、音声合成装置１０は、テキストを入力する。続いて、ステップＳ１２において、音声合成装置１０は、テキストを解析してコンテキスト系列を取得する。

続いて、ステップＳ１３において、音声合成装置１０は、取得したコンテキスト系列に対応する、目標話者の基準口調の音響モデルパラメータ系列を、音響モデルパラメータ記憶部１４から取得する。より具体的には、音声合成装置１０は、取得したコンテキスト系列に対応する音響モデルパラメータ系列を第１分類情報に基づき決定する。

ステップＳ１３と並行してステップＳ１４において、音声合成装置１０は、取得したコンテキスト系列に対応する、基準口調の音響モデルパラメータを基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を、変換パラメータ記憶部１８から取得する。より具体的には、音声合成装置１０は、取得したコンテキスト系列に対応する変換パラメータ系列を、第２分類情報に基づき決定する。

続いて、ステップＳ１５において、音声合成装置１０は、基準口調の音響モデルパラメータ系列を変換パラメータ系列を用いて、基準口調とは異なる口調の音響モデルパラメータに変換する。続いて、ステップＳ１６において、音声合成装置１０は、変換後の音響モデルパラメータ系列に基づき、音声信号を生成する。続いて、ステップＳ１７において、音声合成装置１０は、生成した音声信号を出力する。

以上のような第１実施形態に係る音声合成装置１０は、コンテキストに応じて分類された変換パラメータを用いて、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を変換して、目標話者の目標口調の音響モデルパラメータを生成する。これにより、第１実施形態に係る音声合成装置１０は、目標話者の声質および目標口調の特徴を有し、さらにコンテキスト依存性が反映された精度の良い音声信号を生成することができる。

（第２実施形態）
図５は、第２実施形態に係る音声合成装置１０の構成を示す図である。第２実施形態に係る音声合成装置１０は、図１に示した第１実施形態の構成と比較して、変換パラメータ記憶部１８に代えて、複数の変換パラメータ記憶部１８（１８−１，…，１８−Ｎ）と、口調選択部５２とをさらに備える。

複数の変換パラメータ記憶部１８−１，…，１８−Ｎは、互いに異なる口調に対応した変換パラメータを記憶する。なお、第２実施形態に係る音声合成装置１０が備える変換パラメータ記憶部１８の数は、２以上であれば何個であってもよい。

例えば、第１の変換パラメータ記憶部１８−１は、基準口調（平常感情の読み上げ口調）の音響モデルパラメータを、喜びの感情を表現した口調の音響モデルパラメータに変換するための変換パラメータを記憶する。第２の変換パラメータ記憶部１８−２は、基準口調の音響モデルパラメータを、悲しみの感情を表現した口調の音響モデルパラメータに変換するための変換パラメータを記憶する。第３の変換パラメータ記憶部１８−３は、基準口調の音響モデルパラメータを、怒りの感情を表現した口調の音響モデルパラメータに変換するための変換パラメータを記憶する。

口調選択部５２は、複数の変換パラメータ記憶部１８のうち何れか１つを選択する。口調選択部５２は、ユーザにより指定された口調に対応する変換パラメータ記憶部１８を選択してもよいし、テキストの内容から適切な口調を推定し、推定した口調に対応する変換パラメータ記憶部１８を選択してもよい。そして、変換パラメータ取得部２０は、口調選択部５２により選択された変換パラメータ記憶部１８から、コンテキスト系列に対応する変換パラメータ系列を取得する。これにより、音声合成装置１０は、複数の口調の中から選択された適切な口調の音声信号を出力することができる。

また、口調選択部５２は、複数の変換パラメータ記憶部１８のうち、２以上の変換パラメータ記憶部１８を選択してもよい。この場合、変換パラメータ取得部２０は、選択された２以上の変換パラメータ記憶部１８のそれぞれから、コンテキスト系列に対応する変換パラメータ系列を取得する。

そして、変換部２２は、音響モデルパラメータ取得部１６により取得された音響モデルパラメータ系列を、変換パラメータ取得部２０により取得された２以上の変換パラメータ系列を用いて変換する。

例えば、変換部２２は、２以上の変換パラメータの平均を用いて、音響モデルパラメータ系列を変換する。これにより、音声合成装置１０は、例えば喜びおよび悲しみの感情が混合したような口調の音声信号を生成させることができる。また、変換部２２は、テキストの部分毎に異なる口調に対応する変換パラメータで音響モデルパラメータ系列を変換してもよい。これにより、音声合成装置１０は、テキストの部分毎に口調の異なる音声信号を出力することができる。

また、複数の変換パラメータ記憶部１８のそれぞれは、同一種類の口調を目標口調として、異なる複数の話者の音声によって学習した変換パラメータを記憶してもよい。口調が同一種類であっても、話者によって口調の表現が少しずつ異なる。従って、音声合成装置１０は、同一種類の口調で異なる話者の音声から学習された変換パラメータを選択することにより、音声信号の特徴を微調整することができ、より精度の良い音声信号を出力することができる。

以上のような第２実施形態に係る音声合成装置１０は、複数の口調に対応する変換パラメータ系列により音響モデルパラメータ系列を変換することができる。これにより、第２実施形態に係る音声合成装置１０によれば、ユーザが選択した口調の音声信号を出力したり、テキストの内容に応じた最適な口調の音声信号を出力したり、口調の切り替えまたは口調の合成をした音声信号を出力したりすることができる。

（第３実施形態）
図６は、第３実施形態に係る音声合成装置１０の構成を示す図である。第３実施形態に係る音声合成装置１０は、図１に示した第１実施形態の構成と比較して、音響モデルパラメータ記憶部１４に代えて、複数の音響モデルパラメータ記憶部１４（１４−１，…，１４−Ｎ）と、話者選択部５４とをさらに備える。

複数の音響モデルパラメータ記憶部１４は、互いに異なる話者に対応した音響モデルパラメータを記憶する。すなわち、複数の音響モデルパラメータ記憶部１４は、それぞれ異なる話者が基準口調で発声した音声により学習された音響モデルパラメータを記憶する。なお、第３実施形態に係る音声合成装置１０が備える音響モデルパラメータ記憶部１４の数は、２以上であれば何個であってもよい。

話者選択部５４は、複数の音響モデルパラメータ記憶部１４のうち何れか１つを選択する。例えば、話者選択部５４は、ユーザにより指定された話者に対応する音響モデルパラメータ記憶部１４を選択する。音響モデルパラメータ取得部１６は、話者選択部５４により選択された音響モデルパラメータ記憶部１４から、コンテキスト系列に対応する音響モデルパラメータ系列を取得する。

以上のような第３実施形態に係る音声合成装置１０は、複数の音響モデルパラメータ記憶部１４の中から対応する話者の音響モデルパラメータ系列を選択することができる。これにより、第３実施形態に係る音声合成装置１０によれば、複数の話者の中から話者を選択して、選択した話者の声質を有する音声信号を生成することができる。

（第４実施形態）
図７は、第４実施形態に係る音声合成装置１０の構成を示す図である。第４実施形態に係る音声合成装置１０は、図１に示した第１実施形態の構成と比較して、音響モデルパラメータ記憶部１４および変換パラメータ記憶部１８に代えて、複数の音響モデルパラメータ記憶部１４（１４−１，…，１４−Ｎ）と、話者選択部５４と、複数の変換パラメータ記憶部１８（１８−１，…，１８−Ｎ）と、口調選択部５２と、話者適応部６２と、度合い制御部６４とをさらに備える。

複数の音響モデルパラメータ記憶部１４（１４−１，…，１４−Ｎ）および話者選択部５４は、第３実施形態と同様である。複数の変換パラメータ記憶部１８（１８−１，…，１８−Ｎ）および口調選択部５２は、第２実施形態と同様である。

話者適応部６２は、ある１つの音響モデルパラメータ記憶部１４に記憶された音響モデルパラメータを、話者適応により特定の話者に対応した音響モデルパラメータに変換する。例えば、話者適応部６２は、ある特定の話者が選択された場合、その特定の話者が基準口調で発声した音声を取り込んだ音声信号と、ある１つの音響モデルパラメータ記憶部１４に記憶された音響モデルパラメータとに基づき、話者適応により、その特定の話者に対応した音響モデルパラメータを生成する。そして、話者適応部６２は、変換して得られた音響モデルパラメータを、その特定の話者に対応する音響モデルパラメータ記憶部１４に書き込む。

度合い制御部６４は、口調選択部５２により選択された２以上の変換パラメータ記憶部１８から取得した変換パラメータ系列のそれぞれに対する、音響モデルパラメータへ反映する割合を制御する。例えば、度合い制御部６４は、喜びの感情を表す口調の変換パラメータと、悲しみの感情を表す口調の変換パラメータとが選択された場合、喜びの感情をより強くする場合には、喜びの感情を表す口調の変換パラメータの割合を大きくし、悲しみの感情を表す口調の変換パラメータの割合を小さくする。そして、変換部２２は、度合い制御部６４により制御された割合に応じて２以上の変換パラメータ記憶部１８から取得した変換パラメータを合成して、音響モデルパラメータを変換する。

以上のような第４実施形態に係る音声合成装置１０は、話者適応をして特定の話者の音響モデルパラメータを生成する。これにより、第４実施形態に係る音声合成装置１０によれば、特定の話者の音声を比較的少量取得することにより、その特定の話者に対応する音響モデルパラメータを作成することができる。従って、第４実施形態に係る音声合成装置１０によれば、小さいコストで精度の良い音声信号を生成することができる。また、第４実施形態に係る音声合成装置１０は、２以上の変換パラメータの割合を制御するので、音声信号に含まれる複数の感情の割合を適切に制御することができる。

（ハードウェア構成）
図８は、第１〜第４実施形態に係る音声合成装置１０のハードウェア構成の一例を示す図である。第１〜第４実施形態に係る音声合成装置１０は、ＣＰＵ（Central Processing Unit）２０１等の制御装置と、ＲＯＭ（Read Only Memory）２０２およびＲＡＭ（Random Access Memory）２０３等の記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ２０４と、各部を接続するバスとを備えている。

実施形態に係る音声合成装置１０で実行されるプログラムは、ＲＯＭ２０２等に予め組み込まれて提供される。また、実施形態に係る音声合成装置１０で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されてもよい。

さらに、実施形態に係る音声合成装置１０で実行されるプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納され、音声合成装置１０がネットワーク経由でダウンロードすることにより提供されてもよい。また、実施形態に係る音声合成装置１０で実行されるプログラムは、インターネット等のネットワーク経由で提供または配布されてもよい。

実施形態に係る音声合成装置１０で実行されるプログラムは、コンテキスト取得モジュール、音響モデルパラメータ取得モジュール、変換パラメータ取得モジュール、変換モジュールおよび波形生成モジュールを含む構成となっており、コンピュータを上述した音声合成装置１０の各部（コンテキスト取得部１２、音響モデルパラメータ取得部１６、変換パラメータ取得部２０、変換部２２および波形生成部２４）として機能させうる。このコンピュータは、ＣＰＵ２０１がコンピュータ読取可能な記憶媒体からこのプログラムを主記憶装置上に読み出して実行することができる。なお、コンテキスト取得部１２、音響モデルパラメータ取得部１６、変換パラメータ取得部２０、変換部２２および波形生成部２４は、一部または全部がハードウェアにより構成されていてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

音声の変動を表す情報系列であるコンテキスト系列を取得するコンテキスト取得部と、
前記コンテキスト系列に対応する、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を取得する音響モデルパラメータ取得部と、
前記コンテキスト系列に対応する、前記基準口調の音響モデルパラメータを前記基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を取得する変換パラメータ取得部と、
前記音響モデルパラメータ系列を前記変換パラメータ系列を用いて変換する変換部と、
変換後の前記音響モデルパラメータ系列に基づき音声信号を生成する波形生成部と、
を備える音声合成装置。
前記コンテキスト系列は、少なくとも音素列を含む
請求項１に記載の音声合成装置。
コンテキストに応じて分類された複数の音響モデルパラメータ、および、コンテキストに対応する１つの前記音響モデルパラメータを決定するための第１分類情報を記憶する音響モデルパラメータ記憶部と、
コンテキストに応じて分類された複数の変換パラメータ、および、コンテキストに対応する１つの前記変換パラメータを決定するための第２分類情報を記憶する変換パラメータ記憶部と、
をさらに備え、
前記音響モデルパラメータ取得部は、前記コンテキスト取得部が取得した前記コンテキスト系列に対応する前記音響モデルパラメータ系列を、前記音響モデルパラメータ記憶部に記憶された前記第１分類情報に基づき決定し、
前記変換パラメータ取得部は、前記コンテキスト取得部が取得した前記コンテキスト系列に対応する前記変換パラメータ系列を、前記変換パラメータ記憶部に記憶された前記第２分類情報に基づき決定する
請求項１に記載の音声合成装置。
前記変換パラメータは、同一の話者が基準口調で発声した音声と前記基準口調とは異なる口調で発声した音声とを用いて作成される
請求項３に記載の音声合成装置。
前記音響モデルパラメータは、前記目標話者が発声した音声を用いて作成され、
前記変換パラメータは、前記目標話者とは異なる話者が発声した音声を用いて作成される
請求項３に記載の音声合成装置。
前記音響モデルパラメータは、前記目標話者が平静感情の口調で発声した音声を用いて作成され、
前記変換パラメータは、平静感情の口調の音響モデルパラメータを、平静感情以外の口調の音響モデルパラメータへと変換するための情報である
請求項３に記載の音声合成装置。
前記音響モデルは、音声の特徴を表す音声パラメータのそれぞれの出力確率をガウス分布で表す確率モデルであり、
前記音響モデルパラメータは、それぞれの前記音声パラメータの出力確率分布の平均を表す平均ベクトルを含み、
前記変換パラメータは、前記音響モデルパラメータに含まれる前記平均ベクトルと同一次元を有するベクトルであり、
前記変換部は、前記音響モデルパラメータ系列に含まれる平均ベクトルに、前記変換パラメータ系列に含まれる変換パラメータを加算することにより、変換後の音響モデルパラメータ系列を生成する
請求項１に記載の音声合成装置。
互いに異なる口調に対応した変換パラメータを記憶する複数の変換パラメータ記憶部と、
前記複数の変換パラメータ記憶部のうち何れか１つを選択する口調選択部と、
をさらに備え、
前記変換パラメータ取得部は、前記口調選択部により選択された前記変換パラメータ記憶部から前記変換パラメータ系列を取得する
請求項１に記載の音声合成装置。
互いに異なる口調に対応した変換パラメータを記憶する複数の変換パラメータ記憶部と、
前記複数の変換パラメータ記憶部のうち何れか２以上を選択する口調選択部と、
をさらに備え、
前記変換パラメータ取得部は、前記口調選択部により選択された２以上の前記変換パラメータ記憶部のそれぞれから前記変換パラメータ系列を取得し、
前記変換部は、前記音響モデルパラメータ系列を、前記２以上の変換パラメータ系列を用いて変換する
請求項１に記載の音声合成装置。
前記口調選択部により選択された２以上の前記変換パラメータ記憶部から取得した前記変換パラメータ系列のそれぞれに対する、前記音響モデルパラメータに反映する割合を制御する度合い制御部をさらに備える
請求項９に記載の音声合成装置。
互いに異なる話者に対応した前記音響モデルパラメータを記憶する複数の音響モデルパラメータ記憶部と、
前記複数の音響モデルパラメータ記憶部のうち何れか１つを選択する話者選択部と、
をさらに備え、
前記音響モデルパラメータ取得部は、前記話者選択部により選択された前記音響モデルパラメータ記憶部から前記音響モデルパラメータ系列を取得する
請求項１に記載の音声合成装置。
１つの前記音響モデルパラメータ記憶部に記憶された前記音響モデルパラメータを、話者適応により特定の話者に対応した前記音響モデルパラメータに変換して、前記特定の話者に対応する前記音響モデルパラメータ記憶部に書き込む話者適応部をさらに備える
請求項１１に記載の音声合成装置。
音声の変動を表す情報系列であるコンテキスト系列を取得するコンテキスト取得ステップと、
前記コンテキスト系列に対応する、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を取得する音響モデルパラメータ取得ステップと、
前記コンテキスト系列に対応する、前記基準口調の音響モデルパラメータを前記基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を取得する変換パラメータ取得ステップと、
前記音響モデルパラメータ系列を前記変換パラメータ系列を用いて変換する変換ステップと、
変換後の前記音響モデルパラメータ系列に基づき音声信号を生成する波形生成ステップと、
を含む音声合成方法。
コンピュータを、音声合成装置として機能させるためのプログラムであって、
前記コンピュータを、
音声の変動を表す情報系列であるコンテキスト系列を取得するコンテキスト取得部と、
前記コンテキスト系列に対応する、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を取得する音響モデルパラメータ取得部と、
前記コンテキスト系列に対応する、前記基準口調の音響モデルパラメータを前記基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を取得する変換パラメータ取得部と、
前記音響モデルパラメータ系列を前記変換パラメータ系列を用いて変換する変換部と、
変換後の前記音響モデルパラメータ系列に基づき音声信号を生成する波形生成部
として機能させるプログラム。