JP6639285B2

JP6639285B2 - 声質嗜好学習装置、声質嗜好学習方法及びプログラム

Info

Publication number: JP6639285B2
Application number: JP2016051165A
Authority: JP
Inventors: 紘一郎森
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2016-03-15
Filing date: 2016-03-15
Publication date: 2020-02-05
Anticipated expiration: 2036-03-15
Also published as: US10930264B2; US20170270907A1; JP2017167273A

Description

本発明の実施形態は声質嗜好学習装置、声質嗜好学習方法及びプログラムに関する。

近年、音声合成技術の発達により、高品質な合成音を作成できるようになってきた。特に隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いた音声合成技術は、音声をパラメータ化したモデルを用いることで、合成音を柔軟に制御できることが知られている。例えば、少量の収録音声から対象話者の高品質な合成音を作る話者適応技術、及び、感情の付いた合成音を作る感情音声合成技術等、多様な音声を合成する技術が既に実用化されている。

特許第４２９６２３１号公報特開２０１１−１８６１４３号公報

ＭａｋｏｔｏＴａｃｈｉｂａｎａ，ｅｔａｌ．"ＡｔｅｃｈｎｉｑｕｅｆｏｒｃｏｎｔｒｏｌｌｉｎｇｖｏｉｃｅｑｕａｌｉｔｙｏｆｓｙｎｔｈｅｔｉｃｓｐｅｅｃｈｕｓｉｎｇｍｕｌｔｉｐｌｅｒｅｇｒｅｓｓｉｏｎＨＳＭＭ，" ｉｎＰｒｏｃ．ＩＮＴＥＲＳＰＥＥＣＨ２００６，ｐｐ．２４３８−２４４１，２００６．ＫｅｉｉｃｈｉＴｏｋｕｄａ，"ＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓｂａｓｅｄｏｎＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ，" ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，ｖｏｌ．１０１，ｎｏ．５，ｐｐ．１２３４−１２５２，２０１３．ＫｅｎｇｏＳｈｉｃｈｉｒｉ，ｅｔａｌ．"ＥｉｇｅｎｖｏｉｃｅｆｏｒＨＭＭ−ｂａｓｅｄＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ，" ｉｎＰｒｏｃ．ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２００２．ＭａｒｋＪ．Ｆ．Ｇａｌｅｓ，"ＣｌｕｓｔｅｒＡｄａｐｔｉｖｅＴｒａｉｎｉｎｇｏｆＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ，"ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．８，ｎｏ．４，２０００．

しかしながら、従来の技術では、調整可能な声質パラメータが増えるにしたがってユーザが好みの声を得るまでに膨大な試行錯誤が必要になるという欠点があった。例えば、１０通りの値を設定できる声質パラメータが１０個ある場合、作り出せる声質の組合せは１０の１０乗通り存在し、好みの声を効率的に作り出すことが難しかった。

実施形態の声質嗜好学習装置は、記憶部と入力部と学習部と符号化部と選択部と推薦部と音声合成部と提示部とを備える。記憶部は、複数の音響モデルを記憶する。入力部は、声質に対するユーザの嗜好を示す操作入力を受け付ける。学習部は、前記音響モデルを次元縮約した声質空間上で、前記操作入力に基づいて前記ユーザの声質嗜好を表す嗜好モデルを学習する。符号化部は、前記複数の音響モデルを、前記声質空間上の点に写像することにより、前記複数の音響モデルを符号化する。選択部は、前記嗜好モデルに基づいて、前記記憶部に記憶されている音響モデルに対応する前記声質空間上の点を選択する。推薦部は、選択された点に対応する前記音響モデルを推薦する。音声合成部は、推薦された前記音響モデルからサンプル音声を合成する。提示部は、前記サンプル音声を提示する。

第１実施形態の声質嗜好学習装置の機能構成の例を示す図。第１実施形態のＫ次元の声質空間の例を示す図。第１実施形態の固有声の構成方法を示す模式図。第１実施形態の音声試聴画面の例を示す図。第１実施形態の嗜好モデルの例を示す模式図。第１実施形態の嗜好モデルから復号された音響モデルの例を示す図。第１実施形態の話者生成画面の例を示す図。第１実施形態の声質嗜好学習方法の全体フローを示すフローチャート。第１実施形態のＫ次元の声質空間の構成方法の例を示すフローチャート。第１実施形態の嗜好モデルの学習方法の例を示すフローチャート。第１実施形態の音響モデルの生成方法の例を示すフローチャート。第１実施形態の変形例１のサンプル音声の選択方法の例を示す図。第１実施形態の変形例２のサンプル音声の選択方法の例を示す図。第１実施形態の変形例３のサンプル音声の選択方法の例を示す図。第２実施形態のＫ次元の声質空間の例を示す図。第２実施形態の話者生成画面の例を示す図。第２実施形態の条件指定画面の例を示す図。第２実施形態の嗜好モデルから復号された音響モデルの例を示す図。第３実施形態の声質嗜好学習装置の機能構成の例を示す図。第３実施形態の嗜好モデルの例を示す模式図。第３実施形態の話者推薦画面の例を示す図。第３実施形態の声質嗜好学習方法の全体フローを示すフローチャート。第３実施形態の話者の推薦方法の例を示すフローチャート。第１〜３実施形態の声質嗜好学習装置のハードウェア構成の例を示す図。

合成音の多様化にともない、電子書籍の読み上げ、音声対話エージェント、デジタルサイネージ、エンターテインメント及びパーソナルロボット等の音声合成の応用先が広がりを見せている。これらの応用において、肉声ではなく、合成音を用いるメリットはいろいろ考えられるが、その一つとして各ユーザが自分の好みの声を使用できる点が挙げられる。例えば、音声対話エージェントでは明るく可愛い女性の声から低く渋い男性の声まで各ユーザの好みに合わせて音声対話エージェントの声質をカスタマイズできる。また、電子書籍の読み上げでは、声の高さ及び話速等の韻律をカスタマイズできる。

ユーザの声質に対する多様な嗜好に対応するためには、例えばユーザが使用できる話者のラインナップを増やすアプローチがある。しかし、このアプローチは、音声収録のコストがかさむため結果として提供できる話者の多様性が限られ、ユーザの多様な好みに対応できないという限界がある。また、既存の話者の声がユーザの好みに完全にマッチするとは限らない。例えば、Ａさんの声は好きだがもっと明るい方がよいであるとか、Ａさんと似ている雰囲気の別の話者が欲しいなどの要求が出てくると考えられる。

（第１実施形態）
以下に添付図面を参照して、声質嗜好学習装置、声質嗜好学習方法及びプログラムの実施形態を詳細に説明する。

［声質嗜好学習装置の機能構成］
はじめに、第１実施形態の声質嗜好学習装置１００の機能構成の例について説明する。

図１は第１実施形態の声質嗜好学習装置１００の機能構成の例を示す図である。第１実施形態の声質嗜好学習装置１００は、話者ＤＢ（Ｄａｔａｂａｓｅ）１０１、構成部１０２、声質空間モデルＤＢ１０３、符号化部１０４、復号化部１０５、音声合成部１０６、提示部１０７、入力部１０８、学習部１０９、嗜好モデルＤＢ１１０及び選択部１１１を備える。

なお話者ＤＢ１０１、声質空間モデルＤＢ１０３及び嗜好モデルＤＢ１１０は、記憶部の一例であり、話者ＤＢ１０１、声質空間モデルＤＢ１０３及び嗜好モデルＤＢ１１０に記憶される情報は、他のデータ形式により記憶されてもよい。

＜話者データ＞
話者ＤＢ１０１は、様々な声質特徴を持つ複数の話者の話者データを記憶する。話者データは、音響特徴量、コンテキストラベル及び音響モデルを含む。各話者データが、１人の話者のデータを示す。第１実施形態の説明では、話者ＤＢ１０１に記憶されている話者データの数をＭとする。

音響特徴量は、各話者の収録音声から生成される。ＨＭＭを用いた音声合成で主に使用される音響特徴量は、メルケプストラム、メルＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）、及び、メルＬＳＰ（ＬｉｎｅＳｐｅｃｔｒａｌＰａｉｒｓ）、並びに、基本周波数（Ｆ０）、及び、非周期性指標（ＢＡＰ）等である。メルケプストラム、メルＬＰＣ及びメルＬＳＰは、音韻及び声色を表す。基本周波数（Ｆ０）は、声の高さを表す。非周期性指標（ＢＡＰ）は、音声の周期成分及び非周期成分の割合を表す。

コンテキストラベルは、発話された音声の文字列情報から得られる言語的な特徴である。コンテキストラベルは、例えば、前後の音素、発音に関する情報、句末位置、文長、呼気段落長、呼気段落位置、アクセント句長、単語長、単語位置、モーラ長、モーラ位置、アクセント型、及び、係り受け情報等である。

音響モデルは、音声を合成するために必要な人の話し方及び声色等を表現する。一般に、ＨＭＭ音声合成における音響モデルは、決定木の各リーフノードに割り当てられた多次元正規分布の平均ベクトル及び共分散行列の集合によって定義される。平均ベクトル及び共分散行列は、話者の学習データ（音響特徴量及びコンテキストラベル）から推定される。音響モデルは、音声合成部１０６が、任意のテキストから音響特徴量を生成するときに、音声合成部１０６により参照される。音声合成部１０６は、ボコーダーを用いて当該音響特徴量から音声を合成する。音響モデルを用いた音声合成の詳細については、例えば非特許文献２に記載されている。

＜声質空間の構成＞
構成部１０２は、話者ＤＢ１０１に記憶された各話者データに含まれる音響モデルを次元縮約することにより声質空間を構成する。一般に、音響モデルは非常に高次元のベクトル（数万から数十万次元）で表され、そのような高次元空間上で後述する嗜好モデルを学習するのは困難である。そこで、構成部１０２が、高次元の音響モデルをより次元の低い声質空間に縮約する前処理を行う。

図２は第１実施形態のＫ次元の声質空間２００の例を示す図である。Ｋは任意の自然数である。Ｋの値は、例えば７、１６及び３２等である。

音響モデル２０１−１、音響モデル２０１−２、・・・、音響モデル２０１−Ｍは、話者ＤＢ１０１に記憶された各話者データに含まれる音響モデルである。Ｍは、話者ＤＢ１０１に記憶されている話者データの数である。以下、音響モデル２０１−１、音響モデル２０１−２、・・・、音響モデル２０１−Ｍを区別しない場合、単に音響モデル２０１という。

各音響モデル２０１は、符号化部１０４の符号化処理により声質空間２００上のＫ次元ベクトルを表す点Ｐに写像（変換）される。点Ｐの位置は、座標ｘ＝（ｘ_１，ｘ_２，・・・，ｘ_Ｋ）により表される。音響モデル２０１−１は、点Ｐ_１に対応する。音響モデル２０１−２は、点Ｐ_２に対応する。音響モデル２０１−Ｍは、点Ｐ_Ｍに対応する。なお符号化部１０４による符号化処理の詳細は後述する。

また、復号化部１０５の復号化処理により、声質空間２００の各点Ｐから、当該点Ｐに対応する音響モデル２１１（音響モデル２１１−１〜２１１−Ｎ）を復号（再構築）することが可能である。なお実際は、話者ＤＢ１０１に記憶された各話者データに含まれる音響モデル２０１を声質空間２００の点Ｐに写像される際に、いくらかの情報が失われるため、声質空間２００の点Ｐから復号された音響モデル２１１は、元の音響モデル２０１の近似に過ぎず、いくらかの誤差が生じる。

ここで、声質空間２００の任意の点Ｐから音響モデル２１１を復号できることが重要である。音響モデル２１１−１は、点Ｐ_１から復号された音響モデルである。音響モデル２１１−２は、点Ｐ_２から復号された音響モデルである。

音響モデル２１１−Ｎは、点Ｐ_Ｎから復号された音響モデルである。なお点Ｐ_Ｎは、変換元の音響モデル２０１が話者ＤＢ１０１に存在しないが、復号化部１０５の処理により音響モデル２１１−Ｎとして復号可能である。点Ｐ_Ｎは、点Ｐ_１及び点Ｐ_２のほぼ中間にある。そのため、音声合成部１０６が、復号化部１０５により点Ｐ_Ｎから復号された音響モデル２１１−Ｎを用いて音声を合成すると、音響モデル２０１−１及び音響モデル２０１−２の中間の声質になることが推測される。なお復号化部１０５による復号化処理の詳細は後述する。

音響モデル２０１を、図２に示すような低次元空間に写像する方法（次元縮約する方法）として固有声（非特許文献３参照）が知られている。第１実施形態の説明では、固有声をもとに声質空間２００を構成する方法について説明する。

図３は第１実施形態の固有声の構成方法を示す模式図である。固有声による次元縮約方法は、音響モデル２０１の主成分分析に基づく。構成部１０２は、話者ＤＢ１０１に記憶されている各話者データに含まれる音響モデル２０１を用いて固有声を学習する。はじめに、構成部１０２は、音響モデル２０１毎に、決定木の各リーフノードの平均ベクトルをすべて取り出し、取り出された平均ベクトルを結合することによりＮ次元のスーパーベクトル３０１（スーパーベクトル３０１−１〜３０１−Ｍ）を生成する。話者ＤＢ１０１にＭ人の話者の音響モデル２０１がある場合、Ｍ本のスーパーベクトル３０１が得られる。

次に、構成部１０２は、Ｍ本のスーパーベクトル３０１を列方向に結合してＮ×Ｍサイズの行列を作る。次に、構成部１０２は、このＮ×Ｍ行列に主成分分析を適用することにより、Ｍ個の固有値と、当該Ｍ個の固有値のそれぞれに対応する固有ベクトルをＭ本、得る。

最後に、構成部１０２は、固有値が大きい順にＫ本（Ｋ≦Ｍ）の固有ベクトルを選択する。選択されたＫ本の固有ベクトルにより張られる空間が、Ｋ次元の声質空間２００である。つまり、Ｋ本の固有ベクトルが声質空間２００の座標軸となる。なおＫ本の固有ベクトルの選択方法は、累積寄与率に基づく方法が一般的である。構成部１０２は、例えば累積寄与率が８０％を超えるように、Ｋ本の固有ベクトルを選ぶ。

構成部１０２は、得られたＫ本の固有ベクトルを声質空間モデルＤＢ１０３に記憶する。声質空間モデルＤＢ１０３に記憶されたＫ本の固有ベクトルは、符号化部１０４及び復号化部１０５により参照される。

なお第１実施形態の説明では、具体例として、固有声を用いる方法について説明したが、声質空間２００の構成方法はこれに限定されない。固有声を用いる方法以外の音響モデル２０１を低次元空間に写像する次元縮約方法として、重回帰ＨＳＭＭ（非特許文献１参照）、及び、ＣＡＴ（ＣｌｕｓｔｅｒＡｄａｐｔｉｖｅＴｒａｉｎｉｎｇ）（非特許文献４参照）等が知られている。固有声及びＣＡＴを用いて声質空間２００を構成する方法では、声質空間２００を構成する座標軸が学習データに基づいて最適化されるため、必ずしも人が直観的に理解できる座標軸にはならない。

一方、重回帰ＨＳＭＭを用いて声質空間２００を構成する方法では、声質空間２００を構成する座標軸が性別、年齢、明るさ及び硬さのように、人が直観的に理解できる座標軸により構成される。人が直観的に理解できる座標軸を有する声質空間２００を用いる場合については、第２実施形態で説明する。

第１実施形態の声質嗜好学習装置１００では、ユーザが各座標軸で表されるパラメータを直接操作することはないため、各座標軸の意味を人が理解できるように構成する必要がない。また、ユーザにパラメータの値を直接提示することもないため、軸の数が多くても問題ない。そのため、音響モデル２０１を低次元空間に縮約することが可能で、かつ、低次元空間の任意の点Ｐから音響モデル２１１を再構築することが可能であれば、どのような次元縮約方法を用いてもよい。先に挙げた次元縮約方法以外にも、例えばオートエンコーダー、及び、制約付きボルツマンマシン等のニューラルネットワークに基づく次元縮約方法を適用してもよい。例えばニューラルネットワークの場合、隠れ層の各素子が声質空間２００を構成する座標軸に該当する。

符号化部１０４は、話者ＤＢ１０１に記憶された各話者データに含まれる音響モデル２０１を、各話者の音響モデルをＫ次元の声質空間２００上の点Ｐに写像することにより、当該音響モデル２０１を符号化する符号化処理を行う。この符号化処理に、声質空間モデルＤＢ１０３に記憶された上述のＫ本の固有ベクトルが用いられる。具体的には、符号化部１０４は、音響モデル２０１に対応するＫ次元の声質空間２００上の座標ｘを示す列ベクトルｘを、次式（１）により算出する。

ここで、行列Ａは、各固有ベクトルｅ_ｊ（ｊ＝１，・・・，Ｋ）を列方向に結合したＮ×Ｋサイズの行列を表す。またＴは行列の転置を表す。ｙは音響モデル２０１のスーパーベクトルを表す。またμバーは、Ｍ本のスーパーベクトルの平均を表す。声質空間２００上の座標ｘは、学習部１０９による嗜好モデルの学習処理に用いられる。

復号化部１０５は、Ｋ次元の声質空間２００上の点Ｐを示す座標ｘから、音響モデル２１１を復号化する復号化処理を行う。この復号化処理でも、上述の符号化処理と同様に、声質空間モデルＤＢ１０３に記憶された上述のＫ本の固有ベクトルが用いられる。具体的には、復号化部１０５は、Ｋ次元の声質空間２００上の点Ｐを示す座標ｘから復号（再構築）された音響モデル２１１のスーパーベクトルを示す列ベクトルｙチルダ―を、次式（２）により算出する。

通常、主成分分析を行う際にスーパーベクトルの平均μバーを引く正規化を施すため、復号化処理では逆にスーパーベクトルの平均μバーを足す必要がある。ｘ_ｊ（ｊ＝１，・・・，Ｋ）は、点Ｐのｊ番目の座標を示す。また、ｅ_ｊ（ｊ＝１，・・・，Ｋ）は、固有ベクトルを示す。

復号化部１０５は、音響モデル２１１のスーパーベクトルを示す列ベクトルｙチルダ―から、音響モデル２１１を復号する。復号化部１０５は、復号された音響モデル２１１を、話者ＤＢ１０１に記憶する。

＜嗜好モデルを学習するためのサンプル音声の提示＞
音声合成部１０６は、声質に対するユーザの嗜好を受け付けるために提示する音声を、話者ＤＢ１０１に記憶された各話者データに含まれる音響モデル２０１を用いて合成する。

提示部１０７は、音声合成部１０６により合成されたサンプル音声を試聴するＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）画面を表示装置に表示する。ＵＩ画面は、例えば音声試聴画面（図４参照）等である。

図４は第１実施形態の音声試聴画面の例を示す図である。図４の音声視聴画面の例は、再生ＵＩ４０１及びチェックＵＩ４０２を含む。再生ＵＩ４０１は、音声合成部１０６により、話者ＤＢ１０１に記憶された話者データに含まれる音響モデル２０１から合成されたサンプル音声を再生するＵＩである。チェックＵＩ４０２は、好みの声質を有する話者をチェックするハート形のＵＩである。

なお話者ＤＢ１０１に記憶された話者データに含まれる音響モデル２０１の数Ｍが多い場合、全ての話者のサンプル音声を一通り評価することは現実的な方法ではない。例えば音響モデル２０１の数Ｍが、数百から数千の場合も想定される。この場合、ユーザが、なるべく少ないサンプル音声を聴くだけで、声質嗜好学習装置１００に好みの声質を示す操作入力を行えることが好ましい。

図４の例では、ｍ（ｍ≦Ｍ）人の話者のサンプル音声が提示されている。サンプル音声の数ｍは任意でよい。サンプル音声の数ｍは、例えば４〜１０程度である。

提示部１０７は、話者の声質の違いが大きくなるようにｍ人の話者のサンプル音声を提示する。これによりユーザが好みのサンプル音声を効率的に評価することができる。この場合、音声合成部１０６は、各音響モデル２０１に対応する声質空間２００上の点Ｐの間の距離が、閾値以上となるｍ個の音響モデル２０１を用いて、ｍ個のサンプル音声を合成する。各音響モデル２０１に対応する声質空間２００上の点Ｐは、上述の符号化部１０４により算出される。なお各点Ｐの間の距離の定め方は任意でよい。各点Ｐの間の距離は、例えばユークリッド距離及びコサイン距離等である。

なお、より簡単な提示方法としては、提示部１０７は、例えば話者ＤＢ１０１からランダムに選択されたｍ人の話者の音響モデル２０１から合成されたサンプル音声を評価する音声試聴画面を提示してもよい。

図４の例は、「話者１」のチェックＵＩ４０２がチェックされている場合を示す。「話者２」・・・「話者ｍ」のチェックＵＩ４０２は、まだユーザによりチェックされていない状態、又は、ユーザにより評価されていない状態を示す。チェックＵＩ４０２は、例えばマウス等の入力装置５０５でクリックするたびに、チェック状態が切り替わるようにする。

なお図４の例では、ユーザの嗜好が、チェックＵＩ４０２のチェック有無により、好き及びそれ以外の二値で評価されている。しかしながらユーザの嗜好は、例えばラジオボタン等のＵＩにより、好き、嫌い及びそれ以外等の多値で受け付けてもよいし、−５点から＋５点等の点数で数値化して受け付けてもよい。

ここで重要な点は、ユーザに、話者ＤＢ１０１内の全ての話者データの音響モデル２０１のサンプル音声を評価してもらう必要はないことである。ユーザの好みと入力した話者がたとえ数話者であっても、後段の学習部１０９により学習された嗜好モデルに従うＫ次元の声質空間２００上の点から、選択部１１１、復号化部１０５及音声合成部１０６の処理により、ユーザの嗜好に合うサンプル音声を合成することができる。

＜嗜好モデルの学習＞
図２に戻り、入力部１０８は、音声試聴画面（図４参照）を介して声質に対するユーザの嗜好を示す操作入力を受け付けると、ユーザの嗜好を示す情報を学習部１０９に入力する。図４に示す音声試聴画面の例では、ユーザの嗜好を示す情報として、チェックＵＩ４０２でチェックされたサンプル音声の話者の音響モデル２０１を特定する情報を学習部１０９に入力する。

学習部１０９は、音響モデル２０１を次元縮約したＫ次元の声質空間２００上で、入力部１０８により受け付けられたユーザの嗜好を示す操作入力に基づいて、当該ユーザの声質嗜好を表す嗜好モデルを学習する。

ここで嗜好モデルについて説明する。復号化部１０５は、声質空間２００内の任意の座標から様々な声質を表す音響モデル２１１を復号（再構築）できる。しかし、声質空間２００内の全ての座標から、それぞれ異なる声質を表す音響モデル２１１を復号できるため、復号できる音響モデル２１１の種類は非常に多い。そのため、この声質空間２００からユーザが所望するサンプル音声の声質を表す音響モデル２１１を効率的に探索するために、嗜好モデルが使用される。

嗜好モデルの学習処理について説明する。はじめに、学習部１０９は、ユーザの好みの話者の音響モデル２０１を声質空間２００上に写像した点Ｐを示す座標ｘの算出を符号化部１０４に要求する。そして学習部１０９は、符号化部１０４から、ユーザの好みの話者の音響モデル２０１を声質空間２００上に写像した点Ｐを示す座標ｘの集合を受け付ける。

次に、学習部１０９は、ユーザの好みの話者の音響モデル２０１を声質空間２００上に写像した点Ｐを示す座標ｘの集合から、当該ユーザの声質嗜好を表す嗜好モデルを学習する。第１実施形態の嗜好モデルは、Ｋ次元の声質空間２００上の確率分布である。嗜好モデルは、例えば多次元正規分布ｆである（下記式（３）参照）。

ここで、ｘはＫ次元の声質空間２００の座標を表す。またμは多次元正規分布ｆの平均ベクトルを表す。またΣは多次元正規分布ｆの共分散行列を表す。また｜Σ｜は共分散行列Σの行列式を表す。この場合、嗜好モデルの学習は、具体的には、ユーザの好みの話者の音響モデル２０１を声質空間２００上に写像した点Ｐを示す座標ｘから、多次元正規分布ｆのパラメータ（平均ベクトルμ及び共分散行列Σ）を推定することである。データから確率分布のパラメータを推定する方法は、例えば最尤推定、ＭＡＰ推定及びベイズ推定等が知られている。

図５は第１実施形態の嗜好モデルの例を示す模式図である。図５の例は、ユーザの好みの話者の音響モデル２０１を、声質空間２００上に写像した点２２１、点２２２及び点２２３から、学習部１０９により学習された嗜好モデルを示す。点２３０は、嗜好モデルを表す多次元正規分布の平均ベクトルμの座標を示す。等高線２３１〜２３３は、嗜好モデルを表す多次元正規分布の平均ベクトルμ及び共分散行列Σによって定まる当該多次元正規分布の形状を表す。なお本来はＫ次元の正規分布は可視化できないが、図５の例では簡単のため当該多次元正規分布が２次元正規分布により模式的に示されている。

ここで、ＭＡＰ推定及びベイズ推定等では、事前分布の形で前提知識を表すことができる。そのため、多くのユーザによって好まれる話者が事前にアンケート等からわかっていれば、その話者の確率が高くなるような正規分布を事前分布として用いることができる。学習部１０９は、この事前分布を、入力部１０８によって受け付けられたユーザの嗜好を示す操作入力に基づいて事後分布の形に更新することにより、ユーザの好みがより反映されたより精緻な嗜好モデルを学習することができる。

なお嗜好モデルは多次元正規分布に限られない。学習部１０９は、例えば混合ガウス分布及びｔ分布等のように、より複雑な確率分布により嗜好モデルを学習してもよい。学習部１０９は、学習された嗜好モデルを嗜好モデルＤＢ１１０に記憶する。嗜好モデルは、選択部１１１により参照される。

＜復号された音響モデルから合成されたサンプル音声の提示＞
図１に戻り、選択部１１１は、嗜好モデルＤＢ１１０に記憶された嗜好モデルから、音響モデル２１１を復号（再構築）するＫ次元の声質空間２００上の点Ｐを選択する選択処理を行う。復号化部１０５は、Ｋ次元の声質空間２００上の任意の点Ｐから、音響モデル２１１を復号可能なので、話者ＤＢ１０１に存在していない新しい話者の音響モデル２１１も復号することができる。

新しい話者の音響モデル２１１を復号（再構築）するＫ次元の声質空間２００上の点Ｐを選択する方法としては、例えば嗜好モデルを表す確率分布からランダムサンプリングする方法を適用することができる。なお選択部１１１が、嗜好モデルを表す確率分布に従うＫ次元の声質空間２００上の点Ｐをランダムサンプリングする方法は任意でよい。一般に、多次元正規分布及び混合ガウス分布等の確率分布に従う確率変数をランダムサンプリングする方法として、ボックス＝ミューラー法及びメトロポリス法等が知られている。

復号化部１０５は、選択部１１１により選択されたＫ次元の声質空間２００上の点Ｐから、新しい話者の音響モデル２１１を復号する。

図６は第１実施形態の嗜好モデルから復号された音響モデル２１１の例を示す図である。図６の例は、復号化部１０５が、選択部１１１により選択されたＫ次元の声質空間２００上の点２４１ａ〜２４１ｃから、新しい話者の音響モデル２１１ａ〜２１１ｃを復号する場合を示す。

図７は第１実施形態の話者生成画面の例を示す図である。入力部１０８は、「新しい話者を生成」ボタン４１１の押下を受け付けると、上述の選択処理の実行要求を選択部１１１に入力する。選択部１１１は、入力部１０８から実行要求を受け付けると、Ｋ次元の声質空間２００上の点Ｐを上述の選択処理により選択し、選択された点Ｐの座標ｘを復号化部１０５に入力する。復号化部１０５は、選択部１１１からＫ次元の声質空間２００の点Ｐの座標ｘを受け付けると、上述の復号化処理により、音響モデル２１１を復号し、当該音響モデル２１１を音声合成部１０６に入力する。音声合成部１０６は、復号化部１０５から音響モデル２１１を受け付けると、当該音響モデル２１１からサンプル音声を合成し、提示部１０７に入力する。提示部１０７は、音声合成部１０６からサンプル音声を受け付けると、当該サンプル音声を再生ＵＩ４０１により提示する。

入力部１０８は、「新しい話者を生成」ボタン４１１の押下を受け付けるたびに、上述の選択処理の実行要求を選択部１１１に入力する。これにより再生ＵＩ４０１により提示されるサンプル音声が更新される。図６の嗜好モデルの例では、選択部１１１は、ユーザの好みに合う可能性が高い順として、例えばＫ次元の声質空間２００上の点を、点２４１ａ、点２４１ｂ、点２４１ｃの順で選択する。

入力部１０８が、「話者を保存」ボタン４１２の押下を受け付けると、復号化部１０５が、再生ＵＩ４０１により提示されたサンプル音声の合成元の音響モデル２１１を、話者ＤＢ１０１に記憶する。ユーザは、再生ＵＩ４０１により提示されたサンプル音声を気に入った場合、「話者を保存」ボタン４１２を押下することにより、好みの声を効率的に作り出すことができる。また、好みの話者の音響モデル２１１は、話者ＤＢ１０１から読み出されることにより、必要に応じていつでも音声合成処理等に利用することができる。

［声質嗜好学習方法］
次に第１実施形態の声質嗜好学習方法について説明する。

図８は第１実施形態の声質嗜好学習方法の全体フローを示すフローチャートである。

はじめに、構成部１０２が、話者ＤＢ１０１に記憶された各話者データに含まれる音響モデル２０１を次元縮約することによりＫ次元の声質空間２００を構成する（ステップＳ１）。

学習部１０９が、音響モデル２０１を高次元データとしてそのまま扱うと、嗜好モデルの学習のパラメータ数が増え、嗜好モデルの学習が困難になる可能性がある。そのため構成部１０２が、ステップＳ１の処理を行うことによって、学習部１０９が嗜好モデルの学習をより効率的に行えるようにする。

次に、学習部１０９が、音響モデル２０１を次元縮約したＫ次元の声質空間２００上で、入力部１０８により受け付けられたユーザの嗜好を示す操作入力に基づいて声質を表す嗜好モデルを学習する（ステップＳ２）。

次に、選択部１１１及び復号化部１０５が、Ｋ次元の声質空間２００から選択された点Ｐから、音響モデル２１１を復号（再構築）することにより、ユーザの嗜好に合う話者の音響モデル２１１を生成する（ステップＳ３）。

次に、図８のステップＳ１の詳細フロー（Ｋ次元の声質空間２００の構成方法）について説明する。

図９は第１実施形態のＫ次元の声質空間２００の構成方法の例を示すフローチャートである。はじめに、構成部１０２が、話者ＤＢ１０１から複数の話者の音響モデル２０１を読み込む（ステップＳ１１）。次に、構成部１０２は、Ｋ次元の声質空間２００の座標軸として、上述のＫ本の固有ベクトルを算出する（ステップＳ１２）。次に、構成部１０２は、ステップＳ１２の処理により算出されたＫ本の固有ベクトルを、声質空間モデルとして声質空間モデルＤＢ１０３に記憶する（ステップＳ１３）。

次に、符号化部１０４が、話者ＤＢ１０１に記憶された各話者の音響モデル２０１を、上述の符号化処理により声質空間２００上のＫ次元ベクトルを表す点Ｐに写像（変換）する（ステップＳ１４）。符号化部１０４は、ステップＳ１４の処理で得られた点Ｐを示す座標を、声質空間モデルとともに声質空間モデルＤＢ１０３に記憶してもよい。

次に、図８のステップＳ２の詳細フロー（嗜好モデルの学習方法）について説明する。

図１０は第１実施形態の嗜好モデルの学習方法の例を示すフローチャートである。はじめに、入力部１０８が、上述の音声試聴画面（図４参照）を介して声質に対するユーザの嗜好を示す操作入力を受け付ける（ステップＳ２１）。

次に、学習部１０９が、音響モデル２０１を次元縮約したＫ次元の声質空間２００上で、入力部１０８により受け付けられたユーザの嗜好を示す操作入力に基づいて声質を表す嗜好モデルを学習（更新）する（ステップＳ２２）。次に、学習部１０９は、ステップＳ２２で学習（更新）された嗜好モデルを、嗜好モデルＤＢ１１０に記憶する（ステップＳ２３）。

次に、入力部１０８が、声質に対するユーザの嗜好を示す操作入力を更に受け付けたか否かを判定する（ステップＳ２４）。声質に対するユーザの嗜好を示す操作入力を更に受けた場合（ステップＳ２４、Ｙｅｓ）、処理はステップＳ２２に戻る。声質に対するユーザの嗜好を示す操作入力を更に受けなかった場合（ステップＳ２４、Ｎｏ）、処理は終了する。

次に、図８のステップＳ３の詳細フロー（音響モデルの生成方法）について説明する。

図１１は第１実施形態の音響モデルの生成方法の例を示すフローチャートである。はじめに、選択部１１１が、嗜好モデルＤＢ１１０から嗜好モデルを読み込む（ステップＳ３１）。次に、選択部１１１が、ステップＳ３１の処理で読み込まれた嗜好モデルから、音響モデル２１１を復号（再構築）するＫ次元の声質空間２００上の点Ｐを示す座標を、上述の選択処理により選択する（ステップＳ３２）。

次に、復号化部１０５が、ステップＳ３２の処理により選択されたＫ次元の声質空間２００上の点Ｐを示す座標から、新しい話者の音響モデル２１１を復号する（ステップＳ３３）。

次に、音声合成部１０６が、ステップＳ３３の処理により復号された音響モデル２１１からサンプル音声を合成する（ステップＳ３４）。次に、提示部１０７が、上述の話者生成画面の再生ＵＩ４０１（図７参照）により、サンプル音声を提示する（ステップＳ３５）。

次に、好みの話者の音声が作れた場合（ステップＳ３６、Ｙｅｓ）、復号化部１０５が、当該話者の音響モデル２１１を話者ＤＢ１０１に記憶する（ステップＳ３７）。具体的には、入力部１０８が、上述の話者生成画面の「話者を保存」ボタン４１２の押下を受け付けた場合、復号化部１０５が、当該話者の音響モデル２１１を話者ＤＢ１０１に記憶する。これにより声質嗜好学習装置１００は、ユーザの嗜好に合う多様な話者の音響モデル２１１を記憶することができる。

また、好みの話者の音声が作れなかった場合（ステップＳ３６、Ｎｏ）、処理はステップＳ３２に戻る。具体的には、入力部１０８が、上述の話者生成画面の「新しい話者を生成」ボタン４１１の押下を受け付けた場合、処理はステップＳ３２に戻る。

以上説明したように、第１実施形態の声質嗜好学習装置１００では、入力部１０８が、声質に対するユーザの嗜好を示す操作入力を受け付ける。そして、学習部１０９が、音響モデル２０１を次元縮約した声質空間２００上で、ユーザの操作入力に基づいてユーザの声質嗜好を表す嗜好モデルを学習する。これにより第１実施形態の声質嗜好学習装置１００によれば、数話者程度のサンプル音声に基づいて、ユーザから声質に対する嗜好を示す操作入力を受け付けた場合でも、ユーザの嗜好に合う多様な声質の音声を効率的に合成できる嗜好モデルを学習することができる。

（第１実施形態の変形例１）
次に第１実施形態の変形例１について説明する。第１実施形態の変形例１の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。

上述の第１実施形態の図４の説明では、ｍ（ｍ≦Ｍ）人の話者のサンプル音声の提示例について説明したが、ｍ人の話者のサンプル音声は、別の方法により提示してもよい。第１実施形態の変形例１の説明では、ｍ（ｍ≦Ｍ）人の話者のサンプル音声を提示する際に、２次元マップを利用する例について説明する。

図１２は第１実施形態の変形例１のサンプル音声の選択方法の例を示す図である。図１２の例は、構成部１０２が、話者ＤＢ１０１に記憶された全ての話者（Ｍ＝１０）の音響モデル２０１のＫ次元の声質空間２００上での座標を、多次元尺度構成法により二次元マップ４２０上に可視化した場合を示す。多次元尺度構成法は、元の座標間の距離が近い話者の音響モデル２０１ほど、２次元マップ４２０上でも近くに配置される可視化アルゴリズムである。すなわち多次元尺度構成法は、声質が似ている話者の音響モデル２０１ほど、２次元マップ４２０上でも近くに配置される可視化アルゴリズムである。

図１２の例では、例えば「話者５」、「話者６」及び「話者７」は、２次元マップ４２０上で互いに近くに配置されており、「話者５」、「話者６」及び「話者７」のサンプル音声を聴かなくても、この三話者の声質が似ていることが一目でわかる。そのため、提示部１０７は、これら三話者のサンプル音声を全てユーザに提示する必要はなく、いずれかの話者（例えば「話者５」）を提示し、その声質が好みかどうかユーザに評価させればよい。提示部１０７は、例えば声質空間２００上の点同士の距離が閾値以上である点に対応する複数の音響モデルのそれぞれから合成された複数のサンプル音声を提示する。例えば図１２の場合、提示部１０７は、「話者１」、「話者５」、「話者４」及び「話者８」の音響モデルのそれぞれから合成された４つのサンプル音声を提示する。

なお提示部１０７は、当該二次元マップ４２０を含むＵＩ画面を表示装置に表示してもよい。これによりユーザが、声質が似ている話者を容易に特定することができる。提示部１０７は、例えば二次元マップ４２０上に配置された各話者の名称が押下された場合、当該話者の音声を再生するＵＩ画面を表示装置に表示する。

第１実施形態の変形例１によれば、ユーザが、声質の異なる話者の音響モデル２０１から合成されたサンプル音声を、効率よく評価することができる。

なお、アンケートデータを用いてユーザの事前嗜好分布を学習できれば、選択部１１１が、その事前嗜好分布から後述の第３実施形態の嗜好度を計算し、提示部１０７が、当該嗜好度が高い話者のサンプル音声から優先的に評価させるとさらに効率がよい。

（第１実施形態の変形例２）
次に第１実施形態の変形例２について説明する。第１実施形態の変形例２の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。

上述の第１実施形態の図４の説明では、ｍ（ｍ≦Ｍ）人の話者のサンプル音声の提示例について説明したが、ｍ人の話者のサンプル音声は、別の方法により提示してもよい。第１実施形態の変形例２の説明では、ｍ（ｍ≦Ｍ）人の話者のサンプル音声を提示する際に、クラスタリングされた２次元マップ４２０を利用する例について説明する。

図１３は第１実施形態の変形例２のサンプル音声の選択方法の例を示す図である。図１３の例は、図１２の二次元マップ４２０上の話者の音響モデル２０１を、更にクラスタリングした場合を示す。

構成部１０２は、声質空間２００上の点をクラスタリングすることにより、声質空間２００上の点に対応する複数の音響モデル２０１を複数のクラスタに分類する。具体的には、構成部１０２は、二次元マップ４２０上の「話者１」〜「話者１０」の音響モデル２０１を、例えばクラスタ４３１〜４３５にクラスタリングする。なおクラスタリングの方法は任意でよい。クラスタリングの方法は、例えばＫ−ｍｅａｎｓ法である。

クラスタ４３１は、優しい声を表す音響モデル２０１の集合である。クラスタ４３１は、「話者４」の音響モデル２０１を含む。クラスタ４３２は、丁寧な声を表す音響モデル２０１の集合である。クラスタ４３２は、「話者３」、「話者５」、「話者６」及び「話者７」の音響モデル２０１を含む。クラスタ４３３は、落ち着いた声を表す音響モデル２０１の集合である。クラスタ４３３は、「話者１」及び「話者２」の音響モデル２０１を含む。クラスタ４３４は、可愛い声を表す音響モデル２０１の集合である。クラスタ４３４は、「話者９」及び「話者１０」の音響モデル２０１を含む。クラスタ４３５は、渋い声を表す音響モデル２０１の集合である。クラスタ４３５は、「話者８」の音響モデル２０１を含む。

提示部１０７は、各クラスタから選択された代表話者の音響モデル２０１から合成されたサンプル音声を、上述の音声試聴画面（図４参照）により提示する。このとき、提示部１０７は、サンプル音声の話者名を、「落ち着いた声」、「丁寧な声」、「可愛い声」、「渋い声」及び「優しい声」と表記することにより、ユーザがサンプル音声を評価する際の利便性を向上させることができる。

代表話者の音響モデル２０１を選択する方法は任意でよい。提示部１０７は、例えば各クラスタからランダムに音響モデル２０１を選択してもよい。また例えば、提示部１０７は、各クラスタの重心座標から復号化部１０５により復号された音響モデル２０１を選択してもよい。

第１実施形態の変形例２によれば、ユーザが、各クラスタに含まれる類似の声質を持つ話者の音響モデル２０１から合成されたサンプル音声を、代表話者のサンプル音声によりまとめて評価することができる。

（第１実施形態の変形例３）
次に第１実施形態の変形例３について説明する。第１実施形態の変形例３の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。

上述の第１実施形態の図４の説明では、ｍ（ｍ≦Ｍ）人の話者のサンプル音声の提示例について説明したが、ｍ人の話者のサンプル音声は、別の方法により提示してもよい。第１実施形態の変形例３の説明では、構成部１０２が、Ｋ次元の声質空間２００を複数の領域に分割し、提示部１０７が、分割された複数の領域に基づいてサンプル音声を提示する場合について説明する。

図１４は第１実施形態の変形例３のサンプル音声の選択方法の例を示す図である。図１４の例では、Ｋ次元の声質空間２００のｘ_１軸及びｘ_２軸が、それぞれ３つに分割されることにより、９つの領域が生成されている。なお図１４では、簡単のため、分割された領域が２次元の場合で模式的に示されている。実際には、各軸が３つに分割される場合、Ｋ次元の声質空間２００は、３のＫ乗の領域に分割される。また、各軸は、３つに限らず任意に分割してよい。例えば各軸が均等にｎ個に分割された場合、複数の領域は、ｎのＫ乗個のＫ次元立方体になる。

復号化部１０５は、各領域を代表する座標２５１を選択し、当該座標２５１から話者の音響モデル２０１を復号する。なお各領域を代表する座標２５１の選択方法は任意でよい。各領域を代表する座標２５１は、例えば各領域の重心座標である。各領域の重心座標から復号された音響モデル２０１から合成された音声は、その領域の平均的な音声になる。

提示部１０７は、各領域を代表する座標２５１から復号された当該音響モデル２０１から合成されたサンプル音声を、上述の音声試聴画面（図４参照）により提示する。

第１実施形態の変形例３によれば、ユーザが、声質の異なる話者の音響モデル２０１から合成されたサンプル音声を、各領域の代表話者のサンプル音声により効率よく評価することができる。

（第２実施形態）
次に第２実施形態について説明する。第２実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。第２実施形態の説明では、構成部１０２により構成されたＫ次元の声質空間２００の座標軸が、性別、年齢、明るさ及び優しさのように、人が直観的に理解できる場合について説明する。構成部１０２は、例えば重回帰ＨＳＭＭ（非特許文献１参照）を用いることにより、人が直感的に理解できる座標軸を有するＫ次元の声質空間２００を構成する。

図１５は第２実施形態のＫ次元の声質空間２００の例を示す図である。図１５の例は、ｘ_１軸が性別、ｘ_２軸が年齢、ｘ_３軸が明るさ、・・・、ｘ_Ｋ軸が硬さを表す場合を示す。この場合、提示部１０７は、例えばユーザの好みの話者が女性だとあらかじめわかっていれば、ｘ_１軸の右半分の領域の座標から復号された音響モデル２０１から合成されたサンプル音声を、上述の音声試聴画面（図４参照）により提示する。これにより、ユーザは、自身の声質嗜好に合うサンプル音声をより効率的に評価することができる。

なお提示部１０７により提示されるサンプル音声の選択には、例えば上述の第１実施形態の変形例３の選択方法を適用することができる。

図１６は第２実施形態の話者生成画面の例を示す図である。第２実施形態の話者生成画面は、再生ＵＩ４０１、「新しい話者を生成」ボタン４１１、「話者を保存」ボタン４１２、及び、「条件を指定」ボタン４１３を含む。再生ＵＩ４０１、「新しい話者を生成」ボタン４１１、及び、「話者を保存」ボタン４１２の説明は、第１実施形態の話者生成画面（図７参照）と同じなので省略する。

入力部１０８が、「条件を指定」ボタン４１３の押下を受け付けると、提示部１０７は、条件指定画面を表示装置に表示する。

図１７は第２実施形態の条件指定画面の例を示す図である。図１７の例は、条件指定画面が、図１５に示すＫ次元の声質空間２００の座標軸のそれぞれに対応する複数のスライダーを有する場合を示す。図１７の例は、入力部１０８が、女性的な声を指定する操作入力を受け付けた場合を示す。

図１８は第２実施形態の嗜好モデルから復号された音響モデル２１１の例を示す図である。図１８の例は、復号化部１０５が、選択部１１１により選択されたＫ次元の声質空間２００上の点２４１ｄ〜２４１ｆから、新しい話者の音響モデル２１１ｄ〜２１１ｆを復号する場合を示す。第２実施形態では、第１実施形態の場合（図６参照）と異なり、Ｋ次元の声質空間２００の座標軸は、人が理解可能であるため、嗜好モデルから新しい話者の音響モデル２１１を生成する際に、条件指定画面（図１７参照）により指定された条件に応じて一部の座標軸を固定できる。図１８の例は、入力部１０８が、条件指定画面を介して、女性的な声を指定する操作入力を受け付けた場合を示す。

選択部１１１は、多次元正規分布の平均ベクトルμの位置が点２３０である嗜好モデルの確率分布の性別を表す確率変数が「女性」に固定化された条件付き分布を定義し、その条件付き分布から性別以外の確率変数の値をランダムサンプリングする。これにより、選択部１１１は、例えばＫ次元の声質空間２００上の点２４１ｄ〜２４１ｆを選択する。

ただし、すべての確率変数を条件付けしてしまうとランダムサンプリングすることはできなくなる。嗜好モデルに多次元正規分布及び混合ガウス分布等を用いた場合は、その条件付き分布も、多次元正規分布及び混合ガウス分布等になることが知られている。そのためランダムサンプリングは、確率変数の固定化前と同じ方法で実現できる。

第２実施形態の声質嗜好学習装置１００では、選択部１１１が、嗜好モデルを表す確率分布の一部の確率変数が固定化された条件付き分布に基づいて、声質空間２００上の点を選択することができる。これにより提示部１０７が、よりユーザの嗜好に合うサンプル音声を提示することができる。

（第３実施形態）
次に第３実施形態について説明する。第３実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。第３実施形態の説明では、声質嗜好学習装置１００が、Ｋ次元の声質空間２００から復号された音響モデル２０１ではなく、話者ＤＢ１０１に記憶されている既存の音響モデル２０１から合成された話者の音声を推薦する場合について説明する。

先に述べたように、ユーザが、話者ＤＢ１０１中の全ての話者データに含まれる音響モデル２０１から合成されたサンプル音声を聴いて好みかどうか評価することは現実的ではない。そのため、本来は好みの声質であったとしてもまだ評価されていない話者データが、話者ＤＢ１０１中に多数存在するはずである。第３実施形態の声質嗜好学習装置１００は、嗜好モデルを用いてユーザの好みの話者を推薦することにより、ユーザが好みの話者データを大規模な話者ＤＢ１０１から効率的に探し出せるようにする。

［声質嗜好学習装置の機能構成］
図１９は第３実施形態の声質嗜好学習装置１００の機能構成の例を示す図である。第３実施形態の声質嗜好学習装置１００は、話者ＤＢ１０１、構成部１０２、声質空間モデルＤＢ１０３、符号化部１０４、音声合成部１０６、提示部１０７、入力部１０８、学習部１０９、嗜好モデルＤＢ１１０、選択部１１１及び推薦部１１２を備える。

第２実施形態の話者ＤＢ１０１、構成部１０２、声質空間モデルＤＢ１０３、符号化部１０４、音声合成部１０６、提示部１０７、入力部１０８、学習部１０９及び嗜好モデルＤＢ１１０の説明は、第１実施形態の場合と同じなので省略する。

選択部１１１は、嗜好モデルＤＢ１１０に記憶された嗜好モデルから、話者ＤＢ１０１に記憶されている既存の音響モデル２０１に対応するＫ次元の声質空間２００上の点Ｐを選択する選択処理を行う。

図２０は第３実施形態の嗜好モデルの例を示す模式図である。第３実施形態の嗜好モデルの説明は、第１実施形態の嗜好モデルの説明（図５参照）と同じである。点２６１〜２６３は、話者ＤＢ１０１に記憶されている既存の音響モデル２０１に対応する。選択部１１１は、例えば点２６１〜２６３に対応する話者ＤＢ１０１に記憶されている既存の音響モデル２０１を、嗜好度が高い順に選択する。

嗜好度は、声質に対するユーザの嗜好の高さを示す。選択部１１１は、第１実施形態で学習された嗜好モデルを利用して、話者ＤＢ１０１に記憶された話者データに含まれる音響モデル２０１に対して嗜好度を付与する。嗜好モデルが多次元正規分布により表されている場合、嗜好度は、例えば嗜好モデルの多次元正規分布の式に、音響モデル２０１のＫ次元の声質空間２００上の座標を代入した値である。すなわち嗜好度ｘチルダ―は、下記式（４）により算出される。

ここで、μ及びΣは嗜好モデルを学習するときに計算された既知の値である。嗜好度が大きいほどユーザの好みの話者である可能性が高い。そのため、推薦部１１２は、話者ＤＢ１０１に記憶された話者データを嗜好度の降順でソートする。

図２０の点２６１、点２６２及び点２６３の例では、嗜好度の降順は、点２６１に対応する音響モデル２０１を含む話者データ、点２６２に対応する音響モデル２０１を含む話者データ、点２６３に対応する音響モデル２０１を含む話者データである。

推薦部１１２は、選択部１１１により選択されたＫ次元の声質空間２００の点に対応する音響モデル２０１を、話者ＤＢ１０１から読み出し、当該音響モデル２０１を音声合成部１０６に入力する。

音声合成部１０６は、推薦部１１２から音響モデル２０１を受け付けると、当該音響モデル２０１からサンプル音声を合成し、提示部１０７に入力する。提示部１０７は、音声合成部１０６からサンプル音声を受け付けると、当該サンプル音声を話者推薦画面により提示する。

図２１は第３実施形態の話者推薦画面の例を示す図である。図２１の話者推薦画面の例では、推薦される話者毎に、サンプル音声を再生する再生ＵＩ４０１が設けられている。話者名の隣のカッコ内の数値は、上述の式（４）により算出された嗜好度を示す。すでにユーザが好みと回答した話者はあえて推薦する必要はないため、推薦部１１２は、ユーザ未評価の話者でかつ嗜好度の高い話者の音響モデル２０１を音声合成部１０６に入力する。そして提示部１０７が、当該音響モデル２０１から合成されたサンプル音声を、話者推薦画面により提示する。

［声質嗜好学習方法］
次に第３実施形態の声質嗜好学習方法について説明する。

図２２は第３実施形態の声質嗜好学習方法の全体フローを示すフローチャートである。ステップＳ４１及びステップＳ４２の説明は、第１実施形態の声質嗜好学習方法のステップＳ１及びステップＳ２の説明（図８参照）と同じなので省略する。

提示部１０７は、推薦部１１２により推薦された話者の音響モデル２０１から合成されたサンプル音声を、話者推薦画面（図２１参照）により提示する（ステップＳ４３）。

次に、図２２のステップＳ４３の詳細フロー（話者の推薦方法）について説明する。

図２３は第３実施形態の話者の推薦方法の例を示すフローチャートである。はじめに、符号化部１０４が、話者ＤＢ１０１から各話者データに含まれる音響モデル２０１を読み込む（ステップＳ５１）。次に、符号化部１０４は、ステップＳ５１で読み出された各音響モデル２０１を、上述の第１実施形態と同じ符号化処理により声質空間２００上のＫ次元ベクトルを表す点Ｐに写像（変換）する（ステップＳ５２）。

なおステップＳ５１及びステップＳ５２の処理は、ステップＳ４１の声質空間２００の構成処理により、声質空間２００上のＫ次元ベクトルを表す点Ｐを示す座標が、既に声質空間モデルＤＢ１０３に記憶されている場合は、省略することができる。

次に、選択部１１１が、嗜好モデルＤＢ１１０から嗜好モデルを読み込む（ステップＳ５３）。次に、選択部１１１が、ステップＳ５２の処理で算出された各点Ｐと、ステップＳ５３の処理で読み出された嗜好モデルと、を上述の式（４）に代入することにより、嗜好度を算出する（ステップＳ５４）。

次に、推薦部１１２が、話者ＤＢ１０１に記憶された話者データを、ステップＳ５４の処理で算出された嗜好度の降順でソートする（ステップＳ５５）。次に、提示部１０７が、未評価の話者の音響モデル２０１から合成されたサンプル音声を、嗜好度の降順で、話者推薦画面（図２１参照）により提示する（ステップＳ５６）。

以上説明したように、第３実施形態の声質嗜好学習装置１００によれば、話者ＤＢ１０１に記憶された話者データが膨大であっても、ユーザの嗜好に合う話者のサンプル音声を効率的に見つけ出して提示することができる。

［声質嗜好学習装置のハードウェア構成］
最後に第１〜３実施形態の声質嗜好学習装置１００のハードウェア構成の例について説明する。

図２４は第１〜３実施形態の声質嗜好学習装置１００のハードウェア構成の例を示す図である。第１〜３実施形態の声質嗜好学習装置１００は、制御装置５０１、主記憶装置５０２、補助記憶装置５０３、表示装置５０４、入力装置５０５、通信装置５０６及びスピーカー５０７を備える。制御装置５０１、主記憶装置５０２、補助記憶装置５０３、表示装置５０４、入力装置５０５、通信装置５０６及びスピーカー５０７は、バス５１０を介して接続されている。

制御装置５０１は補助記憶装置５０３から主記憶装置５０２に読み出されたプログラムを実行する。主記憶装置５０２はＲＯＭ及びＲＡＭ等のメモリである。補助記憶装置５０３はメモリカード及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等である。

表示装置５０４は情報を表示する。表示装置５０４は、例えば液晶ディスプレイである。入力装置５０５は、情報の入力を受け付ける。入力装置５０５は、例えばキーボード及びマウス等である。なお表示装置５０４及び入力装置５０５は、表示機能と入力機能とを兼ねる液晶タッチパネル等でもよい。通信装置５０６は他の装置と通信する。スピーカー５０７は音声を出力する。

第１〜３実施形態の声質嗜好学習装置１００で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルで、磁気ディスク（フレキシブルディスク及びハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、及び、Ｂｌｕｅ−ｒａｙ（登録商標）Ｄｉｓｃ等）、及び、半導体メモリ等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータ・プログラム・プロダクトとして提供される。

またコンピュータ上で稼働しているＯＳ（オペレーティングシステム）、並びに、データベース管理ソフト及びネットワーク等のＭＷ（ミドルウェア）等が、記録媒体からコンピュータにインストールされたプログラムの指示に基づいて、第１〜３実施形態の声質嗜好学習装置１００を実現するための各処理の一部を実行してもよい。

なおコンピュータは、記録媒体に記憶されたプログラムに基づき、第１〜３実施形態の声質嗜好学習装置１００の各機能の処理を実行する装置である。当該コンピュータの構成は、パソコン及びマイコン等を備える１つの装置でもよいし、複数の装置がネットワーク接続されたシステム等でもよい。

また当該コンピュータは、パーソナルコンピュータに限らず、情報処理機器に含まれる演算処理装置及びマイコン等も含み、プログラムによって第１〜３実施形態の声質嗜好学習装置１００の機能を実現できる装置の総称である。

また第１〜３実施形態の声質嗜好学習装置１００で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また実施形態の声質嗜好学習装置１００が実行するプログラムを、ダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

また第１〜３実施形態の声質嗜好学習装置１００で実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

第１〜３実施形態の声質嗜好学習装置１００で実行されるプログラムは、上述の第１〜３実施形態の声質嗜好学習装置１００の機能構成のうち、プログラムにより実現可能な機能を含むモジュール構成となっている。

プログラムにより実現される機能は、制御装置５０１が補助記憶装置５０３等の記憶媒体からプログラムを読み出して実行することにより、プログラムにより実現される機能が主記憶装置３０２にロードされる。すなわちプログラムにより実現される機能は、主記憶装置３０２上に生成される。

なお第１〜３実施形態の声質嗜好学習装置１００の機能の一部又は全部を、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェアにより実現してもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００声質嗜好学習装置
１０１話者ＤＢ
１０２構成部
１０３声質空間モデルＤＢ
１０４符号化部
１０５復号化部
１０６音声合成部
１０７提示部
１０８入力部
１０９学習部
１１０嗜好モデルＤＢ
１１１選択部
１１２推薦部
２００声質空間
２０１音響モデル
２１１復号（再構築）された音響モデル
３０１スーパーベクトル
５０１制御装置
５０２主記憶装置
５０３補助記憶装置
５０４表示装置
５０５入力装置
５０６通信装置
５０７スピーカー

Claims

複数の音響モデルを記憶する記憶部と、
声質に対するユーザの嗜好を示す操作入力を受け付ける入力部と、
前記音響モデルを次元縮約した声質空間上で、前記操作入力に基づいて前記ユーザの声質嗜好を表す嗜好モデルを学習する学習部と、
前記複数の音響モデルを、前記声質空間上の点に写像することにより、前記複数の音響モデルを符号化する符号化部と、
前記嗜好モデルに基づいて、前記記憶部に記憶されている音響モデルに対応する前記声質空間上の点を選択する選択部と、
選択された点に対応する前記音響モデルを推薦する推薦部と、
推薦された前記音響モデルからサンプル音声を合成する音声合成部と、
前記サンプル音声を提示する提示部と、
を備える声質嗜好学習装置。
前記音響モデルを次元縮約することにより前記声質空間を構成する構成部、
を更に備える請求項１に記載の声質嗜好学習装置。
前記選択部は、前記嗜好モデルに基づいて、前記声質空間上の点を選択し、
選択された前記点から前記音響モデルを復号する復号化部を更に備え、
前記音声合成部は、復号された前記音響モデルからサンプル音声を合成する、
請求項２に記載の声質嗜好学習装置。
前記提示部は、前記声質空間上の点同士の距離が閾値以上である点に対応する複数の音響モデルのそれぞれから合成された複数のサンプル音声を提示し、
前記入力部は、前記声質に対するユーザの嗜好を示す操作入力として、前記サンプル音声の選択を示す操作入力を受け付ける、
請求項１に記載の声質嗜好学習装置。
前記提示部は、複数のクラスタのそれぞれから選択された代表話者の音響モデルから合成されたサンプル音声を提示し、
前記構成部は、前記声質空間上の点をクラスタリングすることにより、前記声質空間上の点に対応する前記複数の音響モデルを前記複数のクラスタに分類し、
前記入力部は、前記声質に対するユーザの嗜好を示す操作入力として、前記サンプル音声の選択を示す操作入力を受け付ける、
請求項２に記載の声質嗜好学習装置。
前記提示部は、前記声質空間の複数の領域のそれぞれを代表する点から復号された音響モデルから合成されたサンプル音声を提示し、
前記構成部は、前記声質空間を前記複数の領域に分割し、
前記入力部は、前記声質に対するユーザの嗜好を示す操作入力として、前記サンプル音声の選択を示す操作入力を受け付ける、
請求項２に記載の声質嗜好学習装置。
前記嗜好モデルは確率分布であり、
前記選択部は、前記嗜好モデルからランダムサンプリングすることにより、前記声質空間上の点を選択する、
請求項１に記載の声質嗜好学習装置。
前記嗜好モデルは確率分布であり、
前記選択部は、前記確率分布の一部の確率変数が固定化された条件付き分布に基づいて、前記声質空間上の点を選択する、
請求項１に記載の声質嗜好学習装置。
複数の音響モデルを記憶する記憶部を備える声質嗜好学習装置の声質嗜好学習方法であって、
声質に対するユーザの嗜好を示す操作入力を受け付けるステップと、
前記音響モデルを次元縮約した声質空間上で、前記操作入力に基づいて前記ユーザの声質嗜好を表す嗜好モデルを学習するステップと、
前記複数の音響モデルを、前記声質空間上の点に写像することにより、前記複数の音響モデルを符号化するステップと、
前記嗜好モデルに基づいて、前記記憶部に記憶されている音響モデルに対応する前記声質空間上の点を選択するステップと、
選択された点に対応する前記音響モデルを推薦するステップと、
推薦された前記音響モデルからサンプル音声を合成するステップと、
前記サンプル音声を提示するステップと、
を含む声質嗜好学習方法。
複数の音響モデルを記憶する記憶部を備えるコンピュータを、
声質に対するユーザの嗜好を示す操作入力を受け付ける入力部と、
前記音響モデルを次元縮約した声質空間上で、前記操作入力に基づいて前記ユーザの声質嗜好を表す嗜好モデルを学習する学習部、
前記複数の音響モデルを、前記声質空間上の点に写像することにより、前記複数の音響モデルを符号化する符号化部と、
前記嗜好モデルに基づいて、前記記憶部に記憶されている音響モデルに対応する前記声質空間上の点を選択する選択部と、
選択された点に対応する前記音響モデルを推薦する推薦部と、
推薦された前記音響モデルからサンプル音声を合成する音声合成部と、
前記サンプル音声を提示する提示部、
として機能させるためのプログラム。