JP6639285B2 - 声質嗜好学習装置、声質嗜好学習方法及びプログラム - Google Patents

声質嗜好学習装置、声質嗜好学習方法及びプログラム Download PDF

Info

Publication number
JP6639285B2
JP6639285B2 JP2016051165A JP2016051165A JP6639285B2 JP 6639285 B2 JP6639285 B2 JP 6639285B2 JP 2016051165 A JP2016051165 A JP 2016051165A JP 2016051165 A JP2016051165 A JP 2016051165A JP 6639285 B2 JP6639285 B2 JP 6639285B2
Authority
JP
Japan
Prior art keywords
voice quality
preference
unit
voice
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016051165A
Other languages
English (en)
Other versions
JP2017167273A (ja
Inventor
紘一郎 森
紘一郎 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2016051165A priority Critical patent/JP6639285B2/ja
Priority to US15/427,505 priority patent/US10930264B2/en
Publication of JP2017167273A publication Critical patent/JP2017167273A/ja
Application granted granted Critical
Publication of JP6639285B2 publication Critical patent/JP6639285B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は声質嗜好学習装置、声質嗜好学習方法及びプログラムに関する。
近年、音声合成技術の発達により、高品質な合成音を作成できるようになってきた。特に隠れマルコフモデル(HMM:Hidden Markov Model)を用いた音声合成技術は、音声をパラメータ化したモデルを用いることで、合成音を柔軟に制御できることが知られている。例えば、少量の収録音声から対象話者の高品質な合成音を作る話者適応技術、及び、感情の付いた合成音を作る感情音声合成技術等、多様な音声を合成する技術が既に実用化されている。
特許第4296231号公報 特開2011−186143号公報
Makoto Tachibana,et al."A technique for controlling voice quality of synthetic speech using multiple regression HSMM," in Proc.INTERSPEECH2006,pp.2438−2441,2006. Keiichi Tokuda,"Speech Synthesis based on Hidden Markov Models," in Proceedings of the IEEE, vol.101,no.5,pp.1234−1252,2013. Kengo Shichiri,et al."Eigenvoice for HMM−based Speech Synthesis," in Proc. International Conference on Spoken Language Processing,2002. Mark J.F.Gales,"Cluster Adaptive Training of Hidden Markov Models,"IEEE Transactions on Speech and Audio Processing,vol.8,no.4,2000.
しかしながら、従来の技術では、調整可能な声質パラメータが増えるにしたがってユーザが好みの声を得るまでに膨大な試行錯誤が必要になるという欠点があった。例えば、10通りの値を設定できる声質パラメータが10個ある場合、作り出せる声質の組合せは10の10乗通り存在し、好みの声を効率的に作り出すことが難しかった。
実施形態の声質嗜好学習装置は、記憶部と入力部と学習部と符号化部と選択部と推薦部と音声合成部と提示部とを備える。記憶部は、複数の音響モデルを記憶する。入力部は、声質に対するユーザの嗜好を示す操作入力を受け付ける。学習部は、前記音響モデルを次元縮約した声質空間上で、前記操作入力に基づいて前記ユーザの声質嗜好を表す嗜好モデルを学習する。符号化部は、前記複数の音響モデルを、前記声質空間上の点に写像することにより、前記複数の音響モデルを符号化する。選択部は、前記嗜好モデルに基づいて、前記記憶部に記憶されている音響モデルに対応する前記声質空間上の点を選択する。推薦部は、選択された点に対応する前記音響モデルを推薦する。音声合成部は、推薦された前記音響モデルからサンプル音声を合成する。提示部は、前記サンプル音声を提示する。
第1実施形態の声質嗜好学習装置の機能構成の例を示す図。 第1実施形態のK次元の声質空間の例を示す図。 第1実施形態の固有声の構成方法を示す模式図。 第1実施形態の音声試聴画面の例を示す図。 第1実施形態の嗜好モデルの例を示す模式図。 第1実施形態の嗜好モデルから復号された音響モデルの例を示す図。 第1実施形態の話者生成画面の例を示す図。 第1実施形態の声質嗜好学習方法の全体フローを示すフローチャート。 第1実施形態のK次元の声質空間の構成方法の例を示すフローチャート。 第1実施形態の嗜好モデルの学習方法の例を示すフローチャート。 第1実施形態の音響モデルの生成方法の例を示すフローチャート。 第1実施形態の変形例1のサンプル音声の選択方法の例を示す図。 第1実施形態の変形例2のサンプル音声の選択方法の例を示す図。 第1実施形態の変形例3のサンプル音声の選択方法の例を示す図。 第2実施形態のK次元の声質空間の例を示す図。 第2実施形態の話者生成画面の例を示す図。 第2実施形態の条件指定画面の例を示す図。 第2実施形態の嗜好モデルから復号された音響モデルの例を示す図。 第3実施形態の声質嗜好学習装置の機能構成の例を示す図。 第3実施形態の嗜好モデルの例を示す模式図。 第3実施形態の話者推薦画面の例を示す図。 第3実施形態の声質嗜好学習方法の全体フローを示すフローチャート。 第3実施形態の話者の推薦方法の例を示すフローチャート。 第1〜3実施形態の声質嗜好学習装置のハードウェア構成の例を示す図。
合成音の多様化にともない、電子書籍の読み上げ、音声対話エージェント、デジタルサイネージ、エンターテインメント及びパーソナルロボット等の音声合成の応用先が広がりを見せている。これらの応用において、肉声ではなく、合成音を用いるメリットはいろいろ考えられるが、その一つとして各ユーザが自分の好みの声を使用できる点が挙げられる。例えば、音声対話エージェントでは明るく可愛い女性の声から低く渋い男性の声まで各ユーザの好みに合わせて音声対話エージェントの声質をカスタマイズできる。また、電子書籍の読み上げでは、声の高さ及び話速等の韻律をカスタマイズできる。
ユーザの声質に対する多様な嗜好に対応するためには、例えばユーザが使用できる話者のラインナップを増やすアプローチがある。しかし、このアプローチは、音声収録のコストがかさむため結果として提供できる話者の多様性が限られ、ユーザの多様な好みに対応できないという限界がある。また、既存の話者の声がユーザの好みに完全にマッチするとは限らない。例えば、Aさんの声は好きだがもっと明るい方がよいであるとか、Aさんと似ている雰囲気の別の話者が欲しいなどの要求が出てくると考えられる。
(第1実施形態)
以下に添付図面を参照して、声質嗜好学習装置、声質嗜好学習方法及びプログラムの実施形態を詳細に説明する。
[声質嗜好学習装置の機能構成]
はじめに、第1実施形態の声質嗜好学習装置100の機能構成の例について説明する。
図1は第1実施形態の声質嗜好学習装置100の機能構成の例を示す図である。第1実施形態の声質嗜好学習装置100は、話者DB(Database)101、構成部102、声質空間モデルDB103、符号化部104、復号化部105、音声合成部106、提示部107、入力部108、学習部109、嗜好モデルDB110及び選択部111を備える。
なお話者DB101、声質空間モデルDB103及び嗜好モデルDB110は、記憶部の一例であり、話者DB101、声質空間モデルDB103及び嗜好モデルDB110に記憶される情報は、他のデータ形式により記憶されてもよい。
<話者データ>
話者DB101は、様々な声質特徴を持つ複数の話者の話者データを記憶する。話者データは、音響特徴量、コンテキストラベル及び音響モデルを含む。各話者データが、1人の話者のデータを示す。第1実施形態の説明では、話者DB101に記憶されている話者データの数をMとする。
音響特徴量は、各話者の収録音声から生成される。HMMを用いた音声合成で主に使用される音響特徴量は、メルケプストラム、メルLPC(Linear Predictive Coding)、及び、メルLSP(Line Spectral Pairs)、並びに、基本周波数(F0)、及び、非周期性指標(BAP)等である。メルケプストラム、メルLPC及びメルLSPは、音韻及び声色を表す。基本周波数(F0)は、声の高さを表す。非周期性指標(BAP)は、音声の周期成分及び非周期成分の割合を表す。
コンテキストラベルは、発話された音声の文字列情報から得られる言語的な特徴である。コンテキストラベルは、例えば、前後の音素、発音に関する情報、句末位置、文長、呼気段落長、呼気段落位置、アクセント句長、単語長、単語位置、モーラ長、モーラ位置、アクセント型、及び、係り受け情報等である。
音響モデルは、音声を合成するために必要な人の話し方及び声色等を表現する。一般に、HMM音声合成における音響モデルは、決定木の各リーフノードに割り当てられた多次元正規分布の平均ベクトル及び共分散行列の集合によって定義される。平均ベクトル及び共分散行列は、話者の学習データ(音響特徴量及びコンテキストラベル)から推定される。音響モデルは、音声合成部106が、任意のテキストから音響特徴量を生成するときに、音声合成部106により参照される。音声合成部106は、ボコーダーを用いて当該音響特徴量から音声を合成する。音響モデルを用いた音声合成の詳細については、例えば非特許文献2に記載されている。
<声質空間の構成>
構成部102は、話者DB101に記憶された各話者データに含まれる音響モデルを次元縮約することにより声質空間を構成する。一般に、音響モデルは非常に高次元のベクトル(数万から数十万次元)で表され、そのような高次元空間上で後述する嗜好モデルを学習するのは困難である。そこで、構成部102が、高次元の音響モデルをより次元の低い声質空間に縮約する前処理を行う。
図2は第1実施形態のK次元の声質空間200の例を示す図である。Kは任意の自然数である。Kの値は、例えば7、16及び32等である。
音響モデル201−1、音響モデル201−2、・・・、音響モデル201−Mは、話者DB101に記憶された各話者データに含まれる音響モデルである。Mは、話者DB101に記憶されている話者データの数である。以下、音響モデル201−1、音響モデル201−2、・・・、音響モデル201−Mを区別しない場合、単に音響モデル201という。
各音響モデル201は、符号化部104の符号化処理により声質空間200上のK次元ベクトルを表す点Pに写像(変換)される。点Pの位置は、座標x=(x,x,・・・,x)により表される。音響モデル201−1は、点Pに対応する。音響モデル201−2は、点Pに対応する。音響モデル201−Mは、点Pに対応する。なお符号化部104による符号化処理の詳細は後述する。
また、復号化部105の復号化処理により、声質空間200の各点Pから、当該点Pに対応する音響モデル211(音響モデル211−1〜211−N)を復号(再構築)することが可能である。なお実際は、話者DB101に記憶された各話者データに含まれる音響モデル201を声質空間200の点Pに写像される際に、いくらかの情報が失われるため、声質空間200の点Pから復号された音響モデル211は、元の音響モデル201の近似に過ぎず、いくらかの誤差が生じる。
ここで、声質空間200の任意の点Pから音響モデル211を復号できることが重要である。音響モデル211−1は、点Pから復号された音響モデルである。音響モデル211−2は、点Pから復号された音響モデルである。
音響モデル211−Nは、点Pから復号された音響モデルである。なお点Pは、変換元の音響モデル201が話者DB101に存在しないが、復号化部105の処理により音響モデル211−Nとして復号可能である。点Pは、点P及び点Pのほぼ中間にある。そのため、音声合成部106が、復号化部105により点Pから復号された音響モデル211−Nを用いて音声を合成すると、音響モデル201−1及び音響モデル201−2の中間の声質になることが推測される。なお復号化部105による復号化処理の詳細は後述する。
音響モデル201を、図2に示すような低次元空間に写像する方法(次元縮約する方法)として固有声(非特許文献3参照)が知られている。第1実施形態の説明では、固有声をもとに声質空間200を構成する方法について説明する。
図3は第1実施形態の固有声の構成方法を示す模式図である。固有声による次元縮約方法は、音響モデル201の主成分分析に基づく。構成部102は、話者DB101に記憶されている各話者データに含まれる音響モデル201を用いて固有声を学習する。はじめに、構成部102は、音響モデル201毎に、決定木の各リーフノードの平均ベクトルをすべて取り出し、取り出された平均ベクトルを結合することによりN次元のスーパーベクトル301(スーパーベクトル301−1〜301−M)を生成する。話者DB101にM人の話者の音響モデル201がある場合、M本のスーパーベクトル301が得られる。
次に、構成部102は、M本のスーパーベクトル301を列方向に結合してN×Mサイズの行列を作る。次に、構成部102は、このN×M行列に主成分分析を適用することにより、M個の固有値と、当該M個の固有値のそれぞれに対応する固有ベクトルをM本、得る。
最後に、構成部102は、固有値が大きい順にK本(K≦M)の固有ベクトルを選択する。選択されたK本の固有ベクトルにより張られる空間が、K次元の声質空間200である。つまり、K本の固有ベクトルが声質空間200の座標軸となる。なおK本の固有ベクトルの選択方法は、累積寄与率に基づく方法が一般的である。構成部102は、例えば累積寄与率が80%を超えるように、K本の固有ベクトルを選ぶ。
構成部102は、得られたK本の固有ベクトルを声質空間モデルDB103に記憶する。声質空間モデルDB103に記憶されたK本の固有ベクトルは、符号化部104及び復号化部105により参照される。
なお第1実施形態の説明では、具体例として、固有声を用いる方法について説明したが、声質空間200の構成方法はこれに限定されない。固有声を用いる方法以外の音響モデル201を低次元空間に写像する次元縮約方法として、重回帰HSMM(非特許文献1参照)、及び、CAT(Cluster Adaptive Training)(非特許文献4参照)等が知られている。固有声及びCATを用いて声質空間200を構成する方法では、声質空間200を構成する座標軸が学習データに基づいて最適化されるため、必ずしも人が直観的に理解できる座標軸にはならない。
一方、重回帰HSMMを用いて声質空間200を構成する方法では、声質空間200を構成する座標軸が性別、年齢、明るさ及び硬さのように、人が直観的に理解できる座標軸により構成される。人が直観的に理解できる座標軸を有する声質空間200を用いる場合については、第2実施形態で説明する。
第1実施形態の声質嗜好学習装置100では、ユーザが各座標軸で表されるパラメータを直接操作することはないため、各座標軸の意味を人が理解できるように構成する必要がない。また、ユーザにパラメータの値を直接提示することもないため、軸の数が多くても問題ない。そのため、音響モデル201を低次元空間に縮約することが可能で、かつ、低次元空間の任意の点Pから音響モデル211を再構築することが可能であれば、どのような次元縮約方法を用いてもよい。先に挙げた次元縮約方法以外にも、例えばオートエンコーダー、及び、制約付きボルツマンマシン等のニューラルネットワークに基づく次元縮約方法を適用してもよい。例えばニューラルネットワークの場合、隠れ層の各素子が声質空間200を構成する座標軸に該当する。
符号化部104は、話者DB101に記憶された各話者データに含まれる音響モデル201を、各話者の音響モデルをK次元の声質空間200上の点Pに写像することにより、当該音響モデル201を符号化する符号化処理を行う。この符号化処理に、声質空間モデルDB103に記憶された上述のK本の固有ベクトルが用いられる。具体的には、符号化部104は、音響モデル201に対応するK次元の声質空間200上の座標xを示す列ベクトルxを、次式(1)により算出する。
Figure 0006639285
ここで、行列Aは、各固有ベクトルe(j=1,・・・,K)を列方向に結合したN×Kサイズの行列を表す。またTは行列の転置を表す。yは音響モデル201のスーパーベクトルを表す。またμバーは、M本のスーパーベクトルの平均を表す。声質空間200上の座標xは、学習部109による嗜好モデルの学習処理に用いられる。
復号化部105は、K次元の声質空間200上の点Pを示す座標xから、音響モデル211を復号化する復号化処理を行う。この復号化処理でも、上述の符号化処理と同様に、声質空間モデルDB103に記憶された上述のK本の固有ベクトルが用いられる。具体的には、復号化部105は、K次元の声質空間200上の点Pを示す座標xから復号(再構築)された音響モデル211のスーパーベクトルを示す列ベクトルyチルダ―を、次式(2)により算出する。
Figure 0006639285
通常、主成分分析を行う際にスーパーベクトルの平均μバーを引く正規化を施すため、復号化処理では逆にスーパーベクトルの平均μバーを足す必要がある。x(j=1,・・・,K)は、点Pのj番目の座標を示す。また、e(j=1,・・・,K)は、固有ベクトルを示す。
復号化部105は、音響モデル211のスーパーベクトルを示す列ベクトルyチルダ―から、音響モデル211を復号する。復号化部105は、復号された音響モデル211を、話者DB101に記憶する。
<嗜好モデルを学習するためのサンプル音声の提示>
音声合成部106は、声質に対するユーザの嗜好を受け付けるために提示する音声を、話者DB101に記憶された各話者データに含まれる音響モデル201を用いて合成する。
提示部107は、音声合成部106により合成されたサンプル音声を試聴するUI(User Interface)画面を表示装置に表示する。UI画面は、例えば音声試聴画面(図4参照)等である。
図4は第1実施形態の音声試聴画面の例を示す図である。図4の音声視聴画面の例は、再生UI401及びチェックUI402を含む。再生UI401は、音声合成部106により、話者DB101に記憶された話者データに含まれる音響モデル201から合成されたサンプル音声を再生するUIである。チェックUI402は、好みの声質を有する話者をチェックするハート形のUIである。
なお話者DB101に記憶された話者データに含まれる音響モデル201の数Mが多い場合、全ての話者のサンプル音声を一通り評価することは現実的な方法ではない。例えば音響モデル201の数Mが、数百から数千の場合も想定される。この場合、ユーザが、なるべく少ないサンプル音声を聴くだけで、声質嗜好学習装置100に好みの声質を示す操作入力を行えることが好ましい。
図4の例では、m(m≦M)人の話者のサンプル音声が提示されている。サンプル音声の数mは任意でよい。サンプル音声の数mは、例えば4〜10程度である。
提示部107は、話者の声質の違いが大きくなるようにm人の話者のサンプル音声を提示する。これによりユーザが好みのサンプル音声を効率的に評価することができる。この場合、音声合成部106は、各音響モデル201に対応する声質空間200上の点Pの間の距離が、閾値以上となるm個の音響モデル201を用いて、m個のサンプル音声を合成する。各音響モデル201に対応する声質空間200上の点Pは、上述の符号化部104により算出される。なお各点Pの間の距離の定め方は任意でよい。各点Pの間の距離は、例えばユークリッド距離及びコサイン距離等である。
なお、より簡単な提示方法としては、提示部107は、例えば話者DB101からランダムに選択されたm人の話者の音響モデル201から合成されたサンプル音声を評価する音声試聴画面を提示してもよい。
図4の例は、「話者1」のチェックUI402がチェックされている場合を示す。「話者2」・・・「話者m」のチェックUI402は、まだユーザによりチェックされていない状態、又は、ユーザにより評価されていない状態を示す。チェックUI402は、例えばマウス等の入力装置505でクリックするたびに、チェック状態が切り替わるようにする。
なお図4の例では、ユーザの嗜好が、チェックUI402のチェック有無により、好き及びそれ以外の二値で評価されている。しかしながらユーザの嗜好は、例えばラジオボタン等のUIにより、好き、嫌い及びそれ以外等の多値で受け付けてもよいし、−5点から+5点等の点数で数値化して受け付けてもよい。
ここで重要な点は、ユーザに、話者DB101内の全ての話者データの音響モデル201のサンプル音声を評価してもらう必要はないことである。ユーザの好みと入力した話者がたとえ数話者であっても、後段の学習部109により学習された嗜好モデルに従うK次元の声質空間200上の点から、選択部111、復号化部105及音声合成部106の処理により、ユーザの嗜好に合うサンプル音声を合成することができる。
<嗜好モデルの学習>
図2に戻り、入力部108は、音声試聴画面(図4参照)を介して声質に対するユーザの嗜好を示す操作入力を受け付けると、ユーザの嗜好を示す情報を学習部109に入力する。図4に示す音声試聴画面の例では、ユーザの嗜好を示す情報として、チェックUI402でチェックされたサンプル音声の話者の音響モデル201を特定する情報を学習部109に入力する。
学習部109は、音響モデル201を次元縮約したK次元の声質空間200上で、入力部108により受け付けられたユーザの嗜好を示す操作入力に基づいて、当該ユーザの声質嗜好を表す嗜好モデルを学習する。
ここで嗜好モデルについて説明する。復号化部105は、声質空間200内の任意の座標から様々な声質を表す音響モデル211を復号(再構築)できる。しかし、声質空間200内の全ての座標から、それぞれ異なる声質を表す音響モデル211を復号できるため、復号できる音響モデル211の種類は非常に多い。そのため、この声質空間200からユーザが所望するサンプル音声の声質を表す音響モデル211を効率的に探索するために、嗜好モデルが使用される。
嗜好モデルの学習処理について説明する。はじめに、学習部109は、ユーザの好みの話者の音響モデル201を声質空間200上に写像した点Pを示す座標xの算出を符号化部104に要求する。そして学習部109は、符号化部104から、ユーザの好みの話者の音響モデル201を声質空間200上に写像した点Pを示す座標xの集合を受け付ける。
次に、学習部109は、ユーザの好みの話者の音響モデル201を声質空間200上に写像した点Pを示す座標xの集合から、当該ユーザの声質嗜好を表す嗜好モデルを学習する。第1実施形態の嗜好モデルは、K次元の声質空間200上の確率分布である。嗜好モデルは、例えば多次元正規分布fである(下記式(3)参照)。
Figure 0006639285
ここで、xはK次元の声質空間200の座標を表す。またμは多次元正規分布fの平均ベクトルを表す。またΣは多次元正規分布fの共分散行列を表す。また|Σ|は共分散行列Σの行列式を表す。この場合、嗜好モデルの学習は、具体的には、ユーザの好みの話者の音響モデル201を声質空間200上に写像した点Pを示す座標xから、多次元正規分布fのパラメータ(平均ベクトルμ及び共分散行列Σ)を推定することである。データから確率分布のパラメータを推定する方法は、例えば最尤推定、MAP推定及びベイズ推定等が知られている。
図5は第1実施形態の嗜好モデルの例を示す模式図である。図5の例は、ユーザの好みの話者の音響モデル201を、声質空間200上に写像した点221、点222及び点223から、学習部109により学習された嗜好モデルを示す。点230は、嗜好モデルを表す多次元正規分布の平均ベクトルμの座標を示す。等高線231〜233は、嗜好モデルを表す多次元正規分布の平均ベクトルμ及び共分散行列Σによって定まる当該多次元正規分布の形状を表す。なお本来はK次元の正規分布は可視化できないが、図5の例では簡単のため当該多次元正規分布が2次元正規分布により模式的に示されている。
ここで、MAP推定及びベイズ推定等では、事前分布の形で前提知識を表すことができる。そのため、多くのユーザによって好まれる話者が事前にアンケート等からわかっていれば、その話者の確率が高くなるような正規分布を事前分布として用いることができる。学習部109は、この事前分布を、入力部108によって受け付けられたユーザの嗜好を示す操作入力に基づいて事後分布の形に更新することにより、ユーザの好みがより反映されたより精緻な嗜好モデルを学習することができる。
なお嗜好モデルは多次元正規分布に限られない。学習部109は、例えば混合ガウス分布及びt分布等のように、より複雑な確率分布により嗜好モデルを学習してもよい。学習部109は、学習された嗜好モデルを嗜好モデルDB110に記憶する。嗜好モデルは、選択部111により参照される。
<復号された音響モデルから合成されたサンプル音声の提示>
図1に戻り、選択部111は、嗜好モデルDB110に記憶された嗜好モデルから、音響モデル211を復号(再構築)するK次元の声質空間200上の点Pを選択する選択処理を行う。復号化部105は、K次元の声質空間200上の任意の点Pから、音響モデル211を復号可能なので、話者DB101に存在していない新しい話者の音響モデル211も復号することができる。
新しい話者の音響モデル211を復号(再構築)するK次元の声質空間200上の点Pを選択する方法としては、例えば嗜好モデルを表す確率分布からランダムサンプリングする方法を適用することができる。なお選択部111が、嗜好モデルを表す確率分布に従うK次元の声質空間200上の点Pをランダムサンプリングする方法は任意でよい。一般に、多次元正規分布及び混合ガウス分布等の確率分布に従う確率変数をランダムサンプリングする方法として、ボックス=ミューラー法及びメトロポリス法等が知られている。
復号化部105は、選択部111により選択されたK次元の声質空間200上の点Pから、新しい話者の音響モデル211を復号する。
図6は第1実施形態の嗜好モデルから復号された音響モデル211の例を示す図である。図6の例は、復号化部105が、選択部111により選択されたK次元の声質空間200上の点241a〜241cから、新しい話者の音響モデル211a〜211cを復号する場合を示す。
図7は第1実施形態の話者生成画面の例を示す図である。入力部108は、「新しい話者を生成」ボタン411の押下を受け付けると、上述の選択処理の実行要求を選択部111に入力する。選択部111は、入力部108から実行要求を受け付けると、K次元の声質空間200上の点Pを上述の選択処理により選択し、選択された点Pの座標xを復号化部105に入力する。復号化部105は、選択部111からK次元の声質空間200の点Pの座標xを受け付けると、上述の復号化処理により、音響モデル211を復号し、当該音響モデル211を音声合成部106に入力する。音声合成部106は、復号化部105から音響モデル211を受け付けると、当該音響モデル211からサンプル音声を合成し、提示部107に入力する。提示部107は、音声合成部106からサンプル音声を受け付けると、当該サンプル音声を再生UI401により提示する。
入力部108は、「新しい話者を生成」ボタン411の押下を受け付けるたびに、上述の選択処理の実行要求を選択部111に入力する。これにより再生UI401により提示されるサンプル音声が更新される。図6の嗜好モデルの例では、選択部111は、ユーザの好みに合う可能性が高い順として、例えばK次元の声質空間200上の点を、点241a、点241b、点241cの順で選択する。
入力部108が、「話者を保存」ボタン412の押下を受け付けると、復号化部105が、再生UI401により提示されたサンプル音声の合成元の音響モデル211を、話者DB101に記憶する。ユーザは、再生UI401により提示されたサンプル音声を気に入った場合、「話者を保存」ボタン412を押下することにより、好みの声を効率的に作り出すことができる。また、好みの話者の音響モデル211は、話者DB101から読み出されることにより、必要に応じていつでも音声合成処理等に利用することができる。
[声質嗜好学習方法]
次に第1実施形態の声質嗜好学習方法について説明する。
図8は第1実施形態の声質嗜好学習方法の全体フローを示すフローチャートである。
はじめに、構成部102が、話者DB101に記憶された各話者データに含まれる音響モデル201を次元縮約することによりK次元の声質空間200を構成する(ステップS1)。
学習部109が、音響モデル201を高次元データとしてそのまま扱うと、嗜好モデルの学習のパラメータ数が増え、嗜好モデルの学習が困難になる可能性がある。そのため構成部102が、ステップS1の処理を行うことによって、学習部109が嗜好モデルの学習をより効率的に行えるようにする。
次に、学習部109が、音響モデル201を次元縮約したK次元の声質空間200上で、入力部108により受け付けられたユーザの嗜好を示す操作入力に基づいて声質を表す嗜好モデルを学習する(ステップS2)。
次に、選択部111及び復号化部105が、K次元の声質空間200から選択された点Pから、音響モデル211を復号(再構築)することにより、ユーザの嗜好に合う話者の音響モデル211を生成する(ステップS3)。
次に、図8のステップS1の詳細フロー(K次元の声質空間200の構成方法)について説明する。
図9は第1実施形態のK次元の声質空間200の構成方法の例を示すフローチャートである。はじめに、構成部102が、話者DB101から複数の話者の音響モデル201を読み込む(ステップS11)。次に、構成部102は、K次元の声質空間200の座標軸として、上述のK本の固有ベクトルを算出する(ステップS12)。次に、構成部102は、ステップS12の処理により算出されたK本の固有ベクトルを、声質空間モデルとして声質空間モデルDB103に記憶する(ステップS13)。
次に、符号化部104が、話者DB101に記憶された各話者の音響モデル201を、上述の符号化処理により声質空間200上のK次元ベクトルを表す点Pに写像(変換)する(ステップS14)。符号化部104は、ステップS14の処理で得られた点Pを示す座標を、声質空間モデルとともに声質空間モデルDB103に記憶してもよい。
次に、図8のステップS2の詳細フロー(嗜好モデルの学習方法)について説明する。
図10は第1実施形態の嗜好モデルの学習方法の例を示すフローチャートである。はじめに、入力部108が、上述の音声試聴画面(図4参照)を介して声質に対するユーザの嗜好を示す操作入力を受け付ける(ステップS21)。
次に、学習部109が、音響モデル201を次元縮約したK次元の声質空間200上で、入力部108により受け付けられたユーザの嗜好を示す操作入力に基づいて声質を表す嗜好モデルを学習(更新)する(ステップS22)。次に、学習部109は、ステップS22で学習(更新)された嗜好モデルを、嗜好モデルDB110に記憶する(ステップS23)。
次に、入力部108が、声質に対するユーザの嗜好を示す操作入力を更に受け付けたか否かを判定する(ステップS24)。声質に対するユーザの嗜好を示す操作入力を更に受けた場合(ステップS24、Yes)、処理はステップS22に戻る。声質に対するユーザの嗜好を示す操作入力を更に受けなかった場合(ステップS24、No)、処理は終了する。
次に、図8のステップS3の詳細フロー(音響モデルの生成方法)について説明する。
図11は第1実施形態の音響モデルの生成方法の例を示すフローチャートである。はじめに、選択部111が、嗜好モデルDB110から嗜好モデルを読み込む(ステップS31)。次に、選択部111が、ステップS31の処理で読み込まれた嗜好モデルから、音響モデル211を復号(再構築)するK次元の声質空間200上の点Pを示す座標を、上述の選択処理により選択する(ステップS32)。
次に、復号化部105が、ステップS32の処理により選択されたK次元の声質空間200上の点Pを示す座標から、新しい話者の音響モデル211を復号する(ステップS33)。
次に、音声合成部106が、ステップS33の処理により復号された音響モデル211からサンプル音声を合成する(ステップS34)。次に、提示部107が、上述の話者生成画面の再生UI401(図7参照)により、サンプル音声を提示する(ステップS35)。
次に、好みの話者の音声が作れた場合(ステップS36、Yes)、復号化部105が、当該話者の音響モデル211を話者DB101に記憶する(ステップS37)。具体的には、入力部108が、上述の話者生成画面の「話者を保存」ボタン412の押下を受け付けた場合、復号化部105が、当該話者の音響モデル211を話者DB101に記憶する。これにより声質嗜好学習装置100は、ユーザの嗜好に合う多様な話者の音響モデル211を記憶することができる。
また、好みの話者の音声が作れなかった場合(ステップS36、No)、処理はステップS32に戻る。具体的には、入力部108が、上述の話者生成画面の「新しい話者を生成」ボタン411の押下を受け付けた場合、処理はステップS32に戻る。
以上説明したように、第1実施形態の声質嗜好学習装置100では、入力部108が、声質に対するユーザの嗜好を示す操作入力を受け付ける。そして、学習部109が、音響モデル201を次元縮約した声質空間200上で、ユーザの操作入力に基づいてユーザの声質嗜好を表す嗜好モデルを学習する。これにより第1実施形態の声質嗜好学習装置100によれば、数話者程度のサンプル音声に基づいて、ユーザから声質に対する嗜好を示す操作入力を受け付けた場合でも、ユーザの嗜好に合う多様な声質の音声を効率的に合成できる嗜好モデルを学習することができる。
(第1実施形態の変形例1)
次に第1実施形態の変形例1について説明する。第1実施形態の変形例1の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
上述の第1実施形態の図4の説明では、m(m≦M)人の話者のサンプル音声の提示例について説明したが、m人の話者のサンプル音声は、別の方法により提示してもよい。第1実施形態の変形例1の説明では、m(m≦M)人の話者のサンプル音声を提示する際に、2次元マップを利用する例について説明する。
図12は第1実施形態の変形例1のサンプル音声の選択方法の例を示す図である。図12の例は、構成部102が、話者DB101に記憶された全ての話者(M=10)の音響モデル201のK次元の声質空間200上での座標を、多次元尺度構成法により二次元マップ420上に可視化した場合を示す。多次元尺度構成法は、元の座標間の距離が近い話者の音響モデル201ほど、2次元マップ420上でも近くに配置される可視化アルゴリズムである。すなわち多次元尺度構成法は、声質が似ている話者の音響モデル201ほど、2次元マップ420上でも近くに配置される可視化アルゴリズムである。
図12の例では、例えば「話者5」、「話者6」及び「話者7」は、2次元マップ420上で互いに近くに配置されており、「話者5」、「話者6」及び「話者7」のサンプル音声を聴かなくても、この三話者の声質が似ていることが一目でわかる。そのため、提示部107は、これら三話者のサンプル音声を全てユーザに提示する必要はなく、いずれかの話者(例えば「話者5」)を提示し、その声質が好みかどうかユーザに評価させればよい。提示部107は、例えば声質空間200上の点同士の距離が閾値以上である点に対応する複数の音響モデルのそれぞれから合成された複数のサンプル音声を提示する。例えば図12の場合、提示部107は、「話者1」、「話者5」、「話者4」及び「話者8」の音響モデルのそれぞれから合成された4つのサンプル音声を提示する。
なお提示部107は、当該二次元マップ420を含むUI画面を表示装置に表示してもよい。これによりユーザが、声質が似ている話者を容易に特定することができる。提示部107は、例えば二次元マップ420上に配置された各話者の名称が押下された場合、当該話者の音声を再生するUI画面を表示装置に表示する。
第1実施形態の変形例1によれば、ユーザが、声質の異なる話者の音響モデル201から合成されたサンプル音声を、効率よく評価することができる。
なお、アンケートデータを用いてユーザの事前嗜好分布を学習できれば、選択部111が、その事前嗜好分布から後述の第3実施形態の嗜好度を計算し、提示部107が、当該嗜好度が高い話者のサンプル音声から優先的に評価させるとさらに効率がよい。
(第1実施形態の変形例2)
次に第1実施形態の変形例2について説明する。第1実施形態の変形例2の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
上述の第1実施形態の図4の説明では、m(m≦M)人の話者のサンプル音声の提示例について説明したが、m人の話者のサンプル音声は、別の方法により提示してもよい。第1実施形態の変形例2の説明では、m(m≦M)人の話者のサンプル音声を提示する際に、クラスタリングされた2次元マップ420を利用する例について説明する。
図13は第1実施形態の変形例2のサンプル音声の選択方法の例を示す図である。図13の例は、図12の二次元マップ420上の話者の音響モデル201を、更にクラスタリングした場合を示す。
構成部102は、声質空間200上の点をクラスタリングすることにより、声質空間200上の点に対応する複数の音響モデル201を複数のクラスタに分類する。具体的には、構成部102は、二次元マップ420上の「話者1」〜「話者10」の音響モデル201を、例えばクラスタ431〜435にクラスタリングする。なおクラスタリングの方法は任意でよい。クラスタリングの方法は、例えばK−means法である。
クラスタ431は、優しい声を表す音響モデル201の集合である。クラスタ431は、「話者4」の音響モデル201を含む。クラスタ432は、丁寧な声を表す音響モデル201の集合である。クラスタ432は、「話者3」、「話者5」、「話者6」及び「話者7」の音響モデル201を含む。クラスタ433は、落ち着いた声を表す音響モデル201の集合である。クラスタ433は、「話者1」及び「話者2」の音響モデル201を含む。クラスタ434は、可愛い声を表す音響モデル201の集合である。クラスタ434は、「話者9」及び「話者10」の音響モデル201を含む。クラスタ435は、渋い声を表す音響モデル201の集合である。クラスタ435は、「話者8」の音響モデル201を含む。
提示部107は、各クラスタから選択された代表話者の音響モデル201から合成されたサンプル音声を、上述の音声試聴画面(図4参照)により提示する。このとき、提示部107は、サンプル音声の話者名を、「落ち着いた声」、「丁寧な声」、「可愛い声」、「渋い声」及び「優しい声」と表記することにより、ユーザがサンプル音声を評価する際の利便性を向上させることができる。
代表話者の音響モデル201を選択する方法は任意でよい。提示部107は、例えば各クラスタからランダムに音響モデル201を選択してもよい。また例えば、提示部107は、各クラスタの重心座標から復号化部105により復号された音響モデル201を選択してもよい。
第1実施形態の変形例2によれば、ユーザが、各クラスタに含まれる類似の声質を持つ話者の音響モデル201から合成されたサンプル音声を、代表話者のサンプル音声によりまとめて評価することができる。
(第1実施形態の変形例3)
次に第1実施形態の変形例3について説明する。第1実施形態の変形例3の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
上述の第1実施形態の図4の説明では、m(m≦M)人の話者のサンプル音声の提示例について説明したが、m人の話者のサンプル音声は、別の方法により提示してもよい。第1実施形態の変形例3の説明では、構成部102が、K次元の声質空間200を複数の領域に分割し、提示部107が、分割された複数の領域に基づいてサンプル音声を提示する場合について説明する。
図14は第1実施形態の変形例3のサンプル音声の選択方法の例を示す図である。図14の例では、K次元の声質空間200のx軸及びx軸が、それぞれ3つに分割されることにより、9つの領域が生成されている。なお図14では、簡単のため、分割された領域が2次元の場合で模式的に示されている。実際には、各軸が3つに分割される場合、K次元の声質空間200は、3のK乗の領域に分割される。また、各軸は、3つに限らず任意に分割してよい。例えば各軸が均等にn個に分割された場合、複数の領域は、nのK乗個のK次元立方体になる。
復号化部105は、各領域を代表する座標251を選択し、当該座標251から話者の音響モデル201を復号する。なお各領域を代表する座標251の選択方法は任意でよい。各領域を代表する座標251は、例えば各領域の重心座標である。各領域の重心座標から復号された音響モデル201から合成された音声は、その領域の平均的な音声になる。
提示部107は、各領域を代表する座標251から復号された当該音響モデル201から合成されたサンプル音声を、上述の音声試聴画面(図4参照)により提示する。
第1実施形態の変形例3によれば、ユーザが、声質の異なる話者の音響モデル201から合成されたサンプル音声を、各領域の代表話者のサンプル音声により効率よく評価することができる。
(第2実施形態)
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。第2実施形態の説明では、構成部102により構成されたK次元の声質空間200の座標軸が、性別、年齢、明るさ及び優しさのように、人が直観的に理解できる場合について説明する。構成部102は、例えば重回帰HSMM(非特許文献1参照)を用いることにより、人が直感的に理解できる座標軸を有するK次元の声質空間200を構成する。
図15は第2実施形態のK次元の声質空間200の例を示す図である。図15の例は、x軸が性別、x軸が年齢、x軸が明るさ、・・・、x軸が硬さを表す場合を示す。この場合、提示部107は、例えばユーザの好みの話者が女性だとあらかじめわかっていれば、x軸の右半分の領域の座標から復号された音響モデル201から合成されたサンプル音声を、上述の音声試聴画面(図4参照)により提示する。これにより、ユーザは、自身の声質嗜好に合うサンプル音声をより効率的に評価することができる。
なお提示部107により提示されるサンプル音声の選択には、例えば上述の第1実施形態の変形例3の選択方法を適用することができる。
図16は第2実施形態の話者生成画面の例を示す図である。第2実施形態の話者生成画面は、再生UI401、「新しい話者を生成」ボタン411、「話者を保存」ボタン412、及び、「条件を指定」ボタン413を含む。再生UI401、「新しい話者を生成」ボタン411、及び、「話者を保存」ボタン412の説明は、第1実施形態の話者生成画面(図7参照)と同じなので省略する。
入力部108が、「条件を指定」ボタン413の押下を受け付けると、提示部107は、条件指定画面を表示装置に表示する。
図17は第2実施形態の条件指定画面の例を示す図である。図17の例は、条件指定画面が、図15に示すK次元の声質空間200の座標軸のそれぞれに対応する複数のスライダーを有する場合を示す。図17の例は、入力部108が、女性的な声を指定する操作入力を受け付けた場合を示す。
図18は第2実施形態の嗜好モデルから復号された音響モデル211の例を示す図である。図18の例は、復号化部105が、選択部111により選択されたK次元の声質空間200上の点241d〜241fから、新しい話者の音響モデル211d〜211fを復号する場合を示す。第2実施形態では、第1実施形態の場合(図6参照)と異なり、K次元の声質空間200の座標軸は、人が理解可能であるため、嗜好モデルから新しい話者の音響モデル211を生成する際に、条件指定画面(図17参照)により指定された条件に応じて一部の座標軸を固定できる。図18の例は、入力部108が、条件指定画面を介して、女性的な声を指定する操作入力を受け付けた場合を示す。
選択部111は、多次元正規分布の平均ベクトルμの位置が点230である嗜好モデルの確率分布の性別を表す確率変数が「女性」に固定化された条件付き分布を定義し、その条件付き分布から性別以外の確率変数の値をランダムサンプリングする。これにより、選択部111は、例えばK次元の声質空間200上の点241d〜241fを選択する。
ただし、すべての確率変数を条件付けしてしまうとランダムサンプリングすることはできなくなる。嗜好モデルに多次元正規分布及び混合ガウス分布等を用いた場合は、その条件付き分布も、多次元正規分布及び混合ガウス分布等になることが知られている。そのためランダムサンプリングは、確率変数の固定化前と同じ方法で実現できる。
第2実施形態の声質嗜好学習装置100では、選択部111が、嗜好モデルを表す確率分布の一部の確率変数が固定化された条件付き分布に基づいて、声質空間200上の点を選択することができる。これにより提示部107が、よりユーザの嗜好に合うサンプル音声を提示することができる。
(第3実施形態)
次に第3実施形態について説明する。第3実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。第3実施形態の説明では、声質嗜好学習装置100が、K次元の声質空間200から復号された音響モデル201ではなく、話者DB101に記憶されている既存の音響モデル201から合成された話者の音声を推薦する場合について説明する。
先に述べたように、ユーザが、話者DB101中の全ての話者データに含まれる音響モデル201から合成されたサンプル音声を聴いて好みかどうか評価することは現実的ではない。そのため、本来は好みの声質であったとしてもまだ評価されていない話者データが、話者DB101中に多数存在するはずである。第3実施形態の声質嗜好学習装置100は、嗜好モデルを用いてユーザの好みの話者を推薦することにより、ユーザが好みの話者データを大規模な話者DB101から効率的に探し出せるようにする。
[声質嗜好学習装置の機能構成]
図19は第3実施形態の声質嗜好学習装置100の機能構成の例を示す図である。第3実施形態の声質嗜好学習装置100は、話者DB101、構成部102、声質空間モデルDB103、符号化部104、音声合成部106、提示部107、入力部108、学習部109、嗜好モデルDB110、選択部111及び推薦部112を備える。
第2実施形態の話者DB101、構成部102、声質空間モデルDB103、符号化部104、音声合成部106、提示部107、入力部108、学習部109及び嗜好モデルDB110の説明は、第1実施形態の場合と同じなので省略する。
選択部111は、嗜好モデルDB110に記憶された嗜好モデルから、話者DB101に記憶されている既存の音響モデル201に対応するK次元の声質空間200上の点Pを選択する選択処理を行う。
図20は第3実施形態の嗜好モデルの例を示す模式図である。第3実施形態の嗜好モデルの説明は、第1実施形態の嗜好モデルの説明(図5参照)と同じである。点261〜263は、話者DB101に記憶されている既存の音響モデル201に対応する。選択部111は、例えば点261〜263に対応する話者DB101に記憶されている既存の音響モデル201を、嗜好度が高い順に選択する。
嗜好度は、声質に対するユーザの嗜好の高さを示す。選択部111は、第1実施形態で学習された嗜好モデルを利用して、話者DB101に記憶された話者データに含まれる音響モデル201に対して嗜好度を付与する。嗜好モデルが多次元正規分布により表されている場合、嗜好度は、例えば嗜好モデルの多次元正規分布の式に、音響モデル201のK次元の声質空間200上の座標を代入した値である。すなわち嗜好度xチルダ―は、下記式(4)により算出される。
Figure 0006639285
ここで、μ及びΣは嗜好モデルを学習するときに計算された既知の値である。嗜好度が大きいほどユーザの好みの話者である可能性が高い。そのため、推薦部112は、話者DB101に記憶された話者データを嗜好度の降順でソートする。
図20の点261、点262及び点263の例では、嗜好度の降順は、点261に対応する音響モデル201を含む話者データ、点262に対応する音響モデル201を含む話者データ、点263に対応する音響モデル201を含む話者データである。
推薦部112は、選択部111により選択されたK次元の声質空間200の点に対応する音響モデル201を、話者DB101から読み出し、当該音響モデル201を音声合成部106に入力する。
音声合成部106は、推薦部112から音響モデル201を受け付けると、当該音響モデル201からサンプル音声を合成し、提示部107に入力する。提示部107は、音声合成部106からサンプル音声を受け付けると、当該サンプル音声を話者推薦画面により提示する。
図21は第3実施形態の話者推薦画面の例を示す図である。図21の話者推薦画面の例では、推薦される話者毎に、サンプル音声を再生する再生UI401が設けられている。話者名の隣のカッコ内の数値は、上述の式(4)により算出された嗜好度を示す。すでにユーザが好みと回答した話者はあえて推薦する必要はないため、推薦部112は、ユーザ未評価の話者でかつ嗜好度の高い話者の音響モデル201を音声合成部106に入力する。そして提示部107が、当該音響モデル201から合成されたサンプル音声を、話者推薦画面により提示する。
[声質嗜好学習方法]
次に第3実施形態の声質嗜好学習方法について説明する。
図22は第3実施形態の声質嗜好学習方法の全体フローを示すフローチャートである。ステップS41及びステップS42の説明は、第1実施形態の声質嗜好学習方法のステップS1及びステップS2の説明(図8参照)と同じなので省略する。
提示部107は、推薦部112により推薦された話者の音響モデル201から合成されたサンプル音声を、話者推薦画面(図21参照)により提示する(ステップS43)。
次に、図22のステップS43の詳細フロー(話者の推薦方法)について説明する。
図23は第3実施形態の話者の推薦方法の例を示すフローチャートである。はじめに、符号化部104が、話者DB101から各話者データに含まれる音響モデル201を読み込む(ステップS51)。次に、符号化部104は、ステップS51で読み出された各音響モデル201を、上述の第1実施形態と同じ符号化処理により声質空間200上のK次元ベクトルを表す点Pに写像(変換)する(ステップS52)。
なおステップS51及びステップS52の処理は、ステップS41の声質空間200の構成処理により、声質空間200上のK次元ベクトルを表す点Pを示す座標が、既に声質空間モデルDB103に記憶されている場合は、省略することができる。
次に、選択部111が、嗜好モデルDB110から嗜好モデルを読み込む(ステップS53)。次に、選択部111が、ステップS52の処理で算出された各点Pと、ステップS53の処理で読み出された嗜好モデルと、を上述の式(4)に代入することにより、嗜好度を算出する(ステップS54)。
次に、推薦部112が、話者DB101に記憶された話者データを、ステップS54の処理で算出された嗜好度の降順でソートする(ステップS55)。次に、提示部107が、未評価の話者の音響モデル201から合成されたサンプル音声を、嗜好度の降順で、話者推薦画面(図21参照)により提示する(ステップS56)。
以上説明したように、第3実施形態の声質嗜好学習装置100によれば、話者DB101に記憶された話者データが膨大であっても、ユーザの嗜好に合う話者のサンプル音声を効率的に見つけ出して提示することができる。
[声質嗜好学習装置のハードウェア構成]
最後に第1〜3実施形態の声質嗜好学習装置100のハードウェア構成の例について説明する。
図24は第1〜3実施形態の声質嗜好学習装置100のハードウェア構成の例を示す図である。第1〜3実施形態の声質嗜好学習装置100は、制御装置501、主記憶装置502、補助記憶装置503、表示装置504、入力装置505、通信装置506及びスピーカー507を備える。制御装置501、主記憶装置502、補助記憶装置503、表示装置504、入力装置505、通信装置506及びスピーカー507は、バス510を介して接続されている。
制御装置501は補助記憶装置503から主記憶装置502に読み出されたプログラムを実行する。主記憶装置502はROM及びRAM等のメモリである。補助記憶装置503はメモリカード及びSSD(Solid State Drive)等である。
表示装置504は情報を表示する。表示装置504は、例えば液晶ディスプレイである。入力装置505は、情報の入力を受け付ける。入力装置505は、例えばキーボード及びマウス等である。なお表示装置504及び入力装置505は、表示機能と入力機能とを兼ねる液晶タッチパネル等でもよい。通信装置506は他の装置と通信する。スピーカー507は音声を出力する。
第1〜3実施形態の声質嗜好学習装置100で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルで、磁気ディスク(フレキシブルディスク及びハードディスク等)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、及び、Blue−ray(登録商標)Disc等)、及び、半導体メモリ等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータ・プログラム・プロダクトとして提供される。
またコンピュータ上で稼働しているOS(オペレーティングシステム)、並びに、データベース管理ソフト及びネットワーク等のMW(ミドルウェア)等が、記録媒体からコンピュータにインストールされたプログラムの指示に基づいて、第1〜3実施形態の声質嗜好学習装置100を実現するための各処理の一部を実行してもよい。
なおコンピュータは、記録媒体に記憶されたプログラムに基づき、第1〜3実施形態の声質嗜好学習装置100の各機能の処理を実行する装置である。当該コンピュータの構成は、パソコン及びマイコン等を備える1つの装置でもよいし、複数の装置がネットワーク接続されたシステム等でもよい。
また当該コンピュータは、パーソナルコンピュータに限らず、情報処理機器に含まれる演算処理装置及びマイコン等も含み、プログラムによって第1〜3実施形態の声質嗜好学習装置100の機能を実現できる装置の総称である。
また第1〜3実施形態の声質嗜好学習装置100で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また実施形態の声質嗜好学習装置100が実行するプログラムを、ダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。
また第1〜3実施形態の声質嗜好学習装置100で実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
第1〜3実施形態の声質嗜好学習装置100で実行されるプログラムは、上述の第1〜3実施形態の声質嗜好学習装置100の機能構成のうち、プログラムにより実現可能な機能を含むモジュール構成となっている。
プログラムにより実現される機能は、制御装置501が補助記憶装置503等の記憶媒体からプログラムを読み出して実行することにより、プログラムにより実現される機能が主記憶装置302にロードされる。すなわちプログラムにより実現される機能は、主記憶装置302上に生成される。
なお第1〜3実施形態の声質嗜好学習装置100の機能の一部又は全部を、IC(Integrated Circuit)等のハードウェアにより実現してもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 声質嗜好学習装置
101 話者DB
102 構成部
103 声質空間モデルDB
104 符号化部
105 復号化部
106 音声合成部
107 提示部
108 入力部
109 学習部
110 嗜好モデルDB
111 選択部
112 推薦部
200 声質空間
201 音響モデル
211 復号(再構築)された音響モデル
301 スーパーベクトル
501 制御装置
502 主記憶装置
503 補助記憶装置
504 表示装置
505 入力装置
506 通信装置
507 スピーカー

Claims (10)

  1. 複数の音響モデルを記憶する記憶部と、
    声質に対するユーザの嗜好を示す操作入力を受け付ける入力部と、
    前記音響モデルを次元縮約した声質空間上で、前記操作入力に基づいて前記ユーザの声質嗜好を表す嗜好モデルを学習する学習部と、
    前記複数の音響モデルを、前記声質空間上の点に写像することにより、前記複数の音響モデルを符号化する符号化部と、
    前記嗜好モデルに基づいて、前記記憶部に記憶されている音響モデルに対応する前記声質空間上の点を選択する選択部と、
    選択された点に対応する前記音響モデルを推薦する推薦部と、
    推薦された前記音響モデルからサンプル音声を合成する音声合成部と、
    前記サンプル音声を提示する提示部と、
    を備える声質嗜好学習装置。
  2. 前記音響モデルを次元縮約することにより前記声質空間を構成する構成部、
    を更に備える請求項1に記載の声質嗜好学習装置。
  3. 前記選択部は、前記嗜好モデルに基づいて、前記声質空間上の点を選択
    選択された前記点から前記音響モデルを復号する復号化部を更に備え
    前記音声合成部は、復号された前記音響モデルからサンプル音声を合成する、
    求項2に記載の声質嗜好学習装置。
  4. 前記提示部は、前記声質空間上の点同士の距離が閾値以上である点に対応する複数の音響モデルのそれぞれから合成された複数のサンプル音声を提示
    前記入力部は、前記声質に対するユーザの嗜好を示す操作入力として、前記サンプル音声の選択を示す操作入力を受け付ける、
    請求項1に記載の声質嗜好学習装置。
  5. 前記提示部は、複数のクラスタのそれぞれから選択された代表話者の音響モデルから合成されたサンプル音声を提示
    前記構成部は、前記声質空間上の点をクラスタリングすることにより、前記声質空間上の点に対応する前記複数の音響モデルを前記複数のクラスタに分類し、
    前記入力部は、前記声質に対するユーザの嗜好を示す操作入力として、前記サンプル音声の選択を示す操作入力を受け付ける、
    請求項2に記載の声質嗜好学習装置。
  6. 前記提示部は、前記声質空間の複数の領域のそれぞれを代表する点から復号された音響モデルから合成されたサンプル音声を提示
    前記構成部は、前記声質空間を前記複数の領域に分割し、
    前記入力部は、前記声質に対するユーザの嗜好を示す操作入力として、前記サンプル音声の選択を示す操作入力を受け付ける、
    請求項2に記載の声質嗜好学習装置。
  7. 前記嗜好モデルは確率分布であり、
    前記選択部は、前記嗜好モデルからランダムサンプリングすることにより、前記声質空間上の点を選択する、
    請求項に記載の声質嗜好学習装置。
  8. 前記嗜好モデルは確率分布であり、
    前記選択部は、前記確率分布の一部の確率変数が固定化された条件付き分布に基づいて、前記声質空間上の点を選択する、
    請求項に記載の声質嗜好学習装置。
  9. 複数の音響モデルを記憶する記憶部を備える声質嗜好学習装置の声質嗜好学習方法であって、
    声質に対するユーザの嗜好を示す操作入力を受け付けるステップと、
    前記音響モデルを次元縮約した声質空間上で、前記操作入力に基づいて前記ユーザの声質嗜好を表す嗜好モデルを学習するステップと、
    前記複数の音響モデルを、前記声質空間上の点に写像することにより、前記複数の音響モデルを符号化するステップと、
    前記嗜好モデルに基づいて、前記記憶部に記憶されている音響モデルに対応する前記声質空間上の点を選択するステップと、
    選択された点に対応する前記音響モデルを推薦するステップと、
    推薦された前記音響モデルからサンプル音声を合成するステップと、
    前記サンプル音声を提示するステップと、
    を含む声質嗜好学習方法。
  10. 複数の音響モデルを記憶する記憶部を備えるコンピュータを、
    声質に対するユーザの嗜好を示す操作入力を受け付ける入力部と、
    前記音響モデルを次元縮約した声質空間上で、前記操作入力に基づいて前記ユーザの声質嗜好を表す嗜好モデルを学習する学習部、
    前記複数の音響モデルを、前記声質空間上の点に写像することにより、前記複数の音響モデルを符号化する符号化部と、
    前記嗜好モデルに基づいて、前記記憶部に記憶されている音響モデルに対応する前記声質空間上の点を選択する選択部と、
    選択された点に対応する前記音響モデルを推薦する推薦部と、
    推薦された前記音響モデルからサンプル音声を合成する音声合成部と、
    前記サンプル音声を提示する提示部、
    として機能させるためのプログラム。
JP2016051165A 2016-03-15 2016-03-15 声質嗜好学習装置、声質嗜好学習方法及びプログラム Active JP6639285B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016051165A JP6639285B2 (ja) 2016-03-15 2016-03-15 声質嗜好学習装置、声質嗜好学習方法及びプログラム
US15/427,505 US10930264B2 (en) 2016-03-15 2017-02-08 Voice quality preference learning device, voice quality preference learning method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016051165A JP6639285B2 (ja) 2016-03-15 2016-03-15 声質嗜好学習装置、声質嗜好学習方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017167273A JP2017167273A (ja) 2017-09-21
JP6639285B2 true JP6639285B2 (ja) 2020-02-05

Family

ID=59847688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016051165A Active JP6639285B2 (ja) 2016-03-15 2016-03-15 声質嗜好学習装置、声質嗜好学習方法及びプログラム

Country Status (2)

Country Link
US (1) US10930264B2 (ja)
JP (1) JP6639285B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6583754B2 (ja) * 2018-03-19 2019-10-02 株式会社Novera 情報処理装置、ミラーデバイス、プログラム
EP3690875B1 (en) * 2018-04-12 2024-03-20 Spotify AB Training and testing utterance-based frameworks
EP3553775B1 (en) 2018-04-12 2020-11-25 Spotify AB Voice-based authentication
CN108520759B (zh) * 2018-04-13 2021-05-11 吉林大学 用于帕金森病语音检测的时频特征图像提取方法
US11373633B2 (en) * 2019-09-27 2022-06-28 Amazon Technologies, Inc. Text-to-speech processing using input voice characteristic data
CN111477251B (zh) * 2020-05-21 2023-09-05 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
EP4138358A4 (en) * 2020-05-27 2023-09-20 Baidu Online Network Technology (Beijing) Co., Ltd VOICE PACKET RECOMMENDATION METHOD, APPARATUS AND DEVICE, AND STORAGE MEDIUM
US12062375B2 (en) * 2021-12-08 2024-08-13 The Mitre Corporation Systems and methods for separating and identifying audio in an audio file using machine learning

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2898568B2 (ja) 1995-03-10 1999-06-02 株式会社エイ・ティ・アール音声翻訳通信研究所 声質変換音声合成装置
JP2912579B2 (ja) 1996-03-22 1999-06-28 株式会社エイ・ティ・アール音声翻訳通信研究所 声質変換音声合成装置
JPH1097267A (ja) * 1996-09-24 1998-04-14 Hitachi Ltd 声質変換方法および装置
US20020002899A1 (en) * 2000-03-22 2002-01-10 Gjerdingen Robert O. System for content based music searching
JP2007041012A (ja) 2003-11-21 2007-02-15 Matsushita Electric Ind Co Ltd 声質変換装置および音声合成装置
JP4430960B2 (ja) * 2004-03-01 2010-03-10 日本電信電話株式会社 音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体
WO2006123539A1 (ja) * 2005-05-18 2006-11-23 Matsushita Electric Industrial Co., Ltd. 音声合成装置
JP4817250B2 (ja) * 2006-08-31 2011-11-16 国立大学法人 奈良先端科学技術大学院大学 声質変換モデル生成装置及び声質変換システム
US8155964B2 (en) * 2007-06-06 2012-04-10 Panasonic Corporation Voice quality edit device and voice quality edit method
JP2011186143A (ja) 2010-03-08 2011-09-22 Hitachi Ltd ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
US9824695B2 (en) 2012-06-18 2017-11-21 International Business Machines Corporation Enhancing comprehension in voice communications
JP6172012B2 (ja) 2014-03-24 2017-08-02 富士ゼロックス株式会社 着色粉体
US9666204B2 (en) * 2014-04-30 2017-05-30 Qualcomm Incorporated Voice profile management and speech signal generation
JP6320346B2 (ja) 2015-05-27 2018-05-09 キヤノン株式会社 情報処理装置、通信処理方法およびプログラム
JP6483578B2 (ja) 2015-09-14 2019-03-13 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP6523893B2 (ja) 2015-09-16 2019-06-05 株式会社東芝 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム

Also Published As

Publication number Publication date
US10930264B2 (en) 2021-02-23
US20170270907A1 (en) 2017-09-21
JP2017167273A (ja) 2017-09-21

Similar Documents

Publication Publication Date Title
JP6639285B2 (ja) 声質嗜好学習装置、声質嗜好学習方法及びプログラム
US11514887B2 (en) Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium
CN111566656B (zh) 利用多种语言文本语音合成模型的语音翻译方法及系统
Lorenzo-Trueba et al. Investigating different representations for modeling and controlling multiple emotions in DNN-based speech synthesis
US10891928B2 (en) Automatic song generation
JP4296231B2 (ja) 声質編集装置および声質編集方法
US7603278B2 (en) Segment set creating method and apparatus
JP5768093B2 (ja) 音声処理システム
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
WO2018200268A1 (en) Automatic song generation
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP4586615B2 (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP2014038282A (ja) 韻律編集装置、方法およびプログラム
Khanam et al. Text to speech synthesis: a systematic review, deep learning based architecture and future research direction
Shechtman et al. Synthesis of Expressive Speaking Styles with Limited Training Data in a Multi-Speaker, Prosody-Controllable Sequence-to-Sequence Architecture.
US10978076B2 (en) Speaker retrieval device, speaker retrieval method, and computer program product
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
CN116386592A (zh) 音频模板的生成方法、服务器及存储介质
Hsu et al. Speaker-dependent model interpolation for statistical emotional speech synthesis
Baas et al. Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and Textually Described Voices
Basnet et al. Deep learning based voice conversion network
US20230419932A1 (en) Information processing device and control method thereof
JP5802807B2 (ja) 韻律編集装置、方法およびプログラム
Kobayashi Prosody control and variation enhancement techniques for hmm-based expressive speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190305

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190426

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190621

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20190903

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191224

R150 Certificate of patent or registration of utility model

Ref document number: 6639285

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150