JP6342428B2 - 音声合成装置、音声合成方法およびプログラム - Google Patents

音声合成装置、音声合成方法およびプログラム Download PDF

Info

Publication number
JP6342428B2
JP6342428B2 JP2015553318A JP2015553318A JP6342428B2 JP 6342428 B2 JP6342428 B2 JP 6342428B2 JP 2015553318 A JP2015553318 A JP 2015553318A JP 2015553318 A JP2015553318 A JP 2015553318A JP 6342428 B2 JP6342428 B2 JP 6342428B2
Authority
JP
Japan
Prior art keywords
acoustic model
conversion
tone
parameter
model parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015553318A
Other languages
English (en)
Other versions
JPWO2015092936A1 (ja
Inventor
悠 那須
悠 那須
正統 田村
正統 田村
亮 森中
亮 森中
眞弘 森田
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPWO2015092936A1 publication Critical patent/JPWO2015092936A1/ja
Application granted granted Critical
Publication of JP6342428B2 publication Critical patent/JP6342428B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、音声合成装置、音声合成方法およびプログラムに関する。
入力したテキストから音声信号を生成する音声合成装置が知られている。音声合成装置で用いられる技術の一つとして、隠れマルコフモデル(HMM)に基づく音声合成技術がある。
HMMに基づく音声合成技術では、所望の話者(目標話者)の声質および所望の口調(目標口調)の特徴を有する音声信号を生成することができる。HMMに基づく音声合成技術では、例えば、喜びの感情が表現された口調の音声信号を生成することができる。
目標話者の声質および目標口調の特徴を有する音声信号を生成する方法として、目標話者が目標口調で発声した音声を用いて予めHMMを作成する方法がある。しかし、この方法では、目標話者が全ての目標口調で音声を発声しなければならないので、音声収録およびラベリング等に大きなコストを要する。
また、目標話者の声質および目標口調の特徴を有する音声信号を生成する方法として、目標話者の声質および基準口調(目標口調以外の口調、例えば、平静感情で読み上げる口調)の特徴を有する音声信号と、目標口調の特徴とを用いる方法がある。このような方法の具体例として、例えば以下の第1の方法および第2の方法がある。
第1の方法では、まず、同一の話者(基準話者)の声質で、基準口調のHMMおよび目標口調のHMMを予め作成する。次に、目標話者が基準口調で発声した音声を取り込んだ音声信号と、基準話者の声質の基準口調のHMMとを用いて、話者適応によって目標話者の声質の基準口調のHMMを作成する。さらに、基準話者の声質の基準口調のHMMと、基準話者の声質の目標口調のHMMとのパラメータの相対関係(差または比等)を用いて、目標話者の声質の基準口調のHMMを補正して目標話者の声質の目標口調のHMMを作成する。そして、このような目標話者の声質の目標口調のHMMを用いて、目標話者の声質の目標口調の音声信号を生成する。
ところで、口調の変化によって音声信号に反映される特徴には、大域的に現れる特徴と、局所的に現れる特徴がある。局所的に現れる特徴は、口調によって異なるコンテキスト依存性を有する。例えば、喜びの感情を表現する口調では、語尾のピッチが上昇し、また悲しみの感情を表現する口調では、ポーズの時間が長くなる等の現象が生じる。しかし、第1の方法では、口調によって異なるコンテキスト依存性を考慮していないので、局所的に現れる目標口調の特徴を十分に再現することが困難である。
第2の方法では、HMMのパラメータを複数のクラスタパラメータの線形結合を用いて表現するクラスタ適応学習(CAT)によって、複数の話者および複数の口調(基準口調および目標口調を含む)の音声信号を用いて、事前にモデルを学習しておく。それぞれのクラスタは、コンテキスト依存性を表す決定木を別個に有する。ある一の話者およびある一の口調の組み合わせは、クラスタパラメータの線形結合を行う際の重みベクトルによって表される。重みベクトルは、話者重みベクトルと口調重みベクトルとを連結したベクトルである。目標話者の声質および目標口調の特徴を有する音声信号を生成するためには、まず、目標話者の声質および基準口調の特徴を有する音声信号を用いてCATによる話者適応を行い、目標話者を表す話者重みベクトルを算出する。次に、基準話者を表す話者重みベクトルと、予め算出済みの目標口調を表す口調重みベクトルとを連結して、目標話者の声質の目標口調を表す重みベクトルを作成する。そして、作成した重みベクトルを用いて目標話者の声質の目標口調の音声信号を生成する。
第2の方法では、それぞれのクラスタが別個に決定木を有するので、口調によって異なるコンテキスト依存性を再現することができる。しかし、第2の方法では、話者適応をCATの枠組みで行わなければならなく、最尤線形回帰(MLLR)等の手法による話者適応と比較して、目標話者の声質を十分に再現できない。
このように、第1の方法では、口調により異なるコンテキスト依存性を考慮しないため、目標口調を十分に再現できないという問題があった。また、第2の方法では、話者適応にCATの枠組みを使用しなければならないため、目標話者の声質を十分に再現できないという問題があった。
特開2011−28130号公報
J.Yamagishi,K.Onishi,T.Masuko,T.Kobayashi,"Acoustic modeling of speaking styles and emotional Fexpressions in HMM−based speech synthesis," IEICE Trans. on Inf. & Syst., vol.E88−D, no.3, pp.503−509, 2005. J.Latorre,V.Wan,M.J.F.Gales,L.Chen,K.K.Chin,K.Knill and M.Akamine,"Speech factorization for HMM−TTS based on cluster adaptive training," in Proc. InterSpeech, 2012.
本発明が解決しようとする課題は、目標話者の声質および目標口調の特徴を有する音声信号を精度良く生成することにある。
実施形態の音声合成装置は、コンテキスト取得部と、音響モデルパラメータ取得部と、変換パラメータ取得部と、変換部と、波形生成部と、を備える。前記コンテキスト取得部は、音声の変動を表す情報系列であるコンテキスト系列を取得する。前記音響モデルパラメータ取得部は、前記コンテキスト系列に対応する、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を取得する。前記変換パラメータ取得部は、前記コンテキスト系列に対応する、前記基準口調の音響モデルパラメータを前記基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を取得する。前記変換部は、前記音響モデルパラメータ系列を前記変換パラメータ系列を用いて変換する。前記波形生成部は、変換後の前記音響モデルパラメータ系列に基づき音声信号を生成する。
第1実施形態に係る音声合成装置の構成を示す図。 決定木クラスタリングがされた音響モデルパラメータ等を示す図。 出力確率分布の変換例を示す図。 第1実施形態に係る音声合成装置の処理内容を示すフロー図。 第2実施形態に係る音声合成装置の構成を示す図。 第3実施形態に係る音声合成装置の構成を示す図。 第4実施形態に係る音声合成装置の構成を示す図。 音声合成装置のハードウェアブロックを示す図。
以下に、実施形態を図面を参照して詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は略同一の動作をし、相違点を除き重複する説明を適宜省略する。
(第1実施形態)
図1は、第1実施形態に係る音声合成装置10の構成を示す図である。第1実施形態に係る音声合成装置10は、入力したテキストに応じて、ある特定の話者(目標話者)の声質およびある特定の口調(目標口調)の特徴を有する音声信号を出力する。口調(Speaking Style)とは、感情、発話内容および場面等によって変化する音声の特徴をいう。例えば、口調には、文章を平静感情で読み上げる口調、喜びの感情を表現した口調、悲しみの感情を表現した口調、怒りの感情を表現した口調等がある。
音声合成装置10は、コンテキスト取得部12と、音響モデルパラメータ記憶部14と、音響モデルパラメータ取得部16と、変換パラメータ記憶部18と、変換パラメータ取得部20と、変換部22と、波形生成部24とを備える。
コンテキスト取得部12は、テキストを入力する。コンテキスト取得部12は、入力したテキストを形態素解析等の方法で解析して、入力したテキストに応じたコンテキスト系列を取得する。
コンテキスト系列は、音声の変動を表す情報系列であり、少なくとも音素列を含む。音素列は、例えば、バイフォンまたはトライフォン等の、前後の音素との組み合わせで表された音素の系列であってもよいし、半音素の系列であってもよいし、音節単位の情報系列であってもよい。また、コンテキスト系列は、それぞれの音素のテキスト内での位置、アクセントの位置等の情報も含んでもよい。
また、コンテキスト取得部12は、テキストに代えて、コンテキスト系列を直接入力してもよい。また、コンテキスト取得部12は、ユーザにより与えられたテキストまたはコンテキスト系列を入力してもよいし、他の装置からネットワーク等を介して受信したテキストまたはコンテキスト系列を入力してもよい。
音響モデルパラメータ記憶部14は、目標話者が基準口調(例えば、平静感情の読み上げ口調)で発声した音声を取り込んだ音声信号を用いて学習することにより作成された音響モデルの情報を記憶する。音響モデルの情報には、コンテキストに応じて分類された複数の音響モデルパラメータ、および、コンテキストに対応する音響モデルパラメータを決定するための第1分類情報が含まれる。
音響モデルは、音声の特徴を表す音声パラメータのそれぞれの出力確率を表した確率モデルである。本実施形態において、音響モデルは、HMMである。HMMは、それぞれの状態に、基本周波数および声道パラメータ等の音声パラメータが対応付けられている。また、それぞれの音声パラメータの出力確率分布は、ガウス分布でモデル化されている。なお、音響モデルが隠れセミマルコフモデル等である場合には、状態継続長の確率分布もガウス分布でモデル化されている。
本実施形態においては、音響モデルパラメータは、それぞれの音声パラメータの出力確率分布の平均を表す平均ベクトル、および、それぞれの音声パラメータの出力確率分布の共分散を表す共分散行列を含む。
また、本実施形態において、音響モデルパラメータ記憶部14に記憶される複数の音響モデルパラメータは、決定木に基づきクラスタリングされている。この決定木は、コンテキストに関する質問により複数の音響モデルパラメータを階層的に分割する。全ての音響モデルパラメータは、決定木の何れかのリーフに属する。本実施形態において、第1分類情報は、このような決定木から、入力されたコンテキストに対応する1つの音響モデルパラメータを取得するための情報である。
また、音響モデルパラメータ記憶部14に記憶される音響モデルパラメータは、目標話者が発声した音声のみを用いて学習して作成された情報であってもよい。また、音響モデルパラメータ記憶部14に記憶される音響モデルパラメータは、目標話者以外の1以上の話者が発声した音声を用いて学習して作成された音響モデルから、目標話者が発声した音声を用いた話者適応等によって作成された情報であってもよい。このような話者適応によって作成された音響モデルパラメータは、比較的少量の音声を用いて作成できるので、コストが小さく精度が良い。また、音響モデルパラメータ記憶部14に記憶される音響モデルパラメータは、予め学習して作成された情報であってもよいし、目標話者が発声した音声を取り込んだ音声信号に対して、最尤線形回帰(MLLR)等の手法による話者適応を行って計算された情報であってもよい。
音響モデルパラメータ取得部16は、コンテキスト系列に対応する、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を、音響モデルパラメータ記憶部14から取得する。より具体的には、音響モデルパラメータ取得部16は、コンテキスト取得部12が取得したコンテキスト系列に対応する音響モデルパラメータ系列を、音響モデルパラメータ記憶部14に記憶された第1分類情報に基づき決定する。
本実施形態においては、音響モデルパラメータ取得部16は、入力されたコンテキスト系列に含まれるそれぞれのコンテキストについて、そのコンテキストの内容に従って決定木をルートノードから順次にリーフまで辿り、辿りついたリーフに属する1つの音響モデルパラメータを取得する。そして、音響モデルパラメータ取得部16は、取得した音響モデルパラメータのそれぞれを、コンテキスト系列に従った順序で連結して音響モデルパラメータ系列として出力する。
変換パラメータ記憶部18は、コンテキストに応じて分類された複数の変換パラメータ、および、コンテキストに対応する1つの変換パラメータを決定するための第2分類情報を記憶する。
変換パラメータは、基準口調の音響モデルパラメータを、基準口調とは異なる目標口調の音響モデルパラメータに変換するための情報である。例えば、変換パラメータは、平常感情の読み上げ口調の音響モデルパラメータを、平静感情以外の口調(喜びの感情を表現した口調等)の音響モデルパラメータに変換するための情報である。より具体的には、変換パラメータは、基準口調の音響モデルパラメータから再現される音声のパワー、フォルマント、ピッチ、話速等を変化させるためのパラメータである。
変換パラメータ記憶部18に記憶される変換パラメータは、同一の話者が基準口調で発声した音声と目標口調で発声した音声とを用いて作成される。
例えば、変換パラメータ記憶部18に記憶される変換パラメータは、次のように作成される。まず、ある一の話者が発声した基準口調の音声を用いて基準口調のHMMを学習して作成する。続いて、変換パラメータを用いて基準口調のHMMを変換した場合に、一の話者が発声した目標口調の音声に対して尤度を最大化するような変換パラメータを算出することで作成される。また、同一のテキストを基準口調および目標口調で発声した音声のパラレルコーパスを用いる場合では、変換パラメータは、対応する基準口調の音声パラメータと目標口調の音声パラメータとからも作成できる。
なお、変換パラメータ記憶部18に記憶される変換パラメータは、目標話者とは異なる話者が発声した音声を用いて学習することにより作成されてもよい。また、変換パラメータ記憶部18に記憶される変換パラメータは、複数の話者のそれぞれが基準口調および目標口調で発声した音声を用いて作成された平均的なパラメータであってもよい。
また、本実施形態において、変換パラメータは、音響モデルパラメータに含まれる平均ベクトルと、同一次元を有するベクトルであってよい。この場合、変換パラメータは、基準口調の音響モデルパラメータに含まれる平均ベクトルから、目標口調の音響モデルパラメータに含まれる平均ベクトルへの差分を表す差分ベクトルであってよい。これにより、変換パラメータは、基準口調の音響モデルパラメータに含まれる平均ベクトルに加算されることによって、基準口調の音響モデルパラメータに含まれる平均ベクトルを、目標口調の音響モデルパラメータに含まれるべき平均ベクトルに変換させることができる。
また、本実施形態において、変換パラメータ記憶部18に記憶される複数の変換パラメータは、決定木に基づきクラスタリングされている。この決定木は、コンテキストに関する質問により複数の変換パラメータを階層的に分割する。全ての変換パラメータは、決定木の何れかのリーフに属する。本実施形態において、第2分類情報は、このような決定木から、入力されたコンテキストに対応する1つの変換パラメータを取得するための情報である。
ここで、変換パラメータ記憶部18に記憶される複数の変換パラメータを分類するための決定木は、音響モデルパラメータ記憶部14に記憶されている音響モデルパラメータを分類するための決定木に制約を受けない。例えば、図2に示されるように、音響モデルパラメータ記憶部14に記憶されている複数の音響モデルパラメータを分類するための決定木31と、変換パラメータ記憶部18に記憶される複数の変換パラメータを分類するための決定木32とは、異なる木構造であってよい。従って、あるコンテキストcが与えられた場合、このコンテキストcに対応する音響モデルパラメータ(平均ベクトルμ,共分散行列Σ)が属するリーフの位置と、このコンテキストcに対応する変換パラメータ(差分ベクトルd)が属するリーフの位置とは異なっていてよい。これにより、音声合成装置10は、口調を変換して生成される音声信号に目標口調のコンテキスト依存性が精度良く反映され、目標口調を精度良く再現することができる。従って、音声合成装置10は、例えば、喜びの感情を表す口調では語尾のピッチが高くなる、といったコンテキスト依存性を精度良く表現することができる。
変換パラメータ取得部20は、コンテキスト系列に対応する、基準口調の音響モデルパラメータを基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を、変換パラメータ記憶部18から取得する。より具体的には、変換パラメータ取得部20は、コンテキスト取得部12が取得したコンテキスト系列に対応する変換パラメータ系列を、変換パラメータ記憶部18に記憶された第2分類情報に基づき決定する。
本実施形態においては、変換パラメータ取得部20は、入力されたコンテキスト系列に含まれるそれぞれのコンテキストについて、そのコンテキストの内容に従って決定木をルートノードから順次にリーフまで辿り、辿りついたリーフに属する1つの変換パラメータを取得する。そして、変換パラメータ取得部20は、取得した変換パラメータのそれぞれを、コンテキスト系列に従った順序で連結して変換パラメータ系列として出力する。
なお、同一のコンテキスト系列に対して、音響モデルパラメータ取得部16から出力される音響モデルパラメータ系列の長さと、変換パラメータ取得部20から出力される変換パラメータ系列の長さとは、同一である。そして、音響モデルパラメータ取得部16から出力される音響モデルパラメータ系列に含まれるそれぞれの音響モデルパラメータと、変換パラメータ取得部20から出力される変換パラメータ系列に含まれるそれぞれの変換パラメータは、一対一に対応付けられている。
変換部22は、音響モデルパラメータ取得部16により取得された音響モデルパラメータ系列を変換パラメータ取得部20により取得された変換パラメータ系列を用いて、基準口調とは異なる口調の音響モデルパラメータに変換する。これにより、変換部22は、目標話者の声質および目標口調の音響モデルを表す音響モデルパラメータ系列を生成することができる。
本実施形態においては、変換部22は、音響モデルパラメータ系列に含まれるそれぞれの平均ベクトルに、変換パラメータ系列に含まれるそれぞれの変換パラメータ(差分ベクトル)を加算することにより、変換後の音響モデルパラメータ系列を生成する。
例えば、図3に音響モデルパラメータの平均ベクトルが1次元である場合の変換例を示す。基準口調の確率密度関数41の平均ベクトルがμ、共分散行列Σであるとする。また、変換パラメータに含まれる差分ベクトル43をdとする。この場合、変換部22は、音響モデルパラメータ系列に含まれるそれぞれの平均ベクトルμに、変換パラメータ系列に含まれる対応する差分ベクトルdを加算する。これにより、変換部22は、基準口調の確率密度関数41(N(μ,Σ))を、目標口調の確率密度関数42(N(μ+d,Σ))に変換することができる。
なお、変換部22は、差分ベクトルを定数倍してから平均ベクトルに加算してもよい。これにより、変換部22は、口調変換の度合いを制御することができる。すなわち、変換部22は、喜びの度合い、悲しみの度合い等を変更した音声信号を出力させることができる。また、変換部22は、テキスト中の特定の部分に対して口調を変化させたり、テキスト中で徐々に口調の度合いを変化させたりしてもよい。
波形生成部24は、変換部22による変換後の音響モデルパラメータ系列に基づき、音声信号を生成する。波形生成部24は、一例として、まず、変換後の音響モデルパラメータ系列(例えば、平均ベクトルおよび共分散行列の系列)から、最尤法等により、音声パラメータ系列(例えば、基本周波数および声道パラメータの系列)を生成する。次に、波形生成部24は、一例として、音声パラメータ系列に含まれるそれぞれの音声パラメータに応じて、対応する信号源およびフィルタ等を制御して、音声信号を生成する。
図4は、第1実施形態に係る音声合成装置10の処理内容を示すフロー図である。まず、ステップS11において、音声合成装置10は、テキストを入力する。続いて、ステップS12において、音声合成装置10は、テキストを解析してコンテキスト系列を取得する。
続いて、ステップS13において、音声合成装置10は、取得したコンテキスト系列に対応する、目標話者の基準口調の音響モデルパラメータ系列を、音響モデルパラメータ記憶部14から取得する。より具体的には、音声合成装置10は、取得したコンテキスト系列に対応する音響モデルパラメータ系列を第1分類情報に基づき決定する。
ステップS13と並行してステップS14において、音声合成装置10は、取得したコンテキスト系列に対応する、基準口調の音響モデルパラメータを基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を、変換パラメータ記憶部18から取得する。より具体的には、音声合成装置10は、取得したコンテキスト系列に対応する変換パラメータ系列を、第2分類情報に基づき決定する。
続いて、ステップS15において、音声合成装置10は、基準口調の音響モデルパラメータ系列を変換パラメータ系列を用いて、基準口調とは異なる口調の音響モデルパラメータに変換する。続いて、ステップS16において、音声合成装置10は、変換後の音響モデルパラメータ系列に基づき、音声信号を生成する。続いて、ステップS17において、音声合成装置10は、生成した音声信号を出力する。
以上のような第1実施形態に係る音声合成装置10は、コンテキストに応じて分類された変換パラメータを用いて、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を変換して、目標話者の目標口調の音響モデルパラメータを生成する。これにより、第1実施形態に係る音声合成装置10は、目標話者の声質および目標口調の特徴を有し、さらにコンテキスト依存性が反映された精度の良い音声信号を生成することができる。
(第2実施形態)
図5は、第2実施形態に係る音声合成装置10の構成を示す図である。第2実施形態に係る音声合成装置10は、図1に示した第1実施形態の構成と比較して、変換パラメータ記憶部18に代えて、複数の変換パラメータ記憶部18(18−1,…,18−N)と、口調選択部52とをさらに備える。
複数の変換パラメータ記憶部18−1,…,18−Nは、互いに異なる口調に対応した変換パラメータを記憶する。なお、第2実施形態に係る音声合成装置10が備える変換パラメータ記憶部18の数は、2以上であれば何個であってもよい。
例えば、第1の変換パラメータ記憶部18−1は、基準口調(平常感情の読み上げ口調)の音響モデルパラメータを、喜びの感情を表現した口調の音響モデルパラメータに変換するための変換パラメータを記憶する。第2の変換パラメータ記憶部18−2は、基準口調の音響モデルパラメータを、悲しみの感情を表現した口調の音響モデルパラメータに変換するための変換パラメータを記憶する。第3の変換パラメータ記憶部18−3は、基準口調の音響モデルパラメータを、怒りの感情を表現した口調の音響モデルパラメータに変換するための変換パラメータを記憶する。
口調選択部52は、複数の変換パラメータ記憶部18のうち何れか1つを選択する。口調選択部52は、ユーザにより指定された口調に対応する変換パラメータ記憶部18を選択してもよいし、テキストの内容から適切な口調を推定し、推定した口調に対応する変換パラメータ記憶部18を選択してもよい。そして、変換パラメータ取得部20は、口調選択部52により選択された変換パラメータ記憶部18から、コンテキスト系列に対応する変換パラメータ系列を取得する。これにより、音声合成装置10は、複数の口調の中から選択された適切な口調の音声信号を出力することができる。
また、口調選択部52は、複数の変換パラメータ記憶部18のうち、2以上の変換パラメータ記憶部18を選択してもよい。この場合、変換パラメータ取得部20は、選択された2以上の変換パラメータ記憶部18のそれぞれから、コンテキスト系列に対応する変換パラメータ系列を取得する。
そして、変換部22は、音響モデルパラメータ取得部16により取得された音響モデルパラメータ系列を、変換パラメータ取得部20により取得された2以上の変換パラメータ系列を用いて変換する。
例えば、変換部22は、2以上の変換パラメータの平均を用いて、音響モデルパラメータ系列を変換する。これにより、音声合成装置10は、例えば喜びおよび悲しみの感情が混合したような口調の音声信号を生成させることができる。また、変換部22は、テキストの部分毎に異なる口調に対応する変換パラメータで音響モデルパラメータ系列を変換してもよい。これにより、音声合成装置10は、テキストの部分毎に口調の異なる音声信号を出力することができる。
また、複数の変換パラメータ記憶部18のそれぞれは、同一種類の口調を目標口調として、異なる複数の話者の音声によって学習した変換パラメータを記憶してもよい。口調が同一種類であっても、話者によって口調の表現が少しずつ異なる。従って、音声合成装置10は、同一種類の口調で異なる話者の音声から学習された変換パラメータを選択することにより、音声信号の特徴を微調整することができ、より精度の良い音声信号を出力することができる。
以上のような第2実施形態に係る音声合成装置10は、複数の口調に対応する変換パラメータ系列により音響モデルパラメータ系列を変換することができる。これにより、第2実施形態に係る音声合成装置10によれば、ユーザが選択した口調の音声信号を出力したり、テキストの内容に応じた最適な口調の音声信号を出力したり、口調の切り替えまたは口調の合成をした音声信号を出力したりすることができる。
(第3実施形態)
図6は、第3実施形態に係る音声合成装置10の構成を示す図である。第3実施形態に係る音声合成装置10は、図1に示した第1実施形態の構成と比較して、音響モデルパラメータ記憶部14に代えて、複数の音響モデルパラメータ記憶部14(14−1,…,14−N)と、話者選択部54とをさらに備える。
複数の音響モデルパラメータ記憶部14は、互いに異なる話者に対応した音響モデルパラメータを記憶する。すなわち、複数の音響モデルパラメータ記憶部14は、それぞれ異なる話者が基準口調で発声した音声により学習された音響モデルパラメータを記憶する。なお、第3実施形態に係る音声合成装置10が備える音響モデルパラメータ記憶部14の数は、2以上であれば何個であってもよい。
話者選択部54は、複数の音響モデルパラメータ記憶部14のうち何れか1つを選択する。例えば、話者選択部54は、ユーザにより指定された話者に対応する音響モデルパラメータ記憶部14を選択する。音響モデルパラメータ取得部16は、話者選択部54により選択された音響モデルパラメータ記憶部14から、コンテキスト系列に対応する音響モデルパラメータ系列を取得する。
以上のような第3実施形態に係る音声合成装置10は、複数の音響モデルパラメータ記憶部14の中から対応する話者の音響モデルパラメータ系列を選択することができる。これにより、第3実施形態に係る音声合成装置10によれば、複数の話者の中から話者を選択して、選択した話者の声質を有する音声信号を生成することができる。
(第4実施形態)
図7は、第4実施形態に係る音声合成装置10の構成を示す図である。第4実施形態に係る音声合成装置10は、図1に示した第1実施形態の構成と比較して、音響モデルパラメータ記憶部14および変換パラメータ記憶部18に代えて、複数の音響モデルパラメータ記憶部14(14−1,…,14−N)と、話者選択部54と、複数の変換パラメータ記憶部18(18−1,…,18−N)と、口調選択部52と、話者適応部62と、度合い制御部64とをさらに備える。
複数の音響モデルパラメータ記憶部14(14−1,…,14−N)および話者選択部54は、第3実施形態と同様である。複数の変換パラメータ記憶部18(18−1,…,18−N)および口調選択部52は、第2実施形態と同様である。
話者適応部62は、ある1つの音響モデルパラメータ記憶部14に記憶された音響モデルパラメータを、話者適応により特定の話者に対応した音響モデルパラメータに変換する。例えば、話者適応部62は、ある特定の話者が選択された場合、その特定の話者が基準口調で発声した音声を取り込んだ音声信号と、ある1つの音響モデルパラメータ記憶部14に記憶された音響モデルパラメータとに基づき、話者適応により、その特定の話者に対応した音響モデルパラメータを生成する。そして、話者適応部62は、変換して得られた音響モデルパラメータを、その特定の話者に対応する音響モデルパラメータ記憶部14に書き込む。
度合い制御部64は、口調選択部52により選択された2以上の変換パラメータ記憶部18から取得した変換パラメータ系列のそれぞれに対する、音響モデルパラメータへ反映する割合を制御する。例えば、度合い制御部64は、喜びの感情を表す口調の変換パラメータと、悲しみの感情を表す口調の変換パラメータとが選択された場合、喜びの感情をより強くする場合には、喜びの感情を表す口調の変換パラメータの割合を大きくし、悲しみの感情を表す口調の変換パラメータの割合を小さくする。そして、変換部22は、度合い制御部64により制御された割合に応じて2以上の変換パラメータ記憶部18から取得した変換パラメータを合成して、音響モデルパラメータを変換する。
以上のような第4実施形態に係る音声合成装置10は、話者適応をして特定の話者の音響モデルパラメータを生成する。これにより、第4実施形態に係る音声合成装置10によれば、特定の話者の音声を比較的少量取得することにより、その特定の話者に対応する音響モデルパラメータを作成することができる。従って、第4実施形態に係る音声合成装置10によれば、小さいコストで精度の良い音声信号を生成することができる。また、第4実施形態に係る音声合成装置10は、2以上の変換パラメータの割合を制御するので、音声信号に含まれる複数の感情の割合を適切に制御することができる。
(ハードウェア構成)
図8は、第1〜第4実施形態に係る音声合成装置10のハードウェア構成の一例を示す図である。第1〜第4実施形態に係る音声合成装置10は、CPU(Central Processing Unit)201等の制御装置と、ROM(Read Only Memory)202およびRAM(Random Access Memory)203等の記憶装置と、ネットワークに接続して通信を行う通信I/F204と、各部を接続するバスとを備えている。
実施形態に係る音声合成装置10で実行されるプログラムは、ROM202等に予め組み込まれて提供される。また、実施形態に係る音声合成装置10で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されてもよい。
さらに、実施形態に係る音声合成装置10で実行されるプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納され、音声合成装置10がネットワーク経由でダウンロードすることにより提供されてもよい。また、実施形態に係る音声合成装置10で実行されるプログラムは、インターネット等のネットワーク経由で提供または配布されてもよい。
実施形態に係る音声合成装置10で実行されるプログラムは、コンテキスト取得モジュール、音響モデルパラメータ取得モジュール、変換パラメータ取得モジュール、変換モジュールおよび波形生成モジュールを含む構成となっており、コンピュータを上述した音声合成装置10の各部(コンテキスト取得部12、音響モデルパラメータ取得部16、変換パラメータ取得部20、変換部22および波形生成部24)として機能させうる。このコンピュータは、CPU201がコンピュータ読取可能な記憶媒体からこのプログラムを主記憶装置上に読み出して実行することができる。なお、コンテキスト取得部12、音響モデルパラメータ取得部16、変換パラメータ取得部20、変換部22および波形生成部24は、一部または全部がハードウェアにより構成されていてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (14)

  1. 音声の変動を表す情報系列であるコンテキスト系列を取得するコンテキスト取得部と、
    前記コンテキスト系列に対応する、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を取得する音響モデルパラメータ取得部と、
    前記コンテキスト系列に対応する、前記基準口調の音響モデルパラメータを前記基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を取得する変換パラメータ取得部と、
    前記音響モデルパラメータ系列を前記変換パラメータ系列を用いて変換する変換部と、
    変換後の前記音響モデルパラメータ系列に基づき音声信号を生成する波形生成部と、
    を備える音声合成装置。
  2. 前記コンテキスト系列は、少なくとも音素列を含む
    請求項1に記載の音声合成装置。
  3. コンテキストに応じて分類された複数の音響モデルパラメータ、および、コンテキストに対応する1つの前記音響モデルパラメータを決定するための第1分類情報を記憶する音響モデルパラメータ記憶部と、
    コンテキストに応じて分類された複数の変換パラメータ、および、コンテキストに対応する1つの前記変換パラメータを決定するための第2分類情報を記憶する変換パラメータ記憶部と、
    をさらに備え、
    前記音響モデルパラメータ取得部は、前記コンテキスト取得部が取得した前記コンテキスト系列に対応する前記音響モデルパラメータ系列を、前記音響モデルパラメータ記憶部に記憶された前記第1分類情報に基づき決定し、
    前記変換パラメータ取得部は、前記コンテキスト取得部が取得した前記コンテキスト系列に対応する前記変換パラメータ系列を、前記変換パラメータ記憶部に記憶された前記第2分類情報に基づき決定する
    請求項1に記載の音声合成装置。
  4. 前記変換パラメータは、同一の話者が基準口調で発声した音声と前記基準口調とは異なる口調で発声した音声とを用いて作成される
    請求項3に記載の音声合成装置。
  5. 前記音響モデルパラメータは、前記目標話者が発声した音声を用いて作成され、
    前記変換パラメータは、前記目標話者とは異なる話者が発声した音声を用いて作成される
    請求項3に記載の音声合成装置。
  6. 前記音響モデルパラメータは、前記目標話者が平静感情の口調で発声した音声を用いて作成され、
    前記変換パラメータは、平静感情の口調の音響モデルパラメータを、平静感情以外の口調の音響モデルパラメータへと変換するための情報である
    請求項3に記載の音声合成装置。
  7. 前記音響モデルは、音声の特徴を表す音声パラメータのそれぞれの出力確率をガウス分布で表す確率モデルであり、
    前記音響モデルパラメータは、それぞれの前記音声パラメータの出力確率分布の平均を表す平均ベクトルを含み、
    前記変換パラメータは、前記音響モデルパラメータに含まれる前記平均ベクトルと同一次元を有するベクトルであり、
    前記変換部は、前記音響モデルパラメータ系列に含まれる平均ベクトルに、前記変換パラメータ系列に含まれる変換パラメータを加算することにより、変換後の音響モデルパラメータ系列を生成する
    請求項1に記載の音声合成装置。
  8. 互いに異なる口調に対応した変換パラメータを記憶する複数の変換パラメータ記憶部と、
    前記複数の変換パラメータ記憶部のうち何れか1つを選択する口調選択部と、
    をさらに備え、
    前記変換パラメータ取得部は、前記口調選択部により選択された前記変換パラメータ記憶部から前記変換パラメータ系列を取得する
    請求項1に記載の音声合成装置。
  9. 互いに異なる口調に対応した変換パラメータを記憶する複数の変換パラメータ記憶部と、
    前記複数の変換パラメータ記憶部のうち何れか2以上を選択する口調選択部と、
    をさらに備え、
    前記変換パラメータ取得部は、前記口調選択部により選択された2以上の前記変換パラメータ記憶部のそれぞれから前記変換パラメータ系列を取得し、
    前記変換部は、前記音響モデルパラメータ系列を、前記2以上の変換パラメータ系列を用いて変換する
    請求項1に記載の音声合成装置。
  10. 前記口調選択部により選択された2以上の前記変換パラメータ記憶部から取得した前記変換パラメータ系列のそれぞれに対する、前記音響モデルパラメータに反映する割合を制御する度合い制御部をさらに備える
    請求項9に記載の音声合成装置。
  11. 互いに異なる話者に対応した前記音響モデルパラメータを記憶する複数の音響モデルパラメータ記憶部と、
    前記複数の音響モデルパラメータ記憶部のうち何れか1つを選択する話者選択部と、
    をさらに備え、
    前記音響モデルパラメータ取得部は、前記話者選択部により選択された前記音響モデルパラメータ記憶部から前記音響モデルパラメータ系列を取得する
    請求項1に記載の音声合成装置。
  12. 1つの前記音響モデルパラメータ記憶部に記憶された前記音響モデルパラメータを、話者適応により特定の話者に対応した前記音響モデルパラメータに変換して、前記特定の話者に対応する前記音響モデルパラメータ記憶部に書き込む話者適応部をさらに備える
    請求項11に記載の音声合成装置。
  13. 音声の変動を表す情報系列であるコンテキスト系列を取得するコンテキスト取得ステップと、
    前記コンテキスト系列に対応する、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を取得する音響モデルパラメータ取得ステップと、
    前記コンテキスト系列に対応する、前記基準口調の音響モデルパラメータを前記基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を取得する変換パラメータ取得ステップと、
    前記音響モデルパラメータ系列を前記変換パラメータ系列を用いて変換する変換ステップと、
    変換後の前記音響モデルパラメータ系列に基づき音声信号を生成する波形生成ステップと、
    を含む音声合成方法。
  14. コンピュータを、音声合成装置として機能させるためのプログラムであって、
    前記コンピュータを、
    音声の変動を表す情報系列であるコンテキスト系列を取得するコンテキスト取得部と、
    前記コンテキスト系列に対応する、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を取得する音響モデルパラメータ取得部と、
    前記コンテキスト系列に対応する、前記基準口調の音響モデルパラメータを前記基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を取得する変換パラメータ取得部と、
    前記音響モデルパラメータ系列を前記変換パラメータ系列を用いて変換する変換部と、
    変換後の前記音響モデルパラメータ系列に基づき音声信号を生成する波形生成部
    として機能させるプログラム。
JP2015553318A 2013-12-20 2013-12-20 音声合成装置、音声合成方法およびプログラム Active JP6342428B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/084356 WO2015092936A1 (ja) 2013-12-20 2013-12-20 音声合成装置、音声合成方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2015092936A1 JPWO2015092936A1 (ja) 2017-03-16
JP6342428B2 true JP6342428B2 (ja) 2018-06-13

Family

ID=53402328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015553318A Active JP6342428B2 (ja) 2013-12-20 2013-12-20 音声合成装置、音声合成方法およびプログラム

Country Status (3)

Country Link
US (1) US9830904B2 (ja)
JP (1) JP6342428B2 (ja)
WO (1) WO2015092936A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102222122B1 (ko) * 2014-01-21 2021-03-03 엘지전자 주식회사 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기
JP6271748B2 (ja) 2014-09-17 2018-01-31 株式会社東芝 音声処理装置、音声処理方法及びプログラム
JP6293912B2 (ja) * 2014-09-19 2018-03-14 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP6461660B2 (ja) * 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム
JP6622505B2 (ja) * 2015-08-04 2019-12-18 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
CN107924678B (zh) * 2015-09-16 2021-12-17 株式会社东芝 语音合成装置、语音合成方法及存储介质
CN106356052B (zh) * 2016-10-17 2019-03-15 腾讯科技(深圳)有限公司 语音合成方法及装置
JP6922306B2 (ja) * 2017-03-22 2021-08-18 ヤマハ株式会社 音声再生装置、および音声再生プログラム
CN108304436B (zh) * 2017-09-12 2019-11-05 深圳市腾讯计算机系统有限公司 风格语句的生成方法、模型的训练方法、装置及设备
CN110489454A (zh) * 2019-07-29 2019-11-22 北京大米科技有限公司 一种自适应测评方法、装置、存储介质及电子设备
KR20210053020A (ko) 2019-11-01 2021-05-11 삼성전자주식회사 전자 장치 및 그 동작 방법
CN112908292B (zh) * 2019-11-19 2023-04-07 北京字节跳动网络技术有限公司 文本的语音合成方法、装置、电子设备及存储介质
CN111696517A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及计算机可读存储介质
CN113345407B (zh) * 2021-06-03 2023-05-26 广州虎牙信息科技有限公司 一种风格语音合成方法、装置、电子设备及存储介质
CN113808571B (zh) * 2021-08-17 2022-05-27 北京百度网讯科技有限公司 语音合成方法、装置、电子设备以及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US6032111A (en) * 1997-06-23 2000-02-29 At&T Corp. Method and apparatus for compiling context-dependent rewrite rules and input strings
JP2002268699A (ja) * 2001-03-09 2002-09-20 Sony Corp 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
US7096183B2 (en) 2002-02-27 2006-08-22 Matsushita Electric Industrial Co., Ltd. Customizing the speaking style of a speech synthesizer based on semantic analysis
WO2006032744A1 (fr) * 2004-09-16 2006-03-30 France Telecom Procede et dispositif de selection d'unites acoustiques et procede et dispositif de synthese vocale
JP4787769B2 (ja) 2007-02-07 2011-10-05 日本電信電話株式会社 F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
JP2011028131A (ja) * 2009-07-28 2011-02-10 Panasonic Electric Works Co Ltd 音声合成装置
JP2011028130A (ja) * 2009-07-28 2011-02-10 Panasonic Electric Works Co Ltd 音声合成装置
US8340965B2 (en) * 2009-09-02 2012-12-25 Microsoft Corporation Rich context modeling for text-to-speech engines
JP5320341B2 (ja) 2010-05-14 2013-10-23 日本電信電話株式会社 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
GB2501062B (en) * 2012-03-14 2014-08-13 Toshiba Res Europ Ltd A text to speech method and system
US9570066B2 (en) * 2012-07-16 2017-02-14 General Motors Llc Sender-responsive text-to-speech processing

Also Published As

Publication number Publication date
WO2015092936A1 (ja) 2015-06-25
JPWO2015092936A1 (ja) 2017-03-16
US20160300564A1 (en) 2016-10-13
US9830904B2 (en) 2017-11-28

Similar Documents

Publication Publication Date Title
JP6342428B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
Yoshimura et al. Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP5768093B2 (ja) 音声処理システム
US10475438B1 (en) Contextual text-to-speech processing
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
US11763797B2 (en) Text-to-speech (TTS) processing
JP6392012B2 (ja) 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP5148026B1 (ja) 音声合成装置および音声合成方法
JP2018146803A (ja) 音声合成装置及びプログラム
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2016151736A (ja) 音声加工装置、及びプログラム
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
KR102277205B1 (ko) 오디오 변환 장치 및 방법
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP6191094B2 (ja) 音声素片切出装置
JP5449022B2 (ja) 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム
JP2020118950A (ja) 音声処理装置、および音声処理方法
JP6056190B2 (ja) 音声合成装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170912

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180516

R151 Written notification of patent or utility model registration

Ref document number: 6342428

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350