JP2002244689A - 平均声の合成方法及び平均声からの任意話者音声の合成方法 - Google Patents

平均声の合成方法及び平均声からの任意話者音声の合成方法

Info

Publication number
JP2002244689A
JP2002244689A JP2001045910A JP2001045910A JP2002244689A JP 2002244689 A JP2002244689 A JP 2002244689A JP 2001045910 A JP2001045910 A JP 2001045910A JP 2001045910 A JP2001045910 A JP 2001045910A JP 2002244689 A JP2002244689 A JP 2002244689A
Authority
JP
Japan
Prior art keywords
voice
hmm
speaker
speech
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001045910A
Other languages
English (en)
Inventor
Takao Kobayashi
隆夫 小林
Takashi Masuko
貴史 益子
Masanori Tamura
正統 田村
Keiichi Tokuda
恵一 徳田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rikogaku Shinkokai
Original Assignee
Rikogaku Shinkokai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rikogaku Shinkokai filed Critical Rikogaku Shinkokai
Priority to JP2001045910A priority Critical patent/JP2002244689A/ja
Publication of JP2002244689A publication Critical patent/JP2002244689A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 複数の話者の平均的な特徴を有する合成音声
(平均声)の合成方法を提供することを課題とする。さ
らに、この平均声を任意話者に適応させて任意話者の声
質及び韻律特徴を有する合成音声の合成方法を提供する
ことを課題とする。 【解決手段】 複数話者の発話を隠れマルコフモデル
(HMM)によりモデル化して複数話者の平均的な音声
(平均声)を合成するによる音声合成方法を提供する。
さらに、平均声を任意話者に適応させて任意話者の音声
を合成する話者適応音声の合成方法を提供する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声合成に関する
ものである。特に、多数話者の平均的な特徴を有する音
声(平均声)を合成する方法及び、この平均声を任意話
者に適応させて任意話者の声質及び韻律特徴を有する音
声の合成方法に関する。
【0002】
【従来の技術】従来、音声認識の分野では隠れマルコフ
モデル(以下HMMと言う)は、大きな成功を収めてお
り、HMMは、音声認識には欠くことのできない手法と
なっている。近年、音声合成の分野においても、HMM
はさまざまな形で利用されるようになってきている。
【0003】音声合成の分野におけるHMMの利用形態
としては、第1には、音声素片を結合する手法におい
て、音声素片の選択にHMMを用いる方法が挙げられ
る。しかしこの、音声素片を結合して音声を合成する方
法は、どんなに大量の音声データを用いて音声データベ
ースを構築したとしても、すべての音声現象を網羅する
ことは不可能であり、多様な声質や発話スタイルで音声
を合成することが難しいという問題点を持っている。
【0004】また、HMMの第2の利用形態としては、
HMMを用いて直接音声パラメータを生成する方法が挙
げられる。ここで音声パラメータとは、音声を合成する
際に必要となる特徴量のことであり、声の抑揚に対応す
るピッチパラメータ、音韻や声質に対応するスペクトル
パラメータなどがある。この方法は、音声合成の基本単
位である各HMMのモデルパラメータを適宜修正するこ
とにより、多様な声質や発話スタイルで音声を合成でき
る可能性があるという利点を持っている。
【0005】前述したHMMから音声パラメータを直接
生成する第2の従来法は、与えられた状態系列に対し
て、出力確率が最大となる音声パラメータ系列を出力す
ることを基本としている。このときに、音声パラメータ
は、HMMの一つの状態が継続している間は一定の値を
取り、状態が変化するたびに、不連続に変化してしま
う。
【0006】不連続な変化を有する音声パラメータ系列
を基にして音声を合成すると、不連続な変化が異音とし
て知覚されてしまうという問題があり、この不連続な変
化を抑制するために、便宜的、人為的な仮定を設けて、
音声パラメータ系列の不連続な変化を補間又は平滑化す
る試みがなされていた。
【0007】本発明者らは、この課題に対して、何らの
便宜的な仮定を設けることなく、連続分布HMMにおい
て、音声パラメータ(静的特徴量)のみならず、その時
間微分である動的特徴量も考慮し、尤度最大の意味で最
適な音声パラメータを生成する方法を考案した。これに
より、従来問題とされていた状態遷移や音素の接続部位
において、音声パラメータをより自然の発声に近いよう
に変化させることが可能となった。
【0008】ここで、本発明者らが提案したHMMから
の音声パラメータの生成手法について詳述する。連続出
力分布型のHMMλが与えられたときに、λから長さT
の出力ベクトル系列(o1,o2,・・・,oT)を生成することを考
える。時刻tにおける出力ベクトルotは、静的特徴量ct
(例えばメルケプストラム係数)と、動的特徴量Δct
びΔ2ctで構成され、ot=[ct',Δct',Δ2ct']'で表され
るとする。ここで、記号「'」はベクトルの転置を表
す。
【0009】ただし、Δct及びΔ2ctの値は、静的特徴
量ctを用いて
【0010】
【数1】
【0011】により計算されるものとする。ここで、w
1(τ)、w2(τ)は、動的特徴量を計算するための重み
係数である。
【0012】このとき、ある与えられた状態系列Q=(q
1,q2・・・,qT)に沿って、パラメータ系列から作られるベ
クトルO=[o1',o2',・・・,oT'] 'がλから観測される確
率(Oに関するQ、λの尤度)P(O|Q,λ)を最大
にする音声パラメータベクトルC=[c1',c2',・・・,cT'] '
を求めることを考える。
【0013】ここで、λの各状態が単一ガウス分布を持
つとすると、P(O|Q,λ)の対数は、
【0014】
【数2】
【0015】と書くことができる。ここで、Cons
t.は定数項であり、また、
【0016】
【数3】
【0017】であり、μqtとUqtはそれぞれ状態qtの平
均ベクトルと共分散行列である。
【0018】式(1)、(2)の制約を考えないとき、
P(O|Q,λ)はO=Mの時に最大化されることは明
らかである。これは、出力ベクトル系列が平均ベクトル
の系列によって与えられることを意味する。
【0019】一方、式(1)、(2)の制約下では、P
(O|Q,λ)を最大にするCは、
【0020】
【数4】
【0021】によって定められる。
【0022】この方程式は、高速アルゴリズム(徳田恵
一、益子貴史ら“動的特徴を用いたHMMからの音声パ
ラメータ生成アルゴリズム”(日本音響学会誌,vol.5
3,No.3,pp192-200,Mar.1997))により容
易に解くことができ、特に時間方向に再帰的な形式のア
ルゴリズムとして記述することができる。
【0023】このようにして、静的特徴量ctと動的特徴
量Δct及びΔ2ctに関する式(1)、(2)の制約のも
と音声パラメータに関してHMMの尤度を最大化するこ
とにより、音声パラメータの不連続な変化を抑制し、よ
り、実際の発話に近い音声パラメータ系列を得ることが
できる。
【0024】図13に、音韻バランス文(503文章)
を用いて学習を行った音素モデルsil,a,i,sil(た
だしsilは無音を表す)を結合したHMMから生成され
た音声パラメータ系列ctの一部(メルケプストラムの第
2次係数ct(2)のみ)とともに、対応するΔct及びΔ2ct
を示す。図中の破線は各状態の平均を、網掛け部は,標
準偏差(対角共分散行列を用いており、分散の平方根)
を表す。
【0025】式(1)、(2)の制約を用いない場合に
はP(O|Q,λ)を最大とする音声パラメータ系列は
平均ベクトル系列(図中の破線)となる。それに対し
て、式(1)、(2)の制約を課した場合にはΔc
t(2)、Δ2ct(2)はそれぞれct(2)、Δct(2)の軌
跡の傾きを表すものとなり、ct(2)の取りうる値の中
でct(2)、Δct(2)及びΔ2ct(2)の全てに関して尤
度を最大化する形でct(2)の軌跡が定まっている。
【0026】例えば、それぞれの音素モデルの始めと終
わりの状態では、動的及び静的特徴量の分散が比較的大
きいために音声パラメータ系列ct(2)はひとつの状態
が継続する間でも一定値ではなく適切な軌跡を描いて変
化している。
【0027】また、それぞれの音素モデルの中心におい
ては、動的および静的特徴量の分散が小さく、動的特徴
量の平均はほとんど0であるために、生成された音声パ
ラメータ系列ct(2)は静的特徴量の平均値に近い一定
値を取る傾向となる。
【0028】このように、HMMより音声パラメータを
生成する際に動的特徴量を導入し、動的特徴量に関して
も尤度最大となるように音声パラメータを生成すること
で、音声パラメータの不連続な変化を抑制し、より現実
の発話に近い音声を合成することが可能となった。
【0029】一方、スペクトル形状とともに音声の話者
性を特徴付ける重要な要因であるピッチパターン(基本
周波数パターン)のモデル化にもHMMを用いる試みが
なされているが、従来法ではスペクトルのモデル化を含
む統一的な枠組みで音声のピッチパターンをモデル化す
ることはできなかった。これは、音声のピッチパラメー
タは、有声区間では一次元の連続値、無声区間では無声
であることを表す離散シンボルとして観測されるため
に、通常の音声認識で用いられる離散分布HMMや、連
続分布HMMの枠組みを直接適用することが難しかった
ためである。
【0030】この問題に対して本発明者らは、可変次元
の多空間上における確率分布に基づいたHMM(MSD
−HMM(multi−space distribu
tion HMM))(“多空間上の確率分布に基づい
たHMMのピッチパタンモデリングへの応用”(信学技
報、SP98-11,pp19-26,Apr,1998)参照)を用いるこ
とにより、無声区間を含むピッチパターンを直接モデル
化することを可能とした。
【0031】
【発明が解決しようとする課題】本発明者らの研究の結
果、MSD−HMMを導入することにより、音声のスペ
クトル系列、ピッチパターン及び継続長をHMMを用い
て統一的にモデル化する理論的枠組みが提案され、これ
に基づいて単独話者の音声合成システムが実現され、そ
の単独話者の音声を自然の発声に近い形で合成すること
に成功している。
【0032】また、本発明者らは、音声スペクトルにつ
いて、複数の話者の音声からモデル化されたHMM(不
特定話者モデル)を用いて、平均的な音声スペクトルを
有する音声を合成することにも成功している。
【0033】これらの研究成果を踏まえ、本発明は、H
MMによる音声合成を一歩進めて、HMMを用いた統一
的な枠組みで複数の話者の音声のスペクトル系列、ピッ
チパターン及び継続長を同時にモデル化し、これらの複
数話者の平均的な特徴(声質及び韻律特徴)を有する平
均声モデルを構築し、この平均声モデルより「平均声」
を合成する方法を提供することを第1の課題とする。
【0034】また、従来の音声合成方法でも、あらかじ
め音声合成システムに備えられた声質及び韻律特徴(ピ
ッチパターン、音韻継続長等)を有する合成音声を出力
することは可能であった。しかし、任意話者の少量(数
文章程度)の音声データを音声合成システムに入力する
と、音声合成システムが声質と韻律特徴(ピッチパター
ン、音韻継続長等)とを同時にこの任意話者の発話に近
づけるように話者適応するような音声合成方法は提案さ
れていなかった。
【0035】これは、従来の音声合成方法においては、
音声合成単位の声質や韻律特徴を統一的な枠組みで同時
にモデル化することができなかったため、これを任意話
者のものに変更することが難しかったか、できたとして
も任意話者の発声した大量の音声が必要となるためであ
った。
【0036】例えば、特開平11−52987号公報で
は、音声合成システム固有の基準音声パラメータと任意
話者の音声パラメータとの間で時系列に沿って差分を求
めて、この差分を音声合成システム固有の基準音声パラ
メータに加算することで任意話者の特徴を有する音声を
合成していた。
【0037】しかし、この方法では、任意話者の発話を
合成するためにはその話者による同一の発話内容の音声
が必要であり、任意話者の少量の発話音声のみを用いて
任意のテキスト文章の話者適応した音声を合成すること
は不可能であった。
【0038】本発明は、このような事情に鑑み、前述し
た複数の話者の発話をモデル化した平均声モデルを利用
して、任意話者が発話した少量の音声データを与える
と、平均声モデルの話者適応を行いその任意話者の声質
及び韻律特徴に近い音声を合成する方法を提供すること
を第2の課題とする。
【0039】
【課題を解決するための手段】本発明は、複数の話者の
発話より、これら複数の話者の平均的な特徴を有する平
均声を合成する平均声の合成方法であって、(1)複数
の話者の発話より、静的特徴量であるスペクトルパラメ
ータとピッチパラメータとを分析フレーム毎に抽出する
工程と、(2)この静的特徴量より分析フレーム毎に動
的特徴量を求める工程と、(3)静的特徴量と動的特徴
量を特徴パラメータとする工程と、(4)この特徴パラ
メータを学習データとして、音声単位毎にスペクトル系
列、ピッチパターン及び継続長を隠れマルコフモデル
(HMM)により同時にモデル化し、平均声音声単位H
MM(平均声モデル)を作成する工程と、(5)任意の
文章テキストの解析を行い、この文章テキストを音声単
位ラベル列に変換する工程と、(6)この音声単位ラベ
ル列に従い、前記平均声音声単位HMM(平均声モデ
ル)を連結し、平均声文章HMMを構成する工程と
(7)この平均声文章HMMから音声パラメータ生成ア
ルゴリズムに基づきスペクトルパラメータ系列とピッチ
パターンを生成する工程と、(8)このピッチパターン
から音源信号を生成し、これを入力として、前記スペク
トルパラメータに対応する伝達特性を持つ音声合成フィ
ルタにより、前記文章テキストの平均声による音声を出
力する工程と、を少なくとも有することを特徴とする平
均声の合成方法という構成を有する。
【0040】本発明はこのような構成を有するので、M
SD−HMMを利用することにより、音声単位毎にスペ
クトル系列、ピッチパターン及び継続長をHMMの枠組
みで統一的に同時にモデル化することを可能としてい
る。
【0041】そして、この枠組みを複数の話者の発話に
より学習させることで、これらの複数話者の平均的な特
徴を有する平均声音声単位HMM(平均声モデル)を作
成し、これを与えられた文章に対応する音声単位ラベル
列に従って連結することによって得られる平均声文章H
MMから、音声パラメータ生成アルゴリズムを用いてス
ペクトルパラメータ系列とピッチパターンを生成し、こ
の音声パラメータ系列に基づき音声合成フィルタを用い
て音声波形生成を行うことで、前記の複数話者の平均的
な声質及び韻律特徴を有する合成音声(平均声)を合成
することが可能となる。
【0042】ここで、「音声単位」とは、例えば音素、
音節、形態素単位等、音声合成に用いる素片またはモデ
ル化の最小構成要素である。また、「スペクトルパラメ
ータ」は、音声のスペクトル形状すなわち声道特性を模
擬する音声合成フィルタの特性を表すパラメータであ
り、「スペクトルパラメータ系列」とは、発声内容によ
り時時刻刻変化するスペクトルパラメータをある一定の
時間間隔で並べたものである。
【0043】また、「ピッチパターン」とは、声の高さ
の時間変化パターンを表し、スペクトルパラメータ系列
と同様、音声の基本周波数をある一定の時間間隔で並べ
たものである。また、「音声単位ラベル列」とは、発話
内容を通常のテキストから前記音声単位のラベルの並び
として転記したものである。また、「継続長」とは、音
声合成時に各音声単位がどれだけの時間持続するかを表
す値である。また、「分析フレーム」とは、音声分析時
において、音響的特性がほぼ一定とみなせる短時間区間
を、適当な窓関数を用いて音声波形からある一定時間間
隔で切り出した各波形である。
【0044】また、本発明は、複数の話者の発話を基に
して得られた平均声音声単位HMM(平均声モデル)よ
り任意話者の声質及び韻律特徴を有する音声を合成する
平均声からの任意話者音声の合成方法であって、(1)
複数の話者の発話より、静的特徴量であるスペクトルパ
ラメータとピッチパラメータとを分析フレーム毎に抽出
する工程と、(2)この静的特徴量より分析フレーム毎
に動的特徴量を求める工程と、(3)静的特徴量と動的
特徴量を特徴パラメータとする工程と、(4)この特徴
パラメータを学習データとして、音声単位毎にスペクト
ル系列、ピッチパターン及び継続長を隠れマルコフモデ
ル(HMM)により同時にモデル化し、平均声音声単位
HMM(平均声モデル)を作成する工程と、(5)任意
話者の少量の発話データよりこの任意話者の前記特徴パ
ラメータを求める工程と、(6)前記任意話者の前記特
徴パラメータを用いて、前記平均声音声単位HMM(平
均声モデル)を前記任意話者に話者適応し、話者適応音
声単位HMMを作成する工程と、(7)任意の文章テキ
ストの解析を行い、この文章テキストを音声単位ラベル
列とする工程と、(8)この音声単位ラベル列に従い、
前記話者適応音声単位HMMを連結し、話者適応文章H
MMを構成する工程と、(9)この話者適応文章HMM
から音声パラメータ生成アルゴリズムに基づきスペクト
ルパラメータ系列とピッチパターンを生成する工程と、
(10)このピッチパターンから音源信号を生成し、こ
れを入力として、前記スペクトルパラメータに対応する
伝達特性を持つ音声合成フィルタにより、前記文章テキ
ストの前記任意話者による音声を出力する工程と、を少
なくとも有することを特徴とする平均声からの任意話者
音声の合成方法という構成を有する。
【0045】本発明はこのような構成を有しており、任
意話者の発話より求められた特徴パラメータに基づい
て、その話者の声質や韻律の特徴を反映するように前記
平均声モデルのモデルパラメータを変換することで話者
適応を行う。これにより、特定話者の少量の発話を基に
してその特定話者の声質及び発話スタイルに近い合成音
声を生成することが可能となった。ここで、「少量の発
話データ」とは、数文章程度の発話を意味する。
【0046】
【発明の実施の形態】本発明の実施の形態について詳述
する。 =MSD−HMM= 本発明では、多空間確率分布隠れマルコフモデル(MS
D−HMM)をピッチパターンのモデル化に用い、スペ
クトルパラメータとともにピッチパターン及び継続長を
隠れマルコフモデルの統一的な枠組みで同時にモデル化
することで、複数の話者の平均的特徴を持つ平均声モデ
ルを作成し、これら複数の話者の平均的な声質及び韻律
特徴を有する音声を合成することが可能となった。
【0047】HMMをピッチパターンの生成に用いる試
みはいくつか行われているが、ピッチパターンは有声区
間では1次元の連続値、無声区間では無声であることを
示す離散シンボルとして観測されるために、通常の離散
分布HMMや、連続分布HMMを用いてモデル化するこ
とはできなかった。
【0048】本発明においては、多空間上で定義される
確率分布を用いたHMM(MSD−HMM)を適用して
ピッチパラメータとスペクトルパラメータを結合したベ
クトルを特徴パラメータとすることによりピッチパラメ
ータとスペクトルパラメータとを統一的にモデル化して
いる。
【0049】すなわち、ピッチパターンを有声区間に対
応する1次元空間Ω1と無声区間に対応する0次元空間
Ω2の二つの空間から出力される観測事象と考え、有声
に対応する空間Ω1は1次元の確率密度関数N1(x)を
持ち、また、無声に対応する区間Ω2は一つの標本点だ
けからなるとする。ここで、空間Ω1,Ω2はそれぞれ確
率w1,w2を持ち、w1+w2=1とする。さらに、有声
/無声を表す空間のインデックスの集合をX、ピッチパ
ラメータの値をp、ピッチパラメータに関する観測事象
をo=(X,p)と表す。ここで、X={1}の時には
有声区間を表し、pは1次元のピッチパラメータの値
(具体的には基本周波数の対数をとった値)である。ま
た、X={2}の時には無声区間を表し、pは0次元
(pは値を持たない)となる。このような多空間上で定
義される確率分布に基づくHMMを多空間確率分布HM
M(MSD−HMM)と呼ぶ。
【0050】このとき、MSD−HMMの状態iの出力
確率分布bi(o)は、
【0051】
【数5】
【0052】で定義される。ここで、wi1及びwi2はそ
れぞれ状態iで有声及び無声となる確率を表し、N
i1(p)は1次元ガウス分布とする。各状態の出力確率
分布を式(7)で定義することにより、HMMの枠組み
でピッチパターンを直接モデル化することができる。
【0053】ところで、スペクトルモデル及びピッチモ
デルの構築には、モデル学習時に音声データのラベル境
界情報を必要としない連結学習を用いるが、スペクトル
系列とピッチパターンを別々にモデル化した場合、同じ
データを用いたとしても両者のモデル間で境界のずれが
生じる。さらに、ピッチパラメータのみを特徴パラメー
タとすると、有声区間、無声区間とも音素に関する情報
が不足するため、音素境界を適切に学習することができ
ないという問題が生じる。
【0054】そこで、図1に示すように、スペクトル、
ピッチパラメータの静的特徴量c、p及びそれぞれの動
的特徴量を結合して一つの特徴ベクトルとし、スペクト
ル部は連続分布HMMの一つのストリーム(ストリーム
1)で、また、ピッチ部は静的特徴量及びそのデルタ、
デルタデルタパラメータを三つのストリーム(ストリー
ム2〜4)に分けてそれぞれをMSD−HMMで同時に
モデル化する。
【0055】一方、状態継続長については、各音声単位
HMMの状態数に等しい次元を持つ多次元ガウス分布を
用いてモデル化する。ここで、ガウス分布のn次元目が
HMMの第n状態の状態継続長分布に対応し、その平均
値と分散は、スペクトル及びピッチモデルの連結学習の
際に求まる各状態の状態滞在確率を使って推定する。
【0056】MSD−HMMによりピッチパターンを生
成した実験例を示す。MSD−HMMの学習データとし
てATR(株式会社国際電気通信基礎研究所)日本語音
声データベースの話者MHTによる音韻バランス文50
3文を用いた。サンプリング周波数は10kHz、分析
周期は5msとした。長さ25.6msのブラックマン
窓を用いてメルケプストラム分析を行い、0〜15次の
メルケプストラム係数(スペクトルパラメータ)を求め
た。ピッチパラメータはデータベースに付属するピッチ
データを使用した。
【0057】続いて、メルケプストラム係数及び対数基
本周波数(ピッチパラメータ)について動的特徴量を計
算し、51次(スペクトルパラメータ48次、ピッチパ
ラメータ3次)のベクトルを特徴パラメータとした。モ
デル化に用いたMSD−HMMは、3状態left−t
o−rightモデルであり、メルケプストラム部は対
角共分散単一ガウス分布でモデル化し、ピッチパラメー
タは多空間分布でモデル化した。
【0058】図2にその結果を示す。学習データに含ま
れていない文章(「だんだん自分が恐ろしくなって家に
逃げ帰った」)を用いて、実音声とMSD−HMMより
生成された合成音声のピッチパターンを比較した。点線
が実音声のピッチパターンであり、実線がMSD−HM
Mより合成されたピッチパターンである。この文章はH
MMの学習データに含まれていないにもかかわらず、合
成音声のピッチパターンは実音声のピッチパターンをよ
く近似していることがわかる。
【0059】=平均声の音声合成= 本発明では、前記のMSD−HMMを利用したスペクト
ルパラメータ、ピッチパラメータ、継続長の同時モデル
化手法を用いて多数話者の平均的な声質、韻律特徴を有
する平均声を合成することが可能となった。以下に図3
を用いて平均声合成の流れを説明する。
【0060】(1)大量の音声データを含む複数話者デ
ータベース(DR)の音声より、適当な音響分析により
スペクトルパラメータとピッチパラメータを分析フレー
ム毎に分析し、静的特徴量とする(S1)。
【0061】ここで、大量の音声データを含むデータベ
ースに関しては多数話者の発話とそれに対応する音韻ラ
ベル、形態素情報、アクセント情報等が付されていれば
特に制限はない。また、音響分析を行う音声データは、
データベースに限らず、多数話者の実際の発話であって
もかまわない。また、適当な音響分析とは、スペクトル
パラメータについては、例えばメルケプストラム分析法
等が挙げられる。また、ピッチパラメータについてはケ
プストラム法等が挙げられるが、基本周波数が正確に求
められるならばどのような方法であっても構わない。
【0062】(2)式(1)、(2)により静的特徴量
から動的特徴量を計算して(S2)、静的特徴量とあわ
せて特徴パラメータとする(S3)。ここで、動的特徴
量とは、「従来の技術」の項目で述べたものであり、静
的特徴量の時間微分に相当するものである。なお、動的
特徴量としては、2次の動的特徴量Δ2(式(2)から
計算される値)を使用しないで、1次の動的特徴量Δ
(式(1)から計算される値)のみを用いても構わな
い。
【0063】(3)得られた特徴パラメータを基に、音
声単位毎に、スペクトルパラメータ、ピッチパターン及
び継続長をHMMにより同時にモデル化して(S4)平
均声音声単位HMM(平均声モデル)(M1)とする。
ここで、音声単位としては、前後の音韻環境や韻律特徴
を考慮したコンテキスト依存トライフォンを用いるが、
例えば、音素、音節、形態素単位等であってもよい。ま
た、スペクトル系列、ピッチパターン及び継続長の同時
モデル化には前述のMSD−HMMを利用した手法を用
いる。
【0064】(4)合成音声で読み上げを行う任意の文
章テキストを入力し(S5)、テキスト解析を行い(S
6)、この文章テキストを音声単位ラベル列に変換する
(S7)。
【0065】(5)(4)の音声単位ラベル列に従い、
音声単位毎に準備された(3)の前記平均声モデルを連
結して(S8)平均声文章HMM(M2)を作成する。
【0066】(6)この平均声文章HMMよりパラメー
タ生成アルゴリズム(S9)に基づいて音声パラメータ
系列を生成する(S10)。ここで、音声パラメータ系
列とは、スペクトルパラメータ系列とピッチパターンで
ある。また、パラメータ生成アルゴリズムとは、本発明
者らが考案したものであり、混合連続分布HMM(平均
声文章HMMに相当)より、音声パラメータ(メルケプ
ストラム係数およびピッチパターン)を生成する高速ア
ルゴリズムのことである。このパラメータ生成アルゴリ
ズムについては例えば、徳田恵一、益子貴史らの“動的
特徴を用いたHMMからの音声パラメータ生成アルゴリ
ズム”(日本音響学会誌,vol.53,No.3,pp192-2
00,Mar,1997)等に詳述されている。
【0067】(7)この音声パラメータ系列に沿って平
均声を合成する。つまり、(6)のピッチパターンから
音源信号を生成し(S11)、これを(6)のスペクト
ルパラメータに対応する伝達特性を有する適当な音声合
成フィルタ(S12)に通すことで平均声を合成する。
ここで適当な音声合成フィルタとしては、音声パラメー
タ系列が与えられるとこの音声パラメータ系列より直接
音声を合成することが可能であるメル対数スペクトル近
似フィルタ(MLSAフィルタ)が好適である。このM
LSAフィルタについては、例えば、今井聖ら“音声合
成のためのメル対数スペクトル近似(MLSA)フィル
タ”(信学論(A),J66-A,2,pp122-129,Feb,198
3)に詳述されている。
【0068】本発明では音声単位HMMを複数の話者の
発話により学習することで、その複数の話者の平均的な
特徴を有する合成音声(平均声)を合成することが可能
となった。
【0069】次に上記の手順に従って平均声を合成した
実験例を示す。ATR日本語音声データベースより5名
の男性話者(MHO,MMY,MSH,MTK,MY
I)を選び、各話者450文章を学習データとして、話
者毎に音声単位HMMを求め、これから学習データには
含まれない「不公平の存在は否認しなかった」という文
章を合成した場合のスペクトル系列とピッチパターンを
図4〜8にそれぞれ示す。
【0070】音声信号のサンプリング周波数は16kH
z、分析周期は5msで0〜24次のメルケプストラム
係数(スペクトルパラメータ)と対数基本周波数(ピッ
チパラメータ)を求め静的特徴量とした。これに、デル
タ及びデルタデルタパラメータを加えた78次元のベク
トルを特徴パラメータとし、5状態left−to−r
ightHMMにより各音声単位をモデル化した。音声
単位は42種類の音素及び無音を基本として、前後音韻
環境及び韻律環境を考慮したコンテキスト依存トライフ
ォンである。
【0071】続いて、前記5名の話者の各400文章の
発話、合計2000文章を学習データとして平均声音声
単位HMM(平均声モデル)を求め、この平均声モデル
から学習データに含まれない文章「不公平の存在は否認
しなかった」を合成した場合に生成されたスペクトル系
列とピッチパターンを図9に示す。平均声モデルはMD
L基準に基づく決定木によるコンテキストクラスタリン
グにより状態共有を行っている。総分布数はスペクトル
部が3765、ピッチ部が12761、継続長が631
8である。
【0072】図9によれば、平均声モデルに基づいて合
成された音声(平均声)はスペクトル系列、ピッチパタ
ーンともに、元の5名の話者(図4〜8)と異なってお
り、結果的にこれら5名の話者の平均的な音声が生成さ
れている。
【0073】=平均声からの話者適応音声の合成方法=
本発明では、上述した平均声音声単位HMM(平均声モ
デル)を任意話者の少量の発話データを基にして任意話
者の声質及び韻律特徴に近づけるように話者適応を行
う。
【0074】平均声モデルを任意話者に話者適応する方
法としては、公知のMAP/VFS法、MLLR法等の
任意の手法を用いることが可能である。本実施の形態で
は、スペクトル及び継続長に関してはMLLR法を適用
し、ピッチについてはMLLR法をMSD−HMMに拡
張した手法により話者適応を行っている。
【0075】以下に話者適応の理論的な概略を示す。M
SD−HMMの状態i、空間gの出力分布Nig(x)の
平均ベクトルをμig、共分散行列をUigとする。
【0076】ここで、時刻tにおける観測事象をot
(Xt,xt)、但し空間インデックス集合をXt、観測ベ
クトルをxtとし、適応データ列O=(o1,o2,・・
・,oT)が与えられたとき、平均μig
【0077】
【数6】
【0078】と変換することにより話者適応を行う。こ
こで行列Wigは平均ベクトルの変換行列であり、MLL
R法と同様に、適応データOに対して尤度を最大化する
ように求める。
【0079】ここで、時刻tの観測ベクトルxtが、状
態i、空間gにおいて出力される確率γt(i,g)を
定義する。また、観測事象otの空間インデックスgを
含むような時刻tの集合をT(O,g)と定義する。こ
のとき変換行列Wigの最尤推定値は、次式の方程式(1
0)を解くことにより求まる。
【0080】
【数7】
【0081】変換はそれぞれの状態、空間に対して定義
できるが、一般に、適応データは少量なため、全ての状
態、空間に対して変換行列を求めることはできない。そ
こで、幾つかの状態で変換行列Wigを共有することで適
応データの存在しないモデルの適応を行う。変換行列を
共有するためのクラスタリングとしては、例えば、リー
フノードが分布となる2分木を作成し、適応データ量が
適当な閾値より大きくなる最下位ノードにおいて分布の
適応を行えばよい。
【0082】この方法によれば、スペクトルモデルのM
LLRに基づいた話者適応の場合と同様、平均声モデル
を任意話者に話者適応する際に、数文章程度の少量の発
話データしか得られない場合においても、適応データ量
に応じて適切な個数の変換行列を求めることができると
ともに、木構造の特徴から適応データが存在しないモデ
ルに対しても適切な変換行列を選択することが可能とな
る。
【0083】次に、図10を用いて平均声モデルを特定
話者に適応する具体的な手順について述べる。
【0084】(1)前述した手順に従い平均声モデル
(M1)を用意する。 (2)任意話者が発声した少量の音声データを入力し
(S21)、適当な音響分析法により分析し、スペクト
ルパラメータとピッチパラメータに関する特徴パラメー
タ(静的特徴量と動的特徴量)を求める(S22)。
【0085】(3)この特徴パラメータを用いて、前述
の話者適応法を平均声モデルに適用することにより(S
23)話者適応音声単位HMM(M3)を得る。
【0086】(4)合成音声で読み上げを行う任意の文
章テキストを入力し(S24)、テキスト解析を行い
(S25)、音声単位ラベル列に変換する(S26)。 (5)(4)の音声単位ラベル列に従い、音声単位毎に
準備された(3)の話者適応音声単位HMMを連結して
(S27)話者適応文章HMM(M4)を作成する。
【0087】(6)この話者適応文章HMM(M4)か
らパラメータ生成アルゴリズム(S28)に基づいて音
声パラメータであるスペクトルパラメータ系列とピッチ
パターンを生成する(S29)。 (7)(6)のピッチパターンから音源信号を生成し
(S30)、これを(6)のスペクトルパラメータに対
応する伝達特性を持つ適当な音声合成フィルタ(S3
1)に通すことで任意話者の音声を合成する。
【0088】このように本発明では、任意話者の少量の
発声データに基づいて平均声HMMのモデルパラメータ
を変換することにより任意話者の音声を合成することが
可能となった。
【0089】この手順に従って、話者適応音声の合成実
験を行った。ATR日本語音声データベースから5名の
男性話者(MHO,MMY,MSH,MTK,MYI)
の平均声モデルを求め、上記5名の話者とは異なる話者
(MHT)が発話した4文章を用いて平均声モデルを話
者MHTに話者適応し、話者適応音声単位HMMを作成
した。この話者適応音声単位HMMを結合して「不公平
の存在は否認しなかった」という文章テキストを音声合
成した場合のスペクトル系列とピッチパターンを図11
に示す。
【0090】なお、平均声モデルを求める際の条件及び
話者MHTの発話(適応データ)の分析条件は前記平均
声の音声合成の項の実験例と同じである。また、話者適
応に用いた変換行列の個数はスペクトル部が2、ピッチ
部の静的特徴量、そのデルタ、そのデルタデルタ特徴量
がそれぞれ25、21、21であった。また、ここでは
継続長は平均声モデルのものをそのまま用いている。
【0091】これに対して、話者MHTの発話した45
0文章から音声単位HMMを求め、これから「不公平の
存在は否認しなかった」という同一文章を合成した場合
のスペクトル系列とピッチパターンを図12に示す。図
11と図12を比較すると、図11は平均声モデルから
4文章という少量の発話に基づいて話者MHTに話者適
応されているにも関わらず、図12に示したMHTのス
ペクトル系列及びピッチパターンに似た音声が合成され
た。
【0092】
【発明の効果】本発明は、上述のように構成したので、
以下のような顕著な効果を奏する。
【0093】(1)本発明では、多数話者の平均的な特
徴を有する音声(平均声)を合成することができる。つ
まり、本発明では人間の声ではあるが、実在しない話者
の音声を作成することが可能となった。これにより、合
成音声を各種の機器(カーナビゲーションシステム、ゲ
ーム機等)に組み込む場合に音声の使用権利を考慮する
必要がなくなった。また、報道番組等で話者の匿名性が
要求されるような場面において、本発明の平均声を用い
ることで、話者の匿名性をより一層確実なものとするこ
とができる(請求項1)。
【0094】(2)少量の特定話者の発話に基づいて、
その特定話者に近い音声を合成することが可能となっ
た。これにより、合成音声出力機能を有する各種機器に
おいて、合成音声を任意話者の声質及び韻律特徴にカス
タマイズすることが可能となり、特定話者の発話データ
が存在しない文章テキストについても、その特定話者に
近い音声で合成音声を出力することが可能となった。
(請求項2)。
【図面の簡単な説明】
【図1】 特徴ベクトルの構造を示す。
【図2】 MSD−HMMによるピッチパターンの生成
例を示す。
【図3】 平均声合成の流れ図を示す。
【図4】 話者MHOのスペクトル系列とピッチパター
ンを示す。
【図5】 話者MMYのスペクトル系列とピッチパター
ンを示す。
【図6】 話者MSHのスペクトル系列とピッチパター
ンを示す。
【図7】 話者MTKのスペクトル系列とピッチパター
ンを示す。
【図8】 話者MYIのスペクトル系列とピッチパター
ンを示す。
【図9】 平均声のスペクトル系列とピッチパターンを
示す。
【図10】 話者適応音声合成の流れ図を示す。
【図11】 話者MHTに話者適応した話者適応音声の
スペクトル系列とピッチパターンを示す。
【図12】 話者MHTのスペクトル系列とピッチパタ
ーンを示す。
【図13】 音声パラメータの生成例を示す。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 田村 正統 神奈川県横浜市緑区長津田町4529 東京工 業大学内 (72)発明者 徳田 恵一 愛知県名古屋市昭和区御器所町 名古屋工 業大学内 Fターム(参考) 5D045 AA07 AA20

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数の話者の発話より、これら複数の話
    者の平均的な特徴を有する平均声を合成する平均声の合
    成方法であって、 (1)複数の話者の発話より、静的特徴量であるスペク
    トルパラメータとピッチパラメータとを分析フレーム毎
    に抽出する工程と、 (2)この静的特徴量より分析フレーム毎に動的特徴量
    を求める工程と、 (3)静的特徴量と動的特徴量を特徴パラメータとする
    工程と、 (4)この特徴パラメータを学習データとして、音声単
    位毎にスペクトル系列、ピッチパターン及び継続長を隠
    れマルコフモデル(HMM)により同時にモデル化し、
    平均声音声単位HMM(平均声モデル)を作成する工程
    と、 (5)任意の文章テキストの解析を行い、この文章テキ
    ストを音声単位ラベル列に変換する工程と、 (6)この音声単位ラベル列に従い、前記平均声音声単
    位HMM(平均声モデル)を連結し、平均声文章HMM
    を構成する工程と (7)この平均声文章HMMから音声パラメータ生成ア
    ルゴリズムに基づきスペクトルパラメータ系列とピッチ
    パターンを生成する工程と、 (8)このピッチパターンから音源信号を生成し、これ
    を入力として、前記スペクトルパラメータに対応する伝
    達特性を持つ音声合成フィルタにより、前記文章テキス
    トの平均声による音声を出力する工程と、を少なくとも
    有することを特徴とする平均声の合成方法。
  2. 【請求項2】 複数の話者の発話を基にして得られた平
    均声音声単位HMM(平均声モデル)より任意話者の声
    質及び韻律特徴を有する音声の合成方法であって、 (1)複数の話者の発話より、静的特徴量であるスペク
    トルパラメータとピッチパラメータとを分析フレーム毎
    に抽出する工程と、 (2)この静的特徴量より分析フレーム毎に動的特徴量
    を求める工程と、 (3)静的特徴量と動的特徴量を特徴パラメータとする
    工程と、 (4)この特徴パラメータを学習データとして、音声単
    位毎にスペクトル系列、ピッチパターン及び継続長を隠
    れマルコフモデル(HMM)により同時にモデル化し、
    平均声音声単位HMM(平均声モデル)を作成する工程
    と、 (5)任意話者の少量の発話データよりこの任意話者の
    前記特徴パラメータを求める工程と、 (6)前記任意話者の前記特徴パラメータを用いて、前
    記平均声音声単位HMM(平均声モデル)を前記任意話
    者に話者適応し、話者適応音声単位HMMを作成する工
    程と、 (7)任意の文章テキストの解析を行い、この文章テキ
    ストを音声単位ラベル列に変換する工程と、 (8)この音声単位ラベル列に従い、前記話者適応音声
    単位HMMを連結し、話者適応文章HMMを構成する工
    程と、 (9)この話者適応文章HMMから音声パラメータ生成
    アルゴリズムに基づきスペクトルパラメータ系列とピッ
    チパターンを生成する工程と、 (10)このピッチパターンから音源信号を生成し、こ
    れを入力として、前記スペクトルパラメータに対応する
    伝達特性を持つ音声合成フィルタにより、前記文章テキ
    ストの前記任意話者による音声を出力する工程と、を少
    なくとも有する平均声からの任意話者音声の合成方法。
JP2001045910A 2001-02-22 2001-02-22 平均声の合成方法及び平均声からの任意話者音声の合成方法 Pending JP2002244689A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001045910A JP2002244689A (ja) 2001-02-22 2001-02-22 平均声の合成方法及び平均声からの任意話者音声の合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001045910A JP2002244689A (ja) 2001-02-22 2001-02-22 平均声の合成方法及び平均声からの任意話者音声の合成方法

Publications (1)

Publication Number Publication Date
JP2002244689A true JP2002244689A (ja) 2002-08-30

Family

ID=18907616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001045910A Pending JP2002244689A (ja) 2001-02-22 2001-02-22 平均声の合成方法及び平均声からの任意話者音声の合成方法

Country Status (1)

Country Link
JP (1) JP2002244689A (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011203A (ja) * 2005-07-04 2007-01-18 Sony Corp データ出力装置、データ出力方法、およびプログラム
JP2007058846A (ja) * 2005-07-27 2007-03-08 Advanced Telecommunication Research Institute International リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
WO2007063827A1 (ja) * 2005-12-02 2007-06-07 Asahi Kasei Kabushiki Kaisha 声質変換システム
WO2007141993A1 (ja) * 2006-06-05 2007-12-13 Panasonic Corporation 音声合成装置
JP2008026777A (ja) * 2006-07-25 2008-02-07 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP2008052628A (ja) * 2006-08-28 2008-03-06 Advanced Telecommunication Research Institute International アニメーションデータ作成装置及びアニメーションデータ作成プログラム
JP2010224418A (ja) * 2009-03-25 2010-10-07 Kddi Corp 音声合成装置、方法およびプログラム
WO2012032748A1 (ja) * 2010-09-06 2012-03-15 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP2013238819A (ja) * 2012-05-17 2013-11-28 Nippon Telegr & Teleph Corp <Ntt> 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム
JP2015152630A (ja) * 2014-02-10 2015-08-24 株式会社東芝 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP2016020972A (ja) * 2014-07-14 2016-02-04 株式会社東芝 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
JP2017520016A (ja) * 2014-05-28 2017-07-20 インタラクティブ・インテリジェンス・インコーポレイテッド パラメトリック音声合成システムに基づく声門パルスモデルの励磁信号形成方法
JP2017138596A (ja) * 2016-02-02 2017-08-10 株式会社東芝 話者適応システムにおける雑音補償
JP2018041116A (ja) * 2017-12-18 2018-03-15 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP2018097115A (ja) * 2016-12-12 2018-06-21 日本電信電話株式会社 基本周波数モデルパラメータ推定装置、方法、及びプログラム
US10014007B2 (en) 2014-05-28 2018-07-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10255903B2 (en) 2014-05-28 2019-04-09 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10540956B2 (en) 2015-09-16 2020-01-21 Kabushiki Kaisha Toshiba Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4662139B2 (ja) * 2005-07-04 2011-03-30 ソニー株式会社 データ出力装置、データ出力方法、およびプログラム
JP2007011203A (ja) * 2005-07-04 2007-01-18 Sony Corp データ出力装置、データ出力方法、およびプログラム
JP2007058846A (ja) * 2005-07-27 2007-03-08 Advanced Telecommunication Research Institute International リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
JP4631078B2 (ja) * 2005-07-27 2011-02-16 株式会社国際電気通信基礎技術研究所 リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
WO2007063827A1 (ja) * 2005-12-02 2007-06-07 Asahi Kasei Kabushiki Kaisha 声質変換システム
JP4928465B2 (ja) * 2005-12-02 2012-05-09 旭化成株式会社 声質変換システム
US8099282B2 (en) 2005-12-02 2012-01-17 Asahi Kasei Kabushiki Kaisha Voice conversion system
WO2007141993A1 (ja) * 2006-06-05 2007-12-13 Panasonic Corporation 音声合成装置
JP2008026777A (ja) * 2006-07-25 2008-02-07 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP4543263B2 (ja) * 2006-08-28 2010-09-15 株式会社国際電気通信基礎技術研究所 アニメーションデータ作成装置及びアニメーションデータ作成プログラム
JP2008052628A (ja) * 2006-08-28 2008-03-06 Advanced Telecommunication Research Institute International アニメーションデータ作成装置及びアニメーションデータ作成プログラム
JP2010224418A (ja) * 2009-03-25 2010-10-07 Kddi Corp 音声合成装置、方法およびプログラム
WO2012032748A1 (ja) * 2010-09-06 2012-03-15 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP5874639B2 (ja) * 2010-09-06 2016-03-02 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP2013238819A (ja) * 2012-05-17 2013-11-28 Nippon Telegr & Teleph Corp <Ntt> 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム
US9484012B2 (en) 2014-02-10 2016-11-01 Kabushiki Kaisha Toshiba Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product
JP2015152630A (ja) * 2014-02-10 2015-08-24 株式会社東芝 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP2017520016A (ja) * 2014-05-28 2017-07-20 インタラクティブ・インテリジェンス・インコーポレイテッド パラメトリック音声合成システムに基づく声門パルスモデルの励磁信号形成方法
US10014007B2 (en) 2014-05-28 2018-07-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10255903B2 (en) 2014-05-28 2019-04-09 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10621969B2 (en) 2014-05-28 2020-04-14 Genesys Telecommunications Laboratories, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
JP2016020972A (ja) * 2014-07-14 2016-02-04 株式会社東芝 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
US10540956B2 (en) 2015-09-16 2020-01-21 Kabushiki Kaisha Toshiba Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus
JP2017138596A (ja) * 2016-02-02 2017-08-10 株式会社東芝 話者適応システムにおける雑音補償
JP2018097115A (ja) * 2016-12-12 2018-06-21 日本電信電話株式会社 基本周波数モデルパラメータ推定装置、方法、及びプログラム
JP2018041116A (ja) * 2017-12-18 2018-03-15 株式会社東芝 音声合成装置、音声合成方法およびプログラム

Similar Documents

Publication Publication Date Title
Tamura et al. Adaptation of pitch and spectrum for HMM-based speech synthesis using MLLR
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP2826215B2 (ja) 合成音声生成方法及びテキスト音声合成装置
Tokuda et al. An HMM-based speech synthesis system applied to English
JP3408477B2 (ja) フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US8886538B2 (en) Systems and methods for text-to-speech synthesis using spoken example
Yoshimura Simultaneous modeling of phonetic and prosodic parameters, and characteristic conversion for HMM-based text-to-speech systems
JP2002244689A (ja) 平均声の合成方法及び平均声からの任意話者音声の合成方法
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
CN112102811B (zh) 一种合成语音的优化方法、装置及电子设备
Delić et al. A review of Serbian parametric speech synthesis based on deep neural networks
JP2002268660A (ja) テキスト音声合成方法および装置
Lee MLP-based phone boundary refining for a TTS database
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2001117582A (ja) 音声処理装置およびカラオケ装置
Phan et al. A study in vietnamese statistical parametric speech synthesis based on HMM
JP3281266B2 (ja) 音声合成方法及び装置
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JP2018146821A (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
Ronanki et al. The CSTR entry to the Blizzard Challenge 2017
Tóth et al. Hidden-Markov-Model based speech synthesis in Hungarian
EP1589524B1 (en) Method and device for speech synthesis
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置