JP2015152630A - 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム - Google Patents

音声合成辞書生成装置、音声合成辞書生成方法およびプログラム Download PDF

Info

Publication number
JP2015152630A
JP2015152630A JP2014023617A JP2014023617A JP2015152630A JP 2015152630 A JP2015152630 A JP 2015152630A JP 2014023617 A JP2014023617 A JP 2014023617A JP 2014023617 A JP2014023617 A JP 2014023617A JP 2015152630 A JP2015152630 A JP 2015152630A
Authority
JP
Japan
Prior art keywords
speaker
level
target speaker
target
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014023617A
Other languages
English (en)
Other versions
JP6266372B2 (ja
Inventor
眞弘 森田
Shinko Morita
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2014023617A priority Critical patent/JP6266372B2/ja
Priority to US14/606,089 priority patent/US9484012B2/en
Priority to CN201510058451.5A priority patent/CN104835493A/zh
Publication of JP2015152630A publication Critical patent/JP2015152630A/ja
Application granted granted Critical
Publication of JP6266372B2 publication Critical patent/JP6266372B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】目標とする発声スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書を生成する。【解決手段】実施形態の音声合成辞書生成装置は、音声分析部と、話者適応部と、目標話者レベル指定部と、決定部とを備える。音声分析部は、対象話者の音声データを分析して対象話者の音声DBを生成する。話者適応部は、音声DBに基づいて話者適応を行い、対象話者のモデルを生成する。目標話者レベル指定部は、目標とする話者レベルである目標話者レベルの指定を受け付ける。決定部は、指定された目標話者レベルと対象話者の話者レベルである対象話者レベルとの関係に応じて、話者適応での話者性再現の忠実度に関わるパラメータの値を決定する。決定部は、指定された目標話者レベルが対象話者レベルより高い場合、忠実度が低くなるようにパラメータの値を決定し、話者適応部は、決定されたパラメータの値に従って話者適応を行う。【選択図】図1

Description

本発明の実施形態は、音声合成辞書生成装置、音声合成辞書生成方法およびプログラムに関する。
音声合成では、事前に用意された少数の候補から声を選んで読ませるだけではなく、有名人や身近な人など、特定の話者の声の音声合成辞書を新たに生成し、様々なテキストコンテンツを読ませたいというニーズが高まっている。こうしたニーズに応えるため、辞書生成の対象となる対象話者の音声データから音声合成辞書を自動で生成する技術が提案されている。また、対象話者の少量の音声データから音声合成辞書を生成する技術として、予め用意された複数話者の平均的な特徴を表すモデルを、対象話者の特徴に近づけるように変換することで対象話者のモデルを生成する話者適応の技術がある。
音声合成辞書を自動で生成する従来の技術は、対象話者の声や話し方にできるだけ似せることを主目的としている。しかし、辞書生成の対象となる対象話者は、プロのナレータや声優だけではなく、発声のトレーニングを全く受けていない一般の話者も含まれる。このため、対象話者の発話スキルが低いと、そのスキルの低さが忠実に再現されて、用途によっては使いづらい音声合成辞書になってしまう。
また、対象話者の母国語だけではなく、外国語の音声合成辞書をその対象話者の声で生成したいというニーズもある。このニーズに対しては、対象話者に外国語を読ませた音声が録音できれば、この録音音声からその言語の音声合成辞書を生成することが可能である。しかし、その言語の発声として正しくない発声や訛りのある不自然な発声の録音音声から音声合成辞書を生成すると、その発声の特徴が反映され、ネイティブが聞いても理解できない音声合成辞書になってしまう。
特開2013−72903号公報 特開2002−244689号公報
本発明が解決しようとする課題は、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書を生成できる音声合成辞書生成装置、音声合成辞書生成方法およびプログラムを提供することである。
実施形態の音声合成辞書生成装置は、任意の対象話者の音声データを基に前記対象話者のモデルを含む音声合成辞書を生成する音声合成辞書生成装置であって、音声分析部と、話者適応部と、目標話者レベル指定部と、決定部と、を備える。音声分析部は、前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する。話者適応部は、前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する。目標話者レベル指定部は、話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける。決定部は、指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する。そして、前記決定部は、指定された前記目標話者レベルが前記対象話者レベルより高い場合は、指定された前記目標話者レベルが前記対象話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、前記話者適応部は、前記決定部が決定した前記パラメータの値に従って前記話者適応を行う。
第1の実施形態の音声合成辞書生成装置の構成例を示すブロック図。 音声合成装置の概略構成を示すブロック図。 HMM方式の話者適応で用いられる区分線形回帰の概念図。 決定部がパラメータの値を決定する方法の一例を示す図。 第2の実施形態の音声合成辞書生成装置の構成例を示すブロック図。 第3の実施形態の音声合成辞書生成装置の構成例を示すブロック図。 目標話者レベルを指定するGUIの表示例を示す図。 クラスタ適応学習で学習したモデルを用いた話者適応の概念図。 式(2)における補間比率rと目標の重みベクトルとの関係を示す概念図。 第6の実施形態の音声合成辞書生成装置の構成例を示すブロック図。
(第1の実施形態)
図1は、本実施形態の音声合成辞書生成装置100の構成例を示すブロック図である。図1に示すように、本実施形態の音声合成辞書生成装置100は、音声分析部101と、話者適応部102と、対象話者レベル指定部103と、目標話者レベル指定部104と、決定部105とを備える。音声合成辞書生成装置100は、辞書生成の対象となる任意の対象話者の録音音声10とその読み上げ内容に対応したテキスト20(以下、「録音テキスト」と呼ぶ)が入力されると、その対象話者の声質・話し方をモデル化した対象話者のモデルを含む音声合成辞書30を生成する。
上記の構成のうち、対象話者レベル指定部103、目標話者レベル指定部104、および決定部105は本実施形態に特有の構成要素であるが、それら以外については、話者適応の技術を用いる音声合成辞書生成装置に一般的な構成である。
本実施形態の音声合成辞書生成装置100により生成される音声合成辞書30は、音声合成装置に必要なデータであり、声質をモデル化した音響モデルや、抑揚・リズムなどの韻律をモデル化した韻律モデル、その他の音声合成に必要な各種情報を含む。音声合成装置は、通常、図2で示すように、言語処理部40と音声合成部50から構成されており、テキストが入力されると、それに対する音声波形を生成する。言語処理部40では、入力されたテキストを分析して、テキストの読みやアクセント、ポーズの位置、その他単語境界や品詞などの各種言語情報を取得し、音声合成部50に渡す。音声合成部50では、これらの情報を基に、音声合成辞書30に含まれる韻律モデルを用いて抑揚・リズムなどの韻律パターンを生成し、さらに音声合成辞書30に含まれる音響モデルを用いて音声波形を生成する。
特許文献2に記載されているようなHMM(Hidden Markov Model:隠れマルコフモデル)に基づく方式の場合、音声合成辞書30に含まれる韻律モデルや音響モデルは、テキストを言語解析して得られる音韻・言語情報と、韻律や音響などのパラメータ系列との対応関係をモデル化したものである。具体的には、各パラメータを状態ごとに音韻・言語環境でクラスタリングした決定木と、決定木の各リーフノードに割り当てられたパラメータの確率分布からなる。韻律パラメータとしては、声の高さを表すピッチパラメータや、音の長さを表す継続時間長などがある。また、音響パラメータとしては、声道の特徴を表すスペクトルパラメータや、音源信号の非周期性の程度を表す非周期性指標などがある。状態とは、各パラメータの時間変化をHMMでモデル化したときの内部状態を指す。通常、各音素区間は、後戻り無しで左から右の状態に遷移する3〜5状態のHMMでモデル化されるため、3〜5個の状態を含む。そこで、例えばピッチパラメータの第一状態に対する決定木では、音素区間内の先頭区間のピッチ値の確率分布が音韻・言語環境でクラスタリングされており、対象の音素区間に関する音韻・言語情報を基にこの決定木をたどることで、その音素の先頭区間のピッチパラメータの確率分布を得ることができる。パラメータの確率分布には正規分布が用いられることが多く、その場合、分布の中心を表す平均ベクトルと分布の広がりを表す共分散行列で表現される。
音声合成部50では、各パラメータの各状態に対する確率分布を上述のような決定木で選択して、これらの確率分布を基に確率が最大となるパラメータ系列をそれぞれ生成し、これらのパラメータ系列を基に音声波形を生成する。一般的なHMMに基づく方式の場合、生成されたピッチパラメータと非周期性指標を基に音源波形を生成し、この音源波形に、生成されたスペクトルパラメータに従ってフィルタ特性が時間変化する声道フィルタを畳み込むことで、音声波形を生成する。
音声分析部101は、音声合成辞書生成装置100に入力された録音音声10と録音テキスト20を分析し、音声データベース(以下、音声DBという)110を生成する。音声DB110には、話者適応で必要になる各種の音響・韻律データ、つまり対象話者の発話の特徴を表すデータが含まれる。具体的には、スペクトル包絡の特徴を表すスペクトルパラメータや、各周波数帯域での非周期成分の比率を表す非周期性指標、基本周波数(F0)を表すピッチパラメータなどの時系列(例えばフレーム毎)、音素などのラベルの系列とこれらの各ラベルに関する時間情報(音素の開始時刻、終了時刻など)や言語情報(音素を含む単語のアクセントや見出し、品詞、前後の単語との接続強度など)、ポーズの位置・長さの情報、などが音声DB110に含まれる。音声DB110は、少なくともこれらの情報の一部を含むが、ここに挙げたもの以外の情報を含んでもよい。また、スペクトルパラメータには、メル周波数ケプストラム(メルケプストラム)やメル周波数線スペクトル対(メルLSP)が一般的によく用いられるが、スペクトル包絡の特徴を表すパラメータであればどのようなものであってもよい。
音声分析部101では、音声DB110に含まれるこれらの情報を生成するため、音素ラベリング、基本周波数抽出、スペクトル包絡抽出、非周期性指標抽出、言語情報抽出などの処理が自動で行われる。これらの処理には、それぞれ既存の手法がいくつか存在し、そのいずれかを用いてもよいし、新たな別の手法を用いてもよい。例えば、音素ラベリングではHMMを用いた手法が一般的に用いられる。基本周波数抽出には、音声波形の自己相関を用いた手法やケプストラムを用いた手法、スペクトルの調波構造を用いた手法など、数多くの手法が存在する。スペクトル包絡抽出には、ピッチ同期分析を用いた手法やケプストラムを用いた手法、STRAIGHTと呼ばれる手法など多くの手法が存在する。非周期性指標抽出には、各周波数帯域の音声波形での自己相関を用いた手法や、PSHFと呼ばれる手法で音声波形を周期成分と非周期成分に分割して周波数帯域ごとのパワー比率を求める手法などが存在する。言語情報抽出では、形態素解析などの言語処理を行った結果から、アクセントの情報や、品詞、単語間の接続強度などの情報を得る。
音声分析部101により生成された音声DB110は、話者適応用ベースモデル120とともに、話者適応部102において対象話者のモデルを生成するために用いられる。
話者適応用ベースモデル120は、音声合成辞書30に含まれるモデルと同様に、テキストを言語解析して得られる音韻・言語情報と、スペクトルパラメータやピッチパラメータ、非周期性指標などのパラメータ系列との対応関係をモデル化したものである。通常、複数人の大量音声データからこれらの話者の平均的な特徴を表すモデルが学習され、幅広い音韻・言語環境をカバーしたモデルが話者適応用ベースモデル120として用いられる。例えば、特許文献2に記載のようなHMMに基づく方式の場合、この話者適応用ベースモデル120は、各パラメータを音韻・言語環境でクラスタリングした決定木と、決定木の各リーフノードに割り当てられたパラメータの確率分布からなる。
この話者適応用ベースモデル120の学習方法としては、特許文献2に記載されているように、複数の話者の音声データから、HMM音声合成の一般的なモデル学習方式を用いて「不特定話者モデル」を学習する方法や、下記の参考文献1に記載されているように、話者適応学習(Speaker Adaptive Training:SAT)という方式を用いて話者間の特徴のバラつきを正規化しながら学習する方法などがある。
(参考文献1)J.Yamagishi and T.Kobayashi,“Average−Voice−Based Speech Synthesis Using HSMM−Based Speaker Adaptation and Adaptive Training”,IEICE Trans.Information and Systems,Vol.No.2,pp.533−543(2007−2)
本実施形態では、話者適応用ベースモデル120は、原則、その言語のネイティブでかつ発声スキルの高い複数の話者の音声データから学習するものとする。
話者適応部102は、音声DB110を用いて、話者適応用ベースモデル120を対象話者(録音音声10の話者)の特徴に近づけるように変換する話者適応を行って、対象話者に近い声質・話し方のモデルを生成する。ここでは、最尤線形回帰(MLLR)や制約付き最尤線形回帰(cMLLR)、構造的事後確立最大線形回帰(SMAPLR)などの手法を用いて、話者適応用ベースモデル120が持つ確率分布を、音声DB110のパラメータに合わせて最適化することで、話者適応用ベースモデル120を対象話者の特徴に近づける。例えば、最尤線形回帰を用いた方法の場合、決定木中のリーフノードiに割り当てられたパラメータの確率分布の平均ベクトルμを、下記の式(1)のように変換する。ただし、A,Wは行列、B,ξはベクトル、ξ=[1,μ ](Tは転置)、W=[bA]であり、Wを回帰行列と呼ぶ。
Figure 2015152630
式(1)の変換においては、対象話者のモデルのパラメータに対する、変換後の確率分布の尤度が最大になるように回帰行列Wを最適化した上で変換を行う。確率分布の平均ベクトルに加えて、共分散行列についても変換してもよいが、ここでは詳細は割愛する。
こうした最尤線形回帰による変換では、決定木の全リーフノードの確率分布を1つの共通な回帰行列で変換してもよいが、一般的に話者性の違いは音韻などによって異なるため、この場合は非常に粗い変換になってしまい、対象話者の話者性が十分再現できなかったり、さらには音韻性も崩れてしまう場合がある。一方、対象話者の音声データが大量に存在する場合は、各リーフノードの確率分布ごとに異なる回帰行列を用意することで非常に精密な話者適応も可能であるが、話者適応を用いるケースの多くでは、対象話者の音声データは少量のため、各リーフノードに割り当てられる目標話者の音声データは非常に少ないか、全く無い場合もあり、回帰行列の計算ができないリーフノードが多数出てきてしまう。
そこで通常は、変換元の確率分布を複数の回帰クラスにクラスタリングし、回帰クラスごとに変換行列を求めて確率分布の変換を行う。このような変換を区分線形回帰と呼ぶ。図3にそのイメージを示す。回帰クラスへのクラスタリングでは、通常、図3のように音韻・言語環境でクラスタリングされた話者適応用ベースモデル120の決定木(通常2分木)や、確率分布間の距離を基準に全リーフノードの確率分布を物理量でクラスタリングした結果の2分木を用いる(以下、これらの決定木や2分木を回帰クラス木と呼ぶ)。これらの方法では、回帰クラスあたりの対象話者の音声データ量に対して最小閾値を設定し、対象話者の音声データ量に応じて回帰クラスの粒度を制御する。
具体的には、まず、対象話者のパラメータの各サンプルが、回帰クラス木のどのリーフノードに割り当てられるかを調べ、各リーフノードに割り当てられたサンプル数を算出する。割り当てられたサンプル数が閾値を下回るリーフノードがある場合、その親ノードに遡って、親ノード以下のリーフノードをマージする。全てのリーフノードのサンプル数が最小閾値を上回るまでこの操作を繰り返し、最終的にできた各リーフノードが回帰クラスとなる。この結果、対象話者の音声データ量が少ない場合は各回帰クラスが大きく(すなわち変換行列の個数が少なく)なって粒度の粗い適応となり、音声データ量が多い場合は各回帰クラスが大きく(すなわち変換行列の個数が少なく)なって粒度の細かい適応となる。
本実施形態では、話者適応部102は、上述のように、変換行列を回帰クラスごとに求めて確率分布の変換を行い、回帰クラスあたりの対象話者の音声データ量に対する最小閾値のように、回帰クラスの粒度(つまり、話者適応での話者性再現の忠実度)を外部から制御できるパラメータを持つものとする。例えば、回帰クラスあたりの対象話者の音声データ量に最小閾値を設定して回帰クラスの粒度を制御する場合、通常は、韻律・音響パラメータの種類ごとに経験的に求めた固定値を用い、変換行列が計算できる十分なデータ量の範囲で比較的小さめの値に設定することが多い。この場合、対象話者の声質や発声の特徴は、利用可能な音声データ量に応じて、できるだけ忠実に再現できる。
一方、このような最小閾値をより大きな値に設定すると、回帰クラスは大きくなり、粒度の粗い適応となる。この場合、全体的には対象話者の声質や発声の仕方に近づくが、細かい特徴については話者適応用ベースモデル120の特徴を反映したモデルが生成される。すなわち、この最小閾値を大きくすることで、話者適応での話者性再現の忠実度を下げることが可能である。本実施形態では、後述する決定部105において、こうしたパラメータの値が、対象話者の話者レベルと目標とする話者レベル(音声合成辞書30による合成音声に期待する話者レベル)との関係に基づいて決定され、話者適応部102に入力される。
なお、本実施形態で用いる「話者レベル」の用語は、話者の発話スキルと、生成する音声合成辞書30の言語に対する話者のネイティブ度との少なくとも一方を表す。対象話者の話者レベルを「対象話者レベル」と呼び、目標とする話者レベルを「目標話者レベル」と呼ぶ。話者の発話スキルは、話者の発音やアクセントの正確さや、発声の流暢さを表す数値あるいは分類であり、例えば、非常にたどたどしい発声の話者であれば10、正確かつ流暢な発声ができるプロのアナウンサーなら100などの数値で表す。話者のネイティブ度は、その話者にとって対象言語が母語かどうか、母語でなければどの程度その言語の発声スキルがあるかを表す数値あるいは分類である。例えば、母語であれば100、学習したことさえない言語であれば0などである。話者レベルは、用途によって、発声スキルとネイティブ度のいずれか一方でもよいし、両方でもよい。また、発声スキルとネイティブ度が組み合わさったような指標を話者レベルとしてもよい。
対象話者レベル指定部103は、対象話者レベルの指定を受け付けて、指定された対象話者レベルを決定部105に渡す。例えば、対象話者本人などのユーザが何らかのユーザインタフェースを用いて対象話者レベルを指定する操作を行うと、対象話者レベル指定部103は、このユーザの操作による対象話者レベルの指定を受け付けて決定部105に渡す。なお、生成する音声合成辞書30の用途などによって対象話者レベルが想定できる場合は、対象話者レベルとして固定の想定値が予め設定しておいてもよい。この場合、音声合成辞書生成装置100は、対象話者レベル指定部103の代わりに、予め設定された対象話者レベルを記憶する記憶部を備える。
目標話者レベル指定部104は、目標話者レベルの指定を受け付けて、指定された目標話者レベルを決定部105に渡す。例えば、対象話者本人などのユーザが何らかのユーザインタフェースを用いて目標話者レベルを指定する操作を行うと、目標話者レベル指定部104は、このユーザの操作による目標話者レベルの指定を受け付けて決定部105に渡す。例えば、対象話者の発話スキルやネイティブ度が低い場合、対象話者本人に似た声で、対象話者本人よりもプロっぽく、またはネイティブっぽく発声させたい場合がある。このような場合、ユーザは高めの目標話者レベルを指定すればよい。
決定部105は、目標話者レベル指定部104から渡された目標話者レベルと、対象話者レベル指定部103から渡された対象話者レベルとの関係に応じて、上述した話者適応部102による話者適応での話者性再現の忠実度に関わるパラメータの値を決定する。
決定部105がパラメータの値を決定する方法の一例を図4に示す。図4は目標話者レベルと対象話者レベルとの関係を分類する二次元平面を表しており、横軸が対象話者レベルの大きさに対応し、縦軸が目標話者レベルの大きさに対応する。図中の斜めの破線は、目標話者レベルと対象話者レベルとが等しい位置を示している。決定部105は、例えば、目標話者レベル指定部104から渡された目標話者レベルと、対象者レベル指定部103から渡された対象話者レベルとの関係が、図4の領域A〜Dのいずれに当てはまるかを判定する。そして、目標話者レベルと対象話者レベルとの関係が領域Aに当てはまる場合は、決定部105は、話者性再現の忠実度に関わるパラメータの値を、話者性再現の忠実度が最大となる値として予め定められたデフォルト値に決定する。領域Aは、目標話者レベルが対象話者レベル以下の場合、あるいは目標話者レベルが対象話者レベルよりも高いがその差が所定値未満の場合に当てはまる領域である。目標話者レベルが対象話者レベルよりも高いがその差が所定値未満の場合を領域Aに含めているのは、話者レベルの不確実性を考慮して、パラメータの値をデフォルト値とする領域にマージンを持たせるためである。ただし、このようなマージンは必ずしも必要ではなく、目標話者レベルが対象話者レベル以下の場合に当てはまる領域(図の斜めの破線よりも右下の領域)のみを領域Aとしてもよい。
また、目標話者レベルと対象話者レベルとの関係が領域Bに当てはまる場合は、決定部105は、話者性再現の忠実度に関わるパラメータの値を、デフォルト値よりも話者性再現の忠実度が低くなる値に決定する。また、目標話者レベルと対象話者レベルとの関係が領域Cに当てはまる場合は、決定部105は、話者性再現の忠実度に関わるパラメータの値を、目標話者レベルと対象話者レベルとの関係が領域Bに当てはまる場合よりもさらに、話者性再現の忠実度が低くなる値に決定する。また、目標話者レベルと対象話者レベルとの関係が領域Dに当てはまる場合は、決定部105は、話者性再現の忠実度に関わるパラメータの値を、目標話者レベルと対象話者レベルとの関係が領域Cに当てはまる場合よりもさらに、話者性再現の忠実度が低くなる値に決定する。
以上のように、決定部105は、目標話者レベルが対象話者レベルよりも高い場合は、話者性再現の忠実度に関わるパラメータの値を、デフォルト値よりも話者性再現の忠実度が低くなる値に決定し、その差が大きくなるほど話者性再現の忠実度が低くなるように、パラメータの値を決定する。この際、話者適応により生成する対象話者のモデルのうち、音響モデルの生成に用いるパラメータと、韻律モデルの生成に用いるパラメータとで、パラメータの変更度合いを変えてもよい。
多くの話者では、その話者性は韻律よりも声質に強く表れるので、声質は忠実に再現する必要があるが、韻律は平均レベルさえその話者に合わせておけば、話者性をある程度再現できる場合が多い。また、多くの話者にとって、文中の各音節が正しく聞き取れるように発音することは比較的容易であるが、アクセントや抑揚、リズムといった韻律については、プロナレータなどのように自然で聞きやすい読み方をすることは、かなりの訓練を受けなければ難しい。外国語を読む場合も同様であり、例えば中国語を学習したことのない日本語話者が中国語を読む場合、中国語のピンインやこれをカナに変換したものを読めば、各音節はある程度正しく発音できるが、正しい声調(標準中国語の場合は四声)で読むことはほぼ不可能である。そこで、話者性再現の忠実度に関わるパラメータの値を、デフォルト値よりも話者性再現の忠実度が低くなるように決定する際に、音響モデルの生成に用いるパラメータのデフォルト値に対する変更度合いよりも、韻律モデルの生成に用いるパラメータのデフォルト値に対する変更度合いを大きくすることで、話者性の再現と発話スキルの高さを両立した音声合成辞書30を生成しやすくすることが可能となる。
例えば、話者性再現の忠実度に関わるパラメータとして、上述した回帰クラスあたりの対象話者の音声データ量に対する最小閾値を用いる場合、目標話者レベルと対象話者レベルとの関係が図4の領域Bに当てはまれば、音響モデルの生成に用いるパラメータの値をデフォルト値の10倍とし、韻律モデルの生成に用いるパラメータの値をデフォルト値の10倍とする。また、目標話者レベルと対象話者レベルとの関係が図4の領域Cに当てはまれば、音響モデルの生成に用いるパラメータの値をデフォルト値の30倍とし、韻律モデルの生成に用いるパラメータの値をデフォルト値の100倍とする。また、目標話者レベルと対象話者レベルとの関係が図4の領域Dに当てはまれば、音響モデルの生成に用いるパラメータの値をデフォルト値の100倍とし、韻律モデルの生成に用いるパラメータの値をデフォルト値の1000倍とするといった方法が考えられる。
以上説明したように、本実施形態の音声合成辞書生成装置100では、対象話者レベルよりも高い目標話者レベルが指定されると、話者適応での話者再現性の忠実度が自動的に下がり、全体的には話者の声質や発声の仕方に近いが、細かい特徴については話者適応用ベースモデル120の特徴、すなわち、発話スキルやその言語のネイティブ度の高い特徴を持った音声合成辞書30が生成される。このように、本実施形態の音声合成辞書生成装置100によれば、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書30を生成することができ、対象話者の発話スキルが低い場合でも発話スキルの高い音声合成を、対象話者のネイティブ度が低い場合でもネイティブに近い発声の音声合成を実現できる。
(第2の実施形態)
第1の実施形態においては、対象話者レベルは対象話者本人などのユーザにより指定される、あるいは予め固定の想定値を設定するものとした。しかし、録音音声10での実際の発話スキルやネイティブ度に合った適切な対象話者レベルを指定・設定するのは非常に難しい。そこで、本実施形態では、音声分析部101による対象話者の音声データの分析結果を基に対象話者レベルを推定し、指定された目標話者レベルと、推定した対象話者レベルとの関係に応じて、話者性再現の忠実度に関わるパラメータの値を決定する。
図5は、本実施形態の音声合成辞書生成装置200の構成例を示すブロック図である。図5に示すように、本実施形態の音声合成辞書生成装置200は、図1に示した対象話者レベル指定部103に代えて、対象話者レベル推定部201を備える。それ以外の構成は第1の実施形態と同様であるため、第1の実施形態と共通の構成要素については図中同一の符号を付して、重複した説明を省略する。
対象話者レベル推定部201は、音声分析部101で音素ラベリングされた結果や、抽出されたピッチやポーズなどの情報を基に、対象話者の発話スキルやネイティブ度を判定する。例えば、発話スキルの低い対象話者は、ポーズの頻度が、流暢に話せる話者よりも高くなる傾向があるので、この情報を用いて対象話者の発話スキルを判定できる。また、録音された音声から話者の発話スキルを自動判定する技術は、従来にも語学学習などの目的でさまざまなものが存在し、下記の参考文献2にその一例が開示されている。
(参考文献2)特開2006−201491
この参考文献2に記載されている技術では、HMMモデルを教師データとし、これを使って話者の音声をアラインメントした結果得られる確率値から、その話者の発音レベルに関する評定値を算出する。このような既存の技術のいずれかを用いてもよい。
以上のように、本実施形態の音声合成辞書生成装置200によれば、録音音声10での実際の話者レベルに合った適切な対象話者レベルが自動判定されるので、指定された目標話者レベルを適切に反映した音声合成辞書30を生成することが可能になる。
(第3の実施形態)
ユーザが指定する目標話者レベルは、生成される音声合成辞書30(対象話者のモデル)の発話レベルやネイティブ度に影響するだけでなく、実際には対象話者の類似度とのトレードオフを調整することになる。すなわち、対象話者の発話レベルやネイティブ度よりも高い目標話者レベルを設定すると、対象話者の話者性の類似度は多少犠牲にすることになる。しかしながら、第1、第2の実施形態においては、ユーザは目標話者レベルを指定するだけのため、最終的にどういった音声合成辞書30が生成されるかをイメージすることが難しい。また、そうしたトレードオフが実際に調整可能な範囲は、録音音声10の発話レベルやネイティブ度によってある程度制限されることになるが、これについてもユーザは事前に把握できないまま目標話者レベルを設定する必要がある。
そこで、本実施形態では、入力された録音音声10に応じて、指定される目標話者レベルと、その結果生成される音声合成辞書30(対象話者のモデル)で想定される話者性の類似度との関係、および、目標話者レベルの指定可能な範囲を、例えばGUIによる表示などでユーザに提示し、目標話者レベルをどのように指定すると、どういった音声合成辞書30が生成されるかをユーザがイメージできるようにする。
図6は、本実施形態の音声合成辞書生成装置300の構成例を示すブロック図である。図6に示すように、本実施形態の音声合成辞書生成装置300は、図5に示した目標話者レベル指定部104に代えて、目標話者レベル提示・指定部301を備える。それ以外の構成は第1、第2の実施形態と同様であるため、第1、第2の実施形態と共通の構成要素については図中同一の符号を付して、重複した説明を省略する。
本実施形態の音声合成辞書生成装置300では、録音音声10が入力されると、対象話者レベル推定部201で対象話者レベルが推定され、この推定された対象話者レベルが目標話者レベル提示・指定部301に渡される。
目標話者レベル提示・指定部301は、対象話者レベル推定部201により推定された対象話者レベルに基づいて、指定可能な目標話者レベルの範囲と、この範囲内の目標話者レベルと、音声合成辞書30で想定される話者性の類似度との関係を求めて、例えばGUI上に表示するとともに、このGUIを用いてユーザが目標話者レベルを指定する操作を受け付ける。
このGUIによる表示例を図7に示す。図7(a)は対象話者レベルが比較的高いと推定された場合のGUIの表示例であり、図7(b)は対象話者レベルが低いと推定された場合のGUIの表示例である。これらのGUIには、目標話者レベルの指定可能な範囲を示すスライダSが設けられ、ユーザはこのスライダS内のポインタPを動かすことで目標話者レベルを指定する。スライダSは、GUI上で斜めに表示され、スライダS内のポインタPの位置が、指定された目標話者レベルと、生成される音声合成辞書30(対象話者のモデル)で想定される話者性の類似度との関係を表している。なお、図中の破線の丸は、話者適応用ベースモデル120をそのまま用いた場合と、録音音声10を忠実に再現した場合とのそれぞれについて、話者レベルおよび話者性の類似度を示したものである。話者適応用ベースモデル120については、話者レベルは高いが対象話者とは全く別人の声・話し方のため図の左上に位置する。一方、録音音声10については、対象話者そのもののため図の右端に位置し、対象話者レベルの高さに応じて上下の位置が変わる。スライダSは、2つの破線の丸の間に位置しているが、対象話者を忠実に再現する設定の場合は話者レベルと話者性の類似度が共に録音音声10に近くなる一方、目標話者レベルを高く設定すると、粗い粒度で話者適応をすることになって、話者性の類似度がある程度犠牲になることを示している。図7に示すように、話者適応用ベースモデル120と録音音声10の話者レベルの差が大きいほど、設定可能な目標話者レベルの範囲は広くなる。
図7に例示したGUIを用いてユーザにより指定された目標話者レベルは決定部105に渡され、対象話者レベル推定部201から渡される対象話者レベルとの関係に基づいて、話者適応での話者の忠実度に関わるパラメータの値が決定部105において決定される。話者適応部102では、決定されたパラメータの値に応じた話者適応がなされることによって、ユーザが意図した話者レベルおよび話者性の類似度を持った音声合成辞書30を生成することができる。
(第4の実施形態)
第1〜第3の実施形態では、HMM音声合成での一般的な話者適応方式を用いる例を説明したが、話者性再現の忠実度に関わるパラメータを持つものであれば、第1〜第3の実施形態とは異なる話者適応方式を用いてもよい。
異なる話者適応方式の一つとして、下記の参考文献3のように、クラスタ適応学習(Cluster Adaptive Training:CAT)で学習したモデルを用いた話者適応方式がある。本実施形態では、このクラスタ適応学習で学習したモデルを用いた話者適応方式を用いるものとする。
(参考文献3)K.Yanagisawa,J.Latorre,V.Wan,M.Gales and S.King,“Noise Robustness in HMM−TTS Speaker Adaptation” Proc.of 8th ISCA Speech Synthesis Workshop,pp.119−124,2013−9
クラスタ適応学習では、モデルを複数クラスタの重み付き和で表し、モデルの学習時には、各クラスタのモデルと重みをデータに合わせて同時に最適化する。本実施形態で用いる話者適応のための複数話者のモデル化では、図8に示すように、複数話者を含む大量の音声データから、それぞれのクラスタをモデル化した決定木と、クラスタの重みとを同時に最適化する。こうしてできたモデルの重みを、学習に用いた各話者に最適化された値に設定すると、それぞれの話者の特徴が再現できる。こうしてできたモデルを、以下CATモデルと呼ぶ。
実際には、CATモデルは第1の実施形態で説明した決定木と同様に、スペクトルパラメータやピッチパラメータなどのパラメータ種別毎に学習する。各クラスタの決定木は、各パラメータを音韻・言語環境でクラスタリングしたものであり、バイアスクラスタという重みが常に1に設定されたクラスタのリーフノードには、対象のパラメータの確率分布(平均ベクトルと共分散行列)が割り当てられ、その他のクラスタのリーフノードには、バイアスクラスタからの確率分布の平均ベクトルに重み付きで加算する平均ベクトルが割り当てられている。
本実施形態では、このようにクラスタ適応学習で学習されたCATモデルを話者適応用ベースモデル120として用いる。この場合の話者適応では、対象話者の音声データに合わせて重みを最適化することによって、対象話者に近い声質・話し方のモデルを得ることができる。しかし、このCATモデルでは通常、学習に用いた話者の特徴の線形和で表現可能な空間内の特徴しか表せないので、例えば学習に用いた話者がプロのナレータばかりの場合、一般者の声質や話し方はうまく再現できない可能性がある。そこで、本実施形態では、話者レベルが様々で、様々な声質や話し方の特徴を含む複数の話者からCATモデルを学習することとする。
この場合、対象話者の音声データに最適化した重みベクトルをWoptとすると、この重みWoptで合成される音声は対象話者に近いが、話者レベルも対象話者のレベルを再現したものになる。一方、CATモデルの学習に用いた話者のうち、話者レベルが高い話者に最適化された重みベクトルの中からWoptに最も近いものを選択してこれをWs(near)とすると、この重みWs(near)で合成される音声は対象話者に比較的近く、話者レベルの高いものとなる。なお、Ws(near)は、ここではWoptに最も近いものとしたが、必ずしも重みベクトルの距離で選択する必要はなく、話者の性別や特徴など別の情報を基に選択してもよい。
本実施形態では、さらに、下記の式(2)のように、WoptとWs(near)を補間した重みベクトルWtargetを新たに定義し、Wtargetを話者適応した結果の重みベクトル(目標の重みベクトル)とすることにする。
Figure 2015152630
図9は、式(2)における補間比率であるrと、これにより定まる目標の重みベクトルWtargetとの関係を示す概念図である。この場合、例えば、補間比率rが1なら対象話者を最も忠実に再現する設定となり、補間比率rが0なら最も話者レベルが高い設定にできる。つまり、この補間比率rを、話者再現性の忠実度を表すパラメータとして用いることができる。本実施形態では、決定部105において、目標話者レベルと対象話者レベルとの関係に基づいてこの補間比率rの値を決定する。これにより、第1〜第3の実施形態と同様に、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書30を生成することができ、対象話者の発話スキルが低い場合でも発話スキルの高い音声合成を、対象話者のネイティブ度が低い場合でもネイティブに近い発声の音声合成を実現できる。
(第5の実施形態)
第1〜第4の実施形態は、HMM音声合成のための音声合成辞書30を生成する例を説明したが、音声合成の方式はHMM音声合成に限らず、素片選択型の音声合成など、異なる音声合成方式であってもよい。例えば、素片選択型の音声合成においても、下記の参考文献4に開示されているような話者適応方法がある。
(参考文献4)特開2007−193139号公報
参考文献4で開示されている話者適応方法では、ベースの話者の音声素片を対象話者(目標話者)の特徴に合わせて変換する。具体的には、音声素片の音声波形を音声分析してスペクトルパラメータに変換し、このスペクトルパラメータをスペクトル領域上で対象話者の特徴に変換した後、変換後のスペクトルパラメータを時間領域の音声波形に戻すことにより、対象話者の音声波形に変換する。
この際の変換規則については、素片選択の手法を用いてベースの話者の音声素片と対象話者の音声素片の対を作り、これらの音声素片を音声分析してスペクトルパラメータの対に変換し、これらのスペクトルパラメータ対を基に、回帰分析やベクトル量子化、混合ガウス分布(GMM)で変換をモデル化することによって生成する。すなわち、HMM音声合成での話者適応の場合と同様に、スペクトル等のパラメータの領域で変換を行う。また、変換方式の中には、話者性再現の忠実度に関わるパラメータが存在するものもある。
例えば、参考文献4で挙げられている変換方式のうち、ベクトル量子化を用いる方式では、ベース話者のスペクトルパラメータをC個のクラスタにクラスタリングし、それぞれのクラスタで最尤線形回帰などによって変換行列を生成する。この場合、クラスタ数のCを、話者性再現の忠実度に関わるパラメータとして用いることができる。Cを大きくすれば忠実度が高く、小さくすれば忠実度が低くなる。また、GMMを用いる変換方式においては、ベース話者から対象話者への変換規則をC個のガウス分布で表現するが、この場合、ガウス分布の混合数Cを話者性再現の忠実度に関わるパラメータとして用いることができる。
本実施形態では、上記のようなベクトル量子化を用いる変換方式におけるクラスタ数C、あるいは、GMMを用いる変換方式におけるガウス分布の混合数Cを、話者性再現の忠実度に関わるパラメータとして用いる。そして、決定部105において、これらクラスタ数Cの値あるいはガウス分布の混合数Cの値を、目標話者レベルと対象話者レベルとの関係に基づいて決定する。これにより、素片選択型の音声合成など、HMM音声合成方式以外の方式で音声合成を行う場合であっても、第1〜第4の実施形態と同様に、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書30を生成することができ、対象話者の発話スキルが低い場合でも発話スキルの高い音声合成を、対象話者のネイティブ度が低い場合でもネイティブに近い発声の音声合成を実現できる。
(第6の実施形態)
話せない言語の音声合成辞書30を生成する場合など、話者のネイティブ度が低い場合は、その言語での音声の録音が非常に難しくなることが予想される。例えば、音声録音ツールにおいて、中国語の分からない日本人話者に対して、中国語のテキストのまま表示して読ませることは困難である。そこで、本実施形態では、テキストの読みの情報を対象話者が通常使用する言語の読み表記に変換して対象話者に提示しながら、音声の録音を行い、かつ、提示する情報を対象話者のネイティブ度に応じて切り換える。
図10は、本実施形態の音声合成辞書生成装置400の構成例を示すブロック図である。図10に示すように、本実施形態の音声合成辞書生成装置400は、図1に示した第1の実施形態の構成に加えて、音声録音・提示部401を備える。それ以外の構成は第1の実施形態と同様であるため、第1の実施形態と共通の構成要素については図中同一の符号を付して、重複した説明を省略する。
音声録音・提示部401は、対象話者が通常使用する言語ではない他の言語の録音テキスト20を読み上げる際に、録音テキスト20の表記を、対象話者が通常使用する言語の読みの表記に変換した表示テキスト130を対象話者に提示しながら、対象話者が録音テキスト20を読み上げた音声を録音する。例えば、日本人を対象として中国語の音声合成辞書30を生成する場合、音声録音・提示部401は、読み上げるテキストを中国語ではなく、例えば中国語の読みをカタカナに変換した表示テキスト130を表示する。こうすることで、日本人でも中国語に近い発音をすることが可能となる。
この際、音声録音・提示部401は、対象話者に提示する表示テキスト130を、対象話者のネイティブ度に応じて切り換える。すなわち、アクセントや声調は、その言語を学習したことがある話者なら、正しいアクセントや声調で発声することも可能である。しかし、その言語を学習したこともない、ネイティブ度の非常に低い話者の場合、アクセント位置や声調の種類が適切に表示されていても、それを発声に反映することは非常に難しい。例えば、中国語を学習したことのない日本人が中国語の声調である四声を正しく発声することはほぼ不可能に近い。
そこで、本実施形態の音声録音・提示部401は、アクセントの位置や声調の種類などを表示するか否かを、対象話者によって指定された対象話者自身のネイティブ度に応じて切り換える。具体的には、音声録音・提示部401は、対象話者により指定された対象話者レベルのうち、対象話者のネイティブ度を対象話者レベル指定部103から受け取る。そして、音声録音・提示部401は、対象話者のネイティブ度が所定のレベルよりも高い場合は、読みの表記に加えてアクセントの位置や声調の種類を表示する。一方、対象話者のネイティブ度が所定のレベルよりも低い場合は、音声録音・提示部401は、読みの表記を表示するが、アクセントの位置や声調の種類は表示しない。
アクセントの位置や声調の種類を表示しない場合、アクセントや声調については正しく発声されることはあまり期待できない一方で、対象話者は、アクセントや声調は気にせず、正しく発音することに集中すると考えられ、発音はある程度正しくなることが期待できる。そこで、決定部105でパラメータの値を決定する際には、音響モデルの生成に用いるパラメータはやや高めの値に設定する一方、韻律モデルの生成に用いるパラメータの値はかなり低めに設定することが望ましい。こうすることで、ネイティブ度の非常に低い対象話者でも、話者の特徴を反映させながら、ある程度正しい発声ができる音声合成辞書30を生成できる可能性が高まる。
なお、決定部105がパラメータの値を決定する際に用いる対象話者レベルは、対象話者が指定したもの、つまり、対象話者レベル指定部103から音声録音・提示部401に渡されたネイティブ度を含む対象話者レベルであってもよいし、第2の実施形態と同様の対象話者レベル推定部201を別途設けて、この対象話者レベル推定部201で推定された対象話者レベル、つまり、音声録音・提示部401で録音された録音音声10を用いて推定された対象話者レベルであってもよい。また、対象話者により指定された対象話者レベルと、録音音声10を用いて推定された対象話者レベルとの両方用いて、決定部105でパラメータの値を決定するようにしてもよい。
本実施形態のように、音声の録音時に対象話者に提示する表示テキスト130の切り換えと、話者適応における話者再現性の忠実度を表すパラメータの値を決定する方法とを連携させることで、ネイティブ度の低い対象話者の録音音声10を用いて、ある程度のネイティブ度を持つ音声合成辞書30を、より適切に生成することが可能になる。
以上、具体的な例を挙げながら詳細に説明したように、実施形態の音声合成辞書生成装置によれば、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書を生成することができる。
なお、上述した実施形態の音声合成辞書生成装置は、例えば、プロセッサや主記憶装置、補助記憶装置などを備える汎用のコンピュータに、ユーザインタフェースとなる出力装置(ディスプレイ、スピーカなど)や入力装置(キーボード、マウス、タッチパネルなど)を接続したハードウェア構成を利用することができる。この構成の場合、実施形態の音声合成辞書生成装置は、コンピュータに搭載されたプロセッサが所定のプログラムを実行することによって、上述した音声分析部101、話者適応部102、対象話者レベル指定部103、目標話者レベル指定部104、決定部105、対象話者レベル推定部201、目標話者レベル提示・指定部301、音声録音・提示部401などの機能的な構成要素が実現する。このとき、音声合成辞書生成装置は、上記のプログラムをコンピュータに予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。また、上記のプログラムをサーバーコンピュータ上で実行させ、ネットワークを介してその結果をクライアントコンピュータで受け取ることにより実現してもよい。
コンピュータで実行されるプログラムは、実施形態の音声合成辞書生成装置を構成する各機能的な構成要素(音声分析部101、話者適応部102、対象話者レベル指定部103、目標話者レベル指定部104、決定部105、対象話者レベル推定部201、目標話者レベル提示・指定部301、音声録音・提示部401など)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサが上記記憶媒体からプログラムを読み出して実行することにより、上記各処理部が主記憶装置上にロードされ、主記憶装置上に生成されるようになっている。なお、上述した機能的な構成要素の一部または全部を、例えばASICやFPGAなどの専用のハードウェアを用いて実現することもできる。
また、実施形態の音声合成辞書生成装置で使用する各種情報は、上記のコンピュータに内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記録媒体を適宜利用して格納しておくことができる。例えば、実施形態の音声合成辞書生成装置が使用する音声DB110や話者適応用ベースモデル120は、これら記録媒体を適宜利用して格納しておくことができる。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 録音音声
20 録音テキスト
30 音声合成辞書
100 音声合成辞書生成装置
101 音声分析部
102 話者適応部
103 対象話者レベル指定部
104 目標話者レベル指定部
105 決定部
110 音声データベース(音声DB)
120 話者適応用ベースモデル
200 音声合成辞書生成装置
201 対象話者レベル推定部
300 音声合成辞書生成装置
301 目標話者レベル提示・指定部
400 音声合成辞書生成装置
401 音声録音・提示部

Claims (11)

  1. 任意の対象話者の音声データを基に前記対象話者のモデルを含む音声合成辞書を生成する音声合成辞書生成装置であって、
    前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析部と、
    前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応部と、
    話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標話者レベル指定部と、
    指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定部と、を備え、
    前記決定部は、指定された前記目標話者レベルが前記対象話者レベルより高い場合は、指定された前記目標話者レベルが前記対象話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、
    前記話者適応部は、前記決定部が決定した前記パラメータの値に従って前記話者適応を行うことを特徴とする音声合成辞書生成装置。
  2. 前記対象話者レベルの指定を受け付ける対象話者レベル指定部をさらに備え、
    前記決定部は、指定された前記目標話者レベルと、指定された前記対象話者レベルとの関係に応じて、前記パラメータの値を決定することを特徴とする請求項1に記載の音声合成辞書生成装置。
  3. 前記音声データベースの少なくとも一部のデータを基に、前記対象話者レベルを自動推定する対象話者レベル推定部をさらに備え、
    前記決定部は、指定された前記目標話者レベルと、推定された前記対象話者レベルとの関係に応じて、前記パラメータの値を決定することを特徴とする請求項1に記載の音声合成辞書生成装置。
  4. 前記目標話者レベル指定部は、前記対象話者レベルを基に、前記目標話者レベルと、生成される前記対象話者のモデルで想定される話者性の類似度との関係、および、前記目標話者レベルの指定可能な範囲を表示し、表示した範囲の中から前記目標話者レベルを指定する操作を受け付けることを特徴とする請求項1〜3のいずれか一項に記載の音声合成辞書生成装置。
  5. 前記話者適応部は、前記話者レベルが高い話者をモデル化した平均声モデルを前記ベースモデルとして用いることを特徴とする請求項1〜4のいずれか一項に記載の音声合成辞書生成装置。
  6. 前記パラメータは、前記話者適応において前記ベースモデルの変換に使用する変換行列の数を定めるパラメータであり、前記変換行列の数が少ないほど前記忠実度が低くなることを特徴とする請求項1〜5のいずれか一項に記載の音声合成辞書生成装置。
  7. 前記話者適応部は、前記話者レベルが異なる複数の話者のデータからクラスタ適応学習によって学習された、複数クラスタの重み付き和で表されるモデルを前記ベースモデルとして用い、複数クラスタの重みの一式である重みベクトルを前記対象話者に合わせ込むことで前記話者適応を行い、
    前記重みベクトルは、前記対象話者にとっての最適重みベクトルと、前記複数の話者のうち前記話者レベルが高い1話者の最適重みベクトルとを補間することで求められ、
    前記パラメータは、前記重みベクトルを求める際の補間比率であることを特徴とする請求項1〜4のいずれか一項に記載の音声合成辞書生成装置。
  8. 前記対象話者のモデルは、韻律モデルと音響モデルとを含み、
    前記パラメータは、前記韻律モデルの生成に用いる第1パラメータと、前記音響モデルの生成に用いる第2パラメータとを含み、
    前記決定部は、前記忠実度が低くなるように前記パラメータの値を決定する際に、前記忠実度が高くなるデフォルト値に対する前記第1パラメータの変更度合いを、前記デフォルト値に対する前記第2パラメータの変更度合いよりも大きくすることを特徴とする請求項1〜7のいずれか一項に記載の音声合成辞書生成装置。
  9. 前記音声データを録音するための録音部をさらに備え、
    前記録音部は、読み上げる単位ごとに少なくとも読み上げる文章の読みの情報を前記対象話者に提示しながら前記音声データを録音し、
    前記読みの情報は、読み上げ対象の言語での読み表記ではなく、前記対象話者が通常用いる言語の読み表記に変換されたものであり、少なくとも前記対象話者のネイティブ度が所定の値よりも低い場合は、アクセントや声調など抑揚に関わる記号を含まないことを特徴とする請求項1〜8のいずれか一項に記載の音声合成辞書生成装置。
  10. 任意の対象話者の音声データを基に前記対象話者のモデルを含む音声合成辞書を生成する音声合成辞書生成装置により実行される音声合成辞書生成方法であって、
    前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析ステップと、
    前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応ステップと、
    話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標話者レベル指定ステップと、
    指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定ステップと、を含み、
    前記決定ステップでは、指定された前記目標話者レベルが前記対象話者レベルより高い場合は、指定された前記目標話者レベルが前記対象話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、
    前記話者適応ステップでは、前記決定ステップで決定された前記パラメータの値に従って前記話者適応を行うことを特徴とする音声合成辞書生成方法。
  11. 任意の対象話者の音声データを基に前記対象話者のモデルを含む音声合成辞書を生成する機能をコンピュータに実現させるためのプログラムであって、
    コンピュータに、
    前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析ステップと、
    前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応ステップと、
    話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標レベル指定ステップと、
    指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定ステップと、を実行させ、
    前記決定ステップでは、指定された前記目標話者レベルが前記話者レベルより高い場合は、指定された前記目標話者レベルが前記話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、
    前記話者適応ステップでは、前記決定ステップで決定された前記パラメータの値に従って前記話者適応を行うことを特徴とするプログラム。
JP2014023617A 2014-02-10 2014-02-10 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム Expired - Fee Related JP6266372B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014023617A JP6266372B2 (ja) 2014-02-10 2014-02-10 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US14/606,089 US9484012B2 (en) 2014-02-10 2015-01-27 Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product
CN201510058451.5A CN104835493A (zh) 2014-02-10 2015-02-04 语音合成字典生成装置和语音合成字典生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014023617A JP6266372B2 (ja) 2014-02-10 2014-02-10 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017241425A Division JP6523423B2 (ja) 2017-12-18 2017-12-18 音声合成装置、音声合成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015152630A true JP2015152630A (ja) 2015-08-24
JP6266372B2 JP6266372B2 (ja) 2018-01-24

Family

ID=53775452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014023617A Expired - Fee Related JP6266372B2 (ja) 2014-02-10 2014-02-10 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム

Country Status (3)

Country Link
US (1) US9484012B2 (ja)
JP (1) JP6266372B2 (ja)
CN (1) CN104835493A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017138596A (ja) * 2016-02-02 2017-08-10 株式会社東芝 話者適応システムにおける雑音補償
US20200327880A1 (en) * 2014-05-02 2020-10-15 At&T Intellectual Property I, L.P. System and Method for Creating Voice Profiles for Specific Demographics

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113140215A (zh) 2015-01-16 2021-07-20 三星电子株式会社 用于执行话音识别的方法和设备
CN105225658B (zh) * 2015-10-21 2018-10-19 百度在线网络技术(北京)有限公司 韵律停顿信息的确定方法和装置
US10586527B2 (en) * 2016-10-25 2020-03-10 Third Pillar, Llc Text-to-speech process capable of interspersing recorded words and phrases
WO2019032996A1 (en) * 2017-08-10 2019-02-14 Facet Labs, Llc ORAL COMMUNICATION DEVICE AND COMPUTER ARCHITECTURE FOR PROCESSING DATA AND DELIVERING USER FEEDBACK OUTPUT, AND ASSOCIATED METHODS
JP7013172B2 (ja) * 2017-08-29 2022-01-31 株式会社東芝 音声合成辞書配信装置、音声合成配信システムおよびプログラム
CN107967912B (zh) * 2017-11-28 2022-02-25 广州势必可赢网络科技有限公司 一种人声分割方法及装置
US11238843B2 (en) * 2018-02-09 2022-02-01 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples
CN110010136B (zh) * 2019-04-04 2021-07-20 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备
EP3737115A1 (en) * 2019-05-06 2020-11-11 GN Hearing A/S A hearing apparatus with bone conduction sensor
CN113327574B (zh) * 2021-05-31 2024-03-01 广州虎牙科技有限公司 一种语音合成方法、装置、计算机设备和存储介质
US20230112096A1 (en) * 2021-10-13 2023-04-13 SparkCognition, Inc. Diverse clustering of a data set
WO2023215132A1 (en) * 2022-05-04 2023-11-09 Cerence Operating Company Interactive modification of speaking style of synthesized speech

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244689A (ja) * 2001-02-22 2002-08-30 Rikogaku Shinkokai 平均声の合成方法及び平均声からの任意話者音声の合成方法
WO2005071664A1 (ja) * 2004-01-27 2005-08-04 Matsushita Electric Industrial Co., Ltd. 音声合成装置
WO2005109399A1 (ja) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. 音声合成装置および方法
JP2006201491A (ja) * 2005-01-20 2006-08-03 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
JP2010014913A (ja) * 2008-07-02 2010-01-21 Panasonic Corp 声質変換音声生成装置および声質変換音声生成システム
JP2011028130A (ja) * 2009-07-28 2011-02-10 Panasonic Electric Works Co Ltd 音声合成装置
JP2013190792A (ja) * 2012-03-14 2013-09-26 Toshiba Corp テキスト音声合成方法及びシステム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2975586B2 (ja) 1998-03-04 1999-11-10 株式会社エイ・ティ・アール音声翻訳通信研究所 音声合成システム
US6343270B1 (en) * 1998-12-09 2002-01-29 International Business Machines Corporation Method for increasing dialect precision and usability in speech recognition and text-to-speech systems
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
DE19963812A1 (de) * 1999-12-30 2001-07-05 Nokia Mobile Phones Ltd Verfahren zum Erkennen einer Sprache und zum Steuern einer Sprachsyntheseeinheit sowie Kommunikationsvorrichtung
GB0004097D0 (en) * 2000-02-22 2000-04-12 Ibm Management of speech technology modules in an interactive voice response system
JP2001282096A (ja) 2000-03-31 2001-10-12 Sanyo Electric Co Ltd 外国語発音評価装置
US7496511B2 (en) * 2003-01-14 2009-02-24 Oracle International Corporation Method and apparatus for using locale-specific grammars for speech recognition
US7412387B2 (en) * 2005-01-18 2008-08-12 International Business Machines Corporation Automatic improvement of spoken language
US7472061B1 (en) 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
JP2013072903A (ja) 2011-09-26 2013-04-22 Toshiba Corp 合成辞書作成装置および合成辞書作成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244689A (ja) * 2001-02-22 2002-08-30 Rikogaku Shinkokai 平均声の合成方法及び平均声からの任意話者音声の合成方法
WO2005071664A1 (ja) * 2004-01-27 2005-08-04 Matsushita Electric Industrial Co., Ltd. 音声合成装置
WO2005109399A1 (ja) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. 音声合成装置および方法
JP2006201491A (ja) * 2005-01-20 2006-08-03 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
JP2010014913A (ja) * 2008-07-02 2010-01-21 Panasonic Corp 声質変換音声生成装置および声質変換音声生成システム
JP2011028130A (ja) * 2009-07-28 2011-02-10 Panasonic Electric Works Co Ltd 音声合成装置
JP2013190792A (ja) * 2012-03-14 2013-09-26 Toshiba Corp テキスト音声合成方法及びシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山岸 順一、外3名: "HMM音声合成におけるコンテキストクラスタリング決定木を用いた話者適応の検討", 電子情報通信学会技術研究報告, vol. Vol.103,No.264, JPN6017044447, 15 August 2003 (2003-08-15), JP, pages pp.31−36 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200327880A1 (en) * 2014-05-02 2020-10-15 At&T Intellectual Property I, L.P. System and Method for Creating Voice Profiles for Specific Demographics
JP2017138596A (ja) * 2016-02-02 2017-08-10 株式会社東芝 話者適応システムにおける雑音補償

Also Published As

Publication number Publication date
US20150228271A1 (en) 2015-08-13
JP6266372B2 (ja) 2018-01-24
CN104835493A (zh) 2015-08-12
US9484012B2 (en) 2016-11-01

Similar Documents

Publication Publication Date Title
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
US7603278B2 (en) Segment set creating method and apparatus
US10347237B2 (en) Speech synthesis dictionary creation device, speech synthesizer, speech synthesis dictionary creation method, and computer program product
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
Liu et al. High quality voice conversion through phoneme-based linear mapping functions with straight for mandarin
WO2015092936A1 (ja) 音声合成装置、音声合成方法およびプログラム
US9147392B2 (en) Speech synthesis device and speech synthesis method
Bellegarda et al. Statistical prosodic modeling: from corpus design to parameter estimation
JP2012141354A (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2015041081A (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
Cahyaningtyas et al. Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JP2021148942A (ja) 声質変換システムおよび声質変換方法
Huckvale 14 An Introduction to Phonetic Technology
Hirose Modeling of fundamental frequency contours for HMM-based speech synthesis: Representation of fundamental frequency contours for statistical speech synthesis
JPH10247097A (ja) 自然発話音声波形信号接続型音声合成装置
Shah et al. Influence of various asymmetrical contextual factors for TTS in a low resource language

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171121

R151 Written notification of patent or utility model registration

Ref document number: 6266372

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees