JP2002328695A

JP2002328695A - テキストからパーソナライズ化音声を生成する方法

Info

Publication number: JP2002328695A
Application number: JP2002085138A
Authority: JP
Inventors: Donald T Tang; ドナルド・ティ・タン; Ligin Shen; リジン・シェン; Qin Shi; キン・シ; Wei Zhang; ウェイ・ザン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-04-06
Filing date: 2002-03-26
Publication date: 2002-11-15
Also published as: US20020173962A1; CN1379391A; CN1156819C

Abstract

(57)【要約】【課題】テキストから、パーソナライズされた音声を
生成する方法を提供すること。【解決手段】テキストからパーソナライズされた音声
を生成する方法が、入力テキストを分析し、標準テキス
ト−音声データベースから、合成される音声の標準パラ
メータを獲得するステップと、トレーニング・プロセス
において獲得されたパーソナライズ化モデルにより、標
準音声パラメータをパーソナライズされた音声パラメー
タにマップするステップと、パーソナライズ化音声パラ
メータにもとづき、入力テキストに対応する音声を合成
するステップとを含む。本方法は、対象となる人間の音
声をシミュレートし、ＴＴＳシステムにより生成される
音声を、より魅力的に且つパーソナライズ化するために
使用される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一般にテキスト−音
声変換に関し、特に、テキストからパーソナライズされ
た（personalized）すなわち個別に設定された音声を生
成する方法に関する。

【０００２】

【従来の技術】汎用ＴＴＳ（テキスト−音声変換）シス
テムにより生成される音声は、一般に、感情を欠き単調
である。汎用ＴＴＳシステムでは、全ての音節または単
語の標準発音が最初に記録され、分析され、次に音節レ
ベルまたは単語レベルで、標準発音を表現する関連パラ
メータが辞書に記憶される。辞書内で定義される標準制
御パラメータ及びスムージング技術を通じて、成分音を
連結することにより、テキストに対応する音声が合成さ
れる。こうして合成された音声は非常に単調でパーソナ
ライズされない。

【０００３】

【発明が解決しようとする課題】従って、本発明はテキ
ストからパーソナライズされた音声を生成する方法を提
供する。

【０００４】

【課題を解決するための手段】本発明に従い、テキスト
からパーソナライズされた音声を生成する方法は、入力
テキストを分析し、標準テキスト−音声データベースか
ら、標準音声パラメータを獲得するステップと、トレー
ニング・プロセスにおいて獲得されたパーソナライズ化
モデルにより、標準音声パラメータをパーソナライズさ
れた音声パラメータにマップするステップと、パーソナ
ライズ化音声パラメータにもとづき、入力テキストに対
応する音声を合成するステップとを含む。

【０００５】

【発明の実施の形態】図１に示されるように、汎用ＴＴ
Ｓシステムにおいて、テキストから音声を生成するため
に、一般には次のステップ、すなわち、最初に入力テキ
ストを分析し、標準テキスト−音声データベースから標
準発音の関連パラメータを獲得するステップと、第２に
合成及びスムージング技術により、成分音を連結し、音
声を合成するステップとが実行される。こうして合成さ
れた音声は非常に単調で、パーソナライズされない。

【０００６】従って、本発明はテキストからパーソナラ
イズされた音声を生成する方法を提供する。

【０００７】図２に示されるように、本発明に従い、テ
キストからパーソナライズされた音声を生成する方法
は、最初に入力テキストを分析し、標準音声パラメータ
を獲得するステップと、第２にトレーニング・プロセス
において獲得されたパーソナライズ化モデルにより、標
準音声パラメータをパーソナライズされた音声パラメー
タに変換するステップと、最後にパーソナライズ化音声
パラメータにもとづき、音声を合成するステップとを含
む。

【０００８】次に図３を参照して、パーソナライズ化モ
デルを生成するプロセスについて述べる。まず最初に、
パーソナライズ化モデルを獲得するために、標準ＴＴＳ
分析プロセスにより、標準音声パラメータＶgeneralが
獲得される。同時に、パーソナライズ化音声が検出さ
れ、その音声パラメータＶpersonalizedが獲得され、標
準音声パラメータとパーソナライズ化音声パラメータと
の間の関係を表すパーソナライズ化モデルが最初に生成
される。すなわち、

【数１】Ｖpersonalized＝Ｆ［Ｖgeneral］

【０００９】安定したＦ［*］を獲得するために、安定
化されたパーソナライズ化モデルが獲得されるまで、パ
ーソナライズ化音声パラメータＶpersonalizedを検出す
るプロセスが複数回繰り返され、パラメータ・パーソナ
ライズ化モデルＦ［*］が検出結果に従い調整される。
検出において、２つの隣接結果が｜Ｆi［*］−Ｆi+1
［*］｜＜δを満足する場合、Ｆ［*］は安定とみなされ
る。本発明の好適な実施例によれば、本発明は、標準音
声パラメータＶgeneralとパーソナライズ化音声パラメ
ータＶpersonalizedとの間の関係を表すパーソナライズ
化モデルＦ［*］を、以下の２つのレベルにおいて達成
する。すなわち、レベル１：ケプストラム・パラメータ関連音響レベルレベル２：超分節パラメータ関連韻律素レベル。異なる
トレーニング方法が異なるレベルに対して使用される。

【００１０】レベル１：ケプストラム・パラメータ関連
音響レベル：音声認識技術により、音声ケプストラム・
パラメータ・シーケンスが獲得される。同一テキストに
対する２人の人間の音声が与えられると、各人のケプス
トラム・パラメータ・シーケンスだけでなく、フレーム
・レベルでの２つのケプストラム・パラメータ・シーケ
ンスの間の関係が獲得される。従って、それらの間の差
がフレーム毎に比較され、それらの差がモデル化され、
音声レベルでのケプストラム・パラメータ関連変換関数
Ｆ［*］が獲得される。

【００１１】このモデルでは、ケプストラム・パラメー
タの２つのセットが定義される。一方は標準ＴＴＳシス
テムから定義され、他はシミュレート対象の人間の音声
から定義される。図４に示される高機能ＶＱ（ベクトル
定量化）法を用いて、ケプストラム・パラメータの２つ
のセット間のマッピングが生成される。最初に、標準Ｔ
ＴＳでの音声ケプストラム・パラメータが初期にガウス
・クラスタ化され、ベクトルが定量化されて、Ｇ1、Ｇ2
が達成される。第２に、シミュレートされる音声の初期
ガウス・クラスタ化結果が、フレーム毎のケプストラム
・パラメータ・シーケンスの２つのセット間の厳密なマ
ッピングと、標準ＴＴＳにおける音声ケプストラム・パ
ラメータの初期ガウス・クラスタ化結果とから獲得され
る。各Ｇ'iのより正確なモデルを獲得するために、ガウ
ス・クラスタ化が実行され、Ｇ'1.1，Ｇ'1.2，Ｇ'2.1，
Ｇ'2.2，．．が獲得される。その後、ガウス（gaussia
n）間の１対１のマッピングが獲得され、Ｆ［*］が次の
ように定義される。すなわち、

【数２】

【００１２】前記式において、ＭGi,j、ＤGi,jは、Ｇi,
jの平均値及び偏差をそれぞれ表し、ＭG'i,j、ＤG'i,j
は、Ｇ'i,jの平均値及び偏差をそれぞれ表す。

【００１３】レベル２：超分節パラメータ関連韻律素レ
ベル：周知のように、韻律素パラメータがコンテキスト
に関連付けられる。コンテキスト情報は、子音、アクセ
ント、意義素、構文及び意味構造などを含む。コンテキ
スト情報間の関係を決定するために、ここでは決定樹を
用いて、韻律素レベルの変換機構Ｆ［*］をモデル化す
る。

【００１４】韻律素パラメータは、基本周波数値、期間
値及び音量値を含む。各音節に対して、韻律素ベクトル
が次のように定義される。すなわち、基本周波数値：音節全体に分布される１０ポイントでの
全ての基本周波数値持続時間：バースト部分、安定部分及び遷移部分でのそ
れぞれの持続期間を含む３つの値音量値：正面及び背面の音量値を含む２つの値

【００１５】１５次元を有するベクトルが、音節の韻律
素を表現するために使用される。

【００１６】韻律素ベクトルがガウス分布であると仮定
すると、標準ＴＴＳシステムの音声韻律素ベクトルをク
ラスタ化するために、汎用決定樹アルゴリズムを使用で
きる。従って、図５に示される決定樹（Ｄ．Ｔ．）及び
ガウス値Ｇ1、Ｇ2、Ｇ3が獲得される。

【００１７】テキストが入力され、音声がシミュレート
されるとき、テキストが最初に分析されて、コンテキス
ト情報が獲得され、次にコンテキスト情報が決定樹Ｄ．
Ｔ．に入力され、ガウス値Ｇ'1，Ｇ'2，Ｇ'3，．．の別
のセットが獲得される。

【００１８】ガウスＧ1，Ｇ2，Ｇ3，．．及びＧ'1，Ｇ'
2，Ｇ'3，．．は、１対１マッピングと仮定され、次の
マッピング関数が与えられる。

【数３】

【００１９】前記式において、ＭGi,j、ＤGi,jは、Ｇi,
jの平均値及び偏差をそれぞれ表し、ＭG'i,j、ＤG'i,j
は、Ｇ'i,jの平均値及び偏差をそれぞれ表す。

【００２０】前述の説明において、テキストからパーソ
ナライズ化音声を生成する方法が、図１乃至図５と共に
述べられている。ここでの主な問題は、固有ベクトルか
らリアルタイムに、子音の類推信号を合成することであ
る。これはディジタル文字を抽出するプロセスの逆であ
る（逆フーリエ変換に類似する）。こうしたプロセスは
非常に複雑であるが、例えばＩＢＭにより発明されたケ
プストラム・パラメータから音声を復元する技術など
の、現在使用可能な特殊アルゴリズムにより実現され
る。

【００２１】一般に、パーソナライズ化音声はリアルタ
イム変換アルゴリズムにより生成されるが、完全なパー
ソナライズ化ＴＴＳデータベースが、特定の目的のため
に準備されてもよい。類推音声成分音の変換及び生成
は、ＴＴＳシステムにおいてパーソナライズ化音声を生
成する最終ステップにおいて完了されるので、本発明の
方法は汎用ＴＴＳシステムには影響を及ぼさない。

【００２２】以上、特定の実施例により、本発明におい
て、テキストからパーソナライズ化音声を生成する方法
について述べてきた。当業者であれば、本発明の多くの
変更及び変形が、本発明の趣旨及び範囲から逸れること
なく可能であることが理解できよう。従って、本発明は
これら全ての変更及び変形についても包含するものであ
る。

【００２３】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００２４】（１）テキストからパーソナライズされた
音声を生成する方法であって、前記入力テキストを分析
し、標準テキスト−音声データベースから、合成される
前記音声の標準パラメータを獲得するステップと、トレ
ーニング・プロセスにおいて獲得されたパーソナライズ
化モデルにより、前記標準音声パラメータをパーソナラ
イズされた音声パラメータにマップするステップと、前
記パーソナライズ化音声パラメータにもとづき、前記入
力テキストに対応する前記音声を合成するステップとを
含む方法。（２）前記パーソナライズ化モデルを獲得するトレーニ
ング・プロセスが、前記標準テキスト−音声分析プロセ
スを通じて、前記標準音声パラメータを獲得するステッ
プと、前記パーソナライズ化音声の前記パーソナライズ
化音声パラメータを検出するステップと、前記標準音声
パラメータと前記パーソナライズ化音声パラメータとの
間の関係を表す前記パーソナライズ化モデルを初期に生
成するステップと、前記パーソナライズ化音声パラメー
タを検出し、検出結果にもとづき、前記パーソナライズ
化モデルを調整するプロセスを、前記パーソナライズ化
モデルが安定するまで繰り返すステップとを含む、前記
（１）記載の方法。（３）前記パーソナライズ化モデルが、ケプストラム・
パラメータに関連する音響レベルの前記パーソナライズ
化モデルを含む、前記（１）または（２）に記載の方
法。（４）高機能ベクトル定量化法により、前記ケプストラ
ム・パラメータに関連する音響レベルの前記パーソナラ
イズ化モデルを生成する、前記（３）記載の方法。（５）前記パーソナライズ化モデルが、超分節パラメー
タに関連する韻律素レベルの前記パーソナライズ化モデ
ルを含む、前記（１）または（２）に記載の方法。（６）決定樹により、前記超分節パラメータに関連する
韻律素レベルの前記パーソナライズ化モデルを生成す
る、前記（５）記載の方法。

【図面の簡単な説明】

【図１】従来のＴＴＳシステムにおいて、テキストから
音声を生成するプロセスを示す。

【図２】本発明に従い、テキストからパーソナライズさ
れた音声を生成するプロセスを示す。

【図３】本発明の好適な実施例に従い、テキストからパ
ーソナライズ化モデルを生成するプロセスを示す。

【図４】パーソナライズ化モデルを獲得するための、ケ
プストラム・パラメータの２つのセット間のマッピング
・プロセスを示す。

【図５】韻律素モデルで使用される決定樹を示す。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ドナルド・ティ・タンアメリカ合衆国10549、ニューヨーク州マウント・キスコ、フォックス・デン・ロード 49 (72)発明者リジン・シェン中華人民共和国100096、ペキン、キサンキ、キンカンユアン・キアオーク５−10 −09 (72)発明者キン・シ中華人民共和国100085、ペキン、ハイダン区、ジュアン・シャンディ２−401、ナンバー 13 (72)発明者ウェイ・ザン中華人民共和国100086、ペキン、ハイダン区、ファンフイ・ユアン・イヘ・シャングザングビルディング 25、ルーム 442 Ｆターム(参考） 5D045 AA07

Claims

【特許請求の範囲】

【請求項１】テキストからパーソナライズされた音声を
生成する方法であって、前記入力テキストを分析し、標準テキスト−音声データ
ベースから、合成される前記音声の標準パラメータを獲
得するステップと、トレーニング・プロセスにおいて獲得されたパーソナラ
イズ化モデルにより、前記標準音声パラメータをパーソ
ナライズされた音声パラメータにマップするステップ
と、前記パーソナライズ化音声パラメータにもとづき、前記
入力テキストに対応する前記音声を合成するステップと
を含む方法。
【請求項２】前記パーソナライズ化モデルを獲得するト
レーニング・プロセスが、前記標準テキスト−音声分析プロセスを通じて、前記標
準音声パラメータを獲得するステップと、前記パーソナライズ化音声の前記パーソナライズ化音声
パラメータを検出するステップと、前記標準音声パラメータと前記パーソナライズ化音声パ
ラメータとの間の関係を表す前記パーソナライズ化モデ
ルを初期に生成するステップと、前記パーソナライズ化音声パラメータを検出し、検出結
果にもとづき、前記パーソナライズ化モデルを調整する
プロセスを、前記パーソナライズ化モデルが安定するま
で繰り返すステップとを含む、請求項１記載の方法。
【請求項３】前記パーソナライズ化モデルが、ケプスト
ラム・パラメータに関連する音響レベルの前記パーソナ
ライズ化モデルを含む、請求項１または請求項２に記載
の方法。
【請求項４】高機能ベクトル定量化法により、前記ケプ
ストラム・パラメータに関連する音響レベルの前記パー
ソナライズ化モデルを生成する、請求項３記載の方法。
【請求項５】前記パーソナライズ化モデルが、超分節パ
ラメータに関連する韻律素レベルの前記パーソナライズ
化モデルを含む、請求項１または請求項２に記載の方
法。
【請求項６】決定樹により、前記超分節パラメータに関
連する韻律素レベルの前記パーソナライズ化モデルを生
成する、請求項５記載の方法。