JP2003114693A

JP2003114693A - 音声制御情報ストリームに基づいて音声信号を合成する方法

Info

Publication number: JP2003114693A
Application number: JP2002234977A
Authority: JP
Inventors: Gregory P Kochanski; ピーコハニスキグレゴリー; Chi-Lin Shih; シーチン・リン
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 2001-08-22
Filing date: 2002-08-12
Publication date: 2003-04-18
Also published as: EP1291847A2; US6810378B2; EP1291847A3; US20030078780A1

Abstract

(57)【要約】【課題】特定の話し方を伝えるようにテキストから音
声を合成する方法と装置を提供する。【解決手段】韻律特徴の繰り返しパターン、例えばピ
ッチ、振幅、スペクトラムの傾斜、持続時間とが合成さ
れた音声の特定の場所で発生するが、これらを用いて特
定の選択された話し方を伝える。本発明のテキストから
音声への合成システムはこれらの規定されたスタイルを
用いて独自の方法で（規定された特徴パターンに従っ
て）合成された音声の指定されたパラメータを調整す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキストから音声
への変換（音声合成）の技術分野に関し、特に個人的な
話し方を捉え、そのような個人的話し方を伝えるため、
テキストから音声への変換システムを動作させる方法と
装置に関する。

【０００２】

【従来の技術】テキストから音声への最新の音声変換
（音声合成）システムは、人間の発声する音声に極めて
近く、かつ高品質のものを提供することが出来ている
が、このようなシステムは特定の話者のデータに基づい
て、音声の韻律的（強制と抑揚の形式）属性を通常訓練
している。しかし、ある種のテキストから音声への変換
アプリケーションにおいては、特定の話し方、例えば識
別可能な人の話し方あるいはある階級に属する人の話し
方（南部訛り／アクセント）を捕まえることが極めて好
ましい場合がある。

【０００３】

【発明が解決しようとする課題】この話し方の価値は、
主観的なものであり個人的、社会的、文化的な好みに関
係してくるが、この話し方の存在そのものは客観的なも
のであり、一貫した特徴があることを示している。これ
らの特徴は、特に区別／認識可能な話し方は、研究対象
となりモデル化されている。例えば、物まね芸人は、対
象となる人の話し方の最も顕著な特徴を大げさに振る舞
うことにより、きわだったパフォーマンスを行ってい
る。同様に、少なくとも理論的にはいくつかの区別可能
な韻律的特徴が適正にモデル化された場合には、テキス
トから音声への変換システムは、話し方の印象を伝える
のに成功している。しかし、今日までこのようなテキス
トから音声への変換システムは、フレキシブルな方法で
このような結果を達成できてはいない。

【０００４】

【課題を解決するための手段】本発明によれば、テキス
トから音声を合成する新規の方法と装置が得られる。本
発明の方法と装置においては、音声は特定の選択された
話し方を効果的に伝えるように生成される。特に、１つ
あるいは複数の韻律的特徴（例えば、ピッチ（音声波形
の基本周波数をｆ_０とすると、ピッチは単にこの基本周
波数ｆ_０の知覚的な影響に過ぎないが）と振幅とスペク
トラムの傾斜およびその持続時間の繰り返しパターン
が、合成された音声中の特徴ある場所で生成され、特定
の話し方を伝達するのに役立っている。本発明の一実施
例によれば、このような特徴パターンを用いて特定の話
し方を定めており、本発明によるテキストから音声への
変換システムは、このような定められた話し方を用いて
固有の方法で（即ち、定められた特徴パターンに従っ
て）合成音声の特定のパラメータを調整している。

【０００５】さらに具体的に説明すると、本発明は所定
の音制御情報ストリーム（例えば、テキスト、注釈付き
テキストあるいは楽譜）に基づいて、声音信号を合成す
る方法と装置が提供できる。そして本発明においては、
声音信号を選択的に合成して特定の所望の韻律を含んだ
話し方を表すことができる。特に本発明の方法と装置
は、請求項１に記載した通りである、即ち、声音制御情
報ストリームに基づいて声音信号を合成する方法におい
て、前記声音信号は、選択的に合成されて特定の韻律ス
タイルを有し、韻律制御を行うために声音の一部を特定
するために、前記所定の声音制御情報ストリームを解析
（文章の品詞文法的関係を解析）するステップと、前記
声音信号合成を行うために選択された特定の韻律スタイ
ルに基づいて、１つあるいは複数の韻律制御テンプレー
トを選択するステップと、前記選択された韻律制御テン
プレートを前記所定の声音制御情報ストリームの特性さ
れた部分に適用してスタイルを有した声音制御情報スト
リームを生成するステップと、合成声音信号が特定の韻
律スタイルを有するように、前記スタイルが付けられた
声音制御情報ストリームに基づいて前記声音信号を合成
するステップとを有することを特徴とする声音制御情報
ストリームに基づいて声音信号を合成する方法である。

【０００６】

【発明の実施の形態】概論本発明の一実施例によれば、個人的な話し方は、ある特
定の場所において、１つあるいは複数の特徴（ピッチ、
振幅、スペクトラムの傾斜、持続時間）のパターンを繰
り返すことによりうまく伝えられる。これらの特定の場
所は、音声素材の組織を表している。例えば、話者は新
たに議論に導入された用語／言葉に対し、同一の特徴パ
ターンを、各フレーズの終了時点、開始点、あるいは強
調した言葉の場所に用いる傾向がある。

【０００７】特定の話し方を認識するには。いくつかの
経験に基づいた処理が行われる。（１）どのノルム（ｎｏｒｍ：話し方の様式）が過去
の経験および予測に基づいているかを確立する。（２）サンプルとノルムとを比較して、ノルムから最
も特徴的な属性を特定する。（３）これらの属性が発生する場所に関して仮説を立
てる。例えば、「人が文章の終わりに自分の言葉を飲み
込む」という記述が与えられたときには、記載（解析）
者は、「自分の言葉を飲み込む」という属性と、この属
性が「文章の終了時」に発生するという場所を認識す
る。かくして、他の人の話し方をまねする物まね芸人
は、更なる生成プロセスをマスタする必要がある。即
ち、（４）特定された属性の生成モデルを構築しそれを適
宜の場所に適用する。そのため、本発明の一実施例によれば、各ステップで正
確な指示でもって上記の各ステップを模擬するプロセス
を含めることにより、特定の話し方を模擬するコンピュ
ータモデルが構築される。

【０００８】（１）データベースからノルムを確立す
るステップ。このステップは、話し方を区別するのに用
いられる属性（例えば、音声波形の基本周波数ｆ_０と振
幅とスペクトラム傾斜と持続時間）の解析を含む。これ
らの特徴は、言語学的な単位（例、音素、音節、ワー
ド、フレーズ、パラグラフ等）と場所（言語学的単位の
開始点あるいは終了点）と韻律（例えば、強制と強いま
たは弱い抑揚）に関連している。

【０００９】（２）音声サンプルからのスタイルを学
習するステップ。このステップは、まずサンプルからの
属性と表示されたデータベースの属性との比較を行い、
次にどの属性が与えられたスタイルに対して最も顕著で
あるかを決めるために距離の測定を確立する。

【００１０】（３）顕著な属性とその発生場所との関
連性を学習するステップ。上記の例においては、言葉が
各センテンスの終了時に飲み込まれると言う結論が一般
化に対し最も可能性が高いものである。文章の長さと話
の中身／内容は、これらの現象の発生を決定するために
重要な役割を果たすファクタである。

【００１１】（４）属性の量的モデルを想起するよう
にデータを解析するステップ。その結果その影響／効果
が自動的に生成される。例としては、アクセントの形状
あるいは振幅のプロファイルの詳細なモデルがそれに含
まれる。

【００１２】以下の説明においては、話し方の概念を説
明するために、歌うことと話すことの両方の例を用い、
本発明の一実施例においてこれらの特徴のモデル化の例
を記載する。

【００１３】話し方の例図１は、Harry Dacreにより作詞作曲され、Dinah Shore
（リズミカルシンガーと言われている）（これに関して
は、"Bicycle Built for Two", Dinah Shore,in The Di
nah Shore Collection, Columbia and RCA recordings,
1942-1948）により歌われた"Bicycle built for two"
の歌からの最初の４個の音節"Dai-sy Dai-sy"の振幅の
プロファイルを表す。蝶ネクタイ形状の振幅のプロフ
ァイルが、各４個の音節即ちノートに亘って延びてい
る。第２の音節は、１．２０秒にその中心を有し最もは
っきりした例を与えている。第２のウエッジ（楔）の増
加する振幅が、３／４の基準（measure）の第３の弱い
ビート上に強いビートを作り出している。このスタイル
の振幅のプロファイルは、Dinah Shoreの歌に非常によ
く見られる現象／特徴である。聴取者の期待との不調和
および一貫した歌い方（cosistent dilivery）が非常に
明白なスタイルを記録している。

【００１４】これに対し、図２は、アマチュア歌手から
の同一の４個の音節"Dai-sy Dai-sy"の振幅のプロファ
イルを示す。この図で比較的特徴的な振幅のプロファイ
ルを見ることができる。例えば、振幅は、音節の終了時
およびフレーズの終了時に急速になくなる傾向があり、
これは、音節（syllable ）の音素（phone）の組成／構
成を表している。

【００１５】図３は、Dr. Martin Luther King Jr.の演
説"I have a dream"からの４個のフレーズに対する音声
波形の基本周波数ｆ_０のトレースを表す。一貫して急激
なピッチの立ち上げが、フレーズの開始点で見られ、同
じく急激なピッチの落ち込みがその終了時に見られる。
フレーズの中央部分では高いピッチレベルが維持されて
いる。図３に示したのと類似するピッチプロファイル
は、Martin Luther Kingの演説で見られた多くのフレー
ズで記録されるが、これは、フレーズのテキストの内容
（textual content）、統語的構造（syntactic structu
re）およびフレーズの長さが変わっても当てはまる。

【００１６】図４は、図３の場合と対照的にニュースを
放送する話し方でプロのアナウンサーが話したセンテン
スの音声波形の基本周波数ｆ_０のトレースを示す。図４
において、支配的なｆ_０の変化が言葉のアクセントと強
調を表している。フレーズの開始点は、ピッチの落下で
示され、これはLuther Kingの演説でピッチが上がるの
とは逆である。言葉のアクセントと強調の変形例は、D
r. Kingの演説にも見られるが、変化の大きさは、フレ
ーズをマークするｆ_０の変化に比較すると小さい。フレ
ーズに対するに対するｆ_０のプロファイルは、Dr. King
の特徴的な弁論スタイルを記述する最も重要な属性の１
つである。

【００１７】本発明によるテキストから音声への変換シ
ステムの例図５は、本発明の一実施例により、複数の話し方を与え
るテキストから音声への変換システムを示す。このシス
テムの実行にあたっては、従来のテキストから音声への
変換システムに加えて４つのキーモジュールからなって
いる。第１のキーモジュールは分析機５１であり、この
分析機５１は、入力ストリームから関連特徴を抽出す
る。入力ストリームは、声音制御情報ストリーム（voic
e controlinformation stream）とも称する。本発明の
他の実施例においては、そのストリームは、韻律のある
一般的な態様を規定するマークアップ情報と共に話した
言葉から構成される。別法として本発明の他の実施例に
おいては、そのストリームは楽譜から構成される。

【００１８】分析機５１から抽出されるべきある特徴の
一例は、ＨＴＭＬマークアップ情報（太字の領域、引用
領域、イタリックで記載された領域、パラグラフ等）、
これは、当業者に公知のものである。テキストを、名詞
フレーズ、動詞フレーズ、主文節、複文節に統語論的に
解剖することにより、別の例が得られる。他のマークア
ップ情報は、ＳＡＢＬＥのスタイル内にあり、これは当
業者に公知であるが、"SABLE: A Standard for TTS Mar
kup," by R. Sproat er al., Proc. Int'l. Conf. On S
poken Language Processing 98, pp. 1719-1724, Sydne
y, Australia,1998.に開示されている。例として文章
は、質問としてマークすることもでき、あるいは言葉
は、重要なもの即ちマークされたものとして、あるいは
不確定なものとしてマークされたものは確認が必要であ
る。

【００１９】いずれの場合にもその結果得られた特徴
は、タグ選択モジュール５２に移され、このタグ選択モ
ジュール５２が。音声ストリーム内のどのポイントにタ
グテンプレートを割り当てるべきかを決定する。タグ選
択モジュール５２は、例えば、タグテンプレートデータ
ベース５３と情報交換をする。タグテンプレートデータ
ベース５３は、様々なスタイルに対するタグテンプレー
トを含み、特定の所望の音声に対し適宜のテンプレート
を選択する。タグ選択モジュール５２は、タグテンプレ
ートデータベース５３から得られたパラメータあるいは
サブルーチンに依存する。

【００２０】次に、タグテンプレートは、タグ拡張モジ
ュール５４内でタグに拡張される。タグ拡張モジュール
５４は、出力音声ストリームの適宜なユニットの持続時
間に関する情報を用い、その結果、ある音節とワードと
フレーズが、テキストから音声への変換モジュールによ
り合成された後、どのくらい続くか（秒単位で）を知
り、そしてある音節とワードとフレーズが発生する時点
を知る。本発明の一実施例においては、タグ拡張モジュ
ール５４は、適宜の時間情報をタグに挿入し、その結果
韻律が、音素シーケンス（phonemes sequence）で合成
される。本発明の他の実施例は、タグと音素（phoneme
s）との間の適切な整合を能動的に計算する。このこと
は、例えば、"A Quantitative Model of F0 Generation
and Alignment," by J. van Santen et al., in Inton
ation: Analysis, Modelling and Technology, A. Boti
nis ed., Kluwar Academic Publishers, 2000.に開示さ
れている。

【００２１】韻律評価モジュール５５は、タグを韻律的
特徴の時間列（あるいはそれに等価な系列）に変換し、
この韻律的特徴を用いて合成器を直接制御する。韻律評
価モジュール５５の出力結果は、話し方の特徴を持った
声音制御情報ストリームと称するが、それは特定の話し
方に対し調整された音声制御情報を与えるからである。
そして最後に、テキストから音声への合成モジュール５
６は、マークアップテキストと韻律的特徴あるいはそれ
に等価なものの時間列に基づいて（即ち、話し方の特徴
が付けられた音声制御情報ストリームに基づいて）、音
声あるいは歌の波形を生成する。上記したように、韻律
的特徴の時間列を組み込むことおよびテキストから音声
への合成モジュール５６の構成以外は従来公知のもので
ある。

【００２２】本発明の一実施例によれば、本発明の音声
合成システムは、音素の持続時間を制御し、それ故に持
続時間計算モジュール５７を含む。この持続時間計算モ
ジュール５７が、分析機５１と／またはタグ選択モジュ
ール５２から入力を取り出し、合成器（テキストから音
声への合成モジュール５６）とタグ拡張モジュール５４
に与えられる音素持続時間を計算する。

【００２３】上記したように、図５のテキストから音声
への変換システムの韻律評価モジュール５５の出力は、
特徴の時間列を含み（あるいは別法として、この特徴の
適宜の変換）を含み、その後それを用いて音声合成シス
テムの最終合成ステップ（即ち、テキストから音声への
合成モジュール５６）を制御する。例として、出力が１
０ミリ秒間隔で一連の３個の要素からなる集合（tupl
e）の場合には、各チュープルの第１要素が合成された
波形のピッチを指定し、第２要素が出力波形の振幅を指
定し（基準振幅に対し）、第３要素がスペクトラム傾斜
（即ち、出力波形中の低周波と高周波の基準値に対する
相対的なパワー量）を指定する。（ここで基準振幅とス
ペクトラム傾斜は、比較的平坦な音声を生成すると仮定
すると、音声合成システムにより通常生成される場合は
デフォルト値である。）

【００２４】図５に示した本発明の一実施例において
は、テキストから音声への合成モジュール５６は、韻律
評価モジュール５５により与えられた様々な特徴を適切
なものとして、ある時間に生成された特定の音素に加え
る。例えば、無声音の音素に対する音声の生成は、ピッ
チの指定を無視し、スペクトラムの傾斜情報が有音声音
素と無声音音素に別々に与えられる。本発明のある実施
例においては、テキストから音声への合成モジュール５
６は、ピッチ以外の韻律的特徴を直接制御するために具
備しない場合がある。この実施例においては振幅の制御
は、適宜の時間変動ファクタにより、合成モジュールの
出力を乗算することにより得られる。

【００２５】本発明による他のテキストから音声への変
換システム本発明の他の実施例においては、図５の韻律評価モジュ
ール５５の省略は、テキストから音声への合成モジュー
ル５６がタグを直接評価できる機能を具備している場合
に可能である。これは、システムが大きなデータベース
のテキストから音声への合成システムに基づいている場
合に利点がある。

【００２６】テキストから音声への合成器を実現する場
合、システムは音声サンプルの大規模なデータベースを
記憶し、通常このサンプルは、各音素の数多くのコピー
から成り立ち、あるいは時にはテキスト内の音素のシー
ケンスのコピーから構成される。例えば、このようなテ
キストから音声への合成モジュール内のデータベース
は、"I gave at the office", "I bake a cake", "Baki
ng chocolate is not sweetened"のような発声音を含
み、これにより"a"の音素の様々な例を与える。このよ
うなシステムは、データベース内の発声（utterance）
の一部を、全体の合成された発生に亘って加算となるよ
うなコスト尺度を最小にするような方法で選択すること
により動作する。通常、コスト尺度は２つの要素から成
り立っている。即ち、セグメントを互いに連接すること
により導入される知覚される不連続性のコストを表す部
分と、所望の音声と利用可能なセグメントの間のミスマ
ッチを表す一部である。

【００２７】本発明のこの実施例によれば、テキストか
ら音声への合成モジュール５６のデータベース内に記憶
されている音声セグメントは、韻律ラベルでもってタグ
が付される。このような韻律ラベルは、タグ拡張モジュ
ール５４により生成されたような上記のラベルに対応し
てもいなくてもよい。特に、テキストから音声への合成
モジュール５６の動作は、タグ拡張モジュール５４によ
り生成されたような所望のラベルと、テキストから音声
への合成モジュール５６のデータベース内に含まれるセ
グメントに付加される利用可能なラベルとの間のミスマ
ッチに少なくとも一部は基づくコスト尺度の評価を含
む。

【００２８】タグテンプレート本発明の一実施例によれば、本発明のテキストから音声
への変換システムは、各話し方に対するタグテンプレー
トのデータベースを有することにより動作する。タグ
は、当業者に公知のもので、例えば同時継続出願の米国
特許出願第０９／８４５５６１（Kochanski et al.著
の"Methods and Apparatus for Text to Speech Proces
sing Using Language Independent Prosody Markup"、
出願日２００１年４月３０日）に記載されている。

【００２９】本発明のこの実施例においては、これらの
タグテンプレートは、異なる韻律的影響／効果を特徴づ
けるが、話し方の速度とピッチとは無関係のものであ
る。タグテンプレートは、単純な操作、例えば振幅値の
換算（韻律的な影響をより大きくすること）あるいは特
定の範囲にマッチするように時間軸に沿って波形を伸ば
すことにより変換される。例えば、音節の長さにまで伸
ばすタグテンプレートは、それが規定された範囲即ち場
所と大きさに、ある場合にはより長い音節に対しさらに
伸ばすことができる。

【００３０】本発明の一実施例においては、同様な簡単
な変換、例えばタグの非線形的引き延ばし、あるいは繰
り返しによりタグを長くする方法も採用することができ
る。同様に、タグは３つの部分のテンプレート（即ち、
開始部分と中央部分と終了部分）を有することにより、
およびこの開始部分と中央部分の繰り返し数Ｎと、終了
部分とを連接することによりテンプレートから形成され
る。

【００３１】本発明の一実施例は、音律的特徴の時間列
のセグメントであるタグテンプレート（可能ならば以下
に説明するある種のパラメータと共に）を有するが、本
発明の他の実施例は、タグテンプレートとして実行可能
なサブルーチンを利用する。このサブルーチンには、得
られたタグの範囲、通常範囲の長さと言語的強度のある
測定値を記述する引数が渡される。更にある実施例は、
ある歌い方のビブラート（震え）を記述するための特別
の目的用の実行可能なテンプレートも用いる。

【００３２】さらに本発明の一実施例によれば、米国特
許出願第０９／８４５５６１に記載された技術において
は、タグは出力の韻律的特徴（振幅、ピッチ、スペクト
ラム傾斜）の観点からは直接表されず、例えば、強調と
疑惑（emphasis and suspicion ）のような心理的事項
の近似として表される。この実施例においては、韻律評
価モジュールを用いて心理的特徴の近似を実際の韻律的
特徴に変換することができる。心理的特徴と韻律的特徴
との間に線形のマトリックス変換が仮定されるがこれは
米国特許出願第０９／８４５５６１に開示されている。

【００３３】このような場合の心理的特徴の数は、テキ
ストから音声への合成システムが制御できる韻律的特徴
の数とは等しい必要がない。実際、本発明の一実施例に
おいては、１個の心理的特徴、即ち強調を用いてマトリ
ックス乗算を介し、ピッチと振幅とスペクトラム傾斜と
持続時間を制御する。

【００３４】韻律的タグ本発明の一実施例によれば、各タグは適用範囲を有し、
そのタグは適用範囲内の韻律的特徴に影響を及ばすが、
適用範囲外に行くに従ってその影響力は減少する。言い
換えると、各タグの影響はいずれにしても局部的なもの
である。通常、このタグは音節、ワード、フレーズのサ
イズの適用範囲を有する。本発明による音声と歌の韻律
的制御で用いられる適宜のタグの組の好ましい記載およ
びその実施例は、米国特許出願第０９／８４５５６１に
開示されている。前掲の特許に開示された特定のタグを
付すシステムは、本発明のアプリケーションでも採用で
き、これは、"Stem-ML"（Soft TEMplate Mark-up Langu
age）と称する。特に、Stem-MLは、タグを大量の韻律に
変換する数学的に規定されたアルゴリズムを有するタグ
を伏すシステムである。このシステムは、言葉とは独立
に企図されたものであり、さらに音声と音楽の両方に対
し有効に用いることができる。

【００３５】図５に示すように、本発明の一実施例によ
ればテキストまたは楽譜がタグ生成プロセス（例えば、
タグ選択モジュール５２と持続時間計算モジュール５７
とタグ拡張モジュール５４を含む）に渡され、このプロ
セスが韻律的タグを選択しその位置を決める。機能的ル
ール（heuristic rules）を用いる。話し方を指定した
情報が読み込まれ（例えば、タグテンプレートデータベ
ース５３から）、タグの生成を容易にしている。本発明
の様々な実施例においては、話し方を指定した属性は、
息継ぎ振動、歌の持続時間さらにはまたｆ_０と振幅を修
正するようなStem-MLテンプレートを制御するパラメー
タを含む。その後、タグは韻律評価モジュール５５に送
られ、韻律評価モジュール５５はStem-MLアルゴリズム
を含み、ｆ_０の時間列と振幅値を実際に生成する。

【００３６】本発明の一実施例による話し方を記載する
複数のStem-ML特徴のうち２つの特徴を主に利用する。
第１の特徴により、Stem-MLによりイントネーションの
局部的成分（アクセントテンプレート）と非局部的（フ
レーズ）成分の分離が可能となる。フレーズレベルのタ
グの１つは、step_toと称し、ｆ_０を所定の値に移動
し、次のstep_toタグが入るまで有効である。step_toタ
グのシーケンスを記述すると、フレーズカーブは断片的
な差分関数として処理できる。この方法は、Martin Lut
her KingのフレーズのカーブとDinah Shoreの楽譜を記
載するために、以下で用いる。第２の特徴点としては、
Stem-MLは形状と適用範囲の制限なしにユーザが規定し
たアクセントテンプレートを受け入れる。この特徴によ
りユーザは、異なる言語のアクセントの形状と同一言語
内の変化とを記述するために、テンプレートを書き込む
ことができる。かくして、話し言葉（音声）に対する話
者が指定したアクセントのテンプレートと音楽に対する
装飾的テンプレートを書き込むことができる。

【００３７】上記したように、指定したアクセントテン
プレートと装飾的テンプレートは、目標とする生理学的
にあり得ない組合せとなることがある。しかし、Stem-M
Lは矛盾する仕様を受け入れ、全ての制約を最適に満足
するような平滑な表面的実現化に戻る。

【００３８】韻律を制御する筋肉の動きは平滑である
が、その理由は意図したあるアクセントの目標から次の
目標に移るのに時間がかかるからである。音声素材の選
択は、重要ではなく、話者は目標を実現するために大き
な努力を払わない。そのため韻律の表面的実現は、問題
を最適化する、即ち、２つの機能である生理学的制約Ｇ
と会話の制約Ｒの和を最小にするようにして実現され
る。生理学的制約Ｇは、特定のピッチの第１と第２の派
生事項を最小にして平滑制約を課し、会話の制約Ｒは、
実現されたピッチｐと目標ｙの間のエラーｒの和を最小
にする。

【００３９】エラーは、タグの強度Ｓ_ｉにより重み付け
され、タグの仕様を満足することがいかに重要でるかを
表している。タグの強度が弱い場合には、生理的制約条
件が、取って代わり、正確さよりも平滑さが重要とな
る。強度Ｓ_ｉは、平滑さの要件Ｇ（その近隣に対し、よ
り強いタグがより大きな影響を及ぼす）により近傍との
アクセントのタグの相互作用を制御する。タグはパラメ
ータ∀と∃を有し、これは形状内のエラーあるいはｐ_ｔ
の平均均値のどちらが最も重要かを制御する、これらは
Stem-ML型のパラメータから得られたものである。本発
明の一実施例においては、目標ｙは、フレーズカーブの
トップにあるアクセント成分からなる。

【００４０】具体的に説明すると、以下の式が採用され
る。

【数１】そして、生成されたｆ_０と振幅の形状を本発明のテキス
トから音声への変換システムが用いて、特徴を持った音
声と歌を生成できる。さらにまた、振幅変調をテキスト
から音声への変換システムが出力に適用することもでき
る。

【００４１】本明細書に記載したタグは、韻律の領域の
公称上ソフトな制約であり、ある範囲が韻律的特徴の特
定の値あるいは特定の形状を有するように強制するもの
である。本発明の一実施例においては、タグはオーバラ
ップしてもあるいは離れていて（即ちタグ間にギャップ
が存在してもよい）もよい。

【００４２】本発明の一実施例においては、いくつかの
別のタグがタグテンプレートと共にタグ拡張モジュール
に渡される。これらのパラメータのあるものは、タグの
強度をタグの適用範囲の長さでもっていかに換算するか
を制御する。別のパラメータは、タグの振幅をタグの適
用範囲の長さでもっていかに換算するかを制御する。２
つの追加されたパラメータが、タグの長さと場所がタグ
の適用範囲の長さにいかに依存するかを示す。タグは、
適用範囲により境界づけられるかあるいはタグ全体が適
用範囲を満たすと仮定する必要はない。タグはその適用
範囲にほぼ適合するが、タグの長さはタグの適用範囲の
長さの３０％から１３０％に通常入り、タグの中心がタ
グの適用範囲の長さの±５０％だけずれることも通常の
ことである。

【００４３】本発明の一実施例においては、発生音は、
単一のタグテンプレートにより規定することができ、例
えばこれを用いて英語のアクセントの音節をマークする
ことができる。しかし、より一般的には、音声は約２−
１０個のタグテンプレートで指定することもできる。

【００４４】韻律の評価本発明の一実施例によれば、１つあるいは複数のタグが
生成された後、それらは韻律評価モジュール、例えば図
５の韻律評価モジュール５５に与えられる。このモジュ
ールは、特徴の最終時間列を生成する。本発明の一実施
例によれば、米国特許出願第０９／８４５５６１に開示
された韻律評価装置を用いることができる。具体的に説
明すると、上記したように、本明細書に開示した方法と
装置により、タグの言語学的強度の仕様が決定可能とな
り、相反する複数の要件を妥協することにより、オーバ
ラップしたタグを処理することができる。タグの間のギ
ャップも充填するよう変更することができる。

【００４５】本発明の他の実施例によれば、韻律評価装
置は、単一の連接操作（タグは離散しておらずかつオー
バラップしていないと仮定する）を含む。本発明のさら
に別の実施例によれば、韻律評価装置は、ギャップを埋
めるために、線形挿入による連接操作を含む。

【００４６】タグの選択図５に示した本発明の一実施例によれば、タグ選択モジ
ュール５２は、ある発生音のタグのテンプレートのう
ち、どのテンプレートを各音節で用いるかを選択する。
本発明の一実施例においては、このサブシステムは、人
間を分類したデータ上で訓練した分類と回帰（classifi
cation and regression，ＣＡＲＴ）ツリーからなる。
ＣＡＲＴツリーは、当業者に公知のものであり、例え
ば、Breimanet al.著のClassification and Regression
Trees, Wadsworth and Brooks, Monterey, Californi
a, 1984.に記載されている。本発明様々な実施例によ
り、タグは各音節、各音素、各ワードで選択することが
できる。

【００４７】上記のＣＡＲＴツリーベースの実施例にお
いては、ＣＡＲＴには、以下の情報の一部あるいは全て
から構成された特徴ベクトルが与えられる。（１）語彙集（lexicon）から得られた情報、例えば、（ａ）辞書（dictionary）または他の分解手順から得ら
れたマークされたアクセントの種類と強度（ｂ）音節がアクセントの付された音節の後かあるいは
それの前に来るかに関する情報（ｃ）音節がワードの最初にあるか最後にあるかの情報

【００４８】（２）文章の品詞および文法関係を解析す
る機械から得られた情報、例えば、（ａ）音節を含むワードが解析したフレーズあるいは他
の重要な単語を終了させるか（ｂ）音節を含むワードが解析したフレーズあるいは他
の重要な単語を開始させるか（ｃ）テキストを理解するためにワードがいかに重要か
の予測（ｄ）ワードが新たなタームの最初のものか

【００４９】（３）他の情報、例えば、（ａ）ワードがリズムを打つか（ｂ）ワードが統一的基準のパターンの領域内にあるか
（例えば、周囲のワードがアクセント（語彙集（lexico
n）から得られたように）短長格／弱強格のリズムを有
するアクセントを有するか）（ｃ）韻律的タグを用いて歌を生成した場合、楽譜の韻
律的パターンがある音節にアクセントがあることを示す
か

【００５０】本発明の上記の実施例においては、本発明
のシステムは、従来公知の方法でトレーニングし、人間
の解析から得られた正確な答えと共に特徴ベクトルの多
数の組をシステムに与える。

【００５１】持続時間の計算図５で説明したように、本発明によれば本発明の音声合
成システムは、音素の持続時間を計算する持続時間計算
モジュール５７を有する。この持続時間計算モジュール
５７は、米国特許出願第０９／７１１５６３（発明者：
Shih et al.発明の名称："Methods And Apparatus For
Speaker Specific Durational Adaptation," 出願日：N
ovember 13, 2000.）に開示されている。

【００５２】具体的に説明すると、本発明の一実施例に
よれば、タグテンプレートは、音節の持続を揺らすため
に用いられる。第１に平坦な話し方となる持続モデルを
構築する。このモデルは従来公知のものである。その
後、特定の範囲で音素の持続を揺らすモデルを規定す
る。持続モデルの結果は、二段階ストレスの付いた決定
とストレスの付いてない決定に依存することは知られて
いる。（これに関しては、van Santen et al.著の"Supr
asegmental and segmental timing models in Mandarin
Chinese and American English," Journal of Acousti
cal Society of America, 107(2), 2000.を参照のこ
と。）

【００５３】本発明による話し方の特徴を組み込んだ例 Dr. Matin Luther Kingの前述した演説に話を戻す。演
説は、最初に立ち上がり、クライマックスまで選択的に
階段状に上がり、そして最後に落ちるようなアウトライ
ンを有する強いフレーズの成分を有する。このアウトラ
インは、上記のStem-ML step_toタグでもって記載され
る。引数"to"は、各ラインの下に示した"to="が表れる
ことにより示され、base + to x rangeとして意図した
ｆ_０を特定する。ここで、ベースはベースラインを、ra
ngeとは話者のピッチの範囲を意味する。

【００５４】帰納的に発見した文法のルールを用いてタ
グを張り付ける。各フレーズはbasevalue (to＝0）から
スタートし、第１の階段状のワード上でステップアップ
し、継続するフレームの終了時までその高い状態に留ま
り、最後のフレーズの最後の言葉でステップダウンす
る。その後、各ポーズごとにbase(to＝0.2）上のピッチ
範囲の２０％に戻り、その後再び新たなフレーズの最初
の強調されたワード上で再びステップアップする。step
_toの量は、文章の長さに関連している。さらに付加的
なステップアップは、注釈を付けた強く強調したワード
上で用いられる。

【００５５】具体的に説明すると、本発明に従って、st
ep_toタグの次のシーケンスを用いて、Dr. Martin Luth
er King, Jr.のスタイルで文章 "This nation will res
e up, and live out the true meaning of its creed,"
に対し図６の点線で示したフレーズのカーブを生成す
る。図中の実線は、生成されたｆ_０カーブを示し、これ
はフレーズのカーブとアクセントのテンプレートとの組
合せである。これに関しては以下の「アクセントテンプ
レートの例示」の項を参照のこと。シンボル“＃”で始
まる後続のタグシーケンス内に挿入されたラインは解説
である。

【００５６】Ｃname＝step-to；pos＝0.21；strength＝
５；to＝０；＃第１の強調ワード"nation"上ににステップアップするＣname＝step-to；pos＝0.42；strength＝５；to＝1.
7；Ｃname＝step-to；pos＝1.60；strength＝５；to＝1.
7；＃"rise"の上にさらにステップアップするＣname＝step-to；pos＝1.62；strength＝５；to＝1.8
5；Ｃname＝step-to；pos＝2.46；strength＝５；to＝1.8
5；＃第２フレーズの開始Ｃname＝step-to；pos＝3.8；strength＝５；to＝0.2；＃第１の強調ワード"live"上にステップアップするＣname＝step-to；pos＝4.4；strength＝５；to＝2.0；Ｃname＝step-to；pos＝5.67；strength＝５；to＝2.
0；＃フレーズの終了点でステップダウンするＣname＝step-to；pos＝6.28；strength＝５；to＝0.
4；

【００５７】歌にスタイルを組み込んだ例楽譜は実際の所未だうまく表すことができない。このた
め、違う演奏者は、同一の楽譜に基づいて非常に異なる
演奏を行う。本発明の一実施例においては、音楽的構成
物とフレーズの指定を用いて装飾を挿入し、演奏ルール
を実行する。このようなルールは、デフォルトのリズム
パターンと遅延と持続の調整を含む。

【００５８】本発明による音楽入力フォーマットの一例
を次に示し、"Bicycle Built for Two"の歌の第１フレ
ーズを示す。この情報は、楽譜とオクターブ（コラム
１）、公称持続時間（コラム２）、テキスト（コラム
３、音素で表された）を指定する。コラム３は、語彙集
（lexicon）からのアクセント情報（二重の引用でマー
クされた強いアクセントと、ピリオドでマークされた弱
いアクセント）を含む。楽譜内の文字“ｔ”は結合され
た楽譜を表し、点線は音節をワードで結ぶ。％のサイン
はフレーズの境界を表す。アステリスク（＊）を含む横
線は、尺度の境界を表し、そのため歌の韻律に関する情
報を運ぶ。

【００５９】3/4 b＝260 % g2 3 “dA- ****************** e2 3.0 zE ****************** % c2 3 “dA- ****************** g1 3.0 zE ****************** % ****************** a1 1.00 “giv b1 1.00 mE c2 1.00 yUr ****************** a1 2.00 “an- c2 1.00 sR ****************** g1t 3.0 “dU- ****************** g1 2.0 g1 1.0 * %

【００６０】本発明の一実施例によれば、楽譜は音声の
フレーズのカーブに似たものとして処理することができ
る。両方ともStem-ML step_toタグでもって構築され
る。音楽においては、ピッチレンジはオクターブとして
定義され、各ステップは指数関数のスケールでオクター
ブの１／１２である。各楽譜は、step_toタグの対で制
御される。例えば、"Bicycle Built for Two"の最初の
４個の楽譜は、本発明の一実施例によれば、次のように
指定することができる。

【００６１】＃Dai- (Note Ｇ）Ｃname＝step-to；pos＝0.16；strength＝８；to＝1.99
66；Ｃname＝step-to；pos＝0.83；strength＝８；to＝1.99
66；＃sy（Note Ｅ）Ｃname＝step-to；pos＝0.85；strength＝８；to＝1.51
98；Ｃname＝step-to；pos＝1.67；strength＝８；to＝1.51
98；＃Dai-（Note Ｃ）Ｃname＝step-to；pos＝1.69；strength＝８；to＝1.00
00；Ｃname＝step-to；pos＝2.36；strength＝８；to＝1.00
00；＃sy（Note Ｇ, one octave lower）Ｃname＝step-to；pos＝2.38；strength＝８；to＝0.49
83；Ｃname＝step-to；pos＝3.20；strength＝８；to＝0.49
83；

【００６２】音楽のstep_toの強さの仕様／規定は非常
に強い（即ち、strength＝８である）。これにより、タ
グが韻律評価素子を通過する際に指定された周波数を保
持する。

【００６３】アクセントテンプレートの例音声の中のワードアクセントと歌の中の装飾的楽譜は、
スタイルを指定したタグテンプレートで記載される。各
タグは適用範囲を有し、適用範囲内の韻律的特徴に強く
影響を与えるが、適用範囲外に行くにつれて影響が弱く
なる。言い換えると、タグの影響は多かれ少なかれ局部
的である。これらのテンプレートは、話す速度とピッチ
とは独立したものとして意図している。これらは、振幅
を換算するあるいは時間軸に沿って伸ばすことにより、
特定の適用範囲に合わせている。明白な話し方は、ある
アクセントのタイプに対し、特異の形状で伝えられる。

【００６４】本発明により、歌に対しスタイルを合成／
生成する場合、装飾的楽譜のテンプレートを特定の場所
に置き、楽譜上に重ね合わせる。図７は、本発明で用い
られたDinah Sohreの歌い方の中の装飾部分のｆ_０（上
の線）と振幅（下の線）を示す。この装飾線は、その軌
跡中に２つのコブを有し、第１のｆ_０ピークが振幅の谷
に一致している。装飾線の長さは、ある範囲内で楽譜の
長さでもって弾力的に延びる。短い楽譜（約３５０ミリ
秒）においては装飾は楽譜の長さをカバーするだけ延び
る。長い楽譜においては装飾は、最初に部分に影響を及
ぼすだけである。Dinah Sohreは、この特定の装飾をフ
レーズの最後の弱くなる楽譜内で用いた。特に終わりか
ら２番目の音節の楽譜が最後の楽譜の場合は特にそうで
ある。彼女はリズムワードを強調するためにこの装飾を
用いた。

【００６５】Dr. Kingの演説においては、再現可能な、
話者が特定したアクセントのテンプレートが存在する。
図８は、図６で示したフレーズカーブを生成するために
本発明により用いられた３個のアクセントのテンプレー
トを示す。Dr. Kingのアクセントの選択は、フレーズの
位置から予測可能である。即ち、フレーズの開始点の立
ち上がりのアクセントと、強調されたワードとフレーズ
の終了点における落ちるアクセントと、それ以外の平坦
なアクセントから予測可能である。

【００６６】いずれの場合にも、本発明によれば、タグ
が生成されるとタグは、韻律評価モジュール（図５の韻
律評価モジュール５５）内に与えられ、そのモジュール
がStem-MLタグをｆ_０の時間列あるいは振幅を解釈す
る。

【００６７】本発明の実験例図５のシステムのタグ生成部門の出力は、タグテンプレ
ートの組である。以下は、合成信号の振幅を制御するタ
グを表す一部（truncated）の動作例である。他の韻律
パラメータは、合成信号の生成に用いられるが、類似す
るものであり、これらの例は説明を割愛する。

【００６８】以下に示す最初の２つのラインは、我々が
シミュレートしているスタイルを部分的に規定するグロ
ーバルセッティングからなる。次のセクション（ユーザ
が規定するタグ）は、この特定のスタイルに対するタグ
テンプレートのデータベースである。初期化部分の後各
ラインはタグテンプレートに対応する。文字＃で始まる
ラインは解説である。

【００６９】＃Global settings（汎用設定） add＝１；base＝１；range＝１；smooth＝0.06；pdroop
＝0.2；adroop＝１＃User-defined tags（ユーザが規定するタグ） name＝ＳＣＯＯＰ；shape＝-0.1s0.7，0s1，0.5s0，1s
1.4，1.1s0.8 name＝ＤＲＯＯＰ；shape＝0s1，0.5s0.2，1s0； name＝ＯＲＮＡＭＥＮＴ；shape＝0.0s1，0.12s-1，0.1
5s0，0.23s1 ＃Amplitude accents over music notes（楽譜の振幅ア
クセント）＃Dai- ＡＣname＝ＳＣＯＯＰ；pos＝0.15；strength＝1.43；w
scale＝0.69 ＃sy ＡＣname＝ＳＣＯＯＰ；pos＝0.84；strength＝1.08；w
scale＝0.84 ＃Dai- ＡＣname＝ＳＣＯＯＰ；pos＝1.68；strength＝1.43；w
scale＝0.69 ＃sy ＡＣname＝ＳＣＯＯＰ；pos＝2.37；strength＝1.08；w
scale＝0.84 ＃give ＡＣname＝ＤＲＯＯＰ；pos＝3.21；strength＝1.08；w
scale＝0.22 ＃me ＡＣname＝ＤＲＯＯＰ；pos＝3.43；strength＝0.00；w
scale＝0.21 ＃your ＡＣname＝ＤＲＯＯＰ；pos＝3.64；strength＝0.00；w
scale＝0.21

【００７０】最後に韻律評価モジュールは、振幅の時間
列対時間との関係を生成する。図９は、上から下に順
に、振幅制御時間列と、音声振幅制御なしに合成器によ
り生成された音声信号と、音声振幅制御を行って合成器
により生成された音声信号とを示す。

【００７１】本発明のアプリケーション様々な有益なアプリケーションが、本発明の音声合成を
用いて実現できる。例えば、本発明の様々な実施例によ
れば、次のようなアプリケーションがある。（１）好ましい修事的スタイルをもった音声を読み上
げること（２）あるアプリケーションに対し複数の音声を作り
出すこと（３）異なるキャラクターとして機能するようテキス
トから音声への発声を変換すること

【００７２】様々なキャラクターとして機能するテキス
トから音声へ変換するアプリケーションは、様々な具体
的な目的、例えば以下のような例に有効である。（１）ｅメールの読み上げ（ｅメールの送り主の「ボ
イスフォント」でｅメールのテキストメッセージを読み
上げること、あるいはメッセージを含む読み出しヘッダ
のような異なる機能にサービスするために異なる音声を
用いる）（２）ニュースおよびウェブページの読み上げ（例え
ば、ヘッドライン、ニュースの中身、引用等を読むため
に異なる音声と読み方を用いる、ウェブページのセクシ
ョンとレイヤを分けるために異なる音声とスタイルを用
いる、目で見えるようなメッセージを送るために異なる
音声とスタイルを用いる、これは数式、下付文字、脚
注、太字あるいはイタリック文字のような非標準のテキ
ストを含む。）

【００７３】（３）注釈の付いた会話ベースの情報サ
ービス（例えば、情報の異なる発信源あるいは異なる機
能を反映するために、異なる音声を用いる、例えば、自
動コールセンターにおいて異なる音声とスタイルは、発
呼者が異なるサービスに切り換えられたときに用いられ
る）。（４）ソフトウェアあるいはゲーム内の各キャラクタ
に対し、その年齢と特徴づけられた人間性を表すために
特別に用意されたそれ自身の音声を与える。（５）サービスプロバイダーのサービスを他の競合他
社と区別するために特徴のある音声でもって「ブランド
差別化」する。（６）自動的に歌を歌いあるいは詩を読むこと

【００７４】上記の議論は本発明の原理の単なる説明で
ある。当業者は本発明の原理を実現するために様々な他
の構成を工夫することができる。さらにまた、全ての実
施例およびここで用いられた言葉は本発明を理解するた
めに示したものであって本発明の範囲を限定するよう解
釈すべきものではない。さらにまた、本明細書に開示し
た原理、実施態様、実施例あるいは実験例は、そこに開
示された機能とそれの均等物を含む。さらにまた、これ
らの均等物は現在公知のものあるいは将来開発されるも
のを含む。

【００７５】図面に示したブロックは、本発明を実施す
る回路の概念を表すものである。同様にフローチャート
等も様々なプロセスを表し、これらはコンピュータで読
み込み可能な媒体等で表すこともでき、かつコンピュー
タやプロセッサーで実行することができる。フローチャ
ートに示したブロックは、物理的構成要素を表すものと
して理解されるが、これらはまた、特許請求の範囲で特
定の機能を実行する手段として表されている。さらにま
た、フローチャートのブロックは、物理的な信号、記憶
された物理的データを表すものと理解されるが、これら
はコンピュータで読み込み可能な媒体、例えばディス
ク、半導体記憶デバイスに含めることができる。

【００７６】図に示した様々な素子の機能、例えば「プ
ロセッサ」あるいは「モジュール」として示したもの
は、適宜のソフトウェアと、ソフトウェアを実行できる
ハードウェアおよび専用のハードウェアを用いて実現す
ることができる。プロセッサが用いられた場合には、こ
れらの機能は専用プロセッサ、あるいは共用プロセッサ
あるいはその組合せで実現できる。さらにまたプロセッ
サあるいはコントローラは、ソフトウェアを実行できる
ハードウェアを広く意味し、それらには例えばデジタル
信号プロセッサ（ＤＳＰ）ハードウェア、ＲＯＭ、ＲＡ
Ｍ、非揮発性メモリ等が含まれる。他のハードウェアも
含めることができる。同様に、図に示したスイッチは概
念的なものである。それらの機能はプログラムロッジク
の操作、専用ロッジク、プログラム制御と専用ロジック
の相互作用、さらにはまた手動によっても実現できる。

【００７７】特許請求の範囲において、特定の機能を実
行する手段は、例えばその機能を実行する回路素子の組
合せ、あるいはソフトウェア、ファームウェア、マイク
ロコード等をそれらの機能実行するソフトウェアを実行
する適宜の回路と組み合わせたものを意図している。様
々な手段を組合せて機能を提供して本発明を達成するこ
ともできる。

【００７８】以上の説明は、本発明の一実施例に関する
もので、この技術分野の当業者であれば、本発明の種々
の変形例を考え得るが、それらはいずれも本発明の技術
的範囲に包含される。尚、特許請求の範囲に記載した参
照番号がある場合は、発明の容易な理解のためで、その
技術的範囲を制限するよう解釈されるべきではない。

【図面の簡単な説明】

【図１】歌手Dinah Shoreが歌った歌"Bicycle built fo
r two" からの最初の４個の音節"Dai-sy Dai-sy"の振幅
のプロファイルを表す図

【図２】アマチュアの歌手の同一の４個の音節"Dai-sy
Dai-sy"の振幅のプロファイルを表す図

【図３】Dr. Martin Luther King, Jr.がしゃべった演
説"I have a dream"からの４個のフレーズに亘った基本
周波数ｆ_０のトレースを表す図

【図４】ニュースを放送するプロのアナウンサの話した
文章のｆ_０のトレースを表す図

【図５】本発明の一実施例による音声の複数の話し方を
与えるテキストから音声への変換システムを表す図

【図６】本発明の一実施例をによるDr. Martin Luther
King, Jr.の話し方のアクセントと生成されたフレーズ
のカーブの例を表す図

【図７】本発明の一実施例で用いられるDinah Shoreの
歌い方の装飾を施したｆ_０と振幅のテンプレートを表す
図

【図８】図６に示したフレーズのカーブを生成するため
に本発明の一実施例で用いられるアクセントのテンプレ
ートを表す図

【図９】振幅制御時間列と、振幅制御を行っていない合
成器により生成された音声信号と、振幅制御を行った合
成器による生成された音声信号を表す図

【符号の説明】

５１分析機５２タグ選択モジュール５３タグテンプレートデータベース５４タグ拡張モジュール５５韻律評価モジュール５６テキストから音声への合成モジュール５７持続時間計算モジュール

───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ. (72)発明者グレゴリーピーコハニスキアメリカ合衆国、08812 ニュージャージー州、324 ダレネン、サードストリート (72)発明者チン・リンシーアメリカ合衆国、07922 ニュージャージー州、バークリーハイツ、150 マクマネアベニューＦターム(参考） 5D045 AA09

Claims

【特許請求の範囲】

【請求項１】音声制御情報ストリームに基づいて音声
信号を合成する方法において、前記音声信号は、選択的に合成されて特定の韻律スタイ
ルを有し、（Ａ）韻律制御を行うために音声の一部を特定するた
めに、前記所定の音声制御情報ストリームを解析するス
テップと、（Ｂ）前記音声信号合成を行うために選択された特定
の韻律スタイルに基づいて、韻律制御テンプレートを選
択するステップと、（Ｃ）前記選択された韻律制御テンプレートを前記所
定の音声制御情報ストリームの特性された部分に適用し
て、話し方であるスタイルを有した音声制御情報ストリ
ームを生成するステップと、（Ｄ）合成音声信号が特定の韻律スタイルを有するよ
うに、前記スタイルが付けられた音声制御情報ストリー
ムに基づいて、前記音声信号を合成するステップとを有
することを特徴とする音声制御情報ストリームに基づい
て音声信号を合成する方法。
【請求項２】前記音声は、音声信号を含み、前記所定の音声制御情報ストリームは、所定のテキスト
を含むことを特徴とする請求項１記載の方法。
【請求項３】前記音声は、音声信号を含み、前記所定の音声制御情報ストリームは、所定の注釈付き
テキストを含むことを特徴とする請求項１記載の方法。
【請求項４】前記音声信号は、歌う音声信号含み、前記所定の音声制御情報ストリームは、所定の楽譜を含
むことを特徴とする請求項１記載の方法。
【請求項５】前記特定の韻律スタイルは、特定の人を
表すことを特徴とする請求項１記載の方法。
【請求項６】前記特定の韻律スタイルは、特定のグル
ープの人を表すことを特徴とする請求項１記載の方法。
【請求項７】前記（Ａ）ステップは、所定の音声制御
情報ストリームを解析し、そこから特徴を抽出すること
を特徴とする請求項１記載の方法。
【請求項８】前記韻律制御テンプレートは、タグテン
プレートデータベースから選択されたタグテンプレート
を含むことを特徴とする請求項１記載の方法。
【請求項９】前記（Ｃ）ステップは、（Ｃ１）前記タグのテンプレートの各々をタグに拡張
するステップと、（Ｃ２）前記タグを韻律特徴の時間列に変換するステ
ップと、（Ｃ３）前記韻律特性の時間列に基づいて、前記スタ
イルが付けられた音声制御情報ストリームを生成するス
テップとを有することを特徴とする請求項８記載の方
法。
【請求項１０】（Ｅ）音素持続時間を計算するステッ
プをさらに有し、前記（Ｄ）ステップは、前記音素の持続時間に基づいて
行われることを特徴とする請求項１記載の方法。
【請求項１１】所定の音声制御情報ストリームに基づ
いて音声信号を合成する装置において、前記音声信号
は、選択的に合成されて特定の韻律スタイルを有し、（Ａ）韻律制御を行うために音声の一部を特定するた
めに、前記所定の音声制御情報ストリームを解析する手
段と、（Ｂ）前記音声信号合成を行うために選択された特定
の韻律スタイルに基づいて、韻律制御テンプレートを選
択する手段と、（Ｃ）前記選択された韻律制御テンプレートを前記所
定の音声制御情報ストリームの特性された部分に適用し
てスタイルを有した音声制御情報ストリームを生成する
手段と、（Ｄ）合成音声信号が特定の韻律スタイルを有するよ
うに、前記スタイルが付けられた音声制御情報ストリー
ムに基づいて前記音声信号を合成する手段とを有するこ
とを特徴とする所定の音声制御情報ストリームに基づい
て音声信号を合成する装置。