JP2003114693A - 音声制御情報ストリームに基づいて音声信号を合成する方法 - Google Patents

音声制御情報ストリームに基づいて音声信号を合成する方法

Info

Publication number
JP2003114693A
JP2003114693A JP2002234977A JP2002234977A JP2003114693A JP 2003114693 A JP2003114693 A JP 2003114693A JP 2002234977 A JP2002234977 A JP 2002234977A JP 2002234977 A JP2002234977 A JP 2002234977A JP 2003114693 A JP2003114693 A JP 2003114693A
Authority
JP
Japan
Prior art keywords
voice
control information
information stream
speech
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002234977A
Other languages
English (en)
Inventor
Gregory P Kochanski
ピー コハニスキ グレゴリー
Chi-Lin Shih
シー チン・リン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of JP2003114693A publication Critical patent/JP2003114693A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 特定の話し方を伝えるようにテキストから音
声を合成する方法と装置を提供する。 【解決手段】 韻律特徴の繰り返しパターン、例えばピ
ッチ、振幅、スペクトラムの傾斜、持続時間とが合成さ
れた音声の特定の場所で発生するが、これらを用いて特
定の選択された話し方を伝える。本発明のテキストから
音声への合成システムはこれらの規定されたスタイルを
用いて独自の方法で(規定された特徴パターンに従っ
て)合成された音声の指定されたパラメータを調整す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストから音声
への変換(音声合成)の技術分野に関し、特に個人的な
話し方を捉え、そのような個人的話し方を伝えるため、
テキストから音声への変換システムを動作させる方法と
装置に関する。
【0002】
【従来の技術】テキストから音声への最新の音声変換
(音声合成)システムは、人間の発声する音声に極めて
近く、かつ高品質のものを提供することが出来ている
が、このようなシステムは特定の話者のデータに基づい
て、音声の韻律的(強制と抑揚の形式)属性を通常訓練
している。しかし、ある種のテキストから音声への変換
アプリケーションにおいては、特定の話し方、例えば識
別可能な人の話し方あるいはある階級に属する人の話し
方(南部訛り/アクセント)を捕まえることが極めて好
ましい場合がある。
【0003】
【発明が解決しようとする課題】この話し方の価値は、
主観的なものであり個人的、社会的、文化的な好みに関
係してくるが、この話し方の存在そのものは客観的なも
のであり、一貫した特徴があることを示している。これ
らの特徴は、特に区別/認識可能な話し方は、研究対象
となりモデル化されている。例えば、物まね芸人は、対
象となる人の話し方の最も顕著な特徴を大げさに振る舞
うことにより、きわだったパフォーマンスを行ってい
る。同様に、少なくとも理論的にはいくつかの区別可能
な韻律的特徴が適正にモデル化された場合には、テキス
トから音声への変換システムは、話し方の印象を伝える
のに成功している。しかし、今日までこのようなテキス
トから音声への変換システムは、フレキシブルな方法で
このような結果を達成できてはいない。
【0004】
【課題を解決するための手段】本発明によれば、テキス
トから音声を合成する新規の方法と装置が得られる。本
発明の方法と装置においては、音声は特定の選択された
話し方を効果的に伝えるように生成される。特に、1つ
あるいは複数の韻律的特徴(例えば、ピッチ(音声波形
の基本周波数をfとすると、ピッチは単にこの基本周
波数fの知覚的な影響に過ぎないが)と振幅とスペク
トラムの傾斜およびその持続時間の繰り返しパターン
が、合成された音声中の特徴ある場所で生成され、特定
の話し方を伝達するのに役立っている。本発明の一実施
例によれば、このような特徴パターンを用いて特定の話
し方を定めており、本発明によるテキストから音声への
変換システムは、このような定められた話し方を用いて
固有の方法で(即ち、定められた特徴パターンに従っ
て)合成音声の特定のパラメータを調整している。
【0005】さらに具体的に説明すると、本発明は所定
の音制御情報ストリーム(例えば、テキスト、注釈付き
テキストあるいは楽譜)に基づいて、声音信号を合成す
る方法と装置が提供できる。そして本発明においては、
声音信号を選択的に合成して特定の所望の韻律を含んだ
話し方を表すことができる。特に本発明の方法と装置
は、請求項1に記載した通りである、即ち、声音制御情
報ストリームに基づいて声音信号を合成する方法におい
て、前記声音信号は、選択的に合成されて特定の韻律ス
タイルを有し、韻律制御を行うために声音の一部を特定
するために、前記所定の声音制御情報ストリームを解析
(文章の品詞文法的関係を解析)するステップと、前記
声音信号合成を行うために選択された特定の韻律スタイ
ルに基づいて、1つあるいは複数の韻律制御テンプレー
トを選択するステップと、前記選択された韻律制御テン
プレートを前記所定の声音制御情報ストリームの特性さ
れた部分に適用してスタイルを有した声音制御情報スト
リームを生成するステップと、合成声音信号が特定の韻
律スタイルを有するように、前記スタイルが付けられた
声音制御情報ストリームに基づいて前記声音信号を合成
するステップとを有することを特徴とする声音制御情報
ストリームに基づいて声音信号を合成する方法である。
【0006】
【発明の実施の形態】概論 本発明の一実施例によれば、個人的な話し方は、ある特
定の場所において、1つあるいは複数の特徴(ピッチ、
振幅、スペクトラムの傾斜、持続時間)のパターンを繰
り返すことによりうまく伝えられる。これらの特定の場
所は、音声素材の組織を表している。例えば、話者は新
たに議論に導入された用語/言葉に対し、同一の特徴パ
ターンを、各フレーズの終了時点、開始点、あるいは強
調した言葉の場所に用いる傾向がある。
【0007】特定の話し方を認識するには。いくつかの
経験に基づいた処理が行われる。 (1) どのノルム(norm:話し方の様式)が過去
の経験および予測に基づいているかを確立する。 (2) サンプルとノルムとを比較して、ノルムから最
も特徴的な属性を特定する。 (3) これらの属性が発生する場所に関して仮説を立
てる。例えば、「人が文章の終わりに自分の言葉を飲み
込む」という記述が与えられたときには、記載(解析)
者は、「自分の言葉を飲み込む」という属性と、この属
性が「文章の終了時」に発生するという場所を認識す
る。かくして、他の人の話し方をまねする物まね芸人
は、更なる生成プロセスをマスタする必要がある。即
ち、 (4) 特定された属性の生成モデルを構築しそれを適
宜の場所に適用する。 そのため、本発明の一実施例によれば、各ステップで正
確な指示でもって上記の各ステップを模擬するプロセス
を含めることにより、特定の話し方を模擬するコンピュ
ータモデルが構築される。
【0008】(1) データベースからノルムを確立す
るステップ。このステップは、話し方を区別するのに用
いられる属性(例えば、音声波形の基本周波数fと振
幅とスペクトラム傾斜と持続時間)の解析を含む。これ
らの特徴は、言語学的な単位(例、音素、音節、ワー
ド、フレーズ、パラグラフ等)と場所(言語学的単位の
開始点あるいは終了点)と韻律(例えば、強制と強いま
たは弱い抑揚)に関連している。
【0009】(2) 音声サンプルからのスタイルを学
習するステップ。このステップは、まずサンプルからの
属性と表示されたデータベースの属性との比較を行い、
次にどの属性が与えられたスタイルに対して最も顕著で
あるかを決めるために距離の測定を確立する。
【0010】(3) 顕著な属性とその発生場所との関
連性を学習するステップ。上記の例においては、言葉が
各センテンスの終了時に飲み込まれると言う結論が一般
化に対し最も可能性が高いものである。文章の長さと話
の中身/内容は、これらの現象の発生を決定するために
重要な役割を果たすファクタである。
【0011】(4) 属性の量的モデルを想起するよう
にデータを解析するステップ。その結果その影響/効果
が自動的に生成される。例としては、アクセントの形状
あるいは振幅のプロファイルの詳細なモデルがそれに含
まれる。
【0012】以下の説明においては、話し方の概念を説
明するために、歌うことと話すことの両方の例を用い、
本発明の一実施例においてこれらの特徴のモデル化の例
を記載する。
【0013】話し方の例 図1は、Harry Dacreにより作詞作曲され、Dinah Shore
(リズミカルシンガーと言われている)(これに関して
は、"Bicycle Built for Two", Dinah Shore,in The Di
nah Shore Collection, Columbia and RCA recordings,
1942-1948)により歌われた"Bicycle built for two"
の歌からの最初の4個の音節"Dai-sy Dai-sy"の振幅の
プロファイルを表す。 蝶ネクタイ形状の振幅のプロフ
ァイルが、各4個の音節即ちノートに亘って延びてい
る。第2の音節は、1.20秒にその中心を有し最もは
っきりした例を与えている。第2のウエッジ(楔)の増
加する振幅が、3/4の基準(measure)の第3の弱い
ビート上に強いビートを作り出している。このスタイル
の振幅のプロファイルは、Dinah Shoreの歌に非常によ
く見られる現象/特徴である。聴取者の期待との不調和
および一貫した歌い方(cosistent dilivery)が非常に
明白なスタイルを記録している。
【0014】これに対し、図2は、アマチュア歌手から
の同一の4個の音節"Dai-sy Dai-sy"の振幅のプロファ
イルを示す。この図で比較的特徴的な振幅のプロファイ
ルを見ることができる。例えば、振幅は、音節の終了時
およびフレーズの終了時に急速になくなる傾向があり、
これは、音節(syllable )の音素(phone)の組成/構
成を表している。
【0015】図3は、Dr. Martin Luther King Jr.の演
説"I have a dream"からの4個のフレーズに対する音声
波形の基本周波数fのトレースを表す。一貫して急激
なピッチの立ち上げが、フレーズの開始点で見られ、同
じく急激なピッチの落ち込みがその終了時に見られる。
フレーズの中央部分では高いピッチレベルが維持されて
いる。図3に示したのと類似するピッチプロファイル
は、Martin Luther Kingの演説で見られた多くのフレー
ズで記録されるが、これは、フレーズのテキストの内容
(textual content)、統語的構造(syntactic structu
re)およびフレーズの長さが変わっても当てはまる。
【0016】図4は、図3の場合と対照的にニュースを
放送する話し方でプロのアナウンサーが話したセンテン
スの音声波形の基本周波数fのトレースを示す。図4
において、支配的なfの変化が言葉のアクセントと強
調を表している。フレーズの開始点は、ピッチの落下で
示され、これはLuther Kingの演説でピッチが上がるの
とは逆である。言葉のアクセントと強調の変形例は、D
r. Kingの演説にも見られるが、変化の大きさは、フレ
ーズをマークするfの変化に比較すると小さい。フレ
ーズに対するに対するfのプロファイルは、Dr. King
の特徴的な弁論スタイルを記述する最も重要な属性の1
つである。
【0017】本発明によるテキストから音声への変換シ
ステムの例 図5は、本発明の一実施例により、複数の話し方を与え
るテキストから音声への変換システムを示す。このシス
テムの実行にあたっては、従来のテキストから音声への
変換システムに加えて4つのキーモジュールからなって
いる。第1のキーモジュールは分析機51であり、この
分析機51は、入力ストリームから関連特徴を抽出す
る。入力ストリームは、声音制御情報ストリーム(voic
e controlinformation stream)とも称する。本発明の
他の実施例においては、そのストリームは、韻律のある
一般的な態様を規定するマークアップ情報と共に話した
言葉から構成される。別法として本発明の他の実施例に
おいては、そのストリームは楽譜から構成される。
【0018】分析機51から抽出されるべきある特徴の
一例は、HTMLマークアップ情報(太字の領域、引用
領域、イタリックで記載された領域、パラグラフ等)、
これは、当業者に公知のものである。テキストを、名詞
フレーズ、動詞フレーズ、主文節、複文節に統語論的に
解剖することにより、別の例が得られる。他のマークア
ップ情報は、SABLEのスタイル内にあり、これは当
業者に公知であるが、"SABLE: A Standard for TTS Mar
kup," by R. Sproat er al., Proc. Int'l. Conf. On S
poken Language Processing 98, pp. 1719-1724, Sydne
y, Australia,1998.に開示されている。例として文章
は、質問としてマークすることもでき、あるいは言葉
は、重要なもの即ちマークされたものとして、あるいは
不確定なものとしてマークされたものは確認が必要であ
る。
【0019】いずれの場合にもその結果得られた特徴
は、タグ選択モジュール52に移され、このタグ選択モ
ジュール52が。音声ストリーム内のどのポイントにタ
グテンプレートを割り当てるべきかを決定する。タグ選
択モジュール52は、例えば、タグテンプレートデータ
ベース53と情報交換をする。タグテンプレートデータ
ベース53は、様々なスタイルに対するタグテンプレー
トを含み、特定の所望の音声に対し適宜のテンプレート
を選択する。タグ選択モジュール52は、タグテンプレ
ートデータベース53から得られたパラメータあるいは
サブルーチンに依存する。
【0020】次に、タグテンプレートは、タグ拡張モジ
ュール54内でタグに拡張される。タグ拡張モジュール
54は、出力音声ストリームの適宜なユニットの持続時
間に関する情報を用い、その結果、ある音節とワードと
フレーズが、テキストから音声への変換モジュールによ
り合成された後、どのくらい続くか(秒単位で)を知
り、そしてある音節とワードとフレーズが発生する時点
を知る。本発明の一実施例においては、タグ拡張モジュ
ール54は、適宜の時間情報をタグに挿入し、その結果
韻律が、音素シーケンス(phonemes sequence)で合成
される。本発明の他の実施例は、タグと音素(phoneme
s)との間の適切な整合を能動的に計算する。このこと
は、例えば、"A Quantitative Model of F0 Generation
and Alignment," by J. van Santen et al., in Inton
ation: Analysis, Modelling and Technology, A. Boti
nis ed., Kluwar Academic Publishers, 2000.に開示さ
れている。
【0021】韻律評価モジュール55は、タグを韻律的
特徴の時間列(あるいはそれに等価な系列)に変換し、
この韻律的特徴を用いて合成器を直接制御する。韻律評
価モジュール55の出力結果は、話し方の特徴を持った
声音制御情報ストリームと称するが、それは特定の話し
方に対し調整された音声制御情報を与えるからである。
そして最後に、テキストから音声への合成モジュール5
6は、マークアップテキストと韻律的特徴あるいはそれ
に等価なものの時間列に基づいて(即ち、話し方の特徴
が付けられた音声制御情報ストリームに基づいて)、音
声あるいは歌の波形を生成する。上記したように、韻律
的特徴の時間列を組み込むことおよびテキストから音声
への合成モジュール56の構成以外は従来公知のもので
ある。
【0022】本発明の一実施例によれば、本発明の音声
合成システムは、音素の持続時間を制御し、それ故に持
続時間計算モジュール57を含む。この持続時間計算モ
ジュール57が、分析機51と/またはタグ選択モジュ
ール52から入力を取り出し、合成器(テキストから音
声への合成モジュール56)とタグ拡張モジュール54
に与えられる音素持続時間を計算する。
【0023】上記したように、図5のテキストから音声
への変換システムの韻律評価モジュール55の出力は、
特徴の時間列を含み(あるいは別法として、この特徴の
適宜の変換)を含み、その後それを用いて音声合成シス
テムの最終合成ステップ(即ち、テキストから音声への
合成モジュール56)を制御する。例として、出力が1
0ミリ秒間隔で一連の3個の要素からなる集合(tupl
e)の場合には、各チュープルの第1要素が合成された
波形のピッチを指定し、第2要素が出力波形の振幅を指
定し(基準振幅に対し)、第3要素がスペクトラム傾斜
(即ち、出力波形中の低周波と高周波の基準値に対する
相対的なパワー量)を指定する。(ここで基準振幅とス
ペクトラム傾斜は、比較的平坦な音声を生成すると仮定
すると、音声合成システムにより通常生成される場合は
デフォルト値である。)
【0024】図5に示した本発明の一実施例において
は、テキストから音声への合成モジュール56は、韻律
評価モジュール55により与えられた様々な特徴を適切
なものとして、ある時間に生成された特定の音素に加え
る。例えば、無声音の音素に対する音声の生成は、ピッ
チの指定を無視し、スペクトラムの傾斜情報が有音声音
素と無声音音素に別々に与えられる。本発明のある実施
例においては、テキストから音声への合成モジュール5
6は、ピッチ以外の韻律的特徴を直接制御するために具
備しない場合がある。この実施例においては振幅の制御
は、適宜の時間変動ファクタにより、合成モジュールの
出力を乗算することにより得られる。
【0025】本発明による他のテキストから音声への変
換システム 本発明の他の実施例においては、図5の韻律評価モジュ
ール55の省略は、テキストから音声への合成モジュー
ル56がタグを直接評価できる機能を具備している場合
に可能である。これは、システムが大きなデータベース
のテキストから音声への合成システムに基づいている場
合に利点がある。
【0026】テキストから音声への合成器を実現する場
合、システムは音声サンプルの大規模なデータベースを
記憶し、通常このサンプルは、各音素の数多くのコピー
から成り立ち、あるいは時にはテキスト内の音素のシー
ケンスのコピーから構成される。例えば、このようなテ
キストから音声への合成モジュール内のデータベース
は、"I gave at the office", "I bake a cake", "Baki
ng chocolate is not sweetened"のような発声音を含
み、これにより"a"の音素の様々な例を与える。このよ
うなシステムは、データベース内の発声(utterance)
の一部を、全体の合成された発生に亘って加算となるよ
うなコスト尺度を最小にするような方法で選択すること
により動作する。通常、コスト尺度は2つの要素から成
り立っている。即ち、セグメントを互いに連接すること
により導入される知覚される不連続性のコストを表す部
分と、所望の音声と利用可能なセグメントの間のミスマ
ッチを表す一部である。
【0027】本発明のこの実施例によれば、テキストか
ら音声への合成モジュール56のデータベース内に記憶
されている音声セグメントは、韻律ラベルでもってタグ
が付される。このような韻律ラベルは、タグ拡張モジュ
ール54により生成されたような上記のラベルに対応し
てもいなくてもよい。特に、テキストから音声への合成
モジュール56の動作は、タグ拡張モジュール54によ
り生成されたような所望のラベルと、テキストから音声
への合成モジュール56のデータベース内に含まれるセ
グメントに付加される利用可能なラベルとの間のミスマ
ッチに少なくとも一部は基づくコスト尺度の評価を含
む。
【0028】タグテンプレート 本発明の一実施例によれば、本発明のテキストから音声
への変換システムは、各話し方に対するタグテンプレー
トのデータベースを有することにより動作する。タグ
は、当業者に公知のもので、例えば同時継続出願の米国
特許出願第09/845561(Kochanski et al.著
の"Methods and Apparatus for Text to Speech Proces
sing Using Language Independent Prosody Markup"、
出願日2001年4月30日)に記載されている。
【0029】本発明のこの実施例においては、これらの
タグテンプレートは、異なる韻律的影響/効果を特徴づ
けるが、話し方の速度とピッチとは無関係のものであ
る。タグテンプレートは、単純な操作、例えば振幅値の
換算(韻律的な影響をより大きくすること)あるいは特
定の範囲にマッチするように時間軸に沿って波形を伸ば
すことにより変換される。例えば、音節の長さにまで伸
ばすタグテンプレートは、それが規定された範囲即ち場
所と大きさに、ある場合にはより長い音節に対しさらに
伸ばすことができる。
【0030】本発明の一実施例においては、同様な簡単
な変換、例えばタグの非線形的引き延ばし、あるいは繰
り返しによりタグを長くする方法も採用することができ
る。同様に、タグは3つの部分のテンプレート(即ち、
開始部分と中央部分と終了部分)を有することにより、
およびこの開始部分と中央部分の繰り返し数Nと、終了
部分とを連接することによりテンプレートから形成され
る。
【0031】本発明の一実施例は、音律的特徴の時間列
のセグメントであるタグテンプレート(可能ならば以下
に説明するある種のパラメータと共に)を有するが、本
発明の他の実施例は、タグテンプレートとして実行可能
なサブルーチンを利用する。このサブルーチンには、得
られたタグの範囲、通常範囲の長さと言語的強度のある
測定値を記述する引数が渡される。更にある実施例は、
ある歌い方のビブラート(震え)を記述するための特別
の目的用の実行可能なテンプレートも用いる。
【0032】さらに本発明の一実施例によれば、米国特
許出願第09/845561に記載された技術において
は、タグは出力の韻律的特徴(振幅、ピッチ、スペクト
ラム傾斜)の観点からは直接表されず、例えば、強調と
疑惑(emphasis and suspicion )のような心理的事項
の近似として表される。この実施例においては、韻律評
価モジュールを用いて心理的特徴の近似を実際の韻律的
特徴に変換することができる。心理的特徴と韻律的特徴
との間に線形のマトリックス変換が仮定されるがこれは
米国特許出願第09/845561に開示されている。
【0033】このような場合の心理的特徴の数は、テキ
ストから音声への合成システムが制御できる韻律的特徴
の数とは等しい必要がない。実際、本発明の一実施例に
おいては、1個の心理的特徴、即ち強調を用いてマトリ
ックス乗算を介し、ピッチと振幅とスペクトラム傾斜と
持続時間を制御する。
【0034】韻律的タグ 本発明の一実施例によれば、各タグは適用範囲を有し、
そのタグは適用範囲内の韻律的特徴に影響を及ばすが、
適用範囲外に行くに従ってその影響力は減少する。言い
換えると、各タグの影響はいずれにしても局部的なもの
である。通常、このタグは音節、ワード、フレーズのサ
イズの適用範囲を有する。本発明による音声と歌の韻律
的制御で用いられる適宜のタグの組の好ましい記載およ
びその実施例は、米国特許出願第09/845561に
開示されている。前掲の特許に開示された特定のタグを
付すシステムは、本発明のアプリケーションでも採用で
き、これは、"Stem-ML"(Soft TEMplate Mark-up Langu
age)と称する。特に、Stem-MLは、タグを大量の韻律に
変換する数学的に規定されたアルゴリズムを有するタグ
を伏すシステムである。このシステムは、言葉とは独立
に企図されたものであり、さらに音声と音楽の両方に対
し有効に用いることができる。
【0035】図5に示すように、本発明の一実施例によ
ればテキストまたは楽譜がタグ生成プロセス(例えば、
タグ選択モジュール52と持続時間計算モジュール57
とタグ拡張モジュール54を含む)に渡され、このプロ
セスが韻律的タグを選択しその位置を決める。機能的ル
ール(heuristic rules)を用いる。話し方を指定した
情報が読み込まれ(例えば、タグテンプレートデータベ
ース53から)、タグの生成を容易にしている。本発明
の様々な実施例においては、話し方を指定した属性は、
息継ぎ振動、歌の持続時間さらにはまたfと振幅を修
正するようなStem-MLテンプレートを制御するパラメー
タを含む。その後、タグは韻律評価モジュール55に送
られ、韻律評価モジュール55はStem-MLアルゴリズム
を含み、fの時間列と振幅値を実際に生成する。
【0036】本発明の一実施例による話し方を記載する
複数のStem-ML特徴のうち2つの特徴を主に利用する。
第1の特徴により、Stem-MLによりイントネーションの
局部的成分(アクセントテンプレート)と非局部的(フ
レーズ)成分の分離が可能となる。フレーズレベルのタ
グの1つは、step_toと称し、fを所定の値に移動
し、次のstep_toタグが入るまで有効である。step_toタ
グのシーケンスを記述すると、フレーズカーブは断片的
な差分関数として処理できる。この方法は、Martin Lut
her KingのフレーズのカーブとDinah Shoreの楽譜を記
載するために、以下で用いる。第2の特徴点としては、
Stem-MLは形状と適用範囲の制限なしにユーザが規定し
たアクセントテンプレートを受け入れる。この特徴によ
りユーザは、異なる言語のアクセントの形状と同一言語
内の変化とを記述するために、テンプレートを書き込む
ことができる。かくして、話し言葉(音声)に対する話
者が指定したアクセントのテンプレートと音楽に対する
装飾的テンプレートを書き込むことができる。
【0037】上記したように、指定したアクセントテン
プレートと装飾的テンプレートは、目標とする生理学的
にあり得ない組合せとなることがある。しかし、Stem-M
Lは矛盾する仕様を受け入れ、全ての制約を最適に満足
するような平滑な表面的実現化に戻る。
【0038】韻律を制御する筋肉の動きは平滑である
が、その理由は意図したあるアクセントの目標から次の
目標に移るのに時間がかかるからである。音声素材の選
択は、重要ではなく、話者は目標を実現するために大き
な努力を払わない。そのため韻律の表面的実現は、問題
を最適化する、即ち、2つの機能である生理学的制約G
と会話の制約Rの和を最小にするようにして実現され
る。生理学的制約Gは、特定のピッチの第1と第2の派
生事項を最小にして平滑制約を課し、会話の制約Rは、
実現されたピッチpと目標yの間のエラーrの和を最小
にする。
【0039】エラーは、タグの強度Sにより重み付け
され、タグの仕様を満足することがいかに重要でるかを
表している。タグの強度が弱い場合には、生理的制約条
件が、取って代わり、正確さよりも平滑さが重要とな
る。強度Sは、平滑さの要件G(その近隣に対し、よ
り強いタグがより大きな影響を及ぼす)により近傍との
アクセントのタグの相互作用を制御する。タグはパラメ
ータ∀と∃を有し、これは形状内のエラーあるいはp
の平均均値のどちらが最も重要かを制御する、これらは
Stem-ML型のパラメータから得られたものである。本発
明の一実施例においては、目標yは、フレーズカーブの
トップにあるアクセント成分からなる。
【0040】具体的に説明すると、以下の式が採用され
る。
【数1】 そして、生成されたfと振幅の形状を本発明のテキス
トから音声への変換システムが用いて、特徴を持った音
声と歌を生成できる。さらにまた、振幅変調をテキスト
から音声への変換システムが出力に適用することもでき
る。
【0041】本明細書に記載したタグは、韻律の領域の
公称上ソフトな制約であり、ある範囲が韻律的特徴の特
定の値あるいは特定の形状を有するように強制するもの
である。本発明の一実施例においては、タグはオーバラ
ップしてもあるいは離れていて(即ちタグ間にギャップ
が存在してもよい)もよい。
【0042】本発明の一実施例においては、いくつかの
別のタグがタグテンプレートと共にタグ拡張モジュール
に渡される。これらのパラメータのあるものは、タグの
強度をタグの適用範囲の長さでもっていかに換算するか
を制御する。別のパラメータは、タグの振幅をタグの適
用範囲の長さでもっていかに換算するかを制御する。2
つの追加されたパラメータが、タグの長さと場所がタグ
の適用範囲の長さにいかに依存するかを示す。タグは、
適用範囲により境界づけられるかあるいはタグ全体が適
用範囲を満たすと仮定する必要はない。タグはその適用
範囲にほぼ適合するが、タグの長さはタグの適用範囲の
長さの30%から130%に通常入り、タグの中心がタ
グの適用範囲の長さの±50%だけずれることも通常の
ことである。
【0043】本発明の一実施例においては、発生音は、
単一のタグテンプレートにより規定することができ、例
えばこれを用いて英語のアクセントの音節をマークする
ことができる。しかし、より一般的には、音声は約2−
10個のタグテンプレートで指定することもできる。
【0044】韻律の評価 本発明の一実施例によれば、1つあるいは複数のタグが
生成された後、それらは韻律評価モジュール、例えば図
5の韻律評価モジュール55に与えられる。このモジュ
ールは、特徴の最終時間列を生成する。本発明の一実施
例によれば、米国特許出願第09/845561に開示
された韻律評価装置を用いることができる。具体的に説
明すると、上記したように、本明細書に開示した方法と
装置により、タグの言語学的強度の仕様が決定可能とな
り、相反する複数の要件を妥協することにより、オーバ
ラップしたタグを処理することができる。タグの間のギ
ャップも充填するよう変更することができる。
【0045】本発明の他の実施例によれば、韻律評価装
置は、単一の連接操作(タグは離散しておらずかつオー
バラップしていないと仮定する)を含む。本発明のさら
に別の実施例によれば、韻律評価装置は、ギャップを埋
めるために、線形挿入による連接操作を含む。
【0046】タグの選択 図5に示した本発明の一実施例によれば、タグ選択モジ
ュール52は、ある発生音のタグのテンプレートのう
ち、どのテンプレートを各音節で用いるかを選択する。
本発明の一実施例においては、このサブシステムは、人
間を分類したデータ上で訓練した分類と回帰(classifi
cation and regression,CART)ツリーからなる。
CARTツリーは、当業者に公知のものであり、例え
ば、Breimanet al.著のClassification and Regression
Trees, Wadsworth and Brooks, Monterey, Californi
a, 1984.に記載されている。本発明様々な実施例によ
り、タグは各音節、各音素、各ワードで選択することが
できる。
【0047】上記のCARTツリーベースの実施例にお
いては、CARTには、以下の情報の一部あるいは全て
から構成された特徴ベクトルが与えられる。 (1)語彙集(lexicon)から得られた情報、例えば、 (a)辞書(dictionary)または他の分解手順から得ら
れたマークされたアクセントの種類と強度 (b)音節がアクセントの付された音節の後かあるいは
それの前に来るかに関する情報 (c)音節がワードの最初にあるか最後にあるかの情報
【0048】(2)文章の品詞および文法関係を解析す
る機械から得られた情報、例えば、 (a)音節を含むワードが解析したフレーズあるいは他
の重要な単語を終了させるか (b)音節を含むワードが解析したフレーズあるいは他
の重要な単語を開始させるか (c)テキストを理解するためにワードがいかに重要か
の予測 (d)ワードが新たなタームの最初のものか
【0049】(3)他の情報、例えば、 (a)ワードがリズムを打つか (b)ワードが統一的基準のパターンの領域内にあるか
(例えば、周囲のワードがアクセント(語彙集(lexico
n)から得られたように)短長格/弱強格のリズムを有
するアクセントを有するか) (c)韻律的タグを用いて歌を生成した場合、楽譜の韻
律的パターンがある音節にアクセントがあることを示す
【0050】本発明の上記の実施例においては、本発明
のシステムは、従来公知の方法でトレーニングし、人間
の解析から得られた正確な答えと共に特徴ベクトルの多
数の組をシステムに与える。
【0051】持続時間の計算 図5で説明したように、本発明によれば本発明の音声合
成システムは、音素の持続時間を計算する持続時間計算
モジュール57を有する。この持続時間計算モジュール
57は、米国特許出願第09/711563(発明者:
Shih et al.発明の名称:"Methods And Apparatus For
Speaker Specific Durational Adaptation," 出願日:N
ovember 13, 2000.)に開示されている。
【0052】具体的に説明すると、本発明の一実施例に
よれば、タグテンプレートは、音節の持続を揺らすため
に用いられる。第1に平坦な話し方となる持続モデルを
構築する。このモデルは従来公知のものである。その
後、特定の範囲で音素の持続を揺らすモデルを規定す
る。持続モデルの結果は、二段階ストレスの付いた決定
とストレスの付いてない決定に依存することは知られて
いる。(これに関しては、van Santen et al.著の"Supr
asegmental and segmental timing models in Mandarin
Chinese and American English," Journal of Acousti
cal Society of America, 107(2), 2000.を参照のこ
と。)
【0053】本発明による話し方の特徴を組み込んだ例 Dr. Matin Luther Kingの前述した演説に話を戻す。演
説は、最初に立ち上がり、クライマックスまで選択的に
階段状に上がり、そして最後に落ちるようなアウトライ
ンを有する強いフレーズの成分を有する。このアウトラ
インは、上記のStem-ML step_toタグでもって記載され
る。引数"to"は、各ラインの下に示した"to="が表れる
ことにより示され、base + to x rangeとして意図した
を特定する。ここで、ベースはベースラインを、ra
ngeとは話者のピッチの範囲を意味する。
【0054】帰納的に発見した文法のルールを用いてタ
グを張り付ける。各フレーズはbasevalue (to=0)から
スタートし、第1の階段状のワード上でステップアップ
し、継続するフレームの終了時までその高い状態に留ま
り、最後のフレーズの最後の言葉でステップダウンす
る。その後、各ポーズごとにbase(to=0.2)上のピッチ
範囲の20%に戻り、その後再び新たなフレーズの最初
の強調されたワード上で再びステップアップする。step
_toの量は、文章の長さに関連している。さらに付加的
なステップアップは、注釈を付けた強く強調したワード
上で用いられる。
【0055】具体的に説明すると、本発明に従って、st
ep_toタグの次のシーケンスを用いて、Dr. Martin Luth
er King, Jr.のスタイルで文章 "This nation will res
e up, and live out the true meaning of its creed,"
に対し図6の点線で示したフレーズのカーブを生成す
る。図中の実線は、生成されたfカーブを示し、これ
はフレーズのカーブとアクセントのテンプレートとの組
合せである。これに関しては以下の「アクセントテンプ
レートの例示」の項を参照のこと。シンボル“#”で始
まる後続のタグシーケンス内に挿入されたラインは解説
である。
【0056】Cname=step-to;pos=0.21;strength=
5;to=0; #第1の強調ワード"nation"上ににステップアップする Cname=step-to;pos=0.42;strength=5;to=1.
7; Cname=step-to;pos=1.60;strength=5;to=1.
7; #"rise"の上にさらにステップアップする Cname=step-to;pos=1.62;strength=5;to=1.8
5; Cname=step-to;pos=2.46;strength=5;to=1.8
5; #第2フレーズの開始 Cname=step-to;pos=3.8;strength=5;to=0.2; #第1の強調ワード"live"上にステップアップする Cname=step-to;pos=4.4;strength=5;to=2.0; Cname=step-to;pos=5.67;strength=5;to=2.
0; #フレーズの終了点でステップダウンする Cname=step-to;pos=6.28;strength=5;to=0.
4;
【0057】歌にスタイルを組み込んだ例 楽譜は実際の所未だうまく表すことができない。このた
め、違う演奏者は、同一の楽譜に基づいて非常に異なる
演奏を行う。本発明の一実施例においては、音楽的構成
物とフレーズの指定を用いて装飾を挿入し、演奏ルール
を実行する。このようなルールは、デフォルトのリズム
パターンと遅延と持続の調整を含む。
【0058】本発明による音楽入力フォーマットの一例
を次に示し、"Bicycle Built for Two"の歌の第1フレ
ーズを示す。この情報は、楽譜とオクターブ(コラム
1)、公称持続時間(コラム2)、テキスト(コラム
3、音素で表された)を指定する。コラム3は、語彙集
(lexicon)からのアクセント情報(二重の引用でマー
クされた強いアクセントと、ピリオドでマークされた弱
いアクセント)を含む。楽譜内の文字“t”は結合され
た楽譜を表し、点線は音節をワードで結ぶ。%のサイン
はフレーズの境界を表す。アステリスク(*)を含む横
線は、尺度の境界を表し、そのため歌の韻律に関する情
報を運ぶ。
【0059】3/4 b=260 % g2 3 “dA- ****************** e2 3.0 zE ****************** % c2 3 “dA- ****************** g1 3.0 zE ****************** % ****************** a1 1.00 “giv b1 1.00 mE c2 1.00 yUr ****************** a1 2.00 “an- c2 1.00 sR ****************** g1t 3.0 “dU- ****************** g1 2.0 g1 1.0 * %
【0060】本発明の一実施例によれば、楽譜は音声の
フレーズのカーブに似たものとして処理することができ
る。両方ともStem-ML step_toタグでもって構築され
る。音楽においては、ピッチレンジはオクターブとして
定義され、各ステップは指数関数のスケールでオクター
ブの1/12である。各楽譜は、step_toタグの対で制
御される。例えば、"Bicycle Built for Two"の最初の
4個の楽譜は、本発明の一実施例によれば、次のように
指定することができる。
【0061】#Dai- (Note G) Cname=step-to;pos=0.16;strength=8;to=1.99
66; Cname=step-to;pos=0.83;strength=8;to=1.99
66; #sy(Note E) Cname=step-to;pos=0.85;strength=8;to=1.51
98; Cname=step-to;pos=1.67;strength=8;to=1.51
98; #Dai-(Note C) Cname=step-to;pos=1.69;strength=8;to=1.00
00; Cname=step-to;pos=2.36;strength=8;to=1.00
00; #sy(Note G, one octave lower) Cname=step-to;pos=2.38;strength=8;to=0.49
83; Cname=step-to;pos=3.20;strength=8;to=0.49
83;
【0062】音楽のstep_toの強さの仕様/規定は非常
に強い(即ち、strength=8である)。これにより、タ
グが韻律評価素子を通過する際に指定された周波数を保
持する。
【0063】アクセントテンプレートの例 音声の中のワードアクセントと歌の中の装飾的楽譜は、
スタイルを指定したタグテンプレートで記載される。各
タグは適用範囲を有し、適用範囲内の韻律的特徴に強く
影響を与えるが、適用範囲外に行くにつれて影響が弱く
なる。言い換えると、タグの影響は多かれ少なかれ局部
的である。これらのテンプレートは、話す速度とピッチ
とは独立したものとして意図している。これらは、振幅
を換算するあるいは時間軸に沿って伸ばすことにより、
特定の適用範囲に合わせている。明白な話し方は、ある
アクセントのタイプに対し、特異の形状で伝えられる。
【0064】本発明により、歌に対しスタイルを合成/
生成する場合、装飾的楽譜のテンプレートを特定の場所
に置き、楽譜上に重ね合わせる。図7は、本発明で用い
られたDinah Sohreの歌い方の中の装飾部分のf(上
の線)と振幅(下の線)を示す。この装飾線は、その軌
跡中に2つのコブを有し、第1のfピークが振幅の谷
に一致している。装飾線の長さは、ある範囲内で楽譜の
長さでもって弾力的に延びる。短い楽譜(約350ミリ
秒)においては装飾は楽譜の長さをカバーするだけ延び
る。長い楽譜においては装飾は、最初に部分に影響を及
ぼすだけである。Dinah Sohreは、この特定の装飾をフ
レーズの最後の弱くなる楽譜内で用いた。特に終わりか
ら2番目の音節の楽譜が最後の楽譜の場合は特にそうで
ある。彼女はリズムワードを強調するためにこの装飾を
用いた。
【0065】Dr. Kingの演説においては、再現可能な、
話者が特定したアクセントのテンプレートが存在する。
図8は、図6で示したフレーズカーブを生成するために
本発明により用いられた3個のアクセントのテンプレー
トを示す。Dr. Kingのアクセントの選択は、フレーズの
位置から予測可能である。即ち、フレーズの開始点の立
ち上がりのアクセントと、強調されたワードとフレーズ
の終了点における落ちるアクセントと、それ以外の平坦
なアクセントから予測可能である。
【0066】いずれの場合にも、本発明によれば、タグ
が生成されるとタグは、韻律評価モジュール(図5の韻
律評価モジュール55)内に与えられ、そのモジュール
がStem-MLタグをfの時間列あるいは振幅を解釈す
る。
【0067】本発明の実験例 図5のシステムのタグ生成部門の出力は、タグテンプレ
ートの組である。以下は、合成信号の振幅を制御するタ
グを表す一部(truncated)の動作例である。他の韻律
パラメータは、合成信号の生成に用いられるが、類似す
るものであり、これらの例は説明を割愛する。
【0068】以下に示す最初の2つのラインは、我々が
シミュレートしているスタイルを部分的に規定するグロ
ーバルセッティングからなる。次のセクション(ユーザ
が規定するタグ)は、この特定のスタイルに対するタグ
テンプレートのデータベースである。初期化部分の後各
ラインはタグテンプレートに対応する。文字#で始まる
ラインは解説である。
【0069】#Global settings(汎用設定) add=1;base=1;range=1;smooth=0.06;pdroop
=0.2;adroop=1 #User-defined tags(ユーザが規定するタグ) name=SCOOP;shape=-0.1s0.7,0s1,0.5s0,1s
1.4,1.1s0.8 name=DROOP;shape=0s1,0.5s0.2,1s0; name=ORNAMENT;shape=0.0s1,0.12s-1,0.1
5s0,0.23s1 #Amplitude accents over music notes(楽譜の振幅ア
クセント) #Dai- ACname=SCOOP;pos=0.15;strength=1.43;w
scale=0.69 #sy ACname=SCOOP;pos=0.84;strength=1.08;w
scale=0.84 #Dai- ACname=SCOOP;pos=1.68;strength=1.43;w
scale=0.69 #sy ACname=SCOOP;pos=2.37;strength=1.08;w
scale=0.84 #give ACname=DROOP;pos=3.21;strength=1.08;w
scale=0.22 #me ACname=DROOP;pos=3.43;strength=0.00;w
scale=0.21 #your ACname=DROOP;pos=3.64;strength=0.00;w
scale=0.21
【0070】最後に韻律評価モジュールは、振幅の時間
列対時間との関係を生成する。図9は、上から下に順
に、振幅制御時間列と、音声振幅制御なしに合成器によ
り生成された音声信号と、音声振幅制御を行って合成器
により生成された音声信号とを示す。
【0071】本発明のアプリケーション 様々な有益なアプリケーションが、本発明の音声合成を
用いて実現できる。例えば、本発明の様々な実施例によ
れば、次のようなアプリケーションがある。 (1) 好ましい修事的スタイルをもった音声を読み上
げること (2) あるアプリケーションに対し複数の音声を作り
出すこと (3) 異なるキャラクターとして機能するようテキス
トから音声への発声を変換すること
【0072】様々なキャラクターとして機能するテキス
トから音声へ変換するアプリケーションは、様々な具体
的な目的、例えば以下のような例に有効である。 (1) eメールの読み上げ(eメールの送り主の「ボ
イスフォント」でeメールのテキストメッセージを読み
上げること、あるいはメッセージを含む読み出しヘッダ
のような異なる機能にサービスするために異なる音声を
用いる) (2) ニュースおよびウェブページの読み上げ(例え
ば、ヘッドライン、ニュースの中身、引用等を読むため
に異なる音声と読み方を用いる、ウェブページのセクシ
ョンとレイヤを分けるために異なる音声とスタイルを用
いる、目で見えるようなメッセージを送るために異なる
音声とスタイルを用いる、これは数式、下付文字、脚
注、太字あるいはイタリック文字のような非標準のテキ
ストを含む。)
【0073】(3) 注釈の付いた会話ベースの情報サ
ービス(例えば、情報の異なる発信源あるいは異なる機
能を反映するために、異なる音声を用いる、例えば、自
動コールセンターにおいて異なる音声とスタイルは、発
呼者が異なるサービスに切り換えられたときに用いられ
る)。 (4) ソフトウェアあるいはゲーム内の各キャラクタ
に対し、その年齢と特徴づけられた人間性を表すために
特別に用意されたそれ自身の音声を与える。 (5) サービスプロバイダーのサービスを他の競合他
社と区別するために特徴のある音声でもって「ブランド
差別化」する。 (6) 自動的に歌を歌いあるいは詩を読むこと
【0074】上記の議論は本発明の原理の単なる説明で
ある。当業者は本発明の原理を実現するために様々な他
の構成を工夫することができる。さらにまた、全ての実
施例およびここで用いられた言葉は本発明を理解するた
めに示したものであって本発明の範囲を限定するよう解
釈すべきものではない。さらにまた、本明細書に開示し
た原理、実施態様、実施例あるいは実験例は、そこに開
示された機能とそれの均等物を含む。さらにまた、これ
らの均等物は現在公知のものあるいは将来開発されるも
のを含む。
【0075】図面に示したブロックは、本発明を実施す
る回路の概念を表すものである。同様にフローチャート
等も様々なプロセスを表し、これらはコンピュータで読
み込み可能な媒体等で表すこともでき、かつコンピュー
タやプロセッサーで実行することができる。フローチャ
ートに示したブロックは、物理的構成要素を表すものと
して理解されるが、これらはまた、特許請求の範囲で特
定の機能を実行する手段として表されている。さらにま
た、フローチャートのブロックは、物理的な信号、記憶
された物理的データを表すものと理解されるが、これら
はコンピュータで読み込み可能な媒体、例えばディス
ク、半導体記憶デバイスに含めることができる。
【0076】図に示した様々な素子の機能、例えば「プ
ロセッサ」あるいは「モジュール」として示したもの
は、適宜のソフトウェアと、ソフトウェアを実行できる
ハードウェアおよび専用のハードウェアを用いて実現す
ることができる。プロセッサが用いられた場合には、こ
れらの機能は専用プロセッサ、あるいは共用プロセッサ
あるいはその組合せで実現できる。さらにまたプロセッ
サあるいはコントローラは、ソフトウェアを実行できる
ハードウェアを広く意味し、それらには例えばデジタル
信号プロセッサ(DSP)ハードウェア、ROM、RA
M、非揮発性メモリ等が含まれる。他のハードウェアも
含めることができる。同様に、図に示したスイッチは概
念的なものである。それらの機能はプログラムロッジク
の操作、専用ロッジク、プログラム制御と専用ロジック
の相互作用、さらにはまた手動によっても実現できる。
【0077】特許請求の範囲において、特定の機能を実
行する手段は、例えばその機能を実行する回路素子の組
合せ、あるいはソフトウェア、ファームウェア、マイク
ロコード等をそれらの機能実行するソフトウェアを実行
する適宜の回路と組み合わせたものを意図している。様
々な手段を組合せて機能を提供して本発明を達成するこ
ともできる。
【0078】以上の説明は、本発明の一実施例に関する
もので、この技術分野の当業者であれば、本発明の種々
の変形例を考え得るが、それらはいずれも本発明の技術
的範囲に包含される。尚、特許請求の範囲に記載した参
照番号がある場合は、発明の容易な理解のためで、その
技術的範囲を制限するよう解釈されるべきではない。
【図面の簡単な説明】
【図1】歌手Dinah Shoreが歌った歌"Bicycle built fo
r two" からの最初の4個の音節"Dai-sy Dai-sy"の振幅
のプロファイルを表す図
【図2】アマチュアの歌手の同一の4個の音節"Dai-sy
Dai-sy"の振幅のプロファイルを表す図
【図3】Dr. Martin Luther King, Jr.がしゃべった演
説"I have a dream"からの4個のフレーズに亘った基本
周波数fのトレースを表す図
【図4】ニュースを放送するプロのアナウンサの話した
文章のfのトレースを表す図
【図5】本発明の一実施例による音声の複数の話し方を
与えるテキストから音声への変換システムを表す図
【図6】本発明の一実施例をによるDr. Martin Luther
King, Jr.の話し方のアクセントと生成されたフレーズ
のカーブの例を表す図
【図7】本発明の一実施例で用いられるDinah Shoreの
歌い方の装飾を施したfと振幅のテンプレートを表す
【図8】図6に示したフレーズのカーブを生成するため
に本発明の一実施例で用いられるアクセントのテンプレ
ートを表す図
【図9】振幅制御時間列と、振幅制御を行っていない合
成器により生成された音声信号と、振幅制御を行った合
成器による生成された音声信号を表す図
【符号の説明】
51 分析機 52 タグ選択モジュール 53 タグテンプレートデータベース 54 タグ拡張モジュール 55 韻律評価モジュール 56 テキストから音声への合成モジュール 57 持続時間計算モジュール
───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 Mountain Avenue, Murray Hill, New Je rsey 07974−0636U.S.A. (72)発明者 グレゴリー ピー コハニスキ アメリカ合衆国、08812 ニュージャージ ー州、324 ダレネン、サード ストリー ト (72)発明者 チン・リン シー アメリカ合衆国、07922 ニュージャージ ー州、バークリー ハイツ、150 マクマ ネ アベニュー Fターム(参考) 5D045 AA09

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 音声制御情報ストリームに基づいて音声
    信号を合成する方法において、 前記音声信号は、選択的に合成されて特定の韻律スタイ
    ルを有し、 (A) 韻律制御を行うために音声の一部を特定するた
    めに、前記所定の音声制御情報ストリームを解析するス
    テップと、 (B) 前記音声信号合成を行うために選択された特定
    の韻律スタイルに基づいて、韻律制御テンプレートを選
    択するステップと、 (C) 前記選択された韻律制御テンプレートを前記所
    定の音声制御情報ストリームの特性された部分に適用し
    て、話し方であるスタイルを有した音声制御情報ストリ
    ームを生成するステップと、 (D) 合成音声信号が特定の韻律スタイルを有するよ
    うに、前記スタイルが付けられた音声制御情報ストリー
    ムに基づいて、前記音声信号を合成するステップとを有
    することを特徴とする音声制御情報ストリームに基づい
    て音声信号を合成する方法。
  2. 【請求項2】 前記音声は、音声信号を含み、 前記所定の音声制御情報ストリームは、所定のテキスト
    を含むことを特徴とする請求項1記載の方法。
  3. 【請求項3】 前記音声は、音声信号を含み、 前記所定の音声制御情報ストリームは、所定の注釈付き
    テキストを含むことを特徴とする請求項1記載の方法。
  4. 【請求項4】 前記音声信号は、歌う音声信号含み、 前記所定の音声制御情報ストリームは、所定の楽譜を含
    むことを特徴とする請求項1記載の方法。
  5. 【請求項5】 前記特定の韻律スタイルは、特定の人を
    表すことを特徴とする請求項1記載の方法。
  6. 【請求項6】 前記特定の韻律スタイルは、特定のグル
    ープの人を表すことを特徴とする請求項1記載の方法。
  7. 【請求項7】 前記(A)ステップは、所定の音声制御
    情報ストリームを解析し、そこから特徴を抽出すること
    を特徴とする請求項1記載の方法。
  8. 【請求項8】 前記韻律制御テンプレートは、タグテン
    プレートデータベースから選択されたタグテンプレート
    を含むことを特徴とする請求項1記載の方法。
  9. 【請求項9】 前記(C)ステップは、 (C1) 前記タグのテンプレートの各々をタグに拡張
    するステップと、 (C2) 前記タグを韻律特徴の時間列に変換するステ
    ップと、 (C3) 前記韻律特性の時間列に基づいて、前記スタ
    イルが付けられた音声制御情報ストリームを生成するス
    テップとを有することを特徴とする請求項8記載の方
    法。
  10. 【請求項10】 (E)音素持続時間を計算するステッ
    プをさらに有し、 前記(D)ステップは、前記音素の持続時間に基づいて
    行われることを特徴とする請求項1記載の方法。
  11. 【請求項11】 所定の音声制御情報ストリームに基づ
    いて音声信号を合成する装置において、前記音声信号
    は、選択的に合成されて特定の韻律スタイルを有し、 (A) 韻律制御を行うために音声の一部を特定するた
    めに、前記所定の音声制御情報ストリームを解析する手
    段と、 (B) 前記音声信号合成を行うために選択された特定
    の韻律スタイルに基づいて、韻律制御テンプレートを選
    択する手段と、 (C) 前記選択された韻律制御テンプレートを前記所
    定の音声制御情報ストリームの特性された部分に適用し
    てスタイルを有した音声制御情報ストリームを生成する
    手段と、 (D) 合成音声信号が特定の韻律スタイルを有するよ
    うに、前記スタイルが付けられた音声制御情報ストリー
    ムに基づいて前記音声信号を合成する手段とを有するこ
    とを特徴とする所定の音声制御情報ストリームに基づい
    て音声信号を合成する装置。
JP2002234977A 2001-08-22 2002-08-12 音声制御情報ストリームに基づいて音声信号を合成する方法 Withdrawn JP2003114693A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US31404301P 2001-08-22 2001-08-22
US60/314043 2001-08-22
US09/961,923 US6810378B2 (en) 2001-08-22 2001-09-24 Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US09/961923 2001-09-24

Publications (1)

Publication Number Publication Date
JP2003114693A true JP2003114693A (ja) 2003-04-18

Family

ID=26979178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002234977A Withdrawn JP2003114693A (ja) 2001-08-22 2002-08-12 音声制御情報ストリームに基づいて音声信号を合成する方法

Country Status (3)

Country Link
US (1) US6810378B2 (ja)
EP (1) EP1291847A3 (ja)
JP (1) JP2003114693A (ja)

Families Citing this family (189)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7941481B1 (en) 1999-10-22 2011-05-10 Tellme Networks, Inc. Updating an electronic phonebook over electronic communication networks
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7308408B1 (en) * 2000-07-24 2007-12-11 Microsoft Corporation Providing services for an information processing system using an audio interface
WO2002073595A1 (fr) * 2001-03-08 2002-09-19 Matsushita Electric Industrial Co., Ltd. Dispositif generateur de prosodie, procede de generation de prosodie, et programme
JP2003016008A (ja) * 2001-07-03 2003-01-17 Sony Corp 情報処理装置および情報処理方法、並びにプログラム
JP3709817B2 (ja) * 2001-09-03 2005-10-26 ヤマハ株式会社 音声合成装置、方法、及びプログラム
US20030101045A1 (en) * 2001-11-29 2003-05-29 Peter Moffatt Method and apparatus for playing recordings of spoken alphanumeric characters
US20040030554A1 (en) * 2002-01-09 2004-02-12 Samya Boxberger-Oberoi System and method for providing locale-specific interpretation of text data
US7401020B2 (en) * 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
US7024362B2 (en) * 2002-02-11 2006-04-04 Microsoft Corporation Objective measure for estimating mean opinion score of synthesized speech
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
DE60215296T2 (de) * 2002-03-15 2007-04-05 Sony France S.A. Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
JP4150198B2 (ja) * 2002-03-15 2008-09-17 ソニー株式会社 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US20040098266A1 (en) * 2002-11-14 2004-05-20 International Business Machines Corporation Personal speech font
EP1603116A1 (en) * 2003-02-19 2005-12-07 Matsushita Electric Industrial Co., Ltd. Speech recognition device and speech recognition method
US8826137B2 (en) * 2003-08-14 2014-09-02 Freedom Scientific, Inc. Screen reader having concurrent communication of non-textual information
US7386451B2 (en) * 2003-09-11 2008-06-10 Microsoft Corporation Optimization of an objective measure for estimating mean opinion score of synthesized speech
US8886538B2 (en) * 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example
US20050096909A1 (en) * 2003-10-29 2005-05-05 Raimo Bakis Systems and methods for expressive text-to-speech
US8103505B1 (en) * 2003-11-19 2012-01-24 Apple Inc. Method and apparatus for speech synthesis using paralinguistic variation
US20050144002A1 (en) * 2003-12-09 2005-06-30 Hewlett-Packard Development Company, L.P. Text-to-speech conversion with associated mood tag
US20050137880A1 (en) * 2003-12-17 2005-06-23 International Business Machines Corporation ESPR driven text-to-song engine
US20050187772A1 (en) * 2004-02-25 2005-08-25 Fuji Xerox Co., Ltd. Systems and methods for synthesizing speech using discourse function level prosodic features
KR100590553B1 (ko) * 2004-05-21 2006-06-19 삼성전자주식회사 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
EP1872361A4 (en) * 2005-03-28 2009-07-22 Lessac Technologies Inc HYBRID SPEECH SYNTHESIZER, METHOD AND USE
JP5259050B2 (ja) * 2005-03-30 2013-08-07 京セラ株式会社 音声合成機能付き文字情報表示装置、およびその音声合成方法、並びに音声合成プログラム
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US8977636B2 (en) * 2005-08-19 2015-03-10 International Business Machines Corporation Synthesizing aggregate data of disparate data types into data of a uniform data type
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
CN1953052B (zh) * 2005-10-20 2010-09-08 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
US8694319B2 (en) * 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data
KR100644814B1 (ko) * 2005-11-08 2006-11-14 한국전자통신연구원 발화 스타일 조절을 위한 운율모델 생성 방법 및 이를이용한 대화체 음성합성 장치 및 방법
US8600753B1 (en) * 2005-12-30 2013-12-03 At&T Intellectual Property Ii, L.P. Method and apparatus for combining text to speech and recorded prompts
US20070174396A1 (en) * 2006-01-24 2007-07-26 Cisco Technology, Inc. Email text-to-speech conversion in sender's voice
US9135339B2 (en) * 2006-02-13 2015-09-15 International Business Machines Corporation Invoking an audio hyperlink
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
CN101051459A (zh) * 2006-04-06 2007-10-10 株式会社东芝 基频和停顿预测及语音合成的方法和装置
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080084974A1 (en) * 2006-09-25 2008-04-10 International Business Machines Corporation Method and system for interactively synthesizing call center responses using multi-language text-to-speech synthesizers
GB2444539A (en) * 2006-12-07 2008-06-11 Cereproc Ltd Altering text attributes in a text-to-speech converter to change the output speech characteristics
US9318100B2 (en) 2007-01-03 2016-04-19 International Business Machines Corporation Supplementing audio recorded in a media file
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101295504B (zh) * 2007-04-28 2013-03-27 诺基亚公司 用于仅文本的应用的娱乐音频
US20090071315A1 (en) * 2007-05-04 2009-03-19 Fortuna Joseph A Music analysis and generation method
US8131549B2 (en) 2007-05-24 2012-03-06 Microsoft Corporation Personality-based device
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8265936B2 (en) * 2008-06-03 2012-09-11 International Business Machines Corporation Methods and system for creating and editing an XML-based speech synthesis document
US10127231B2 (en) * 2008-07-22 2018-11-13 At&T Intellectual Property I, L.P. System and method for rich media annotation
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US20100066742A1 (en) * 2008-09-18 2010-03-18 Microsoft Corporation Stylized prosody for speech synthesis-based applications
US8374881B2 (en) 2008-11-26 2013-02-12 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with dialog acts
JP4785909B2 (ja) * 2008-12-04 2011-10-05 株式会社ソニー・コンピュータエンタテインメント 情報処理装置
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8401849B2 (en) * 2008-12-18 2013-03-19 Lessac Technologies, Inc. Methods employing phase state analysis for use in speech synthesis and recognition
US8954328B2 (en) * 2009-01-15 2015-02-10 K-Nfb Reading Technology, Inc. Systems and methods for document narration with multiple characters having multiple moods
US8645140B2 (en) * 2009-02-25 2014-02-04 Blackberry Limited Electronic device and method of associating a voice font with a contact for text-to-speech conversion at the electronic device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US8150695B1 (en) * 2009-06-18 2012-04-03 Amazon Technologies, Inc. Presentation of written works based on character identities and attributes
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8571870B2 (en) * 2010-02-12 2013-10-29 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8949128B2 (en) 2010-02-12 2015-02-03 Nuance Communications, Inc. Method and apparatus for providing speech output for speech-enabled applications
US8447610B2 (en) 2010-02-12 2013-05-21 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20120046948A1 (en) * 2010-08-23 2012-02-23 Leddy Patrick J Method and apparatus for generating and distributing custom voice recordings of printed text
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
GB2501067B (en) * 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9824695B2 (en) * 2012-06-18 2017-11-21 International Business Machines Corporation Enhancing comprehension in voice communications
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9570066B2 (en) * 2012-07-16 2017-02-14 General Motors Llc Sender-responsive text-to-speech processing
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9761247B2 (en) 2013-01-31 2017-09-12 Microsoft Technology Licensing, Llc Prosodic and lexical addressee detection
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
AU2014278592B2 (en) 2013-06-09 2017-09-07 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US9786296B2 (en) 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9472182B2 (en) 2014-02-26 2016-10-18 Microsoft Technology Licensing, Llc Voice font speaker and prosody interpolation
US9412358B2 (en) * 2014-05-13 2016-08-09 At&T Intellectual Property I, L.P. System and method for data-driven socially customized models for language generation
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10339925B1 (en) * 2016-09-26 2019-07-02 Amazon Technologies, Inc. Generation of automated message responses
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10586079B2 (en) 2016-12-23 2020-03-10 Soundhound, Inc. Parametric adaptation of voice synthesis
US10818308B1 (en) * 2017-04-28 2020-10-27 Snap Inc. Speech characteristic recognition and conversion
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10600404B2 (en) * 2017-11-29 2020-03-24 Intel Corporation Automatic speech imitation
US10671251B2 (en) 2017-12-22 2020-06-02 Arbordale Publishing, LLC Interactive eReader interface generation based on synchronization of textual and audial descriptors
US11443646B2 (en) 2017-12-22 2022-09-13 Fathom Technologies, LLC E-Reader interface system with audio and highlighting synchronization for digital books
US10706347B2 (en) 2018-09-17 2020-07-07 Intel Corporation Apparatus and methods for generating context-aware artificial intelligence characters
CN111326136B (zh) * 2020-02-13 2022-10-14 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及存储介质
CN112786008B (zh) * 2021-01-20 2024-04-12 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN112786007B (zh) * 2021-01-20 2024-01-26 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN113763918A (zh) * 2021-08-18 2021-12-07 单百通 文本语音转化方法、装置、电子设备及可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
JP3083640B2 (ja) * 1992-05-28 2000-09-04 株式会社東芝 音声合成方法および装置
US5860064A (en) 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
JP3841596B2 (ja) * 1999-09-08 2006-11-01 パイオニア株式会社 音素データの生成方法及び音声合成装置

Also Published As

Publication number Publication date
EP1291847A2 (en) 2003-03-12
US6810378B2 (en) 2004-10-26
EP1291847A3 (en) 2003-04-09
US20030078780A1 (en) 2003-04-24

Similar Documents

Publication Publication Date Title
JP2003114693A (ja) 音声制御情報ストリームに基づいて音声信号を合成する方法
Kochanski et al. Prosody modeling with soft templates
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
US6865533B2 (en) Text to speech
JP4125362B2 (ja) 音声合成装置
US7877259B2 (en) Prosodic speech text codes and their use in computerized speech systems
US5940797A (en) Speech synthesis method utilizing auxiliary information, medium recorded thereon the method and apparatus utilizing the method
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
EP2188729A1 (en) System-effected text annotation for expressive prosody in speech synthesis and recognition
JP2002221980A (ja) テキスト音声変換装置
JP2003084800A (ja) 音声による感情合成方法及び装置
Ogden et al. ProSynth: an integrated prosodic approach to device-independent, natural-sounding speech synthesis
JP2006227589A (ja) 音声合成装置および音声合成方法
Hill et al. Low-level articulatory synthesis: A working text-to-speech solution and a linguistic tool1
KR102168529B1 (ko) 인공신경망을 이용한 가창음성 합성 방법 및 장치
KR0146549B1 (ko) 한국어 텍스트/음성 변환 방법
JP2806364B2 (ja) 発声訓練装置
Gahlawat et al. Integrating human emotions with spatial speech using optimized selection of acoustic phonetic units
JPH0580791A (ja) 音声規則合成装置および方法
Shih et al. Prosody control for speaking and singing styles
JPH05224689A (ja) 音声合成装置
Hinterleitner et al. Speech synthesis
Shih et al. Synthesis of prosodic styles
Shih et al. Modeling of vocal styles using portable features and placement rules
JPH1063287A (ja) 発音訓練装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051101