JP2003295882A - 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム - Google Patents
音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラムInfo
- Publication number
- JP2003295882A JP2003295882A JP2002100467A JP2002100467A JP2003295882A JP 2003295882 A JP2003295882 A JP 2003295882A JP 2002100467 A JP2002100467 A JP 2002100467A JP 2002100467 A JP2002100467 A JP 2002100467A JP 2003295882 A JP2003295882 A JP 2003295882A
- Authority
- JP
- Japan
- Prior art keywords
- text
- voice
- prosody
- speech
- change
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 25
- 230000002194 synthesizing effect Effects 0.000 title claims description 18
- 230000015572 biosynthetic process Effects 0.000 title claims description 15
- 238000003786 synthesis reaction Methods 0.000 title claims description 15
- 238000004590 computer program Methods 0.000 title claims description 5
- 230000008859 change Effects 0.000 claims description 62
- 230000008451 emotion Effects 0.000 claims description 18
- 238000001308 synthesis method Methods 0.000 claims description 12
- 230000008685 targeting Effects 0.000 claims description 2
- 230000033764 rhythmic process Effects 0.000 abstract 2
- 238000004458 analytical method Methods 0.000 description 33
- 230000006870 function Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 244000228957 Ferula foetida Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Abstract
(57)【要約】
【課題】 出力対象のテキストのうち、所望の範囲の韻
律を連続的且つ容易に変化させる。 【解決手段】 出力対象の入力文のうち所望の範囲を、
例えば、開始タグ<morphing type="express" start="h
appy" end="angry">と、終了タグ</morphing>とによ
って囲むことにより、合成音声の出力に際して、徐々に
楽しい音声から怒ったような音声に変化しながら、韻律
を連続的に変化させる。
律を連続的且つ容易に変化させる。 【解決手段】 出力対象の入力文のうち所望の範囲を、
例えば、開始タグ<morphing type="express" start="h
appy" end="angry">と、終了タグ</morphing>とによ
って囲むことにより、合成音声の出力に際して、徐々に
楽しい音声から怒ったような音声に変化しながら、韻律
を連続的に変化させる。
Description
【0001】
【発明の属する技術分野】本発明は、入力された文章
(テキスト)を、合成音声としてスピーカから出力する
音声合成装置の分野に関する。
(テキスト)を、合成音声としてスピーカから出力する
音声合成装置の分野に関する。
【0002】
【従来の技術】従来より、入力された文章(テキスト)
を、合成音声としてスピーカから出力する音声合成装置
が提案されている。
を、合成音声としてスピーカから出力する音声合成装置
が提案されている。
【0003】このような装置を使用してテキストから合
成音声を作成する場合には、聞き手であるユーザが自然
な音声として聞き取り易いように、発声(出力)する音
声に強さ、速度、ピッチ等の変化を与えそれにより表現
力を高めるため、合成音声を出力する際の韻律を制御す
る必要がある。
成音声を作成する場合には、聞き手であるユーザが自然
な音声として聞き取り易いように、発声(出力)する音
声に強さ、速度、ピッチ等の変化を与えそれにより表現
力を高めるため、合成音声を出力する際の韻律を制御す
る必要がある。
【0004】このため、テキストの文字列に含まれる所
定の規則に基づく合成音声の出力する場合においても、
そのテキスト内に所望の言語情報を付加することが試み
られている。
定の規則に基づく合成音声の出力する場合においても、
そのテキスト内に所望の言語情報を付加することが試み
られている。
【0005】この場合、テキストに与えられる付加情報
には、例えば、タグと呼ばれる所謂HTML(Hyper Tex
t Markup Language)で用いられるような、付加情報を”
<>”で表わされるタグによって囲む書式が使われてお
り、このタグを用いて、入力文に対する音声合成音の制
御を用いて行なうという方式が提案されている。
には、例えば、タグと呼ばれる所謂HTML(Hyper Tex
t Markup Language)で用いられるような、付加情報を”
<>”で表わされるタグによって囲む書式が使われてお
り、このタグを用いて、入力文に対する音声合成音の制
御を用いて行なうという方式が提案されている。
【0006】
【発明が解決しようとする課題】しかしながら、このよ
うな従来のタグ付け方式では、文や単語等の離散的な単
位でタグ付けを行なうことによって所定の固定値を設定
するため、入力文内の様々な文字や単語に対応する合成
音声を適当な韻律を連続的に変化させながら出力するこ
とを目的としているものの、実際に合成音声が出力され
る際には、離散的な変化しか行なうことができず、聞き
手にとって不自然な韻律となる。
うな従来のタグ付け方式では、文や単語等の離散的な単
位でタグ付けを行なうことによって所定の固定値を設定
するため、入力文内の様々な文字や単語に対応する合成
音声を適当な韻律を連続的に変化させながら出力するこ
とを目的としているものの、実際に合成音声が出力され
る際には、離散的な変化しか行なうことができず、聞き
手にとって不自然な韻律となる。
【0007】また、音声の韻律を連続的に変化させる技
術としては、例えば、音声モーフィングという方法が特
開平9−244693に提案されているが、この方法で
は、ピッチパターンしか補間することができず、聞き手
にとってやはり不自然な韻律となる。
術としては、例えば、音声モーフィングという方法が特
開平9−244693に提案されているが、この方法で
は、ピッチパターンしか補間することができず、聞き手
にとってやはり不自然な韻律となる。
【0008】更にこれらの方法では、入力文中のタグで
囲まれた部分の韻律を出力に際して連続的に変化させる
場合、韻律の変化点に的確にタグを付与しなければなら
ないため、タグ付けの作業が面倒であり、結局、離散的
な変化しか得られない。また、音声モーフィングの場合
も、変化させる対象が、感情であった場合、楽しい声か
ら怒った声等といった変化は連続的には行なうことがで
きない。
囲まれた部分の韻律を出力に際して連続的に変化させる
場合、韻律の変化点に的確にタグを付与しなければなら
ないため、タグ付けの作業が面倒であり、結局、離散的
な変化しか得られない。また、音声モーフィングの場合
も、変化させる対象が、感情であった場合、楽しい声か
ら怒った声等といった変化は連続的には行なうことがで
きない。
【0009】そこで本発明は、出力対象のテキストのう
ち、所望の範囲の韻律を連続的且つ容易に変化させるこ
とを目的とする。
ち、所望の範囲の韻律を連続的且つ容易に変化させるこ
とを目的とする。
【0010】
【課題を解決するための手段】上記の目的を達成するた
め、本発明に係る音声合成方法は、以下の構成を特徴と
する。
め、本発明に係る音声合成方法は、以下の構成を特徴と
する。
【0011】即ち、入力されたテキストに対応する合成
音声を出力するに際して、そのテキストに含まれる所定
の識別子が付与された範囲の韻律が変化するように、音
声波形を合成する音声合成方法であって、出力対象のテ
キストのうち、韻律を連続的に変化させようとする所望
の範囲を、韻律の変化の態様を表わす属性情報を含む所
定の識別子を用いて設定する設定工程と、前記設定工程
にて設定された識別子付きのテキストを対象として、前
記所定の識別子及びその中に含まれる属性情報の種類を
認識する認識工程と、前記識別子付きのテキストのう
ち、前記所望の範囲内のテキストに対応する標準音声波
形を、前記認識工程における認識結果に従って補間する
ことにより、前記所定の識別子に含まれる属性情報に従
って、韻律が連続的に変化する音声波形を合成する音声
合成工程とを有することを特徴とする。
音声を出力するに際して、そのテキストに含まれる所定
の識別子が付与された範囲の韻律が変化するように、音
声波形を合成する音声合成方法であって、出力対象のテ
キストのうち、韻律を連続的に変化させようとする所望
の範囲を、韻律の変化の態様を表わす属性情報を含む所
定の識別子を用いて設定する設定工程と、前記設定工程
にて設定された識別子付きのテキストを対象として、前
記所定の識別子及びその中に含まれる属性情報の種類を
認識する認識工程と、前記識別子付きのテキストのう
ち、前記所望の範囲内のテキストに対応する標準音声波
形を、前記認識工程における認識結果に従って補間する
ことにより、前記所定の識別子に含まれる属性情報に従
って、韻律が連続的に変化する音声波形を合成する音声
合成工程とを有することを特徴とする。
【0012】好適な実施形態において、前記所定の識別
子に含まれる属性情報は、その識別子によって設定され
た範囲に関して、その範囲の開始位置における韻律の変
化の態様と、終了位置における韻律の変化の態様とを表
わすと良い。
子に含まれる属性情報は、その識別子によって設定され
た範囲に関して、その範囲の開始位置における韻律の変
化の態様と、終了位置における韻律の変化の態様とを表
わすと良い。
【0013】また、例えば、前記属性情報が表わす韻律
の変化の態様は、音量の変化、発話者の変化、発話者数
の変化、感情の変化、発話スピードの変化、並びに基本
周波数の変化のうち、少なくとも何れかであることを特
徴とする。
の変化の態様は、音量の変化、発話者の変化、発話者数
の変化、感情の変化、発話スピードの変化、並びに基本
周波数の変化のうち、少なくとも何れかであることを特
徴とする。
【0014】また、例えば前記音声合成工程では、前記
所定の識別子に含まれる識別子によって設定された範囲
の開始位置及び終了位置に関する属性情報と、その開始
位置以前の韻律の態様とに基づいて、前記所望の範囲内
のテキストに対応する標準音声波形を補間することを特
徴とし、より具体的には、 ・前記開始位置及び終了位置に関する属性情報として設
定されている発話スピードを表わす値と、前記開始位置
以前の発話スピードを表わす値との比率に基づいて、前
記所望の範囲内のテキストに対応する標準音声波形を補
間する、或いは、 ・前記開始位置及び終了位置に関する属性情報として設
定されている音量を表わす値と、前記開始位置以前の音
量を表わす値との比率に基づいて、前記所望の範囲内の
テキストに対応する標準音声波形を補間すると良い。
所定の識別子に含まれる識別子によって設定された範囲
の開始位置及び終了位置に関する属性情報と、その開始
位置以前の韻律の態様とに基づいて、前記所望の範囲内
のテキストに対応する標準音声波形を補間することを特
徴とし、より具体的には、 ・前記開始位置及び終了位置に関する属性情報として設
定されている発話スピードを表わす値と、前記開始位置
以前の発話スピードを表わす値との比率に基づいて、前
記所望の範囲内のテキストに対応する標準音声波形を補
間する、或いは、 ・前記開始位置及び終了位置に関する属性情報として設
定されている音量を表わす値と、前記開始位置以前の音
量を表わす値との比率に基づいて、前記所望の範囲内の
テキストに対応する標準音声波形を補間すると良い。
【0015】或いは、同目的を達成すべく、音声合成に
よる出力対象のテキストのうち、所望の範囲の韻律を変
化させるべく所定の識別子が付与された音声合成用テキ
スト構造であって、 前記所定の識別子には、韻律を連続的に変化させる際の
変化の態様を表わす属性情報が含まれることを特徴とす
る。
よる出力対象のテキストのうち、所望の範囲の韻律を変
化させるべく所定の識別子が付与された音声合成用テキ
スト構造であって、 前記所定の識別子には、韻律を連続的に変化させる際の
変化の態様を表わす属性情報が含まれることを特徴とす
る。
【0016】尚、同目的は、上記の各構成を有する音声
合成方法に対応する音声合成装置によっても達成され
る。
合成方法に対応する音声合成装置によっても達成され
る。
【0017】また、同目的は、上記の各構成を有する音
声合成方法または装置を、コンピュータによって実現す
るプログラムコード、及びそのプログラムコードが格納
されている、コンピュータ読み取り可能な記憶媒体によ
っても達成される。
声合成方法または装置を、コンピュータによって実現す
るプログラムコード、及びそのプログラムコードが格納
されている、コンピュータ読み取り可能な記憶媒体によ
っても達成される。
【0018】
【発明の実施の形態】以下、本発明に係る音声合成装置
の実施形態を、図面を参照して詳細に説明する。
の実施形態を、図面を参照して詳細に説明する。
【0019】[第1の実施形態]はじめに、本実施形態
に係る音声合成装置の構成について、図1を参照して概
説する。
に係る音声合成装置の構成について、図1を参照して概
説する。
【0020】図1は、第1の実施形態における音声合成
装置のブロック構成図であり、採用可能なハードウエア
としては、例えばパーソナルコンピュータ等の一般的な
情報処理装置を採用することができる。
装置のブロック構成図であり、採用可能なハードウエア
としては、例えばパーソナルコンピュータ等の一般的な
情報処理装置を採用することができる。
【0021】同図において、音声出力の対象となるタグ
付きテキストの作成に関しては、テキスト本文を作成す
るテキスト作成部101、そのテキスト内の所望位置に
所定のタグおよびそのタグ内に属性を挿入することによ
り、タグ付きテキスト103を作成するタグ作成部10
2を備える。テキスト作成部101では、メールやニュ
ース、雑誌、書籍等の様々な情報源に基づくテキストが
作成される。その際、タグおよびテキストを書くための
エディタは、どのようなソフトウエアを用いてもよい。
付きテキストの作成に関しては、テキスト本文を作成す
るテキスト作成部101、そのテキスト内の所望位置に
所定のタグおよびそのタグ内に属性を挿入することによ
り、タグ付きテキスト103を作成するタグ作成部10
2を備える。テキスト作成部101では、メールやニュ
ース、雑誌、書籍等の様々な情報源に基づくテキストが
作成される。その際、タグおよびテキストを書くための
エディタは、どのようなソフトウエアを用いてもよい。
【0022】尚、テキスト作成部101及びタグ作成部
102は、外部装置であっても、音声合成装置自体が備
えていても良い。
102は、外部装置であっても、音声合成装置自体が備
えていても良い。
【0023】タグ付きテキスト103は、通信回線また
は携帯可能な記憶媒体(CD−R等)を介して、テキス
ト入力部104に入力される。テキスト入力部104に
入力されたタグ付きテキスト103は、テキスト解析部
105にてテキスト部分が解析され、タグ解析部106
にてタグ部分が解析される。更に本実施形態では、タグ
属性解析部107においてタグの内部に含まれる属性情
報が解析される(祖父際は後述する)。
は携帯可能な記憶媒体(CD−R等)を介して、テキス
ト入力部104に入力される。テキスト入力部104に
入力されたタグ付きテキスト103は、テキスト解析部
105にてテキスト部分が解析され、タグ解析部106
にてタグ部分が解析される。更に本実施形態では、タグ
属性解析部107においてタグの内部に含まれる属性情
報が解析される(祖父際は後述する)。
【0024】言語処理部108は、言語情報が予め記憶
されている言語辞書110を参照しながら、アクセント
等の音声を出力する上で必要となる言語情報を処理す
る。そして、音声合成部109は、韻律音素等が予め記
憶されている韻律・波形辞書111を参照しながら、実
際に出力すべき音声を表わす合成波形を生成すると共
に、その合成波形に基づいて、スピーカ(不図示)から
合成音声を出力する。
されている言語辞書110を参照しながら、アクセント
等の音声を出力する上で必要となる言語情報を処理す
る。そして、音声合成部109は、韻律音素等が予め記
憶されている韻律・波形辞書111を参照しながら、実
際に出力すべき音声を表わす合成波形を生成すると共
に、その合成波形に基づいて、スピーカ(不図示)から
合成音声を出力する。
【0025】次に、本実施形態における特徴的な構成に
ついて説明する。
ついて説明する。
【0026】タグ作成部102では、テキスト作成部1
01にて作成されたテキスト内に、所定のタグおよび属
性が挿入される。その際、タグは、テキスト内のユーザ
所望の位置に挿入可能であって、所謂画像処理における
モーフィングの如く、滑らかに音声の韻律を変化させた
い部分に付与することができる。また、個々のタグ内に
は、属性(属性情報)と呼ぶ付加情報を書き込むことが
できる。即ち、文字や単語が並ぶテキストのうち、韻律
を滑らかに変化させたい部分の始点と終点とに所定のタ
グ<morphing ・・・>及び</morphing>が付与され、
そのタグ内には、韻律を連続的に変化させるべき対象、
換言すれば、韻律を連続的に変化させる際の変化の態様
を表わす属性情報が書き込まれる。
01にて作成されたテキスト内に、所定のタグおよび属
性が挿入される。その際、タグは、テキスト内のユーザ
所望の位置に挿入可能であって、所謂画像処理における
モーフィングの如く、滑らかに音声の韻律を変化させた
い部分に付与することができる。また、個々のタグ内に
は、属性(属性情報)と呼ぶ付加情報を書き込むことが
できる。即ち、文字や単語が並ぶテキストのうち、韻律
を滑らかに変化させたい部分の始点と終点とに所定のタ
グ<morphing ・・・>及び</morphing>が付与され、
そのタグ内には、韻律を連続的に変化させるべき対象、
換言すれば、韻律を連続的に変化させる際の変化の態様
を表わす属性情報が書き込まれる。
【0027】ここで、属性情報の書き込みは、テキスト
の作成に際してユーザが行なう。また、。タグの設定及
びタグ内の各種属性の設定についても、ユーザによって
行なわれる。尚、これらのタグの設定及び属性値の設定
は、高機能エディタなどにより、自動または半自動で設
定されるように構成しても良い。
の作成に際してユーザが行なう。また、。タグの設定及
びタグ内の各種属性の設定についても、ユーザによって
行なわれる。尚、これらのタグの設定及び属性値の設定
は、高機能エディタなどにより、自動または半自動で設
定されるように構成しても良い。
【0028】タグ内に埋め込まれる属性情報は、例え
ば、音量、発話者、発話者数、感情、発話スピード、基
本周波数等に関する情報である。この他にも、合成音声
の出力に際して連続的に変化させること(本実施形態で
は「モーフィング」と称する)ができる事項であれば、
他のものであっても良い。
ば、音量、発話者、発話者数、感情、発話スピード、基
本周波数等に関する情報である。この他にも、合成音声
の出力に際して連続的に変化させること(本実施形態で
は「モーフィング」と称する)ができる事項であれば、
他のものであっても良い。
【0029】また、属性情報は、テキスト内に設定され
た始点タグと終点タグとで異なっても良いし同じでも良
い。始点と終点とで属性情報が同じ場合には、合成音声
の実際の出力に際して、その属性情報に関して韻律の変
化はなく始点タグによって設定された当該属性情報に応
じた音声が出力される。
た始点タグと終点タグとで異なっても良いし同じでも良
い。始点と終点とで属性情報が同じ場合には、合成音声
の実際の出力に際して、その属性情報に関して韻律の変
化はなく始点タグによって設定された当該属性情報に応
じた音声が出力される。
【0030】また、タグ内に埋め込まれる属性情報に対
応する値は、属性が音量であれば、数値である。また、
発話者であれば、男性や女性もしくは話者の識別番号
(ID)等を指定することができる。
応する値は、属性が音量であれば、数値である。また、
発話者であれば、男性や女性もしくは話者の識別番号
(ID)等を指定することができる。
【0031】図2は、テキストに付与されたタグの例を
示す図であり、この例では、韻律を連続的に変化させる
べき範囲が、開始タグ<morphing ・・・>と、終了タ
グ</morphing>とで囲まれた範囲であることを示す。
そして開始タグ<morphing・・・・>内の属性には、韻
律を連続的に変化させるべき対象である感情(express)
と、始点(start)における感情と終点(end)における感情
とが記述されている。このため、この文の合成音声が実
際に出力された際には、タグ内で囲まれた文章が、徐々
に楽しい音声から怒ったような音声に変化しながら発音
される。
示す図であり、この例では、韻律を連続的に変化させる
べき範囲が、開始タグ<morphing ・・・>と、終了タ
グ</morphing>とで囲まれた範囲であることを示す。
そして開始タグ<morphing・・・・>内の属性には、韻
律を連続的に変化させるべき対象である感情(express)
と、始点(start)における感情と終点(end)における感情
とが記述されている。このため、この文の合成音声が実
際に出力された際には、タグ内で囲まれた文章が、徐々
に楽しい音声から怒ったような音声に変化しながら発音
される。
【0032】本実施形態に係る音声合成装置のテキスト
入力部104には、前記の如くタグが付与されたタグ付
きテキスト103が入力され、テキスト解析部105で
は、入力されたタグ付きテキスト103のフォーマット
およびテキストのヘッダ部の情報に基づいて、テキスト
の種類、内容等に関する情報が取得される。
入力部104には、前記の如くタグが付与されたタグ付
きテキスト103が入力され、テキスト解析部105で
は、入力されたタグ付きテキスト103のフォーマット
およびテキストのヘッダ部の情報に基づいて、テキスト
の種類、内容等に関する情報が取得される。
【0033】次に、タグ解析部106では、入力された
タグ付きテキスト103内に埋め込まれたタグがどのよ
うな種類であるかが判定される。タグ属性解析部107
では、タグ内に記述されている属性および属性値がどの
ようなものであるかが解析される。
タグ付きテキスト103内に埋め込まれたタグがどのよ
うな種類であるかが判定される。タグ属性解析部107
では、タグ内に記述されている属性および属性値がどの
ようなものであるかが解析される。
【0034】そして、言語処理部108および音声合成
部109では、テキスト解析部105にて解析されたテ
キストに対応する音素として韻律・波形辞書111から
読み出された標準音声波形に対して、タグ属性解析部1
07にて取得した属性値に基づく補間が施されることに
より、出力すべき音声波形が生成され、その音声波形に
応じた合成音声が出力される(尚、属性値に基づく補間
については後述する)。
部109では、テキスト解析部105にて解析されたテ
キストに対応する音素として韻律・波形辞書111から
読み出された標準音声波形に対して、タグ属性解析部1
07にて取得した属性値に基づく補間が施されることに
より、出力すべき音声波形が生成され、その音声波形に
応じた合成音声が出力される(尚、属性値に基づく補間
については後述する)。
【0035】次に、タグ解析部106において<morphi
ng>・・・・・</morphing>タグ内の属性値を取り出
す方法について、図3を用いて説明する。
ng>・・・・・</morphing>タグ内の属性値を取り出
す方法について、図3を用いて説明する。
【0036】図3は、第1の実施形態における音声合成
装置の制御処理を示すフローチャートであり、同装置の
不図示のCPUが行なう処理の手順を表わす。
装置の制御処理を示すフローチャートであり、同装置の
不図示のCPUが行なう処理の手順を表わす。
【0037】同図において、テキスト入力部104によ
って入力されたタグ付きテキスト103に対して、テキ
スト解析部105、タグ解析部106、タグ属性解析部
107によるテキスト解析、タグ解析、タグ属性解析を
行なう(ステップS301〜ステップS303)。
って入力されたタグ付きテキスト103に対して、テキ
スト解析部105、タグ解析部106、タグ属性解析部
107によるテキスト解析、タグ解析、タグ属性解析を
行なう(ステップS301〜ステップS303)。
【0038】次に開始タグ<morphing・・・・>内に、
属性、対象、始点、終点が存在するかどうか調べる(ス
テップS304)。まず、モーフィング対象の属性値が
存在するかを調べ、モーフィング対象の属性値がなけれ
ば、そのタグの前文で読み上げれられていた音声に従っ
て、開始タグと終了タグとに挟まれた文字や単語を読み
上げる(ステップS305)。一方、モーフィング対象
の属性値が存在する場合には、始点および終点の属性が
どちらか一方でも存在するかどうかを調べる(ステップ
S306)。
属性、対象、始点、終点が存在するかどうか調べる(ス
テップS304)。まず、モーフィング対象の属性値が
存在するかを調べ、モーフィング対象の属性値がなけれ
ば、そのタグの前文で読み上げれられていた音声に従っ
て、開始タグと終了タグとに挟まれた文字や単語を読み
上げる(ステップS305)。一方、モーフィング対象
の属性値が存在する場合には、始点および終点の属性が
どちらか一方でも存在するかどうかを調べる(ステップ
S306)。
【0039】始点及び終点共に属性値が存在しなけれ
ば、予め設定されているモーフィング対象のデフォルト
の属性値に応じた合成音で、開始タグと終了タグとに挟
まれた文字や単語を読み上げる(ステップS307)。
一方、始点または終点に属性値が存在する場合には、始
点に対する属性値が存在するかについて調べる(ステッ
プS308)。そして、始点の属性値が存在しなけれ
ば、終点の属性値と、モーフィング対象の属性値とが一
致するかを判断することにより、それらが正当なもの
(一致する)であるかを調べ(ステップS309)、一
致する場合には終点の属性値を用いる(ステップS31
1)。ステップS309では、例えば、モーフィング対
象がボリュームなら、終点の属性値はボリューム値であ
るかどうかを調べ、その結果、異なっていなければ、終
点の情報で読み上げ、異なっていれば対象の属性値に対
して予め用意されたデフォルトの合成音で、開始タグと
終了タグとに挟まれた文字や単語を読み上げる(ステッ
プS310)。
ば、予め設定されているモーフィング対象のデフォルト
の属性値に応じた合成音で、開始タグと終了タグとに挟
まれた文字や単語を読み上げる(ステップS307)。
一方、始点または終点に属性値が存在する場合には、始
点に対する属性値が存在するかについて調べる(ステッ
プS308)。そして、始点の属性値が存在しなけれ
ば、終点の属性値と、モーフィング対象の属性値とが一
致するかを判断することにより、それらが正当なもの
(一致する)であるかを調べ(ステップS309)、一
致する場合には終点の属性値を用いる(ステップS31
1)。ステップS309では、例えば、モーフィング対
象がボリュームなら、終点の属性値はボリューム値であ
るかどうかを調べ、その結果、異なっていなければ、終
点の情報で読み上げ、異なっていれば対象の属性値に対
して予め用意されたデフォルトの合成音で、開始タグと
終了タグとに挟まれた文字や単語を読み上げる(ステッ
プS310)。
【0040】また、ステップS308において始点の属
性値が存在すると判断された場合であって終点の属性値
がない場合には、始点の属性値に従い読み上げる(ステ
ップS312、ステップS315)。この場合も同様
に、対象との正当性を調べ一致していれば、始点の属性
値に従い、読み上げる(ステップS313、ステップS
314)。
性値が存在すると判断された場合であって終点の属性値
がない場合には、始点の属性値に従い読み上げる(ステ
ップS312、ステップS315)。この場合も同様
に、対象との正当性を調べ一致していれば、始点の属性
値に従い、読み上げる(ステップS313、ステップS
314)。
【0041】そして、始点及び終点とも属性値が存在し
ており、その対象に対する値も正当なもの(一致する)
であれば、属性値による補間を行なった上で合成音を出
力する(ステップS316、ステップS320)。始点
と終点とでの属性値が正当な場合とは、例えば対象がボ
リュームであれば、始点はボリューム値、終点もボリュ
ーム値でなければならないということである。ここで、
例えば始点がボリューム値、終点が感情等のように、始
点と終点とで属性値が異なる場合は、対象と一致してい
るものの属性値を用いる(ステップS317、ステップ
S319)。また、これら始点及び終点の属性値がお互
いに異なり、かつモーフィング対象とも異なっていた場
合は、対象の属性値に対するデフォルトの合成音で、開
始タグと終了タグとに挟まれた文字や単語を読み上げる
(ステップS318)。判断対象となったタグの属性値
が異なっていた場合における音声出力の優先度は、対象
> 始点 > 終点とする。
ており、その対象に対する値も正当なもの(一致する)
であれば、属性値による補間を行なった上で合成音を出
力する(ステップS316、ステップS320)。始点
と終点とでの属性値が正当な場合とは、例えば対象がボ
リュームであれば、始点はボリューム値、終点もボリュ
ーム値でなければならないということである。ここで、
例えば始点がボリューム値、終点が感情等のように、始
点と終点とで属性値が異なる場合は、対象と一致してい
るものの属性値を用いる(ステップS317、ステップ
S319)。また、これら始点及び終点の属性値がお互
いに異なり、かつモーフィング対象とも異なっていた場
合は、対象の属性値に対するデフォルトの合成音で、開
始タグと終了タグとに挟まれた文字や単語を読み上げる
(ステップS318)。判断対象となったタグの属性値
が異なっていた場合における音声出力の優先度は、対象
> 始点 > 終点とする。
【0042】次に、音声作成の手順として、属性値に基
づいて行われる補間について、図4を参照して説明す
る。
づいて行われる補間について、図4を参照して説明す
る。
【0043】図4は、合成音声の出力に際して発話スピ
ードを補間する例を説明する図である。
ードを補間する例を説明する図である。
【0044】補間方法の例として、まず、発話スピード
の補間を行なう場合は、出力対象のテキスト(図4の場
合には、あ(a)、い(i)、う(u)、え(e))に従って、その
テキスト全体の波形が出力される際の所要時間を算出す
ると共に、そのテキストを構成する音素毎の時間長tも
求める。本実施形態において、韻律・波形辞書111に
は、複数の音素に関して、標準的な韻律及び音声波形が
予め登録されているので、出力対象のテキスト全体の波
形が出力される際の所要時間は、韻律・波形辞書111
から読み出した合成音声の出力に必要な音素(図4の場
合には、あ(a)、い(i)、う(u)、え(e))について、音素
毎の時間長tを積算すれば良い。
の補間を行なう場合は、出力対象のテキスト(図4の場
合には、あ(a)、い(i)、う(u)、え(e))に従って、その
テキスト全体の波形が出力される際の所要時間を算出す
ると共に、そのテキストを構成する音素毎の時間長tも
求める。本実施形態において、韻律・波形辞書111に
は、複数の音素に関して、標準的な韻律及び音声波形が
予め登録されているので、出力対象のテキスト全体の波
形が出力される際の所要時間は、韻律・波形辞書111
から読み出した合成音声の出力に必要な音素(図4の場
合には、あ(a)、い(i)、う(u)、え(e))について、音素
毎の時間長tを積算すれば良い。
【0045】そして始点及び終点の属性値として設定さ
れている値と、現在の発話スピードとの比rを求める。
その際、始点及び終点の属性値として設定されている値
が現在のスピードに対する比rと同じ場合には、この補
間処理は必要ない。
れている値と、現在の発話スピードとの比rを求める。
その際、始点及び終点の属性値として設定されている値
が現在のスピードに対する比rと同じ場合には、この補
間処理は必要ない。
【0046】そして求められた比に基づいて、各音素に
おける補間関数を、(補間値)=t×rによって算出す
る。求められた補間値に応じて波形の周期を縮めたり、
伸ばしたりすることにより、発話スピードを変化させる
ことができる。また、各音素の特長に合わせて時間長を
変化させる処理を行なっても良い。
おける補間関数を、(補間値)=t×rによって算出す
る。求められた補間値に応じて波形の周期を縮めたり、
伸ばしたりすることにより、発話スピードを変化させる
ことができる。また、各音素の特長に合わせて時間長を
変化させる処理を行なっても良い。
【0047】次に、音量の補間を行なう場合は、出力対
象のテキスト(図5の場合には、あ(a)、い(i)、う
(u)、え(e))に従って、上述した発話スピードを補間す
る場合と同様に、そのテキストを構成する音素毎の時間
長tを用いる。そして始点及び終点の属性値として設定
されている値と、現在の音量に対する比r’を求める。
象のテキスト(図5の場合には、あ(a)、い(i)、う
(u)、え(e))に従って、上述した発話スピードを補間す
る場合と同様に、そのテキストを構成する音素毎の時間
長tを用いる。そして始点及び終点の属性値として設定
されている値と、現在の音量に対する比r’を求める。
【0048】図5は、合成音声の出力に際して音量を補
間する例を説明する図であり、補間関数を、(補間値)
=f×r’によって算出する。この場合も、各音素の標
準的な音声波形及びその振幅は、韻律・波形辞書111
から読み出したものである。
間する例を説明する図であり、補間関数を、(補間値)
=f×r’によって算出する。この場合も、各音素の標
準的な音声波形及びその振幅は、韻律・波形辞書111
から読み出したものである。
【0049】そして、求められた補間値に応じて波形の
振幅fを縮めたり伸ばしたりする。また、振幅を変える
のではなく出力ハードウエアの音量を直接変化させる方
法を採用しても良い。基本周波数についても同様の方法
で算出する。
振幅fを縮めたり伸ばしたりする。また、振幅を変える
のではなく出力ハードウエアの音量を直接変化させる方
法を採用しても良い。基本周波数についても同様の方法
で算出する。
【0050】更に、感情や発話スタイルに対する補間を
行う場合は、出力対象のテキストの始点及び終点の属性
値として設定されている値に対する音声合成用データの
補間をすることによって合成音声を生成する。
行う場合は、出力対象のテキストの始点及び終点の属性
値として設定されている値に対する音声合成用データの
補間をすることによって合成音声を生成する。
【0051】例えば、PSOLA等の波形編集方式による音
声合成方法では、出力対象のテキスト中の開始位置に設
定された感情に対する音声波形辞書の素片と、終了位置
に設定された感情に対する音声波形辞書の素片とを、所
望の継続時間長および基本周波数に対してPSOLA処理を
施し、音量の場合と同様に得られる補間関数に従って音
声波形素片を補間することによって求めれば良い。
声合成方法では、出力対象のテキスト中の開始位置に設
定された感情に対する音声波形辞書の素片と、終了位置
に設定された感情に対する音声波形辞書の素片とを、所
望の継続時間長および基本周波数に対してPSOLA処理を
施し、音量の場合と同様に得られる補間関数に従って音
声波形素片を補間することによって求めれば良い。
【0052】他にも、ケプストラム等のパラメータ分析
合成方式による音声合成方法では、出力対象のテキスト
中の開始位置に設定された感情に対する音声パラメータ
辞書の素片と、終了位置に設定された感情に対する音声
パラメータ辞書の素片とを補間することによってパラメ
ータを生成し、このパラメータを用いて所望の継続時間
長および基本周波数に対する合成音声を生成することに
よっても補間を行なうことができる。更に、男性から女
性等のように、話者間の補間に対しても同様の方法によ
って補間することができる。
合成方式による音声合成方法では、出力対象のテキスト
中の開始位置に設定された感情に対する音声パラメータ
辞書の素片と、終了位置に設定された感情に対する音声
パラメータ辞書の素片とを補間することによってパラメ
ータを生成し、このパラメータを用いて所望の継続時間
長および基本周波数に対する合成音声を生成することに
よっても補間を行なうことができる。更に、男性から女
性等のように、話者間の補間に対しても同様の方法によ
って補間することができる。
【0053】また、話者数(話し手の人数)に対する補
間を行う場合は、図6のような補間関数で求める。
間を行う場合は、図6のような補間関数で求める。
【0054】図6は、合成音声の出力に際して話者数を
補間する例を説明する図であり、同図に示す例では、1
人の話者から5人の話者へのモーフィングが実現され
る。この場合、出力対象のテキストから求めた波形の時
間長を5分割する。そして各分割時間が経過する度に話
者を1人ずつ増やすと共に、図6に示す補間関数(0乃
至1の間で変化する関数)に基づき線形にその合成音の
大きさを変化させていく。また、振幅が所定値以上に大
きくならないように、波形のレベルは正規化しているも
のとする。
補間する例を説明する図であり、同図に示す例では、1
人の話者から5人の話者へのモーフィングが実現され
る。この場合、出力対象のテキストから求めた波形の時
間長を5分割する。そして各分割時間が経過する度に話
者を1人ずつ増やすと共に、図6に示す補間関数(0乃
至1の間で変化する関数)に基づき線形にその合成音の
大きさを変化させていく。また、振幅が所定値以上に大
きくならないように、波形のレベルは正規化しているも
のとする。
【0055】本実施形態では、上述した各種の補間処理
を施すことによって作成された音声波形に従って合成音
声が出力される。これにより、韻律が離散的に変化する
従来の音声合成装置と比較して、韻律が連続的に変化す
る自然な合成音声を実現することができる。
を施すことによって作成された音声波形に従って合成音
声が出力される。これにより、韻律が離散的に変化する
従来の音声合成装置と比較して、韻律が連続的に変化す
る自然な合成音声を実現することができる。
【0056】[第2の実施形態]次に、上述した第1の
実施形態に係る音声合成装置を基本とする第2の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
実施形態に係る音声合成装置を基本とする第2の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0057】本実施形態では、タグ付きテキスト103
に含まれる所定のタグは、<morphing・・・>及び</m
orphing>からなる第1実施形態と同様のタグに加え
て、それら2つのタグの中に、図7に例示する如く入れ
子構造にすることにより、変化する対象を複数設定す
る。このような入れ子構造を採用することで、複数変化
の音声合成モーフィングを行なうことが可能となる。即
ち、図7の例では、出力対象のテキストが合成音声とし
て発せられる際の韻律は、はじめは楽しげな口調で音量
が大きいが、その後、怒ったような口調に変化すると共
に、音量も始めと比較して小さく変化することになる。
に含まれる所定のタグは、<morphing・・・>及び</m
orphing>からなる第1実施形態と同様のタグに加え
て、それら2つのタグの中に、図7に例示する如く入れ
子構造にすることにより、変化する対象を複数設定す
る。このような入れ子構造を採用することで、複数変化
の音声合成モーフィングを行なうことが可能となる。即
ち、図7の例では、出力対象のテキストが合成音声とし
て発せられる際の韻律は、はじめは楽しげな口調で音量
が大きいが、その後、怒ったような口調に変化すると共
に、音量も始めと比較して小さく変化することになる。
【0058】その他の構成については、上述した第1の
実施形態と同様であるため重複する説明は省略する。
実施形態と同様であるため重複する説明は省略する。
【0059】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0060】[第3の実施形態]次に、上述した第1の
実施形態に係る音声合成装置を基本とする第3の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
実施形態に係る音声合成装置を基本とする第3の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0061】上述した第1及び第2の実施形態におい
て、開始タグ<morphing・・・・>に含まれる属性情報
は、韻律を連続的に変化させるべき対象と、その対象に
対する始点の属性値および、終点の属性値を記述してい
た。これに対して、第3の実施形態では、開始タグ<mo
rphing・・・・>内には、始点および終点に変化対象と
なるもののラベルを付ける。
て、開始タグ<morphing・・・・>に含まれる属性情報
は、韻律を連続的に変化させるべき対象と、その対象に
対する始点の属性値および、終点の属性値を記述してい
た。これに対して、第3の実施形態では、開始タグ<mo
rphing・・・・>内には、始点および終点に変化対象と
なるもののラベルを付ける。
【0062】図8は、第3の実施形態においてテキスト
に付与されたタグの例を示す図であり、タグ間に挟まれ
るテキスト自体は第2の実施形態の場合の図7と同様で
ある。そして、本実施形態では、変化の対象を感情(exp
ress)とする。そのため、始点及び終点ではそれぞれ、e
xpressstartとexpressendというように始点と終点に変
化対象のラベルを記述している。第3の実施形態におけ
る音声合成装置の構成は第1の実施形態と同様な構成で
あるため重複する説明は省略する。次に、第1の実施形
態と第3の実施形態の相違について説明する。
に付与されたタグの例を示す図であり、タグ間に挟まれ
るテキスト自体は第2の実施形態の場合の図7と同様で
ある。そして、本実施形態では、変化の対象を感情(exp
ress)とする。そのため、始点及び終点ではそれぞれ、e
xpressstartとexpressendというように始点と終点に変
化対象のラベルを記述している。第3の実施形態におけ
る音声合成装置の構成は第1の実施形態と同様な構成で
あるため重複する説明は省略する。次に、第1の実施形
態と第3の実施形態の相違について説明する。
【0063】まず、第1の実施形態と同様にテキスト解
析部105において、入力されたタグ付きテキスト10
3のフォーマットおよびヘッダ部の情報に基づいて、当
該テキストの種類、内容等を解析して、これらに関する
情報を取得する。そして、タグ解析部105では、当該
テキスト内に埋め込まれているタグがどのような種類か
を判定する。タグ属性解析部107では、タグ内に記述
されている属性および属性値がどのようなものであるか
を解析する。本実施形態において解析するのは、始点と
終点のみであり、その始点と終点がどのような対象であ
るかもタグ属性解析部107で調べる。音声合成部10
9は、タグ属性解析部107により得られた属性値に基
づいて補間を行ない、その結果得られる音声波形に従っ
て、当該テキストの内容に対応する合成音声を生成す
る。
析部105において、入力されたタグ付きテキスト10
3のフォーマットおよびヘッダ部の情報に基づいて、当
該テキストの種類、内容等を解析して、これらに関する
情報を取得する。そして、タグ解析部105では、当該
テキスト内に埋め込まれているタグがどのような種類か
を判定する。タグ属性解析部107では、タグ内に記述
されている属性および属性値がどのようなものであるか
を解析する。本実施形態において解析するのは、始点と
終点のみであり、その始点と終点がどのような対象であ
るかもタグ属性解析部107で調べる。音声合成部10
9は、タグ属性解析部107により得られた属性値に基
づいて補間を行ない、その結果得られる音声波形に従っ
て、当該テキストの内容に対応する合成音声を生成す
る。
【0064】タグ内に埋め込まれる属性情報は、第1の
実施形態と同様な構成であるため重複する説明は省略す
る。第1の実施形態と第3の実施形態の相違は、開始タ
グ<morphing・・・・・>内の属性として、韻律を連続
的に変化させるべき対象である感情(express)、始点(st
art)における感情、並びに終点(end)における感情を記
述するに際して、係る始点に対してexpressstartという
変化対象のラベルを付け、係る終点に対してexpressend
という変化対象のラベルを付けることである。また、本
実施形態では、このようなタグの書式の変化に応じて、
例外処理も一部異なるため、この点について図9を参照
して説明する。
実施形態と同様な構成であるため重複する説明は省略す
る。第1の実施形態と第3の実施形態の相違は、開始タ
グ<morphing・・・・・>内の属性として、韻律を連続
的に変化させるべき対象である感情(express)、始点(st
art)における感情、並びに終点(end)における感情を記
述するに際して、係る始点に対してexpressstartという
変化対象のラベルを付け、係る終点に対してexpressend
という変化対象のラベルを付けることである。また、本
実施形態では、このようなタグの書式の変化に応じて、
例外処理も一部異なるため、この点について図9を参照
して説明する。
【0065】図9は、第3の実施形態における音声合成
装置の制御処理を示すフローチャートであり、同装置の
不図示のCPUが行なう処理の手順を表わす。
装置の制御処理を示すフローチャートであり、同装置の
不図示のCPUが行なう処理の手順を表わす。
【0066】同図において、テキスト入力部104によ
って入力されたタグ付きテキスト103に対して、テキ
スト解析部105、タグ解析部106、タグ属性解析部
107によるテキスト解析、タグ解析、並びにタグ属性
解析を行なう(ステップS901〜ステップS90
3)。
って入力されたタグ付きテキスト103に対して、テキ
スト解析部105、タグ解析部106、タグ属性解析部
107によるテキスト解析、タグ解析、並びにタグ属性
解析を行なう(ステップS901〜ステップS90
3)。
【0067】開始タグ<morphing・・・・>内の属性、
始点、終点が存在するかどうか調べる。即ち、始点およ
び終点の属性がどちらか一方でもあるかどうかを調べる
(ステップS904)。始点及び終点共に属性値がなけ
れば、そのタグの前文で読み上げられていた音声に従い
読み上げる(ステップS905)。次に始点に対する属
性値が存在するかについて調べ、始点に属性値が存在し
なければ、終点の属性値を用いる(ステップS906、
ステップS907)。逆に、始点の属性値が存在し終点
の属性値がない場合は、始点の属性値に従い読み上げる
(ステップS908、ステップS909)。そして、始
点及び終点共に属性値が存在しており、属性が異なって
いなければ属性値により補間を行ない、補間によって得
られた音声波形に従って合成音声を出力する(ステップ
S910、ステップS912)。
始点、終点が存在するかどうか調べる。即ち、始点およ
び終点の属性がどちらか一方でもあるかどうかを調べる
(ステップS904)。始点及び終点共に属性値がなけ
れば、そのタグの前文で読み上げられていた音声に従い
読み上げる(ステップS905)。次に始点に対する属
性値が存在するかについて調べ、始点に属性値が存在し
なければ、終点の属性値を用いる(ステップS906、
ステップS907)。逆に、始点の属性値が存在し終点
の属性値がない場合は、始点の属性値に従い読み上げる
(ステップS908、ステップS909)。そして、始
点及び終点共に属性値が存在しており、属性が異なって
いなければ属性値により補間を行ない、補間によって得
られた音声波形に従って合成音声を出力する(ステップ
S910、ステップS912)。
【0068】始点及び終点における属性値は、韻律を連
続的に変化させるべき対象がボリュームであれば、始点
はボリューム値、終点もボリューム値でなければならな
い。始点がボリューム値、終点が感情等というように、
始点と終点とで属性値の種類が異なる場合は、始点の属
性値を用いる(ステップS911)。このタグの属性値
が間違っていた場合における音声出力の優先度の順位付
けは、(始点の順位)> (終点の順位)、とする。
続的に変化させるべき対象がボリュームであれば、始点
はボリューム値、終点もボリューム値でなければならな
い。始点がボリューム値、終点が感情等というように、
始点と終点とで属性値の種類が異なる場合は、始点の属
性値を用いる(ステップS911)。このタグの属性値
が間違っていた場合における音声出力の優先度の順位付
けは、(始点の順位)> (終点の順位)、とする。
【0069】その他の形態については、第1の実施形態
と同様な構成であるため重複する説明は省略する。
と同様な構成であるため重複する説明は省略する。
【0070】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0071】[第4の実施形態]次に、上述した第1の
実施形態に係る音声合成装置を基本とする第4の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
実施形態に係る音声合成装置を基本とする第4の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0072】第1乃至第3の実施形態において、モーフ
ィングの変化は一定すなわち、モーフィングアルゴリズ
ム自体の変化率に依存していたが、第4の実施形態で
は、モーフィング変化のための属性も付加できることを
特徴とする。その例を図10に示す。
ィングの変化は一定すなわち、モーフィングアルゴリズ
ム自体の変化率に依存していたが、第4の実施形態で
は、モーフィング変化のための属性も付加できることを
特徴とする。その例を図10に示す。
【0073】図10は、第4の実施形態においてテキス
トに付与されたタグの例を示す図であり、本実施形態で
は、開始タグ<morphing・・・・>内の属性に、更にモ
ーフィングの変化率のための属性情報を設定する。モー
フィングの変化率を表わす属性値としては、線形、非線
形、ログ等の変化に用いる関数のタイプを、functionに
記述する。
トに付与されたタグの例を示す図であり、本実施形態で
は、開始タグ<morphing・・・・>内の属性に、更にモ
ーフィングの変化率のための属性情報を設定する。モー
フィングの変化率を表わす属性値としては、線形、非線
形、ログ等の変化に用いる関数のタイプを、functionに
記述する。
【0074】そして、本実施形態では、タグ属性解析部
107によってタグを解析する際、対象、始点、終点だ
けではなく、モーフィングの変化率を表わす属性値に従
って、モーフィング変化の属性も解析する。解析の結
果、function欄に線形、非線形、ログ等の属性値が記述
されていれば、その属性値で与えられた変化率に従って
補間を行ない、補間によって得られた合成波形に従って
合成音声を出力する。一方、この属性値が記述されてい
なければ、モーフィングアルゴリズムで予め決められた
変化方法に従って補間を行なう。
107によってタグを解析する際、対象、始点、終点だ
けではなく、モーフィングの変化率を表わす属性値に従
って、モーフィング変化の属性も解析する。解析の結
果、function欄に線形、非線形、ログ等の属性値が記述
されていれば、その属性値で与えられた変化率に従って
補間を行ない、補間によって得られた合成波形に従って
合成音声を出力する。一方、この属性値が記述されてい
なければ、モーフィングアルゴリズムで予め決められた
変化方法に従って補間を行なう。
【0075】その他の形態については、第1の実施形態
と同様な構成であるため重複する説明は省略する。
と同様な構成であるため重複する説明は省略する。
【0076】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0077】[第5の実施形態]次に、上述した第1の
実施形態に係る音声合成装置を基本とする第5の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
実施形態に係る音声合成装置を基本とする第5の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0078】第1乃至第3の実施形態において、モーフ
ィングの変化は一定すなわち、モーフィングアルゴリズ
ム自体の変化率に依存していたが、第5の実施形態で
は、モーフィング変化のための属性をタグ内に個々に付
加できることを特徴とする。その例を図11に示す。
ィングの変化は一定すなわち、モーフィングアルゴリズ
ム自体の変化率に依存していたが、第5の実施形態で
は、モーフィング変化のための属性をタグ内に個々に付
加できることを特徴とする。その例を図11に示す。
【0079】図11は、第5の実施形態においてテキス
トに付与されたタグの例を示す図であり、本実施形態で
は、<morphing・・・>・・・・</morphing>タグ内
で囲まれたテキスト内に、さらにモーフィング変化のた
めの中間タグを挿入する。
トに付与されたタグの例を示す図であり、本実施形態で
は、<morphing・・・>・・・・</morphing>タグ内
で囲まれたテキスト内に、さらにモーフィング変化のた
めの中間タグを挿入する。
【0080】そして、本実施形態においては、タグ解析
部106によってタグが解析される際、<morphing>タ
グだけではなく、モーフィング変化を発生させる中間タ
グも解析される。中間タグは、<rate value ="*.
*"/>のようなタグを用い、value属性部分に変化率0
乃至1の割合で記入する。そして、韻律を連続的に変化
させるべきテキスト内の所望位置に個々に埋め込む。こ
れにより、補間後の実際の合成音声の出力に際して、図
12に例示する如く、更に複雑な韻律の変化を起こすこ
とが可能となる。
部106によってタグが解析される際、<morphing>タ
グだけではなく、モーフィング変化を発生させる中間タ
グも解析される。中間タグは、<rate value ="*.
*"/>のようなタグを用い、value属性部分に変化率0
乃至1の割合で記入する。そして、韻律を連続的に変化
させるべきテキスト内の所望位置に個々に埋め込む。こ
れにより、補間後の実際の合成音声の出力に際して、図
12に例示する如く、更に複雑な韻律の変化を起こすこ
とが可能となる。
【0081】また、第4の実施形態で用いられたモーフ
ィング変化のための関数functionが指定されていれば、
<rate/>タグから次の<rate/>タグへの補間関数は、
先に指定された関数が用いられる。
ィング変化のための関数functionが指定されていれば、
<rate/>タグから次の<rate/>タグへの補間関数は、
先に指定された関数が用いられる。
【0082】その他の形態については、第1の実施形態
と同様な構成であるため重複する説明は省略する。
と同様な構成であるため重複する説明は省略する。
【0083】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0084】[第6の実施形態]次に、上述した第1乃
至第3の実施形態に係る音声合成装置を基本とする第6
の実施形態を説明する。以下の説明においては、第1の
実施形態と同様な構成については重複する説明を省略
し、本実施形態における特徴的な部分を中心に説明す
る。
至第3の実施形態に係る音声合成装置を基本とする第6
の実施形態を説明する。以下の説明においては、第1の
実施形態と同様な構成については重複する説明を省略
し、本実施形態における特徴的な部分を中心に説明す
る。
【0085】上述した各実施形態では、開始タグ<morp
hing・・・>の中に始点及び終点の属性値を設定した
が、本実施形態では、図13のように終点の属性値をタ
グの終わり部分に設定する。
hing・・・>の中に始点及び終点の属性値を設定した
が、本実施形態では、図13のように終点の属性値をタ
グの終わり部分に設定する。
【0086】図13は、第6の実施形態においてテキス
トに付与されたタグの例を示す図である。
トに付与されたタグの例を示す図である。
【0087】第1の実施形態のようなタグ構成であれ
ば、開始タグ<morphing・・・>内に始点の属性および
対象として、<morphing type= "express" start="hap
py">を記述すると共に、終了タグには、</morphing
end="angry">のように終点の属性を記述した。これに
対して、本実施形態では、開始タグには、<morphingex
pressstart="happy">、終了タグには、</morphing e
xpressend="angry">というように記述する。また、本
実施形態において第4の実施形態のような補間関数を指
定する場合は、開始タグに記述する。
ば、開始タグ<morphing・・・>内に始点の属性および
対象として、<morphing type= "express" start="hap
py">を記述すると共に、終了タグには、</morphing
end="angry">のように終点の属性を記述した。これに
対して、本実施形態では、開始タグには、<morphingex
pressstart="happy">、終了タグには、</morphing e
xpressend="angry">というように記述する。また、本
実施形態において第4の実施形態のような補間関数を指
定する場合は、開始タグに記述する。
【0088】その他の形態については、第1の実施形態
と同様な構成であるため重複する説明は省略する。
と同様な構成であるため重複する説明は省略する。
【0089】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0090】[第7の実施形態]次に、上述した第1の
実施形態に係る音声合成装置を基本とする第7の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
実施形態に係る音声合成装置を基本とする第7の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0091】本実施形態では、上述した各実施形態にお
いて、タグ内の属性が始点と終点とで異なっていた場合
には、エラーと判断して処理を行なわない。
いて、タグ内の属性が始点と終点とで異なっていた場合
には、エラーと判断して処理を行なわない。
【0092】即ち、第1の実施形態におけるタグ構成に
当てはめて説明すれば、<morphingtype= "express" st
art="happy" end="10">・・・・・・</morphing >と
いうように、startとendの属性が異なる場合、エラーと
して何もしない。また、対象と始点及び終点の属性が違
っていた場合もエラーとして何もしない。ここで、始点
と終点がない場合やどちらか一方でもない場合は、第1
の実施形態と同様に処理する。第3の実施形態では、こ
こで、始点と終点がない場合やどちらか一方でもない場
合は第3の実施形態と同様に処理する。その他の形態に
ついては、第1乃至第5の実施形態と同様な構成である
ため重複する説明は省略する。
当てはめて説明すれば、<morphingtype= "express" st
art="happy" end="10">・・・・・・</morphing >と
いうように、startとendの属性が異なる場合、エラーと
して何もしない。また、対象と始点及び終点の属性が違
っていた場合もエラーとして何もしない。ここで、始点
と終点がない場合やどちらか一方でもない場合は、第1
の実施形態と同様に処理する。第3の実施形態では、こ
こで、始点と終点がない場合やどちらか一方でもない場
合は第3の実施形態と同様に処理する。その他の形態に
ついては、第1乃至第5の実施形態と同様な構成である
ため重複する説明は省略する。
【0093】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0094】[第8の実施形態]次に、上述した第1の
実施形態に係る音声合成装置を基本とする第8の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
実施形態に係る音声合成装置を基本とする第8の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0095】上述した各実施形態においては、タグ内に
設定される属性情報のうち何れかが存在しない場合であ
っても合成音声を出力していたが、本実施形態では、始
点および終点の属性が異なっていた場合や、始点および
終点と対象の属性が異なっていた場合も、エラーとして
何も処理しない。
設定される属性情報のうち何れかが存在しない場合であ
っても合成音声を出力していたが、本実施形態では、始
点および終点の属性が異なっていた場合や、始点および
終点と対象の属性が異なっていた場合も、エラーとして
何も処理しない。
【0096】その他の構成については、第1乃至第7の
実施形態と同様な構成であるため重複する説明は省略す
る。
実施形態と同様な構成であるため重複する説明は省略す
る。
【0097】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0098】従って、上述した各実施形態によれば、出
力対象の入力文のうち所望の範囲をタグで囲むことによ
り、合成音声の出力に際して、モーフィングのように韻
律を連続的に変化させることができ、従来のような離散
的な音声発音となるテキスト読み上げの機能を、聞き手
に対してより自然なものにすることができる。
力対象の入力文のうち所望の範囲をタグで囲むことによ
り、合成音声の出力に際して、モーフィングのように韻
律を連続的に変化させることができ、従来のような離散
的な音声発音となるテキスト読み上げの機能を、聞き手
に対してより自然なものにすることができる。
【0099】
【他の実施形態】上述した各実施形態を例に説明した本
発明は、複数の機器から構成されるシステムに適用して
も良いし、また、一つの機器からなる装置に適用しても
良い。
発明は、複数の機器から構成されるシステムに適用して
も良いし、また、一つの機器からなる装置に適用しても
良い。
【0100】尚、本発明は、前述した各実施形態におい
て説明したフローチャートの機能を実現するソフトウェ
ア・プログラムを、上述した音声合成装置として動作す
るシステム或いは装置に直接或いは遠隔から供給し、そ
のシステム或いは装置のコンピュータが該供給されたプ
ログラムコードを読み出して実行することによっても達
成される場合を含む。その場合、プログラムの機能を有
していれば、形態は、プログラムである必要はない。
て説明したフローチャートの機能を実現するソフトウェ
ア・プログラムを、上述した音声合成装置として動作す
るシステム或いは装置に直接或いは遠隔から供給し、そ
のシステム或いは装置のコンピュータが該供給されたプ
ログラムコードを読み出して実行することによっても達
成される場合を含む。その場合、プログラムの機能を有
していれば、形態は、プログラムである必要はない。
【0101】従って、本発明の機能処理をコンピュータ
で実現するために、該コンピュータにインストールされ
るプログラムコード自体も本発明を実現するものであ
る。つまり、本発明のクレームでは、本発明の機能処理
を実現するためのコンピュータプログラム自体も含まれ
る。
で実現するために、該コンピュータにインストールされ
るプログラムコード自体も本発明を実現するものであ
る。つまり、本発明のクレームでは、本発明の機能処理
を実現するためのコンピュータプログラム自体も含まれ
る。
【0102】その場合、プログラムの機能を有していれ
ば、オブジェクトコード、インタプリタにより実行され
るプログラム、OSに供給するスクリプトデータ等、プ
ログラムの形態を問わない。
ば、オブジェクトコード、インタプリタにより実行され
るプログラム、OSに供給するスクリプトデータ等、プ
ログラムの形態を問わない。
【0103】プログラムを供給するための記録媒体とし
ては、例えば、フロッピー(登録商標)ディスク、ハー
ドディスク、光ディスク、光磁気ディスク、MO、CD
−ROM、CD−R、CD−RW、磁気テープ、不揮発
性のメモリカード、ROM、DVD(DVD−ROM,
DVD−R)などがある。
ては、例えば、フロッピー(登録商標)ディスク、ハー
ドディスク、光ディスク、光磁気ディスク、MO、CD
−ROM、CD−R、CD−RW、磁気テープ、不揮発
性のメモリカード、ROM、DVD(DVD−ROM,
DVD−R)などがある。
【0104】その他、プログラムの供給方法としては、
クライアントコンピュータのブラウザを用いてインター
ネットのホームページに接続し、該ホームページから本
発明のコンピュータプログラムそのもの、もしくは圧縮
され自動インストール機能を含むファイルをハードディ
スク等の記録媒体にダウンロードすることによっても供
給できる。また、本発明のプログラムを構成するプログ
ラムコードを複数のファイルに分割し、それぞれのファ
イルを異なるホームページからダウンロードすることに
よっても実現可能である。つまり、本発明の機能処理を
コンピュータで実現するためのプログラムファイルを複
数のユーザに対してダウンロードさせるWWW(World W
ide Web)サーバも、本発明のクレームに含まれるもので
ある。
クライアントコンピュータのブラウザを用いてインター
ネットのホームページに接続し、該ホームページから本
発明のコンピュータプログラムそのもの、もしくは圧縮
され自動インストール機能を含むファイルをハードディ
スク等の記録媒体にダウンロードすることによっても供
給できる。また、本発明のプログラムを構成するプログ
ラムコードを複数のファイルに分割し、それぞれのファ
イルを異なるホームページからダウンロードすることに
よっても実現可能である。つまり、本発明の機能処理を
コンピュータで実現するためのプログラムファイルを複
数のユーザに対してダウンロードさせるWWW(World W
ide Web)サーバも、本発明のクレームに含まれるもので
ある。
【0105】また、本発明のプログラムを暗号化してC
D−ROM等の記憶媒体に格納してユーザに配布し、所
定の条件をクリアしたユーザに対し、インターネットを
介してホームページから暗号化を解く鍵情報をダウンロ
ードさせ、その鍵情報を使用することにより暗号化され
たプログラムを実行してコンピュータにインストールさ
せて実現することも可能である。
D−ROM等の記憶媒体に格納してユーザに配布し、所
定の条件をクリアしたユーザに対し、インターネットを
介してホームページから暗号化を解く鍵情報をダウンロ
ードさせ、その鍵情報を使用することにより暗号化され
たプログラムを実行してコンピュータにインストールさ
せて実現することも可能である。
【0106】また、コンピュータが、読み出したプログ
ラムを実行することによって、前述した実施形態の機能
が実現される他、そのプログラムの指示に基づき、コン
ピュータ上で稼動しているOSなどが、実際の処理の一
部または全部を行ない、その処理によっても前述した実
施形態の機能が実現され得る。
ラムを実行することによって、前述した実施形態の機能
が実現される他、そのプログラムの指示に基づき、コン
ピュータ上で稼動しているOSなどが、実際の処理の一
部または全部を行ない、その処理によっても前述した実
施形態の機能が実現され得る。
【0107】さらに、記録媒体から読み出されたプログ
ラムが、コンピュータに挿入された機能拡張ボードやコ
ンピュータに接続された機能拡張ユニットに備わるメモ
リに書き込まれた後、そのプログラムの指示に基づき、
その機能拡張ボードや機能拡張ユニットに備わるCPU
などが実際の処理の一部または全部を行ない、その処理
によっても前述した実施形態の機能が実現される。
ラムが、コンピュータに挿入された機能拡張ボードやコ
ンピュータに接続された機能拡張ユニットに備わるメモ
リに書き込まれた後、そのプログラムの指示に基づき、
その機能拡張ボードや機能拡張ユニットに備わるCPU
などが実際の処理の一部または全部を行ない、その処理
によっても前述した実施形態の機能が実現される。
【0108】
【発明の効果】以上説明したように、本発明によれば、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【図1】第1の実施形態における音声合成装置のブロッ
ク構成図である。
ク構成図である。
【図2】テキストに付与されたタグの例を示す図であ
る。
る。
【図3】第1の実施形態における音声合成装置の制御処
理を示すフローチャートである。
理を示すフローチャートである。
【図4】合成音声の出力に際して発話スピードを補間す
る例を説明する図である。
る例を説明する図である。
【図5】合成音声の出力に際して音量を補間する例を説
明する図である。
明する図である。
【図6】合成音声の出力に際して話者数を補間する例を
説明する図である。
説明する図である。
【図7】第2の実施形態においてテキストに付与された
タグの例を示す図である。
タグの例を示す図である。
【図8】第3の実施形態においてテキストに付与された
タグの例を示す図である。
タグの例を示す図である。
【図9】第3の実施形態における音声合成装置の制御処
理を示すフローチャートである。
理を示すフローチャートである。
【図10】第4の実施形態においてテキストに付与され
たタグの例を示す図である。
たタグの例を示す図である。
【図11】第5の実施形態においてテキストに付与され
たタグの例を示す図である。
たタグの例を示す図である。
【図12】第5の実施形態における合成音出力時の韻律
の変化の様子を説明する図である。
の変化の様子を説明する図である。
【図13】第6の実施形態においてテキストに付与され
たタグの例を示す図である。
たタグの例を示す図である。
101:テキスト作成部,
102:タグ作成部,
103:タグ付きテキスト,
104:テキスト入力部,
105:テキスト解析部,
106:タグ解析部,
107:タグ属性解析部,
108:言語処理部,
109:音声合成部,
110:言語辞書,
111:韻律・波形辞書,
Claims (10)
- 【請求項1】 入力されたテキストに対応する合成音声
を出力するに際して、そのテキストに含まれる所定の識
別子が付与された範囲の韻律が変化するように、音声波
形を合成する音声合成方法であって、 出力対象のテキストのうち、韻律を連続的に変化させよ
うとする所望の範囲を、韻律の変化の態様を表わす属性
情報を含む所定の識別子を用いて設定する設定工程と、 前記設定工程にて設定された識別子付きのテキストを対
象として、前記所定の識別子及びその中に含まれる属性
情報の種類を認識する認識工程と、 前記識別子付きのテキストのうち、前記所望の範囲内の
テキストに対応する標準音声波形を、前記認識工程にお
ける認識結果に従って補間することにより、前記所定の
識別子に含まれる属性情報に従って、韻律が連続的に変
化する音声波形を合成する音声合成工程と、を有するこ
とを特徴とする音声合成方法。 - 【請求項2】 前記所定の識別子に含まれる属性情報
は、その識別子によって設定された範囲に関して、その
範囲の開始位置における韻律の変化の態様と、終了位置
における韻律の変化の態様とを表わすことを特徴とする
請求項1記載の音声合成方法。 - 【請求項3】 前記属性情報が表わす韻律の変化の態様
は、音量の変化、発話者の変化、発話者数の変化、感情
の変化、発話スピードの変化、並びに基本周波数の変化
のうち、少なくとも何れかであることを特徴とする請求
項1または請求項2記載の音声合成方法。 - 【請求項4】 前記音声合成工程では、前記所定の識別
子に含まれる識別子によって設定された範囲の開始位置
及び終了位置に関する属性情報と、その開始位置以前の
韻律の態様とに基づいて、前記所望の範囲内のテキスト
に対応する標準音声波形を補間することを特徴とする請
求項1記載の音声合成方法。 - 【請求項5】 前記音声合成工程では、前記開始位置及
び終了位置に関する属性情報として設定されている発話
スピードを表わす値と、前記開始位置以前の発話スピー
ドを表わす値との比率に基づいて、前記所望の範囲内の
テキストに対応する標準音声波形を補間することを特徴
とする請求項4記載の音声合成方法。 - 【請求項6】 前記音声合成工程では、前記開始位置及
び終了位置に関する属性情報として設定されている音量
を表わす値と、前記開始位置以前の音量を表わす値との
比率に基づいて、前記所望の範囲内のテキストに対応す
る標準音声波形を補間することを特徴とする請求項4記
載の音声合成方法。 - 【請求項7】 入力されたテキストに対応する合成音声
を出力するに際して、そのテキストに含まれる所定の識
別子が付与された範囲の韻律が変化するように、音声波
形を合成する音声合成装置であって、 出力対象のテキストのうち、韻律を連続的に変化させよ
うとする所望の範囲を表わすところの、韻律の変化の態
様を表わす属性情報を含む所定の識別子が設定設定され
た識別子付きのテキストを対象として、該所定の識別子
及びその中に含まれる属性情報の種類を認識する認識手
段と、 前記識別子付きのテキストのうち、前記所望の範囲内の
テキストに対応する標準音声波形を、前記認識手段によ
る認識結果に従って補間することにより、前記所定の識
別子に含まれる属性情報に従って、韻律が連続的に変化
する音声波形を合成する音声合成手段と、を備えること
を特徴とする音声合成装置。 - 【請求項8】 音声合成による出力対象のテキストのう
ち、所望の範囲の韻律を変化させるべく所定の識別子が
付与された音声合成用テキスト構造であって、 前記所定の識別子には、韻律を連続的に変化させる際の
変化の態様を表わす属性情報が含まれることを特徴とす
る音声合成用テキスト構造。 - 【請求項9】 請求項1乃至請求項6の何れかに記載の
音声合成方法を、コンピュータによって実現可能な動作
指示をなすことを特徴とするコンピュータ・プログラ
ム。 - 【請求項10】 請求項7記載の音声合成装置として、
コンピュータを動作させる指示をなすことを特徴とする
コンピュータ・プログラム。
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002100467A JP2003295882A (ja) | 2002-04-02 | 2002-04-02 | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム |
KR1020047013129A KR100591655B1 (ko) | 2002-04-02 | 2003-04-02 | 음성 합성을 위한 음성 합성 방법, 음성 합성 장치 및 컴퓨터 판독 가능 기록 매체 |
DE60325191T DE60325191D1 (de) | 2002-04-02 | 2003-04-02 | Verfahren, vorrichtung und computerprogramm zur sprachsynthese |
EP03746418A EP1490861B1 (en) | 2002-04-02 | 2003-04-02 | Method, apparatus and computer program for voice synthesis |
ES03746418T ES2316786T3 (es) | 2002-04-02 | 2003-04-02 | Metodo, aparato y programa de ordenador para sintesis de voz. |
PCT/JP2003/004231 WO2003088208A1 (en) | 2002-04-02 | 2003-04-02 | Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof |
CNB038061244A CN1269104C (zh) | 2002-04-02 | 2003-04-02 | 语音合成方法和语音合成设备 |
AU2003226446A AU2003226446A1 (en) | 2002-04-02 | 2003-04-02 | Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof |
US10/914,169 US7487093B2 (en) | 2002-04-02 | 2004-08-10 | Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002100467A JP2003295882A (ja) | 2002-04-02 | 2002-04-02 | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003295882A true JP2003295882A (ja) | 2003-10-15 |
Family
ID=29241389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002100467A Pending JP2003295882A (ja) | 2002-04-02 | 2002-04-02 | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム |
Country Status (9)
Country | Link |
---|---|
US (1) | US7487093B2 (ja) |
EP (1) | EP1490861B1 (ja) |
JP (1) | JP2003295882A (ja) |
KR (1) | KR100591655B1 (ja) |
CN (1) | CN1269104C (ja) |
AU (1) | AU2003226446A1 (ja) |
DE (1) | DE60325191D1 (ja) |
ES (1) | ES2316786T3 (ja) |
WO (1) | WO2003088208A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006178052A (ja) * | 2004-12-21 | 2006-07-06 | Advanced Telecommunication Research Institute International | 音声発生装置およびそのためのコンピュータプログラム |
US10217454B2 (en) | 2014-10-30 | 2019-02-26 | Kabushiki Kaisha Toshiba | Voice synthesizer, voice synthesis method, and computer program product |
CN112349271A (zh) * | 2020-11-06 | 2021-02-09 | 北京乐学帮网络技术有限公司 | 语音信息处理方法、装置、电子设备及存储介质 |
Families Citing this family (201)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
CN1260704C (zh) * | 2003-09-29 | 2006-06-21 | 摩托罗拉公司 | 语音合成方法 |
WO2005071664A1 (ja) * | 2004-01-27 | 2005-08-04 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置 |
JP2005234337A (ja) * | 2004-02-20 | 2005-09-02 | Yamaha Corp | 音声合成装置、音声合成方法、及び音声合成プログラム |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
JP5321058B2 (ja) * | 2006-05-26 | 2013-10-23 | 日本電気株式会社 | 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN101295504B (zh) * | 2007-04-28 | 2013-03-27 | 诺基亚公司 | 用于仅文本的应用的娱乐音频 |
US20090157407A1 (en) * | 2007-12-12 | 2009-06-18 | Nokia Corporation | Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) * | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8374873B2 (en) * | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
US8990087B1 (en) * | 2008-09-30 | 2015-03-24 | Amazon Technologies, Inc. | Providing text to speech from digital content on an electronic device |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
CN101727904B (zh) * | 2008-10-31 | 2013-04-24 | 国际商业机器公司 | 语音翻译方法和装置 |
US8374881B2 (en) * | 2008-11-26 | 2013-02-12 | At&T Intellectual Property I, L.P. | System and method for enriching spoken language translation with dialog acts |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
JP5275102B2 (ja) * | 2009-03-25 | 2013-08-28 | 株式会社東芝 | 音声合成装置及び音声合成方法 |
GB0906470D0 (en) | 2009-04-15 | 2009-05-20 | Astex Therapeutics Ltd | New compounds |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8996384B2 (en) * | 2009-10-30 | 2015-03-31 | Vocollect, Inc. | Transforming components of a web page to voice prompts |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8965768B2 (en) | 2010-08-06 | 2015-02-24 | At&T Intellectual Property I, L.P. | System and method for automatic detection of abnormal stress patterns in unit selection synthesis |
US8731932B2 (en) * | 2010-08-06 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for synthetic voice generation and modification |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20130030789A1 (en) * | 2011-07-29 | 2013-01-31 | Reginald Dalce | Universal Language Translator |
CN102426838A (zh) * | 2011-08-24 | 2012-04-25 | 华为终端有限公司 | 语音信号处理方法和用户设备 |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
JP5596649B2 (ja) * | 2011-09-26 | 2014-09-24 | 株式会社東芝 | 文書マークアップ支援装置、方法、及びプログラム |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP4138075A1 (en) | 2013-02-07 | 2023-02-22 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
EP2922055A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
EP2922054A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
EP2922056A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10579742B1 (en) * | 2016-08-30 | 2020-03-03 | United Services Automobile Association (Usaa) | Biometric signal analysis for communication enhancement and transformation |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
KR20180055189A (ko) | 2016-11-16 | 2018-05-25 | 삼성전자주식회사 | 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11393451B1 (en) * | 2017-03-29 | 2022-07-19 | Amazon Technologies, Inc. | Linked content in voice user interface |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN108305611B (zh) * | 2017-06-27 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 文本转语音的方法、装置、存储介质和计算机设备 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10600404B2 (en) * | 2017-11-29 | 2020-03-24 | Intel Corporation | Automatic speech imitation |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US10706347B2 (en) | 2018-09-17 | 2020-07-07 | Intel Corporation | Apparatus and methods for generating context-aware artificial intelligence characters |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110138654B (zh) * | 2019-06-06 | 2022-02-11 | 北京百度网讯科技有限公司 | 用于处理语音的方法和装置 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2628994B2 (ja) | 1987-04-10 | 1997-07-09 | 富士通株式会社 | 文−音声変換装置 |
JP3425996B2 (ja) | 1992-07-30 | 2003-07-14 | 株式会社リコー | ピッチパターン生成装置 |
JP3373933B2 (ja) | 1993-11-17 | 2003-02-04 | 三洋電機株式会社 | 話速変換装置 |
JP3450411B2 (ja) * | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
JP3559588B2 (ja) * | 1994-05-30 | 2004-09-02 | キヤノン株式会社 | 音声合成方法及び装置 |
JP3548230B2 (ja) * | 1994-05-30 | 2004-07-28 | キヤノン株式会社 | 音声合成方法及び装置 |
JP3465734B2 (ja) * | 1995-09-26 | 2003-11-10 | 日本電信電話株式会社 | 音声信号変形接続方法 |
JPH09160582A (ja) | 1995-12-06 | 1997-06-20 | Fujitsu Ltd | 音声合成装置 |
JPH09244693A (ja) * | 1996-03-07 | 1997-09-19 | N T T Data Tsushin Kk | 音声合成方法及び装置 |
JPH1078952A (ja) * | 1996-07-29 | 1998-03-24 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 |
JP3616250B2 (ja) * | 1997-05-21 | 2005-02-02 | 日本電信電話株式会社 | 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体 |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
JP4632384B2 (ja) | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
JP4054507B2 (ja) | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
JP2001282279A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法及び装置及び記憶媒体 |
EP1160764A1 (en) | 2000-06-02 | 2001-12-05 | Sony France S.A. | Morphological categories for voice synthesis |
JP2002132287A (ja) | 2000-10-20 | 2002-05-09 | Canon Inc | 音声収録方法および音声収録装置および記憶媒体 |
DE60314929T2 (de) | 2002-02-15 | 2008-04-03 | Canon K.K. | Informationsverarbeitungsgerät und Verfahren mit Sprachsynthesefunktion |
US7546241B2 (en) | 2002-06-05 | 2009-06-09 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
-
2002
- 2002-04-02 JP JP2002100467A patent/JP2003295882A/ja active Pending
-
2003
- 2003-04-02 CN CNB038061244A patent/CN1269104C/zh not_active Expired - Fee Related
- 2003-04-02 ES ES03746418T patent/ES2316786T3/es not_active Expired - Lifetime
- 2003-04-02 KR KR1020047013129A patent/KR100591655B1/ko not_active IP Right Cessation
- 2003-04-02 AU AU2003226446A patent/AU2003226446A1/en not_active Abandoned
- 2003-04-02 EP EP03746418A patent/EP1490861B1/en not_active Expired - Lifetime
- 2003-04-02 DE DE60325191T patent/DE60325191D1/de not_active Expired - Lifetime
- 2003-04-02 WO PCT/JP2003/004231 patent/WO2003088208A1/en active IP Right Grant
-
2004
- 2004-08-10 US US10/914,169 patent/US7487093B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006178052A (ja) * | 2004-12-21 | 2006-07-06 | Advanced Telecommunication Research Institute International | 音声発生装置およびそのためのコンピュータプログラム |
JP4720974B2 (ja) * | 2004-12-21 | 2011-07-13 | 株式会社国際電気通信基礎技術研究所 | 音声発生装置およびそのためのコンピュータプログラム |
US10217454B2 (en) | 2014-10-30 | 2019-02-26 | Kabushiki Kaisha Toshiba | Voice synthesizer, voice synthesis method, and computer program product |
CN112349271A (zh) * | 2020-11-06 | 2021-02-09 | 北京乐学帮网络技术有限公司 | 语音信息处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
DE60325191D1 (de) | 2009-01-22 |
KR100591655B1 (ko) | 2006-06-20 |
CN1643572A (zh) | 2005-07-20 |
EP1490861A4 (en) | 2007-04-18 |
EP1490861B1 (en) | 2008-12-10 |
WO2003088208A1 (en) | 2003-10-23 |
KR20040086432A (ko) | 2004-10-08 |
US7487093B2 (en) | 2009-02-03 |
ES2316786T3 (es) | 2009-04-16 |
AU2003226446A1 (en) | 2003-10-27 |
EP1490861A1 (en) | 2004-12-29 |
US20050065795A1 (en) | 2005-03-24 |
CN1269104C (zh) | 2006-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003295882A (ja) | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US9424833B2 (en) | Method and apparatus for providing speech output for speech-enabled applications | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US10475438B1 (en) | Contextual text-to-speech processing | |
EP1643486A1 (en) | Method and apparatus for preventing speech comprehension by interactive voice response systems | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
WO2004097792A1 (ja) | 音声合成システム | |
JP2002221980A (ja) | テキスト音声変換装置 | |
US6212501B1 (en) | Speech synthesis apparatus and method | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP4409279B2 (ja) | 音声合成装置及び音声合成プログラム | |
JP4964695B2 (ja) | 音声合成装置及び音声合成方法並びにプログラム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
KR20100003574A (ko) | 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법 | |
JP2001350490A (ja) | テキスト音声変換装置及び方法 | |
JP2001249678A (ja) | 音声出力装置,音声出力方法および音声出力のためのプログラム記録媒体 | |
JPS63208098A (ja) | 音声合成装置および方法 | |
JP2000322075A (ja) | 音声合成装置および自然言語処理方法 | |
Abe et al. | A bilingual speech design tool: Sesign2001 | |
JP2004246085A (ja) | 音声合成方法、装置及びプログラム | |
KR20090059594A (ko) | 음성 정보를 가지는 음악 파일 생성 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070410 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070615 |