JP2003295882A - 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム - Google Patents

音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム

Info

Publication number
JP2003295882A
JP2003295882A JP2002100467A JP2002100467A JP2003295882A JP 2003295882 A JP2003295882 A JP 2003295882A JP 2002100467 A JP2002100467 A JP 2002100467A JP 2002100467 A JP2002100467 A JP 2002100467A JP 2003295882 A JP2003295882 A JP 2003295882A
Authority
JP
Japan
Prior art keywords
text
voice
prosody
speech
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002100467A
Other languages
English (en)
Inventor
Masahiro Rikuno
将弘 陸野
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002100467A priority Critical patent/JP2003295882A/ja
Priority to KR1020047013129A priority patent/KR100591655B1/ko
Priority to DE60325191T priority patent/DE60325191D1/de
Priority to EP03746418A priority patent/EP1490861B1/en
Priority to ES03746418T priority patent/ES2316786T3/es
Priority to PCT/JP2003/004231 priority patent/WO2003088208A1/en
Priority to CNB038061244A priority patent/CN1269104C/zh
Priority to AU2003226446A priority patent/AU2003226446A1/en
Publication of JP2003295882A publication Critical patent/JP2003295882A/ja
Priority to US10/914,169 priority patent/US7487093B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Abstract

(57)【要約】 【課題】 出力対象のテキストのうち、所望の範囲の韻
律を連続的且つ容易に変化させる。 【解決手段】 出力対象の入力文のうち所望の範囲を、
例えば、開始タグ<morphing type="express" start="h
appy" end="angry">と、終了タグ</morphing>とによ
って囲むことにより、合成音声の出力に際して、徐々に
楽しい音声から怒ったような音声に変化しながら、韻律
を連続的に変化させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された文章
(テキスト)を、合成音声としてスピーカから出力する
音声合成装置の分野に関する。
【0002】
【従来の技術】従来より、入力された文章(テキスト)
を、合成音声としてスピーカから出力する音声合成装置
が提案されている。
【0003】このような装置を使用してテキストから合
成音声を作成する場合には、聞き手であるユーザが自然
な音声として聞き取り易いように、発声(出力)する音
声に強さ、速度、ピッチ等の変化を与えそれにより表現
力を高めるため、合成音声を出力する際の韻律を制御す
る必要がある。
【0004】このため、テキストの文字列に含まれる所
定の規則に基づく合成音声の出力する場合においても、
そのテキスト内に所望の言語情報を付加することが試み
られている。
【0005】この場合、テキストに与えられる付加情報
には、例えば、タグと呼ばれる所謂HTML(Hyper Tex
t Markup Language)で用いられるような、付加情報を”
<>”で表わされるタグによって囲む書式が使われてお
り、このタグを用いて、入力文に対する音声合成音の制
御を用いて行なうという方式が提案されている。
【0006】
【発明が解決しようとする課題】しかしながら、このよ
うな従来のタグ付け方式では、文や単語等の離散的な単
位でタグ付けを行なうことによって所定の固定値を設定
するため、入力文内の様々な文字や単語に対応する合成
音声を適当な韻律を連続的に変化させながら出力するこ
とを目的としているものの、実際に合成音声が出力され
る際には、離散的な変化しか行なうことができず、聞き
手にとって不自然な韻律となる。
【0007】また、音声の韻律を連続的に変化させる技
術としては、例えば、音声モーフィングという方法が特
開平9−244693に提案されているが、この方法で
は、ピッチパターンしか補間することができず、聞き手
にとってやはり不自然な韻律となる。
【0008】更にこれらの方法では、入力文中のタグで
囲まれた部分の韻律を出力に際して連続的に変化させる
場合、韻律の変化点に的確にタグを付与しなければなら
ないため、タグ付けの作業が面倒であり、結局、離散的
な変化しか得られない。また、音声モーフィングの場合
も、変化させる対象が、感情であった場合、楽しい声か
ら怒った声等といった変化は連続的には行なうことがで
きない。
【0009】そこで本発明は、出力対象のテキストのう
ち、所望の範囲の韻律を連続的且つ容易に変化させるこ
とを目的とする。
【0010】
【課題を解決するための手段】上記の目的を達成するた
め、本発明に係る音声合成方法は、以下の構成を特徴と
する。
【0011】即ち、入力されたテキストに対応する合成
音声を出力するに際して、そのテキストに含まれる所定
の識別子が付与された範囲の韻律が変化するように、音
声波形を合成する音声合成方法であって、出力対象のテ
キストのうち、韻律を連続的に変化させようとする所望
の範囲を、韻律の変化の態様を表わす属性情報を含む所
定の識別子を用いて設定する設定工程と、前記設定工程
にて設定された識別子付きのテキストを対象として、前
記所定の識別子及びその中に含まれる属性情報の種類を
認識する認識工程と、前記識別子付きのテキストのう
ち、前記所望の範囲内のテキストに対応する標準音声波
形を、前記認識工程における認識結果に従って補間する
ことにより、前記所定の識別子に含まれる属性情報に従
って、韻律が連続的に変化する音声波形を合成する音声
合成工程とを有することを特徴とする。
【0012】好適な実施形態において、前記所定の識別
子に含まれる属性情報は、その識別子によって設定され
た範囲に関して、その範囲の開始位置における韻律の変
化の態様と、終了位置における韻律の変化の態様とを表
わすと良い。
【0013】また、例えば、前記属性情報が表わす韻律
の変化の態様は、音量の変化、発話者の変化、発話者数
の変化、感情の変化、発話スピードの変化、並びに基本
周波数の変化のうち、少なくとも何れかであることを特
徴とする。
【0014】また、例えば前記音声合成工程では、前記
所定の識別子に含まれる識別子によって設定された範囲
の開始位置及び終了位置に関する属性情報と、その開始
位置以前の韻律の態様とに基づいて、前記所望の範囲内
のテキストに対応する標準音声波形を補間することを特
徴とし、より具体的には、 ・前記開始位置及び終了位置に関する属性情報として設
定されている発話スピードを表わす値と、前記開始位置
以前の発話スピードを表わす値との比率に基づいて、前
記所望の範囲内のテキストに対応する標準音声波形を補
間する、或いは、 ・前記開始位置及び終了位置に関する属性情報として設
定されている音量を表わす値と、前記開始位置以前の音
量を表わす値との比率に基づいて、前記所望の範囲内の
テキストに対応する標準音声波形を補間すると良い。
【0015】或いは、同目的を達成すべく、音声合成に
よる出力対象のテキストのうち、所望の範囲の韻律を変
化させるべく所定の識別子が付与された音声合成用テキ
スト構造であって、 前記所定の識別子には、韻律を連続的に変化させる際の
変化の態様を表わす属性情報が含まれることを特徴とす
る。
【0016】尚、同目的は、上記の各構成を有する音声
合成方法に対応する音声合成装置によっても達成され
る。
【0017】また、同目的は、上記の各構成を有する音
声合成方法または装置を、コンピュータによって実現す
るプログラムコード、及びそのプログラムコードが格納
されている、コンピュータ読み取り可能な記憶媒体によ
っても達成される。
【0018】
【発明の実施の形態】以下、本発明に係る音声合成装置
の実施形態を、図面を参照して詳細に説明する。
【0019】[第1の実施形態]はじめに、本実施形態
に係る音声合成装置の構成について、図1を参照して概
説する。
【0020】図1は、第1の実施形態における音声合成
装置のブロック構成図であり、採用可能なハードウエア
としては、例えばパーソナルコンピュータ等の一般的な
情報処理装置を採用することができる。
【0021】同図において、音声出力の対象となるタグ
付きテキストの作成に関しては、テキスト本文を作成す
るテキスト作成部101、そのテキスト内の所望位置に
所定のタグおよびそのタグ内に属性を挿入することによ
り、タグ付きテキスト103を作成するタグ作成部10
2を備える。テキスト作成部101では、メールやニュ
ース、雑誌、書籍等の様々な情報源に基づくテキストが
作成される。その際、タグおよびテキストを書くための
エディタは、どのようなソフトウエアを用いてもよい。
【0022】尚、テキスト作成部101及びタグ作成部
102は、外部装置であっても、音声合成装置自体が備
えていても良い。
【0023】タグ付きテキスト103は、通信回線また
は携帯可能な記憶媒体(CD−R等)を介して、テキス
ト入力部104に入力される。テキスト入力部104に
入力されたタグ付きテキスト103は、テキスト解析部
105にてテキスト部分が解析され、タグ解析部106
にてタグ部分が解析される。更に本実施形態では、タグ
属性解析部107においてタグの内部に含まれる属性情
報が解析される(祖父際は後述する)。
【0024】言語処理部108は、言語情報が予め記憶
されている言語辞書110を参照しながら、アクセント
等の音声を出力する上で必要となる言語情報を処理す
る。そして、音声合成部109は、韻律音素等が予め記
憶されている韻律・波形辞書111を参照しながら、実
際に出力すべき音声を表わす合成波形を生成すると共
に、その合成波形に基づいて、スピーカ(不図示)から
合成音声を出力する。
【0025】次に、本実施形態における特徴的な構成に
ついて説明する。
【0026】タグ作成部102では、テキスト作成部1
01にて作成されたテキスト内に、所定のタグおよび属
性が挿入される。その際、タグは、テキスト内のユーザ
所望の位置に挿入可能であって、所謂画像処理における
モーフィングの如く、滑らかに音声の韻律を変化させた
い部分に付与することができる。また、個々のタグ内に
は、属性(属性情報)と呼ぶ付加情報を書き込むことが
できる。即ち、文字や単語が並ぶテキストのうち、韻律
を滑らかに変化させたい部分の始点と終点とに所定のタ
グ<morphing ・・・>及び</morphing>が付与され、
そのタグ内には、韻律を連続的に変化させるべき対象、
換言すれば、韻律を連続的に変化させる際の変化の態様
を表わす属性情報が書き込まれる。
【0027】ここで、属性情報の書き込みは、テキスト
の作成に際してユーザが行なう。また、。タグの設定及
びタグ内の各種属性の設定についても、ユーザによって
行なわれる。尚、これらのタグの設定及び属性値の設定
は、高機能エディタなどにより、自動または半自動で設
定されるように構成しても良い。
【0028】タグ内に埋め込まれる属性情報は、例え
ば、音量、発話者、発話者数、感情、発話スピード、基
本周波数等に関する情報である。この他にも、合成音声
の出力に際して連続的に変化させること(本実施形態で
は「モーフィング」と称する)ができる事項であれば、
他のものであっても良い。
【0029】また、属性情報は、テキスト内に設定され
た始点タグと終点タグとで異なっても良いし同じでも良
い。始点と終点とで属性情報が同じ場合には、合成音声
の実際の出力に際して、その属性情報に関して韻律の変
化はなく始点タグによって設定された当該属性情報に応
じた音声が出力される。
【0030】また、タグ内に埋め込まれる属性情報に対
応する値は、属性が音量であれば、数値である。また、
発話者であれば、男性や女性もしくは話者の識別番号
(ID)等を指定することができる。
【0031】図2は、テキストに付与されたタグの例を
示す図であり、この例では、韻律を連続的に変化させる
べき範囲が、開始タグ<morphing ・・・>と、終了タ
グ</morphing>とで囲まれた範囲であることを示す。
そして開始タグ<morphing・・・・>内の属性には、韻
律を連続的に変化させるべき対象である感情(express)
と、始点(start)における感情と終点(end)における感情
とが記述されている。このため、この文の合成音声が実
際に出力された際には、タグ内で囲まれた文章が、徐々
に楽しい音声から怒ったような音声に変化しながら発音
される。
【0032】本実施形態に係る音声合成装置のテキスト
入力部104には、前記の如くタグが付与されたタグ付
きテキスト103が入力され、テキスト解析部105で
は、入力されたタグ付きテキスト103のフォーマット
およびテキストのヘッダ部の情報に基づいて、テキスト
の種類、内容等に関する情報が取得される。
【0033】次に、タグ解析部106では、入力された
タグ付きテキスト103内に埋め込まれたタグがどのよ
うな種類であるかが判定される。タグ属性解析部107
では、タグ内に記述されている属性および属性値がどの
ようなものであるかが解析される。
【0034】そして、言語処理部108および音声合成
部109では、テキスト解析部105にて解析されたテ
キストに対応する音素として韻律・波形辞書111から
読み出された標準音声波形に対して、タグ属性解析部1
07にて取得した属性値に基づく補間が施されることに
より、出力すべき音声波形が生成され、その音声波形に
応じた合成音声が出力される(尚、属性値に基づく補間
については後述する)。
【0035】次に、タグ解析部106において<morphi
ng>・・・・・</morphing>タグ内の属性値を取り出
す方法について、図3を用いて説明する。
【0036】図3は、第1の実施形態における音声合成
装置の制御処理を示すフローチャートであり、同装置の
不図示のCPUが行なう処理の手順を表わす。
【0037】同図において、テキスト入力部104によ
って入力されたタグ付きテキスト103に対して、テキ
スト解析部105、タグ解析部106、タグ属性解析部
107によるテキスト解析、タグ解析、タグ属性解析を
行なう(ステップS301〜ステップS303)。
【0038】次に開始タグ<morphing・・・・>内に、
属性、対象、始点、終点が存在するかどうか調べる(ス
テップS304)。まず、モーフィング対象の属性値が
存在するかを調べ、モーフィング対象の属性値がなけれ
ば、そのタグの前文で読み上げれられていた音声に従っ
て、開始タグと終了タグとに挟まれた文字や単語を読み
上げる(ステップS305)。一方、モーフィング対象
の属性値が存在する場合には、始点および終点の属性が
どちらか一方でも存在するかどうかを調べる(ステップ
S306)。
【0039】始点及び終点共に属性値が存在しなけれ
ば、予め設定されているモーフィング対象のデフォルト
の属性値に応じた合成音で、開始タグと終了タグとに挟
まれた文字や単語を読み上げる(ステップS307)。
一方、始点または終点に属性値が存在する場合には、始
点に対する属性値が存在するかについて調べる(ステッ
プS308)。そして、始点の属性値が存在しなけれ
ば、終点の属性値と、モーフィング対象の属性値とが一
致するかを判断することにより、それらが正当なもの
(一致する)であるかを調べ(ステップS309)、一
致する場合には終点の属性値を用いる(ステップS31
1)。ステップS309では、例えば、モーフィング対
象がボリュームなら、終点の属性値はボリューム値であ
るかどうかを調べ、その結果、異なっていなければ、終
点の情報で読み上げ、異なっていれば対象の属性値に対
して予め用意されたデフォルトの合成音で、開始タグと
終了タグとに挟まれた文字や単語を読み上げる(ステッ
プS310)。
【0040】また、ステップS308において始点の属
性値が存在すると判断された場合であって終点の属性値
がない場合には、始点の属性値に従い読み上げる(ステ
ップS312、ステップS315)。この場合も同様
に、対象との正当性を調べ一致していれば、始点の属性
値に従い、読み上げる(ステップS313、ステップS
314)。
【0041】そして、始点及び終点とも属性値が存在し
ており、その対象に対する値も正当なもの(一致する)
であれば、属性値による補間を行なった上で合成音を出
力する(ステップS316、ステップS320)。始点
と終点とでの属性値が正当な場合とは、例えば対象がボ
リュームであれば、始点はボリューム値、終点もボリュ
ーム値でなければならないということである。ここで、
例えば始点がボリューム値、終点が感情等のように、始
点と終点とで属性値が異なる場合は、対象と一致してい
るものの属性値を用いる(ステップS317、ステップ
S319)。また、これら始点及び終点の属性値がお互
いに異なり、かつモーフィング対象とも異なっていた場
合は、対象の属性値に対するデフォルトの合成音で、開
始タグと終了タグとに挟まれた文字や単語を読み上げる
(ステップS318)。判断対象となったタグの属性値
が異なっていた場合における音声出力の優先度は、対象
> 始点 > 終点とする。
【0042】次に、音声作成の手順として、属性値に基
づいて行われる補間について、図4を参照して説明す
る。
【0043】図4は、合成音声の出力に際して発話スピ
ードを補間する例を説明する図である。
【0044】補間方法の例として、まず、発話スピード
の補間を行なう場合は、出力対象のテキスト(図4の場
合には、あ(a)、い(i)、う(u)、え(e))に従って、その
テキスト全体の波形が出力される際の所要時間を算出す
ると共に、そのテキストを構成する音素毎の時間長tも
求める。本実施形態において、韻律・波形辞書111に
は、複数の音素に関して、標準的な韻律及び音声波形が
予め登録されているので、出力対象のテキスト全体の波
形が出力される際の所要時間は、韻律・波形辞書111
から読み出した合成音声の出力に必要な音素(図4の場
合には、あ(a)、い(i)、う(u)、え(e))について、音素
毎の時間長tを積算すれば良い。
【0045】そして始点及び終点の属性値として設定さ
れている値と、現在の発話スピードとの比rを求める。
その際、始点及び終点の属性値として設定されている値
が現在のスピードに対する比rと同じ場合には、この補
間処理は必要ない。
【0046】そして求められた比に基づいて、各音素に
おける補間関数を、(補間値)=t×rによって算出す
る。求められた補間値に応じて波形の周期を縮めたり、
伸ばしたりすることにより、発話スピードを変化させる
ことができる。また、各音素の特長に合わせて時間長を
変化させる処理を行なっても良い。
【0047】次に、音量の補間を行なう場合は、出力対
象のテキスト(図5の場合には、あ(a)、い(i)、う
(u)、え(e))に従って、上述した発話スピードを補間す
る場合と同様に、そのテキストを構成する音素毎の時間
長tを用いる。そして始点及び終点の属性値として設定
されている値と、現在の音量に対する比r’を求める。
【0048】図5は、合成音声の出力に際して音量を補
間する例を説明する図であり、補間関数を、(補間値)
=f×r’によって算出する。この場合も、各音素の標
準的な音声波形及びその振幅は、韻律・波形辞書111
から読み出したものである。
【0049】そして、求められた補間値に応じて波形の
振幅fを縮めたり伸ばしたりする。また、振幅を変える
のではなく出力ハードウエアの音量を直接変化させる方
法を採用しても良い。基本周波数についても同様の方法
で算出する。
【0050】更に、感情や発話スタイルに対する補間を
行う場合は、出力対象のテキストの始点及び終点の属性
値として設定されている値に対する音声合成用データの
補間をすることによって合成音声を生成する。
【0051】例えば、PSOLA等の波形編集方式による音
声合成方法では、出力対象のテキスト中の開始位置に設
定された感情に対する音声波形辞書の素片と、終了位置
に設定された感情に対する音声波形辞書の素片とを、所
望の継続時間長および基本周波数に対してPSOLA処理を
施し、音量の場合と同様に得られる補間関数に従って音
声波形素片を補間することによって求めれば良い。
【0052】他にも、ケプストラム等のパラメータ分析
合成方式による音声合成方法では、出力対象のテキスト
中の開始位置に設定された感情に対する音声パラメータ
辞書の素片と、終了位置に設定された感情に対する音声
パラメータ辞書の素片とを補間することによってパラメ
ータを生成し、このパラメータを用いて所望の継続時間
長および基本周波数に対する合成音声を生成することに
よっても補間を行なうことができる。更に、男性から女
性等のように、話者間の補間に対しても同様の方法によ
って補間することができる。
【0053】また、話者数(話し手の人数)に対する補
間を行う場合は、図6のような補間関数で求める。
【0054】図6は、合成音声の出力に際して話者数を
補間する例を説明する図であり、同図に示す例では、1
人の話者から5人の話者へのモーフィングが実現され
る。この場合、出力対象のテキストから求めた波形の時
間長を5分割する。そして各分割時間が経過する度に話
者を1人ずつ増やすと共に、図6に示す補間関数(0乃
至1の間で変化する関数)に基づき線形にその合成音の
大きさを変化させていく。また、振幅が所定値以上に大
きくならないように、波形のレベルは正規化しているも
のとする。
【0055】本実施形態では、上述した各種の補間処理
を施すことによって作成された音声波形に従って合成音
声が出力される。これにより、韻律が離散的に変化する
従来の音声合成装置と比較して、韻律が連続的に変化す
る自然な合成音声を実現することができる。
【0056】[第2の実施形態]次に、上述した第1の
実施形態に係る音声合成装置を基本とする第2の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0057】本実施形態では、タグ付きテキスト103
に含まれる所定のタグは、<morphing・・・>及び</m
orphing>からなる第1実施形態と同様のタグに加え
て、それら2つのタグの中に、図7に例示する如く入れ
子構造にすることにより、変化する対象を複数設定す
る。このような入れ子構造を採用することで、複数変化
の音声合成モーフィングを行なうことが可能となる。即
ち、図7の例では、出力対象のテキストが合成音声とし
て発せられる際の韻律は、はじめは楽しげな口調で音量
が大きいが、その後、怒ったような口調に変化すると共
に、音量も始めと比較して小さく変化することになる。
【0058】その他の構成については、上述した第1の
実施形態と同様であるため重複する説明は省略する。
【0059】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0060】[第3の実施形態]次に、上述した第1の
実施形態に係る音声合成装置を基本とする第3の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0061】上述した第1及び第2の実施形態におい
て、開始タグ<morphing・・・・>に含まれる属性情報
は、韻律を連続的に変化させるべき対象と、その対象に
対する始点の属性値および、終点の属性値を記述してい
た。これに対して、第3の実施形態では、開始タグ<mo
rphing・・・・>内には、始点および終点に変化対象と
なるもののラベルを付ける。
【0062】図8は、第3の実施形態においてテキスト
に付与されたタグの例を示す図であり、タグ間に挟まれ
るテキスト自体は第2の実施形態の場合の図7と同様で
ある。そして、本実施形態では、変化の対象を感情(exp
ress)とする。そのため、始点及び終点ではそれぞれ、e
xpressstartとexpressendというように始点と終点に変
化対象のラベルを記述している。第3の実施形態におけ
る音声合成装置の構成は第1の実施形態と同様な構成で
あるため重複する説明は省略する。次に、第1の実施形
態と第3の実施形態の相違について説明する。
【0063】まず、第1の実施形態と同様にテキスト解
析部105において、入力されたタグ付きテキスト10
3のフォーマットおよびヘッダ部の情報に基づいて、当
該テキストの種類、内容等を解析して、これらに関する
情報を取得する。そして、タグ解析部105では、当該
テキスト内に埋め込まれているタグがどのような種類か
を判定する。タグ属性解析部107では、タグ内に記述
されている属性および属性値がどのようなものであるか
を解析する。本実施形態において解析するのは、始点と
終点のみであり、その始点と終点がどのような対象であ
るかもタグ属性解析部107で調べる。音声合成部10
9は、タグ属性解析部107により得られた属性値に基
づいて補間を行ない、その結果得られる音声波形に従っ
て、当該テキストの内容に対応する合成音声を生成す
る。
【0064】タグ内に埋め込まれる属性情報は、第1の
実施形態と同様な構成であるため重複する説明は省略す
る。第1の実施形態と第3の実施形態の相違は、開始タ
グ<morphing・・・・・>内の属性として、韻律を連続
的に変化させるべき対象である感情(express)、始点(st
art)における感情、並びに終点(end)における感情を記
述するに際して、係る始点に対してexpressstartという
変化対象のラベルを付け、係る終点に対してexpressend
という変化対象のラベルを付けることである。また、本
実施形態では、このようなタグの書式の変化に応じて、
例外処理も一部異なるため、この点について図9を参照
して説明する。
【0065】図9は、第3の実施形態における音声合成
装置の制御処理を示すフローチャートであり、同装置の
不図示のCPUが行なう処理の手順を表わす。
【0066】同図において、テキスト入力部104によ
って入力されたタグ付きテキスト103に対して、テキ
スト解析部105、タグ解析部106、タグ属性解析部
107によるテキスト解析、タグ解析、並びにタグ属性
解析を行なう(ステップS901〜ステップS90
3)。
【0067】開始タグ<morphing・・・・>内の属性、
始点、終点が存在するかどうか調べる。即ち、始点およ
び終点の属性がどちらか一方でもあるかどうかを調べる
(ステップS904)。始点及び終点共に属性値がなけ
れば、そのタグの前文で読み上げられていた音声に従い
読み上げる(ステップS905)。次に始点に対する属
性値が存在するかについて調べ、始点に属性値が存在し
なければ、終点の属性値を用いる(ステップS906、
ステップS907)。逆に、始点の属性値が存在し終点
の属性値がない場合は、始点の属性値に従い読み上げる
(ステップS908、ステップS909)。そして、始
点及び終点共に属性値が存在しており、属性が異なって
いなければ属性値により補間を行ない、補間によって得
られた音声波形に従って合成音声を出力する(ステップ
S910、ステップS912)。
【0068】始点及び終点における属性値は、韻律を連
続的に変化させるべき対象がボリュームであれば、始点
はボリューム値、終点もボリューム値でなければならな
い。始点がボリューム値、終点が感情等というように、
始点と終点とで属性値の種類が異なる場合は、始点の属
性値を用いる(ステップS911)。このタグの属性値
が間違っていた場合における音声出力の優先度の順位付
けは、(始点の順位)> (終点の順位)、とする。
【0069】その他の形態については、第1の実施形態
と同様な構成であるため重複する説明は省略する。
【0070】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0071】[第4の実施形態]次に、上述した第1の
実施形態に係る音声合成装置を基本とする第4の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0072】第1乃至第3の実施形態において、モーフ
ィングの変化は一定すなわち、モーフィングアルゴリズ
ム自体の変化率に依存していたが、第4の実施形態で
は、モーフィング変化のための属性も付加できることを
特徴とする。その例を図10に示す。
【0073】図10は、第4の実施形態においてテキス
トに付与されたタグの例を示す図であり、本実施形態で
は、開始タグ<morphing・・・・>内の属性に、更にモ
ーフィングの変化率のための属性情報を設定する。モー
フィングの変化率を表わす属性値としては、線形、非線
形、ログ等の変化に用いる関数のタイプを、functionに
記述する。
【0074】そして、本実施形態では、タグ属性解析部
107によってタグを解析する際、対象、始点、終点だ
けではなく、モーフィングの変化率を表わす属性値に従
って、モーフィング変化の属性も解析する。解析の結
果、function欄に線形、非線形、ログ等の属性値が記述
されていれば、その属性値で与えられた変化率に従って
補間を行ない、補間によって得られた合成波形に従って
合成音声を出力する。一方、この属性値が記述されてい
なければ、モーフィングアルゴリズムで予め決められた
変化方法に従って補間を行なう。
【0075】その他の形態については、第1の実施形態
と同様な構成であるため重複する説明は省略する。
【0076】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0077】[第5の実施形態]次に、上述した第1の
実施形態に係る音声合成装置を基本とする第5の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0078】第1乃至第3の実施形態において、モーフ
ィングの変化は一定すなわち、モーフィングアルゴリズ
ム自体の変化率に依存していたが、第5の実施形態で
は、モーフィング変化のための属性をタグ内に個々に付
加できることを特徴とする。その例を図11に示す。
【0079】図11は、第5の実施形態においてテキス
トに付与されたタグの例を示す図であり、本実施形態で
は、<morphing・・・>・・・・</morphing>タグ内
で囲まれたテキスト内に、さらにモーフィング変化のた
めの中間タグを挿入する。
【0080】そして、本実施形態においては、タグ解析
部106によってタグが解析される際、<morphing>タ
グだけではなく、モーフィング変化を発生させる中間タ
グも解析される。中間タグは、<rate value ="*.
*"/>のようなタグを用い、value属性部分に変化率0
乃至1の割合で記入する。そして、韻律を連続的に変化
させるべきテキスト内の所望位置に個々に埋め込む。こ
れにより、補間後の実際の合成音声の出力に際して、図
12に例示する如く、更に複雑な韻律の変化を起こすこ
とが可能となる。
【0081】また、第4の実施形態で用いられたモーフ
ィング変化のための関数functionが指定されていれば、
<rate/>タグから次の<rate/>タグへの補間関数は、
先に指定された関数が用いられる。
【0082】その他の形態については、第1の実施形態
と同様な構成であるため重複する説明は省略する。
【0083】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0084】[第6の実施形態]次に、上述した第1乃
至第3の実施形態に係る音声合成装置を基本とする第6
の実施形態を説明する。以下の説明においては、第1の
実施形態と同様な構成については重複する説明を省略
し、本実施形態における特徴的な部分を中心に説明す
る。
【0085】上述した各実施形態では、開始タグ<morp
hing・・・>の中に始点及び終点の属性値を設定した
が、本実施形態では、図13のように終点の属性値をタ
グの終わり部分に設定する。
【0086】図13は、第6の実施形態においてテキス
トに付与されたタグの例を示す図である。
【0087】第1の実施形態のようなタグ構成であれ
ば、開始タグ<morphing・・・>内に始点の属性および
対象として、<morphing type= "express" start="hap
py">を記述すると共に、終了タグには、</morphing
end="angry">のように終点の属性を記述した。これに
対して、本実施形態では、開始タグには、<morphingex
pressstart="happy">、終了タグには、</morphing e
xpressend="angry">というように記述する。また、本
実施形態において第4の実施形態のような補間関数を指
定する場合は、開始タグに記述する。
【0088】その他の形態については、第1の実施形態
と同様な構成であるため重複する説明は省略する。
【0089】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0090】[第7の実施形態]次に、上述した第1の
実施形態に係る音声合成装置を基本とする第7の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0091】本実施形態では、上述した各実施形態にお
いて、タグ内の属性が始点と終点とで異なっていた場合
には、エラーと判断して処理を行なわない。
【0092】即ち、第1の実施形態におけるタグ構成に
当てはめて説明すれば、<morphingtype= "express" st
art="happy" end="10">・・・・・・</morphing >と
いうように、startとendの属性が異なる場合、エラーと
して何もしない。また、対象と始点及び終点の属性が違
っていた場合もエラーとして何もしない。ここで、始点
と終点がない場合やどちらか一方でもない場合は、第1
の実施形態と同様に処理する。第3の実施形態では、こ
こで、始点と終点がない場合やどちらか一方でもない場
合は第3の実施形態と同様に処理する。その他の形態に
ついては、第1乃至第5の実施形態と同様な構成である
ため重複する説明は省略する。
【0093】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0094】[第8の実施形態]次に、上述した第1の
実施形態に係る音声合成装置を基本とする第8の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0095】上述した各実施形態においては、タグ内に
設定される属性情報のうち何れかが存在しない場合であ
っても合成音声を出力していたが、本実施形態では、始
点および終点の属性が異なっていた場合や、始点および
終点と対象の属性が異なっていた場合も、エラーとして
何も処理しない。
【0096】その他の構成については、第1乃至第7の
実施形態と同様な構成であるため重複する説明は省略す
る。
【0097】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【0098】従って、上述した各実施形態によれば、出
力対象の入力文のうち所望の範囲をタグで囲むことによ
り、合成音声の出力に際して、モーフィングのように韻
律を連続的に変化させることができ、従来のような離散
的な音声発音となるテキスト読み上げの機能を、聞き手
に対してより自然なものにすることができる。
【0099】
【他の実施形態】上述した各実施形態を例に説明した本
発明は、複数の機器から構成されるシステムに適用して
も良いし、また、一つの機器からなる装置に適用しても
良い。
【0100】尚、本発明は、前述した各実施形態におい
て説明したフローチャートの機能を実現するソフトウェ
ア・プログラムを、上述した音声合成装置として動作す
るシステム或いは装置に直接或いは遠隔から供給し、そ
のシステム或いは装置のコンピュータが該供給されたプ
ログラムコードを読み出して実行することによっても達
成される場合を含む。その場合、プログラムの機能を有
していれば、形態は、プログラムである必要はない。
【0101】従って、本発明の機能処理をコンピュータ
で実現するために、該コンピュータにインストールされ
るプログラムコード自体も本発明を実現するものであ
る。つまり、本発明のクレームでは、本発明の機能処理
を実現するためのコンピュータプログラム自体も含まれ
る。
【0102】その場合、プログラムの機能を有していれ
ば、オブジェクトコード、インタプリタにより実行され
るプログラム、OSに供給するスクリプトデータ等、プ
ログラムの形態を問わない。
【0103】プログラムを供給するための記録媒体とし
ては、例えば、フロッピー(登録商標)ディスク、ハー
ドディスク、光ディスク、光磁気ディスク、MO、CD
−ROM、CD−R、CD−RW、磁気テープ、不揮発
性のメモリカード、ROM、DVD(DVD−ROM,
DVD−R)などがある。
【0104】その他、プログラムの供給方法としては、
クライアントコンピュータのブラウザを用いてインター
ネットのホームページに接続し、該ホームページから本
発明のコンピュータプログラムそのもの、もしくは圧縮
され自動インストール機能を含むファイルをハードディ
スク等の記録媒体にダウンロードすることによっても供
給できる。また、本発明のプログラムを構成するプログ
ラムコードを複数のファイルに分割し、それぞれのファ
イルを異なるホームページからダウンロードすることに
よっても実現可能である。つまり、本発明の機能処理を
コンピュータで実現するためのプログラムファイルを複
数のユーザに対してダウンロードさせるWWW(World W
ide Web)サーバも、本発明のクレームに含まれるもので
ある。
【0105】また、本発明のプログラムを暗号化してC
D−ROM等の記憶媒体に格納してユーザに配布し、所
定の条件をクリアしたユーザに対し、インターネットを
介してホームページから暗号化を解く鍵情報をダウンロ
ードさせ、その鍵情報を使用することにより暗号化され
たプログラムを実行してコンピュータにインストールさ
せて実現することも可能である。
【0106】また、コンピュータが、読み出したプログ
ラムを実行することによって、前述した実施形態の機能
が実現される他、そのプログラムの指示に基づき、コン
ピュータ上で稼動しているOSなどが、実際の処理の一
部または全部を行ない、その処理によっても前述した実
施形態の機能が実現され得る。
【0107】さらに、記録媒体から読み出されたプログ
ラムが、コンピュータに挿入された機能拡張ボードやコ
ンピュータに接続された機能拡張ユニットに備わるメモ
リに書き込まれた後、そのプログラムの指示に基づき、
その機能拡張ボードや機能拡張ユニットに備わるCPU
などが実際の処理の一部または全部を行ない、その処理
によっても前述した実施形態の機能が実現される。
【0108】
【発明の効果】以上説明したように、本発明によれば、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。
【図面の簡単な説明】
【図1】第1の実施形態における音声合成装置のブロッ
ク構成図である。
【図2】テキストに付与されたタグの例を示す図であ
る。
【図3】第1の実施形態における音声合成装置の制御処
理を示すフローチャートである。
【図4】合成音声の出力に際して発話スピードを補間す
る例を説明する図である。
【図5】合成音声の出力に際して音量を補間する例を説
明する図である。
【図6】合成音声の出力に際して話者数を補間する例を
説明する図である。
【図7】第2の実施形態においてテキストに付与された
タグの例を示す図である。
【図8】第3の実施形態においてテキストに付与された
タグの例を示す図である。
【図9】第3の実施形態における音声合成装置の制御処
理を示すフローチャートである。
【図10】第4の実施形態においてテキストに付与され
たタグの例を示す図である。
【図11】第5の実施形態においてテキストに付与され
たタグの例を示す図である。
【図12】第5の実施形態における合成音出力時の韻律
の変化の様子を説明する図である。
【図13】第6の実施形態においてテキストに付与され
たタグの例を示す図である。
【符号の説明】
101:テキスト作成部, 102:タグ作成部, 103:タグ付きテキスト, 104:テキスト入力部, 105:テキスト解析部, 106:タグ解析部, 107:タグ属性解析部, 108:言語処理部, 109:音声合成部, 110:言語辞書, 111:韻律・波形辞書,

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力されたテキストに対応する合成音声
    を出力するに際して、そのテキストに含まれる所定の識
    別子が付与された範囲の韻律が変化するように、音声波
    形を合成する音声合成方法であって、 出力対象のテキストのうち、韻律を連続的に変化させよ
    うとする所望の範囲を、韻律の変化の態様を表わす属性
    情報を含む所定の識別子を用いて設定する設定工程と、 前記設定工程にて設定された識別子付きのテキストを対
    象として、前記所定の識別子及びその中に含まれる属性
    情報の種類を認識する認識工程と、 前記識別子付きのテキストのうち、前記所望の範囲内の
    テキストに対応する標準音声波形を、前記認識工程にお
    ける認識結果に従って補間することにより、前記所定の
    識別子に含まれる属性情報に従って、韻律が連続的に変
    化する音声波形を合成する音声合成工程と、を有するこ
    とを特徴とする音声合成方法。
  2. 【請求項2】 前記所定の識別子に含まれる属性情報
    は、その識別子によって設定された範囲に関して、その
    範囲の開始位置における韻律の変化の態様と、終了位置
    における韻律の変化の態様とを表わすことを特徴とする
    請求項1記載の音声合成方法。
  3. 【請求項3】 前記属性情報が表わす韻律の変化の態様
    は、音量の変化、発話者の変化、発話者数の変化、感情
    の変化、発話スピードの変化、並びに基本周波数の変化
    のうち、少なくとも何れかであることを特徴とする請求
    項1または請求項2記載の音声合成方法。
  4. 【請求項4】 前記音声合成工程では、前記所定の識別
    子に含まれる識別子によって設定された範囲の開始位置
    及び終了位置に関する属性情報と、その開始位置以前の
    韻律の態様とに基づいて、前記所望の範囲内のテキスト
    に対応する標準音声波形を補間することを特徴とする請
    求項1記載の音声合成方法。
  5. 【請求項5】 前記音声合成工程では、前記開始位置及
    び終了位置に関する属性情報として設定されている発話
    スピードを表わす値と、前記開始位置以前の発話スピー
    ドを表わす値との比率に基づいて、前記所望の範囲内の
    テキストに対応する標準音声波形を補間することを特徴
    とする請求項4記載の音声合成方法。
  6. 【請求項6】 前記音声合成工程では、前記開始位置及
    び終了位置に関する属性情報として設定されている音量
    を表わす値と、前記開始位置以前の音量を表わす値との
    比率に基づいて、前記所望の範囲内のテキストに対応す
    る標準音声波形を補間することを特徴とする請求項4記
    載の音声合成方法。
  7. 【請求項7】 入力されたテキストに対応する合成音声
    を出力するに際して、そのテキストに含まれる所定の識
    別子が付与された範囲の韻律が変化するように、音声波
    形を合成する音声合成装置であって、 出力対象のテキストのうち、韻律を連続的に変化させよ
    うとする所望の範囲を表わすところの、韻律の変化の態
    様を表わす属性情報を含む所定の識別子が設定設定され
    た識別子付きのテキストを対象として、該所定の識別子
    及びその中に含まれる属性情報の種類を認識する認識手
    段と、 前記識別子付きのテキストのうち、前記所望の範囲内の
    テキストに対応する標準音声波形を、前記認識手段によ
    る認識結果に従って補間することにより、前記所定の識
    別子に含まれる属性情報に従って、韻律が連続的に変化
    する音声波形を合成する音声合成手段と、を備えること
    を特徴とする音声合成装置。
  8. 【請求項8】 音声合成による出力対象のテキストのう
    ち、所望の範囲の韻律を変化させるべく所定の識別子が
    付与された音声合成用テキスト構造であって、 前記所定の識別子には、韻律を連続的に変化させる際の
    変化の態様を表わす属性情報が含まれることを特徴とす
    る音声合成用テキスト構造。
  9. 【請求項9】 請求項1乃至請求項6の何れかに記載の
    音声合成方法を、コンピュータによって実現可能な動作
    指示をなすことを特徴とするコンピュータ・プログラ
    ム。
  10. 【請求項10】 請求項7記載の音声合成装置として、
    コンピュータを動作させる指示をなすことを特徴とする
    コンピュータ・プログラム。
JP2002100467A 2002-04-02 2002-04-02 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム Pending JP2003295882A (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP2002100467A JP2003295882A (ja) 2002-04-02 2002-04-02 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
KR1020047013129A KR100591655B1 (ko) 2002-04-02 2003-04-02 음성 합성을 위한 음성 합성 방법, 음성 합성 장치 및 컴퓨터 판독 가능 기록 매체
DE60325191T DE60325191D1 (de) 2002-04-02 2003-04-02 Verfahren, vorrichtung und computerprogramm zur sprachsynthese
EP03746418A EP1490861B1 (en) 2002-04-02 2003-04-02 Method, apparatus and computer program for voice synthesis
ES03746418T ES2316786T3 (es) 2002-04-02 2003-04-02 Metodo, aparato y programa de ordenador para sintesis de voz.
PCT/JP2003/004231 WO2003088208A1 (en) 2002-04-02 2003-04-02 Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
CNB038061244A CN1269104C (zh) 2002-04-02 2003-04-02 语音合成方法和语音合成设备
AU2003226446A AU2003226446A1 (en) 2002-04-02 2003-04-02 Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
US10/914,169 US7487093B2 (en) 2002-04-02 2004-08-10 Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002100467A JP2003295882A (ja) 2002-04-02 2002-04-02 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム

Publications (1)

Publication Number Publication Date
JP2003295882A true JP2003295882A (ja) 2003-10-15

Family

ID=29241389

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002100467A Pending JP2003295882A (ja) 2002-04-02 2002-04-02 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム

Country Status (9)

Country Link
US (1) US7487093B2 (ja)
EP (1) EP1490861B1 (ja)
JP (1) JP2003295882A (ja)
KR (1) KR100591655B1 (ja)
CN (1) CN1269104C (ja)
AU (1) AU2003226446A1 (ja)
DE (1) DE60325191D1 (ja)
ES (1) ES2316786T3 (ja)
WO (1) WO2003088208A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178052A (ja) * 2004-12-21 2006-07-06 Advanced Telecommunication Research Institute International 音声発生装置およびそのためのコンピュータプログラム
US10217454B2 (en) 2014-10-30 2019-02-26 Kabushiki Kaisha Toshiba Voice synthesizer, voice synthesis method, and computer program product
CN112349271A (zh) * 2020-11-06 2021-02-09 北京乐学帮网络技术有限公司 语音信息处理方法、装置、电子设备及存储介质

Families Citing this family (201)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
CN1260704C (zh) * 2003-09-29 2006-06-21 摩托罗拉公司 语音合成方法
WO2005071664A1 (ja) * 2004-01-27 2005-08-04 Matsushita Electric Industrial Co., Ltd. 音声合成装置
JP2005234337A (ja) * 2004-02-20 2005-09-02 Yamaha Corp 音声合成装置、音声合成方法、及び音声合成プログラム
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
JP5321058B2 (ja) * 2006-05-26 2013-10-23 日本電気株式会社 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101295504B (zh) * 2007-04-28 2013-03-27 诺基亚公司 用于仅文本的应用的娱乐音频
US20090157407A1 (en) * 2007-12-12 2009-06-18 Nokia Corporation Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) * 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US8990087B1 (en) * 2008-09-30 2015-03-24 Amazon Technologies, Inc. Providing text to speech from digital content on an electronic device
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US8374881B2 (en) * 2008-11-26 2013-02-12 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with dialog acts
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP5275102B2 (ja) * 2009-03-25 2013-08-28 株式会社東芝 音声合成装置及び音声合成方法
GB0906470D0 (en) 2009-04-15 2009-05-20 Astex Therapeutics Ltd New compounds
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8996384B2 (en) * 2009-10-30 2015-03-31 Vocollect, Inc. Transforming components of a web page to voice prompts
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8965768B2 (en) 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US8731932B2 (en) * 2010-08-06 2014-05-20 At&T Intellectual Property I, L.P. System and method for synthetic voice generation and modification
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
CN102426838A (zh) * 2011-08-24 2012-04-25 华为终端有限公司 语音信号处理方法和用户设备
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5596649B2 (ja) * 2011-09-26 2014-09-24 株式会社東芝 文書マークアップ支援装置、方法、及びプログラム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
EP2922055A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922054A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10579742B1 (en) * 2016-08-30 2020-03-03 United Services Automobile Association (Usaa) Biometric signal analysis for communication enhancement and transformation
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR20180055189A (ko) 2016-11-16 2018-05-25 삼성전자주식회사 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11393451B1 (en) * 2017-03-29 2022-07-19 Amazon Technologies, Inc. Linked content in voice user interface
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN108305611B (zh) * 2017-06-27 2022-02-11 腾讯科技(深圳)有限公司 文本转语音的方法、装置、存储介质和计算机设备
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10600404B2 (en) * 2017-11-29 2020-03-24 Intel Corporation Automatic speech imitation
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10706347B2 (en) 2018-09-17 2020-07-07 Intel Corporation Apparatus and methods for generating context-aware artificial intelligence characters
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110138654B (zh) * 2019-06-06 2022-02-11 北京百度网讯科技有限公司 用于处理语音的方法和装置
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2628994B2 (ja) 1987-04-10 1997-07-09 富士通株式会社 文−音声変換装置
JP3425996B2 (ja) 1992-07-30 2003-07-14 株式会社リコー ピッチパターン生成装置
JP3373933B2 (ja) 1993-11-17 2003-02-04 三洋電機株式会社 話速変換装置
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JP3559588B2 (ja) * 1994-05-30 2004-09-02 キヤノン株式会社 音声合成方法及び装置
JP3548230B2 (ja) * 1994-05-30 2004-07-28 キヤノン株式会社 音声合成方法及び装置
JP3465734B2 (ja) * 1995-09-26 2003-11-10 日本電信電話株式会社 音声信号変形接続方法
JPH09160582A (ja) 1995-12-06 1997-06-20 Fujitsu Ltd 音声合成装置
JPH09244693A (ja) * 1996-03-07 1997-09-19 N T T Data Tsushin Kk 音声合成方法及び装置
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
JP3616250B2 (ja) * 1997-05-21 2005-02-02 日本電信電話株式会社 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP4632384B2 (ja) 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
JP4054507B2 (ja) 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
JP2001282279A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法及び装置及び記憶媒体
EP1160764A1 (en) 2000-06-02 2001-12-05 Sony France S.A. Morphological categories for voice synthesis
JP2002132287A (ja) 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
DE60314929T2 (de) 2002-02-15 2008-04-03 Canon K.K. Informationsverarbeitungsgerät und Verfahren mit Sprachsynthesefunktion
US7546241B2 (en) 2002-06-05 2009-06-09 Canon Kabushiki Kaisha Speech synthesis method and apparatus, and dictionary generation method and apparatus

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178052A (ja) * 2004-12-21 2006-07-06 Advanced Telecommunication Research Institute International 音声発生装置およびそのためのコンピュータプログラム
JP4720974B2 (ja) * 2004-12-21 2011-07-13 株式会社国際電気通信基礎技術研究所 音声発生装置およびそのためのコンピュータプログラム
US10217454B2 (en) 2014-10-30 2019-02-26 Kabushiki Kaisha Toshiba Voice synthesizer, voice synthesis method, and computer program product
CN112349271A (zh) * 2020-11-06 2021-02-09 北京乐学帮网络技术有限公司 语音信息处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
DE60325191D1 (de) 2009-01-22
KR100591655B1 (ko) 2006-06-20
CN1643572A (zh) 2005-07-20
EP1490861A4 (en) 2007-04-18
EP1490861B1 (en) 2008-12-10
WO2003088208A1 (en) 2003-10-23
KR20040086432A (ko) 2004-10-08
US7487093B2 (en) 2009-02-03
ES2316786T3 (es) 2009-04-16
AU2003226446A1 (en) 2003-10-27
EP1490861A1 (en) 2004-12-29
US20050065795A1 (en) 2005-03-24
CN1269104C (zh) 2006-08-09

Similar Documents

Publication Publication Date Title
JP2003295882A (ja) 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US9424833B2 (en) Method and apparatus for providing speech output for speech-enabled applications
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US10475438B1 (en) Contextual text-to-speech processing
EP1643486A1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
WO2004097792A1 (ja) 音声合成システム
JP2002221980A (ja) テキスト音声変換装置
US6212501B1 (en) Speech synthesis apparatus and method
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JP4964695B2 (ja) 音声合成装置及び音声合成方法並びにプログラム
JPH08335096A (ja) テキスト音声合成装置
KR20100003574A (ko) 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법
JP2001350490A (ja) テキスト音声変換装置及び方法
JP2001249678A (ja) 音声出力装置,音声出力方法および音声出力のためのプログラム記録媒体
JPS63208098A (ja) 音声合成装置および方法
JP2000322075A (ja) 音声合成装置および自然言語処理方法
Abe et al. A bilingual speech design tool: Sesign2001
JP2004246085A (ja) 音声合成方法、装置及びプログラム
KR20090059594A (ko) 음성 정보를 가지는 음악 파일 생성 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070410

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070615