JP4056470B2 - イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ - Google Patents
イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ Download PDFInfo
- Publication number
- JP4056470B2 JP4056470B2 JP2003522906A JP2003522906A JP4056470B2 JP 4056470 B2 JP4056470 B2 JP 4056470B2 JP 2003522906 A JP2003522906 A JP 2003522906A JP 2003522906 A JP2003522906 A JP 2003522906A JP 4056470 B2 JP4056470 B2 JP 4056470B2
- Authority
- JP
- Japan
- Prior art keywords
- intonation
- shape
- pattern
- text
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 45
- 230000015572 biosynthetic process Effects 0.000 claims description 117
- 238000003786 synthesis reaction Methods 0.000 claims description 117
- 238000004458 analytical method Methods 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 15
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 20
- 101100274346 Drosophila melanogaster mora gene Proteins 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 239000012092 media component Substances 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 241000102542 Kara Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Description
【発明の属する技術分野】
本発明は、音声合成方法及びその装置に関し、特に音声のイントネーションの生成方法に特徴を有する音声合成方法及びその装置に関する。
【0002】
【従来の技術】
テキストデータを音声出力するテキスト合成方式による音声合成(テキスト音声合成)技術では、人による発話に近い自然なイントネーションを生成することが大きな課題となっている。
従来、広く利用されてきたイントネーションの制御方法は、藤崎モデルに代表される、アクセント成分と話調成分との重畳によるイントネーション・パターンの生成モデルである。このモデルは、物理的な発話現象との対応付けが可能で、アクセントの大きさ、位置や、話調の立て直しなどを柔軟に表現することができる。
しかし、この種のモデルは、音声の言語的な情報との対応付けが複雑であり、困難となっていた。そのため、音声合成の際に実際に用いられるアクセント、話調成分の大きさ、時間的な配置などを制御するパラメータは、言語情報に基づく精密な制御が困難であり、結果的に、過度の簡略化が行われて基本的な韻律的特徴のみが表現されることが多くなっていた。このことは、従来の音声合成において、話者性や発話スタイルなどの制御を行いにくくする一因となっている。
【0003】
これに対し、近年、より自然性の高い韻律生成を行うため、実際の音声現象を拠り所とするデータベース(コーパスベース)を用いた手法が提案されている。
この種の従来技術としては、例えば、特開2000−250570号公報に開示された技術や、特開平10−116089号公報に開示された技術がある。
これらの公報に記載された技術は、データベースに蓄積された実発声におけるイントネーションの基本周波数(F0)パターンの中から、適当なF0パターンを選択し、音声合成の対象であるテキスト(以下、対象テキスト)に適用してイントネーション・パターンを決定し、音声合成を行う。これにより、上述したアクセント成分と話調成分との重畳によるイントネーション・パターンの生成モデルと比して、良好な韻律による音声合成を実現している。
【0004】
これらのF0パターンを用いた音声合成技術は、いずれも、対象テキストの言語情報(品詞、アクセント位置、アクセント句等の情報)に基づいて、韻律を規定するカテゴリを決定、あるいは予測し、データベースにおける当該韻律カテゴリに属するF0パターンを対象テキストに適用し、イントネーション・パターンとしている。
また、所定の韻律カテゴリに複数のF0パターンが属する場合は、平均化や平均に最も近いサンプルを採用(モデル化)するなどの適当な方法で1つの代表的なF0パターンを選び、対象テキストに適用する。
【0005】
【発明が解決しようとする課題】
しかしながら、従来のF0パターンを用いた音声合成技術は、上記のように、韻律カテゴリにより言語情報とF0パターンとを直接的に対応付けて対象テキストのイントネーション・パターンを決定しているため、対象テキストに対する韻律カテゴリの決定に合成音声の品質が依存する、また、データベース中のF0パターンの韻律カテゴリに分類し得ない対象テキストに対して適切なF0パターンを適用できないといった制約があった。
【0006】
さらに、対象テキストが該当する韻律カテゴリの決定には、当該対象テキストの言語情報、すなわちアクセントの位置やモーラ、音声の前後にポーズ(無音区間)があるか否かといった情報が大きく影響する。したがって、実発声におけるイントネーションとの類似性の高いパターン形状を持つF0パターンであっても、これらの言語情報が異なるために韻律カテゴリが異なる場合は適用できないという無駄が生じていた。
【0007】
また、上記従来の音声合成技術は、F0パターンのデータとしての扱い易さを重視し、パターン形状自体の平均化やモデル化を行うため、データベースのF0変動を表現するのに限界があった。
すなわち、合成される音声は朗読のような標準的なイントネーションに統一されてしまい、ダイナミックな特徴をもつ音声(例えば、感情を込めた発話における音声や、吹き替えなどで行われる特定の役柄を特徴づけるような音声)を柔軟に合成することが難しかった。
【0008】
ところで、テキスト音声合成(TTS:Text-to-speech Synthesis)は、任意の文章に対する音声の合成を目的とした技術であるが、実際に合成音声が応用される分野の中には、比較的限られた語彙や文型が適用可能なものも多い。例えば、CTI(Computer Telephony Integration)システムや、カーナビゲーションシステム等における応答音声や、ロボットの音声対話機能における応答文は、その典型例である。
これらの分野への音声合成技術の応用においては、決まった語彙や文型に対して予め実音声のデータを用意することができるため、音声の自然性に対する強い要請から、合成音声よりも実音声(録音音声)の利用が優先されることも多い。しかし、未登録語の合成、語彙・文型の追加変更等への対応のしやすさ、さらには任意文への拡張を視野に入れると、合成音声の担う役割は極めて大きい。
【0009】
このような背景から、語彙が比較的限定されたタスクにおいては、録音音声を利用して合成音声の自然性を高める方法が検討されている。録音音声と合成音声を混合するような従来技術としては、例えば、次の文献1〜3に開示された技術がある。
文献1:A. W. Black et al., "Limited Domain Synthesis," Proc. of ICSLP 2000.
文献2:R. E. Donovan et al., "Phrase Splicing and Variable Substitution Using the IBM Trainable Speech Synthesis System," Proc. of ICASSP 2000.
文献3:片江他:文型−韻律データベースを用いた定型文合成システム, 音響学会講演論文集, 2-4-6, Mar. 1996.
【0010】
文献1または文献2に開示された従来技術は、録音音声のイントネーションは、基本的にそのまま利用される。したがって、録音音声として使用するフレーズは、実際に使用するコンテキストで録音しておく必要がある。一方、文献3に開示された従来技術は、F0パターンを生成するためのモデルのパラメータを実音声から抽出しておき、可変スロットを持つ定型文の合成に適用するものである。したがって、同形式の文であれば、異なるフレーズに対してもイントネーションの生成は可能であるが、定型文にしか対応できないという制約が残る。
【0011】
ここで、合成音声のフレーズを、録音音声のフレーズ間に挿入したり、その前後に接続したりすることを考えると、実音声における個々の発話の揺れや、強調や感情の程度、発話意図の違い等、様々な発話の振る舞いを考慮すれば、固定値の合成フレーズのイントネーションが個々の録音フレーズの環境に、必ずしも適合するとは言えない。
しかし、上記文献1〜3に開示された従来技術では、これらの実音声における発話の振る舞いが考慮されておらず、音声合成におけるイントネーション生成への大きな制約となっている。
【0012】
そこで、本発明は、音声合成のイントネーション・パターンの生成において、自然性が高く、かつ話者の発話特徴を柔軟かつ正確に再現できる音声合成システムを実現することを目的とする。
また、本発明は、音声合成において、実発声のイントネーションにおけるF0パターンのデータベース(コーパスベース)に対し、韻律カテゴリによらずにF0パターンの絞り込みを行うことにより、データベースに蓄積された実発声のF0パターンを有効に活用することを他の目的とする。
さらに、本発明は、録音音声及び合成音声のイントネーションを混合し、滑らかに接合することを他の目的とする。
【0013】
【課題を解決するための手段】
上記の目的を達成する本発明は、音声合成におけるイントネーションの生成を行うイントネーション生成方法において、音声合成の対象であるテキストの言語情報に基づいてこのテキストにおけるイントネーションの概形を予測し、予測されたイントネーションの概形に基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択してテキストのイントネーション・パターンとすることを特徴とする。
【0014】
ここで、このイントネーションの概形の予測は、テキストの言語情報により分類される韻律カテゴリに基づいて行うことができる。
さらに、このイントネーション生成方法において、イントネーション・パターンを選択した後に、予測された前記イントネーションの概形に基づいて、選択された当該イントネーション・パターンの周波数レベルを調整する構成とすることができる。
【0015】
また、本発明は、音声合成におけるイントネーションの生成を行うイントネーション生成方法において、音声合成の対象であるテキストを構成する想定アクセント句ごとにイントネーションの概形を予測するステップと、予測された想定アクセント句ごとのイントネーションの概形に基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択するステップと、選択された想定アクセント句ごとのイントネーション・パターンを接続するステップとを含むことを特徴とする。
【0016】
より好ましくは、このイントネーションの概形を予測するステップは、所定の前記想定アクセント句のイントネーションの概形を予測する際、前記テキストにおいて当該想定アクセント句の直前に他の想定アクセント句が存在する場合に、当該直前の他の想定アクセント句に対するイントネーションの概形の予測結果を参酌して当該所定の想定アクセント句のイントネーションの概形の予測を行うステップを含む。
【0017】
さらに好ましくは、このイントネーションの概形を予測するステップは、想定アクセント句が所定の記憶装置に格納されている予め録音された録音音声のフレーズ中に存在する場合に、このフレーズのこの想定アクセント句に対応する部分のイントネーションに関する情報を記憶装置から取得し、このイントネーションの概形の予測結果とする。
【0018】
そしてさらに、このイントネーションの概形を予測するステップは、テキストにおいて所定の想定アクセント句の直前に他の想定アクセント句が存在する場合に、この直前の他の想定アクセント句に対するイントネーションの概形の予測結果を参酌して、想定アクセント句のイントネーションの概形を予測するステップと、テキストにおいて所定の想定アクセント句の前後の少なくとも一方に、所定の記憶装置に格納されている予め録音された録音音声のフレーズに対応する他の想定アクセント句が存在する場合に、当該録音音声のフレーズに対応する他の想定アクセント句に対するイントネーションの概形の予測結果を参酌して、想定アクセント句のイントネーションの概形を予測するステップとを含む。
【0019】
また、このイントネーション・パターンを選択するステップは、さらに詳しくは、データベースに蓄積されている実発声のイントネーション・パターンの中から、始端終端間距離が想定アクセント句のイントネーションの概形に近いものを選択するステップと、選択されたイントネーション・パターンのうちで、想定アクセント句に対する音韻クラスの距離が最も小さいイントネーション・パターンを選択するステップとを含む。
【0020】
また、本発明は、処理対象であるテキストを解析して言語情報を取得するテキスト解析部と、実発声のイントネーション・パターンを蓄積したデータベースと、テキストを音声出力するための韻律を生成する韻律制御部と、この韻律制御部にて生成された韻律に基づいて音声を生成する音声生成部とを備えた音声合成装置として実現することができる。この韻律制御部は、テキスト解析部にて取得された言語情報に基づいてこのテキストを構成する想定アクセント句ごとにイントネーションの概形を予測する概形予測部と、この概形予測部にて予測されたイントネーションの概形に基づいてデータベースからイントネーション・パターンを選択する形状素片選択部と、この形状素片選択部にて選択された想定アクセント句ごとのイントネーション・パターンを接続してテキスト全体のイントネーション・パターンを生成する形状素片接続部とを備えることを特徴とする。
【0021】
より詳しくは、この概形予測部は、少なくとも、想定アクセント句の区分内における周波数レベルの最大値、この区分の始端及び終端における相対レベルオフセットによって、この想定アクセント句のイントネーションの概形を規定する。
また、この形状素片選択部は、韻律カテゴリによることなく、データベースに蓄積された実発声のイントネーション・パターン全体の中から、イントネーションの概形に形状が近似するものをイントネーション・パターンとして選択する。
さらに、この形状素片接続部は、選択された想定アクセント句ごとのイントネーション・パターンを、イントネーションの概形に基づいて周波数レベルを調整した上で接続する。
【0022】
さらに、この音声合成装置は、予め録音された録音音声のイントネーションに関する情報を格納した他のデータベースをさらに備える構成とすることができる。この場合、概形予測部は、想定アクセント句が他のデータベースに登録されている録音フレーズ中に存在する場合に、この録音フレーズにおけるこの想定アクセント句に対応する部分のイントネーションに関する情報をかかる他のデータベースから取得する。
【0023】
また、本発明は、処理対象であるテキストを解析して言語情報を取得するテキスト解析部と、発話特徴に基づいて複数用意された実発声のイントネーション・パターンを蓄積したデータベースと、このデータベースに蓄積されたイントネーション・パターンを用いて前記テキストを音声出力するための韻律を生成する韻律制御部と、この韻律制御部にて生成された韻律に基づいて音声を生成する音声生成部とを備えた音声合成装置として実現することができる。この音声合成装置は、この複数のデータベースを切り替えて用いることにより、データベースに蓄積された実発声のイントネーションにおける発話特徴を反映させた音声合成を行うことを特徴とする。
【0024】
さらに、本発明は、テキスト音声合成を行う、次のように構成された音声合成装置として実現することができる。この音声合成装置は、処理対象であるテキストを解析して言語情報を取得するテキスト解析部と、発話特徴に関する情報を格納した第1のデータベースと、予め録音された録音音声の波形に関する情報を格納した第2のデータベースと、処理対象であるテキストの合成単位に対する波形素片を選択する合成単位選択部と、この合成単位選択部にて選択された波形素片を結合して合成音声を生成する音声生成部とを備え、合成単位選択部は、録音音声の境界部分に対応するテキストの合成単位に対する波形素片を前記第1及び第2のデータベースの情報から選択することを特徴とする。
【0025】
さらにまた、本発明は、コンピュータで上述したイントネーション生成方法を実行し、あるいはコンピュータを上述した音声合成装置として機能させるプログラムとして実現することができる。
このプログラムは、磁気ディスクや光ディスク、半導体メモリその他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供することができる。
さらに、本発明は、上述した音声合成装置の機能を搭載して電話対応型のサービスを提供するボイスサーバとして実現することができる。
【0026】
【発明の実施の形態】
以下、添付図面に示す実施の形態に基づいて、この発明を詳細に説明する。
図1は、本実施の形態の音声合成技術を実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
図1に示すコンピュータ装置は、CPU(中央処理装置)101と、システムバスを介してCPU101に接続されたM/B(マザーボード)チップセット102及びメインメモリ103と、PCIバスなどの高速なバスを介してM/Bチップセット102に接続されたビデオカード104、サウンドカード105、ハードディスク106及びネットワークインターフェイス107と、さらにこの高速なバスからブリッジ回路110及びISAバスなどの低速なバスを介してM/Bチップセット102に接続されたフロッピーディスクドライブ108及びキーボード109とを備える。また、サウンドカード105には、音声出力を行うスピーカ111が接続されている。
なお、図1は本実施の形態を実現するコンピュータ装置の構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々のシステム構成を取ることが可能である。例えば、サウンドカード105を設ける代わりに、M/Bチップセット102の機能としてサウンド機構を設けることもできる。
【0027】
図2は、図1に示したコンピュータ装置にて実現される本実施の形態による音声合成システムの構成を示す図である。
図2を参照すると、本実施の形態の音声合成システムは、音声合成の対象であるテキストを解析するテキスト解析部10、音声合成による発話のリズムを付けるための韻律制御部20、音声波形を生成する音声生成部30と、実発声によるイントネーションのF0パターンを蓄積したF0形状データベース40とを備える。
【0028】
図2に示したテキスト解析部10及び韻律制御部20は、図1に示したメインメモリ103に展開されたプログラムにてCPU101を制御することにより実現される仮想的なソフトウェアブロックである。CPU101を制御してこれらの機能を実現させる当該プログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供することができる。本実施の形態では、図1に示したネットワークインターフェイス107やフロッピーディスクドライブ108、図示しないCD−ROMドライブなどを介して当該プログラムを入力し、ハードディスク106に格納する。そして、ハードディスク106に格納されたプログラムをメインメモリ103に読み込んで展開し、CPU101にて実行することにより、図2に示した各構成要素の機能を実現する。
【0029】
テキスト解析部10は、音声合成の対象となるテキスト(入力文字列)を入力し、構文解析等の言語的な解析処理を行う。これにより、処理対象である入力文字列が単語ごとに分解され、読み及びアクセントに関する情報が付与される。
【0030】
韻律制御部20は、テキスト解析部10による解析結果に基づいて、発話のリズムを付ける処理、具体的には、発声を構成する各音素に対して、音の高さ・長さ・強さを決定し、ポーズの位置を設定する処理を行う。本実施の形態では、この処理を実行するために、図2に示すように、概形予測部21、最適形状素片選択部22及び形状素片接続部23を備える。
【0031】
音声生成部30は、例えば、図1に示したサウンドカード105にて実現され、韻律制御部20による処理の結果を受けて、音節などで蓄えられている合成単位に応じて音素を接続し、音声波形(音声信号)を生成する処理を行う。生成された音声波形は、スピーカ111を介して音声として出力される。
【0032】
F0形状データベース40は、例えば、図1に示したハードディスク106にて実現され、予め収集された実発声によるイントネーションのF0パターンを、韻律カテゴリに分類して蓄積してある。また、このF0形状データベース40は、合成しようとする音声のスタイルに応じて数種類用意しておき、切り替えて用いることができる。例えば、標準的な朗読調のF0パターンを蓄積したF0形状データベース40の他、陽気な調子の発話や沈んだ調子の発話、怒気を含んだ発話というような感情を込めた発話におけるF0パターンを蓄積したF0形状データベース40を用意して用いることができる。また、アニメーションや映画の吹き替えで行われるような特定の役柄を特徴づける特殊な発話のF0パターンを蓄積したF0形状データベース40を用いることもできる。
【0033】
次に、本実施の形態における韻律制御部20の機能について詳細に説明する。
韻律制御部20は、テキスト解析部10により解析された対象テキストを1文ずつ取り出し、F0形状データベース40に蓄積されているイントネーションのF0パターンを当てることによって当該対象テキストのイントネーションを生成する(韻律におけるアクセントやポーズに関する情報は、テキスト解析部10により解析された言語情報から得ることができる)。
本実施の形態では、データベースに蓄積されている実発声によるイントネーション・パターンから音声合成するテキストのイントネーションのF0パターンを抽出する際に、韻律カテゴリによらない検出を行う。ただし、この韻律カテゴリによるテキストの区別そのものは、本実施の形態においても、概形予測部21によるF0形状ターゲット予測の処理に必要である。
しかしながら、韻律カテゴリの選択には、アクセントの位置やモーラ、音声の前後にポーズがあるか否かといった言語情報が多大な影響を及ぼすため、F0パターンを抽出する際にも韻律カテゴリを利用すると、イントネーションにおけるパターン形状の他に、アクセントの位置やモーラ、ポーズの有無といった要素が検索に影響することとなり、最適なパターン形状を持ったF0パターンが検索から漏れてしまうこととなる。
したがって、F0パターンを決定する段階では、本実施の形態が提供する韻律カテゴリによらないパターン形状のみを対称とした検索が有用である。
【0034】
ここで、本実施の形態の韻律制御において、対象テキストに対してF0パターンを適用する際の単位であるF0形状素片単位について定義する。
本実施の形態では、実際の発声においてアクセント句を形成するか否かに関わらず、アクセント句を形成し得る言語上の区分単位(以下、この区分単位を想定アクセント句と称す)で切り出した実音声のF0区分をF0形状素片の単位とする。各F0形状素片は、構成モーラの母音中心部でのF0値(3点中央値)でサンプリングして表現される。また、F0形状データベース40には、このF0形状素片を単位として実発声におけるイントネーションのF0パターンが格納されている。
【0035】
本実施の形態の韻律制御部20において、概形予測部21は、テキスト解析部10による言語処理の結果として与えられる想定アクセント句に関する言語情報(アクセント型、句の長さ(モーラ数)、句を構成するモーラの音韻クラス)と、想定アクセント句間のポーズの有無に関する情報とを入力し、これらの情報に基づき、想定アクセント句ごとのF0パターンの概形を予測する。この予測されるF0パターンの概形をF0形状ターゲットと称す。
ここで、所定の想定アクセント句のF0形状ターゲットは、当該想定アクセント句の区分内における周波数レベルの最大値(最大F0値)、パターン始端点における最大F0値からの相対レベルオフセット(始端オフセット)、パターン終端点における最大F0値からの相対レベルオフセット(終端オフセット)の、3つのパラメータによって規定される。
すなわち、F0形状ターゲットの予測は、上述した言語情報により分類される韻律カテゴリに基づき、統計的モデルを用いて、この3つのパラメータを予測する処理である。
予測されたF0形状ターゲットは、図1に示したCPU101のキャッシュメモリやメインメモリ103に一時的に保持される。
【0036】
また、本実施の形態では、上記の言語情報とは別に、発話上の制約を予測モデルに組み込む。すなわち、現在の想定アクセント句の直前までに実現されたイントネーションが次の発話のイントネーションレベル等に影響を与えるという仮定を採り入れ、直前の想定アクセント句の区分に対する予測結果を処理中の想定アクセント句の区分に対するF0形状ターゲットの予測に反映させる。
図3は、この発話上の制約を予測モデルに組み込む方式を説明する図である。
図3に示すように、予測を実行中の想定アクセント句(現想定アクセント句)における最大F0値の予測に、既に予測が済んでいる直前の想定アクセント句における最大F0値を加味する。また、現想定アクセント句における始端オフセット及び終端オフセットの予測に、直前の想定アクセント句における最大F0値及び現想定アクセント句における最大F0値を加味する。
なお、概形予測部21における予測モデルの学習は、想定アクセント句ごとに得られる最大F0値の実測値をカテゴライズしたものを用いて行う。すなわち、概形予測部21は、F0形状ターゲットを予測する際の予測要因として、上述した言語情報に基づく韻律カテゴリに、この想定アクセント句ごとにおける最大F0値の実測値のカテゴリを加えて予測のための統計処理を実行する。
【0037】
最適形状素片選択部22は、F0形状データベース40に蓄積されているF0形状素片(F0パターン)の中から、処理中の現想定アクセント句に対して適用するF0形状素片の候補を選択する。この選択は、概形予測部21により予測されたF0形状ターゲットに基づいて大まかにF0形状素片を抽出する予備選択と、現想定アクセント句における音韻クラスに基づいて当該現想定アクセント句に適用する最適F0形状素片の選択とからなる。
【0038】
予備選択では、最適形状素片選択部22は、まず、概形予測部21により予測された現想定アクセント句におけるF0形状ターゲットを取得して、当該F0形状ターゲットを規定するパラメータのうち、始端オフセット及び終端オフセットの2つを用いて、始端終端間距離を計算する。そして、F0形状データベース40に蓄積されているF0形状素片の中から、算出された始端終端間距離がF0形状ターゲットにおける始端終端間距離に近い(例えば予め設定されたしきい値以下の)全てのF0形状素片を最適F0形状素片の候補として選択する。選択されたF0形状素片は、F0形状ターゲットの概形との距離に応じて順位付けされて、CPU101のキャッシュメモリやメインメモリ103に保持される。
ここで、F0形状素片とF0形状ターゲットの概形との距離とは、当該F0形状ターゲットを規定するパラメータのうちの始端オフセット及び終端オフセットと、選択されたF0形状素片における当該パラメータに相当する値とが近似する度合いである。この2つのパラメータによって、F0形状素片とF0形状ターゲットの概形との形状の違いが表される。
【0039】
次に、最適形状素片選択部22は、予備選択によりターゲット概形との距離で順位付けされた最適F0形状素片の候補である各F0形状素片に対して、現想定アクセント句を構成する音韻クラスの距離を計算する。ここで、音韻クラスの距離とは、F0形状素片と現想定アクセント句との音韻(音素)の並びにおける近似の度合いである。この音韻の並びの評価には、モーラごとに定義された音韻クラスを用いる。この音韻クラスは、子音の有無や子音の調音様式の違いを考慮してモーラを分類したものである。
すなわち、ここでは、予備選択で選択された全てのF0形状素片に対して、現想定アクセント句におけるモーラ系列との音韻クラスの一致度を計算し、音韻クラスの距離を求め、各F0形状素片の音韻の並びを評価する。そして、得られた音韻クラスの距離が最も小さいF0形状素片を最適F0形状素片として選択する。この音韻クラス間距離を用いた照合は、F0形状が当該F0形状素片に対応する想定アクセント句の構成音韻により影響を受けやすいことを反映している。選択された最適F0形状素片は、CPU101のキャッシュメモリやメインメモリ103に保持される。
【0040】
形状素片接続部23は、最適形状素片選択部22により選択された最適F0形状素片を取得して順次接続していき、韻律制御部20における処理単位である1文に対する最終的なイントネーション・パターンを得る。
最適F0形状素片の接続は、具体的には、次の2つの処理にて行われる。
まず、選択された最適F0形状素片を適切な周波数レベルに設定する。これは、選択された最適F0形状素片における周波数レベルの最大値を、概形予測部21による処理で得られた対応する想定アクセント句の区分における最大F0値に合わせることである。この際、当該最適F0形状素片の形状自体には何の変形も加えない。
【0041】
次に、形状素片接続部23は、合成すべき音韻列の時間配置に合わせて、F0形状素片の時間軸をモーラごとに調整する。ここで、合成すべき音韻列の時間配置とは、対象テキストの音韻列に基づいて設定される個々の音韻の継続時間長である。この音韻列の時間配置は、図示しない既存技術である音韻時間長予測モジュールによって設定される。
この段階で初めて、F0の実パターン(実発声によるイントネーション・パターン)に変形が加えられることになる。しかしながら、本実施の形態では、最適形状素片選択部22により音韻クラス間距離を用いて最適F0形状素片が選択されているため、当該F0パターンに対して過度の変形は発生しにくい。
以上のようにして、対象テキスト全体のイントネーション・パターンが生成され、音声生成部30へ出力される。
【0042】
上述したように、本実施の形態では、最適形状素片選択部22により、F0形状データベース40に蓄積されているF0形状素片全体の中から、韻律カテゴリによらずにパターン形状がF0形状ターゲットに最も近似するF0形状素片が選択され、想定アクセント句のイントネーション・パターンとして当てられる。すなわち、最適F0形状素片として選択されるF0形状素片は、アクセントの位置やポーズの有無などの言語情報とは切り離され、F0パターンの形状のみに基づいて選択されている。
このため、イントネーション・パターンの生成という観点から、言語情報の影響を受けずにF0形状データベース40に蓄積されているF0形状素片を有効に活用することができる。
さらに、F0形状素片を選択するにあたって、韻律カテゴリを考慮していないため、オープンデータのテキストを音声合成するような場合に、所定の想定アクセント句に対して適合する韻律カテゴリが存在しないとしても、F0形状ターゲットに対応するF0形状素片を選択して当該想定アクセント句に当てることができる。この場合、当該想定アクセント句は既存の韻律カテゴリに該当しないため、そのF0形状ターゲットの予測自体における確度は低下すると考えられる。しかしながら、従来はこのような場合に韻律カテゴリの分類ができないためにデータベースに格納されているF0パターンを適切に適用できなかったのに対して、本実施の形態によれば、F0形状素片のパターン形状のみに基づいて検索を行うため、予測されたF0形状ターゲットの確度の範囲において、適切なF0形状素片を選択することができる。
【0043】
また、本実施の形態では、F0形状データベース40に蓄積されている実発声によるF0形状素片全体の中から、平均化やモデル化といった処理を行わずに、最適F0形状素片が選択されている。したがって、形状素片接続部23における時間軸の調整によりF0形状素片に多少の変形が加えられるものの、実発声によるF0パターンのディテールをある程度忠実に合成音声に反映させることができる。
このため、実発声に近い自然性の高いイントネーション・パターンを生成することができる。特に、語尾の音程が上がったり伸びたりするというようなイントネーションの微妙な違いによって生ずる発話特徴(話者の癖)を柔軟かつ正確に再現することができる。
これにより、感情を込めた発話のF0形状素片を蓄積したF0形状データベース40や、アニメーションなどの吹き替えで行われるような特定の役柄を特徴づける特殊な発話のF0形状素片を蓄積したF0形状データベース40を用意しておき、適宜切り替えて用いることにより、発話特徴の異なる多様な音声を合成することが可能となる。
【0044】
図4は、上述した韻律制御部20による音声合成の動作の流れを説明するフローチャートである。また、図5乃至図7は、図4に示す動作の各段階で取得されるF0パターンの形状を示す図である。
図4に示すように、韻律制御部20は、対象テキストに関して、テキスト解析部10による解析結果を入力すると(ステップ401)、まず、概形予測部21により、想定アクセント句ごとにF0形状ターゲットの予測が行われる。
すなわち、テキスト解析部10による解析結果である言語情報に基づいて、想定アクセント句の区分内の最大F0値が予測され(ステップ402)、続いて当該言語情報及びステップ402で決定された最大F0値に基づいて、始端オフセット及び終端オフセットが予測される(ステップ403)。このF0形状ターゲットの予測は、対象テキストを構成する想定アクセント句に対して先頭から順次行われる。したがって、2番目以降の想定アクセント句に関しては、直前に既に予測処理の済んだ想定アクセント句が存在するため、上述したように、最大F0値、始端オフセット及び終端オフセットの予測に、この直前の想定アクセント句に対する予測結果も利用される。
図5は、このようにして得られたF0形状ターゲットにおけるパターン形状の例を示す。
【0045】
次に、各想定アクセント句に関して、F0形状ターゲットに基づいて、最適形状素片選択部22により予備選択が行われされる(ステップ404)。具体的には、まず、始端終端間距離がF0形状ターゲットに近いF0形状素片が、最適F0形状素片の候補としてF0形状データベース40から検出される。そして、選択された全てのF0形状素片に対して、始端オフセット及び終端オフセットを要素とする2次元ベクターが形状ベクターとして定義される。次に、F0形状ターゲットと各F0形状素片とについて、形状ベクター間の距離が計算され、その距離の小さい順にF0形状素片がソートされる。
次に、予備選択によって抽出された最適F0形状素片の候補に対して、音韻の並びが評価され、F0形状ターゲットに対応する想定アクセント句における音韻の並びに対して音韻クラスの距離が最も小さいF0形状素片が、最適F0形状素片として選択される(ステップ405)。
図6は、このようにして選択された最適F0形状素片におけるパターン形状の例を示す。
【0046】
この後、各想定アクセント句に対して選択された最適F0形状素片が、形状素片接続部23により接続される。
すなわち、各最適F0形状素片の周波数レベルの最大値が、対応するF0形状ターゲットの最大F0値に合わせて設定され(ステップ406)、続いて、各最適F0形状素片の時間軸が、合成すべき音韻列の時間配置に合わせて調整される(ステップ407)。
図7は、図6に示した最適F0形状素片のF0パターンとその直前に位置する想定アクセント句のF0パターンとを接続する様子を示す。
【0047】
次に、実際のテキストに対して本実施の形態を適用し、イントネーション・パターンを生成する具体例を説明する。
図8は、本実施の形態により生成されたイントネーション・パターンと実発声によるイントネーション・パターンとの比較例を示す図である。
図8では、「それは泥沼のような逆境から抜け出したいという、切ないほどの願望だろうか」というテキストに関するイントネーション・パターンの比較がなされている。
【0048】
図示のように、このテキストは、「それわ」、「どろぬまの」、「よ^ーな」、「ぎゃっきょー」、「から」、「ぬけだした^いと」、「いう」、「せつな^いほどの」、「がんぼー」、「だろ^おか」という10個の想定アクセント句に分解される。そして、各想定アクセント句を対象として、最適F0形状素片の検出が行われる。
【0049】
図9は、本実施の形態を用いて、上記の想定アクセント句ごとに選択された最適F0形状素片を示す図である。各想定アクセント句の欄において、上段が入力された想定アクセント句の環境属性、下段が選択された最適F0形状素片の属性情報を表す。
図9を参照すると、「それわ」に対して「これが」、「どろぬまの」に対して「よろこびも」、「よ^ーな」に対して「ま^っき」、「ぎゃっきょー」に対して「しゅっきん」、「から」に対して「よび」、「ぬけだした^いと」に対して「ねじまげた^のだ」、「いう」に対して「いう」、「せつな^いほどの」に対して「じゅっぷ^んかんの」、「がんぼー」に対して「はんばい」、「だろ^おか」に対して「みえ^ると」というF0形状素片がそれぞれ選択されている。
【0050】
これらのF0形状素片が接続されて得られたテキスト全体のイントネーション・パターンは、図8に示すように、実際の発声における同テキストのイントネーション・パターンに極めて近いものとなっている。
【0051】
以上のように合成された音声合成システムは、合成音声を出力として用いる種々のシステムやそのようなシステムを用いたサービスに利用できる。例えば、電話網からのアクセスに対して電話対応型のサービスを提供するボイスサーバのTTS(Text-to-speech Synthesis)エンジンとして、本実施の形態の音声合成システムを用いることができる。
【0052】
図10は、本実施の形態の音声合成システムを実装したボイスサーバの構成例を示す図である。
図10に示すボイスサーバ1010は、ウェブアプリケーションサーバ1020に接続されると共に、VoIP(Voice over IP)ゲートウェイ1030を介して公衆回線による電話網(PSTN:Public Switched Telephone Network)1040に接続し、電話対応型のサービスを提供する。
なお、図10に示す構成では、ボイスサーバ1010、ウェブアプリケーションサーバ1020及びVoIPゲートウェイ1030をそれぞれ用意しているが、実際には、1台のハードウェア(コンピュータ装置)に各機能を設けて構成することも可能である。
【0053】
ボイスサーバ1010は、電話網1040を介してなされたアクセスに対して音声対話によるサービス(コンテンツ)を提供するサーバであり、パーソナルコンピュータやワークステーション、その他のコンピュータ装置にて実現される。図10に示すように、ボイスサーバ1010は、当該コンピュータ装置のハードウェア及びソフトウェアにて実現されるシステムマネージメントコンポーネント1011、テレフォニー・メディアコンポーネント1012、及びVoiceXML(Voice Extensible Markup Language)ブラウザ1013を備える。
【0054】
ウェブアプリケーションサーバ1020は、VoiceXMLで記述された電話対応型のアプリケーション群であるVoiceXMLアプリケーション1021を格納している。
【0055】
また、VoIPゲートウェイ1030は、既存の電話網1040からのアクセスを受け付け、ボイスサーバ1010によるIP(Internet Protocol)ネットワーク向け音声サービスが受けられるように、変換接続する処理を行う。この機能を実現するため、VoIPゲートウェイ1030は、主としてIPネットワークとの間のインターフェースとしてのVoIPソフトウェア1031と、電話網1040との間のインターフェースとしてのテレフォニーインターフェイス1032とを備える。
【0056】
この構成では、後述のようにVoiceXMLブラウザ1013の機能として、図2に示した本実施の形態におけるテキスト解析部10、韻律制御部20及び音声生成部30が実現される。そして、図1に示したスピーカ111から音声を出力する代わりに、VoIPゲートウェイ1030を介して電話網1040へ音声信号を出力する。また、図10には明示的に記載しないが、ボイスサーバ1010は、F0形状データベース40に相当する実発声のイントネーションにおけるF0パターンを格納したデータ格納手段を備えており、VoiceXMLブラウザ1013による音声合成の際に参照される。
【0057】
ボイスサーバ1010の構成において、システムマネージメントコンポーネント1011は、VoiceXMLブラウザ1013の起動、停止、監視を行う。
テレフォニー・メディアコンポーネント1012は、VoIPゲートウェイ1030とVoiceXMLブラウザ1013との間で電話呼の通話管理を行う。
VoiceXMLブラウザ1013は、電話網1040及びVoIPゲートウェイ1030を介して受け付けた電話機1050からの電話呼の生起により起動され、ウェブアプリケーションサーバ1020上のVoiceXMLアプリケーション1021を実行する。
【0058】
ここで、VoiceXMLブラウザ1013は、この対話処理を実行するため、TTSエンジン1014及びRecoエンジン1015を有する。
TTSエンジン1014は、VoiceXMLアプリケーション1021により出力されるテキストに対してテキスト音声合成の処理を行う。このTTSエンジン1014として、本実施の形態の音声合成システムが用いられる。
Recoエンジン1015は、電話網1040及びVoIPゲートウェイ1030を介して入力した電話音声の認識を行う。
【0059】
以上のように構成されたボイスサーバ1010を含む電話対応型のサービスを提供するシステムにおいて、電話機1050から電話呼が発信されて電話網1040及びVoIPゲートウェイ1030を介してボイスサーバ1010にアクセスがなされると、システムマネージメントコンポーネント1011及びテレフォニー・メディアコンポーネント1012の制御下で、VoiceXMLブラウザ1013は、ウェブアプリケーションサーバ1020上のVoiceXMLアプリケーション1021を実行する。そして、VoiceXMLアプリケーション1021の指定するVoiceXMLドキュメントの記述にしたがって、各呼での対話処理を実行する。
【0060】
この対話処理において、VoiceXMLブラウザ1013に搭載されたTTSエンジン1014は、図2に示した韻律制御部20の概形予測部21に相当する機能によりF0形状ターゲットを予測し、最適形状素片選択部22に相当する機能によりF0形状データベース40最適なF0形状素片を選択し、形状素片接続部23に相当する機能によりF0形状素片ごとのイントネーション・パターンを接続して文単位のイントネーション・パターンを生成する。そして、生成されたイントネーション・パターンに基づいて音声を合成し、VoIPゲートウェイ1030へ出力する。
【0061】
次に、上述した音声合成の手法を用いて、録音音声と合成音声とを継ぎ目なく滑らかに接合する他の実施の形態について説明する。
図11は、本実施の形態による音声合成システムの構成を示す図である。
図11を参照すると、本実施の形態の音声合成システムは、音声合成の対象であるテキストを解析するテキスト解析部10と、出力される音声の韻律的な特徴(音韻時間長及びF0パターン)を生成するための音韻時間長予測部50及びF0パターン生成部60と、出力される音声の音響的な特徴(合成単位素片)を生成するための合成単位選択部70と、出力される音声の音声波形を生成する音声生成部30とを備える。また、音韻時間長予測部50、F0パターン生成部60及び合成単位選択部70の処理で使用されるボイスフォントを格納したボイスフォントデータベース80及び録音音声を格納したドメイン音声データベース90を備える。ここで、図11における音韻時間長予測部50及びF0パターン生成部60が図2における韻律制御部20に相当し、F0パターン生成部60は、図2に示された韻律制御部20の機能(概形予測部21、最適形状素片選択部22及び形状素片接続部23に対応する機能)を有する。
なお、本実施の形態の音声合成システムは、図2に示した音声合成システムと同様に、図1に示したコンピュータ装置等で実現される。
【0062】
上記構成において、テキスト解析部10及び音声生成部30は、図2に示した実施の形態における対応する構成要素と同様である。したがって、同一の符号を付して説明を省略する。
音韻時間長予測部50、F0パターン生成部60及び合成単位選択部70は、図1に示したメインメモリ103に展開されたプログラムにてCPU101を制御することにより実現される仮想的なソフトウェアブロックである。CPU101を制御してこれらの機能を実現させる当該プログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供することができる。
【0063】
また図11の構成において、ボイスフォントデータベース80は、例えば、図1に示したハードディスク106にて実現され、音声コーパスから抽出・作成した話者の発話特徴に関する情報(ボイスフォント)が格納されている。なお、図2に示したF0形状データベース40は、このボイスフォントデータベース80に含まれる。
ドメイン音声データベース90は、例えば、図1に示したハードディスク106にて実現され、適用タスク用に収録された録音音声に関するデータが格納されている。このドメイン音声データベース90は、いわば、録音音声の韻律、波形までを含むように拡張されたユーザ辞書であり、登録エントリーには、見出し、読み、アクセント、品詞といった情報の他、階層区分化された波形及び韻律情報といった情報が格納される。
【0064】
本実施の形態において、テキスト解析部10は、処理対象であるテキストを言語解析し、読みやアクセントなどの音素情報を音韻時間長予測部50へ送り、F0素片区分(想定アクセント区分)をF0パターン生成部60へ送り、当該テキストの音素列の情報を合成単位選択部70へ送る。また、言語解析を行う際に、個々のフレーズ(想定アクセント区分に対応)についてドメイン音声データベース90に登録されているものかどうかを調べる。そして、言語解析で登録エントリーがヒットした場合、当該フレーズに関する韻律的特徴(音韻時間長、F0パターン)及び音響的特徴(合成単位素片)がドメイン音声データベース90にあることを、音韻時間長予測部50、F0パターン生成部60及び合成単位選択部70に知らせる。
【0065】
音韻時間長予測部50は、テキスト解析部10から受け取った音素情報に基づいて、合成すべき音韻列の時間長(時間配置)を生成し、CPU101のキャッシュメモリやメインメモリ103の所定領域に格納する。当該時間長は、F0パターン生成部60、合成単位選択部70及び音声生成部30において読み出され、各処理に使用される。時間長の生成手法は公知の既存技術を用いることができる。
ここで、テキスト解析部10から時間長を生成しようとするF0素片区分に対応するフレーズがドメイン音声データベース90に格納されていることを通知された場合、当該フレーズに関する音韻列の時間長を生成する代わりに、ドメイン音声データベース90にアクセスして該当するフレーズの時間長を取得し、F0パターン生成部60、合成単位選択部70及び音声生成部30による使用に供するためにCPU101のキャッシュメモリやメインメモリ103の所定領域に格納する。
【0066】
F0パターン生成部60は、図2に示した音声合成システムにおける韻律制御部20における概形予測部21、最適形状素片選択部22及び形状素片接続部23に対応する機能と同様の機能を有しており、テキスト解析部10により解析された対象テキストをF0素片区分にしたがって読み込み、ボイスフォントデータベース80におけるF0形状データベース40に対応する部分に蓄積されているイントネーションのF0パターンを当てることで対象テキストのイントネーションを生成する。生成されたイントネーション・パターンは、CPU101のキャッシュメモリやメインメモリ103の所定の領域に保持される。
ここで、F0パターン生成部60における概形予測部21に対応する機能は、テキスト解析部10からイントネーションを生成しようとする所定のF0素片区分に対応するフレーズがドメイン音声データベース90に格納されていることを通知された場合、言語情報とポーズの有無に関する情報とからF0パターンの概形を予測する代わりに、ドメイン音声データベース90にアクセスして該当するフレーズのF0値を取得し、F0パターンの概形とする。
【0067】
図2の音声処理システムにおける韻律制御部20の概形予測部21は、図3を参照して説明したように、直前の想定アクセント句の区分に対する予測結果を処理中の想定アクセント句の区分(F0素片区分)に対するF0形状ターゲットの予測に反映させることとした。したがって、直前のF0素片区分におけるF0パターンの概形がドメイン音声データベース90から取得されたF0値であった場合、処理中のF0素片区分に対するF0形状ターゲットには、当該直前のF0素片区分における録音音声のF0値が反映されることとなる。
これに加えて本実施の形態では、処理中のF0素片区分の直後にドメイン音声データベース90から取得されたF0値が存在する場合は、さらに当該直後のF0素片区分すなわちF0値を処理中のF0素片区分に対するF0形状ターゲットの予測に反映させる。一方、ドメイン音声データベース90から取得されたF0値に対しては、言語情報等の情報から予測されたF0パターンの概形の予測結果を反映させない。これにより、F0パターン生成部60にて生成されるイントネーション・パターンには、ドメイン音声データベース90に格納されている録音音声の発話上の特徴が、より一層反映されることとなる。
【0068】
図12は、録音音声による2つのフレーズの間に合成音声によるフレーズを挿入する場合のF0パターンの概形予測を説明する図である。
図12に示すように、F0パターンの概形予測を行おうとする合成音声による想定アクセント句を挟んで前後に録音音声によるフレーズが存在する場合、合成音声による想定アクセント句の最大F0値、始端及び終端オフセットの予測に、前方の録音音声における最大F0値を加味すると共に、後方の録音音声におけるF0値をも加味する。
敢えて図示はしないが、反対に録音音声による所定のフレーズを挟んで合成音声による想定アクセント句のF0パターンの概形を予測する場合は、当該録音音声によるフレーズの最大F0値が前後の想定アクセント句におけるF0パターンの概形予測において加味されることとなる。
さらに、合成音声によるフレーズが連続する場合にも、先頭の想定アクセント句の直前に位置する録音音声のF0値の特徴が、各想定アクセント句に順次反映されていくこととなる。
【0069】
なお、F0パターンの概形予測における予測モデルの学習は、想定アクセント句ごとに得られる最大F0値の実測値をカテゴライズしたものを用いて行う。すなわち、概形予測におけるF0形状ターゲットを予測する際の予測要因として、上述した言語情報に基づく韻律カテゴリに、この想定アクセント句ごとにおける最大F0値の実測値のカテゴリを加えて予測のための統計処理を実行する。
この後、F0パターン生成部60は、図2に示した韻律制御部20の最適形状素片選択部22及び形状素片接続部23に対応する機能により、最適F0形状素片を選択し、順次接続して、処理対象である文のF0パターン(イントネーション・パターン)を得る。
【0070】
図13は、F0パターン生成部60によるF0パターンの生成処理の流れを説明するフローチャートである。
図13に示すように、まずテキスト解析部10において、処理対象であるF0素片区分に対応するフレーズがドメイン音声データベース90に登録されているかどうかを調べる(ステップ1301、1302)。
処理対象であるF0素片区分に対応するフレーズがドメイン音声データベース90に登録されていない場合(テキスト解析部10からの通知を受けていない場合)、F0パターン生成部60は、処理中のF0素片区分の直後のF0素片区分に対応するフレーズがドメイン音声データベース90に登録されているかどうかを調べる(ステップ1303)。そして、登録されていなければ、直前のF0素片区分に対するF0形状ターゲットの概形予測の結果(直前のF0素片区分に対応するフレーズがドメイン音声データベース90に登録されていた場合は当該フレーズのF0値)を反映させながら当該処理中のF0素片区分に対するF0形状ターゲットの概形を予測し(ステップ1305)、最適F0形状素片を選択し(ステップ1306)、選択された最適F0形状素片の周波数レベルを設定し(ステップ1307)、音韻時間長予測部50にて得られた時間長の情報に基づき時間軸の調整を行って最適F0形状素片を接続する(ステップ1308)。
【0071】
ステップ1303において、処理中のF0素片区分の直後のF0素片区分に対応するフレーズがドメイン音声データベース90に登録されている場合は、直前のF0素片区分に対するF0形状ターゲットの概形予測の結果に加えて、ドメイン音声データベース90から取得した当該直後のF0素片区分に対応するフレーズのF0値を反映させて、当該処理中のF0素片区分に対するF0形状ターゲットの概形を予測する(ステップ1304、1305)。そして、通常通り、最適F0形状素片を選択し(ステップ1306)、選択された最適F0形状素片の周波数レベルを設定し(ステップ1307)、音韻時間長予測部50にて得られた時間長の情報に基づき時間軸の調整を行って最適F0形状素片を接続する(ステップ1308)。
【0072】
また、ステップ1302において、処理対象であるF0素片区分に対応するフレーズがドメイン音声データベース90に登録されていた場合は、上述した処理により最適F0形状素片の選択を行う代わりに、ドメイン音声データベース90に登録されている当該フレーズのF0値を取得する(ステップ1309)。そして、取得されたF0値を最適F0形状素片として用い、音韻時間長予測部50において得られた時間長の情報に基づき時間軸の調整を行って接続する(ステップ1308)。
以上のようにして得られた文全体のイントネーション・パターンは、CPU101のキャッシュメモリやメインメモリ103の所定の領域に保持される。
【0073】
合成単位選択部70は、音韻時間長予測部50にて得られた時間長の情報と、F0パターン生成部60にて得られたイントネーション・パターンのF0値とを入力し、ボイスフォントデータベース80にアクセスして、処理対象であるF0素片区分における各音の合成単位素片(波形素片)を選択し取得する。ここで、実際の発話において、所定のフレーズにおける境界部分の音声は、連結する他のフレーズの音声やポーズの有無の影響を受ける。したがって、合成単位選択部70は、F0素片区分の音声どうしが滑らかにつながるように、所定のF0素片区分における境界部分の音の合成単位素片を、接続する他のF0素片区分における境界部分の音声やポーズの有無に応じて選択する。この影響はフレーズの終端部分の音声において、特に顕著に現れる。したがって、少なくともF0素片区分における終端部分の音の合成単位素片に関しては、直後のF0素片区間における始端の音の影響を考慮して選択されることが好ましい。選択された合成単位素片は、CPU101のキャッシュメモリやメインメモリ103の所定の領域に保持される。
【0074】
また、合成単位選択部70は、合成単位素片を生成しようとするF0素片区分に対応するフレーズがドメイン音声データベース90に格納されていることを通知された場合、ボイスフォントデータベース80から合成単位素片を選択する代わりに、ドメイン音声データベース90にアクセスして該当するフレーズの波形素片を取得する。この場合も、当該F0素片区分の終端の音である場合には、当該F0素片区分の直後の状態に応じて調整することは同様である。すなわち、合成単位選択部70の処理としては、選択候補としてドメイン音声データベース90の波形素片を追加するに過ぎない。
【0075】
図14は、合成単位選択部70による合成単位素片の生成処理の流れを説明するフローチャートである。
図14に示すように、合成単位選択部70は、まず処理対象であるテキストの音素列を合成単位に分割し(ステップ1401)、着目する合成単位がドメイン音声データベース90に登録されているフレーズに対応するものかどうかを調べる(ステップ1402)。この判断は、テキスト解析部10からの通知に基づいて行うことができる。
【0076】
着目する合成単位に対応するフレーズがドメイン音声データベース90に登録されていないと認識したならば、合成単位選択部70は、次に、合成単位の予備選択を行う(ステップ1403)。ここでは、ボイスフォントデータベース80を参照して、合成すべき最適な合成単位素片を選択する。選択条件としては、音素環境の適合性と韻律環境の適合性とが考慮される。音素環境とは、テキスト解析部10の解析にて得られる音素環境と個々の合成単位の音素データにおける元環境の類似性である。また韻律環境の適合性とは、ターゲットとして与えられる各音素のF0値及び時間長と個々の合成単位の音素データにおけるF0値及び時間長の類似性である。
【0077】
予備選択にて適切な合成単位が見つかったならば、その合成単位を最適な合成単位素片として選択する(ステップ1404、1405)。選択された合成単位素片は、CPU101のキャッシュメモリやメインメモリ103の所定の領域に保持される。
一方、適切な合成単位が見つからない場合は、選択条件を変更して適切な合成単位が見つかるまで予備選択を繰り返す(ステップ1404、1406)。
【0078】
ステップ1402において、テキスト解析部10からの通知により、着目する合成単位に対応するフレーズがドメイン音声データベース90に登録されていると判断されたならば、次に、合成単位選択部70は、着目する合成単位が当該フレーズの境界部分の単位かどうかを調べる(ステップ1407)。境界部分の単位である場合、合成単位選択部70は、ドメイン音声データベース90に登録されている当該フレーズの該当音声の波形素片を候補に加えて、合成単位の予備選択を実行する(ステップ1403)。以下の処理は合成音声に対する処理と同様である(ステップ1404〜1406)。
一方、着目する合成単位が、ドメイン音声データベース90に登録されているフレーズに含まれるが、その境界部分の単位ではない場合、合成単位選択部70は、当該フレーズにおける録音音声を忠実に再現するため、ドメイン音声データベース90に格納されている該当音声の波形素片をそのまま合成単位素片として選択する(ステップ1407、1408)。選択された合成単位素片は、CPU101のキャッシュメモリやメインメモリ103の所定の領域に保持される。
【0079】
音声生成部30は、以上のようにして音韻時間長予測部50にて得られた時間長の情報、F0パターン生成部60にて得られたイントネーション・パターンのF0値、及び合成単位選択部70にて得られた合成単位素片を入力して、波形重畳法により音声合成を行う。合成された音声波形は、図1に示したスピーカ111を介して音声として出力される。
【0080】
以上のように、本実施の形態によれば、合成音声のイントネーション・パターンを生成する際に、録音された実音声における発話上の特徴を十分に反映させることができるため、より録音音声に近い合成音声を生成することができる。
特に、本実施の形態では、録音音声をそのまま用いるのではなく、波形や韻律情報のデータとして扱い、テキスト解析において録音音声として登録されているフレーズが検出された際に、当該録音音声のデータを用いて音声を合成するため、録音音声以外の自由な合成音声を生成する場合と同じ処理で音声合成を行うことができ、システムの処理としては、録音音声か合成音声かを意識する必要がない。したがって、システムの開発コストを削減することができる。
また、本実施の形態では、録音音声と合成音声とを区別することなく、F0素片区分における終端オフセットの値を直後の状態に応じて調整するため、各F0素片区分に対応する音声どうしが滑らかにつながった、違和感のない、より自然性の高い音声合成を行うことができる。
【0081】
【発明の効果】
以上説明したように、本発明によれば、音声合成のイントネーション・パターンの生成において、自然性が高く、かつ話者の発話特徴を柔軟かつ正確に再現できる音声合成システムを実現することができる。
また、本発明によれば、音声合成において、実発声のイントネーションにおけるF0パターンのデータベース(コーパスベース)に対し、韻律カテゴリによらずにF0パターンの絞り込みを行うことにより、データベースに蓄積された実発声のF0パターンを有効に活用することができる。
さらにまた、本発明によれば、録音音声及び合成音声のイントネーションを適切に混合し、滑らかに接合した音声合成を行うことができる。
【図面の簡単な説明】
【図1】 本実施の形態の音声合成技術を実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
【図2】 図1に示したコンピュータ装置にて実現される本実施の形態による音声合成システムの構成を示す図である。
【図3】 本実施の形態においてF0形状ターゲットを予測する際に発話上の制約を予測モデルに組み込む方式を説明する図である。
【図4】 本実施の形態の韻律制御部による音声合成の動作の流れを説明するフローチャートである。
【図5】 本実施の形態の概形予測部により予測されたF0形状ターゲットにおけるパターン形状の例を示す図である。
【図6】 本実施の形態の最適形状素片選択部により選択された最適F0形状素片におけるパターン形状の例を示す図である。
【図7】 図6に示した最適F0形状素片のF0パターンとその直前に位置する想定アクセント句のF0パターンとを接続する様子を示す図である。
【図8】 本実施の形態により生成されたイントネーション・パターンと実発声によるイントネーション・パターンとの比較例を示す図である。
【図9】 本実施の形態を用いて図8の対象テキストにおける想定アクセント句ごとに選択された最適F0形状素片を示す図である。
【図10】 本実施の形態の音声合成システムを実装したボイスサーバの構成例を示す図である。
【図11】 本発明の他の実施の形態による音声合成システムの構成を示す図である。
【図12】 本実施の形態において録音音声による2つのフレーズの間に合成音声によるフレーズを挿入する場合のF0パターンの概形予測を説明する図である。
【図13】 本実施の形態のF0パターン生成部によるF0パターンの生成処理の流れを説明するフローチャートである。
【図14】 本実施の形態の合成単位選択部による合成単位素片の生成処理の流れを説明するフローチャートである。
【符号の説明】
10…テキスト解析部、20…韻律制御部、21…概形予測部、22…最適形状素片選択部、23…形状素片接続部、30…音声生成部、40…F0形状データベース、50…音韻時間長予測部、60…F0パターン生成部、70…合成単位選択部、80…ボイスフォントデータベース、90…ドメイン音声データベース、101…CPU、102…M/Bチップセット、103…メインメモリ、105…サウンドカード、111…スピーカ、1010…ボイスサーバ、1011…システムマネージメントコンポーネント、1012…テレフォニー・メディアコンポーネント、1013…VoiceXMLブラウザ、1014…TTSエンジン、1015…Recoエンジン、1020…ウェブアプリケーションサーバ、1021…VoiceXMLアプリケーション、1030…VoIPゲートウェイ、1031…VoIPソフトウェア、1032…テレフォニーインターフェイス
Claims (10)
- コンピュータによる音声合成におけるイントネーションの生成を行うイントネーション生成方法において、
音声合成の対象であるテキストの言語情報に基づき当該テキストにおけるイントネーションの概形を予測して予測結果をメモリに格納し、
予測された前記イントネーションの概形を前記メモリから読み出し、言語情報を用いずに当該イントネーションのF0パターンの形状のみに基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択して前記テキストのイントネーション・パターンとすることを特徴とするイントネーション生成方法。 - 前記テキストの言語情報により分類される韻律カテゴリに基づいて、前記イントネーションの概形を予測することを特徴とする請求項1に記載のイントネーション生成方法。
- コンピュータによる音声合成におけるイントネーションの生成を行うイントネーション生成方法において、
音声合成の対象であるテキストを構成する想定アクセント句ごとにイントネーションの概形を予測し、予測結果をメモリに格納するステップと、
前記メモリから予測された前記想定アクセント句ごとにイントネーションの概形を読み出し、言語情報を用いずに当該イントネーションのF0パターンの形状のみに基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択し、選択結果をメモリに格納するステップと、
前記メモリから選択された前記想定アクセント句ごとのイントネーション・パターンを読み出し、接続するステップと、
を含むことを特徴とするイントネーション生成方法。 - テキスト音声合成を行う音声合成装置において、
処理対象であるテキストを解析して言語情報を取得するテキスト解析部と、
実発声のイントネーション・パターンを蓄積したデータベースと、
前記テキストを音声出力するための韻律を生成する韻律制御部と、
前記韻律制御部にて生成された韻律に基づいて音声を生成する音声生成部とを備え、
前記韻律制御部は、
前記テキスト解析部にて取得された言語情報に基づいて前記テキストを構成する想定アクセント句ごとにイントネーションの概形を予測する概形予測部と、
言語情報を用いずに、前記概形予測部にて予測された前記イントネーションのF0パターンの形状のみに基づいて、前記データベースからイントネーション・パターンを選択する形状素片選択部と、
前記形状素片選択部にて選択された前記想定アクセント句ごとのイントネーション・パターンを接続して前記テキスト全体のイントネーション・パターンを生成する形状素片接続部と
を備えることを特徴とする音声合成装置。 - 前記形状素片選択部が、さらに、前記データベースに蓄積された実発声のイントネーション・パターンのうちで、前記概形予測部により予測された前記イントネーションの概形に形状が近似するイントネーション・パターンを選択することを特徴とする請求項4に記載の音声合成装置。
- 電話網を介してなされたアクセス要求に応じて、音声対話型のコンテンツを提供するボイスサーバにおいて、
前記電話網へ出力する音声を合成するための音声合成エンジンと、
前記電話網を介して入力した音声を認識するための音声認識エンジンとを備え、
前記音声合成エンジンは、
アプリケーションの実行により得られるテキストの言語情報に基づいて、当該テキストを構成する想定アクセント句ごとにイントネーションの概形を予測し、
言語情報を用いずに、予測された前記想定アクセント句ごとのイントネーションのF0パターンの形状のみに基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択し、
選択された前記想定アクセント句ごとのイントネーション・パターンを接続して前記テキストに対するイントネーション・パターンを生成し、当該イントネーション・パターンに基づいて音声を合成して前記電話網へ出力することを特徴とするボイスサーバ。 - コンピュータを制御して、音声合成におけるイントネーション生成を行うプログラムであって、
音声合成の対象であるテキストの言語情報を入力し、当該言語情報に基づいて、当該テキストを構成する想定アクセント句ごとにイントネーションの概形を予測し、予測結果をメモリに格納する処理と、
前記メモリから予測された前記想定アクセント句ごとのイントネーションを読み出し、言語情報を用いずに当該イントネーションのF0パターンの形状のみに基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択し、選択結果をメモリに格納する処理と、
前記メモリから選択された前記想定アクセント句ごとのイントネーション・パターンを読み出して接続し、前記テキストに対するイントネーション・パターンとして出力する処理と
を前記コンピュータに実行させることを特徴とするプログラム。 - 前記プログラムによる前記イントネーション・パターンを選択する処理が、さらに、前記データベースに蓄積された実発声のイントネーション・パターンのうちで、予測された前記イントネーションの概形に形状が近似するイントネーション・パターンを選択することを特徴とする請求項7に記載のプログラム。
- コンピュータを制御して、テキスト音声合成を行うプログラムであって、
処理対象であるテキストを解析して言語情報を取得するテキスト解析手段と、
前記テキスト解析手段にて取得された言語情報に基づいて前記テキストを構成する想定アクセント句ごとにイントネーションの概形を予測する概形予測手段と、
言語情報を用いずに、概形予測手段にて予測された前記イントネーションのF0パターンの形状のみに基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択する形状素片選択手段と、
前記形状素片選択手段にて選択された前記想定アクセント句ごとのイントネーション・パターンを接続して前記テキスト全体のイントネーション・パターンを生成する形状素片接続手段と、
前記形状素片接続手段にて生成されたイントネーション・パターンに基づいて音声を生成する音声生成手段として、前記コンピュータを機能させることを特徴とするプログラム。 - コンピュータを制御してテキスト音声合成を行うプログラムを、当該コンピュータが読み取り可能に記録した記録媒体であって、
前記プログラムは、
処理対象であるテキストを解析して言語情報を取得するテキスト解析手段と、
前記テキスト解析手段にて取得された言語情報に基づいて前記テキストを構成する想定アクセント句ごとにイントネーションの概形を予測する概形予測手段と、
言語情報を用いずに、概形予測手段にて予測された前記イントネーションのF0パターンの形状のみに基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択する形状素片選択手段と、
前記形状素片選択手段にて選択された前記想定アクセント句ごとのイントネーション・パターンを接続して前記テキスト全体のイントネーション・パターンを生成する形状素片接続手段と、
前記形状素片接続手段にて生成されたイントネーション・パターンに基づいて音声を生成する音声生成手段として、前記コンピュータを機能させることを特徴とする記録媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001251903 | 2001-08-22 | ||
JP2001251903 | 2001-08-22 | ||
JP2002072288 | 2002-03-15 | ||
JP2002072288 | 2002-03-15 | ||
PCT/JP2002/007882 WO2003019528A1 (fr) | 2001-08-22 | 2002-08-01 | Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2003019528A1 JPWO2003019528A1 (ja) | 2004-12-16 |
JP4056470B2 true JP4056470B2 (ja) | 2008-03-05 |
Family
ID=26620814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003522906A Expired - Fee Related JP4056470B2 (ja) | 2001-08-22 | 2002-08-01 | イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ |
Country Status (4)
Country | Link |
---|---|
US (1) | US7502739B2 (ja) |
JP (1) | JP4056470B2 (ja) |
CN (1) | CN1234109C (ja) |
WO (1) | WO2003019528A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5387410B2 (ja) * | 2007-10-05 | 2014-01-15 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100547858B1 (ko) * | 2003-07-07 | 2006-01-31 | 삼성전자주식회사 | 음성인식 기능을 이용하여 문자 입력이 가능한 이동통신단말기 및 방법 |
JP4542400B2 (ja) * | 2004-09-15 | 2010-09-15 | 日本放送協会 | 韻律生成装置及び韻律生成プログラム |
JP2006084967A (ja) * | 2004-09-17 | 2006-03-30 | Advanced Telecommunication Research Institute International | 予測モデルの作成方法およびコンピュータプログラム |
JP4516863B2 (ja) * | 2005-03-11 | 2010-08-04 | 株式会社ケンウッド | 音声合成装置、音声合成方法及びプログラム |
JP2006309162A (ja) * | 2005-03-29 | 2006-11-09 | Toshiba Corp | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム |
JP4738057B2 (ja) * | 2005-05-24 | 2011-08-03 | 株式会社東芝 | ピッチパターン生成方法及びその装置 |
JP4533255B2 (ja) * | 2005-06-27 | 2010-09-01 | 日本電信電話株式会社 | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 |
US8600753B1 (en) * | 2005-12-30 | 2013-12-03 | At&T Intellectual Property Ii, L.P. | Method and apparatus for combining text to speech and recorded prompts |
JP2007264503A (ja) * | 2006-03-29 | 2007-10-11 | Toshiba Corp | 音声合成装置及びその方法 |
US8130679B2 (en) * | 2006-05-25 | 2012-03-06 | Microsoft Corporation | Individual processing of VoIP contextual information |
US20080154605A1 (en) * | 2006-12-21 | 2008-06-26 | International Business Machines Corporation | Adaptive quality adjustments for speech synthesis in a real-time speech processing system based upon load |
JP2008225254A (ja) * | 2007-03-14 | 2008-09-25 | Canon Inc | 音声合成装置及び方法並びにプログラム |
JP2009042509A (ja) * | 2007-08-09 | 2009-02-26 | Toshiba Corp | アクセント情報抽出装置及びその方法 |
JP2009047957A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | ピッチパターン生成方法及びその装置 |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
US9330720B2 (en) * | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8489399B2 (en) * | 2008-06-23 | 2013-07-16 | John Nicholas and Kristin Gross Trust | System and method for verifying origin of input through spoken language analysis |
US9266023B2 (en) | 2008-06-27 | 2016-02-23 | John Nicholas and Kristin Gross | Pictorial game system and method |
US20100066742A1 (en) * | 2008-09-18 | 2010-03-18 | Microsoft Corporation | Stylized prosody for speech synthesis-based applications |
US9761219B2 (en) * | 2009-04-21 | 2017-09-12 | Creative Technology Ltd | System and method for distributed text-to-speech synthesis and intelligibility |
RU2421827C2 (ru) * | 2009-08-07 | 2011-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ синтеза речи |
JP2011180416A (ja) * | 2010-03-02 | 2011-09-15 | Denso Corp | 音声合成装置、音声合成方法およびカーナビゲーションシステム |
US8428759B2 (en) * | 2010-03-26 | 2013-04-23 | Google Inc. | Predictive pre-recording of audio for voice input |
CN102682767B (zh) * | 2011-03-18 | 2015-04-08 | 株式公司Cs | 一种应用于家庭网络的语音识别方法 |
RU2460154C1 (ru) * | 2011-06-15 | 2012-08-27 | Александр Юрьевич Бредихин | Способ автоматизированной обработки текста и компьютерное устройство для реализации этого способа |
US9240180B2 (en) | 2011-12-01 | 2016-01-19 | At&T Intellectual Property I, L.P. | System and method for low-latency web-based text-to-speech without plugins |
US10469623B2 (en) * | 2012-01-26 | 2019-11-05 | ZOOM International a.s. | Phrase labeling within spoken audio recordings |
US9390085B2 (en) | 2012-03-23 | 2016-07-12 | Tata Consultancy Sevices Limited | Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english |
JP2014038282A (ja) * | 2012-08-20 | 2014-02-27 | Toshiba Corp | 韻律編集装置、方法およびプログラム |
US9734819B2 (en) * | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
GB2529564A (en) * | 2013-03-11 | 2016-02-24 | Video Dubber Ltd | Method, apparatus and system for regenerating voice intonation in automatically dubbed videos |
JP5807921B2 (ja) * | 2013-08-23 | 2015-11-10 | 国立研究開発法人情報通信研究機構 | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
US9348812B2 (en) * | 2014-03-14 | 2016-05-24 | Splice Software Inc. | Method, system and apparatus for assembling a recording plan and data driven dialogs for automated communications |
US10803850B2 (en) * | 2014-09-08 | 2020-10-13 | Microsoft Technology Licensing, Llc | Voice generation with predetermined emotion type |
CN105788588B (zh) * | 2014-12-23 | 2020-08-14 | 深圳市腾讯计算机系统有限公司 | 导航语音播报方法和装置 |
JP6669081B2 (ja) * | 2014-12-24 | 2020-03-18 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
WO2017168544A1 (ja) * | 2016-03-29 | 2017-10-05 | 三菱電機株式会社 | 韻律候補提示装置 |
EP3503091A4 (en) * | 2016-08-17 | 2019-08-07 | Sony Corporation | DIALOGUE CONTROL DEVICE AND METHOD |
CN117524188A (zh) * | 2018-05-11 | 2024-02-06 | 谷歌有限责任公司 | 时钟式层次变分编码器 |
CN110619866A (zh) * | 2018-06-19 | 2019-12-27 | 普天信息技术有限公司 | 语音合成方法及装置 |
WO2020230924A1 (ko) * | 2019-05-15 | 2020-11-19 | 엘지전자 주식회사 | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 |
CN112397050B (zh) * | 2020-11-25 | 2023-07-07 | 北京百度网讯科技有限公司 | 韵律预测方法、训练方法、装置、电子设备和介质 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0419799A (ja) * | 1990-05-15 | 1992-01-23 | Matsushita Electric Works Ltd | 音声合成装置 |
JPH04349499A (ja) * | 1991-05-28 | 1992-12-03 | Matsushita Electric Works Ltd | 音声合成システム |
JP2782147B2 (ja) * | 1993-03-10 | 1998-07-30 | 日本電信電話株式会社 | 波形編集型音声合成装置 |
JP3093113B2 (ja) * | 1994-09-21 | 2000-10-03 | 日本アイ・ビー・エム株式会社 | 音声合成方法及びシステム |
JP3085631B2 (ja) * | 1994-10-19 | 2000-09-11 | 日本アイ・ビー・エム株式会社 | 音声合成方法及びシステム |
JP2880433B2 (ja) * | 1995-09-20 | 1999-04-12 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声合成装置 |
US5905972A (en) * | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
JP3224760B2 (ja) * | 1997-07-10 | 2001-11-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声メールシステム、音声合成装置およびこれらの方法 |
JP3667950B2 (ja) * | 1997-09-16 | 2005-07-06 | 株式会社東芝 | ピッチパターン生成方法 |
JP3576792B2 (ja) * | 1998-03-17 | 2004-10-13 | 株式会社東芝 | 音声情報処理方法 |
JP3550303B2 (ja) * | 1998-07-31 | 2004-08-04 | 株式会社東芝 | ピッチパターン生成方法およびピッチパターン生成装置 |
US6219638B1 (en) * | 1998-11-03 | 2001-04-17 | International Business Machines Corporation | Telephone messaging and editing system |
US6260016B1 (en) * | 1998-11-25 | 2001-07-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing prosody templates |
JP2000206982A (ja) * | 1999-01-12 | 2000-07-28 | Toshiba Corp | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 |
JP3420964B2 (ja) | 1999-02-25 | 2003-06-30 | 日本電信電話株式会社 | ピッチパタン生成方法、その装置及びプログラム記録媒体 |
JP2000250573A (ja) * | 1999-03-01 | 2000-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声素片データベース作成方法及びその装置並びにこの音声素片データベースを用いた音声合成方法及びその装置 |
JP2000305585A (ja) * | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
JP2001034284A (ja) * | 1999-07-23 | 2001-02-09 | Toshiba Corp | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 |
JP3450237B2 (ja) * | 1999-10-06 | 2003-09-22 | 株式会社アルカディア | 音声合成装置および方法 |
US7035794B2 (en) * | 2001-03-30 | 2006-04-25 | Intel Corporation | Compressing and using a concatenative speech database in text-to-speech systems |
JP2003108178A (ja) * | 2001-09-27 | 2003-04-11 | Nec Corp | 音声合成装置及び音声合成用素片作成装置 |
JP2006309162A (ja) * | 2005-03-29 | 2006-11-09 | Toshiba Corp | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム |
JP4738057B2 (ja) * | 2005-05-24 | 2011-08-03 | 株式会社東芝 | ピッチパターン生成方法及びその装置 |
-
2002
- 2002-08-01 WO PCT/JP2002/007882 patent/WO2003019528A1/ja active Application Filing
- 2002-08-01 JP JP2003522906A patent/JP4056470B2/ja not_active Expired - Fee Related
- 2002-08-01 CN CNB028163397A patent/CN1234109C/zh not_active Expired - Fee Related
-
2005
- 2005-01-24 US US10/784,044 patent/US7502739B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5387410B2 (ja) * | 2007-10-05 | 2014-01-15 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20050114137A1 (en) | 2005-05-26 |
CN1234109C (zh) | 2005-12-28 |
WO2003019528A1 (fr) | 2003-03-06 |
CN1545693A (zh) | 2004-11-10 |
US7502739B2 (en) | 2009-03-10 |
JPWO2003019528A1 (ja) | 2004-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4056470B2 (ja) | イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ | |
US20230012984A1 (en) | Generation of automated message responses | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
US20190362704A1 (en) | Text-to-speech processing with emphasized output audio | |
US20160379638A1 (en) | Input speech quality matching | |
US20050071163A1 (en) | Systems and methods for text-to-speech synthesis using spoken example | |
US9484012B2 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product | |
US20080177543A1 (en) | Stochastic Syllable Accent Recognition | |
US8380508B2 (en) | Local and remote feedback loop for speech synthesis | |
Qian et al. | A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS | |
JP4129989B2 (ja) | テキスト音声合成を支援するシステム | |
US20080243508A1 (en) | Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof | |
US20200365137A1 (en) | Text-to-speech (tts) processing | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
US20140236597A1 (en) | System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
JP2003271194A (ja) | 音声対話装置及びその制御方法 | |
KR101097186B1 (ko) | 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법 | |
JP3050832B2 (ja) | 自然発話音声波形信号接続型音声合成装置 | |
JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
US20050187772A1 (en) | Systems and methods for synthesizing speech using discourse function level prosodic features | |
Woollacott et al. | Benchmarking speech technologies | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070702 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071211 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4056470 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111221 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121221 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131221 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |