JPH10153998A - 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 - Google Patents

補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置

Info

Publication number
JPH10153998A
JPH10153998A JP9239775A JP23977597A JPH10153998A JP H10153998 A JPH10153998 A JP H10153998A JP 9239775 A JP9239775 A JP 9239775A JP 23977597 A JP23977597 A JP 23977597A JP H10153998 A JPH10153998 A JP H10153998A
Authority
JP
Japan
Prior art keywords
speech
prosody information
voice
phoneme
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9239775A
Other languages
English (en)
Inventor
Masanobu Abe
匡伸 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9239775A priority Critical patent/JPH10153998A/ja
Priority to US08/933,140 priority patent/US5940797A/en
Priority to DE69719270T priority patent/DE69719270T2/de
Priority to EP97116540A priority patent/EP0831460B1/en
Publication of JPH10153998A publication Critical patent/JPH10153998A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 規則合成によるテキスト合成音声の特徴を自
由に変更可能にする。 【解決手段】 実音声を補助情報として使用し、規則合
成により音声を合成する方法及び装置であり、単語辞書
を参照して入力テキストの解析により得た単語系列の各
単語の音素系列に対する韻律情報を設定し、音声波形辞
書を参照して各単語の音素系列から音素波形系列を求め
る。一方、入力実音声から韻律情報を抽出し、設定され
た韻律情報と抽出された韻律情報のいずれかを選択し、
その選択された韻律情報により音声波形系列を制御し、
合成音声とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、補助情報利用型
音声合成方法およびこの方法を実施する装置に関し、特
に、テキスト情報の他に実際に人間の発声した音声情報
を補助情報として付加的に使用して自然な合成音声を生
成する補助情報利用型音声合成方法、この方法を実施す
る手順を記録した記録媒体、おおよびこの方法を実施す
る装置に関する。
【0002】
【従来の技術】テキストから音声を合成するテキスト音
声合成によれば、音声メッセージの作成は比較的に容
易、且つ廉価に実施することができる。しかし、テキス
ト合成音声の品質は充分であるとはいえず、人間の発声
した音声とはかけ離れたものである。即ち、テキスト音
声合成の従来例においては、音声合成に必要とされる全
てのパラメータはテキスト分析の結果に基づいて音声合
成の規則により推定された値であった。そのために、テ
キスト分析の誤り、或は音声合成の規則の不備に起因し
て不自然な音声が合成される場合がある。また、例え同
じ文章であっても人間はこれを2度と同じ音声で発声を
することができないと言われる程人間の発声過程にはゆ
らぎを含んでいる。これに対して、音声合成の規則は平
均的な傾向をモデル化しているに過ぎないものであると
ころから、合成された音声は単調になる。現状の規則に
よる合成音声のイントネーションが不自然であると評価
される理由は、以上の2つが主なものである。この理由
を解消して合成音声の品質を向上させることができれば
テキスト音声合成は音声メッセージ作成の有効な方法と
なる。
【0003】一方、人間が直接発声することにより音声
メッセージを作成するには、専門のナレータを雇い、ス
タジオその他の録音環境の整備されたところを準備する
ことが必須となる。録音時においては、ナレータといえ
ども間違った発声をしたり、明瞭な発声をすることがで
きなかったりして発声のやり直しが生じ、膨大な時間を
要する。更に、発声の速度を一定に保持したり、ナレー
タの体調により変動する声の質にも注意を払わなければ
ならない。以上の通り、音声メッセージの作成には種々
の経費がかさむ上に、作成に長時間を必要とする。
【0004】例えば、展示場の一連の展示室の音声案内
のように、専門のナレータが予め一連の説明を必要に応
じて映像と共に録音しておき、利用者にそれを繰り返し
再生して提供するような要求は、様々な分野において存
在する。その際、録音される説明の音声は、明確で、標
準的であることが要求される。また、表示画面を使う場
合は、その画面と説明が同期する必要がある。従って、
そのような要求を満足させるためには、そのような目的
の音声を発声する専門のナレータが原稿(テキスト)を
読んで、その音声を録音する。その録音には、要求され
る品質で、間違いのないものが得られるまで、繰り返し
録音が行われるので、時間もコストもかかる。
【0005】
【発明が解決しようとする課題】ところで、この様にし
て得られた音声データが、何ヵ月、或いは何年か後に、
一部修正や、追加を必要とされる場合、修正すべき部分
の音声を、それ以外の部分の音声と同様の特徴(音質、
ピッチ、抑揚、スピード、等)とする事が望まれる。従
って、先に録音したと同一のナレータに再度修正、追加
録音してもらうのが望ましい。しかしながら、修正追加
録音が必要とされたときに、必ずしもその同じナレータ
の協力が得られるとは限らない。協力が得られたとして
も、前回と同じ特徴で発声することは難しい。そこで、
そのナレータの音声の特徴を抽出し、それを使って所望
のテキストに従った音声、或いは任意の人の発声音声
を、任意の時期に再現性のある特徴で合成できれば非常
に都合がよい。
【0006】或いは、アニメーション映画における音声
の録音では、登場キャラクタ毎に異なる特徴の音声が必
要であり、キャラクタの数が多ければそれだけ多くの声
優がスタジオで長時間をかけて音声の吹き込みを行う。
もし、声優でなく、特徴的な音声を有する一般の人の音
声の特徴情報を抽出し、それを使ってテキストから音声
を合成することができれば、アニメーション映画製作の
費用を削減することができる。
【0007】この発明の目的は、規則合成によるテキス
ト合成音声の特徴を自由に変更可能な音声合成方法、そ
の方法による処理手順を記録した記録媒体、及びその方
法を実施する装置を提供するものである。
【0008】
【課題を解決するための手段】この発明による音声合成
方法は、以下のステップを含む: (a) 単語辞書を参照して入力テキストを解析し、入力テ
キストの単語系列を判定し、それによって各単語の音素
の系列を得て、(b) 各単語中の音素の韻律情報を設定
し、(c) 各単語中の音素に対応する音素波形を音声波形
辞書から選択し、それによって音素波形系列を生成し、
(d) 入力実音声から韻律情報を抽出し、(e) 上記抽出し
た韻律情報の少なくとも一部と、上記設定した韻律情報
の少なくとも一部のいずれかを選択し、(f) 上記音声波
形系列を選択された韻律情報で制御して合成音声を生成
する。
【0009】この発明の記録媒体は、上記方法を処理手
順として記録してある。この発明による音声合成装置
は、以下を含む:単語辞書を参照して入力テキストを形
成する単語の系列を順次判定し、それによって各単語の
音素の系列を得るテキスト解析手段と、各上記単語に付
随して上記単語辞書に設けられている、その単語中の各
音素の韻律情報を設定する韻律情報設定手段と、上記判
定された単語中の各音素に対応する音声波形を音声波形
辞書から選択読み出しする音声素片選択手段と、入力実
音声から韻律情報を抽出する韻律情報抽出手段と、上記
設定された韻律情報の少なくとも一部と、上記抽出され
た韻律情報の少なくとも一部のいずれか一方を選択する
韻律情報選択手段と、上記選択された音声波形を、上記
選択された韻律情報により制御し、合成音声を出力する
音声合成手段。
【0010】
【発明を実施する形態】この発明の実施の形態を図1を
参照して説明する。図1はテキストとテキストを発声し
た音声の双方を入力として音声を合成する流れを説明す
る図である。第1に、テキスト情報の入力について説明
する。図1において、100は従来と同様の規則合成法
による音声合成部を示し、テキスト解析部11と、単語
辞書12と、韻律情報設定部10と、音声波形辞書16
と、音素片選択部17と、音声合成部18とから構成さ
れている。テキスト解析部11は、ワープロその他の入
力装置を介して作成入力されるテキスト情報である文章
の文字列を解析して解析結果を出力する。単語辞書12
には、単語の読み、単語のアクセント型、単語の品詞が
格納されている。テキスト解析部11においては、先
ず、入力されるテキスト情報の文字列の内から句読点を
探しだし、この句読点によってテキスト情報を分割し、
分割した文字列を得る。この分割切り出された文字列毎
に以下の処理を施す。即ち、文字列の先頭から1文字、
2文字と順次切り出すと共に、切り出された文字列と単
語辞書12に格納されている単語との間の照合を行な
う。その結果、両者が一致したものの内の文字列の長い
方から優先度の高い単語の候補として登録する。次に、
候補単語の品詞情報と既に決定されている直前の単語の
品詞情報から、単語の連なり易さを計算する。最後に、
この計算値と候補単語の長さを考慮し、尤らしい単語を
解析結果とする。以上の処理は文字列の第1文字から開
始して、文字列の最後の文字に到るまで順次に繰り返し
ながら、逐次的に単語を解析、決定し、単語辞書12を
参照して文字列の読み、およびアクセント型を決定す
る。ここで、文字列の読みが決定されたので、単語を構
成する音素の数が得られる。テキスト解析部11は以上
の様にテキスト解析し、文字列の単語の境界、単語の読
み、単語のアクセント、単語の品詞、単語を構成する音
素数を解析結果として出力する。
【0011】韻律情報設定部10は基本周波数設定部1
3と、音声パワー設定部14と、継続時間町設定部15
とから構成されている。基本周波数設定部13は、テキ
スト解析部11の出力の内の単語のアクセント型および
単語の長さを使用して基本周波数を決定する。この基本
周波数を決定する方法は数通りあるが、この内の一つの
方法について説明する。基本周波数の設定処理は、性別
による代表的基本周波数、年齢による代表的基本周波
数、に基づいて決めると共に、合成音声にイントネーシ
ョンを付与することを目的としてなされる処理である。
単語のアクセント又はストレスは、英語の場合、一般に
パワーの大小が原因であり、日本語の場合、基本周波数
の高低が主な原因である。従って、基本周波数設定処理
は単語固有のアクセントを設定する処理と、各単語のア
クセントの大きさの相対的な関係を設定する処理とより
成る。ストレスの付与の方法に付いては、例えばJonath
an Allen et al "From text to speech", Cambridge Un
iversity Press, pp.?? に詳しく説明されている。
【0012】テキスト解析部11から出力される単語の
アクセント型は、単語固有のアクセントを簡略化して表
記したものであり、日本語の場合、「高」(以下"H"と
表す)「低」(以下"L"と表す)の2値により表現され
る。例えば日本語で「橋」を意味する/hashi/は、"L
H"であり、日本語で「箸」を意味する/hashi/ は"H
L"である。ここで、"H"或は"L"は音節/hashi/ の内
の母音である/a/ と/i/ の基本周波数の高さを意味して
いる。例えば、"L"として100Hz、"H"として150Hzを与
えることにより、各母音の基本周波数の値は決定され
る。この場合の"H"と"L"の周波数の違いは50Hzである
が、この違いを一般にアクセントの大きさという。
【0013】基本周波数設定部13は更に、この様にし
てそれぞれの各単語のアクセントの大きさの相対的な関
係を設定する。例えば、単語を構成する音素数が多い単
語は、少ない単語と比較してアクセントの大きさを大き
くする。単語の品詞について形容詞と名詞の連なりがあ
る場合は、形容詞のアクセントの大きさを大きくし、名
詞のアクセントの大きさを小さくする。以上の100Hz、1
50Hzという値、アクセントの相対的な大きさを設定する
規則は、人間の発声した音声を参考にして予め値を求め
ておく。この様にして、各母音毎の基本周波数が決定さ
れる。ところで、各母音を物理的現象としてみると、こ
れは基本周波数を有する波形が20msec〜30msecのあいだ
繰り返される信号である。この様な母音が順次発声さ
れ、ある母音から基本周波数の異なる隣接母音に移る場
合、それら隣接母音間の基本周波数の変化をなだらかに
するため、隣接母音間の基本周波数を直線で補間する。
以上の処理により基本周波数の設定が行なわれる。
【0014】音声パワー設定部14は、合成する音声の
パワーを音素毎に設定する。音声のパワーを設定するに
は、各音素が有する固有の値が最も重要な値である。そ
こで、人間に多量のテキストを発声させて各音素別に固
有のパワーを計算し、これをテーブルとして格納してお
く。このテーブルを参照しながらパワー値を設定する。
【0015】継続時間長設定部15は音素の継続時間を
設定する。音素の継続時間は各音素に固有なものである
が、その値は各音素の前後に接続する音素により影響を
受ける。そこで、各音素毎に前後に接続する音素を変化
させた全ての組み合わせを作成し、人間に発声させて各
音素の継続時間を測定し、これをテーブルとして格納し
ておく。このテーブルを参照しながら継続時間を設定す
る。
【0016】音声波形辞書16には、使用される言語に
出現する音素を人間が発声した標準の音声波形が格納さ
れている。この音声波形には音素の種別を示す記号と、
その音素がどの時刻から開始され、どの時刻で終了する
かを示す記号と、音声波形の基本周波数を示す記号とが
付加されている。これらの情報は人間によって予め付加
しておく。
【0017】音声素片選択部17は、先ず、テキスト解
析部11から出力される各単語の読みに基づいて、その
単語を、これを構成する音素列に変換し、各音素に対応
する波形とこれに付随する情報を音声波形辞書16から
取り出す。音声合成部18は音声素片選択部17で音声
波形辞書16から選択した一連の音素に対応する音素波
形に対し、各設定部13、14、15で設定された基本
周波数F0、パワーPw、継続時間Drに従って音声を合成
し、出力する。
【0018】上述したこの様な音声合成法は規則合成法
と呼ばれ、周知である。音声波形を制御する基本周波数
F0、パワーPw、継続時間Drなどのパラメータは韻律情報
と呼ばれる。これに対し、辞書16に格納されている音
素波形は音韻情報と呼ばれる。図1に示すこの発明によ
る実施例では、補助情報として、人間の実音声から抽出
された韻律情報の一部又は全部を選択的に利用可能とす
るよう、基本周波数抽出部23と、音声パワー抽出部2
4と、継続時間長抽出部25とから成る補助情報抽出部
20と、切り替えスイッチSW1, SW2, SW3 が設けられて
いる。
【0019】次に、補助情報である実際に人間の発声し
た音声情報の入力について説明する。基本周波数抽出部
23は、人間がテキストを発声して生成した音声信号波
形の基本周波数を抽出する。基本周波数の抽出は、一定
時間毎に例えば20msecの窓幅で音声波形の自己相関関数
を求め、基本周波数が通常存在する範囲である80Hz〜30
0Hz に亘って自己相関関数の最大値を探索し、その最大
値を与える時間遅れの逆数をとることにより求めること
ができる。
【0020】音声パワー抽出部24は、入力された音声
信号波形の音声パワーを計算する。音声のパワーは、20
msec程度の一定の窓長を設定し、この窓内の音声波形の
自乗和をとることにより求めることができる。継続時間
長抽出部25は、入力された音声信号波形の各音素の継
続時間長を測定する。継続時間長は、音声波形、音声ス
ペクトル情報を視察して音素の開始時刻と終了時刻を予
め設定しておき、そこから求めることができる。
【0021】音声合成部18において音声を合成するに
際して、基本周波数は基本周波数設定部13及び基本周
波数抽出部23の出力する基本周波数の内の何れか一方
を基本周波数選択スイッチSW1 により選択使用する。音
声パワーについても、音声パワー設定部14および音声
パワー抽出部24の出力する音声パワーの内の何れか一
方を音声パワー選択スイッチSW2 により選択使用する。
継続時間長についても、継続時間長設定部15および継
続時間長抽出部25の出力する継続時間長の内の何れか
一方を継続時間長選択スイッチSW3 により選択使用す
る。
【0022】先ず、音声合成部18は音声素片選択部1
7において音声波形辞書16から各音素に対応して選択
した音素波形に付随する基本周波数情報からその逆数で
ある基本周期を求め、その基本周期の2倍の窓長で音素
波形から波形セグメントを切り出す。次に、基本周波数
設定部13又は基本周波数抽出部23で設定又は抽出し
た基本周波数の値から逆数を取って基本周期を算出し、
波形セグメントをこの周期毎に繰り返し接続する。この
繰り返し接続は、接続波形長が継続時間長設定部15又
は継続時間長抽出部25で設定又は抽出された継続時間
長になるまで繰り返す。この接続波形のパワーが音声パ
ワー設定部14又は音声パワー抽出部24により設定又
は抽出された値に一致するよう接続波形に定数を乗じ
る。人間の発声した音声から抽出した韻律情報である基
本周波数抽出部23、音声パワー抽出部24、継続時間
長抽出部25の出力する値を利用する程、自然性の高い
合成音声が得られる。これらの選択は、利用者により用
途に応じた合成音声の品質、パラメータの蓄積量その他
の条件に応じて適宜になされる 図1の実施例では、音声合成部18から出力される合成
音声は出力音声切り替えスイッチSW4 を介してそのまま
出力するだけでなく、合成音声フィルタ32によりフィ
ルタリングを施して、入力音声フィルタ31によりフィ
ルタリングされた入力音声と重ね合わせ回路33におい
て重ね合わせて出力することもできる。この様にするこ
とにより、入力音声とも異なり、また音声波形辞書16
に格納されている音声とも異なる合成音を出力すること
ができる。この場合、例えば入力音声フィルタ31は基
本周波数より十分高い帯域を有するハイパスフィルタで
あり、合成音声フィルタ32はハイパスフィルタの帯域
より低く、基本周波数を含む帯域を有するローパスフィ
ルタとする。
【0023】継続時間長設定部15又は継続時間長抽出
部25の何れかにより設定された音素継続時間長、音素
の開始、終了時刻を、同期信号として切り替え出力スイ
ッチSW3を介して直接出力することにより、アニメー
ション合成装置の如き他の装置との間の同期を取るため
に利用することができる。即ち、各音素の開始時刻と終
了時刻を参照しながら、例えば/a/ を発声している間は
アニメーションの口を大きく開口しておき、/ma/を合成
する場合は/m/ の区間は口を閉じ、/a/ に到って口を大
きく開口するという様に音声と同期を取りながらアニメ
ーションの口を動かすことができる。
【0024】また、韻律情報抽出部20により抽出され
た韻律情報をメモリ34に蓄積し、任意の時点で、任意
の入力テキストに付いて、メモリ34から読みだした韻
律情報を使って音声合成部18で音声を合成してもよ
い。図1で任意の入力テキストに対し、実音声の韻律情
報を使って音声合成を行うには、予め使用が予測される
全ての韻律パターンに付いて実音声の韻律情報を求めて
おく。韻律情報パターンとしては、例えば前述のパワー
の大小の「大」("L"で表す)、「小」("S"で表す)で
表されるアクセントパターンを使うことができる。例え
ば/bat/、/hat/、/good/などは同じアクセントパター
ン"L" であるとする。/fe/de/ral/、/ge/ne/ral/、/te/
le/phone/ などは同じパターン"LSS"を有する。また、/
con/fuse/、/dis/charge/、/sus/pend/ などは同じパタ
ーン"SL"を有する。
【0025】実音声として、それぞれのアクセントパタ
ーンを代表する1つの単語をそれぞれ発音して入力し、
一定時間毎に韻律情報F0, Pw, Drを得る。これらの韻律
情報をその代表アクセントパターンと対応させてメモリ
34に蓄積する。この様な韻律情報のセットを異なる複
数の話者に付いてメモリ34に蓄積しておき、音声合成
時に所望の話者の韻律情報のセットから入力テキストの
各単語のアクセントパターンに対応する韻律情報を読み
だし、使用するようにしてもよい。
【0026】メモリ34の韻律情報を使って入力テキス
トに従った音声を合成するには、テキスト解析部11で
単語辞書12を参照して入力テキストの一連の単語を判
定し、それらの単語に付随して辞書12に記録されてい
る単語のアクセントパターンをそれぞれ読み出す。それ
らのアクセントパターンに対応してメモリ34に蓄積さ
れている韻律情報を読みだし、音声合成部18に与え
る。一方、テキスト解析部11で判定された音素系列は
音声素片選択部17に与えられ、音声波形辞書16を参
照して対応する音素波形が読みだされ、音声合成部18
に与えられる。それら一連の音素波形は、メモリ34か
らの韻律情報F0, Pw, Drにより前述したように制御さ
れ、合成音声として出力される。
【0027】図1に示すこの発明の音声合成装置の実施
例では、3通りの利用形態がある。第1の利用形態は、
テキスト解析部11に入力したテキストの音声を合成す
る場合であり、その際に、前述のようにそのテキストと
同じ文章又は異なる任意の文章を話者が読んで発声した
音声の韻律情報F0, Pw, Drを韻律情報抽出部20で抽出
し、選択的に利用する。第2の利用形態は、上述したよ
うに、予め様々なアクセントパターンの単語に付いて韻
律情報を抽出してメモリ34に蓄積しておき、音声合成
時に入力テキスト中の単語のアクセントパターンに対応
する韻律情報をメモリ34から読みだし、選択的に音声
合成に使用する。第3の利用形態は、上記合成音声の低
周波帯域と、テキストと同じ文章の入力実音声とから異
なる周波数帯域を取り出して混合して音声を出力する。
【0028】ところで、図1に示した実施例の基本周波
数抽出部23における基本周波数F0の抽出、及び、継続
時間長抽出部25における継続時間長Drの抽出には、一
般に誤りが生じる。抽出誤りは最終的な合成音声の品質
に悪影響を与えるため、高品質な合成音声を得るために
は、抽出誤りをできるだけ少なくすることが重要であ
る。その解決方法として、韻律情報パラメータの自動抽
出を行う機能と、得られた韻律情報パラメータを手動で
修正できる機能を有する実施例を図2に示す。
【0029】図2の構成は、図1の構成に、更に音声シ
ンボルエディタ41、基本周波数エディタ42、音声パ
ワーエディタ43、継続時間長エディタ44、音声分析
部45、表示部46が設けられている。エディタ41〜
44はいずれもグラフィカルユーザインタフェース(G
UI)を構成し、表示部46の表示画面に表示されたパ
ラメータをキーボードやマウスで操作して修正するもの
である。
【0030】継続時間長抽出部25は音素始終時点付与
部25Aと、HMM 音素モデル辞書25Bと、継続時間長
計算部25Cとから構成されている。HMM 音素モデル辞
書25Bには各音素をスペクトル分布、例えばケプスト
ラム分布の状態遷移で表す標準的HMM が格納されてい
る。HMM モデル構成については、例えば、S.Takahashi,
S.Sagayama, "Four-level tied structure for efficie
nt representation ofacoustic modeling," Proc.ICASS
P95, pp.520-523, 1995 に詳細に述べられている。音声
分析部45は、一定時間毎に、例えば20msecの分析窓で
入力音声信号の自己相関関数を求め、音声パワー抽出部
24に与え、更に、自己相関関数から例えばケプストラ
ムのような音声スペクトル特徴を求め、継続時間長抽出
部25内の音素始終時点付与部25Aに与える。音素始
終時点付与部25Aは音声シンボルエディタ41からの
修正されたシンボル系列のそれぞれの音素に対応するHM
MをHMM モデル辞書25Bから読みだし、HMM 系列を得
る。このHMM 系列を音声分析部45からのケプストラム
系列と比較し、テキストの音素境界に対応するHMM系列
中の境界を求め、各音素に対応してその始点と終点が決
定される。各音素の始点と終点の差を継続時間長計算部
25Cで求め、その音素の継続時間長とする。これによ
り、入力音声波形上の各音素の区間、即ち、開始時点と
終了時点が決定される。これを音素のラベリングと呼
ぶ。
【0031】基本周波数抽出部23は音声分析部45か
ら自己相関関数が与えられ、それを最大にする相関遅延
時間の逆数から基本周波数を求める。基本周波数を抽出
するアルゴリズムは、例えばL.Rabiner et at, "A comp
arative performance studyof several pitch detectio
n algorithms," IEEE Trans. ASSP, ASSP-24, pp.300-4
28, 1976 に示されている。基本周波数を抽出する際、
継続時間長抽出部25で決定された各音素の始点と終点
との間で抽出することにより、その音素の正確な区間に
おける基本周波数を得ることができる。
【0032】音声パワー抽出部24は音声分析部45か
ら与えられた自己相関関数の0次の項をパワーとして求
める。音声シンボルエディタ(GUI)41は、テキス
ト解析部11により判定された単語の音声シンボル系列
とそのアクセントパターン(例えば基本周波数F0
「高」、「低」)が与えられ、それを表示画面に表示す
る。表示された音声シンボル系列は、その内容を読めば
テキスト解析部11による判定誤りを直ちに発見するこ
とができる。また、表示されたアクセントパターンから
もテキスト解析部11の判定誤りを見つけることができ
る。
【0033】GUI42、43、44は韻律パラメータ
エディタであり、基本周波数抽出部23、音声パワー抽
出部24及び継続時間長抽出部25で抽出された基本周
波数F0, 音声パワーPw, 継続時間長Drを同一表示画面上
に表示すると共に、それらの韻律パラメータを表示画面
上でマウスやキーボードの操作に従って修正する。図3
は韻律パラメータF0, Pw, Drを、入力テキストシンボル
系列"soredewa/tsugino/nyusudesu"及び合成音声波形Ws
と共に表示部46の同一画面上に表示した画面の例を示
す。各音素の継続時間長Drは音素の開始、終了時点を表
す縦の実線で区切られた区間である。この様に、シンボ
ル系列と、各韻律パラメータF0, Pwを対応させて表示す
ることにより、例えば、本来母音に比べて短いはずの子
音の区間が異常に長ければ誤りであることが一目に判定
できる。同様に、不自然な基本周波数や音声パワーも目
視により発見することができる。それらの誤りは表示画
面上でキーボードやマウスの操作により修正することに
より、対応するGUIがパラメータの修正を行う。
【0034】図2の実施例の韻律エディタ42、43、
44の効果を調べるために実験を行った。合成音声を被
験者に聞かせ、その音質を5段階(悪い1点〜良い5
点)で評価させた。その結果を図4に示す。図中、縦軸
はプレファレンススコアであり、TTS とは従来のテキス
トからの音声合成方式であり、システム1とは、テキス
トと音声とを入力し、入力音声から自動的に抽出した韻
律パラメータで音声を合成する方式であり、システム2
とは、先に述べたエディタを用いて合成した方法であ
る。図から明らかなように、システム1 では、自動抽出
の誤りを含んでいるため、補助情報として音声を入力し
たことの効果はそれほど大きくない。一方、システム2
の場合には、大きな品質の改善が見られる。以上から、
自動抽出の誤りを訂正することの必要さが確認でき、G
UIによるエディタ42、43、44の有効性は明かで
ある。
【0035】図1及び2の実施例で説明したこの発明に
よる音声合成法方はコンピュータによって実施される。
即ち、コンピュータは記録媒体に記録されたこの発明の
方法による処理手順に従って、入力テキスト及び入力実
音声を処理し、音声を合成する。以上の通り、この発明
に依れば、テキストばかりではなく、そのテキストを読
み上げた音声を利用し、或いはそのテキストに類似した
テキストを読み上げた音声を利用し、これらの音声に含
まれる韻律情報、所望の帯域の音声信号のような補助情
報を抽出して利用することにより、従来技術のテキスト
音声合成によっては達成し得なかった高品質で自然な合
成音声を合成することができる。
【0036】そして、音声合成の規則の内、特に、音声
の高さ、音素の時間長および音声パワーに関する韻律情
報は、発話が行なわれる状況および文脈の影響を受け、
更に、感情、意図にも強く関係する。従って、このよう
な実音声の韻律情報を使って規則合成を制御することに
より、表現力の豊富な制御が可能となる。これに対し、
入力されたテキスト情報のみから得られる韻律情報は、
予め決められたものであり、合成音の表現は単調にな
る。このように、人間の発声した音声、或は人間の発声
した音声の一部の情報を有効に利用することにより、テ
キスト合成音声を人間の発声した音声に近づけることが
できる。しかし、ここで、繰り返すが、人間の発声した
音声の韻律情報を利用してテキストAの音声を合成する
場合、必ずしも人間がそのテキストAを読む必要はな
い。即ち、テキストAの音声を合成するに使用する韻律
情報をテキストAとは内容の異なるテキストを読んだ実
音声から抽出して使用することができる。この様にする
ことにより、或る有限な韻律情報から無限の韻律情報の
組み合わせを生成することができる。
【0037】また、補助情報として人間の発声した音声
から一部の帯域の信号を取りだし、これに規則により合
成した音声を加え合わせることにより、或る特定の人間
の音声に類似した合成音を合成することができる。従来
の音声合成方法は、高だか数種類程度の相異なる話者の
音声しか合成することができなかったため、その応用分
野に限りがあったが、この発明により適用分野の拡大を
図ることができるに到った。
【0038】更に、この発明の先の実施例は、各音素に
付いて設定した、或いは抽出した継続時間長Drを同期信
号として出力することにより他の画像生成装置との同期
をとることもできる。例えば、アニメーションの人物に
喋らせることを考える。自然なアニメを制作するには、
口の動きと音声信号との間の時間的な同期を取ることが
重要であるが、音声に合わせてアニメを動かすにして
も、或はアニメに合わせて人が喋るにしても、同期をと
るには多大な労力を必要としていた。一方、規則による
音声合成においては、音素の種別、音素の開始および終
了の時刻を明確に指定することができる。従って、これ
らの情報を補助情報として出力し、この情報を利用して
アニメの動作を決定すれば、口の動きと音声信号との間
の同期を容易にとることができる。
【0039】
【発明の効果】以上の通りであって、この発明に依れ
ば、主に次の様な効果が得られる。自然音声から抽出さ
れた韻律に関する補助情報を利用することにより従来技
術に依っては実現することができなかった自然性の高い
音声を合成することができる。そして、自然音声の或る
特定の帯域情報を利用することができるので、様々な種
類の音声を合成することができる。
【0040】また、従来の規則音声合成はテキストのみ
から音声合成していたが、この発明では、実音声から得
られる補助情報を全て、或いはその一部を利用するの
で、その補助情報の利用度(又は種類)に応じて様々な
レベルの向上した品質の合成音声を実現することができ
る。更に、通常の符号化音声とは異なり、テキスト情報
と音声情報の対応がとれているので、継続時間その他の
情報を制御したり或いは出力したりすることができるの
で、顔の動画像その他の部分の動画像との間の同期を容
易にとることができる。
【図面の簡単な説明】
【図1】この発明による実施例を説明する図。
【図2】この発明の他の実施例を説明する図。
【図3】図2の実施例における韻律情報の表示例を示す
図。
【図4】図2の実施例の効果を説明するためのグラフ。

Claims (25)

    【特許請求の範囲】
  1. 【請求項1】 テキストを入力して任意な音声を合成す
    る規則によるテキスト音声合成方法であり、以下のステ
    ップを含む: (a) 単語辞書を参照して入力テキストを解析し、入力テ
    キストの単語系列を判定し、それによって各単語の音素
    の系列を得て、 (b) 各単語中の音素の韻律情報を設定し、 (c) 各単語中の音素に対応する音素波形を音声波形辞書
    から選択し、それによって音素波形系列を生成し、 (d) 入力実音声から韻律情報を抽出し、 (e) 上記抽出した韻律情報の少なくとも一部と、上記設
    定した韻律情報の少なくとも一部のいずれかを選択し、 (f) 上記音声波形系列を選択された韻律情報で制御して
    合成音声を生成する。
  2. 【請求項2】 請求項1の方法において、上記韻律情報
    抽出ステップ(d) は、上記音声から基本周波数と、音声
    パワーと、音素継続時間長とを韻律パラメータとして抽
    出するステップを含む。
  3. 【請求項3】 請求項2の方法において、上記韻律情報
    設定ステップ(b) は、上記単語辞書に基づいて各単語の
    音素に対して指定された基本周波数と、パワーと、その
    音素の継続時間長を設定するステップを含む。
  4. 【請求項4】 請求項2又は3の方法において、上記選
    択ステップ(e) は、上記抽出された韻律パラメータの少
    なくとも1つを選択し、残りの抽出された韻律パラメー
    タに対応する設定された韻律パラメータを選択するステ
    ップを含む。
  5. 【請求項5】 請求項1〜4のいずれかの方法におい
    て、上記入力実音声の所望の帯域を抽出し、上記合成さ
    れた音声の他の帯域と結合して合成音声として出力する
    ステップを含む。
  6. 【請求項6】 請求項1〜4のいずれかの方法におい
    て、上記選択した韻律情報中の、各音素の開始時点と終
    了時点を表す継続時間長を音声同期信号として出力す
    る。
  7. 【請求項7】 請求項1〜4のいずれかの方法におい
    て、上記実音声の文章と上記テキストの文章は同じであ
    る。
  8. 【請求項8】 請求項1〜4のいずれかの方法におい
    て、上記実音声の文章と上記テキストの文章は異なる。
  9. 【請求項9】 請求項1〜4のいずれかの方法におい
    て、上記ステップ(d) は、上記抽出された韻律情報をメ
    モリに蓄積するステップを含み、上記ステップ(e)は、
    上記メモリから上記抽出した韻律情報の少なくとも一部
    を読みだすステップを含む。
  10. 【請求項10】 請求項2、3又は4の方法において、
    上記抽出された基本周波数と、音声パワーと、音素継続
    時間長の少なくとも1つを表示画面に表示し、抽出誤り
    を修正するステップを含む。
  11. 【請求項11】 規則合成に基づいて入力テキストに対
    応する音声を合成する音声合成装置であり、以下を含
    む:単語辞書を参照して入力テキストを形成する単語の
    系列を順次判定し、それによって各単語の音素の系列を
    得るテキスト解析手段と、 各上記単語に付随して上記単語辞書に設けられている、
    その単語中の各音素の韻律情報を設定する韻律情報設定
    手段と、 上記判定された単語中の各音素に対応する音声波形を音
    声波形辞書から選択読みだする音声素片選択手段と、 入力実音声から韻律情報を抽出する韻律情報抽出手段
    と、 上記設定された韻律情報の少なくとも一部と、上記抽出
    された韻律情報の少なくとも一部のいずれか一方を選択
    する韻律情報選択手段と、 上記選択された音声波形を、上記選択された韻律情報に
    より制御し、合成音声を出力する音声合成手段。
  12. 【請求項12】 請求項11の装置において、上記韻律
    情報設定手段は、各単語に付随して上記単語辞書に設け
    られているその単語の各音素の基本周波数と、音声パワ
    ーと、継続時間長とをそれぞれ設定する基本周波数設定
    手段と、音声パワー設定手段と、及び継続時間長設定手
    段とを含む。
  13. 【請求項13】 請求項12の装置において、上記韻律
    情報抽出手段は、一定時間毎に一定分析窓で上記入力実
    音声から基本周波数と、音声パワーと、音素継続時間長
    とをそれぞれ抽出する基本周波数抽出手段と、音声パワ
    ー抽出手段と、継続時間長抽出手段とを含む。
  14. 【請求項14】 請求項12又は13の装置において、
    上記選択手段により選択された、上記設定された継続時
    間長と上記抽出された継続時間長のいずれかは同期信号
    として上記合成音声と共に出力される。
  15. 【請求項15】 請求項11〜14のいずれかの装置に
    おいて、上記抽出された韻律情報を記憶するメモリ手段
    が設けられ、上記選択手段は、上記抽出された韻律情報
    の少なくとも一部を上記メモリ手段から読みだす。
  16. 【請求項16】 請求項11〜14のいずれかの装置に
    おいて、上記入力自然音声の予め決めた第1帯域を通過
    させる第1フィルタ手段と、上記音声合成手段からの合
    成音声の、上記帯域と異なる第2帯域と通過させる第2
    フィルタ手段と、上記第1フィルタ手段と上記第2フィ
    ルタ手段の出力を重ね合わせ、合成音声として出力する
    重ね合わせ手段とを含む。
  17. 【請求項17】 請求項16の装置において、上記第1
    フィルタ手段は基本周波数より高い帯域のハイパスフィ
    ルタであり、上記第2フィルタは基本周波数を含み上記
    第1フィルタ手段より低い帯域のローパスフィルタであ
    る。
  18. 【請求項18】 請求項11〜14のいずれかの装置に
    おいて、上記抽出された韻律情報を表示する表示手段
    と、上記表示された韻律情報の誤りを表示画面上で修正
    することにより、上記抽出された韻律情報を修正する韻
    律情報グラフィカルユーザインタフェース手段とが設け
    られている。
  19. 【請求項19】 請求項18の装置において、上記韻律
    情報抽出手段は一定時間毎に一定分析窓で上記入力実音
    声から基本周波数と、音声パワーと、音素継続時間長と
    をそれぞれ抽出する基本周波数抽出手段と、音声パワー
    抽出手段と、継続時間長抽出手段とを含み、上記表示手
    段は上記韻律情報としての上記抽出された基本周波数、
    音声パワー、継続時間長の任意のものを表示し、上記韻
    律情報グラフィカルユーザインタフェース手段は、表示
    基本周波数の修正に応じて上記抽出された基本周波数を
    修正する基本周波数エディタ手段と、表示音声パワーの
    修正に応じて上記抽出された音声パワーを修正する音声
    パワーエディタ手段と、表示された継続時間長の修正に
    応じて上記抽出された継続時間長を修正する継続時間長
    エディタ手段とを含む。
  20. 【請求項20】 請求項19の装置において、上記表示
    手段は、上記テキスト解析手段からの音声シンボル系列
    を表示し、上記表示手段の表示音声シンボル系列中の誤
    りを修正することにより上記音声シンボル系列中の対応
    する誤りを修正する音声エディタ手段が設けられてい
    る。
  21. 【請求項21】 テキストを入力して任意な音声を規則
    合成する処理手順を記録した記録媒体であり、上記処理
    手順は以下の手順を含む: (a) 単語辞書を参照して入力テキストを解析し、入力テ
    キストの単語系列を判定し、それによって各単語の音素
    の系列を得て、 (b) 各単語中の音素の韻律情報を設定し、 (c) 各単語中の音素に対応する音素波形を音声波形辞書
    から選択し、それによって音素波形系列を生成し、 (d) 入力実音声から韻律情報を抽出し、 (e) 上記抽出した韻律情報の少なくとも一部と、上記設
    定した韻律情報の少なくとも一部のいずれかを選択し、 (f) 上記音声波形系列を選択された韻律情報で制御して
    合成音声を生成する。
  22. 【請求項22】 請求項21の記録媒体において、上記
    韻律情報抽出手順(d) は、上記音声から基本周波数と、
    音声パワーと、音素継続時間長とを韻律パラメータとし
    て抽出する手順を含む。
  23. 【請求項23】 請求項21の記録媒体において、上記
    入力実音声の所望の帯域を抽出し、上記合成された音声
    の他の帯域と結合して合成音声として出力する手順を含
    む。
  24. 【請求項24】 請求項21の記録媒体において、上記
    手順(d) は、上記抽出された韻律情報をメモリに蓄積す
    る手順を含み、上記手順(e) は、上記メモリから上記抽
    出した韻律情報の少なくとも一部を読みだす手順を含
    む。
  25. 【請求項25】 請求項22の記録媒体において、上記
    抽出された基本周波数と、音声パワーと、音素継続時間
    長の少なくとも1つを表示画面に表示し、抽出誤りを修
    正する手順を含む。
JP9239775A 1996-09-24 1997-09-04 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 Pending JPH10153998A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP9239775A JPH10153998A (ja) 1996-09-24 1997-09-04 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
US08/933,140 US5940797A (en) 1996-09-24 1997-09-18 Speech synthesis method utilizing auxiliary information, medium recorded thereon the method and apparatus utilizing the method
DE69719270T DE69719270T2 (de) 1996-09-24 1997-09-23 Sprachsynthese unter Verwendung von Hilfsinformationen
EP97116540A EP0831460B1 (en) 1996-09-24 1997-09-23 Speech synthesis method utilizing auxiliary information

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP8-251707 1996-09-24
JP25170796 1996-09-24
JP9239775A JPH10153998A (ja) 1996-09-24 1997-09-04 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置

Publications (1)

Publication Number Publication Date
JPH10153998A true JPH10153998A (ja) 1998-06-09

Family

ID=26534416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9239775A Pending JPH10153998A (ja) 1996-09-24 1997-09-04 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置

Country Status (4)

Country Link
US (1) US5940797A (ja)
EP (1) EP0831460B1 (ja)
JP (1) JPH10153998A (ja)
DE (1) DE69719270T2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000347681A (ja) * 1999-05-05 2000-12-15 Nokia Mobile Phones Ltd テキスト・ベースの音声合成を利用した音声制御システム用の再生方法
JP2008268477A (ja) * 2007-04-19 2008-11-06 Hitachi Business Solution Kk 韻律調整可能な音声合成装置
JP2008292587A (ja) * 2007-05-22 2008-12-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP2009122382A (ja) * 2007-11-14 2009-06-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
WO2010050103A1 (ja) * 2008-10-28 2010-05-06 日本電気株式会社 音声合成装置
JP2016118722A (ja) * 2014-12-22 2016-06-30 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
JP2019074580A (ja) * 2017-10-13 2019-05-16 Kddi株式会社 音声認識方法、装置およびプログラム

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE1011892A3 (fr) * 1997-05-22 2000-02-01 Motorola Inc Methode, dispositif et systeme pour generer des parametres de synthese vocale a partir d'informations comprenant une representation explicite de l'intonation.
US6236966B1 (en) * 1998-04-14 2001-05-22 Michael K. Fleming System and method for production of audio control parameters using a learning machine
JP3180764B2 (ja) * 1998-06-05 2001-06-25 日本電気株式会社 音声合成装置
US7292980B1 (en) * 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP3361291B2 (ja) * 1999-07-23 2003-01-07 コナミ株式会社 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US6192340B1 (en) 1999-10-19 2001-02-20 Max Abecassis Integration of music from a personal library with real-time information
JP4005360B2 (ja) * 1999-10-28 2007-11-07 シーメンス アクチエンゲゼルシヤフト 合成すべき音声応答の基本周波数の時間特性を定めるための方法
US6785649B1 (en) * 1999-12-29 2004-08-31 International Business Machines Corporation Text formatting from speech
JP2001293247A (ja) * 2000-02-07 2001-10-23 Sony Computer Entertainment Inc ゲーム制御方法
JP2001265375A (ja) * 2000-03-17 2001-09-28 Oki Electric Ind Co Ltd 規則音声合成装置
JP2002062889A (ja) * 2000-08-14 2002-02-28 Pioneer Electronic Corp 音声合成方法
US7069216B2 (en) * 2000-09-29 2006-06-27 Nuance Communications, Inc. Corpus-based prosody translation system
US6789064B2 (en) 2000-12-11 2004-09-07 International Business Machines Corporation Message management system
US6804650B2 (en) * 2000-12-20 2004-10-12 Bellsouth Intellectual Property Corporation Apparatus and method for phonetically screening predetermined character strings
JP2002244688A (ja) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
GB0113581D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech synthesis apparatus
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
KR100450319B1 (ko) * 2001-12-24 2004-10-01 한국전자통신연구원 가상 환경에서 참여자간의 의사전달 장치 및 방법
US7401020B2 (en) * 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
US20030154080A1 (en) * 2002-02-14 2003-08-14 Godsey Sandra L. Method and apparatus for modification of audio input to a data processing system
US7209882B1 (en) * 2002-05-10 2007-04-24 At&T Corp. System and method for triphone-based unit selection for visual speech synthesis
FR2839836B1 (fr) * 2002-05-16 2004-09-10 Cit Alcatel Terminal de telecommunication permettant de modifier la voix transmise lors d'une communication telephonique
US20040098266A1 (en) * 2002-11-14 2004-05-20 International Business Machines Corporation Personal speech font
US8768701B2 (en) * 2003-01-24 2014-07-01 Nuance Communications, Inc. Prosodic mimic method and apparatus
US20040260551A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation System and method for configuring voice readers using semantic analysis
US20050119892A1 (en) * 2003-12-02 2005-06-02 International Business Machines Corporation Method and arrangement for managing grammar options in a graphical callflow builder
US8433580B2 (en) 2003-12-12 2013-04-30 Nec Corporation Information processing system, which adds information to translation and converts it to voice signal, and method of processing information for the same
TWI250509B (en) * 2004-10-05 2006-03-01 Inventec Corp Speech-synthesizing system and method thereof
WO2005057424A2 (en) * 2005-03-07 2005-06-23 Linguatec Sprachtechnologien Gmbh Methods and arrangements for enhancing machine processable text information
JP4586615B2 (ja) * 2005-04-11 2010-11-24 沖電気工業株式会社 音声合成装置,音声合成方法およびコンピュータプログラム
JP4539537B2 (ja) * 2005-11-17 2010-09-08 沖電気工業株式会社 音声合成装置,音声合成方法,およびコンピュータプログラム
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
US20080270532A1 (en) * 2007-03-22 2008-10-30 Melodeo Inc. Techniques for generating and applying playlists
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
US8150695B1 (en) * 2009-06-18 2012-04-03 Amazon Technologies, Inc. Presentation of written works based on character identities and attributes
JP5479823B2 (ja) * 2009-08-31 2014-04-23 ローランド株式会社 効果装置
JP5874639B2 (ja) * 2010-09-06 2016-03-02 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP5728913B2 (ja) * 2010-12-02 2015-06-03 ヤマハ株式会社 音声合成情報編集装置およびプログラム
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
US9542939B1 (en) * 2012-08-31 2017-01-10 Amazon Technologies, Inc. Duration ratio modeling for improved speech recognition
US9865251B2 (en) * 2015-07-21 2018-01-09 Asustek Computer Inc. Text-to-speech method and multi-lingual speech synthesizer using the method
CN109558853B (zh) * 2018-12-05 2021-05-25 维沃移动通信有限公司 一种音频合成方法及终端设备
CN113823259A (zh) * 2021-07-22 2021-12-21 腾讯科技(深圳)有限公司 将文本数据转换为音素序列的方法及设备
CN115883753A (zh) * 2022-11-04 2023-03-31 网易(杭州)网络有限公司 视频的生成方法、装置、计算设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
JPS5919358B2 (ja) * 1978-12-11 1984-05-04 株式会社日立製作所 音声内容伝送方式
FR2553555B1 (fr) * 1983-10-14 1986-04-11 Texas Instruments France Procede de codage de la parole et dispositif pour sa mise en oeuvre
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
JPS63285598A (ja) * 1987-05-18 1988-11-22 ケイディディ株式会社 音素接続形パラメ−タ規則合成方式
JPH031200A (ja) * 1989-05-29 1991-01-07 Nec Corp 規則型音声合成装置
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
DE69022237T2 (de) * 1990-10-16 1996-05-02 Ibm Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
JP3340585B2 (ja) * 1995-04-20 2002-11-05 富士通株式会社 音声応答装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000347681A (ja) * 1999-05-05 2000-12-15 Nokia Mobile Phones Ltd テキスト・ベースの音声合成を利用した音声制御システム用の再生方法
JP4602511B2 (ja) * 1999-05-05 2010-12-22 ノキア コーポレイション テキスト・ベースの音声合成を利用した音声制御システム用の再生方法
JP2008268477A (ja) * 2007-04-19 2008-11-06 Hitachi Business Solution Kk 韻律調整可能な音声合成装置
JP2008292587A (ja) * 2007-05-22 2008-12-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP2009122382A (ja) * 2007-11-14 2009-06-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
WO2010050103A1 (ja) * 2008-10-28 2010-05-06 日本電気株式会社 音声合成装置
JPWO2010050103A1 (ja) * 2008-10-28 2012-03-29 日本電気株式会社 音声合成装置
JP2016118722A (ja) * 2014-12-22 2016-06-30 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
JP2019074580A (ja) * 2017-10-13 2019-05-16 Kddi株式会社 音声認識方法、装置およびプログラム

Also Published As

Publication number Publication date
EP0831460B1 (en) 2003-02-26
DE69719270T2 (de) 2003-11-20
US5940797A (en) 1999-08-17
EP0831460A3 (en) 1998-11-25
DE69719270D1 (de) 2003-04-03
EP0831460A2 (en) 1998-03-25

Similar Documents

Publication Publication Date Title
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP4125362B2 (ja) 音声合成装置
JP5148026B1 (ja) 音声合成装置および音声合成方法
JP2003186379A (ja) 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム
JP2008107454A (ja) 音声合成装置
JP2006337667A (ja) 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
KR100710600B1 (ko) 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치
JP2844817B2 (ja) 発声練習用音声合成方式
JP2009133890A (ja) 音声合成装置及びその方法
JP4744338B2 (ja) 合成音声生成装置
JP2001242882A (ja) 音声合成方法及び音声合成装置
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JP2023007405A (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JPH08335096A (ja) テキスト音声合成装置
EP0982684A1 (en) Moving picture generating device and image control network learning device
JP3437064B2 (ja) 音声合成装置
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
JP3060276B2 (ja) 音声合成装置
JP3785892B2 (ja) 音声合成装置及び記録媒体
JP2001125599A (ja) 音声データ同期装置及び音声データ作成装置
JP3081300B2 (ja) 残差駆動型音声合成装置
JPH05224689A (ja) 音声合成装置
JP4260071B2 (ja) 音声合成方法、音声合成プログラム及び音声合成装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040302