JPH086591A - 音声出力装置 - Google Patents
音声出力装置Info
- Publication number
- JPH086591A JPH086591A JP6158141A JP15814194A JPH086591A JP H086591 A JPH086591 A JP H086591A JP 6158141 A JP6158141 A JP 6158141A JP 15814194 A JP15814194 A JP 15814194A JP H086591 A JPH086591 A JP H086591A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- component
- accent
- unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 claims abstract description 19
- 230000009467 reduction Effects 0.000 claims abstract description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 29
- 238000003786 synthesis reaction Methods 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000002194 synthesizing effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 241001417093 Moridae Species 0.000 description 4
- 235000016496 Panda oleosa Nutrition 0.000 description 4
- 240000000220 Panda oleosa Species 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 238000013016 damping Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000005316 response function Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【目的】本発明は、音声出力装置について、全体として
自然で分かりやすい合成音声を生成する。 【構成】基本周波数のフレーズ成分の減少特性を変化さ
せることにより当該フレーズ成分に対する2次線形系の
応答特性を制御して、フレーズ成分を算出する。これに
より、音声の内容の意味的な境界部分での基本周波数を
十分に減少させることができると共に、構文情報を厳密
に反映した音声を出力することができる。
自然で分かりやすい合成音声を生成する。 【構成】基本周波数のフレーズ成分の減少特性を変化さ
せることにより当該フレーズ成分に対する2次線形系の
応答特性を制御して、フレーズ成分を算出する。これに
より、音声の内容の意味的な境界部分での基本周波数を
十分に減少させることができると共に、構文情報を厳密
に反映した音声を出力することができる。
Description
【0001】
【目次】以下の順序で本発明を説明する。 産業上の利用分野 従来の技術(図6) 発明が解決しようとする課題(図7) 課題を解決するための手段(図1) 作用 実施例(図1〜図5) 発明の効果
【0002】
【産業上の利用分野】本発明は音声出力装置に関し、特
に規則合成方式による音声出力装置に適用して好適なも
のである。
に規則合成方式による音声出力装置に適用して好適なも
のである。
【0003】
【従来の技術】一般に音声の特徴は、主としてスペクト
ル包絡によつて表される分節的特徴と、主として基本周
波数の時間パターン(以下基本周波数パターンと呼ぶ)
によつて表される韻律的特徴との2つの特徴に大別する
ことができる。分節的特徴は局所的であり、例えば音節
などの小さな単位で音響的特徴を蓄積して接続する分析
合成によつて合成することができる。これに対して韻律
的特徴は文全体にわたる特徴であり、単語構成や文型な
どによつて多様に変換するため規則による合成が不可欠
となる。
ル包絡によつて表される分節的特徴と、主として基本周
波数の時間パターン(以下基本周波数パターンと呼ぶ)
によつて表される韻律的特徴との2つの特徴に大別する
ことができる。分節的特徴は局所的であり、例えば音節
などの小さな単位で音響的特徴を蓄積して接続する分析
合成によつて合成することができる。これに対して韻律
的特徴は文全体にわたる特徴であり、単語構成や文型な
どによつて多様に変換するため規則による合成が不可欠
となる。
【0004】韻律的特徴は主として声帯音源の基本周波
数、強度及び音素の持続時間等のパラメータによつて表
現される。韻律的特徴の主要な音響的表現としての声帯
音源の基本周波数は、単語アクセント、強調、イントネ
ーシヨン、構文等の言語学的情報を担うと同時にこれら
の情報が個人の声帯振動機構を介して実現される過程に
おいて、話者の個人性及び発話等の情緒などの非言語情
報も付与されている。しかしながら規則による合成の見
地からは、言語学的情報を基本周波数の時間的変化に変
換する過程を定量的に表現することが最も重要である。
数、強度及び音素の持続時間等のパラメータによつて表
現される。韻律的特徴の主要な音響的表現としての声帯
音源の基本周波数は、単語アクセント、強調、イントネ
ーシヨン、構文等の言語学的情報を担うと同時にこれら
の情報が個人の声帯振動機構を介して実現される過程に
おいて、話者の個人性及び発話等の情緒などの非言語情
報も付与されている。しかしながら規則による合成の見
地からは、言語学的情報を基本周波数の時間的変化に変
換する過程を定量的に表現することが最も重要である。
【0005】そこで上述の規則による合成に必要なの
は、入力記号列と、これらのパラメータの時間的変化の
パターンとの間の本質的な関係を簡潔かつ的確な法則に
よつて記述することである。しかしながら韻律的特徴の
合成に必要な記号はテキスト中には明示されていないた
め、単語のアクセント型、文の統語構造、文章の談話構
造などの言語学的情報を利用して導出する必要がある。
さらに韻律的特徴が連続的であるのに対し、対応する記
号は離散的であるので、音声合成のときには両者を関係
付けるモデルが必要となる。
は、入力記号列と、これらのパラメータの時間的変化の
パターンとの間の本質的な関係を簡潔かつ的確な法則に
よつて記述することである。しかしながら韻律的特徴の
合成に必要な記号はテキスト中には明示されていないた
め、単語のアクセント型、文の統語構造、文章の談話構
造などの言語学的情報を利用して導出する必要がある。
さらに韻律的特徴が連続的であるのに対し、対応する記
号は離散的であるので、音声合成のときには両者を関係
付けるモデルが必要となる。
【0006】ここで韻律情報の中で、イントネーシヨン
やアクセントが合成音を高品質化する上で特に重要であ
る。これには声の高さ(基本周波数)、強さ、長さ等が
関連するが、基本周波数がこれらを支配する直接的要因
である。図6に文音声の基本周波数パターンの表現方法
の一例を示す。これは基本周波数パターンを、文全体の
イントネーシヨンに対応するフレーズ成分と、個々の単
語及び音節に固有なパターンであるアクセント成分とを
重畳して表現したものである。(1985年、東海大学出版
「デイジタル音声処理」古井著)。
やアクセントが合成音を高品質化する上で特に重要であ
る。これには声の高さ(基本周波数)、強さ、長さ等が
関連するが、基本周波数がこれらを支配する直接的要因
である。図6に文音声の基本周波数パターンの表現方法
の一例を示す。これは基本周波数パターンを、文全体の
イントネーシヨンに対応するフレーズ成分と、個々の単
語及び音節に固有なパターンであるアクセント成分とを
重畳して表現したものである。(1985年、東海大学出版
「デイジタル音声処理」古井著)。
【0007】
【発明が解決しようとする課題】ところで音声出力装置
における基本周波数パターンの生成において、2次線形
系の応答を用いる例として、図7に示すような基本周波
数パターン生成モデル(広瀬、藤崎、河井、山口「基本
周波数パターン生成過程モデルに基づく文章音声の合
成」電子情報通信学会論文誌、 Vol.J72-A No.1 1989
年)があり、基本周波数パターンを制御する場合に一般
的に用いられている方法である。この生成方法では、基
本周波数パターンを生成するモデルとして、フレーズ成
分(イントネーシヨン成分)に対応してインパルス状の
指令(フレーズ指令)の臨界制動2次線形系の応答を用
い、アクセント成分に対応してステツプ状の指令(アク
セント指令)の臨界制動2次線形系の応答を用い、これ
らを重畳したものを基本周波数の時間パターンとして用
いている。
における基本周波数パターンの生成において、2次線形
系の応答を用いる例として、図7に示すような基本周波
数パターン生成モデル(広瀬、藤崎、河井、山口「基本
周波数パターン生成過程モデルに基づく文章音声の合
成」電子情報通信学会論文誌、 Vol.J72-A No.1 1989
年)があり、基本周波数パターンを制御する場合に一般
的に用いられている方法である。この生成方法では、基
本周波数パターンを生成するモデルとして、フレーズ成
分(イントネーシヨン成分)に対応してインパルス状の
指令(フレーズ指令)の臨界制動2次線形系の応答を用
い、アクセント成分に対応してステツプ状の指令(アク
セント指令)の臨界制動2次線形系の応答を用い、これ
らを重畳したものを基本周波数の時間パターンとして用
いている。
【0008】この場合、基本周波数をF0 とすると、基
本周波数は時間tの関数として次式
本周波数は時間tの関数として次式
【数1】 によつて表すことができる。ここでGpi(t)はフレー
ズ制御機構のインパルス応答関数、Gaj(t)はアクセ
ント制御機構のステツプ応答関数である。またApiはフ
レーズ指令の大きさ、Aajはアクセント指令の大きさ、
T0iはフレーズ指令の時点、T1j、T2jはアクセント指
令の始点と終点である。
ズ制御機構のインパルス応答関数、Gaj(t)はアクセ
ント制御機構のステツプ応答関数である。またApiはフ
レーズ指令の大きさ、Aajはアクセント指令の大きさ、
T0iはフレーズ指令の時点、T1j、T2jはアクセント指
令の始点と終点である。
【0009】ところが応答のモデルとして2次線形系を
用いる上述の生成方法では、臨界制動での応答に限定し
て用いているのでフレーズ成分の減少割合が一定であ
る。このため韻律句(フレーズ指令と次のフレーズ指令
で区切られる意味的にまとまつた句のことである)が短
い場合にはフレーズ成分が十分に減少せず、また韻律句
が長い場合には韻律句の終わりの方でフレーズ成分がほ
とんど変化しなくなる。従つて基本周波数の変化が少な
く、意味的な区切りが不明確になる場合が生ずるという
問題があつた。
用いる上述の生成方法では、臨界制動での応答に限定し
て用いているのでフレーズ成分の減少割合が一定であ
る。このため韻律句(フレーズ指令と次のフレーズ指令
で区切られる意味的にまとまつた句のことである)が短
い場合にはフレーズ成分が十分に減少せず、また韻律句
が長い場合には韻律句の終わりの方でフレーズ成分がほ
とんど変化しなくなる。従つて基本周波数の変化が少な
く、意味的な区切りが不明確になる場合が生ずるという
問題があつた。
【0010】本発明は以上の点を考慮してなされたもの
で、全体として自然で分かりやすい合成音声を生成し得
る音声出力装置を提案しようとするものである。
で、全体として自然で分かりやすい合成音声を生成し得
る音声出力装置を提案しようとするものである。
【0011】
【課題を解決するための手段】かかる課題を解決するた
め本発明においては、基本アクセント、強調、イントネ
ーシヨン、構文等の言語学的情報を担う音声の基本周波
数の時間変化パターンを、イントネーシヨンに対応する
フレーズ成分と基本アクセントに対応するアクセント成
分との和で表現し、フレーズ成分をインパルス状のフレ
ーズ指令、アクセント成分をステツプ状のアクセント指
令に対する2次線形系の応答で近似し、基本周波数の時
間変化パターンを対数軸上で表現する音声出力装置
(1)において、入力された文字の系列を解析して得ら
れた単語、文節の境界及び基本アクセントを蓄積する解
析情報蓄積部(3)と、基本周波数のフレーズ成分の減
少特性を変化させることにより当該フレーズ成分に対す
る2次線形系の応答特性を制御してフレーズ成分を算出
し、当該フレーズ成分に基づいて基本周波数の時間変化
パターンを生成する音声合成規則部(4)と、解析情報
蓄積部(3)の解析情報に基づき、所定の音韻規則に従
つて生成される合成波形データと基本周波数の時間変化
パターンとに基づいて、合成音を生成する音声合成部
(6)とを設けるようにした。
め本発明においては、基本アクセント、強調、イントネ
ーシヨン、構文等の言語学的情報を担う音声の基本周波
数の時間変化パターンを、イントネーシヨンに対応する
フレーズ成分と基本アクセントに対応するアクセント成
分との和で表現し、フレーズ成分をインパルス状のフレ
ーズ指令、アクセント成分をステツプ状のアクセント指
令に対する2次線形系の応答で近似し、基本周波数の時
間変化パターンを対数軸上で表現する音声出力装置
(1)において、入力された文字の系列を解析して得ら
れた単語、文節の境界及び基本アクセントを蓄積する解
析情報蓄積部(3)と、基本周波数のフレーズ成分の減
少特性を変化させることにより当該フレーズ成分に対す
る2次線形系の応答特性を制御してフレーズ成分を算出
し、当該フレーズ成分に基づいて基本周波数の時間変化
パターンを生成する音声合成規則部(4)と、解析情報
蓄積部(3)の解析情報に基づき、所定の音韻規則に従
つて生成される合成波形データと基本周波数の時間変化
パターンとに基づいて、合成音を生成する音声合成部
(6)とを設けるようにした。
【0012】
【作用】基本周波数のフレーズ成分の減少特性を変化さ
せることにより当該フレーズ成分に対する2次線形系の
応答特性を制御して、フレーズ成分を算出するようにし
たことにより、音声の内容の意味的な境界部分で基本周
波数を十分に減少させることができると共に構文構造を
厳密に反映した音声を出力し得るので、全体として自然
で分かりやすい合成音声を容易に生成することができ
る。
せることにより当該フレーズ成分に対する2次線形系の
応答特性を制御して、フレーズ成分を算出するようにし
たことにより、音声の内容の意味的な境界部分で基本周
波数を十分に減少させることができると共に構文構造を
厳密に反映した音声を出力し得るので、全体として自然
で分かりやすい合成音声を容易に生成することができ
る。
【0013】
【実施例】以下図面について、本発明の一実施例を詳述
する。
する。
【0014】図1において、1は全体として日本語テキ
スト音声出力装置の概略構成及び処理の流れを示し、フ
レーズ成分の減少特性を変化させることにより当該フレ
ーズ成分に対する2次線形系の応答を過制動、臨界制
動、不足制動と制御してフレーズ成分を算出し、当該フ
レーズ成分に基づいて基本周波数パターンを生成するこ
とにより、全体として自然で分かりやすい合成音声を生
成するようになされている。
スト音声出力装置の概略構成及び処理の流れを示し、フ
レーズ成分の減少特性を変化させることにより当該フレ
ーズ成分に対する2次線形系の応答を過制動、臨界制
動、不足制動と制御してフレーズ成分を算出し、当該フ
レーズ成分に基づいて基本周波数パターンを生成するこ
とにより、全体として自然で分かりやすい合成音声を生
成するようになされている。
【0015】図1に示すように、音声出力装置1は、漢
字仮名混じり文(テキスト)を入力する(例えば鍵盤装
置、光学的文字読取り装置(OCR)又は磁気デイスク
等でなる)入力部2、文章解析部3、音声合成規則部
4、音声単位を記録した音声単位記憶部5(例えばIC
メモリや磁気デイスク等の記憶装置)、音声合成部6及
び出力部7より構成されている。
字仮名混じり文(テキスト)を入力する(例えば鍵盤装
置、光学的文字読取り装置(OCR)又は磁気デイスク
等でなる)入力部2、文章解析部3、音声合成規則部
4、音声単位を記録した音声単位記憶部5(例えばIC
メモリや磁気デイスク等の記憶装置)、音声合成部6及
び出力部7より構成されている。
【0016】文章解析部3では、辞書検索部8におい
て、入力部2より入力された漢字仮名混じり文中に含ま
れる語を、形態素(単語)の基準となる単語の綴り及び
その付属情報(例えば、読み、品詞情報、アクセント
等)を記録した辞書9(例えばICメモリや磁気デイス
ク等の記憶装置)より検索した後、形態素解析部10に
よつて当該漢字仮名混じり文と辞書検索部8で検索され
た語群とより形態素に解析し、形態素解析部10からの
データに基づいて発音記号生成部11で発音記号列を生
成する。
て、入力部2より入力された漢字仮名混じり文中に含ま
れる語を、形態素(単語)の基準となる単語の綴り及び
その付属情報(例えば、読み、品詞情報、アクセント
等)を記録した辞書9(例えばICメモリや磁気デイス
ク等の記憶装置)より検索した後、形態素解析部10に
よつて当該漢字仮名混じり文と辞書検索部8で検索され
た語群とより形態素に解析し、形態素解析部10からの
データに基づいて発音記号生成部11で発音記号列を生
成する。
【0017】すなわち文章解析部3では、入力部2より
入力された漢字仮名混じり文を所定の辞書9を基準にし
て解析し、仮名文字列に変換した後、単語、文節毎に分
解する。ここで日本語においては、英語のように単語が
分かち書きされていないことから、例えば「米国産業
界」のような言葉は、「米国/産業・界」、「米/国産
/業界」のように2種類に区分化することができる。こ
のため文章解析部3は辞書9を参考にしながら、言葉の
連続関係及び単語の統計的性質を利用して、漢字仮名混
じり文を単語、文節毎に分解するようになされ、これに
より単語、文節の境界を検出する。さらに文章解析部3
は、各単語ごとに基本アクセントを検出した後、これら
を音声合成規則部4に出力する。
入力された漢字仮名混じり文を所定の辞書9を基準にし
て解析し、仮名文字列に変換した後、単語、文節毎に分
解する。ここで日本語においては、英語のように単語が
分かち書きされていないことから、例えば「米国産業
界」のような言葉は、「米国/産業・界」、「米/国産
/業界」のように2種類に区分化することができる。こ
のため文章解析部3は辞書9を参考にしながら、言葉の
連続関係及び単語の統計的性質を利用して、漢字仮名混
じり文を単語、文節毎に分解するようになされ、これに
より単語、文節の境界を検出する。さらに文章解析部3
は、各単語ごとに基本アクセントを検出した後、これら
を音声合成規則部4に出力する。
【0018】図2に示すように、音声合成規則部4は、
発話速度及び構文的情報抽出部12と、フレーズ指令生
成部13と、アクセント指令生成部14と、モーラ数及
び位置情報抽出部15と、フレーズ成分特性制御部16
と、アクセント成分特性制御部17と、フレーズ成分計
算部18と、アクセント成分計算部19と、フレーズ成
分及びアクセント成分重畳処理部20とによつて構成さ
れ、発音記号生成部11より得られるデータと、音声単
位記憶部5よりロードされる情報と、音声合成規則部4
に設定された所定の音韻規則及び韻律規則等より、音声
の合成波形パターンと基本周波数パターンとを得るよう
になされている。
発話速度及び構文的情報抽出部12と、フレーズ指令生
成部13と、アクセント指令生成部14と、モーラ数及
び位置情報抽出部15と、フレーズ成分特性制御部16
と、アクセント成分特性制御部17と、フレーズ成分計
算部18と、アクセント成分計算部19と、フレーズ成
分及びアクセント成分重畳処理部20とによつて構成さ
れ、発音記号生成部11より得られるデータと、音声単
位記憶部5よりロードされる情報と、音声合成規則部4
に設定された所定の音韻規則及び韻律規則等より、音声
の合成波形パターンと基本周波数パターンとを得るよう
になされている。
【0019】すなわち、まず発話速度及び構文的情報抽
出部12において、発音記号生成部11より入力された
情報より発話速度に関する情報と構文的情報とを抽出す
る。次にフレーズ指令生成部13において、この抽出さ
れた発話速度及び構文的情報に基づきフレーズ成分を制
御するフレーズ指令の位置及び大きさを生成し、アクセ
ント指令生成部14において、アクセント成分を制御す
るアクセント指令の位置及び大きさを生成する。次にモ
ーラ数及び位置情報抽出部15において、生成されたフ
レーズ指令の位置情報及びアクセント指令の位置情報よ
り、フレーズ成分を立て直す(成分が一度ゼロになつて
再び立ち上がる)間のモーラ数とフレーズ指令及びアク
セント指令の位置情報とを求める。
出部12において、発音記号生成部11より入力された
情報より発話速度に関する情報と構文的情報とを抽出す
る。次にフレーズ指令生成部13において、この抽出さ
れた発話速度及び構文的情報に基づきフレーズ成分を制
御するフレーズ指令の位置及び大きさを生成し、アクセ
ント指令生成部14において、アクセント成分を制御す
るアクセント指令の位置及び大きさを生成する。次にモ
ーラ数及び位置情報抽出部15において、生成されたフ
レーズ指令の位置情報及びアクセント指令の位置情報よ
り、フレーズ成分を立て直す(成分が一度ゼロになつて
再び立ち上がる)間のモーラ数とフレーズ指令及びアク
セント指令の位置情報とを求める。
【0020】以上の処理によつて得られた4つの情報、
すなわち発話速度、構文的情報、モーラ数並びにフレー
ズ指令及びアクセント指令の位置情報に基づいて、フレ
ーズ成分特性制御部16でフレーズ成分の減少特性、ア
クセント成分特性制御部17でアクセント成分の形状を
制御する。この結果を基にフレーズ成分計算部18でフ
レーズ成分を計算し、アクセント成分計算部19でアク
セント成分を計算する。
すなわち発話速度、構文的情報、モーラ数並びにフレー
ズ指令及びアクセント指令の位置情報に基づいて、フレ
ーズ成分特性制御部16でフレーズ成分の減少特性、ア
クセント成分特性制御部17でアクセント成分の形状を
制御する。この結果を基にフレーズ成分計算部18でフ
レーズ成分を計算し、アクセント成分計算部19でアク
セント成分を計算する。
【0021】ここで本発明の実施例では、フレーズ成分
計算部18でのフレーズ成分の算出に2次線形系のイン
パルス応答で近似するモデルを用いており、フレーズ成
分特性制御部16では、フレーズ成分を計算する際に必
要なフレーズ指令の時点、値などと共に減衰率の値を制
御するようになされている。フレーズ成分の算出モデル
に用いる2次線形系の減衰率(フレーズ成分の減少特性
の値)をδとすると、減衰率δは次式
計算部18でのフレーズ成分の算出に2次線形系のイン
パルス応答で近似するモデルを用いており、フレーズ成
分特性制御部16では、フレーズ成分を計算する際に必
要なフレーズ指令の時点、値などと共に減衰率の値を制
御するようになされている。フレーズ成分の算出モデル
に用いる2次線形系の減衰率(フレーズ成分の減少特性
の値)をδとすると、減衰率δは次式
【数2】 のように関数の形式で表すことができる。ここでaは出
力される音声の発話速度を示す変数、bはフレーズ成分
を立て直す間の文節数(モーラ数)を示す変数、cは出
力される音声の構文的情報を示す変数、dは出力される
文及び文章中でのフレーズ成分の位置情報を示す変数で
ある。この関数fの具体的な係数は、予め用意された音
声データより、統計的手法及び場合分け手法を用いるこ
とによつて算出することができる。
力される音声の発話速度を示す変数、bはフレーズ成分
を立て直す間の文節数(モーラ数)を示す変数、cは出
力される音声の構文的情報を示す変数、dは出力される
文及び文章中でのフレーズ成分の位置情報を示す変数で
ある。この関数fの具体的な係数は、予め用意された音
声データより、統計的手法及び場合分け手法を用いるこ
とによつて算出することができる。
【0022】このように表現された関数fを用いて、フ
レーズ成分を算出する際に用いる個々のフレーズ指令の
指令ごとにδを決定し、この結果に基づいてフレーズ成
分計算部18でそれぞれの成分を計算する。これによ
り、正確で分かりやすい音声を出力するための基本周波
数パターンを算出することができる。最後にフレーズ成
分及びアクセント成分重畳処理部20において、フレー
ズ成分計算部18で算出されたフレーズ成分とアクセン
ト成分計算部19で算出されたアクセント成分とを重畳
することにより、基本周波数パターンを生成する。
レーズ成分を算出する際に用いる個々のフレーズ指令の
指令ごとにδを決定し、この結果に基づいてフレーズ成
分計算部18でそれぞれの成分を計算する。これによ
り、正確で分かりやすい音声を出力するための基本周波
数パターンを算出することができる。最後にフレーズ成
分及びアクセント成分重畳処理部20において、フレー
ズ成分計算部18で算出されたフレーズ成分とアクセン
ト成分計算部19で算出されたアクセント成分とを重畳
することにより、基本周波数パターンを生成する。
【0023】また音声合成規則部4は、日本語の特徴に
基づいて設定された所定の音韻規則に従つて、文章解析
部3の検出結果及びテキスト入力を処理するようになさ
れている。すなわちこの音韻規則に従つてテキスト入力
を音声単位記号列に変換する。さらに音声合成規則部4
は、当該音韻記号列に基づいて音声単位記憶部5より各
音韻単位のデータをロードする。
基づいて設定された所定の音韻規則に従つて、文章解析
部3の検出結果及びテキスト入力を処理するようになさ
れている。すなわちこの音韻規則に従つてテキスト入力
を音声単位記号列に変換する。さらに音声合成規則部4
は、当該音韻記号列に基づいて音声単位記憶部5より各
音韻単位のデータをロードする。
【0024】ここで音声出力装置1においては、音声単
位記憶部5からロードされるデータは、各CV(子音母
音)単位で表される合成音を生成する際に用いられる波
形データでなる。この波形合成に用いられる音声単位デ
ータは以下のような構成よりなる。音声単位データの有
性部分には、複素ケプストラム分析手法によつて抽出さ
れた1ピツチに対応するインパルスと単位応答の両者を
1つの組合せとして、音声単位有声部分に必要なフレー
ム数だけの組合せを有声部分のデータとして蓄え、音声
単位の無声部分においては、実音声の無声部分をそのま
ま切り出してデータとして蓄えている。
位記憶部5からロードされるデータは、各CV(子音母
音)単位で表される合成音を生成する際に用いられる波
形データでなる。この波形合成に用いられる音声単位デ
ータは以下のような構成よりなる。音声単位データの有
性部分には、複素ケプストラム分析手法によつて抽出さ
れた1ピツチに対応するインパルスと単位応答の両者を
1つの組合せとして、音声単位有声部分に必要なフレー
ム数だけの組合せを有声部分のデータとして蓄え、音声
単位の無声部分においては、実音声の無声部分をそのま
ま切り出してデータとして蓄えている。
【0025】従つて音声単位データがCV単位である場
合には、1つの音声単位CVの子音部Cが無声子音であ
るときには無声部分の切り出し波形と、インパルスと、
単位応答波形とよりなる複数組によつて1つの音声単位
データが構成される。また1つの音声単位CVの子音部
Cが有声子音であるときにはインパルスと単位応答波形
とよりなる複数組のみによつて1つの音声単位データが
構成されることとなる。
合には、1つの音声単位CVの子音部Cが無声子音であ
るときには無声部分の切り出し波形と、インパルスと、
単位応答波形とよりなる複数組によつて1つの音声単位
データが構成される。また1つの音声単位CVの子音部
Cが有声子音であるときにはインパルスと単位応答波形
とよりなる複数組のみによつて1つの音声単位データが
構成されることとなる。
【0026】ここで複素ケプストラム分析は、実音声の
分析合成において高品質なピツチ変換法、発話速度変換
法として既知の分析手法であり、この音声の分析合成に
おいて有益な分析手法を任意文発声の規則合成に用いる
ようになされている。このように構成されている音声単
位データを音声合成規則部4は音声単位記憶部5よりロ
ードし、テキスト入力に応じた順序で合成し、かくして
抑揚の無い状態でテキスト入力を読み上げた合成音声波
形を得ることができる。
分析合成において高品質なピツチ変換法、発話速度変換
法として既知の分析手法であり、この音声の分析合成に
おいて有益な分析手法を任意文発声の規則合成に用いる
ようになされている。このように構成されている音声単
位データを音声合成規則部4は音声単位記憶部5よりロ
ードし、テキスト入力に応じた順序で合成し、かくして
抑揚の無い状態でテキスト入力を読み上げた合成音声波
形を得ることができる。
【0027】次に音声合成部6は、音声の合成波形パタ
ーンと基本周波数パターンとに基づいて波形合成処理を
行つて合成音を生成する。この波形合成処理は、次のよ
うなことを行つている。すなわち有声部分においては、
合成波形データ内のインパルスを基本周波数パターンに
基づいて並べ、この並べられたインパルスそれぞれに対
応する単位応答波形を各インパルスに重畳する。
ーンと基本周波数パターンとに基づいて波形合成処理を
行つて合成音を生成する。この波形合成処理は、次のよ
うなことを行つている。すなわち有声部分においては、
合成波形データ内のインパルスを基本周波数パターンに
基づいて並べ、この並べられたインパルスそれぞれに対
応する単位応答波形を各インパルスに重畳する。
【0028】また合成音声の無声部分においては、合成
波形データ内の切り出し波形をそのまま所望の合成音の
波形とする。これにより基本周波数パターンの変換に追
従して抑揚の変化する合成音を得ることができる。従つ
て合成音において音源情報にインパルスを用いているた
め、合成音のピツチ周期が伸縮してもそれによる音源情
報への影響はほとんどなく、基本周波数パターンが大き
く変化するような場合でもスペクトル包絡に歪みが生ず
ることなく、人間の音声に近い高品質な任意合成音が得
られる。このような波形合成処理によつて得られた合成
音は出力部7(例えばスピーカや磁気デイスク等)より
出力される。
波形データ内の切り出し波形をそのまま所望の合成音の
波形とする。これにより基本周波数パターンの変換に追
従して抑揚の変化する合成音を得ることができる。従つ
て合成音において音源情報にインパルスを用いているた
め、合成音のピツチ周期が伸縮してもそれによる音源情
報への影響はほとんどなく、基本周波数パターンが大き
く変化するような場合でもスペクトル包絡に歪みが生ず
ることなく、人間の音声に近い高品質な任意合成音が得
られる。このような波形合成処理によつて得られた合成
音は出力部7(例えばスピーカや磁気デイスク等)より
出力される。
【0029】以上の構成において、日本語テキスト音声
出力装置1に、例えばテキスト「自然の研究者は自然を
ねじ伏せようとしてはいけない。」が入力された場合、
入力テキストは文章解析部3で、辞書8を基準にして解
析され、単語、文節の境界及び基本アクセントが検出さ
れ、発音記号列が生成される。
出力装置1に、例えばテキスト「自然の研究者は自然を
ねじ伏せようとしてはいけない。」が入力された場合、
入力テキストは文章解析部3で、辞書8を基準にして解
析され、単語、文節の境界及び基本アクセントが検出さ
れ、発音記号列が生成される。
【0030】次に音声合成規則部4の発話速度及び構文
的情報抽出部12において、発音記号生成部11から入
力された情報より、図3に示すような発話速度及び構文
的情報を抽出する。すなわち発話速度として8〔モーラ
/秒〕の情報が抽出され、構文的情報として主部が「自
然の研究者は」、述部が「自然をねじ伏せようとしては
いけない」が抽出される。次にフレーズ指令生成部13
及びアクセント指令生成部14では、これらの情報に基
づいて図4に示すうようにフレーズ指令及びアクセント
指令の位置と大きさとを決める。
的情報抽出部12において、発音記号生成部11から入
力された情報より、図3に示すような発話速度及び構文
的情報を抽出する。すなわち発話速度として8〔モーラ
/秒〕の情報が抽出され、構文的情報として主部が「自
然の研究者は」、述部が「自然をねじ伏せようとしては
いけない」が抽出される。次にフレーズ指令生成部13
及びアクセント指令生成部14では、これらの情報に基
づいて図4に示すうようにフレーズ指令及びアクセント
指令の位置と大きさとを決める。
【0031】すなわち「↑し`ぜんの´け`んきゆ´う
しやは↑し`ぜんを´ね`じふせ´ようとしてはい`け
ない´↓」のようにフレーズ及びアクセントの位置と大
きさとを指定する。ここで「↑」、「↓」はフレーズ指
令、「`」、「´」はアクセント指令を示す。
しやは↑し`ぜんを´ね`じふせ´ようとしてはい`け
ない´↓」のようにフレーズ及びアクセントの位置と大
きさとを指定する。ここで「↑」、「↓」はフレーズ指
令、「`」、「´」はアクセント指令を示す。
【0032】次にモーラ数及び位置情報抽出部15にお
いて、これらの情報より図5に示すような出力を得る。
すなわちモーラ数の情報として、フレーズ指令1〜2の
間にはモーラが10個置かれ、フレーズ2〜3の間にはモ
ーラが18個置かれているという情報である。またフレー
ズ指令及びアクセント指令の位置情報として、フレーズ
指令1はテキストの先頭に、すなわちモーラ数はゼロで
あり、フレーズ指令2はテキストの先頭から10番目のモ
ーラの後に、フレーズ指令3はテキストの先頭より28番
目のモーラの後に置かれているという情報である。同様
にアクセント指令1はテキストの先頭より1モーラから
4モーラ、アクセント指令2は先頭より5モーラから7
モーラ、アクセント指令3は先頭より11モーラから14モ
ーラ、アクセント指令4は先頭より15モーラから18モー
ラ、アクセント指令5は先頭より25モーラから28モーラ
に置かれているという情報である。
いて、これらの情報より図5に示すような出力を得る。
すなわちモーラ数の情報として、フレーズ指令1〜2の
間にはモーラが10個置かれ、フレーズ2〜3の間にはモ
ーラが18個置かれているという情報である。またフレー
ズ指令及びアクセント指令の位置情報として、フレーズ
指令1はテキストの先頭に、すなわちモーラ数はゼロで
あり、フレーズ指令2はテキストの先頭から10番目のモ
ーラの後に、フレーズ指令3はテキストの先頭より28番
目のモーラの後に置かれているという情報である。同様
にアクセント指令1はテキストの先頭より1モーラから
4モーラ、アクセント指令2は先頭より5モーラから7
モーラ、アクセント指令3は先頭より11モーラから14モ
ーラ、アクセント指令4は先頭より15モーラから18モー
ラ、アクセント指令5は先頭より25モーラから28モーラ
に置かれているという情報である。
【0033】続いてフレーズ成分特性制御部16におい
て、上述の4つの情報、すなわち発話速度、構文的情
報、モーラ数、フレーズ指令の位置情報を用いて、フレ
ーズ指令の時点、大きさと共に減衰率の値を、予め求め
た関数fに従つて求め、この値に基づいてフレーズ成分
計算部18でフレーズ成分が算出される。この算出され
たフレーズ成分とアクセント成分特性制御部17及びア
クセント成分計算部19で算出されたアクセント成分と
をフレーズ成分及びアクセント成分重畳処理部20で足
し合わせて所望の基本周波数パターンを生成する。また
音声合成規則部4では、所定の音韻規則に従つて、抑揚
のない状態でテキスト入力を読み上げた音声を表す合成
波形データが生成される。この合成波形データは、基本
周波数パターンと共に音声合成部6に出力され、ここで
合成波形データ及び基本周波数パターンに基づいて合成
音が生成され、出力部7より出力される。
て、上述の4つの情報、すなわち発話速度、構文的情
報、モーラ数、フレーズ指令の位置情報を用いて、フレ
ーズ指令の時点、大きさと共に減衰率の値を、予め求め
た関数fに従つて求め、この値に基づいてフレーズ成分
計算部18でフレーズ成分が算出される。この算出され
たフレーズ成分とアクセント成分特性制御部17及びア
クセント成分計算部19で算出されたアクセント成分と
をフレーズ成分及びアクセント成分重畳処理部20で足
し合わせて所望の基本周波数パターンを生成する。また
音声合成規則部4では、所定の音韻規則に従つて、抑揚
のない状態でテキスト入力を読み上げた音声を表す合成
波形データが生成される。この合成波形データは、基本
周波数パターンと共に音声合成部6に出力され、ここで
合成波形データ及び基本周波数パターンに基づいて合成
音が生成され、出力部7より出力される。
【0034】以上の構成によれば、発話速度、構文的情
報、フレーズ成分を立て直す間のモーラ数及びフレーズ
指令の位置情報の4つの情報に基づいて、フレーズ成分
を算出する際に用いられる個々のフレーズ指令の指令ご
とに、基本周波数のフレーズ成分の減少特性を決定する
ようにしたことにより、韻律句が短い場合には意味的な
区切れの部分で十分に基本周波数を減少させることがで
きると共に、韻律句が長い場合には韻律句全体にわたつ
てフレーズ成分の減少特性を制御することができ、かく
して全体として自然で分かりやすい合成音声を生成する
ことができる。
報、フレーズ成分を立て直す間のモーラ数及びフレーズ
指令の位置情報の4つの情報に基づいて、フレーズ成分
を算出する際に用いられる個々のフレーズ指令の指令ご
とに、基本周波数のフレーズ成分の減少特性を決定する
ようにしたことにより、韻律句が短い場合には意味的な
区切れの部分で十分に基本周波数を減少させることがで
きると共に、韻律句が長い場合には韻律句全体にわたつ
てフレーズ成分の減少特性を制御することができ、かく
して全体として自然で分かりやすい合成音声を生成する
ことができる。
【0035】なお上述の実施例においては、音声単位記
憶部5において音声単位データをCV単位で保持してい
るが、本発明はこれに限らず、CVC単位等の他の音声
単位データで保持してもよい。
憶部5において音声単位データをCV単位で保持してい
るが、本発明はこれに限らず、CVC単位等の他の音声
単位データで保持してもよい。
【0036】また上述の実施例においては、本発明の実
施例を音声出力装置1に適用した場合について述べた
が、本発明はこれに限らず、音声信号の高能率符号化に
おける復号装置や、音声の圧縮伝送における復元装置等
の音声出力装置にも適用し得、一段と的確に文の内容を
聴取者に伝えることができる。
施例を音声出力装置1に適用した場合について述べた
が、本発明はこれに限らず、音声信号の高能率符号化に
おける復号装置や、音声の圧縮伝送における復元装置等
の音声出力装置にも適用し得、一段と的確に文の内容を
聴取者に伝えることができる。
【0037】
【発明の効果】上述のように本発明によれば、基本周波
数のフレーズ成分の減少特性を変化させることにより当
該フレーズ成分に対する2次線形系の応答特性を制御し
て、フレーズ成分を算出するようにしたことにより、音
声の内容の意味的な境界部分で基本周波数を十分に減少
させることができると共に構文構造を厳密に反映した音
声を出力し得るので、全体として自然で分かりやすい合
成音声を容易に生成することができる。
数のフレーズ成分の減少特性を変化させることにより当
該フレーズ成分に対する2次線形系の応答特性を制御し
て、フレーズ成分を算出するようにしたことにより、音
声の内容の意味的な境界部分で基本周波数を十分に減少
させることができると共に構文構造を厳密に反映した音
声を出力し得るので、全体として自然で分かりやすい合
成音声を容易に生成することができる。
【図1】本発明の実施例による日本語テキスト音声出力
装置の概略構成及び処理の流れを示すブロツク図であ
る。
装置の概略構成及び処理の流れを示すブロツク図であ
る。
【図2】本発明の実施例による日本語テキスト音声出力
装置の音声合成規則部の構成及び処理の流れを示すブロ
ツク図である。
装置の音声合成規則部の構成及び処理の流れを示すブロ
ツク図である。
【図3】音声合成規則部の発話速度及び構文的情報抽出
部より得られる発話速度及び構文的情報の一例の説明に
供する略線図である。
部より得られる発話速度及び構文的情報の一例の説明に
供する略線図である。
【図4】音声合成規則部のフレーズ指令生成部及びアク
セント指令生成部より得られるフレーズ指令及びアクセ
ント指令の一例の説明に供する略線図である。
セント指令生成部より得られるフレーズ指令及びアクセ
ント指令の一例の説明に供する略線図である。
【図5】音声合成規則部のモーラ数及び位置情報抽出部
より得られるモーラ数とフレーズ指令及びアクセント指
令の位置情報との一例の説明に供する略線図である。
より得られるモーラ数とフレーズ指令及びアクセント指
令の位置情報との一例の説明に供する略線図である。
【図6】基本周波数パターンの表現方法を示す略線図で
ある。
ある。
【図7】基本周波数パターン生成過程のモデルを示すブ
ロツク図である。
ロツク図である。
1……音声出力装置、2……入力部、3……文章解析
部、4……音声合成規則部、5……音声単位記憶部、6
……音声合成部、7……出力部、8……辞書検索部、9
……辞書、10……形態素解析部、11……発音記号生
成部、12……発話速度及び構文的情報抽出部、13…
…フレーズ指令生成部、14……アクセント指令生成
部、15……モーラ数及び位置情報抽出部、16……フ
レーズ成分特性制御部、17……アクセント成分特性制
御部、18……フレーズ成分計算部、19……アクセン
ト成分計算部、20……フレーズ成分及びアクセント成
分重畳処理部。
部、4……音声合成規則部、5……音声単位記憶部、6
……音声合成部、7……出力部、8……辞書検索部、9
……辞書、10……形態素解析部、11……発音記号生
成部、12……発話速度及び構文的情報抽出部、13…
…フレーズ指令生成部、14……アクセント指令生成
部、15……モーラ数及び位置情報抽出部、16……フ
レーズ成分特性制御部、17……アクセント成分特性制
御部、18……フレーズ成分計算部、19……アクセン
ト成分計算部、20……フレーズ成分及びアクセント成
分重畳処理部。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 3/00 H
Claims (2)
- 【請求項1】基本アクセント、強調、イントネーシヨ
ン、構文等の言語学的情報を担う音声の基本周波数の時
間変化パターンを、上記イントネーシヨンに対応するフ
レーズ成分と上記基本アクセントに対応するアクセント
成分との和で表現し、上記フレーズ成分をインパルス状
のフレーズ指令、上記アクセント成分をステツプ状のア
クセント指令に対する2次線形系の応答で近似し、上記
基本周波数の時間変化パターンを対数軸上で表現する音
声出力装置において、 入力された文字の系列を解析して得られた単語、文節の
境界及び基本アクセントを蓄積する解析情報蓄積部と、 上記基本周波数のフレーズ成分の減少特性を変化させる
ことにより当該フレーズ成分に対する2次線形系の応答
特性を制御してフレーズ成分を算出し、当該フレーズ成
分に基づいて上記基本周波数の時間変化パターンを生成
する音声合成規則部と、 上記解析情報蓄積部の解析情報に基づき、所定の音韻規
則に従つて生成される合成波形データと上記基本周波数
の時間変化パターンとに基づいて、合成音を生成する音
声合成部とを具えることを特徴とする音声出力装置。 - 【請求項2】上記音声合成規則部は、 出力される音声の発話速度を検出する発話速度抽出部
と、 上記出力される音声の構文的情報を検出する構文的情報
抽出部と、 上記フレーズ成分を立て直す間の文節数を検出する文節
数抽出部と、 出力される文章中でのフレーズ指令の位置情報を検出す
る位置情報抽出部と上記発話速度、構文的情報、文節数
及びフレーズ指令の位置情報に基づいて上記フレーズ成
分の減少特性を制御して当該フレーズ成分を算出するフ
レーズ成分特性制御部とを具えることを特徴とする請求
項1に記載の音声出力装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6158141A JPH086591A (ja) | 1994-06-15 | 1994-06-15 | 音声出力装置 |
US08/489,316 US5758320A (en) | 1994-06-15 | 1995-06-12 | Method and apparatus for text-to-voice audio output with accent control and improved phrase control |
EP95304166A EP0688011B1 (en) | 1994-06-15 | 1995-06-15 | Audio output unit and method thereof |
DE69506037T DE69506037T2 (de) | 1994-06-15 | 1995-06-15 | Audioausgabeeinheit und Methode |
KR1019950015850A KR970037209A (ko) | 1994-06-15 | 1995-06-15 | 음성 출력 장치(speech synthsizer) |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6158141A JPH086591A (ja) | 1994-06-15 | 1994-06-15 | 音声出力装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH086591A true JPH086591A (ja) | 1996-01-12 |
Family
ID=15665168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6158141A Pending JPH086591A (ja) | 1994-06-15 | 1994-06-15 | 音声出力装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5758320A (ja) |
EP (1) | EP0688011B1 (ja) |
JP (1) | JPH086591A (ja) |
KR (1) | KR970037209A (ja) |
DE (1) | DE69506037T2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997036286A1 (fr) * | 1996-03-25 | 1997-10-02 | Arcadia, Inc. | Generateur de source de sons, synthetiseur vocal et procede de synthese vocale |
KR100434526B1 (ko) * | 1997-06-12 | 2004-09-04 | 삼성전자주식회사 | 문맥정보및지역적문서형태를이용한문장추출방법 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09231224A (ja) * | 1996-02-26 | 1997-09-05 | Fuji Xerox Co Ltd | 言語情報処理装置 |
US5953392A (en) * | 1996-03-01 | 1999-09-14 | Netphonic Communications, Inc. | Method and apparatus for telephonically accessing and navigating the internet |
JPH1039895A (ja) * | 1996-07-25 | 1998-02-13 | Matsushita Electric Ind Co Ltd | 音声合成方法および装置 |
US5918206A (en) * | 1996-12-02 | 1999-06-29 | Microsoft Corporation | Audibly outputting multi-byte characters to a visually-impaired user |
US6411931B1 (en) * | 1997-08-08 | 2002-06-25 | Sony Corporation | Character data transformer and transforming method |
KR100238189B1 (ko) * | 1997-10-16 | 2000-01-15 | 윤종용 | 다중 언어 tts장치 및 다중 언어 tts 처리 방법 |
JP3576840B2 (ja) * | 1997-11-28 | 2004-10-13 | 松下電器産業株式会社 | 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体 |
JPH11265195A (ja) * | 1998-01-14 | 1999-09-28 | Sony Corp | 情報配信システム、情報送信装置、情報受信装置、情報配信方法 |
US6101470A (en) * | 1998-05-26 | 2000-08-08 | International Business Machines Corporation | Methods for generating pitch and duration contours in a text to speech system |
JP2000305585A (ja) * | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
US6622121B1 (en) | 1999-08-20 | 2003-09-16 | International Business Machines Corporation | Testing speech recognition systems using test data generated by text-to-speech conversion |
JP3450237B2 (ja) * | 1999-10-06 | 2003-09-22 | 株式会社アルカディア | 音声合成装置および方法 |
JP2001293247A (ja) * | 2000-02-07 | 2001-10-23 | Sony Computer Entertainment Inc | ゲーム制御方法 |
US7096185B2 (en) | 2000-03-31 | 2006-08-22 | United Video Properties, Inc. | User speech interfaces for interactive media guidance applications |
US8949902B1 (en) | 2001-02-06 | 2015-02-03 | Rovi Guides, Inc. | Systems and methods for providing audio-based guidance |
US7020663B2 (en) * | 2001-05-30 | 2006-03-28 | George M. Hay | System and method for the delivery of electronic books |
KR20030006308A (ko) * | 2001-07-12 | 2003-01-23 | 엘지전자 주식회사 | 이동통신 단말기의 음성 변조 장치 및 방법 |
US7646675B1 (en) | 2006-09-19 | 2010-01-12 | Mcgonegal Ralph | Underwater recognition system including speech output signal |
JP2008134475A (ja) * | 2006-11-28 | 2008-06-12 | Internatl Business Mach Corp <Ibm> | 入力された音声のアクセントを認識する技術 |
CN101606190B (zh) * | 2007-02-19 | 2012-01-18 | 松下电器产业株式会社 | 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法 |
JP2009042509A (ja) * | 2007-08-09 | 2009-02-26 | Toshiba Corp | アクセント情報抽出装置及びその方法 |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
WO2009044525A1 (ja) * | 2007-10-01 | 2009-04-09 | Panasonic Corporation | 音声強調装置および音声強調方法 |
US20110078572A1 (en) * | 2009-09-30 | 2011-03-31 | Rovi Technologies Corporation | Systems and methods for analyzing clickstream data |
CN102203853B (zh) * | 2010-01-04 | 2013-02-27 | 株式会社东芝 | 合成语音的方法和装置 |
US9570066B2 (en) * | 2012-07-16 | 2017-02-14 | General Motors Llc | Sender-responsive text-to-speech processing |
GB2508417B (en) * | 2012-11-30 | 2017-02-08 | Toshiba Res Europe Ltd | A speech processing system |
JP6234134B2 (ja) * | 2013-09-25 | 2017-11-22 | 三菱電機株式会社 | 音声合成装置 |
US9215510B2 (en) | 2013-12-06 | 2015-12-15 | Rovi Guides, Inc. | Systems and methods for automatically tagging a media asset based on verbal input and playback adjustments |
US11003417B2 (en) * | 2016-12-15 | 2021-05-11 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus with activation word based on operating environment of the apparatus |
US10431201B1 (en) | 2018-03-20 | 2019-10-01 | International Business Machines Corporation | Analyzing messages with typographic errors due to phonemic spellings using text-to-speech and speech-to-text algorithms |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
US4797930A (en) * | 1983-11-03 | 1989-01-10 | Texas Instruments Incorporated | constructed syllable pitch patterns from phonological linguistic unit string data |
US4695962A (en) * | 1983-11-03 | 1987-09-22 | Texas Instruments Incorporated | Speaking apparatus having differing speech modes for word and phrase synthesis |
JP2623586B2 (ja) * | 1987-07-31 | 1997-06-25 | 国際電信電話株式会社 | 音声合成におけるピッチ制御方式 |
JP3070127B2 (ja) * | 1991-05-07 | 2000-07-24 | 株式会社明電舎 | 音声合成装置のアクセント成分制御方式 |
US5475796A (en) * | 1991-12-20 | 1995-12-12 | Nec Corporation | Pitch pattern generation apparatus |
US5572625A (en) * | 1993-10-22 | 1996-11-05 | Cornell Research Foundation, Inc. | Method for generating audio renderings of digitized works having highly technical content |
-
1994
- 1994-06-15 JP JP6158141A patent/JPH086591A/ja active Pending
-
1995
- 1995-06-12 US US08/489,316 patent/US5758320A/en not_active Expired - Fee Related
- 1995-06-15 KR KR1019950015850A patent/KR970037209A/ko not_active Application Discontinuation
- 1995-06-15 EP EP95304166A patent/EP0688011B1/en not_active Expired - Lifetime
- 1995-06-15 DE DE69506037T patent/DE69506037T2/de not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997036286A1 (fr) * | 1996-03-25 | 1997-10-02 | Arcadia, Inc. | Generateur de source de sons, synthetiseur vocal et procede de synthese vocale |
KR100434526B1 (ko) * | 1997-06-12 | 2004-09-04 | 삼성전자주식회사 | 문맥정보및지역적문서형태를이용한문장추출방법 |
Also Published As
Publication number | Publication date |
---|---|
EP0688011B1 (en) | 1998-11-18 |
US5758320A (en) | 1998-05-26 |
EP0688011A1 (en) | 1995-12-20 |
DE69506037T2 (de) | 1999-06-10 |
KR970037209A (ko) | 1997-07-22 |
DE69506037D1 (de) | 1998-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH086591A (ja) | 音声出力装置 | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
US6470316B1 (en) | Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing | |
Mandal et al. | Analysis and synthesis of F0 contours for Bangla readout speech | |
Chettri et al. | Nepali text to speech synthesis system using ESNOLA method of concatenation | |
Khalil et al. | Arabic speech synthesis based on HMM | |
JPH0962286A (ja) | 音声合成装置および音声合成方法 | |
JP3397406B2 (ja) | 音声合成装置及び音声合成方法 | |
JPH05134691A (ja) | 音声合成方法および装置 | |
JP3031691B2 (ja) | 音声規則合成装置 | |
Datta et al. | Epoch Synchronous Overlap Add (ESOLA) | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
Ananthi et al. | Syllable based concatenative synthesis for text to speech conversion | |
JPH07121191A (ja) | 音声出力装置 | |
Khalifa et al. | SMaTalk: Standard malay text to speech talk system | |
JPH08160983A (ja) | 音声合成装置 | |
JPH06214585A (ja) | 音声合成装置 | |
JP2888847B2 (ja) | 文章読み上げ装置とその方法及び言語処理装置とその方法 | |
Deng et al. | Speech Synthesis | |
Khalifa et al. | SMaTTS: Standard malay text to speech system | |
Bernstein | Speech synthesis: System design and applications | |
JPH06138894A (ja) | 音声合成装置及び音声合成方法 | |
JPH0756591A (ja) | 音声合成装置、音声合成方法及び記録媒体 | |
JPH08160990A (ja) | 音声合成装置 | |
KUMAR | A STUDY ON MULTI-LINGUAL AND CROSS-LINGUAL SPEECH SYNTHESIS FOR INDIAN LANGAUGES |