JP2886747B2 - 音声合成装置 - Google Patents
音声合成装置Info
- Publication number
- JP2886747B2 JP2886747B2 JP4244645A JP24464592A JP2886747B2 JP 2886747 B2 JP2886747 B2 JP 2886747B2 JP 4244645 A JP4244645 A JP 4244645A JP 24464592 A JP24464592 A JP 24464592A JP 2886747 B2 JP2886747 B2 JP 2886747B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- voice
- prosody
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【0001】
【産業上の利用分野】この発明は音声合成装置に関し、
特に、音韻や音節などからなる音声の単位のセットから
適切な音声単位を選択し、それらを連結することにより
音声を出力するような音声合成装置に関する。
特に、音韻や音節などからなる音声の単位のセットから
適切な音声単位を選択し、それらを連結することにより
音声を出力するような音声合成装置に関する。
【0002】
【従来の技術】音声合成装置において、より人間に近い
自然な合成音声を出力するためには、音声の合成単位を
適切に選択する必要がある。そのような単位選択法とし
て、たとえば、武田,安部,匂坂などが発表した「選択
的に合成単位を用いる規則音声合成」電子情報通信学会
論文誌D−II No.12 1945頁〜1951
頁,1992年12月や、広川,箱田,佐藤などが発表
した「波形編集型方性方式におけるスペクトル連続性を
考慮した波形選択法」日本音響学会平成2年度秋季研究
発表会講演論文集1990年9月などがあり、これらの
発表では、音声単位間において、スペクトルが滑らかに
変化するよう音声単位間の接続を行なうことにより、合
成音声の品質の向上が可能であることが示されている。
自然な合成音声を出力するためには、音声の合成単位を
適切に選択する必要がある。そのような単位選択法とし
て、たとえば、武田,安部,匂坂などが発表した「選択
的に合成単位を用いる規則音声合成」電子情報通信学会
論文誌D−II No.12 1945頁〜1951
頁,1992年12月や、広川,箱田,佐藤などが発表
した「波形編集型方性方式におけるスペクトル連続性を
考慮した波形選択法」日本音響学会平成2年度秋季研究
発表会講演論文集1990年9月などがあり、これらの
発表では、音声単位間において、スペクトルが滑らかに
変化するよう音声単位間の接続を行なうことにより、合
成音声の品質の向上が可能であることが示されている。
【0003】
【発明が解決しようとする課題】しかしながら、前述の
単位選択法では、膨大なデータ容量(200メガバイド
以上)からなる非常に多くの音声単位を含む音声単位セ
ットを用いており、音声合成装置の実用上、この音声単
位セット中に含まれる音声単位セットの数を減らすこと
が望まれる。音声単位セット中の音声単位の数を適切な
操作を用いないで、経験的に減らすと、出力である合成
音声の品質が劣化してしまう。
単位選択法では、膨大なデータ容量(200メガバイド
以上)からなる非常に多くの音声単位を含む音声単位セ
ットを用いており、音声合成装置の実用上、この音声単
位セット中に含まれる音声単位セットの数を減らすこと
が望まれる。音声単位セット中の音声単位の数を適切な
操作を用いないで、経験的に減らすと、出力である合成
音声の品質が劣化してしまう。
【0004】小さな装置構成で音声合成装置を実現する
場合、出力の合成音声の品質の劣化を極力抑えながら容
量の小さい音声単位セットを構成することが課題となっ
ている。このような音声単位セットの構成法としては、
中島,浜田などが発表した「音韻環境に基づくクラスタ
リングによる規則合成法」電子情報通信学会論文誌D−
II Vol.J72−D−II No.8 1174
頁〜1179頁、1989年8月などがある。
場合、出力の合成音声の品質の劣化を極力抑えながら容
量の小さい音声単位セットを構成することが課題となっ
ている。このような音声単位セットの構成法としては、
中島,浜田などが発表した「音韻環境に基づくクラスタ
リングによる規則合成法」電子情報通信学会論文誌D−
II Vol.J72−D−II No.8 1174
頁〜1179頁、1989年8月などがある。
【0005】しかしながら、上述の音声単位セットの構
成法では、出力された合成音声における音声単位間のス
ペクトル連続性は考慮されていないので、音声単位間の
接続部でスペクトルの不連続が生じ、合成音声の品質が
劣化していた。
成法では、出力された合成音声における音声単位間のス
ペクトル連続性は考慮されていないので、音声単位間の
接続部でスペクトルの不連続が生じ、合成音声の品質が
劣化していた。
【0006】それゆえに、この発明の主たる目的は、適
切な音声単位セットを構成することにより、音声単位間
の接続によって生じるスペクトルの不連続を軽減でき
て、より人間の声に近い自然な合成音声を出力できるよ
うな音声合成装置を提供することである。
切な音声単位セットを構成することにより、音声単位間
の接続によって生じるスペクトルの不連続を軽減でき
て、より人間の声に近い自然な合成音声を出力できるよ
うな音声合成装置を提供することである。
【0007】
【課題を解決するための手段】請求項1に記載に係る発
明は、音声合成装置であって、音韻,韻律の情報を含む
音声合成情報を入力するための入力手段と、音韻継続時
間や基本周波数やパワーの制御規則を記憶する韻律規則
辞書と、入力された音声合成情報により韻律規則辞書に
記憶されている制御規則に基づいて韻律パラメータを生
成する韻律パラメータ生成手段と、音声合成に必要な単
位を予め記憶する音声単位記憶手段と、音声単位セット
中の音声単位を節点として持つネットワークに対して与
えられるコスト関数を用いて合成単位間の接続点でのス
ペクトルの変化の滑らかさを評価し、そのような音声単
位を音声単位記憶手段から選択し、選択した音声単位を
生成された韻律パラメータに従って、圧縮,伸張した後
接続し、合成音声パラメータを生成する音声合成手段と
を備えて構成される。
明は、音声合成装置であって、音韻,韻律の情報を含む
音声合成情報を入力するための入力手段と、音韻継続時
間や基本周波数やパワーの制御規則を記憶する韻律規則
辞書と、入力された音声合成情報により韻律規則辞書に
記憶されている制御規則に基づいて韻律パラメータを生
成する韻律パラメータ生成手段と、音声合成に必要な単
位を予め記憶する音声単位記憶手段と、音声単位セット
中の音声単位を節点として持つネットワークに対して与
えられるコスト関数を用いて合成単位間の接続点でのス
ペクトルの変化の滑らかさを評価し、そのような音声単
位を音声単位記憶手段から選択し、選択した音声単位を
生成された韻律パラメータに従って、圧縮,伸張した後
接続し、合成音声パラメータを生成する音声合成手段と
を備えて構成される。
【0008】
【0009】
【0010】
【作用】この発明に係る音声合成装置は、音韻継続時間
や基本周波数やパワーの制御規則を韻律規則辞書に記憶
しておくとともに、音声合成に必要な単位を予め音声単
位記憶手段に記憶しておき、入力された音声合成情報に
より韻律規則辞書に記憶されている制御規則に基づいて
韻律パラメータを生成し、音声単位セット中の音声単位
を節点として持つネットワークに対して与えられるコス
ト関数を用いて合成単位間の接続点でのスペクトルの変
化の滑らかさを評価し、そのような音声単位を音声単位
記憶手段から選択し、選択した音声単位を生成された韻
律パラメータに従って、圧縮,伸張した後接続し、合成
音声パラメータを生成する。
や基本周波数やパワーの制御規則を韻律規則辞書に記憶
しておくとともに、音声合成に必要な単位を予め音声単
位記憶手段に記憶しておき、入力された音声合成情報に
より韻律規則辞書に記憶されている制御規則に基づいて
韻律パラメータを生成し、音声単位セット中の音声単位
を節点として持つネットワークに対して与えられるコス
ト関数を用いて合成単位間の接続点でのスペクトルの変
化の滑らかさを評価し、そのような音声単位を音声単位
記憶手段から選択し、選択した音声単位を生成された韻
律パラメータに従って、圧縮,伸張した後接続し、合成
音声パラメータを生成する。
【0011】
【実施例】図1はこの発明の一実施例の概略ブロック図
である。なお、図1に示した実施例において、パラメー
タの種類や数などは実施されるシステムにより、適当に
選択されるものである。図1を参照して、入力部1から
韻律パラメータ生成部2に出力したい合成音声情報が入
力される。合成音声の情報は、音韻、韻律の情報を含
む。これらの合成音声情報により、韻律規則辞書3に記
述されている音韻継続時間や基本周波数やパワーの制御
規則に基づいて、韻律パラメータ(音韻継続時間,基本
周波数,パワー)が設定される。さらに、音声単位接続
部4は、音声単位セット5から合成に必要な音声単位を
選択し、選択された音声単位の韻律情報に従って圧縮,
伸長した後、接続し、合成音声の音声パラメータを生成
する。音声単位接続部4で生成された音声パラメータは
音声合成部6によって合成音声として合成され、出力部
7によって合成音声が出力される。
である。なお、図1に示した実施例において、パラメー
タの種類や数などは実施されるシステムにより、適当に
選択されるものである。図1を参照して、入力部1から
韻律パラメータ生成部2に出力したい合成音声情報が入
力される。合成音声の情報は、音韻、韻律の情報を含
む。これらの合成音声情報により、韻律規則辞書3に記
述されている音韻継続時間や基本周波数やパワーの制御
規則に基づいて、韻律パラメータ(音韻継続時間,基本
周波数,パワー)が設定される。さらに、音声単位接続
部4は、音声単位セット5から合成に必要な音声単位を
選択し、選択された音声単位の韻律情報に従って圧縮,
伸長した後、接続し、合成音声の音声パラメータを生成
する。音声単位接続部4で生成された音声パラメータは
音声合成部6によって合成音声として合成され、出力部
7によって合成音声が出力される。
【0012】図2は図1に示した音声単位セットを生成
する方法のブロック図である。図2を参照して、大容量
の音声単位データベース9から音声単位セット選択部1
0により音声単位5が選択される。
する方法のブロック図である。図2を参照して、大容量
の音声単位データベース9から音声単位セット選択部1
0により音声単位5が選択される。
【0013】図3は図2に示した音声単位セット選択部
における問題を定式化した図である。図2に示す大容量
音声単位データベース9に含まれる音声単位全体を節点
とするネットワークG(V,E)から、その部分集合で
あるC(VC ,EC )を制約条件である第(2)式の下
で、コスト関数f(C)の第(1)式が小さくなるよう
に、選択するという組合せ最適化問題として定式化す
る。
における問題を定式化した図である。図2に示す大容量
音声単位データベース9に含まれる音声単位全体を節点
とするネットワークG(V,E)から、その部分集合で
あるC(VC ,EC )を制約条件である第(2)式の下
で、コスト関数f(C)の第(1)式が小さくなるよう
に、選択するという組合せ最適化問題として定式化す
る。
【0014】言い換えれば、音声単位セットに関して与
えられているコスト関数が小さくなる音声単位セット
を、大容量音声単位データベース9から選択するという
ことである。ただし、音声単位セットは、大容量音声単
位データベース9の中の複数のクラスタから1つずつ音
声単位を選択したものであるという制約条件を満たすよ
うにする。クラスタは、1つ以上の音声単位からなって
いる。
えられているコスト関数が小さくなる音声単位セット
を、大容量音声単位データベース9から選択するという
ことである。ただし、音声単位セットは、大容量音声単
位データベース9の中の複数のクラスタから1つずつ音
声単位を選択したものであるという制約条件を満たすよ
うにする。クラスタは、1つ以上の音声単位からなって
いる。
【0015】ここで与えられるコスト関数は、出力合成
音声における音声単位接続部のスペクトル変化の滑らか
さを示すものである。ただし、図3に示した実施例で
は、スペクトル変化の滑らかさを計るだけでなく、音声
単位そのものの適切さを計るようにしている。音声単位
そのものの適切さは、音声単位内歪みを用いて評価され
る。音声単位内歪みは、大容量音声単位データベース9
のクラスタに属する音声単位の平均スペクトルのパラメ
ータと、音声単位のスペクトルパラメータ間のユークリ
ッド距離を用いて計算される。
音声における音声単位接続部のスペクトル変化の滑らか
さを示すものである。ただし、図3に示した実施例で
は、スペクトル変化の滑らかさを計るだけでなく、音声
単位そのものの適切さを計るようにしている。音声単位
そのものの適切さは、音声単位内歪みを用いて評価され
る。音声単位内歪みは、大容量音声単位データベース9
のクラスタに属する音声単位の平均スペクトルのパラメ
ータと、音声単位のスペクトルパラメータ間のユークリ
ッド距離を用いて計算される。
【0016】図1に示した音声単位接続部4でのスペク
トル変化の滑らかさは、音声単位間歪みを用いて評価さ
れる。音声単位間歪みは、音声単位間の接続点での両側
の音声単位間のスペクトルパラメータのユークリッド距
離を用いる。コスト関数を示す第(1)式中でη=1.
0とすれば、コスト関数は、上述の2種類の歪みの総和
を表わすようになり、また、η=∞とすれば、上述の2
つの歪みの中での最大値を表わすようになる。
トル変化の滑らかさは、音声単位間歪みを用いて評価さ
れる。音声単位間歪みは、音声単位間の接続点での両側
の音声単位間のスペクトルパラメータのユークリッド距
離を用いる。コスト関数を示す第(1)式中でη=1.
0とすれば、コスト関数は、上述の2種類の歪みの総和
を表わすようになり、また、η=∞とすれば、上述の2
つの歪みの中での最大値を表わすようになる。
【0017】図4はこの発明の一実施例の音声単位選択
部における音声単位選択のアルゴリズムを示すフロー図
である。次に、図4を参照して、音声単位選択アルゴリ
ズムについて説明する。まず、ステップ(図示ではSP
と略称する)SP1において、大容量音声単位データベ
ース9からなるネットワークGから、拘束条件を満たす
当該ネットワークGの部分ネットワークC0 を任意選択
する。つまり当該大容量音声単位データベース9中の各
クラスタから、それぞれ任意に1つずつの音声単位を選
択し、選択された音声単位からなるネットワークを初期
のネットワークC0 とする。そして、ステップSP2に
おいてカウンタiとnに0にリセットする。
部における音声単位選択のアルゴリズムを示すフロー図
である。次に、図4を参照して、音声単位選択アルゴリ
ズムについて説明する。まず、ステップ(図示ではSP
と略称する)SP1において、大容量音声単位データベ
ース9からなるネットワークGから、拘束条件を満たす
当該ネットワークGの部分ネットワークC0 を任意選択
する。つまり当該大容量音声単位データベース9中の各
クラスタから、それぞれ任意に1つずつの音声単位を選
択し、選択された音声単位からなるネットワークを初期
のネットワークC0 とする。そして、ステップSP2に
おいてカウンタiとnに0にリセットする。
【0018】ステップSP3において、ネットワークC
i 中の節点を1つ任意に選択し、当該節点が属するとこ
ろのクラスタの属する節点で、当該節点を置き換えて構
成される1つ以上のネットワークのうちで、コスト関数
の値が最小になるところのネットワークをC′i とす
る。ステップSP4において、f(C′i )<f
(Ci)であるか否かを判別し、f(C′i )<f(C
i )であれば、ステップSP7においてCi + 1 =C′
i ,i=i+1,n=0とし、ステップSP3に戻る。
そうでなければ、ステップSP5において、n=n+1
として、ステップSP6に進む。ステップSP6におい
て、n>10,000であるか否かを判別し、n>1
0,000であればアルゴリズムは終了する。ここで、
値10,000は、1つの例であり、どの値に置き換え
てもよい。ステップSP6において、n>10,000
でなければ、前述のステップSP3に戻る。
i 中の節点を1つ任意に選択し、当該節点が属するとこ
ろのクラスタの属する節点で、当該節点を置き換えて構
成される1つ以上のネットワークのうちで、コスト関数
の値が最小になるところのネットワークをC′i とす
る。ステップSP4において、f(C′i )<f
(Ci)であるか否かを判別し、f(C′i )<f(C
i )であれば、ステップSP7においてCi + 1 =C′
i ,i=i+1,n=0とし、ステップSP3に戻る。
そうでなければ、ステップSP5において、n=n+1
として、ステップSP6に進む。ステップSP6におい
て、n>10,000であるか否かを判別し、n>1
0,000であればアルゴリズムは終了する。ここで、
値10,000は、1つの例であり、どの値に置き換え
てもよい。ステップSP6において、n>10,000
でなければ、前述のステップSP3に戻る。
【0019】なお、上述の実施例で用いたネットワーク
に対するコスト関数の定義や、音声単位セット選択アル
ゴリズムや2種類の歪みの定義については、上述の例に
限らず、様々な定義やアルゴリズムを使用することがで
きる。
に対するコスト関数の定義や、音声単位セット選択アル
ゴリズムや2種類の歪みの定義については、上述の例に
限らず、様々な定義やアルゴリズムを使用することがで
きる。
【0020】
【発明の効果】以上のように、この発明によれば、入力
された音声合成情報により韻律規則辞書に記憶されてい
る制御規則に基づいて韻律パラメータを生成し、音声単
位セット中の音声単位を節点として持つネットワークに
対して与えられるコスト関数を用いて合成単位間の接続
点でのスペクトルの変化の滑らかさを評価し、そのよう
な音声単位を選択し、選択した音声単位を生成され々韻
律パラメータに従って、圧縮,伸張した後接続し、合成
音声パラメータを生成するようにしたので、音声単位間
の接続によって生じるスペクトルの不連続を軽減でき、
より人間の声に近い自然な合成音声を出力することがで
きる。
された音声合成情報により韻律規則辞書に記憶されてい
る制御規則に基づいて韻律パラメータを生成し、音声単
位セット中の音声単位を節点として持つネットワークに
対して与えられるコスト関数を用いて合成単位間の接続
点でのスペクトルの変化の滑らかさを評価し、そのよう
な音声単位を選択し、選択した音声単位を生成され々韻
律パラメータに従って、圧縮,伸張した後接続し、合成
音声パラメータを生成するようにしたので、音声単位間
の接続によって生じるスペクトルの不連続を軽減でき、
より人間の声に近い自然な合成音声を出力することがで
きる。
【図1】この発明の一実施例の概略ブロック図である。
【図2】図1に示した音声単位セットを生成する方法の
ブロック図である。
ブロック図である。
【図3】図2に示した音声単位セット選択部における問
題を定式化した図である。
題を定式化した図である。
【図4】この発明の一実施例の音声単位セット部におけ
る音声単位セットのアルゴリズムを示すフロー図であ
る。
る音声単位セットのアルゴリズムを示すフロー図であ
る。
1 入力部 2 韻律パラメータ生成部 3 韻律規則辞書 4 音声単位接続部 5 音声単位セット 6 音声合成部 7 出力部 9 大容量音声単位データベース 10 音声単位セット選択部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−141399(JP,A) 特開 昭57−64299(JP,A) 特開 昭64−32299(JP,A) 特開 昭62−208182(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 3/02 G10L 5/00 - 5/04
Claims (1)
- 【請求項1】 音声合成装置であって、 音韻,韻律の情報を含む音声合成情報を入力するための
入力手段、 音韻継続時間や基本周波数やパワーの制御規則を記憶す
る韻律規則辞書、 前記入力手段によって入力された音声合成情報により前
記韻律規則辞書に記憶されている制御規則に基づいて韻
律パラメータを生成する韻律パラメータ生成手段、 音声合成に必要な単位を予め記憶する音声単位記憶手
段、および 音声単位セット中の音声単位を節点として持つネットワ
ークに対して与えられるコスト関数を用いて合成単位間
の接続点でのスペクトルの変化の滑らかさを評価し、そ
のような音声単位を前記音声単位記憶手段から選択し、
選択した音声単位を前記生成された韻律パラメータに従
って、圧縮,伸張した後接続し、合成音声パラメータを
生成する音声合成手段を備えた、音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4244645A JP2886747B2 (ja) | 1992-09-14 | 1992-09-14 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4244645A JP2886747B2 (ja) | 1992-09-14 | 1992-09-14 | 音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0695692A JPH0695692A (ja) | 1994-04-08 |
JP2886747B2 true JP2886747B2 (ja) | 1999-04-26 |
Family
ID=17121832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4244645A Expired - Lifetime JP2886747B2 (ja) | 1992-09-14 | 1992-09-14 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2886747B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE298453T1 (de) * | 1998-11-13 | 2005-07-15 | Lernout & Hauspie Speechprod | Sprachsynthese durch verkettung von sprachwellenformen |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5764299A (en) * | 1980-10-06 | 1982-04-19 | Sanyo Electric Co | Voide synthesizer |
JPS6432299A (en) * | 1987-07-28 | 1989-02-02 | Nec Corp | Unit voice editing type rule synthesizer |
JPH03141399A (ja) * | 1989-10-27 | 1991-06-17 | Ricoh Co Ltd | 音声パラメータ結合方式 |
-
1992
- 1992-09-14 JP JP4244645A patent/JP2886747B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0695692A (ja) | 1994-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6988069B2 (en) | Reduced unit database generation based on cost information | |
JP3563772B2 (ja) | 音声合成方法及び装置並びに音声合成制御方法及び装置 | |
WO2007029633A1 (ja) | 音声合成装置及び方法とプログラム | |
JP2001282278A (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JPH0160840B2 (ja) | ||
JP2886747B2 (ja) | 音声合成装置 | |
JP2003108178A (ja) | 音声合成装置及び音声合成用素片作成装置 | |
US7219061B1 (en) | Method for detecting the time sequences of a fundamental frequency of an audio response unit to be synthesized | |
JP4408596B2 (ja) | 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 | |
JP2002156987A (ja) | 音声合成システム | |
US5777249A (en) | Electronic musical instrument with reduced storage of waveform information | |
JPH0419799A (ja) | 音声合成装置 | |
JP3109778B2 (ja) | 音声規則合成装置 | |
JPH11249679A (ja) | 音声合成装置 | |
JP4454780B2 (ja) | 音声情報処理装置とその方法と記憶媒体 | |
JP2000231395A (ja) | 音声合成方法及び装置 | |
JP3099852B2 (ja) | 励振信号の利得量子化方法 | |
JP2003271198A (ja) | 圧縮データ処理装置、方法および圧縮データ処理プログラム | |
JP2878483B2 (ja) | 音声規則合成装置 | |
JP3241582B2 (ja) | 韻律制御装置及び方法 | |
JP3582934B2 (ja) | 音声認識装置および標準パターン登録方法 | |
JP2004029377A (ja) | 圧縮データ処理装置、方法および圧縮データ処理プログラム | |
JP3927617B2 (ja) | ゲーム用音源装置 | |
JPH10143196A (ja) | 音声合成方法、その装置及びプログラム記録媒体 | |
JP2861005B2 (ja) | 音声蓄積再生装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19990202 |