JP2992995B2 - 音声合成装置 - Google Patents
音声合成装置Info
- Publication number
- JP2992995B2 JP2992995B2 JP4653488A JP4653488A JP2992995B2 JP 2992995 B2 JP2992995 B2 JP 2992995B2 JP 4653488 A JP4653488 A JP 4653488A JP 4653488 A JP4653488 A JP 4653488A JP 2992995 B2 JP2992995 B2 JP 2992995B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- parameters
- value
- interpolation
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Electrophonic Musical Instruments (AREA)
Description
【発明の詳細な説明】 A.産業上の利用分野 本発明は、音響管モデルを利用した音声合成装置に関
するものである。
するものである。
B.発明の概要 本発明は人間の声道を音響管群とみなし、これをサー
ジインピーダンス成分の回路要素群に対応させることに
よって、回路要素群の出力端の電流値を演算し、この演
算結果に基づいて音声を模擬的に作り出す装置におい
て、 音節を構成する各音素毎に各音素の発生時間を複数の
時間帯に区分し、各時間毎に音響管の断面積等の音素パ
ラメータを指定し、この音素パラメータを補間処理する
と共に、特に音源波の繰り返し周波数であるピッチにつ
いては、指数関数から取り出した漸化式に従って補間処
理することによって、 滑らかで人間の音声に近似した音声を作り出すように
したものである。
ジインピーダンス成分の回路要素群に対応させることに
よって、回路要素群の出力端の電流値を演算し、この演
算結果に基づいて音声を模擬的に作り出す装置におい
て、 音節を構成する各音素毎に各音素の発生時間を複数の
時間帯に区分し、各時間毎に音響管の断面積等の音素パ
ラメータを指定し、この音素パラメータを補間処理する
と共に、特に音源波の繰り返し周波数であるピッチにつ
いては、指数関数から取り出した漸化式に従って補間処
理することによって、 滑らかで人間の音声に近似した音声を作り出すように
したものである。
C.従来の技術 音声合成やミュージックシンセサイザー(電子楽器)
等の所謂音を人工的に合成して出力する電子装置は、最
近になって1ないし数チップの音声認識や音声合成のLS
Iが音声情報処理と半導体の大規模集積回路技術により
低価格で実現されるようになり、その使用目的,制約条
件により種々の方式が提案されている。この音声合成に
は、人間の発生した生の音声を録音しておき、これを適
当に結合して文章に編集する録音編集方式と、人間の声
を直接的には利用せず、人間の音声のパラメータだけを
抽出し、音声合成過程で、そのパラメータを制御して人
工的に音声信号を作り出すパラメータ方式がある。
等の所謂音を人工的に合成して出力する電子装置は、最
近になって1ないし数チップの音声認識や音声合成のLS
Iが音声情報処理と半導体の大規模集積回路技術により
低価格で実現されるようになり、その使用目的,制約条
件により種々の方式が提案されている。この音声合成に
は、人間の発生した生の音声を録音しておき、これを適
当に結合して文章に編集する録音編集方式と、人間の声
を直接的には利用せず、人間の音声のパラメータだけを
抽出し、音声合成過程で、そのパラメータを制御して人
工的に音声信号を作り出すパラメータ方式がある。
パラメータ方式においては、音声波形をある周期毎に
サンプリングして各サンプリング点での音声信号の値を
アナログ/ディジタル変換し、その値を0と1の符号で
表示して行われるが、アナログ信号に忠実な記録をする
ためには、ビット数を増やす必要があり、このため大き
なメモリ容量を必要とする。
サンプリングして各サンプリング点での音声信号の値を
アナログ/ディジタル変換し、その値を0と1の符号で
表示して行われるが、アナログ信号に忠実な記録をする
ためには、ビット数を増やす必要があり、このため大き
なメモリ容量を必要とする。
そこで、この情報量を極力少なくするために各種の高
能率な符号化法が研究開発されている。
能率な符号化法が研究開発されている。
その方法の一つとして、1つの音声信号の情報に最低
限1ビットを対応させたデルタ変調方式がある。この方
式は、1ビットの使い方として、次にくる音声信号値が
現在の値より高いか低いかを判定して、高ければ符号
“1"、低ければ符号“0"を与え、音声信号の符号化を行
うもので、実際のシステム構成としては一定の振幅ステ
ップ量(デルタ)を定めておき、誤差が蓄積されないよ
うに今までの符号化によって得られる音声の値と、入力
してくる音声信号との残差信号に対して、符号化を行
う。
限1ビットを対応させたデルタ変調方式がある。この方
式は、1ビットの使い方として、次にくる音声信号値が
現在の値より高いか低いかを判定して、高ければ符号
“1"、低ければ符号“0"を与え、音声信号の符号化を行
うもので、実際のシステム構成としては一定の振幅ステ
ップ量(デルタ)を定めておき、誤差が蓄積されないよ
うに今までの符号化によって得られる音声の値と、入力
してくる音声信号との残差信号に対して、符号化を行
う。
このような構成は予測コード化といわれ、線形予測法
(何個か前のサンプル値から予測する)およびパーコー
ル方式(線形予測法の予測係数の代わりにパーコール係
数kといわれる偏自己相関関数を用いる)がある。
(何個か前のサンプル値から予測する)およびパーコー
ル方式(線形予測法の予測係数の代わりにパーコール係
数kといわれる偏自己相関関数を用いる)がある。
D.発明が解決しようとする問題点 従来の音声合成方式のうち録音編集方式は、合成でき
る語彙や文章の種類が限定されるという問題がある。
る語彙や文章の種類が限定されるという問題がある。
また予測コード化を用いた方式では、音と音との継ぎ
目に相当する調音結合が難しくて合成単位の結合法が確
立しておらず、例えば母音から子音を経て母音に至る発
声において、母音の定常から過渡を経て子音に至りまた
母音の過渡を経て母音の定常音に至る過程で母音と母音
の継ぎ目の音が跡切れてしまう。従って音の滑らかさに
欠け、人間が聞いたときに自然な感じを与えないという
問題がある。
目に相当する調音結合が難しくて合成単位の結合法が確
立しておらず、例えば母音から子音を経て母音に至る発
声において、母音の定常から過渡を経て子音に至りまた
母音の過渡を経て母音の定常音に至る過程で母音と母音
の継ぎ目の音が跡切れてしまう。従って音の滑らかさに
欠け、人間が聞いたときに自然な感じを与えないという
問題がある。
本発明の目的は、任意な語彙、文章を合成することが
でき、しかも音が滑らかであって人間の実際の音声に近
く、自然な感じを聞く人に与えることのできる音声合成
装置を提供することにある。
でき、しかも音が滑らかであって人間の実際の音声に近
く、自然な感じを聞く人に与えることのできる音声合成
装置を提供することにある。
E.問題点を解決するための手段及び作用 (1)基本概念 音声を口から外に放射するためには、音源が必要で、
この音源は声帯によって作り出される。一方声帯は2枚
のヒダを開閉することによって呼気を断続的に止める働
きがあり、その断続によってパフと呼ばれる空気流が発
生し、声帯を緊張させるとこのヒダに張力が加わりヒダ
の開閉の周波数が高くなり、周波数の高いパフ音が発生
する。そして呼気流を大きくすると大きな音となる。
この音源は声帯によって作り出される。一方声帯は2枚
のヒダを開閉することによって呼気を断続的に止める働
きがあり、その断続によってパフと呼ばれる空気流が発
生し、声帯を緊張させるとこのヒダに張力が加わりヒダ
の開閉の周波数が高くなり、周波数の高いパフ音が発生
する。そして呼気流を大きくすると大きな音となる。
この音源波が声道のような円筒状の音響管を通過する
と、開放端から音波は共振現象によりある成分が強調さ
れ、ある成分が減弱し複雑な母音の波形が作り出され
る。そして口から発せられる音声は、音源波が同じ波形
をもっていても、口唇から放射されるまでに通過する声
道の形によって影響を受ける。即ち、人間の発生音は、
声帯から口唇までの声道の長さや断面積及び声帯の震わ
せ方等によって決定される。
と、開放端から音波は共振現象によりある成分が強調さ
れ、ある成分が減弱し複雑な母音の波形が作り出され
る。そして口から発せられる音声は、音源波が同じ波形
をもっていても、口唇から放射されるまでに通過する声
道の形によって影響を受ける。即ち、人間の発生音は、
声帯から口唇までの声道の長さや断面積及び声帯の震わ
せ方等によって決定される。
本発明はこのようなことに着目してなされたものであ
り、上記の声道を複数の可変断面積の音響管群とみな
し、更に音響管の音波の伝達を表わす進行波現象をその
等価回路により実現することを出発点としている。声道
を音響管とみなすと、各音響管の中の音波の伝搬は前進
波と後進波に分けて各音響管の境界面における反射、透
過現象の繰り返しとして考えることができ、このときそ
の反射と透過は境界面における音響的特性インピーダン
スの不整合の度合い、即ち互いに隣接する音響管の各断
面積の比に応じて定量的に規定される。ここで上記の反
射,透過現象は、電気回路においてインピーダンスの異
なる線路にインパルス電流を流したときの過渡現象と同
じである。
り、上記の声道を複数の可変断面積の音響管群とみな
し、更に音響管の音波の伝達を表わす進行波現象をその
等価回路により実現することを出発点としている。声道
を音響管とみなすと、各音響管の中の音波の伝搬は前進
波と後進波に分けて各音響管の境界面における反射、透
過現象の繰り返しとして考えることができ、このときそ
の反射と透過は境界面における音響的特性インピーダン
スの不整合の度合い、即ち互いに隣接する音響管の各断
面積の比に応じて定量的に規定される。ここで上記の反
射,透過現象は、電気回路においてインピーダンスの異
なる線路にインパルス電流を流したときの過渡現象と同
じである。
(2)等価回路 このようなことからn個の音響管S1〜Snよりなる音響
管モデルを第1図(ア)に示すと、このモデルは第1図
(イ)に示すような抵抗の無い無損失のサージインピー
ダンス成分よりなる回路要素群(T1〜Tn)を直列に接続
した電気回路として表わすことができる。A1〜Anは夫々
音響管S1〜Snの断面積である。ここに本発明では、基本
的には上記の電気回路を適用して、これに供給するイン
パルス電流と各回路要素T1〜Tnのサージインピーダンス
を変化させることによって、音響管モデルの音源波と各
音響管の断面積とを変化させることに対応させ、最終段
の回路要素Tnから出力される電流をスピーカ等の発声部
に供給することによって、音響管モデルから得られる音
声を模擬的に作り出している。
管モデルを第1図(ア)に示すと、このモデルは第1図
(イ)に示すような抵抗の無い無損失のサージインピー
ダンス成分よりなる回路要素群(T1〜Tn)を直列に接続
した電気回路として表わすことができる。A1〜Anは夫々
音響管S1〜Snの断面積である。ここに本発明では、基本
的には上記の電気回路を適用して、これに供給するイン
パルス電流と各回路要素T1〜Tnのサージインピーダンス
を変化させることによって、音響管モデルの音源波と各
音響管の断面積とを変化させることに対応させ、最終段
の回路要素Tnから出力される電流をスピーカ等の発声部
に供給することによって、音響管モデルから得られる音
声を模擬的に作り出している。
具体的には、第1図(ウ)に示すように上記の電気回
路と等価な回路を想定し、この等価回路における電流源
の電流を時間に対して変化させると共に、後述するよう
に演算式中には音響管の断面積比が導入されるので、各
断面積A1〜Anを時間に対して変化させ、これによって各
部の電流値を演算により求めている。同図においてPは
電流源、Z0は電流源のインピーダンス、Z1〜Znは夫々回
路要素T1〜Tnのサージインピーダンス、ZLは放射インピ
ーダンス、i0A〜i(n-1)A,i1B〜inB,a0A〜a(n-1)A,a1B〜
anBは各々記号の該当する電流路の電流、W0A〜W(n-1)A,
W1B〜WnBは電流源、I0A〜I(n-1)Aは後進波電流、I1B〜I
nBは前進波電流を示す。この等価回路においては、例え
ば回路要素T1,T2の結合部分に着目すると、回路要素T1
中をT2に向かって流れる電流I1Bに対応させた電流源W1A
と、回路要素T2中をT1に向かって流れる電流I1Aに対応
させた電流源W1Aとを想定し、電流I1Bが回路要素T1,T2
の境界にてT1へ反射される反射波電流i1BとT2へ透過す
る透過波電流a1Aとに分かれ、また電流I1Aが回路要素
T2,T1の境界にてT2へ反射される反射波電流i1AとT1へ透
過する透過波電流a1Bとに分かれることを等価的に表わ
したものである。また同図(エ)はこうした様子を模式
的に示す模式図である。
路と等価な回路を想定し、この等価回路における電流源
の電流を時間に対して変化させると共に、後述するよう
に演算式中には音響管の断面積比が導入されるので、各
断面積A1〜Anを時間に対して変化させ、これによって各
部の電流値を演算により求めている。同図においてPは
電流源、Z0は電流源のインピーダンス、Z1〜Znは夫々回
路要素T1〜Tnのサージインピーダンス、ZLは放射インピ
ーダンス、i0A〜i(n-1)A,i1B〜inB,a0A〜a(n-1)A,a1B〜
anBは各々記号の該当する電流路の電流、W0A〜W(n-1)A,
W1B〜WnBは電流源、I0A〜I(n-1)Aは後進波電流、I1B〜I
nBは前進波電流を示す。この等価回路においては、例え
ば回路要素T1,T2の結合部分に着目すると、回路要素T1
中をT2に向かって流れる電流I1Bに対応させた電流源W1A
と、回路要素T2中をT1に向かって流れる電流I1Aに対応
させた電流源W1Aとを想定し、電流I1Bが回路要素T1,T2
の境界にてT1へ反射される反射波電流i1BとT2へ透過す
る透過波電流a1Aとに分かれ、また電流I1Aが回路要素
T2,T1の境界にてT2へ反射される反射波電流i1AとT1へ透
過する透過波電流a1Bとに分かれることを等価的に表わ
したものである。また同図(エ)はこうした様子を模式
的に示す模式図である。
(3)演算 先ず第1図(ウ)の第1段目の電流源Pを含むブロッ
クは、第2図に示すように二つの回路の重ね合わせと考
えることができる。従って電流源Pの電圧をVとおく
と、同図の電流a1,a2は夫々(1),(2)式で表わさ
れ、この結果電流a0Aは(3)式で表わされる。
クは、第2図に示すように二つの回路の重ね合わせと考
えることができる。従って電流源Pの電圧をVとおく
と、同図の電流a1,a2は夫々(1),(2)式で表わさ
れ、この結果電流a0Aは(3)式で表わされる。
a1=V/Z0+Z1 …(1) a2=Z0/Z0+Z1・I01 …(2) a0A=a1+a2=1/Z0+Z1(V+Z0・I0A) …(3) 今、初めて等価回路中に電流を供給していくとする
と、I0Aを零とすることによりa0Aが求まる。そしてこの
値を基にして順次に演算が実行される。図中左端に位置
する1段目のブロック及び2段目のブロックの電流値の
演算式を例にとると、以下の(4)〜(12)式のように
表わされる。
と、I0Aを零とすることによりa0Aが求まる。そしてこの
値を基にして順次に演算が実行される。図中左端に位置
する1段目のブロック及び2段目のブロックの電流値の
演算式を例にとると、以下の(4)〜(12)式のように
表わされる。
a0A′=1/Z0+Z1(V′+Z0・I0A) …(4) i0A′=a0A′−I0A …(5) I0A′=i1B′+a1B′ …(6) a1B′=S1B(I1B+I1A) …(7) i1B′=a1B′−I1B …(8) I1B′=i0A′+a0A′ …(9) a1A′=S1A(I1B+I1A) …(10) i1A′=a1A′−I1B …(11) I1A′=i2B′+a2B′ …(12) このような計算を進めていくと、最終段のブロックに
関する演算式は(13)、(14)式のように表わされる。
関する演算式は(13)、(14)式のように表わされる。
anB′=ZL/Zn+ZL・InB …(13) inB′=anB′−InB InB′=i(n-1)A+a(n-1)A …(14) こうして最終段の音響管Snより発せられる音波に対応
する電流inBが求められる。ただしS1B,S1Aは各々互いに
隣接する音響管の断面積比で表わされる係数であり、夫
々(15),(16)式で表わされる。
する電流inBが求められる。ただしS1B,S1Aは各々互いに
隣接する音響管の断面積比で表わされる係数であり、夫
々(15),(16)式で表わされる。
S1B=A1/A1+A2 …(15) S1A=A2/A1+A2 …(16) 1段目から最終段目までのブロックの電流値の一連の
演算は瞬時に実行され、これら演算が所定のタイミング
をとって次々に行われていく。ここに上記の(4)〜
(14)式において、ダッシュの付いた値は時刻tにおけ
る演算値、ダッシュの付かない値は時刻tにおける演算
の1回前における演算により求めた演算値である。こう
して求めたデジタル値であるinBをデジタル/アナログ
変換してアナログ電流を作り、この電流をスピーカー等
に供給することにより音声を得る。前記演算のタイミン
グについては、音速を考慮して決定され、例えば各音響
管の1本の伝搬時間を演算の時間間隔とすることによっ
て、後進波電流I0A〜I(n-1)A及び前進波電流I1B〜InBが
音速と同じ速度で各回路要素T1〜InA中を流れる状態と
等価な状態を作り出し、これにより音響管モデルと電気
回路モデルとを整合させている。
演算は瞬時に実行され、これら演算が所定のタイミング
をとって次々に行われていく。ここに上記の(4)〜
(14)式において、ダッシュの付いた値は時刻tにおけ
る演算値、ダッシュの付かない値は時刻tにおける演算
の1回前における演算により求めた演算値である。こう
して求めたデジタル値であるinBをデジタル/アナログ
変換してアナログ電流を作り、この電流をスピーカー等
に供給することにより音声を得る。前記演算のタイミン
グについては、音速を考慮して決定され、例えば各音響
管の1本の伝搬時間を演算の時間間隔とすることによっ
て、後進波電流I0A〜I(n-1)A及び前進波電流I1B〜InBが
音速と同じ速度で各回路要素T1〜InA中を流れる状態と
等価な状態を作り出し、これにより音響管モデルと電気
回路モデルとを整合させている。
本発明は以上のような等価モデルと演算の実現を基調
としたものであり、具体的には、音節を構成する各音素
毎に各音素の発声時間を1以上の時間帯に区分し、各時
間帯毎に、音源波の繰り返し周波数であるピッチ、この
音源波のエネルギー及び音響管の断面積の各パラメータ
の初期値と当該時間帯の前記各パラメータの初期値X0か
ら次の時間帯の各パラメータの初期値Xrへの変化の仕方
を規定した時定数と音源波パターンとを格納する音素パ
ラメータ格納部と、入力された音素データに対応する前
記ピッチ,エネルギー及び断面積の各初期値を前記音素
パラメータ格納部の中から選び、これら初期値の補間処
理を行うパラメータ補間処理部と、ここで補間処理され
たパラメータと前記入力された音素データに対応する音
素パラメータ格納部内の音源波パターンとに基づいて前
記回路要素群の出力端から出力される電流値を演算する
演算部と、この演算部の演算結果に基づいて音声を発生
する発声部とを備え、 前記パラメータ補間処理部は、前記各時間帯の間に前
記各パラメータの初期値X0と目標値に相当する前記次の
時間帯の各パラメータの初期値Xrと時定数とを用いて多
数回補間演算を行い、ピッチの補間演算については、時
間に関して一定の離散間隔毎の演算がn番目の時刻の補
間値をX(n)、前記時定数をDで表わしたときに X(n)=D{Xr−X(n−1)}+X(n−1)で
示される漸化式に従って実行され、最終番目の補間演算
値が前記Xrに到達しないように時定数Dは小さな値が選
ばれることを特徴とする。
としたものであり、具体的には、音節を構成する各音素
毎に各音素の発声時間を1以上の時間帯に区分し、各時
間帯毎に、音源波の繰り返し周波数であるピッチ、この
音源波のエネルギー及び音響管の断面積の各パラメータ
の初期値と当該時間帯の前記各パラメータの初期値X0か
ら次の時間帯の各パラメータの初期値Xrへの変化の仕方
を規定した時定数と音源波パターンとを格納する音素パ
ラメータ格納部と、入力された音素データに対応する前
記ピッチ,エネルギー及び断面積の各初期値を前記音素
パラメータ格納部の中から選び、これら初期値の補間処
理を行うパラメータ補間処理部と、ここで補間処理され
たパラメータと前記入力された音素データに対応する音
素パラメータ格納部内の音源波パターンとに基づいて前
記回路要素群の出力端から出力される電流値を演算する
演算部と、この演算部の演算結果に基づいて音声を発生
する発声部とを備え、 前記パラメータ補間処理部は、前記各時間帯の間に前
記各パラメータの初期値X0と目標値に相当する前記次の
時間帯の各パラメータの初期値Xrと時定数とを用いて多
数回補間演算を行い、ピッチの補間演算については、時
間に関して一定の離散間隔毎の演算がn番目の時刻の補
間値をX(n)、前記時定数をDで表わしたときに X(n)=D{Xr−X(n−1)}+X(n−1)で
示される漸化式に従って実行され、最終番目の補間演算
値が前記Xrに到達しないように時定数Dは小さな値が選
ばれることを特徴とする。
F.実施例 第3図は本発明の実施例のブロック構成を示す図であ
る。1は日本語処理部であり、入力された日本語文章に
対して辞書9を参照して読みがな変換等を行う。2は文
章処理部であり文章にイントネーションを付ける処理を
行う。3は音節処理部であり、文章を構成する音節に対
して、イントネーションに応じたアクセントを付ける。
例えば「さくらがさいた」という文章に対して「SA」,
「KU」,「RA」…というように音節に分解し、各音節に
対してアクセントを付ける。音のイントネーションは後
述する音源波の繰り返し周波数、そのエネルギー及び時
間で決まることから、アクセントを付けるとは、これら
パラメータに対する係数を決定することである。4は音
素処理部、41は音節パラメータ格納部であり、音素処理
部4は、入力された「SA」…等の音節データに対し、音
節と母音及び子音の単位である音素との対応関係を規定
した音節パラメータ格納部41内のデータを参照して音素
に分解する処理、例えば音節「SA」に対し、音素
「S」,「A」を取り出す。
る。1は日本語処理部であり、入力された日本語文章に
対して辞書9を参照して読みがな変換等を行う。2は文
章処理部であり文章にイントネーションを付ける処理を
行う。3は音節処理部であり、文章を構成する音節に対
して、イントネーションに応じたアクセントを付ける。
例えば「さくらがさいた」という文章に対して「SA」,
「KU」,「RA」…というように音節に分解し、各音節に
対してアクセントを付ける。音のイントネーションは後
述する音源波の繰り返し周波数、そのエネルギー及び時
間で決まることから、アクセントを付けるとは、これら
パラメータに対する係数を決定することである。4は音
素処理部、41は音節パラメータ格納部であり、音素処理
部4は、入力された「SA」…等の音節データに対し、音
節と母音及び子音の単位である音素との対応関係を規定
した音節パラメータ格納部41内のデータを参照して音素
に分解する処理、例えば音節「SA」に対し、音素
「S」,「A」を取り出す。
5はパラメータ補間処理部、51は音素パラメータ格納
部、52は音源パラメータ格納部である。音素パラメータ
格納部51は第4図に示すように各音素の発声時間を複数
例えば3つの時間帯01〜03に区分し、各時間帯毎に継続
時間音源波の繰り返し周波数であるピッチ、この音源波
のエネルギー及び音響管の断面積の各パラメータの初期
値と当該時間帯の前記各パラメータの初期値X0から次の
時間帯の各パラメータの初期値Xrへの変化の仕方を規定
した時定数と音源波パターンとを格納している。この実
施例では、人間の声道(男性の場合約17cm)を長さ1cm
の音響管を17個連接したものでモデル化しており、この
ため断面積値は1つの時間帯当たり17個(A1〜A17)定
められている。また音源パラメータ格納部52には、例え
ば第5図に示すように3種類の音源波パターンG1〜G3の
波形成分が50個のサンプルデータとして格納されてい
る。前記パラメータ補間処理部5は、各時間帯(O1〜
O3)におけるピッチ,エネルギー及び断面積の各パラメ
ータの補間処理を行う部分であり、この処理は当該時間
帯のピッチ,エネルギー及び断面積の各パラメータの初
期値をXoとし、次の時間帯の各パラメータの初期値を
Xr,n番目の補間値をX(n)、各パラメータに対応する
時定数をDで表わすと、次の(17)式に示す漸化式に従
って当該時間帯の間にn回演算を行う処理である。ただ
し初期値X(O)は前回の補間演算の最終番目の値であ
る。
部、52は音源パラメータ格納部である。音素パラメータ
格納部51は第4図に示すように各音素の発声時間を複数
例えば3つの時間帯01〜03に区分し、各時間帯毎に継続
時間音源波の繰り返し周波数であるピッチ、この音源波
のエネルギー及び音響管の断面積の各パラメータの初期
値と当該時間帯の前記各パラメータの初期値X0から次の
時間帯の各パラメータの初期値Xrへの変化の仕方を規定
した時定数と音源波パターンとを格納している。この実
施例では、人間の声道(男性の場合約17cm)を長さ1cm
の音響管を17個連接したものでモデル化しており、この
ため断面積値は1つの時間帯当たり17個(A1〜A17)定
められている。また音源パラメータ格納部52には、例え
ば第5図に示すように3種類の音源波パターンG1〜G3の
波形成分が50個のサンプルデータとして格納されてい
る。前記パラメータ補間処理部5は、各時間帯(O1〜
O3)におけるピッチ,エネルギー及び断面積の各パラメ
ータの補間処理を行う部分であり、この処理は当該時間
帯のピッチ,エネルギー及び断面積の各パラメータの初
期値をXoとし、次の時間帯の各パラメータの初期値を
Xr,n番目の補間値をX(n)、各パラメータに対応する
時定数をDで表わすと、次の(17)式に示す漸化式に従
って当該時間帯の間にn回演算を行う処理である。ただ
し初期値X(O)は前回の補間演算の最終番目の値であ
る。
X(n)=D{Xr−X(n−1)}+X(n−1) …(17) 例えば時間帯O1におけるピッチの補間処理について
は、XoがP1、XrがP2に相当するので(18)式に従って演
算される。
は、XoがP1、XrがP2に相当するので(18)式に従って演
算される。
X(n)=DP1{P2−X(n−1)}+X(n−1) …(18) ここで上記(17)式は次の(19)式の漸化式である。
X=Xr(1−e-Dt) …(19) 即ち(19)式を微分すると(20)式が成立し、従って
(21)式が成立する。
(21)式が成立する。
dx/dt=De-Dt …(20) ΔX=X(n+1)−X(n)=Δt・De-Dt(n) =Δt・D(Xr−X(n)) …(21) よって(22)式となる。
X(n+1)=Δt・D(Xr−X(n))+X(n) …(22) ここで補間演算の時間間隔は一定であるからΔt・D
を一括して時定数Dと置き換えることができ、(17)式
として表わされる。
を一括して時定数Dと置き換えることができ、(17)式
として表わされる。
以上においてこの実施例では、各音素の前記ピッチ,
エネルギー及び断面積のいずれについても、上記の(1
7)式にもとずいて補間処理を行っているが、本発明で
はこれらパラメータのうちエネルギー及び断面積につい
ては他の方法で補間処理を行ってもよい。そしてピッチ
の補間処理については(17)式にもとずいて実行される
ことが必要であるが、この場合最終番目の補間演算値が
目標値であるXrに到達しないように時定数Dは小さな値
が選ばれる。第6図は例えば時間帯01におけるピッチの
補間処理の様子を示す図であり、補間演算によって求め
られたピッチの各補間値P(1),P(2)…P(n)は
次の(23)式で表わされる曲線に沿って並び、最終番目
の補間値P(Z)は目標値P2よりも小さな値になる。
エネルギー及び断面積のいずれについても、上記の(1
7)式にもとずいて補間処理を行っているが、本発明で
はこれらパラメータのうちエネルギー及び断面積につい
ては他の方法で補間処理を行ってもよい。そしてピッチ
の補間処理については(17)式にもとずいて実行される
ことが必要であるが、この場合最終番目の補間演算値が
目標値であるXrに到達しないように時定数Dは小さな値
が選ばれる。第6図は例えば時間帯01におけるピッチの
補間処理の様子を示す図であり、補間演算によって求め
られたピッチの各補間値P(1),P(2)…P(n)は
次の(23)式で表わされる曲線に沿って並び、最終番目
の補間値P(Z)は目標値P2よりも小さな値になる。
P=P2(1−e-Dt) …(23) このようにピッチの補間演算に用いる時定数Dを小さ
くする理由は、最終番目の補間値が略目標値Xrに到達す
るほど大きな時定数Dを用いると、ピッチが急峻に立ち
上がってしまう。ここに本発明者が実際の人間の音声を
分析したところ、ピッチの移行部分においては緩やかに
移行しており、従って人間の音声に一層近付けることを
目的としている。
くする理由は、最終番目の補間値が略目標値Xrに到達す
るほど大きな時定数Dを用いると、ピッチが急峻に立ち
上がってしまう。ここに本発明者が実際の人間の音声を
分析したところ、ピッチの移行部分においては緩やかに
移行しており、従って人間の音声に一層近付けることを
目的としている。
6は演算部であり、パラメータ補間処理部5で算出し
たパラメータに基づいて、前記補間演算と同じタイミン
グで例えば100μsの時間間隔で第1図(ウ)に示す電
流inBのデジタル値を求める。7はデジタル/アナログ
(D/A)変換器であり、演算部6で求めたデジタル値に
基づいて電流波(アナログ電流)を作り出す。8はスピ
ーカー等の発声部であり、アナログ電流に基づいて音声
を発生する。
たパラメータに基づいて、前記補間演算と同じタイミン
グで例えば100μsの時間間隔で第1図(ウ)に示す電
流inBのデジタル値を求める。7はデジタル/アナログ
(D/A)変換器であり、演算部6で求めたデジタル値に
基づいて電流波(アナログ電流)を作り出す。8はスピ
ーカー等の発声部であり、アナログ電流に基づいて音声
を発生する。
次に上述実施例の作用について述べる。
ワードプロセッサ等により入力された日本語文章は、
日本語処理部1、文章処理部2及び音節処理部3を経て
イントネーション等が付けられて音節単位に区切られ、
更に音素処理部4によって各音節は音素に分解される。
次いでパラメータ補間処理部5によって、各音素のピッ
チ,エネルギー及び断面積が音素パラメータ格納部51か
ら取り出され、これらパラメータについて各時間帯(01
〜03)毎に補間処理が行われる。
日本語処理部1、文章処理部2及び音節処理部3を経て
イントネーション等が付けられて音節単位に区切られ、
更に音素処理部4によって各音節は音素に分解される。
次いでパラメータ補間処理部5によって、各音素のピッ
チ,エネルギー及び断面積が音素パラメータ格納部51か
ら取り出され、これらパラメータについて各時間帯(01
〜03)毎に補間処理が行われる。
この補間処理のうちピッチの補間処理の様子の一例を
示すと、例えば第7図のように表わされる。この図は
「A KA SA KA」を発音する場合の一部に相当し、縦軸は
ピッチの大きさ、横軸は時間を夫々示す。また横軸のC
の領域は子音の発声領域、V1〜V3は母音の発声領域を3
区分した時間帯であり、PA,PKA′,PKA,PSA,PSA′は夫々
対応する時間帯のピッチの初期値である。この図からわ
かるようにピッチは緩やかに移行しており、実際の人間
の音声に近いパターンになっている。これに対し第8図
は、時定数Dを大きくして最終番目のピッチの値が目標
値即ち次の時間帯の初期値に略一致するように演算した
補間処理の様子を示す図であり、この場合にはピッチの
移行部分における立ち上がりが急峻になっている。なお
第7図の例では、「KA」,「SA」の時間帯V2,V3におけ
る初期値は異なっているが、第8図の例ではそれら初期
値は同じ大きさとなっている。
示すと、例えば第7図のように表わされる。この図は
「A KA SA KA」を発音する場合の一部に相当し、縦軸は
ピッチの大きさ、横軸は時間を夫々示す。また横軸のC
の領域は子音の発声領域、V1〜V3は母音の発声領域を3
区分した時間帯であり、PA,PKA′,PKA,PSA,PSA′は夫々
対応する時間帯のピッチの初期値である。この図からわ
かるようにピッチは緩やかに移行しており、実際の人間
の音声に近いパターンになっている。これに対し第8図
は、時定数Dを大きくして最終番目のピッチの値が目標
値即ち次の時間帯の初期値に略一致するように演算した
補間処理の様子を示す図であり、この場合にはピッチの
移行部分における立ち上がりが急峻になっている。なお
第7図の例では、「KA」,「SA」の時間帯V2,V3におけ
る初期値は異なっているが、第8図の例ではそれら初期
値は同じ大きさとなっている。
続いて各時間帯01〜03毎に規定された音源波パターン
のサンプルデータが音源パラメータ格納部52から取り出
され、このサンプルデータとピッチ等の補間値が演算部
6に与えられ、演算部6にて上記のE.(3)項「演算」
にて詳述した演算が実行される。この演算において、音
節処理部3にて各音節単位に付けられたアクセントに対
応する係数あるいは関数とパラメータ補間処理部5で求
められた各パラメータとが掛け合わされて、文章のイン
トネーションが表われるように演算される。こうして最
終段の音響管より発せられる音波に相当する電流波のデ
ジタル値が求められ、この値に基づいてD/A変換器7に
より電流波が作られ、発声部8より対応する音声が発せ
られる。
のサンプルデータが音源パラメータ格納部52から取り出
され、このサンプルデータとピッチ等の補間値が演算部
6に与えられ、演算部6にて上記のE.(3)項「演算」
にて詳述した演算が実行される。この演算において、音
節処理部3にて各音節単位に付けられたアクセントに対
応する係数あるいは関数とパラメータ補間処理部5で求
められた各パラメータとが掛け合わされて、文章のイン
トネーションが表われるように演算される。こうして最
終段の音響管より発せられる音波に相当する電流波のデ
ジタル値が求められ、この値に基づいてD/A変換器7に
より電流波が作られ、発声部8より対応する音声が発せ
られる。
ここで本発明では、ピッチの初期値の設定について上
述実施例に限定されるものではなく、例えば「A」,
「KA」,「SA」の各音節毎に唯一の初期値を持たせるよ
うにしてもよい。この場合第9図に示すように各音節の
途中時点に初期値を持たせてこれらの間を補間処理して
もよいし、あるいはまた第10図に示すように各音節の最
終時点に初期値を持たせるようにしてもよい。
述実施例に限定されるものではなく、例えば「A」,
「KA」,「SA」の各音節毎に唯一の初期値を持たせるよ
うにしてもよい。この場合第9図に示すように各音節の
途中時点に初期値を持たせてこれらの間を補間処理して
もよいし、あるいはまた第10図に示すように各音節の最
終時点に初期値を持たせるようにしてもよい。
G.発明の効果 本発明によれば音響管モデルの音波の伝搬を等価回路
の電流の流れに置き換え、各音素毎に電流源のピッチや
音響管の断面積等のパラメータを規定し、音素間の継ぎ
目あるいは音素内の区分された時間帯の継ぎ目につい
て、パラメータの補間処理を実行し、特にピッチの補間
処理については指数関数にもとずいて実行すると共に最
終値が目標値に到達しないように定数を選んで緩やかな
パターンを実現しているから、滑らかな音声を得ること
ができ、聞き手に自然な感じを与える。そして指数関数
の補間演算を実際に行うのではなく、この関数から抽出
した漸化式を利用して各補間値を求めているため、演算
処理が簡単である。また音素間の継ぎ目に相当する領域
の全パラメータ値をメモリに格納するのではなく、音素
単位あるいは時間帯単位にデータを保存しておけば足り
るのでメモリ容量が小さくて済む。
の電流の流れに置き換え、各音素毎に電流源のピッチや
音響管の断面積等のパラメータを規定し、音素間の継ぎ
目あるいは音素内の区分された時間帯の継ぎ目につい
て、パラメータの補間処理を実行し、特にピッチの補間
処理については指数関数にもとずいて実行すると共に最
終値が目標値に到達しないように定数を選んで緩やかな
パターンを実現しているから、滑らかな音声を得ること
ができ、聞き手に自然な感じを与える。そして指数関数
の補間演算を実際に行うのではなく、この関数から抽出
した漸化式を利用して各補間値を求めているため、演算
処理が簡単である。また音素間の継ぎ目に相当する領域
の全パラメータ値をメモリに格納するのではなく、音素
単位あるいは時間帯単位にデータを保存しておけば足り
るのでメモリ容量が小さくて済む。
第1図は音響管の等価モデルを示す説明図、第2図は電
流源を含むブロックを示す等価回路図、第3図は本発明
の実施例を示すブロック図、第4図は音素パラメータの
データ図、第5図は音源波パターンを示す説明図、第6
図はパラメータ補間処理の様子を示す説明図、第7図〜
第10図は各々ピッチパターンを示す説明図である。 4……音素処理部、41……音節パラメータ格納部、5…
…パラメータ補間処理部、51……音素パラメータ格納
部、52……音源波パターン格納部、6……演算部、7…
…デジタル/アナログ変換部、8……発生部。
流源を含むブロックを示す等価回路図、第3図は本発明
の実施例を示すブロック図、第4図は音素パラメータの
データ図、第5図は音源波パターンを示す説明図、第6
図はパラメータ補間処理の様子を示す説明図、第7図〜
第10図は各々ピッチパターンを示す説明図である。 4……音素処理部、41……音節パラメータ格納部、5…
…パラメータ補間処理部、51……音素パラメータ格納
部、52……音源波パターン格納部、6……演算部、7…
…デジタル/アナログ変換部、8……発生部。
Claims (1)
- 【請求項1】音素パラメータ格納部、パラメータ補間処
理部、演算部、発声部を備える音声合成装置であって、 音素パラメータ格納部は、複数の音素パラメータを格納
し、 音素パラメータは、ピッチ初期値、エネルギー初期値、
音響管モデル断面積初期値、音源波パターンの複数の時
間帯毎のパラメータからなり、 パラメータ補間処理部は、音素パラメータを読み出し、
音素パラメータの各初期値X0aと次の時間帯の各初期値X
0bの間に下記の漸化式に基づいて補間音素パラメータを
算出し、 演算部は、音素パラメータ、補間音素パラメータ、音源
波パターンに基づいて最終段の音響管での電流値を算出
し、 発声部は、算出した電流値に基づいて音声を発生する音
声合成装置。 X(n)=D{X0b−X(n−1)}+X(n−1) 但し、n=1…N,X(0)=X0a D:各パラメータに対する時定数であって、X(N)がX
obに到達しない値
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4653488A JP2992995B2 (ja) | 1988-02-29 | 1988-02-29 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4653488A JP2992995B2 (ja) | 1988-02-29 | 1988-02-29 | 音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01219895A JPH01219895A (ja) | 1989-09-01 |
JP2992995B2 true JP2992995B2 (ja) | 1999-12-20 |
Family
ID=12749956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4653488A Expired - Lifetime JP2992995B2 (ja) | 1988-02-29 | 1988-02-29 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2992995B2 (ja) |
-
1988
- 1988-02-29 JP JP4653488A patent/JP2992995B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH01219895A (ja) | 1989-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH031200A (ja) | 規則型音声合成装置 | |
EP0561752B1 (en) | A method and an arrangement for speech synthesis | |
O'Shaughnessy et al. | Diphone speech synthesis | |
US5097511A (en) | Sound synthesizing method and apparatus | |
JP2990693B2 (ja) | 音声合成装置 | |
JP2992995B2 (ja) | 音声合成装置 | |
JP2990691B2 (ja) | 音声合成装置 | |
JPH01292400A (ja) | 音声合成方式 | |
JPH05224689A (ja) | 音声合成装置 | |
JPH01219899A (ja) | 音声合成装置 | |
JPH0833752B2 (ja) | 音声合成装置 | |
JPH11161297A (ja) | 音声合成方法及び装置 | |
JPH0833751B2 (ja) | 音声合成方式 | |
JPH01219898A (ja) | 音声合成装置 | |
JPS5914752B2 (ja) | 音声合成方式 | |
JPH0833749B2 (ja) | 音合成方法 | |
JP4305022B2 (ja) | データ作成装置、プログラム及び楽音合成装置 | |
Skare et al. | Using a Recurrent Neural Network and Articulatory Synthesis to Accurately Model Speech Output | |
JPH01177097A (ja) | 音声合成方式 | |
JPH0464080B2 (ja) | ||
JPH0833747B2 (ja) | 音合成方法 | |
JPH01182900A (ja) | 音声合成方式 | |
JPH01177096A (ja) | 音声合成方式 | |
JPH0833750B2 (ja) | 音声合成方法 | |
JPH0833748B2 (ja) | 音合成方法 |