JP3308875B2 - 音声合成方法および装置 - Google Patents
音声合成方法および装置Info
- Publication number
- JP3308875B2 JP3308875B2 JP26510297A JP26510297A JP3308875B2 JP 3308875 B2 JP3308875 B2 JP 3308875B2 JP 26510297 A JP26510297 A JP 26510297A JP 26510297 A JP26510297 A JP 26510297A JP 3308875 B2 JP3308875 B2 JP 3308875B2
- Authority
- JP
- Japan
- Prior art keywords
- template
- speech
- syllable
- synthesized
- vowel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】
【産業上の利用分野】本発明は、カーナビゲーションや
パーソナルコンピュータなどで使用される音声合成方法
およびその装置に関し、特に、テンプレートのパターン
に合わせて合成音声を作成する音声合成方法およびその
装置に関する。
パーソナルコンピュータなどで使用される音声合成方法
およびその装置に関し、特に、テンプレートのパターン
に合わせて合成音声を作成する音声合成方法およびその
装置に関する。
【0002】
【従来の技術】従来の音声合成方法は、リズムを制御し
たり、ピッチ周波数を制御して、合成音声の韻律制御を
行ない、自然に近い音声を合成しようとするものであ
る。
たり、ピッチ周波数を制御して、合成音声の韻律制御を
行ない、自然に近い音声を合成しようとするものであ
る。
【0003】たとえば、リズムの制御に関しては、特開
平6-274195号公報に開示されている「母音部エネルギー
重心点間に母音長、子音長規則を形成する日本語音声合
成システム」がある。これは、図6に示すように、相隣
合う2つのモーラの母音部分エネルギー重心点間の時間
長によりモーラ間隔を求め、2つのモーラの間の子音と
発話速度とをパラメータとしてモーラ間隔を決定し、さ
らに母音部エネルギー重心点位置間の時間長と子音長を
パラメータとして、モーラを構成する母音長、子音長を
決定して、合成すべき文章の音韻継続時間をモーラ間隔
で調整するようになっている。
平6-274195号公報に開示されている「母音部エネルギー
重心点間に母音長、子音長規則を形成する日本語音声合
成システム」がある。これは、図6に示すように、相隣
合う2つのモーラの母音部分エネルギー重心点間の時間
長によりモーラ間隔を求め、2つのモーラの間の子音と
発話速度とをパラメータとしてモーラ間隔を決定し、さ
らに母音部エネルギー重心点位置間の時間長と子音長を
パラメータとして、モーラを構成する母音長、子音長を
決定して、合成すべき文章の音韻継続時間をモーラ間隔
で調整するようになっている。
【0004】また、ピッチ周波数制御に関しては、たと
えば、特開平7-261778号公報に開示さられている「音声
情報処理方法及び装置」がある。これは、図7に示すよ
うに、音声のピッチ周波数やパワー等の特徴量を音韻環
境を考慮して統計処理することにより、確率的に信頼度
の高いピッチパターンを作成しようとするものである。
音声ファイルからピッチ周波数やその変化分、パワーや
その変化分等の音声の特徴量を抽出して作成した特徴量
ファイルと、アクセント型、モーラ数、モーラ位置、音
素等の音韻環境を考慮したラベルファイルとを統計処理
し、特徴を抽出する統計処理部と、統計処理した結果を
もとに、音韻環境を考慮したピッチパターンを作成する
ピッチパターン作成部を備えている。
えば、特開平7-261778号公報に開示さられている「音声
情報処理方法及び装置」がある。これは、図7に示すよ
うに、音声のピッチ周波数やパワー等の特徴量を音韻環
境を考慮して統計処理することにより、確率的に信頼度
の高いピッチパターンを作成しようとするものである。
音声ファイルからピッチ周波数やその変化分、パワーや
その変化分等の音声の特徴量を抽出して作成した特徴量
ファイルと、アクセント型、モーラ数、モーラ位置、音
素等の音韻環境を考慮したラベルファイルとを統計処理
し、特徴を抽出する統計処理部と、統計処理した結果を
もとに、音韻環境を考慮したピッチパターンを作成する
ピッチパターン作成部を備えている。
【0005】このように、従来の音声合成方法によって
も合成音声の韻律制御を行なうことができる。
も合成音声の韻律制御を行なうことができる。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来の音声合成方法では、単語全体のリズムを考慮してお
らず、2音節間の時間関係のみを制御対象としているた
め、単語として自然なリズムが形成できなかった。ま
た、ピッチ周波数パターンも統計処理した平均値であ
り、統計処理対象のデータが充分でなければ、自然性の
高い合成音声を作成できないという課題を有していた。
来の音声合成方法では、単語全体のリズムを考慮してお
らず、2音節間の時間関係のみを制御対象としているた
め、単語として自然なリズムが形成できなかった。ま
た、ピッチ周波数パターンも統計処理した平均値であ
り、統計処理対象のデータが充分でなければ、自然性の
高い合成音声を作成できないという課題を有していた。
【0007】
【課題を解決するための手段】本発明は、上記課題を解
決するために、単語や文節や文を想起して単音節を連続
的に発声した音声から韻律成分を抽出してテンプレート
として事前に格納しておき、合成しようとする音声中の
単語とモーラ数およびアクセント型が同じテンプレート
を選択して、このテンプレートのリズムパターン、ピッ
チ周波数パターン、パワーパターンに合わせて合成音声
を作成するように構成したものである。
決するために、単語や文節や文を想起して単音節を連続
的に発声した音声から韻律成分を抽出してテンプレート
として事前に格納しておき、合成しようとする音声中の
単語とモーラ数およびアクセント型が同じテンプレート
を選択して、このテンプレートのリズムパターン、ピッ
チ周波数パターン、パワーパターンに合わせて合成音声
を作成するように構成したものである。
【0008】このように構成することにより、合成しよ
うとする音声と同じモーラ数およびアクセント型の発声
を行なった音声の韻律成分を音声合成に活用して、きわ
めて自然に近い合成音声を作成することができる。
うとする音声と同じモーラ数およびアクセント型の発声
を行なった音声の韻律成分を音声合成に活用して、きわ
めて自然に近い合成音声を作成することができる。
【0009】
【発明の実施の形態】本発明の請求項1記載の発明は、
単語や文節を想起しつつ同じ単音節を連続的に発声した
音声からリズムとピッチとパワーから成る韻律成分を抽
出し、音節の母音部分の全パワーの平均値と、合成しよ
うとする各音節の母音部分のパワーとの比の平方根を、
合成音声の当該箇所の音節の波形に掛けてテンプレート
として事前に蓄積しておき、前記テンプレートの中か
ら、モーラ数およびアクセント型が合成しようとする音
声中の単語または文節と同じテンプレートを選択して、
選択した前記テンプレートの韻律に合わせて合成音声素
片を変形して接続する音声合成方法であり、テンプレー
トに合わせて自然な抑揚の音声を合成するという作用を
有する。
単語や文節を想起しつつ同じ単音節を連続的に発声した
音声からリズムとピッチとパワーから成る韻律成分を抽
出し、音節の母音部分の全パワーの平均値と、合成しよ
うとする各音節の母音部分のパワーとの比の平方根を、
合成音声の当該箇所の音節の波形に掛けてテンプレート
として事前に蓄積しておき、前記テンプレートの中か
ら、モーラ数およびアクセント型が合成しようとする音
声中の単語または文節と同じテンプレートを選択して、
選択した前記テンプレートの韻律に合わせて合成音声素
片を変形して接続する音声合成方法であり、テンプレー
トに合わせて自然な抑揚の音声を合成するという作用を
有する。
【0010】本発明の請求項2記載の発明は、漢字仮名
混じり文または韻律記号つきの読みがなの文字列を入力
する手段と、前記文字列を解析して単語に分解する手段
と、前記各単語のモーラ数とアクセント型を判定する手
段と、前記単語に基づいて合成に必要な音声合成素片を
選択する手段と、単語や文節を想起しつつ、同じ単音節
を連続的に発声した音声から抽出した韻律成分に、音節
の母音部分の全パワーの平均値と、合成しようとする各
音節の母音部分のパワーとの比の平方根を、合成音声の
当該箇所の音節の波形に掛けてテンプレートとして格納
した記憶手段と、前記テンプレートのうちから、合成し
ようとする音声中の単語または文節とモーラ数およびア
クセント型が同じテンプレートを選択する手段と、選択
した前記テンプレートの韻律に合わせて合成音声素片を
変形して接続する手段とを有する音声合成装置であり、
テンプレートに合わせて自然な抑揚の音声を合成すると
いう作用を有する。
混じり文または韻律記号つきの読みがなの文字列を入力
する手段と、前記文字列を解析して単語に分解する手段
と、前記各単語のモーラ数とアクセント型を判定する手
段と、前記単語に基づいて合成に必要な音声合成素片を
選択する手段と、単語や文節を想起しつつ、同じ単音節
を連続的に発声した音声から抽出した韻律成分に、音節
の母音部分の全パワーの平均値と、合成しようとする各
音節の母音部分のパワーとの比の平方根を、合成音声の
当該箇所の音節の波形に掛けてテンプレートとして格納
した記憶手段と、前記テンプレートのうちから、合成し
ようとする音声中の単語または文節とモーラ数およびア
クセント型が同じテンプレートを選択する手段と、選択
した前記テンプレートの韻律に合わせて合成音声素片を
変形して接続する手段とを有する音声合成装置であり、
テンプレートに合わせて自然な抑揚の音声を合成すると
いう作用を有する。
【0011】
【0012】
【0013】
【0014】
【0015】
【0016】以下、本発明の実施の形態を、図1〜図5
を参照しながら詳細に説明する。
を参照しながら詳細に説明する。
【0017】(第1の実施の形態)本発明の第1の実施
の形態は、入力文字列を発音表記に変換し、モーラ数と
アクセント型を決定し、発音表記から合成音声素片を選
択し、モーラ数およびアクセント型が一致するテンプレ
ートを選択し、選択したテンプレートの韻律に合わせて
合成音声素片を変形して接続する音声合成方法である。
の形態は、入力文字列を発音表記に変換し、モーラ数と
アクセント型を決定し、発音表記から合成音声素片を選
択し、モーラ数およびアクセント型が一致するテンプレ
ートを選択し、選択したテンプレートの韻律に合わせて
合成音声素片を変形して接続する音声合成方法である。
【0018】以下、本発明の第1の施の形態の音声合成
方法について、図1〜図3を参照しながら説明する。図
1は、テンプレート用の韻律抽出のための音声波形を示
している。単語「緑ヶ丘」を想起しながら「トトトトト
ト」と、第4音節にアクセント核を置いて発声したもの
である。この波形から、6モーラでアクセント核が第4
音節にある単語(6モーラ4型という)のテンプレート
が得られる。すなわち、「ト」の音節受聴タイミング点
は、母音開始点であるので、母音開始点間隔がリズムテ
ンプレートとなる。図2は、音節受聴タイミング点の一
覧を示したものである。
方法について、図1〜図3を参照しながら説明する。図
1は、テンプレート用の韻律抽出のための音声波形を示
している。単語「緑ヶ丘」を想起しながら「トトトトト
ト」と、第4音節にアクセント核を置いて発声したもの
である。この波形から、6モーラでアクセント核が第4
音節にある単語(6モーラ4型という)のテンプレート
が得られる。すなわち、「ト」の音節受聴タイミング点
は、母音開始点であるので、母音開始点間隔がリズムテ
ンプレートとなる。図2は、音節受聴タイミング点の一
覧を示したものである。
【0019】また、第1の実施の形態では、音声素片と
してVCV(母音-子音-母音連鎖)素片を使用してお
り、VCV素片接続位置の母音後半位置で計測された6
点のピッチ周波数がピッチテンプレートとなる。また、
6個の母音のパワーと、予め全てのテンプレートを使っ
て測ってある「ト」の母音の平均パワーとの比がパワー
テンプレートとなる。
してVCV(母音-子音-母音連鎖)素片を使用してお
り、VCV素片接続位置の母音後半位置で計測された6
点のピッチ周波数がピッチテンプレートとなる。また、
6個の母音のパワーと、予め全てのテンプレートを使っ
て測ってある「ト」の母音の平均パワーとの比がパワー
テンプレートとなる。
【0020】図3は、第1の実施の形態における音声合
成処理フローを示す図である。
成処理フローを示す図である。
【0021】ステップ51において、入力された漢字仮名
混じり文または読み仮名と韻律情報とから、単語毎の発
音表記が作成され、また、同時に韻律が計算される。
混じり文または読み仮名と韻律情報とから、単語毎の発
音表記が作成され、また、同時に韻律が計算される。
【0022】ステップ52において、単語の音声を合成す
るために必要な、発音表記に応じた音声素片が選択され
る。
るために必要な、発音表記に応じた音声素片が選択され
る。
【0023】ステップ53、54、55において、単語のモー
ラ数とアクセント型から、リズムテンプレート、ピッチ
テンプレート、パワーテンプレートが選択される。
ラ数とアクセント型から、リズムテンプレート、ピッチ
テンプレート、パワーテンプレートが選択される。
【0024】次にステップ56において、このリズムテン
プレートは、発音表記に特殊な音節が含まれる場合に
は、その区間の長さに修正係数をかけて調整される。特
殊な音節としては、無声摩擦音、撥音、促音、長音、母
音連鎖などの他、単語間の区切り位置にある音節もこれ
に含まれ、各々固有の区間長修正係数が割り当てられて
いる。メモリの容量を考慮して音節毎に修正係数を設け
ることはしていない。
プレートは、発音表記に特殊な音節が含まれる場合に
は、その区間の長さに修正係数をかけて調整される。特
殊な音節としては、無声摩擦音、撥音、促音、長音、母
音連鎖などの他、単語間の区切り位置にある音節もこれ
に含まれ、各々固有の区間長修正係数が割り当てられて
いる。メモリの容量を考慮して音節毎に修正係数を設け
ることはしていない。
【0025】この後ステップ57において、音声素片の母
音の長さが、各音節の音節受聴タイミング点の間隔がリ
ズムテンプレートで指示される間隔に一致するように、
変形される。式では、次のように表現される。 tv2(i) = tmp(i)×c(syl(i+1))−tc(i+1) (1) ただし、 tv2(i):合成音声の第i番目のVCV素片の音節受聴タ
イミング点から第2母音終端までの区間の変形後の長
さ、 tmp(i):選択されたリズムテンプレートベクトルの第i
番目の要素、 c( ):特殊な音節の場合のリズムテンプレート修正係
数、 syl(i+1):合成する単語のi+1番めの音節の種類、 tc(i+1):合成する単語のi+1番目の音節の第1母音
の開始点から音節受聴タイミング点までの長さ。
音の長さが、各音節の音節受聴タイミング点の間隔がリ
ズムテンプレートで指示される間隔に一致するように、
変形される。式では、次のように表現される。 tv2(i) = tmp(i)×c(syl(i+1))−tc(i+1) (1) ただし、 tv2(i):合成音声の第i番目のVCV素片の音節受聴タ
イミング点から第2母音終端までの区間の変形後の長
さ、 tmp(i):選択されたリズムテンプレートベクトルの第i
番目の要素、 c( ):特殊な音節の場合のリズムテンプレート修正係
数、 syl(i+1):合成する単語のi+1番めの音節の種類、 tc(i+1):合成する単語のi+1番目の音節の第1母音
の開始点から音節受聴タイミング点までの長さ。
【0026】また、ピッチ周波数に関しては、ステップ
58において、単語のモーラ数とアクセント型によって選
択されたピッチテンプレートに合うように、VCV素片
のピッチ周波数を次式によって変形する。 p(t) = p0(t){p1/p01+(p2/p02−p1/p01)t/t1}+ph(t) (2) ただし、 p(t):変形後の音声素片ピッチ周波数、 p0(t):変形前のピッチ素片ピッチ周波数、 p01:変形前の音声素片の第1母音開始位置のピッチ周
波数、 p02:変形前の音声素片の第2母音終端位置のピッチ周
波数、 p1:合成音声中で上記第1母音開始位置のピッチ周波数
(テンプレートの値)、 p2:合成音声中で上記第2母音終端位置のピッチ周波数
(テンプレートの値)、 ph(t):フレーズ成分ピッチ周波数、 t:p1を原点とする時刻、t1:p2の時刻。
58において、単語のモーラ数とアクセント型によって選
択されたピッチテンプレートに合うように、VCV素片
のピッチ周波数を次式によって変形する。 p(t) = p0(t){p1/p01+(p2/p02−p1/p01)t/t1}+ph(t) (2) ただし、 p(t):変形後の音声素片ピッチ周波数、 p0(t):変形前のピッチ素片ピッチ周波数、 p01:変形前の音声素片の第1母音開始位置のピッチ周
波数、 p02:変形前の音声素片の第2母音終端位置のピッチ周
波数、 p1:合成音声中で上記第1母音開始位置のピッチ周波数
(テンプレートの値)、 p2:合成音声中で上記第2母音終端位置のピッチ周波数
(テンプレートの値)、 ph(t):フレーズ成分ピッチ周波数、 t:p1を原点とする時刻、t1:p2の時刻。
【0027】また、パワー(波形振幅と等価)に関して
は、ステップ59において、次式の係数を波形に乗じるこ
とによって合成音声の音節毎に波形振幅を変形する。 amp(i) = pw0(i)×pwc(i) (3) ただし、 amp(i):単語のi番目の音節の波形振幅修正係数、 pw0(i):単語のi番目の音節の母音の平均パワー、 pwc(i):パワーテンプレートによるi番目の音節に対す
る修正係数。
は、ステップ59において、次式の係数を波形に乗じるこ
とによって合成音声の音節毎に波形振幅を変形する。 amp(i) = pw0(i)×pwc(i) (3) ただし、 amp(i):単語のi番目の音節の波形振幅修正係数、 pw0(i):単語のi番目の音節の母音の平均パワー、 pwc(i):パワーテンプレートによるi番目の音節に対す
る修正係数。
【0028】このpwc(i)は、事前に次式によって計算さ
れたものである。 pwc(i) = √(pwt(i)/pwmean) (4) ただし、 pwt(i):パワーテンプレートのi番目の母音の平均パワ
ー、 pwmean:全パワーテンプレートの母音の平均パワー。
れたものである。 pwc(i) = √(pwt(i)/pwmean) (4) ただし、 pwt(i):パワーテンプレートのi番目の母音の平均パワ
ー、 pwmean:全パワーテンプレートの母音の平均パワー。
【0029】次に、ステップ60において、このように変
形された音声素片同士を1〜数ピッチの範囲で傾斜加算
してつなぎあわせる。
形された音声素片同士を1〜数ピッチの範囲で傾斜加算
してつなぎあわせる。
【0030】以上のように、本発明の第1の実施の形態
の音声合成方法では、モーラ数およびアクセント型が一
致するテンプレートの韻律に合わせて合成音声素片を変
形して接続するようにしたので、自然な韻律をもった合
成音声が作成される。
の音声合成方法では、モーラ数およびアクセント型が一
致するテンプレートの韻律に合わせて合成音声素片を変
形して接続するようにしたので、自然な韻律をもった合
成音声が作成される。
【0031】(第2の実施の形態)本発明の第2の実施
の形態は、テンプレートの各音節の母音開始点の時間間
隔パターンと、合成音声素片の時間間隔のパターンが同
一になるようにしてリズム制御を行なう音声合成方法で
ある。
の形態は、テンプレートの各音節の母音開始点の時間間
隔パターンと、合成音声素片の時間間隔のパターンが同
一になるようにしてリズム制御を行なう音声合成方法で
ある。
【0032】本発明の第2の実施の形態の音声合成方法
が、第1の実施の形態と異なるところは、合成音声素片
の母音長を修正する基準点を音節の母音開始点とし、母
音開始点間隔をリズムテンプレートに合わせるようにし
た点である。
が、第1の実施の形態と異なるところは、合成音声素片
の母音長を修正する基準点を音節の母音開始点とし、母
音開始点間隔をリズムテンプレートに合わせるようにし
た点である。
【0033】以下、本発明の第2の実施の形態の音声合
成方法について、図4を参照しながら説明する。図4
は、本発明の第2の実施の形態における音声合成処理フ
ローを示す図である。
成方法について、図4を参照しながら説明する。図4
は、本発明の第2の実施の形態における音声合成処理フ
ローを示す図である。
【0034】ステップ61において、入力された漢字仮名
混じり文または読み仮名と韻律情報とから、単語毎の発
音表記が作成され、また、同時に韻律が計算される。
混じり文または読み仮名と韻律情報とから、単語毎の発
音表記が作成され、また、同時に韻律が計算される。
【0035】ステップ62において、単語の音声を合成す
るために必要な、発音表記に応じた音声素片が選択され
る。
るために必要な、発音表記に応じた音声素片が選択され
る。
【0036】ステップ63、64、65において、単語のモー
ラ数とアクセント型から、リズムテンプレート、ピッチ
テンプレート、パワーテンプレートが選択される。
ラ数とアクセント型から、リズムテンプレート、ピッチ
テンプレート、パワーテンプレートが選択される。
【0037】次にステップ66において、このリズムテン
プレートは、発音表記に特殊な音節が含まれる場合に
は、その区間の長さに修正係数をかけて調整される。特
殊な音節としては無声摩擦音、撥音、促音、長音、母音
連鎖などの他、単語間の区切り位置にある音節もこれに
含まれ、各々固有の区間長修正係数が割り当てられてい
る。メモリの容量を考慮して音節毎に修正係数を設ける
ことはしていない。
プレートは、発音表記に特殊な音節が含まれる場合に
は、その区間の長さに修正係数をかけて調整される。特
殊な音節としては無声摩擦音、撥音、促音、長音、母音
連鎖などの他、単語間の区切り位置にある音節もこれに
含まれ、各々固有の区間長修正係数が割り当てられてい
る。メモリの容量を考慮して音節毎に修正係数を設ける
ことはしていない。
【0038】この後ステップ67において、音声素片の母
音の長さが、各音節の母音開始点の間隔がリズムテンプ
レートで指示される間隔に一致するように、変形され
る。式では、次のように表現される。 tv2(i) = tmp(i)×c(syl(i+1))−tc(i+1) (5) ただし、 tv2(i):合成音声の第i番目のVCV素片の第2母音の
開始点から第2母音の終端までの区間の変形後の長さ、 tmp(i):選択されたリズムテンプレートベクトルの第i
番目の要素、 c( ):特殊な音節の場合のリズムテンプレート修正係
数、 syl(i+1):合成する単語のi+1番目の音節の種類、 tc(i+1):合成音声の第i+1番目のVCV素片の第1
母音の開始点から第2母音の開始点までの長さ。
音の長さが、各音節の母音開始点の間隔がリズムテンプ
レートで指示される間隔に一致するように、変形され
る。式では、次のように表現される。 tv2(i) = tmp(i)×c(syl(i+1))−tc(i+1) (5) ただし、 tv2(i):合成音声の第i番目のVCV素片の第2母音の
開始点から第2母音の終端までの区間の変形後の長さ、 tmp(i):選択されたリズムテンプレートベクトルの第i
番目の要素、 c( ):特殊な音節の場合のリズムテンプレート修正係
数、 syl(i+1):合成する単語のi+1番目の音節の種類、 tc(i+1):合成音声の第i+1番目のVCV素片の第1
母音の開始点から第2母音の開始点までの長さ。
【0039】また、ピッチ周波数に関しては、ステップ
68において、単語のモーラ数とアクセント型によって選
択されたピッチパターンに合うように、ピッチ周波数を
変形する。VCV素片の場合を例にとると、ピッチ周波
数を次式によって変形する。 p(t) = p0(t){p1/p01+(p2/p02−p1/p01)t/t1}+ph(t) (6) ただし、 p(t): 変形後の音声素片ピッチ周波数、 p0(t):変形前のピッチ素片ピッチ周波数、 p01: 変形前の音声素片の第1母音開始位置のピッチ
周波数、 p02: 変形前の音声素片の第2母音終端位置のピッチ
周波数、 p1: 合成音声中で上記第1母音開始位置のピッチ周
波数(テンプレートの値)、 p2: 合成音声中で上記第2母音終端位置のピッチ周
波数(テンプレートの値)、 ph(t):フレーズ成分ピッチ周波数、 t: p1を原点とする時刻、 t1: p2の時刻。
68において、単語のモーラ数とアクセント型によって選
択されたピッチパターンに合うように、ピッチ周波数を
変形する。VCV素片の場合を例にとると、ピッチ周波
数を次式によって変形する。 p(t) = p0(t){p1/p01+(p2/p02−p1/p01)t/t1}+ph(t) (6) ただし、 p(t): 変形後の音声素片ピッチ周波数、 p0(t):変形前のピッチ素片ピッチ周波数、 p01: 変形前の音声素片の第1母音開始位置のピッチ
周波数、 p02: 変形前の音声素片の第2母音終端位置のピッチ
周波数、 p1: 合成音声中で上記第1母音開始位置のピッチ周
波数(テンプレートの値)、 p2: 合成音声中で上記第2母音終端位置のピッチ周
波数(テンプレートの値)、 ph(t):フレーズ成分ピッチ周波数、 t: p1を原点とする時刻、 t1: p2の時刻。
【0040】また、パワー(波形振幅と等価)に関して
は、ステップ69において、次式の係数を波形に乗じるこ
とによって合成音声の音節毎に波形振幅を変形する。 amp(i) = pw0(i)×pwc(i) (7) ただし、 amp(i):単語のi番目の音節の波形振幅修正係数、 pw0(i):単語のi番目の音節の母音の平均パワー、 pwc(i):パワーテンプレートによるi番目の音節に対す
る修正係数。
は、ステップ69において、次式の係数を波形に乗じるこ
とによって合成音声の音節毎に波形振幅を変形する。 amp(i) = pw0(i)×pwc(i) (7) ただし、 amp(i):単語のi番目の音節の波形振幅修正係数、 pw0(i):単語のi番目の音節の母音の平均パワー、 pwc(i):パワーテンプレートによるi番目の音節に対す
る修正係数。
【0041】このpwc(i)は、事前に次式によって計算さ
れたものである。 pwc(i) = √(pwt(i)/pwmean) (8) ただし、 pwt(i):パワーテンプレートのi番目の母音の平均パワ
ー、 pwmean:全パワーテンプレートの母音の平均パワー。
れたものである。 pwc(i) = √(pwt(i)/pwmean) (8) ただし、 pwt(i):パワーテンプレートのi番目の母音の平均パワ
ー、 pwmean:全パワーテンプレートの母音の平均パワー。
【0042】次にステップ70において、このように変形
された音声素片同士を1〜数ピッチの範囲で傾斜加算し
てつなぎあわせる。
された音声素片同士を1〜数ピッチの範囲で傾斜加算し
てつなぎあわせる。
【0043】以上のように、本発明の第2の実施の形態
の音声合成方法では、テンプレートの各音節の母音開始
点の時間間隔パターンと、合成音声素片の時間間隔パタ
ーンが同一になるようにしてリズム制御を行なうので、
より自然なリズムの合成音声が作成される。
の音声合成方法では、テンプレートの各音節の母音開始
点の時間間隔パターンと、合成音声素片の時間間隔パタ
ーンが同一になるようにしてリズム制御を行なうので、
より自然なリズムの合成音声が作成される。
【0044】(第3の実施の形態)本発明の第3の実施
の形態は、文字列変換手段と韻律テンプレート選択手段
と韻律テンプレート修正手段と音声素片選択手段と音声
素片メモリと韻律テンプレートメモリと音声素片変形手
段と音声素片接続手段とを有する音声合成装置である。
の形態は、文字列変換手段と韻律テンプレート選択手段
と韻律テンプレート修正手段と音声素片選択手段と音声
素片メモリと韻律テンプレートメモリと音声素片変形手
段と音声素片接続手段とを有する音声合成装置である。
【0045】図5は、本発明による第3の実施の形態の
音声合成装置のブロック図である。入力された漢字仮名
混じり文または韻律情報つきの読みがなは、変換手段71
において単語に分解され、各単語のモーラ数、アクセン
ト型が決定される。このモーラ数とアクセント型は、韻
律テンプレート選択手段72に入力され、韻律テンプレー
トメモリ76から最適なリズムテンプレート、ピッチテン
プレート、パワーテンプレートが選択される。これらの
テンプレートは、単語や文節や文を想起しながら、単音
節を連続的に発声した音声から抽出されたものである。
音声合成装置のブロック図である。入力された漢字仮名
混じり文または韻律情報つきの読みがなは、変換手段71
において単語に分解され、各単語のモーラ数、アクセン
ト型が決定される。このモーラ数とアクセント型は、韻
律テンプレート選択手段72に入力され、韻律テンプレー
トメモリ76から最適なリズムテンプレート、ピッチテン
プレート、パワーテンプレートが選択される。これらの
テンプレートは、単語や文節や文を想起しながら、単音
節を連続的に発声した音声から抽出されたものである。
【0046】次に、合成しようとする音節が無声摩擦
音、促音、撥音、長音、母音連鎖であったり、単語間の
区切りに位置するものである場合には、韻律テンプレー
ト修正手段73において、これらの音節に固有の修正係数
がテンプレートの該当箇所に乗じられ、テンプレートの
修正が為される。
音、促音、撥音、長音、母音連鎖であったり、単語間の
区切りに位置するものである場合には、韻律テンプレー
ト修正手段73において、これらの音節に固有の修正係数
がテンプレートの該当箇所に乗じられ、テンプレートの
修正が為される。
【0047】これと並行して、音声素片選択手段74にお
いて、発音表記に応じた音声素片が音声素片メモリ75か
ら選択される。これらの素片はCV(子音-母音連
鎖)、VCV(母音-子音-母音連鎖)、V(母音)の3
種類からなる。これらの素片は、音声素片変形手段77に
おいて、テンプレートに合わせて変形される。すなわ
ち、VCV素片を例にとると、素片の長さに関しては、
以下の式によって、第2母音の長さが変形される。 tv2(i) = tmp(i)×c(syl(i+1))−tc(i+1) (9) ただし、 tv2(i):合成音声の第i番目のVCV素片の音節受聴タ
イミング点から第2母音終端まで区間の変形後の長さ、 tmp(i):選択されたリズムテンプレートベクトルの第i
番目の要素、 c( ):特殊な音節の場合のリズムテンプレート修正係
数、 syl(i+1):合成する単語のi+1番めの音節の種類、 tc(i+1):合成する単語のi+1番目の音節の第1母音
の開始点から音節受聴タイミング点までの長さ。
いて、発音表記に応じた音声素片が音声素片メモリ75か
ら選択される。これらの素片はCV(子音-母音連
鎖)、VCV(母音-子音-母音連鎖)、V(母音)の3
種類からなる。これらの素片は、音声素片変形手段77に
おいて、テンプレートに合わせて変形される。すなわ
ち、VCV素片を例にとると、素片の長さに関しては、
以下の式によって、第2母音の長さが変形される。 tv2(i) = tmp(i)×c(syl(i+1))−tc(i+1) (9) ただし、 tv2(i):合成音声の第i番目のVCV素片の音節受聴タ
イミング点から第2母音終端まで区間の変形後の長さ、 tmp(i):選択されたリズムテンプレートベクトルの第i
番目の要素、 c( ):特殊な音節の場合のリズムテンプレート修正係
数、 syl(i+1):合成する単語のi+1番めの音節の種類、 tc(i+1):合成する単語のi+1番目の音節の第1母音
の開始点から音節受聴タイミング点までの長さ。
【0048】また、ピッチ周波数に関しては、ピッチテ
ンプレートに合うように、VCV素片のピッチ周波数を
次式によって変形する。 p(t) = p0(t){p1/p01+(p2/p02−p1/p01)t/t1}+ph(t) (10) ただし、 p(t):変形後の音声素片ピッチ周波数、 p0(t):変形前のピッチ素片ピッチ周波数、 p01:変形前の音声素片の第1母音開始位置のピッチ周
波数、 p02:変形前の音声素片の第2母音終端位置のピッチ周
波数、 p1:合成音声中で上記第1母音開始位置のピッチ周波数
(テンプレートの値)、 p2:合成音声中で上記第2母音終端位置のピッチ周波数
(テンプレートの値)、 ph(t):フレーズ成分ピッチ周波数、 t:p1を原点とする時刻、 t1:p2の時刻。
ンプレートに合うように、VCV素片のピッチ周波数を
次式によって変形する。 p(t) = p0(t){p1/p01+(p2/p02−p1/p01)t/t1}+ph(t) (10) ただし、 p(t):変形後の音声素片ピッチ周波数、 p0(t):変形前のピッチ素片ピッチ周波数、 p01:変形前の音声素片の第1母音開始位置のピッチ周
波数、 p02:変形前の音声素片の第2母音終端位置のピッチ周
波数、 p1:合成音声中で上記第1母音開始位置のピッチ周波数
(テンプレートの値)、 p2:合成音声中で上記第2母音終端位置のピッチ周波数
(テンプレートの値)、 ph(t):フレーズ成分ピッチ周波数、 t:p1を原点とする時刻、 t1:p2の時刻。
【0049】また、パワー(波形振幅と等価)に関して
は次式の係数を波形に乗じることによって合成音声の音
節毎に波形振幅を変形する。 amp(i) = pw0(i)×pwc(i) (11) ただし、 amp(i):単語のi番目の音節の波形振幅修正係数、 pw0(i):単語のi番目の音節の母音の平均パワー、 pwc(i):パワーテンプレートによるi番目の音節に対す
る修正係数。
は次式の係数を波形に乗じることによって合成音声の音
節毎に波形振幅を変形する。 amp(i) = pw0(i)×pwc(i) (11) ただし、 amp(i):単語のi番目の音節の波形振幅修正係数、 pw0(i):単語のi番目の音節の母音の平均パワー、 pwc(i):パワーテンプレートによるi番目の音節に対す
る修正係数。
【0050】このpwc(i)は、事前に次式によって計算さ
れたものである。 pwc(i) = √(pwt(i)/pwmean) (12) ただし、 pwt(i):パワーテンプレートのi番目の母音の平均パワ
ー、 pwmean:全パワーテンプレートの母音の平均パワー。
れたものである。 pwc(i) = √(pwt(i)/pwmean) (12) ただし、 pwt(i):パワーテンプレートのi番目の母音の平均パワ
ー、 pwmean:全パワーテンプレートの母音の平均パワー。
【0051】次に、このように変形された音声素片同士
は、音声素片接続手段78において、それぞれ1〜数ピッ
チの範囲で傾斜加算して接続される。
は、音声素片接続手段78において、それぞれ1〜数ピッ
チの範囲で傾斜加算して接続される。
【0052】以上のように、本発明の第3の実施の形態
の音声合成装置では、入力文字列を表音表記に変換する
手段と、韻律テンプレート選択手段と、韻律テンプレー
ト修正手段と、音声素片選択手段と、音声素片メモリ
と、韻律テンプレートメモリと、音声素片変形手段と、
音声素片接続手段とを有する構成としたので、テンプレ
ートのリズムやピッチ周波数やパワーに合わせて音声素
片を変形して、より自然な合成音声が生成される。
の音声合成装置では、入力文字列を表音表記に変換する
手段と、韻律テンプレート選択手段と、韻律テンプレー
ト修正手段と、音声素片選択手段と、音声素片メモリ
と、韻律テンプレートメモリと、音声素片変形手段と、
音声素片接続手段とを有する構成としたので、テンプレ
ートのリズムやピッチ周波数やパワーに合わせて音声素
片を変形して、より自然な合成音声が生成される。
【0053】
【発明の効果】以上のように本発明によれば、テンプレ
ートの韻律に合うように音声素片を修正し接続して音声
合成をするので、より自然な韻律の音声を合成できると
いう効果を有する。
ートの韻律に合うように音声素片を修正し接続して音声
合成をするので、より自然な韻律の音声を合成できると
いう効果を有する。
【0054】また、単語や文節や文を想起しつつ単音節
を連続的に発声した音声からリズムとピッチとパワーか
ら成る韻律成分を抽出してテンプレートとするので、テ
ンプレートの作成が容易にできるという効果を有する。
を連続的に発声した音声からリズムとピッチとパワーか
ら成る韻律成分を抽出してテンプレートとするので、テ
ンプレートの作成が容易にできるという効果を有する。
【0055】また、テンプレートの各音節の時間間隔パ
ターンと合成音声素片の時間間隔パターンが同一になる
ようにリズム制御を行なうので、自然なリズムの音声を
合成できるという効果を有する。
ターンと合成音声素片の時間間隔パターンが同一になる
ようにリズム制御を行なうので、自然なリズムの音声を
合成できるという効果を有する。
【0056】また、テンプレートの各音節の特定箇所の
ピッチ周波数と、合成音声の音節の特定箇所のピッチ周
波数が一致するように合成音声素片のピッチ周波数を変
形するので、自然なピッチの音声を合成できるという効
果を有する。
ピッチ周波数と、合成音声の音節の特定箇所のピッチ周
波数が一致するように合成音声素片のピッチ周波数を変
形するので、自然なピッチの音声を合成できるという効
果を有する。
【0057】また、全テンプレートの音節の母音部分の
パワーの平均値と、合成しようとする音声のテンプレー
トの各音節の母音部分のパワーの比の平方根を、合成音
声の当該箇所の音節の波形に掛けるようにしたので、自
然な抑揚の音声を合成できるという効果を有する。
パワーの平均値と、合成しようとする音声のテンプレー
トの各音節の母音部分のパワーの比の平方根を、合成音
声の当該箇所の音節の波形に掛けるようにしたので、自
然な抑揚の音声を合成できるという効果を有する。
【図1】本発明のリズムテンプレート抽出、ピッチテン
プレート、パワーテンプレートの概念図、
プレート、パワーテンプレートの概念図、
【図2】本発明の音節受聴タイミング点一覧表、
【図3】本発明の第1の実施の形態の音声合成方法の処
理フロー図、
理フロー図、
【図4】本発明の第2の実施の形態の音声合成方法の処
理フロー図、
理フロー図、
【図5】本発明の第3の実施の形態の音声合成装置のブ
ロック図、
ロック図、
【図6】従来の音声合成方法のリズム制御の概念図、
【図7】従来の音声合成装置のブロック図である。
11 先行音節 12 後続音節 21 音声ファイル 22 特徴量抽出部 23 ラベル付与部 24 音韻リスト作成部 25 特徴量ファイル 26 ラベルファイル 27 統計処理部 28 ピッチパターン作成部 31〜38 音節受聴タイミング点間隔 39 ピッチテンプレート 40 パワーテンプレート 51、61 入力文を発音表記に変換しモーラ数とアクセン
ト型を決定するステップ 52、62 音声素片を選択するステップ 53、63 リズムテンプレートを選択するステップ 54、64 ピッチテンプレートを選択するステップ 55、65 パワーテンプレートを選択するステップ 56、66 リズムテンプレートを修正するステップ 57、67 音声素片の長さを変形するステップ 58、68 音声素片のピッチ周波数を変形するステップ 59、69 音声素片のパワーを変形するステップ 60、70 音声素片同士を接続するステップ 71 入力文字列を発音表記に変換する手段 72 韻律テンフ゜レート選択手段 73 韻律テンフ゜レート修正手段 74 音声素片選択手段 75 音声素片メモリ 76 韻律テンプレートメモリ 77 音声素片変形手段 78 音声素片接続手段
ト型を決定するステップ 52、62 音声素片を選択するステップ 53、63 リズムテンプレートを選択するステップ 54、64 ピッチテンプレートを選択するステップ 55、65 パワーテンプレートを選択するステップ 56、66 リズムテンプレートを修正するステップ 57、67 音声素片の長さを変形するステップ 58、68 音声素片のピッチ周波数を変形するステップ 59、69 音声素片のパワーを変形するステップ 60、70 音声素片同士を接続するステップ 71 入力文字列を発音表記に変換する手段 72 韻律テンフ゜レート選択手段 73 韻律テンフ゜レート修正手段 74 音声素片選択手段 75 音声素片メモリ 76 韻律テンプレートメモリ 77 音声素片変形手段 78 音声素片接続手段
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平8−63187(JP,A) 特開 平7−44186(JP,A) 特開 平3−276195(JP,A) 蓑輪利光、新居康彦、西村洋文,単一 音節連鎖発生を基とする単語音声合成用 韻律制御の検討,日本音響学会講演論文 集,日本,日本音響学会,1997年9月, 平成9年秋季,239−240 (58)調査した分野(Int.Cl.7,DB名) G10L 13/08
Claims (2)
- 【請求項1】 単語や文節を想起しつつ同じ単音節を連
続的に発声した音声からリズムとピッチとパワーから成
る韻律成分を抽出し、音節の母音部分の全パワーの平均
値と、合成しようとする各音節の母音部分のパワーとの
比の平方根を、合成音声の当該箇所の音節の波形に掛け
てテンプレートとして事前に蓄積しておき、前記テンプ
レートの中から、モーラ数およびアクセント型が合成し
ようとする音声中の単語または文節と同じテンプレート
を選択して、選択した前記テンプレートの韻律に合わせ
て合成音声素片を変形して接続することを特徴とする音
声合成方法。 - 【請求項2】 漢字仮名混じり文または韻律記号つきの
読みがなの文字列を入力する手段と、前記文字列を解析
して単語に分解する手段と、前記各単語のモーラ数とア
クセント型を判定する手段と、前記単語に基づいて合成
に必要な音声合成素片を選択する手段と、単語や文節を
想起しつつ、同じ単音節を連続的に発声した音声から抽
出した韻律成分に、音節の母音部分の全パワーの平均値
と、合成しようとする各音節の母音部分のパワーとの比
の平方根を、合成音声の当該箇所の音節の波形に掛けて
テンプレートとして格納した記憶手段と、前記テンプレ
ートのうちから、合成しようとする音声中の単語または
文節とモーラ数およびアクセント型が同じテンプレート
を選択する手段と、選択した前記テンプレートの韻律に
合わせて合成音声素片を変形して接続する手段とを有す
ることを特徴とする音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26510297A JP3308875B2 (ja) | 1997-09-12 | 1997-09-12 | 音声合成方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26510297A JP3308875B2 (ja) | 1997-09-12 | 1997-09-12 | 音声合成方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1185192A JPH1185192A (ja) | 1999-03-30 |
JP3308875B2 true JP3308875B2 (ja) | 2002-07-29 |
Family
ID=17412642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP26510297A Expired - Fee Related JP3308875B2 (ja) | 1997-09-12 | 1997-09-12 | 音声合成方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3308875B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6567372B2 (ja) * | 2015-09-15 | 2019-08-28 | 株式会社東芝 | 編集支援装置、編集支援方法及びプログラム |
-
1997
- 1997-09-12 JP JP26510297A patent/JP3308875B2/ja not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
蓑輪利光、新居康彦、西村洋文,単一音節連鎖発生を基とする単語音声合成用韻律制御の検討,日本音響学会講演論文集,日本,日本音響学会,1997年9月,平成9年秋季,239−240 |
Also Published As
Publication number | Publication date |
---|---|
JPH1185192A (ja) | 1999-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3361066B2 (ja) | 音声合成方法および装置 | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
JP3587048B2 (ja) | 韻律制御方法及び音声合成装置 | |
US6212501B1 (en) | Speech synthesis apparatus and method | |
Aida–Zade et al. | The main principles of text-to-speech synthesis system | |
Bonafonte Cávez et al. | A billingual texto-to-speech system in spanish and catalan | |
JPH01284898A (ja) | 音声合成方法 | |
JP3308875B2 (ja) | 音声合成方法および装置 | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP3437064B2 (ja) | 音声合成装置 | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JPH06318094A (ja) | 音声規則合成装置 | |
JPH037995A (ja) | 歌音声合成データの作成装置 | |
JP3522005B2 (ja) | 音声合成装置 | |
JP3397406B2 (ja) | 音声合成装置及び音声合成方法 | |
Akinwonmi et al. | A prosodic text-to-speech system for yorùbá language | |
JP2995814B2 (ja) | 音声合成方法 | |
JP2703253B2 (ja) | 音声合成装置 | |
JPH09146576A (ja) | 原文対音声の人工的神経回路網にもとづく韻律の合成装置 | |
Davaatsagaan et al. | Diphone-based concatenative speech synthesis system for mongolian | |
JP3318290B2 (ja) | 音声合成方法および装置 | |
Repe et al. | Natural Prosody Generation in TTS for Marathi Speech Signal | |
JPH06149283A (ja) | 音声合成装置 | |
JP5012444B2 (ja) | 韻律生成装置、韻律生成方法、および、韻律生成プログラム | |
Ding et al. | Natural tone contours in a mandarin chinese speech synthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090517 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |