JPH11249676A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH11249676A
JPH11249676A JP10047471A JP4747198A JPH11249676A JP H11249676 A JPH11249676 A JP H11249676A JP 10047471 A JP10047471 A JP 10047471A JP 4747198 A JP4747198 A JP 4747198A JP H11249676 A JPH11249676 A JP H11249676A
Authority
JP
Japan
Prior art keywords
time length
spectrum pattern
spectrum
pattern
contraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10047471A
Other languages
English (en)
Inventor
Tomoki Hamagami
知樹 濱上
Mitsuo Furumura
光夫 古村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP10047471A priority Critical patent/JPH11249676A/ja
Publication of JPH11249676A publication Critical patent/JPH11249676A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声合成装置において、スペクトルパタンの
データベースサイズを抑制しつつ、任意の発話速度に対
して自然な音韻を実現する。 【解決手段】 異なる代表時間長に対応したスペクトル
パタンを格納する複数のデータベース100〜104か
ら、目的継続時間長に近い時間長のものを2つ選択す
る。それらから取り出した2つのスペクトルパタン間の
非線形の対応関係をDPマッチングにより求める(S1
30)。この対応関係を分析して線形成分であるマクロ
パス、残りの非線形成分であるミクロパスが得られる
(S135)。目的時間長に対するマクロパスは時間長
の比を傾きとする直線として求められる。目的時間長に
対するミクロパスは、対応関係から得られる各点での値
を補間して求められる(S140)。これらを合成した
DPパスに基づいて、基準スペクトルパタンの非線形伸
縮が行われ、目的時間長のスペクトルパタンが得られ
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声を規則合成する
音声合成装置、特に自然で滑らかな音韻変化を生成し合
成音声の品質を向上する音声合成装置に関する。
【0002】
【従来の技術】音声合成の方式は、再生方式、分析合成
方式、及び規則合成方式の3つに大きく分類できる。再
生方式は、予め記録した単語単位の音声波形を接続して
再生する方式である。分析合成方式は、例えば単語や文
といった単位のある程度まとまった音声データを予め分
析し、音声の冗長性を取り除き、圧縮された形のパラメ
ータで蓄えておき、必要に応じて合成装置にて音声を合
成する方式である。規則合成方式は、単語構成、文型な
どによって多様に変化する文の韻律的特徴を規則により
表現する高度な合成方式であり、細かな音声単位を基
に、これを組合せ、発話速度(又は継続時間長)に応じ
て個々の単位パラメータの長さを調整し、変形、アクセ
ントやイントネーション、パワーの変化を規則によって
導出する。この方式によれば任意の文字から高品質の合
成音声を生成することができる。
【0003】音声は、音色、基本周波数の高さ、及び強
度の3要素に分解して捉えることができる。つまり、こ
れら3要素を決定することにより音声を合成することが
できる。スペクトルパタンは、これらのうち音色を表す
情報である。スペクトルパタンは、日本語テキスト(漢
字仮名交じり文)を構成する各音韻の周波数スペクトル
の包絡パタンを、日本語テキストから生成される音韻記
号列に従った順序で結合して生成される。このスペクト
ルパタンは、合成音声の音韻性そのものや滑らかさに影
響を及ぼすため、その生成は規則合成方式における重要
な技術の1つである。
【0004】図8は、従来のスペクトルパタン生成方式
における処理の流れを示す模式図である。従来より行わ
れているスペクトルパタンの生成方法は、日本語テキス
トから生成された音韻記号列をVCV音節といった所定
の音節単位に分解する(S10)。次に当該音節単位毎
のスペクトルパタンをデータベース15から検索し(S
20)、これらを滑らかに結合した後(S25)、各音
節単位のスペクトルパタンを当該音節単位の音韻継続時
間長に応じて線形に伸縮する(S30)というものであ
った。ここで用いられる音節単位は、母音−子音−母音
の連鎖パタンであるVCV音節や、子音−母音の連鎖パ
タンであるCV音節である。
【0005】また、他の従来方法として、例えば、「音
韻環境に基づくクラスタリングによる規則合成法」(中
嶋 他、電子情報通信学会論文誌D−II Vol.J72-D-II
No.8pp.1174、1989年8月)に示されるような合成単位を
一定の音節単位ではなく可変としたもの(可変単位合成
方式と称する。)もあった。この方式は、結合要素とな
る音韻単位の種類を例えばVCV音節といった一定の連
鎖パタンに限ることなく、発話速度や音韻環境条件に応
じて拡張したデータベースを構築することにより、伸縮
操作なしに自然性の高いスペクトルパタンを得ようとす
るものである。また、他の可変単位合成方式としては、
例えば、「動的特徴を用いたHMMに基づく音声合成」
(益子 他、電子情報通信学会論文誌D−II Vol.J79-D
-II No.12 pp.2184、1996年12月)に示されるような、
スペクトルパタンの動的特徴を抽出・蓄積し、スペクト
ルパタンの生成においてその動的特徴を反映させること
により自然性の向上を図るものも提案されている。
【0006】
【発明が解決しようとする課題】音節単位のデータベー
スを用いた従来の合成方法においては、与えられた音節
単位の継続時間長に対しては自然な音韻を実現するスペ
クトルパタンが得られる。しかし、音節単位の継続時間
長は発話速度によって変化し、その他、音韻環境や隣接
音韻の影響による音韻継続時間長の変動などによっても
変化する。従来の音節単位のデータベースを用いたスペ
クトルパタンの合成方法は、このような変化に対応した
音節単位の任意の継続時間長に対するスペクトルパタン
を、音節単位毎の所与の継続時間長のスペクトルパタン
を当該単位内で単純に線形伸縮して生成するため、上記
要因等による音節単位の継続時間長の変化に伴うスペク
トルパタン変化の推移が不自然になるおそれがあるとい
った問題を有していた。つまり、例えば、文章全体又は
部分で発話速度を変化させる場合に、自然な音韻性が得
られないという問題や、音韻環境や隣接音韻の影響を補
償した音韻継続時間長を生成しても、その補償効果を十
分に音韻の自然さに反映することが容易でないという問
題があった。
【0007】また、音韻単位の種類を拡大する可変単位
合成方式では、データベースの規模が大きくなるといっ
た問題や、単位同士の接続組合せパタンが増えることに
より、各スペクトルパタンの端部の調整が難しくなり接
続部で歪みが発生しやすくなるという問題や、特徴を抽
出するための学習データの増加に伴い学習時間がかかる
といった問題があった。
【0008】また、伸縮規則を適用する区間(セグメン
テーション)を決定するためのラベリングを人手により
行うことは、その者の主観に依存する部分も大きく、区
間の定義が不正確、不安定になる。そのため、例えば異
なる者のラベリングに基づいて作成された規則同士は異
なるものとなり、普遍性がないという問題がある。例え
ば、音節単位といった比較的大きな単位では人に依存す
る誤差は小さいと考えられるが、より微細な区間につい
てのラベリングでは上記問題が顕著になるおそれがあ
る。
【0009】本発明は上記問題を解決することを目的と
したものであり、音韻単位のデータベースを用いた合成
方式において、データベースの規模を抑制し、かつ学習
を行うことなく、音節単位の接続歪みが生じにくく、自
然な合成音声を得ることができる音声合成装置を提供す
ることを目的とする。
【0010】
【課題を解決するための手段】本発明に係る音声合成装
置は、同一の音韻区画に対する異なる代表継続時間長に
対応した複数の代表時間長スペクトルパタンそれぞれの
時間変化同士の対応関係に基づき、いずれかの前記代表
時間長スペクトルパタンの前記時間変化を目的継続時間
長に応じて非線形伸縮変換して、前記目的継続時間長に
対応した目的時間長スペクトルパタンを生成するスペク
トルパタン生成手段を有し、当該目的時間長スペクトル
パタンを用いて音声合成するものである。
【0011】本発明によれば、音韻記号列を区分した音
韻区画毎にスペクトルパタンが生成され、接続され、そ
のスペクトルパタンを用いて音声が規則合成される。音
韻区画は、例えばVCV音節といった音節単位である。
同一の音韻記号列を含んだ音韻区画を異なる継続時間
長、すなわち異なる発話速度、音韻継続時間長で発声し
た場合、一般にそれら異なる継続時間長に対応するスペ
クトルパタンは互いに時間軸を継続時間長に応じて単純
に比例伸縮して得られる相似形とはならない。つまり、
継続時間長が異なった場合、一般にスペクトルパタンの
時間的変化(ラベル付けされた各点)の順序は維持され
るが、スペクトルパタンの各部分は時間軸方向に必ずし
も一様に伸縮しない。本発明はこの点に鑑み、複数の代
表的な継続時間長(代表継続時間長)それぞれについて
の同一音韻区画のスペクトルパタン(代表時間長スペク
トルパタン)間での時間変化同士の対応関係に基づい
て、所望の目的継続時間長に対応した目的時間長スペク
トルパタンを生成する。
【0012】複数のスペクトルパタンの時間変化同士の
対応関係は、代表時間長スペクトルパタン間での時間軸
の変換関係を表し、例えば、第一の代表時間長スペクト
ルパタンのその先頭からのある時刻t1におけるスペク
トルが、第二の代表時間長スペクトルパタンのどの時刻
t2に現れるかというものである。例えば2つの代表時
間長スペクトルパタン間の対応関係に基づく場合、例え
ば目的継続時間長が第一の代表継続時間長と第二の代表
継続時間長との間の値であるときは、第一の代表時間長
スペクトルパタンのある時刻t1に対応するスペクトル
が目的時間長スペクトルパタン上に現れる時刻tは、例
えばt1とt2との間の値に定めることができ、時刻tは
目的継続時間長が第一の代表継続時間長に近いほど、時
刻t1に近くなり、目的継続時間長が第二の代表継続時
間長に近いほど、時刻t2に近くなる。時刻tを定める
ために用いられる時間変化の対応関係は、一般には2つ
以上の異なる代表継続時間長に対応した代表時間長スペ
クトルパタン相互間のものであり、必ずしも2つの代表
時間長スペクトルパタン間のものに限られない。2つの
代表時間長スペクトルパタンの対応時刻t1、t2から目
的時間長スペクトルパタンの対応時刻tを定める方法に
は、例えば目的継続時間長に応じたt1、t2の線形補間
がある。また、3つ以上の代表時間長スペクトルパタン
の対応時刻t1、t2、、…、tiから目的時間長スペク
トルパタンの対応時刻tを定める場合には、例えば高次
関数を用いた補間を用いることができる。
【0013】代表時間長スペクトルパタン間の時間変化
の対応関係から、代表時間長スペクトルパタンの時間軸
から目的時間長スペクトルパタンの時間軸への変換関係
が定められる。目的時間長スペクトルパタンは、この変
換関係に基づいて、ある代表時間長スペクトルパタンを
時間軸方向に関して伸縮変換することにより得られる。
上述したように一般にある継続時間長の代表時間長スペ
クトルパタンに対する他の継続時間長の代表時間長スペ
クトルパタンの伸縮が不均一であることから、目的時間
長スペクトルパタンの時間軸の伸縮も不均一である。つ
まり、例えば、目的継続時間長が第一の代表継続時間長
のα倍になった場合、伸縮が一様であれば第一の代表時
間長スペクトルパタンの時刻t1と目的時間長スペクト
ルパタンの時刻tとの間にはt=α・t1という線形関
係が成り立つのであるが、一般には上記不均一性により
このような線形関係は成り立たず、代表時間長スペクト
ルパタンと目的時間長スペクトルパタンとは非線形の伸
縮変換により関係付けられる。本発明はこの一般的な場
合である非線形伸縮変換に対応することにより、滑らか
で自然な合成音声を得るという目的を達成する。
【0014】本発明の好適な態様は、前記スペクトルパ
タン生成手段が、前記音韻区画の種類毎に前記複数の代
表時間長スペクトルパタンを格納したスペクトルパタン
記憶手段と、前記目的継続時間長に応じて前記複数の代
表時間長スペクトルパタンのいずれかを選択する基準ス
ペクトルパタン選択手段と、前記スペクトルパタン記憶
手段に格納された前記代表時間長スペクトルパタンに基
づいて、前記各音韻区画毎に前記複数の代表時間長スペ
クトルパタンそれぞれの時間変化同士の前記対応関係を
生成する対応関係生成手段と、前記対応関係に基づく前
記音韻区画内での非線形伸縮変換を、前記目的継続時間
長に応じて前記基準スペクトルパタンに施す非線形伸縮
手段とを有するものである。また本発明の他の好適な態
様は、上記態様における対応関係生成手段に代えて、前
記音韻区画の種類毎に前記複数の代表時間長スペクトル
パタンそれぞれの時間変化同士の前記対応関係を格納し
た対応関係記憶手段を有するものである。これらの態様
において、基準スペクトルパタンは、例えば、その継続
時間長が目的継続時間長に近いものを採用するのが好適
である。
【0015】本発明の別の好適な態様は、前記スペクト
ルパタン生成手段が、前記音韻区画の種類毎の前記複数
の代表時間長スペクトルパタンのうち基準となる基準ス
ペクトルパタンを格納したスペクトルパタン記憶手段
と、前記音韻区画の種類毎に前記基準スペクトルパタン
と他の前記代表時間長スペクトルパタンと間での時間変
化の前記対応関係を格納した対応関係記憶手段と、前記
対応関係に基づく前記音韻区画内での非線形伸縮変換
を、前記目的継続時間長に応じて前記基準スペクトルパ
タンに施す非線形伸縮手段とを有するものである。本態
様において、特に基準スペクトルパタンには、音韻情報
の欠落が少ない発話速度が遅いものを採用するのが好適
である。
【0016】他の本発明に係る音声合成装置において
は、前記複数の代表時間長スペクトルパタンそれぞれの
時間変化同士の前記対応関係は、当該代表時間長スペク
トルパタンの前記継続時間長に比例した線形伸縮成分
と、当該線形伸縮成分を除いた非線形伸縮成分とに分解
され、前記非線形伸縮変換は、前記線形伸縮成分を前記
継続時間長に応じて補間して補間線形伸縮成分を求め、
前記非線形伸縮成分を前記継続時間長に応じて補間して
補間非線形伸縮成分を求め、前記補間線形伸縮成分と前
記補間非線形伸縮成分とを合成する。
【0017】本発明に係る音声合成装置は、前記複数の
代表時間長スペクトルパタンそれぞれの時間変化同士の
前記対応関係が、DPマッチング(動的計画法)により
求められるものである。
【0018】本発明によれば、DPマッチングを用いて
対応関係を定めることにより、前記代表時間長スペクト
ルパタンのある時刻に対応する他のスペクトルパタン上
での時刻が客観的・定量的に決定される。
【0019】
【発明の実施の形態】[実施の形態1]以下、本発明の
実施の形態を図面を参照して説明する。図1は本実施形
態に係る日本語音声合成装置のブロック構成図である。
本音声合成装置は従来同様に、電子化された日本語テキ
ストの文字データから合成音声を規則合成して出力する
ものである。
【0020】テキスト解析処理部52は、入力された日
本語テキストの言語解析結果を出力する。この解析結果
には、音声合成処理に必要なアクセントの情報、フレー
ズの境界、ポーズ、母音の無声化といった発音情報を加
えた音韻記号列や、フレーズやアクセント句の分類結果
が含まれている。
【0021】この言語解析結果は音韻継続時間長生成部
54に入力される。音韻継続時間長生成部54は、目的
の発話速度を実現する音韻の時間長情報を音韻記号列に
基づいて音節や音素に付加し、これをスペクトルパタン
生成部56、音源振幅パタン生成部58及びピッチパタ
ン生成部60に出力する。
【0022】本実施形態の特徴的構成要素であるスペク
トルパタン生成部56は、音韻結合規則により、母音・
子音といった音韻の種類からデータベースを検索し、各
音韻のスペクトルパタンを結合し、一連の新たなスペク
トルパタンを生成して出力するものであり、これについ
ては後に詳述する。
【0023】音源振幅パタン生成部58は、音声のパワ
ー包絡をパワーに関する規則により決定する。ピッチパ
タン生成部60は、韻律制御についての規則からピッチ
パタンを生成するものである。
【0024】音源生成部62は、音源振幅パタン生成部
58からのパワーパタンと、ピッチパタン生成部60か
らのピッチパタンとを入力とし、音源情報を生成する。
音声合成部64は、スペクトルパタン生成部56から入
力されるスペクトルパタンによって、音源生成部62か
らの音源情報を変調して音色を付加し合成音声を生成す
る。
【0025】図2は、本実施形態に係る音声合成装置の
スペクトルパタン生成部56の処理を説明する模式図で
ある。
【0026】スペクトルパタン生成部56は、VCV単
位の各種類についてそれぞれ3種類の代表的な発話速度
のスペクトルパタン(代表時間長スペクトルパタン)を
データベースに格納・保持している。例えば、代表的な
発話速度は、標準的な速度である7〜8mora/秒、及び
その前後の速度を用いることが好ましい。例えば、低
速、中速、高速の各発話速度として6mora/秒、8mora/
秒、11mora/秒を用いることができる。図では各速度
に対応する代表時間長スペクトルパタンはそれぞれ低速
発声VCVデータベース100、中速発声VCVデータ
ベース102、高速発声VCVデータベース104に格
納されている。ここで、VCV音節は、例えば両端の母
音部重心位置を端点とするように定義される。
【0027】スペクトルパタン生成部56には、音韻継
続時間長生成部54から音韻継続時間長を付与された音
韻記号列が入力される。音韻記号列はVCV単位に分割
される(S110)。そしてVCV音節毎にその音韻継
続時間長に最も近い発話速度に対応するデータベースと
2番目に近い発話速度に対応するデータベースとを上記
データベース100〜104からそれぞれ選択し、各デ
ータベースから当該VCV音節に対応する代表時間長ス
ペクトルパタンを検索し取り出す(S115)。次に、
各VCV音節に対して選択された最も発話速度が近い代
表時間長スペクトルパタン(以下、基準スペクトルパタ
ンと呼ぶ。)同士の接続(S120)と、各VCV音節
に対して選択された2番目に発話速度が近い代表時間長
スペクトルパタン(以下、参照スペクトルパタンと呼
ぶ。)同士の接続(S125)とを行い、最も近い発話
速度と2番目に近い発話速度に対応したVCV単位接続
スペクトルパタンをそれぞれ生成する。ちなみに、各V
CV単位接続スペクトルパタン中では、異なる発話速度
のVCV単位が接続されうる。つまり、例えば、最も近
い発話速度のVCV単位接続スペクトルパタン中におい
て、高速のVCV単位に中速のVCV単位が接続される
ということが起こりうる。
【0028】本装置のスペクトルパタン生成部56は、
VCV音節をさらに細かな基本単位であるフレームに区
分し、基準スペクトルパタンと参照スペクトルパタンと
の各フレームの対応関係をDPマッチングにより求める
(S130)。そして、音韻継続時間長生成部54から
与えられる目的とする継続時間長のスペクトルパタン
が、このDPマッチングにより得られた対応関係に基づ
いて生成される(S135〜S150)。以下、このD
Pマッチングを用いた本装置のスペクトルパタン生成方
法を詳しく述べる。
【0029】図3は、同一のVCV音節に対応した3種
類の発話速度の代表時間長スペクトルパタンをそれぞれ
示す模式図である。スペクトルパタン160は、低速の
発話速度の代表時間長スペクトルパタンであり、その全
体はI個のフレームに分割される。この低速に対応した
代表時間長スペクトルパタンは、LPC(Linear Predi
ctive Coding)フレーム分析によって、スペクトルパタ
ンの系列Ss[i]として低速発声VCVデータベース10
0に登録されている。ここでiは先頭から数えたフレー
ム番号であり、1≦i≦Iである。同様に、スペクトル
パタン162、164は、それぞれ中速、高速の発話速
度の代表時間長スペクトルパタンであり、その全体はそ
れぞれJ、K個のフレームに分割され、スペクトルパタ
ンの系列Sm[j]、Sf[k]として中速発声VCVデータベ
ース102、高速発声VCVデータベース104に登録
されている。ここでj、kは先頭から数えたフレーム番
号であり、1≦j≦J、1≦k≦Kである。なお、ここ
では、各フレームの時間幅が均等である場合を説明する
こととし、その時間幅は例えば10msといった値であ
る。
【0030】DPマッチングを行うことにより、2つの
音声x、yのスペクトルパタンSx[n]、Sy[m](1≦n
≦X、1≦m≦Y)の間の対応関係がDPパスにより表
される。DPパスPxyは、音声xの時刻ζのスペクトル
が音声yのどの時刻ξのスペクトルと一致するかを表す
ものである。図4は、横軸に音声xの時間軸、縦軸に音
声yの時間軸をとり、DPパスを示した模式図である。
図において、DPパスは、x、yの継続時間長の比Y/
Xを傾きとする直線170におおよそ沿った折れ線17
2で表されている。ここでは、DPパスを次式で表すこ
ととする。なお、音声x、yの端部では、DPパスと直
線170とは交わる。
【0031】Pxy ≡(ζ,ξ) ここでpをDPパス上のノード番号とし、これを媒介変
数としてζ、ξを次式で表すことにする。
【0032】ζ ≡ Pxy1[p] ξ ≡ Pxy2[p] すると、DPパスは次式で表される。
【0033】Pxy[p]=(Pxy1[p],Pxy2[p]) 一方、直線170は、音声xとyの線形に伸縮させた、
つまり全体を均一に伸縮させた場合のパスに相当し、こ
こではこれをマクロパス(P'xy)と呼び、次式で表
す。
【0034】P'xy[p]≡(P'xy1[p],P'xy2[p]) 上述したようにマクロパスは、傾きY/Xの直線である
ので、 P'xy[p]=(Pxy1[p],(Y/X)Pxy1[p]) ………(1) である。また、p軸上におけるDPパスとマクロパスと
の差をミクロパス(dPxy)と呼ぶこととする。ミクロ
パスは次式で表され、また、図4において折れ線174
にて表される。
【0035】 dPxy[p]≡(dPxy1[p],dPxy2[p]) = Pxy[p]−P'xy[p] =(Pxy1[p],Pxy2[p]−(Y/X)Pxy1[p]) ………(2) 以上の手法により、DPパスは線形伸縮よりなるマクロ
パスと、非線形伸縮よりなるミクロパスに分解される。
すなわち、 Pxy[p]= P'xy[p]+dPxy[p] ………(3) と表される。
【0036】このようにして同一のVCV音節に対する
異なる代表継続時間長に対応した代表時間長スペクトル
パタン間の対応関係がマクロパス、ミクロパスとして与
えられる。これらを用い、いずれかの代表時間長スペク
トルパタンを基準スペクトルパタンとして、伸縮するこ
とにより当該VCV音節に対する任意の継続時間長に対
応したスペクトルパタン(目的時間長スペクトルパタ
ン)を生成することができる。例えば、基準スペクトル
パタンと目的時間長スペクトルパタンとの間のDPパス
のマクロパス(P'xt)は、それぞれの継続時間長の比
により定まる直線であるので、当該継続時間長比から直
接的に求めることができる。一方、ミクロパス(dPx
t)は、まず自然音声を代表時間長スペクトルパタンと
して用いて求めたミクロパスdPxyを、継続時間長差の
比によってスケーリングすることにより定めることがで
きる。目的時間長スペクトルパタンをSt[h](1≦h≦
T)、基準スペクトルパタンを例えばSx[n]とすると、
これら目的時間長スペクトルパタンと基準スペクトルパ
タンとに関するマクロパスP'xt、ミクロパスdPxtは、
それぞれ次式で表される。
【0037】 P'xt[p]= (T/Y)P'xy[p] =(Pxy1[p],(T/X)Pxy1[p]) ………(4) dPxt[p]= {(X−T)/(X−Y)}dPxy[p] =(dPxy1[p],dPxy2[p]) =(Pxy1[p],{(X−T)/(X−Y)}{Pxy2[p]−(Y/X)Pxy1[p]}) ………(5) 本装置は、データベース100〜104に格納されたス
ペクトルパタンSs[i]、Sm[j]、Sf[k]と以上のスペク
トルパタンの伸縮方法とにより、目的時間長スペクトル
パタンSt[h](1≦h≦T)を以下の手順で生成する。
なお、ここではI≦T≦Kであるものとする。
【0038】スペクトルパタン生成部56は、処理S1
20により継続時間長Dx(x=s,m,f)である基
準スペクトルパタンSx[n](1≦n≦N)を選択し、処
理S125により継続時間長Dy(y=s,m,f、但
しy≠x)である参照スペクトルパタンSy[m](1≦m
≦M)を選択する。
【0039】次に、DPマッチングによりSx[n]に対す
るSy[m]のDPパスPxyを作成する(S130)。そし
て上述手順の(2)式により、DPパスPxyからミクロ
パスを求め(S135)、目的時間長スペクトルパタン
St[h]に関するミクロパスdPxtを(5)式により生成
する(S140)。一方、マクロパスP'xtは、上述し
たように継続時間長比から直接的に求めることができ、
これと処理S140で求めたミクロパスとを合成して、
DPパスPxtが生成される(S145)。ちなみに、こ
のようにミクロパスとマクロパスとを分解することによ
り、処理上、各点に対してミクロパスのデータのみを例
えばメモり上に保持すればよい。これにより計算上、取
り扱うパラメータを削減することができ処理上有利であ
る。またミクロパスのデータがとりうる範囲は、分解し
ない場合のDPパスのデータがとりうる範囲より狭くす
ることができるので、例えば保持すべきデータ量を削減
したり、同一のビット数でより精度の高い数値を保持す
ることができるといったメリットも得られる。
【0040】なお、分解しない場合は、(4)(5)式
から得られる次式、Pxt[p]=(Pxy1[p], {(X−T)/(X−Y)}Pxy2[p]+{(T−Y)/(X−Y)}Pxy1[p]}) ………(6) を用いて目的時間長スペクトルパタンに対するDPパス
を求めることができる。ちなみに(6)式は、代表時間
長スペクトルパタンSx[n]、Sy[m]の互いに対応する点
Pxy1[p]、Pxy2[p]に対応する目的時間長スペクトルパ
タンのSt[h]の点は、Pxy1[p]、Pxy2[p]を各継続時間
長に応じて内分した点であることを示している。
【0041】さて、ここで、求められたDPパス上の各
点は、それを表す座標を四捨五入することにより、フレ
ームの格子に吸着させられる。つまりDPパスの各点は
フレームを単位として表される。
【0042】このDPパスのフレーム格子への吸着によ
り、基準スペクトルパタンのあるフレームに対応する目
的時間長スペクトルパタンのフレームがない(フレーム
の欠落)といったことや、基準スペクトルパタンのある
フレームに目的時間長スペクトルパタンの複数のフレー
ムが対応する(フレームの伸長)といったことが起こり
うる。よってDPマッチングによって得られたパスを基
に、VCV音節スペクトルパタンの伸縮を行うために
は、フレームが欠落する箇所やフレームが伸長している
箇所において不連続が生じないように補間操作を行う必
要がある。本装置は以下の手順で、スペクトルの連続性
を保ちながら、欠落したフレームに対応するスペクトル
パタン部分を目的時間長スペクトルパタンから間引き、
また伸長したフレームに対応するスペクトルパタン部分
を接続し(S150)、目的時間長スペクトルパタンを
合成する。
【0043】まず、合成されたDPパスPxtに基づい
て、基準スペクトルパタンSx[n](1≦n≦N)の各フ
レームに、目的時間長スペクトルパタンのフレームとの
対応関係に応じてラベルを付与する。目的時間長スペク
トルパタンに対応するフレームがないとき、すなわちフ
レームの欠落が生じている箇所においては、消去ラベル
“0”が付与される。また、基準スペクトルパタンのフ
レームに対して目的時間長スペクトルパタンのフレーム
が一つのみ対応付けられるときは、保存ラベル“1”
を、一方、k個のフレームが対応付けられるとき、すな
わち伸長が生じる箇所においては、伸長するフレーム数
で表される伸長ラベル“k”が付与される。
【0044】保存ラベル“1”が付与されたフレームに
対しては補間操作は行われない。伸長ラベル“k”が付
与された基準スペクトルパタンのフレームに対する目的
時間長スペクトルパタンのk個のフレームに対しては、
基準スペクトルパタンにおけるラベル“k”のフレーム
とこれに先行するフレームとを線形補間したフレーム、
及び基準スペクトルパタンにおけるラベル“k”のフレ
ームとこれに後続するフレームとを線形補間したフレー
ムが生成され割り当てられる。
【0045】消去ラベル“0”を付与されたフレームが
拗音、鼻音を除く子音区間の場合、もともとスペクトル
の連続性が低いので補間は行わずフレームを除去する。
一方、消去ラベル“0”を付与されたフレームが母音、
撥音、拗音、鼻音の場合、当該フレーム(ラベル“0”
が連続する場合は、当該連続フレーム)を除去した後、
当該フレームを含む音素(V又はC)内のフレーム間で
次に示す平滑化操作を行い、フレーム消去に伴うスペク
トルの不連続を生じさせないようにする。
【0046】ここで、スペクトルパタンはLSP(Line
Spectrum Pair)パラメータを用いて表され、基準ス
ペクトルパタンのnフレーム目のr次のLSPパラメー
タをSx[n][r]、平滑化後のパラメータをS'x[n][r]と
表記する。消去された結果、互いに接続する必要のある
境界フレームをc、c+d、消去フレームを含む音素区
間の開始フレーム、終了フレームをそれぞれb、eとす
ると、以下に示す計算により平滑化後のパラメータを求
めることができる。まず接続されるcフレームと(c+
d)フレームではパラメータは等しくなるという境界条
件から、両境界フレームの平滑化後のパラメータの値
に、平滑化前のcフレームと(c+d)フレームとのパ
ラメータの平均値を与える。つまり、 S'x[c][r] ≡ S'x[c+d][r] ≡(Sx[c][r]+Sx[c
+d][r])/2 とする。そしてこの境界条件の下、b〜cフレームと
(c+d)〜eフレームとの各区間において、それぞれ
重み関数w1[n]、w2[m]を用いて平滑化を行う。具体的
にはb≦n<cなるnフレームにおいては S'x[n][r] ≡ Sx[n][r]−(Sx[n+1][r]−S'x[n+
1][r])w1[n] またc+d<m≦eなるmフレームにおいては S'x[m][r] ≡ Sx[m][r]−(Sx[m-1][r]−S'x[m-
1][r])w2[m] である。
【0047】重み関数w1[n]、w2[m]は、接続点での不
連続を滑らかに補間する目的で用いる滑らかな関数であ
り、接続点で最大値をとり、音素区間の開始フレームb
及び終了フレームeで0となる。例えば、重み関数w1
[n]、w2[m]として、 w1[n] = sin{π(n-b)/2(c-b)} w2[m] = cos{π(m-c-d)/2(e-c-d)} を用いることができる。
【0048】以上が補間操作であり、これにより滑らか
に補間された目的時間長スペクトルパタンが生成され
る。ちなみに、上述した基準スペクトルパタンの非線形
伸縮及び補間操作は、処理S120にて生成されたVC
V単位接続スペクトルパタンに対して行われる。これは
先に個々のVCV単位を伸縮するとVCV単位の接続区
間が不定となり、接続を行いにくくなるからである。
【0049】さて、1つのVCV単位のスペクトルパタ
ン内には、各母音、子音に対応した定常部分と、母音か
ら子音、また子音から母音へといった遷移部分が含まれ
る。自然音声の観察から、発話速度を例えば速くしたと
き、継続時間長の短縮に寄与するのは、主として定常部
分であり、遷移部分は定常部分ほどには短縮されないと
いう知見が得られる。これは例えば、スペクトログラム
におけるフォルマントの観察から理解される。スペクト
ログラムにおいては、定常部分はフォルマントがほぼ同
一周波数位置に継続して現れるために時間軸に沿った一
定のパタンとして観察され、遷移部分はフォルマントの
周波数位置がある音素における位置から次の音素におけ
る位置へ移動するために変動パタンとして観察される。
上述した発話速度を速くした場合の現象は、定常部分が
短縮され、遷移部分はそれほど変化しないといった形で
観察される。スペクトルパタン生成部56により生成さ
れた目的時間長スペクトルパタンを用い、本装置から出
力される合成音声は、このような自然音声の特徴を再現
することができ、自然な合成音声を得ることができた。
ちなみに、従来の合成音声装置は、VCV単位内を一様
に伸縮するため、例えば発話速度を速くした場合、遷移
部分の短縮によりそのフォルマントの変化の傾きが保た
れず大きくなり、自然音声の特徴の再現の程度が十分で
なかった。
【0050】VCV音節の継続時間長の変化は文全体の
発話速度の変化以外に、音韻環境や隣接音韻の影響によ
っても変動する。上述したスペクトルパタンの伸縮の特
徴は、このような要因による場合にも同様である。よっ
て本装置は、音韻継続時間長生成部54にて、これら要
因の影響を補償した音韻継続時間長を生成すれば、スペ
クトルパタン生成部56における規則上では特に意識す
ることなく、これら要因の補償効果が反映されたスペク
トルパタンを生成することができる。
【0051】なお、上述の例では、発話速度は3種類と
したが、上述の説明から明らかなように本発明はその種
類の数に限定されず、2つ以上の異なる発話速度の代表
時間長スペクトルパタンを用いて実施することができ
る。また、上述の例では、目的時間長スペクトルパタン
を求めるために、その継続時間長を挟む大小の継続時間
長に対応した2つの代表時間長スペクトルパタンを選択
し、それらの対応関係を用いた。この場合、上述したよ
うに目的時間長スペクトルパタンの各点の位置はそれに
対応する2つの代表時間長スペクトルパタンの点の位置
を継続時間長に応じて内分することにより定められる。
しかし、3つ以上の代表時間長スペクトルパタンを同時
に用いて、目的時間長スペクトルパタンの精度の向上を
図ることも理論上、可能である。例えば、3つの代表時
間長スペクトルパタン(継続時間長Di(i=1〜
3))の互いに対応する点をPxyi[p]とするとき、例え
ば3つの点(Di,Pxyi[p])を通る2次関数を求め、
その関数の目的継続時間長における値により、目的時間
長スペクトルパタンに対応するDPパスを定義すること
により継続時間長変化の2次項を考慮することができ
る。
【0052】スペクトルパタン生成部56は、上述した
ように各VCV音節毎にDPマッチングを行う構成とし
たが、例えば、VCV音韻の種類毎に予めDPマッチン
グを行ってそのDPパスをデータベースに格納してお
き、音声合成時にはそれを読み出して用いるという構成
も可能である。その構成によれば合成時における処理S
130を省略することができ、装置の処理負荷を軽減す
ることができる。また、さらに、DPパスのマクロパ
ス、ミクロパスの分解も予め行うことも可能であり、ミ
クロパスをデータベースに格納して、音声合成時にこれ
を取り出して使用する構成とすることができる。
【0053】本装置は、VCV音節という限定された単
位のみに基づいてデータベースが構成されるので、従来
の単位を拡大する方法に比べてデータベースの規模が小
さくすることができる。しかも自然音声が有する異なる
継続時間長間での非線形伸縮を反映した目的時間長スペ
クトルパタンが得られるので、自然な音韻の合成音声が
実現される。
【0054】[実施の形態2]本発明の第2の実施形態
に係る日本語音声合成装置のブロック構成は、上記第1
の実施形態の装置と同様であり、スペクトルパタン生成
部以外の他の構成要素は同様の機能を有するので、説明
を省略する。本装置のスペクトルパタン生成部に関して
は、上記装置と異なるスペクトルパタン生成方法が採用
されるため、区別のためその符号を変え、スペクトルパ
タン生成部200と記す。以下、スペクトルパタン生成
部200の処理を詳しく説明する。
【0055】スペクトルパタン生成部200はVCVデ
ータベース202を有し、これにVCV単位のスペクト
ルパタン(代表時間長スペクトルパタン)が格納・保持
されている。
【0056】VCVデータベース202は、VCV単位
の各種類について基本的に1種類の代表的な発話速度に
ついてのスペクトルパタン(代表時間長スペクトルパタ
ン)しか保持しない。その代わりに、VCVデータベー
ス202に保持された代表時間長スペクトルパタンに対
する他の代表時間長スペクトルパタンのミクロパス情報
が、VCVデータベース202に予め格納・保持され
る。以上の点が上記実施形態のスペクトルパタン生成部
56と異なる主な点である。
【0057】VCVデータベース202に格納する代表
時間長スペクトルパタンの発話速度は、例えば6mora/
秒といった低速であることが望ましい。その理由は、発
話速度が速くなるにつれ、スペクトルパタンに含まれう
る音韻情報が欠落するからである。つまり情報が欠落し
た高速発声におけるスペクトルパタンから精度のよい低
速発声におけるスペクトルパタンを生成することは難し
いが、逆に低速発声におけるスペクトルパタンを捨象し
て精度のよい高速発声におけるスペクトルパタンを生成
することは容易であるからである。
【0058】ミクロパスをVCVデータベース202に
格納する方法について説明する。図5は、ミクロパスを
VCVデータベース202に格納する方法を示す模式図
である。以下、記号に関して上記実施形態と同一の表記
を用いる。VCVデータベース202の作成時には、例
えば3種類の発話速度(低速、中速、高速)で発声され
た音声のスペクトルパタンSs[i]、Sm[j]、Sf[k]が用
意される。上述したように、これらのうち、最も発話速
度の遅いスペクトルパタンSs[i]が、VCVデータベー
ス202に格納される基準スペクトルパタンに選ばれ
る。この基準スペクトルパタンSs[i]に対する代表時間
長スペクトルパタンSm[j]、Sf[k]それぞれのDPパス
が求められ(S210)、これを上記実施形態にて説明
したように分解してミクロパスdPsm、dPsfが生成され
る。そして、基準スペクトルパタンSs[i]の各フレーム
に対応するミクロパスの値dPsm[i]、dPsf[i]が求めら
れる(S215)。これら各フレームに対応した複数の
ミクロパスの値をミクロパスベクトルと呼ぶことにす
る。なお、dPssは敢えて計算する必要はなく、全ての
フレームにおいてdPss[i]=0である。よってdPss[i]
をミクロパスベクトルの成分に含めるかどうかは任意で
ある。一般には、処理の都合上問題がなければ、データ
量を抑制するため、dPss[i]はミクロパスベクトルの成
分には含めない。
【0059】これらミクロパスベクトル(dPsm[i]、d
Psf[i])が基準スペクトルパタンの各フレームの情報
と組み合わされ(S220)、基準スペクトルパタンの
各フレーム毎にVCVデータベース202に格納され
る。なお、スペクトルパタン生成部200は、スペクト
ルパタン生成処理において各代表時間長スペクトルパタ
ンが発声された継続時間長Ds、Dm、Dfを必要とする
ため、これらを何らかの手段で保持する。これら継続時
間長を基準スペクトルパタンの情報と組にして保持する
構成とすることも可能である。
【0060】以上の手順により、基準スペクトルパタン
Ss[i]の各フレームに、発話速度に応じたミクロパス変
化の各サンプル点の情報が付加され、その基準スペクト
ルパタンがVCVデータベース202に音声合成処理に
先だって格納される。スペクトルパタン生成部200
は、このVCVデータベース202を用いて、音韻継続
時間長生成部54から出力されるVCV音節の継続時間
長に応じた目的時間長スペクトルパタンSt[h]の生成を
行う。図6、図7は、スペクトルパタン生成部200の
処理を説明する模式図である。
【0061】スペクトルパタン生成部200には、音韻
継続時間長生成部54から音韻継続時間長を付与された
音韻記号列が入力される。音韻記号列はVCV単位に分
割される(S250)。当該VCV音節に対応する基準
スペクトルパタンに関するデータが、VCVデータベー
ス202から検索され取り出される(S255)。そし
て、各VCV音節の基準スペクトルパタン同士の接続が
行われる(S260)。
【0062】次に、VCVデータベース202に格納さ
れたミクロパスベクトル300に基づいて、音韻継続時
間長生成部54から与えられるVCV音節の継続時間長
に応じたミクロパス310(dPst)の生成が行われる
(S265)。このミクロパスの合成は、例えば、各フ
レームのミクロパスベクトルの成分を目的時間長に応じ
て線形補間して、各フレームに対応する目的時間長スペ
クトルパタンのミクロパスの値を定めることにより行わ
れる。具体的には、目的時間長DtがDs≦Dt≦Dmを満
たすときには、 dPst2[i] ={(Ds−Dt)/(Ds−Dm)}dPsm2[i] ………(7) であり、目的時間長DtがDm<Dt≦Dfを満たすときに
は、 dPst2[i] =dPsf2[i]+{(Dt−Df)/(Dm−Df)}(dPsm2[i]−dPsf2[i]) ………(8) である。なお、ここで媒介変数としてpの代わりにフレ
ーム番号iを用いた。
【0063】マクロパスP'st[i]は、(4)式に表され
るように継続時間長の比を傾きとする直線である。よっ
て、マクロパス315として傾き(Dt/Ds)を有する
直線が生成される。このマクロパスP'stにミクロパスd
Pstを加算することにより、目的時間長スペクトルパタ
ンに対するDPパス320(Pst)が生成される(S2
70)。また、ここで上記実施形態同様、DPパスのフ
レームの格子への吸着が行われ、それに対応して、やは
り上記実施形態同様、フレームの間引き・伸長処理が行
われるとともに、補間処理によるスムージング処理が行
われる(S275)。
【0064】以上のスペクトルパタン生成部200にお
ける処理により得られたスペクトルパタンを用いて、音
声合成部64にて音声の合成が行われる。
【0065】第1の実施形態の装置は保持するスペクト
ルパタンがVCV単位のみに限定される分、データベー
スを小さくできた。しかも、目的時間長に最も近い時間
長のスペクトルパタンを伸縮することにより精度のよい
目的時間長スペクトルパタンが得られる。
【0066】第2の実施形態に係る本装置は、第一の装
置が3つの発話速度に対応したスペクトルパタンをデー
タベースに保持していたのに対し、保持するスペクトル
パタンを単一の発話速度のものに限定することにより一
層のデータベースの縮小を図ることができる。具体的に
は、本装置において、VCVデータベース202に保持
する必要があるのは基本的には1つの発話速度に対応し
たスペクトルパタンとミクロパスベクトルである。例え
ば、スペクトルパタンの1フレームのデータは19個の
パラメータで構成され、ミクロパスベクトルを構成する
パラメータは上述の例では最低2つとすることができ
る。よって、ミクロパスベクトルによるデータ量の増加
は、スペクトルパタンを3つから1つにすることによる
データ量の削減に比べればわずかなものであり、VCV
データベース202に格納されるデータ量を大幅に抑制
することができる。
【0067】また、VCV単位のデータが代表時間長の
種類に比例して増加すると、それらの接続における組合
せ数も増加する。そのため、それぞれの接続の滑らかさ
を確保するためには、データ収録を慎重に行わなければ
ならなくなり、データベース作成の労力が増大する。こ
のVCV単位の接続に関しても、本装置では1つの発話
速度のVCV単位間でのみ接続が行われるため、その組
合せも大幅に減少し、データ収録、データベース作成の
労力を低減することができる。よって本装置によれば、
非線形伸縮による自然な音声の合成を可能としつつ、か
つ簡便に合成音声装置を構成することができる。
【0068】
【発明の効果】本発明の音声合成装置によれば、データ
ベースを小規模に抑制しつつ、かつ任意の目的発話速度
に対して、接続歪みや音色の不自然な変化が抑制された
スペクトルパタンが生成され、自然な音韻の合成音声を
生成することができるという効果が得られる。
【図面の簡単な説明】
【図1】 本発明に係る日本語音声合成装置のブロック
構成図である。
【図2】 第1の実施形態に係る音声合成装置のスペク
トルパタン生成部の処理を説明する模式図である。
【図3】 同一のVCV音節に対応した3種類の発話速
度の代表時間長スペクトルパタンをそれぞれ示す模式図
である。
【図4】 DPパスを示す模式図である。
【図5】 第2の実施形態に係る音声合成装置におい
て、ミクロパスをVCVデータベースに格納する方法を
示す模式図である。
【図6】 第2の実施形態に係る音声合成装置のスペク
トルパタン生成部の処理を説明する模式図である。
【図7】 第2の実施形態に係る音声合成装置のスペク
トルパタン生成部によるDPパスの合成処理を説明する
模式図である。
【図8】 従来のスペクトルパタン生成方式における処
理の流れを示す模式図である。
【符号の説明】
52 テキスト解析処理部、54 音韻継続時間長生成
部、56,200 スペクトルパタン生成部、58 音
源振幅パタン生成部、60 ピッチパタン生成部、62
音源生成部、64 音声合成部、100 低速発声V
CVデータベース、102 中速発声VCVデータベー
ス、104 高速発声VCVデータベース、202 V
CVデータベース、300 ミクロパスベクトル、31
0 ミクロパス、315 マクロパス、320 DPパ
ス。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 テキストから音韻記号列を生成し、前記
    音韻記号列を区分した音韻区画毎にスペクトルパタンを
    生成し、音声を規則合成する音声合成装置において、 同一の前記音韻区画に対する異なる代表継続時間長に対
    応した複数の代表時間長スペクトルパタンそれぞれの時
    間変化同士の対応関係に基づき、いずれかの前記代表時
    間長スペクトルパタンの前記時間変化を目的継続時間長
    に応じて非線形伸縮変換して、前記目的継続時間長に対
    応した目的時間長スペクトルパタンを生成するスペクト
    ルパタン生成手段を有し、 当該目的時間長スペクトルパタンを用いて音声合成する
    ことを特徴とする音声合成装置。
  2. 【請求項2】 請求項1記載の音声合成装置において、 前記スペクトルパタン生成手段は、 前記音韻区画の種類毎に前記複数の代表時間長スペクト
    ルパタンを格納したスペクトルパタン記憶手段と、 前記目的継続時間長に応じて前記複数の代表時間長スペ
    クトルパタンのいずれかを選択する基準スペクトルパタ
    ン選択手段と、 前記スペクトルパタン記憶手段に格納された前記代表時
    間長スペクトルパタンに基づいて、前記各音韻区画毎に
    前記複数の代表時間長スペクトルパタンそれぞれの時間
    変化同士の前記対応関係を生成する対応関係生成手段
    と、 前記対応関係に基づく前記音韻区画内での非線形伸縮変
    換を、前記目的継続時間長に応じて前記基準スペクトル
    パタンに施す非線形伸縮手段と、 を有することを特徴とする音声合成装置。
  3. 【請求項3】 請求項1記載の音声合成装置において、 前記スペクトルパタン生成手段は、 前記音韻区画の種類毎に前記複数の代表時間長スペクト
    ルパタンを格納したスペクトルパタン記憶手段と、 前記目的継続時間長に応じて前記複数の代表時間長スペ
    クトルパタンのいずれかを選択する基準スペクトルパタ
    ン選択手段と、 前記音韻区画の種類毎に前記複数の代表時間長スペクト
    ルパタンそれぞれの時間変化同士の前記対応関係を格納
    した対応関係記憶手段と、 前記対応関係に基づく前記音韻区画内での非線形伸縮変
    換を、前記目的継続時間長に応じて前記基準スペクトル
    パタンに施す非線形伸縮手段と、 を有することを特徴とする音声合成装置。
  4. 【請求項4】 請求項1記載の音声合成装置において、 前記スペクトルパタン生成手段は、 前記音韻区画の種類毎の前記複数の代表時間長スペクト
    ルパタンのうち基準となる基準スペクトルパタンを格納
    したスペクトルパタン記憶手段と、 前記音韻区画の種類毎に前記基準スペクトルパタンと他
    の前記代表時間長スペクトルパタンと間での時間変化の
    前記対応関係を格納した対応関係記憶手段と、 前記対応関係に基づく前記音韻区画内での非線形伸縮変
    換を、前記目的継続時間長に応じて前記基準スペクトル
    パタンに施す非線形伸縮手段と、 を有することを特徴とする音声合成装置。
  5. 【請求項5】 請求項1から請求項4のいずれかに記載
    の音声合成装置において、 前記複数の代表時間長スペクトルパタンそれぞれの時間
    変化同士の前記対応関係は、当該代表時間長スペクトル
    パタンの継続時間長に比例した線形伸縮成分と、当該線
    形伸縮成分を除いた非線形伸縮成分とに分解され、 前記非線形伸縮変換は、 前記線形伸縮成分を前記継続時間長に応じて補間して補
    間線形伸縮成分を求め、 前記非線形伸縮成分を前記継続時間長に応じて補間して
    補間非線形伸縮成分を求め、 前記補間線形伸縮成分と前記補間非線形伸縮成分とを合
    成すること、 を特徴とする音声合成装置。
  6. 【請求項6】 請求項1から請求項5のいずれかに記載
    の音声合成装置において、 前記複数の代表時間長スペクトルパタンそれぞれの時間
    変化同士の前記対応関係は、DPマッチング(動的計画
    法)により求められることを特徴とする音声合成装置。
JP10047471A 1998-02-27 1998-02-27 音声合成装置 Pending JPH11249676A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10047471A JPH11249676A (ja) 1998-02-27 1998-02-27 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10047471A JPH11249676A (ja) 1998-02-27 1998-02-27 音声合成装置

Publications (1)

Publication Number Publication Date
JPH11249676A true JPH11249676A (ja) 1999-09-17

Family

ID=12776070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10047471A Pending JPH11249676A (ja) 1998-02-27 1998-02-27 音声合成装置

Country Status (1)

Country Link
JP (1) JPH11249676A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002073595A1 (fr) * 2001-03-08 2002-09-19 Matsushita Electric Industrial Co., Ltd. Dispositif generateur de prosodie, procede de generation de prosodie, et programme
WO2004097800A1 (ja) * 2003-05-02 2004-11-11 Konami Corporation 音声再生プログラム、音声再生方法及び音声再生装置
WO2004109659A1 (ja) * 2003-06-05 2004-12-16 Kabushiki Kaisha Kenwood 音声合成装置、音声合成方法及びプログラム
JP2005018036A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
WO2007141993A1 (ja) * 2006-06-05 2007-12-13 Panasonic Corporation 音声合成装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002073595A1 (fr) * 2001-03-08 2002-09-19 Matsushita Electric Industrial Co., Ltd. Dispositif generateur de prosodie, procede de generation de prosodie, et programme
US7200558B2 (en) 2001-03-08 2007-04-03 Matsushita Electric Industrial Co., Ltd. Prosody generating device, prosody generating method, and program
US8738381B2 (en) 2001-03-08 2014-05-27 Panasonic Corporation Prosody generating devise, prosody generating method, and program
WO2004097800A1 (ja) * 2003-05-02 2004-11-11 Konami Corporation 音声再生プログラム、音声再生方法及び音声再生装置
CN100399421C (zh) * 2003-05-02 2008-07-02 科乐美数码娱乐株式会社 声音重放方法以及声音重放装置
WO2004109659A1 (ja) * 2003-06-05 2004-12-16 Kabushiki Kaisha Kenwood 音声合成装置、音声合成方法及びプログラム
JP2005018036A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
US8214216B2 (en) 2003-06-05 2012-07-03 Kabushiki Kaisha Kenwood Speech synthesis for synthesizing missing parts
WO2007141993A1 (ja) * 2006-06-05 2007-12-13 Panasonic Corporation 音声合成装置

Similar Documents

Publication Publication Date Title
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
US4912768A (en) Speech encoding process combining written and spoken message codes
JP3408477B2 (ja) フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
JPH031200A (ja) 規則型音声合成装置
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
JPH08110789A (ja) 波形の連結及び部分的重複化による音声合成方法
JP2000305582A (ja) 音声合成装置
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
US6424937B1 (en) Fundamental frequency pattern generator, method and program
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP2001109500A (ja) 音声合成装置および方法
JP3281266B2 (ja) 音声合成方法及び装置
JPH11249676A (ja) 音声合成装置
JP3425996B2 (ja) ピッチパターン生成装置
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP3109778B2 (ja) 音声規則合成装置
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JPH0580791A (ja) 音声規則合成装置および方法
JPH1195796A (ja) 音声合成方法
JPH1165597A (ja) 音声合成装置、音声合成及びcg合成出力装置、ならびに対話装置
JPH09319394A (ja) 音声合成方法
JP3113101B2 (ja) 音声合成装置
JP3081300B2 (ja) 残差駆動型音声合成装置
JPH11161297A (ja) 音声合成方法及び装置