JPH08160991A - 音声素片作成方法および音声合成方法、装置 - Google Patents
音声素片作成方法および音声合成方法、装置Info
- Publication number
- JPH08160991A JPH08160991A JP6302471A JP30247194A JPH08160991A JP H08160991 A JPH08160991 A JP H08160991A JP 6302471 A JP6302471 A JP 6302471A JP 30247194 A JP30247194 A JP 30247194A JP H08160991 A JPH08160991 A JP H08160991A
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- speech
- pitch
- voice
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 音質劣化が少なく、音声合成時の演算量を減
少させることができる音声素片作成方法及び音声合成方
法、装置を提供すること。 【構成】 圧縮音声素片DB10に窓掛けを済ませた音
声ピッチ素片を、隣接ピッチ間の差分を取った形で記憶
しておき、状態保持部3、サンプル読み出し部5、波形
保持部9の組を複数用意しておき、それぞれで圧縮音声
素片DB10から差分波形を読み出しながら原波形を複
合し、加算重畳部6でそれらを重ね合わせる事により目
的のピッチ周期を有する音声波形を合成する。
少させることができる音声素片作成方法及び音声合成方
法、装置を提供すること。 【構成】 圧縮音声素片DB10に窓掛けを済ませた音
声ピッチ素片を、隣接ピッチ間の差分を取った形で記憶
しておき、状態保持部3、サンプル読み出し部5、波形
保持部9の組を複数用意しておき、それぞれで圧縮音声
素片DB10から差分波形を読み出しながら原波形を複
合し、加算重畳部6でそれらを重ね合わせる事により目
的のピッチ周期を有する音声波形を合成する。
Description
【0001】
【産業上の利用分野】本発明は、電話照会サービス、音
声情報案内システム、パソコン用音声規則合成装置など
に応用可能な音声素片作成方法及び音声合成方法、装置
に関するものである。
声情報案内システム、パソコン用音声規則合成装置など
に応用可能な音声素片作成方法及び音声合成方法、装置
に関するものである。
【0002】
【従来の技術】音声合成を用いたインターフェースは、
例えばパソコンなどで別の仕事をしながら説明文や電子
メールを聞いたり、ワープロで作成した原稿を耳で聞き
ながら校正するのに用いる事ができる。また、電子ブッ
クなどの機器に組み込む事によりフロッピーディスクや
CD−ROMなどに格納されたテキストを液晶ディスプ
レイなどを用いずに読む事が可能となる。
例えばパソコンなどで別の仕事をしながら説明文や電子
メールを聞いたり、ワープロで作成した原稿を耳で聞き
ながら校正するのに用いる事ができる。また、電子ブッ
クなどの機器に組み込む事によりフロッピーディスクや
CD−ROMなどに格納されたテキストを液晶ディスプ
レイなどを用いずに読む事が可能となる。
【0003】このような目的に用いられる音声合成装置
は小型で低価格である事が要求される。従来、このよう
な用途にはパラメータ合成方式や圧縮録音再生方式など
が用いられてきた。
は小型で低価格である事が要求される。従来、このよう
な用途にはパラメータ合成方式や圧縮録音再生方式など
が用いられてきた。
【0004】前者のパラメータ合成方式は、音声をCV
音節やCVC、VCV(Cは子音、Vは母音を表す)な
どの細かい単位で素片化し、PARCOR係数などのパ
ラメータに変換してメモリに蓄積しておき、必要に応じ
て再合成する方式である。
音節やCVC、VCV(Cは子音、Vは母音を表す)な
どの細かい単位で素片化し、PARCOR係数などのパ
ラメータに変換してメモリに蓄積しておき、必要に応じ
て再合成する方式である。
【0005】この方式は記憶形態が音声パラメータであ
るため、合成時にピッチや時間長などを容易に変更でき
る結果、素片間をなめらかに接続しやすいという利点が
ある。また、記憶容量も比較的少量ですむ。一方、音声
をパラメータ化する事による音質劣化が大きいという欠
点がある。
るため、合成時にピッチや時間長などを容易に変更でき
る結果、素片間をなめらかに接続しやすいという利点が
ある。また、記憶容量も比較的少量ですむ。一方、音声
をパラメータ化する事による音質劣化が大きいという欠
点がある。
【0006】又、後者の圧縮録音再生方式は、上記の音
質劣化を防ぐため、音声を圧縮符号化してメモリに蓄積
しておき、必要に応じて再生する方式である。圧縮符号
化にはμ−LawコーディングやADPCM等が用いら
れる。
質劣化を防ぐため、音声を圧縮符号化してメモリに蓄積
しておき、必要に応じて再生する方式である。圧縮符号
化にはμ−LawコーディングやADPCM等が用いら
れる。
【0007】合成する音声の内容が少数に限られている
のであれば、文単位や文節単位、単語単位で録音してお
き、適当に編集すれば良い。しかし、任意のテキストを
合成するためにはパラメータ合成方式と同様にさらに細
かい音声素片の形で蓄積しておかなければならない。ま
た、パラメータ合成と違ってピッチや時間長の変更が困
難であるため、高品質の合成のためには様々なピッチと
時間長をもった素片を用意しなくてはならない。
のであれば、文単位や文節単位、単語単位で録音してお
き、適当に編集すれば良い。しかし、任意のテキストを
合成するためにはパラメータ合成方式と同様にさらに細
かい音声素片の形で蓄積しておかなければならない。ま
た、パラメータ合成と違ってピッチや時間長の変更が困
難であるため、高品質の合成のためには様々なピッチと
時間長をもった素片を用意しなくてはならない。
【0008】このような理由から圧縮録音再生方式はパ
ラメータ合成方式の数倍から数十倍の大きな記憶容量が
必要となる。しかし、原理的には大容量の記憶装置を持
つ事により極めて高品質な音声を合成する事ができる。
ラメータ合成方式の数倍から数十倍の大きな記憶容量が
必要となる。しかし、原理的には大容量の記憶装置を持
つ事により極めて高品質な音声を合成する事ができる。
【0009】上記のように高品質の音声合成方式には圧
縮録音再生方式が有利であるが、音声素片に固有のピッ
チと時間長を制御する事ができないことと、大容量の記
憶装置が必要になることが問題である。
縮録音再生方式が有利であるが、音声素片に固有のピッ
チと時間長を制御する事ができないことと、大容量の記
憶装置が必要になることが問題である。
【0010】この問題を解決するために、音声波形をピ
ッチに同期して窓関数で切り出し、合成時に所望のピッ
チ周期になるように重ね合わせを行う方法が考案されて
いる(特表平3−501896)。
ッチに同期して窓関数で切り出し、合成時に所望のピッ
チ周期になるように重ね合わせを行う方法が考案されて
いる(特表平3−501896)。
【0011】切り出しの位置は声門の閉鎖による励振パ
ルスのピークを窓関数の中心とする。窓関数の形状は両
端で0にまで減衰するもの(例えばHanning 窓)を用い
る。窓長は、音声波形の原ピッチ周期よりも合成ピッチ
周期を短くする場合は合成ピッチ周期の2倍であり、逆
に合成ピッチ周期を長くする場合は原ピッチ周期の2倍
である。また、切り出されたピッチ波形を間引く、ある
いは繰り返すことにより時間長の制御も可能となる。
ルスのピークを窓関数の中心とする。窓関数の形状は両
端で0にまで減衰するもの(例えばHanning 窓)を用い
る。窓長は、音声波形の原ピッチ周期よりも合成ピッチ
周期を短くする場合は合成ピッチ周期の2倍であり、逆
に合成ピッチ周期を長くする場合は原ピッチ周期の2倍
である。また、切り出されたピッチ波形を間引く、ある
いは繰り返すことにより時間長の制御も可能となる。
【0012】上記方法によれば、一つの音声素片から任
意のピッチと時間長の波形を合成できるため、高品質の
合成音を圧縮録音再生方式に比べて少ない記憶容量で得
ることができる。
意のピッチと時間長の波形を合成できるため、高品質の
合成音を圧縮録音再生方式に比べて少ない記憶容量で得
ることができる。
【0013】
【発明が解決しようとする課題】以上説明したように、
従来の技術は圧縮録音再生方式に比較して少ない記憶容
量で高品質の合成音を得ることができる。しかしなが
ら、上記のような方法では、音声合成時の演算量が多い
という課題がある。それは、合成時にピッチ波形を窓関
数を用いて切り出すことが必要であり、三角関数の計算
と乗算が頻繁に行われるからである。
従来の技術は圧縮録音再生方式に比較して少ない記憶容
量で高品質の合成音を得ることができる。しかしなが
ら、上記のような方法では、音声合成時の演算量が多い
という課題がある。それは、合成時にピッチ波形を窓関
数を用いて切り出すことが必要であり、三角関数の計算
と乗算が頻繁に行われるからである。
【0014】例えば、合成波形を1サンプル合成するた
めに必要な演算は、以下の通りである。ピッチ波形を1
サンプル生成するためには、音声素片を読み出すための
メモリ読み出しが1回、Hanning 窓関数の計算に必要な
三角関数の計算が1回および加算が1回(三角関数に直
流オフセットを与えるため)、三角関数に与える角度の
計算のための乗算が1回、三角関数の値を用いて音声波
形に窓掛けを行うための乗算が1回である。ピッチ波形
が二つ重ね合わせられて合成波形が作られるので、合成
波形1サンプルあたりメモリアクセス2回、三角関数の
計算が2回、乗算が4回、加算が3回となる(図19参
照)。
めに必要な演算は、以下の通りである。ピッチ波形を1
サンプル生成するためには、音声素片を読み出すための
メモリ読み出しが1回、Hanning 窓関数の計算に必要な
三角関数の計算が1回および加算が1回(三角関数に直
流オフセットを与えるため)、三角関数に与える角度の
計算のための乗算が1回、三角関数の値を用いて音声波
形に窓掛けを行うための乗算が1回である。ピッチ波形
が二つ重ね合わせられて合成波形が作られるので、合成
波形1サンプルあたりメモリアクセス2回、三角関数の
計算が2回、乗算が4回、加算が3回となる(図19参
照)。
【0015】本発明は、従来の音声合成におけるこのよ
うな課題を考慮し、音質劣化が少なく、音声合成時の演
算量を減少させることができる音声素片作成方法及び音
声合成方法、装置を提供することを目的とするものであ
る。
うな課題を考慮し、音質劣化が少なく、音声合成時の演
算量を減少させることができる音声素片作成方法及び音
声合成方法、装置を提供することを目的とするものであ
る。
【0016】
【課題を解決するための手段】本発明は、音声波形の所
定の区間内のピッチ周期毎に存在するそれぞれのピーク
について、ピークを中心として両端で零近傍に収束する
窓関数でピッチ波形を切り出す切り出し操作を、所定の
区間内の全てのピークについて行い、窓関数の長さはど
のピークについてもそれらの両隣のピークに到達するよ
りも短い音声素片作成方法である。
定の区間内のピッチ周期毎に存在するそれぞれのピーク
について、ピークを中心として両端で零近傍に収束する
窓関数でピッチ波形を切り出す切り出し操作を、所定の
区間内の全てのピークについて行い、窓関数の長さはど
のピークについてもそれらの両隣のピークに到達するよ
りも短い音声素片作成方法である。
【0017】また本発明は、所望の全ての音声波形につ
いて、請求項1、2、3のいずれかの音声素片作成方法
を用いて音声素片データを作成し、その作成した音声素
片データを記憶しておき、その記憶している音声素片デ
ータから所望の音声素片データの所望のピッチ波形を読
み出し、所望のピッチ周期の間隔になるように重ね合わ
せて配置し、それらを加算して一つの音声波形として出
力する音声合成方法である。
いて、請求項1、2、3のいずれかの音声素片作成方法
を用いて音声素片データを作成し、その作成した音声素
片データを記憶しておき、その記憶している音声素片デ
ータから所望の音声素片データの所望のピッチ波形を読
み出し、所望のピッチ周期の間隔になるように重ね合わ
せて配置し、それらを加算して一つの音声波形として出
力する音声合成方法である。
【0018】また本発明は、所望の全ての音声波形につ
いて、請求項1、2、3のいずれかの音声素片作成方法
を用いて作成された音声素片データを記憶する音声素片
データ記憶手段と、その音声素片データ記憶手段から所
望の音声素片データの所望のピッチ波形を読み出すピッ
チ波形読み出し手段と、その読み出されたピッチ波形を
所望のピッチ周期の間隔になるように重ね合わせて配置
し、それらを加算して一つの音声波形として出力する加
算重畳部とを備えた音声合成装置である。
いて、請求項1、2、3のいずれかの音声素片作成方法
を用いて作成された音声素片データを記憶する音声素片
データ記憶手段と、その音声素片データ記憶手段から所
望の音声素片データの所望のピッチ波形を読み出すピッ
チ波形読み出し手段と、その読み出されたピッチ波形を
所望のピッチ周期の間隔になるように重ね合わせて配置
し、それらを加算して一つの音声波形として出力する加
算重畳部とを備えた音声合成装置である。
【0019】また本発明は、時刻情報と所定の機能を表
す機能情報と所定の機能に応じた任意の個数のパラメー
タとを有する制御信号の並びである制御信号列を生成
し、制御信号の機能情報とパラメータを用いて、時刻情
報が表すタイミングに沿って音声素片を制御する音声合
成方法である。
す機能情報と所定の機能に応じた任意の個数のパラメー
タとを有する制御信号の並びである制御信号列を生成
し、制御信号の機能情報とパラメータを用いて、時刻情
報が表すタイミングに沿って音声素片を制御する音声合
成方法である。
【0020】また本発明は、時刻情報と所定の機能を表
す機能情報と所定の機能に応じた任意の個数のパラメー
タとを有する制御信号の並びである制御信号列を生成
し、制御信号の機能情報とパラメータを用いて、時刻情
報が表すタイミングに沿って音声素片を制御する制御手
段を備えた音声合成装置である。
す機能情報と所定の機能に応じた任意の個数のパラメー
タとを有する制御信号の並びである制御信号列を生成
し、制御信号の機能情報とパラメータを用いて、時刻情
報が表すタイミングに沿って音声素片を制御する制御手
段を備えた音声合成装置である。
【0021】
【作用】本発明は、音声波形の所定の区間内のピッチ周
期毎に存在するそれぞれのピークについて、どのピーク
についてもそれらの両隣のピークに到達するよりも短い
長さの窓関数でピッチ波形を切り出して音声素片データ
を作成する。
期毎に存在するそれぞれのピークについて、どのピーク
についてもそれらの両隣のピークに到達するよりも短い
長さの窓関数でピッチ波形を切り出して音声素片データ
を作成する。
【0022】また本発明は、所望の全ての音声波形につ
いて、音声素片データを作成して記憶しておき、その記
憶している音声素片データから所望の音声素片データの
所望のピッチ波形を読み出し、所望のピッチ周期の間隔
になるように重ね合わせて配置し、それらを加算して一
つの音声波形として出力する。
いて、音声素片データを作成して記憶しておき、その記
憶している音声素片データから所望の音声素片データの
所望のピッチ波形を読み出し、所望のピッチ周期の間隔
になるように重ね合わせて配置し、それらを加算して一
つの音声波形として出力する。
【0023】また本発明は、制御信号の並びである制御
信号列を生成し、制御信号の機能情報とパラメータを用
いて、時刻情報が表すタイミングに沿って音声素片を制
御する。
信号列を生成し、制御信号の機能情報とパラメータを用
いて、時刻情報が表すタイミングに沿って音声素片を制
御する。
【0024】
【実施例】以下に、本発明をその実施例を示す図面に基
づいて説明する。
づいて説明する。
【0025】図1は、本発明にかかる第1の実施例の音
声合成装置の構成図である。すなわち、その音声合成装
置には制御手段である制御部1が設けられ、その出力は
管理手段である管理部2、複数設けられた状態保持部
3、振幅制御部4に接続されている。管理部2は複数の
状態保持部3に接続され、その複数の状態保持部3は複
数設けられたピッチ波形読み出し部であるサンプル読み
出し部5に一対一に接続されている。その複数のサンプ
ル読み出し部5の出力は加算重畳部6の入力に接続さ
れ、その出力は振幅制御部4に接続されている。その振
幅制御部4の出力は出力部8に接続され、電気信号から
音響振動に変換されて音として出力される。また、複数
のサンプル読み出し部5には、一つの音声素片データ記
憶手段である音声素片DB7が接続されている。
声合成装置の構成図である。すなわち、その音声合成装
置には制御手段である制御部1が設けられ、その出力は
管理手段である管理部2、複数設けられた状態保持部
3、振幅制御部4に接続されている。管理部2は複数の
状態保持部3に接続され、その複数の状態保持部3は複
数設けられたピッチ波形読み出し部であるサンプル読み
出し部5に一対一に接続されている。その複数のサンプ
ル読み出し部5の出力は加算重畳部6の入力に接続さ
れ、その出力は振幅制御部4に接続されている。その振
幅制御部4の出力は出力部8に接続され、電気信号から
音響振動に変換されて音として出力される。また、複数
のサンプル読み出し部5には、一つの音声素片データ記
憶手段である音声素片DB7が接続されている。
【0026】次に上記のように構成された音声合成装置
の動作についてフローチャートを参照しながら説明す
る。図2は、制御部1を中心とした全体の処理の流れを
表したフローチャートである。
の動作についてフローチャートを参照しながら説明す
る。図2は、制御部1を中心とした全体の処理の流れを
表したフローチャートである。
【0027】制御部1はまず、ローマ字表記やカタカナ
などの発音記号にアクセントおよび区切り情報を付加し
たものを入力として受け取る(ステップS1)。次にそ
れを解析し、結果を音節ごとにバッファに格納する(ス
テップS2)。図3は、音節バッファのデータ構造であ
る。音節ごとに音節ID、フレーズ長、アクセントレベ
ル、デュレーション、開始ピッチ、中央ピッチなどのデ
ータフィールドを持ち、一度に入力される音節数(例え
ば一行分)を格納できる長さを持った配列になってい
る。
などの発音記号にアクセントおよび区切り情報を付加し
たものを入力として受け取る(ステップS1)。次にそ
れを解析し、結果を音節ごとにバッファに格納する(ス
テップS2)。図3は、音節バッファのデータ構造であ
る。音節ごとに音節ID、フレーズ長、アクセントレベ
ル、デュレーション、開始ピッチ、中央ピッチなどのデ
ータフィールドを持ち、一度に入力される音節数(例え
ば一行分)を格納できる長さを持った配列になってい
る。
【0028】制御部1は入力を解析し、音節ID、フレ
ーズ長、アクセントレベルを設定する。音節IDは
「あ」や「か」などの音節を特定するための番号であ
る。フレーズ長は入力の区切り記号で囲まれた範囲内の
音節数を示す数値で、フレーズが始まる音節のフィール
ドにその数値が設定される。アクセントレベルはアクセ
ントの強さを表し、フレーズごとに0個または1個存在
する。
ーズ長、アクセントレベルを設定する。音節IDは
「あ」や「か」などの音節を特定するための番号であ
る。フレーズ長は入力の区切り記号で囲まれた範囲内の
音節数を示す数値で、フレーズが始まる音節のフィール
ドにその数値が設定される。アクセントレベルはアクセ
ントの強さを表し、フレーズごとに0個または1個存在
する。
【0029】例えば「音声合成」という言葉を言語処理
した結果である「オ ン セ エ / ゴ1 オ セ エ」(/
は区切り記号、1 はアクセントレベル)と言う記号列を
入力したときに音節ID、フレーズ長、アクセントレベ
ルが設定される様子を図4に示す。フレーズ長はフレー
ズの先頭の音節にセットされる。
した結果である「オ ン セ エ / ゴ1 オ セ エ」(/
は区切り記号、1 はアクセントレベル)と言う記号列を
入力したときに音節ID、フレーズ長、アクセントレベ
ルが設定される様子を図4に示す。フレーズ長はフレー
ズの先頭の音節にセットされる。
【0030】次に上記で設定されたフレーズ長とアクセ
ントレベルの情報を元に韻律情報を設定する(ステップ
S3)。韻律情報の設定はデュレーション(ここでは音
節の持続時間)の設定とピッチの設定に分かれる。デュ
レーションはあらかじめ決めておいた発話速度と、音節
の前後関係などを考慮した規則によって決定される。ま
た、ピッチは藤崎モデルなどのピッチ生成方法により生
成したものを、音節の開始部と中央部の2カ所の値で表
す。先ほどの「オ ン セ エ / ゴ1 オ セ エ」の入力
に韻律情報が設定される様子を図5に示す。
ントレベルの情報を元に韻律情報を設定する(ステップ
S3)。韻律情報の設定はデュレーション(ここでは音
節の持続時間)の設定とピッチの設定に分かれる。デュ
レーションはあらかじめ決めておいた発話速度と、音節
の前後関係などを考慮した規則によって決定される。ま
た、ピッチは藤崎モデルなどのピッチ生成方法により生
成したものを、音節の開始部と中央部の2カ所の値で表
す。先ほどの「オ ン セ エ / ゴ1 オ セ エ」の入力
に韻律情報が設定される様子を図5に示す。
【0031】こうして生成された音節バッファを順番に
一つずつ読み出し、イベントリストを生成する(ステッ
プS5)。もし、音節バッファの残りがなくなっていた
ら(ステップS4)、処理を終了する。イベントリスト
は、音声波形合成部に対して直接指示を与えるための機
能情報であるイベントと呼ぶ情報の配列で、図6に示す
構造になっている。各イベントは次のイベントまでの間
隔である「イベント間隔」を時刻情報として持っている
ため、イベントリストは時間軸に沿った制御情報として
機能する。
一つずつ読み出し、イベントリストを生成する(ステッ
プS5)。もし、音節バッファの残りがなくなっていた
ら(ステップS4)、処理を終了する。イベントリスト
は、音声波形合成部に対して直接指示を与えるための機
能情報であるイベントと呼ぶ情報の配列で、図6に示す
構造になっている。各イベントは次のイベントまでの間
隔である「イベント間隔」を時刻情報として持っている
ため、イベントリストは時間軸に沿った制御情報として
機能する。
【0032】イベントの種類には「SC(Segment Chan
ge: 音声素片切り替え)」、「TG(Trigger: トリガ
ー)」などがある。「SC」は音声素片を音節IDが示
す音節種類に対応したものへ切り替える指示である。
ge: 音声素片切り替え)」、「TG(Trigger: トリガ
ー)」などがある。「SC」は音声素片を音節IDが示
す音節種類に対応したものへ切り替える指示である。
【0033】また、それぞれのイベント種類によってデ
ータが付与される。「SC」はパラメータとしての「音
声素片ID」、「TG」は「ピッチID」をデータに持
つ。「音声素片ID」は各音節に対応した音声素片を指
す番号、「ピッチID」は各音声素片中のピッチ周期ご
とに切り出された波形(ピッチ波形)を指す番号であ
る。
ータが付与される。「SC」はパラメータとしての「音
声素片ID」、「TG」は「ピッチID」をデータに持
つ。「音声素片ID」は各音節に対応した音声素片を指
す番号、「ピッチID」は各音声素片中のピッチ周期ご
とに切り出された波形(ピッチ波形)を指す番号であ
る。
【0034】音節バッファを一つ読み出したら、音節I
Dを参照し、対応する音声素片IDをデータに設定し、
「SC」イベントを生成する。イベント間隔は0でよ
い。
Dを参照し、対応する音声素片IDをデータに設定し、
「SC」イベントを生成する。イベント間隔は0でよ
い。
【0035】次に、「TG」イベントを生成する。その
前に音声素片DB7に格納された音声素片のデータ構造
について説明する。
前に音声素片DB7に格納された音声素片のデータ構造
について説明する。
【0036】図7は、音声素片のデータ構造の説明図で
ある。音声素片は一つの初期波形と複数のピッチ波形に
分かれている。例えば「カ」という音節の冒頭には、声
帯振動がなくピッチを持たない無声音区間がある。この
部分は子音の「k」が調音されている部分である。この
ような場所は合成時にピッチ制御の必要がないので、そ
のまま波形として保持しておく。これを初期波形と呼
ぶ。
ある。音声素片は一つの初期波形と複数のピッチ波形に
分かれている。例えば「カ」という音節の冒頭には、声
帯振動がなくピッチを持たない無声音区間がある。この
部分は子音の「k」が調音されている部分である。この
ような場所は合成時にピッチ制御の必要がないので、そ
のまま波形として保持しておく。これを初期波形と呼
ぶ。
【0037】このような初期波形は「k」「s」「t」
などの無声子音だけでなく、「g」「z」「d」などの
有声子音でも使用される。例えば「z」などの場合は雑
音性が強いことや、他の有声子音でも立ち上がり時はピ
ッチが不安定であるためにピッチ波形が切り出しにくい
ためである。そこで、冒頭の短い区間を初期波形として
切り出しておく。
などの無声子音だけでなく、「g」「z」「d」などの
有声子音でも使用される。例えば「z」などの場合は雑
音性が強いことや、他の有声子音でも立ち上がり時はピ
ッチが不安定であるためにピッチ波形が切り出しにくい
ためである。そこで、冒頭の短い区間を初期波形として
切り出しておく。
【0038】「k」の区間が終了すると声帯の振動が開
始し、有声音区間に入る。このような区間にはピッチ周
期に対応する波形のピークを中心にHanning 窓で切り出
すことにより、ピッチ周期ごとに分離して保持してお
く。これをピッチ波形と呼ぶ。
始し、有声音区間に入る。このような区間にはピッチ周
期に対応する波形のピークを中心にHanning 窓で切り出
すことにより、ピッチ周期ごとに分離して保持してお
く。これをピッチ波形と呼ぶ。
【0039】それぞれの音声素片のデータは「初期波形
の長さ」、「初期波形のポインタ」、「ピッチ波形の個
数」、そして、複数の「ピッチ波形」からなる構造であ
る。「ピッチ波形」の大きさは前述したHanning 窓の窓
長を収めるのに必要十分な大きさとする。後述するよう
に窓長はピッチ周期の2倍より小さい値であり、その大
きさの決め方は精密さを要しない。全ての音声素片の全
てのピッチ波形について均一にしても良いし、音声素片
ごとに別の値にしても良いし、各ピッチ波形ごとに別々
の値でも良い。いずれの方法にしても窓長のばらつきは
小さい。従って、配列である「ピッチ波形」を複数集め
た2次元配列の形式を取ることは記憶領域を有効に使用
する。
の長さ」、「初期波形のポインタ」、「ピッチ波形の個
数」、そして、複数の「ピッチ波形」からなる構造であ
る。「ピッチ波形」の大きさは前述したHanning 窓の窓
長を収めるのに必要十分な大きさとする。後述するよう
に窓長はピッチ周期の2倍より小さい値であり、その大
きさの決め方は精密さを要しない。全ての音声素片の全
てのピッチ波形について均一にしても良いし、音声素片
ごとに別の値にしても良いし、各ピッチ波形ごとに別々
の値でも良い。いずれの方法にしても窓長のばらつきは
小さい。従って、配列である「ピッチ波形」を複数集め
た2次元配列の形式を取ることは記憶領域を有効に使用
する。
【0040】この構造体の配列を作り、必要な全ての音
声(音節)に対する音声素片を蓄積しておく。また、初
期波形は別の領域にまとめて記憶しておく。初期波形は
音声素片によって長さが不均一のため、音声素片の構造
体に含めると記憶容量が無駄になるので、一次元配列と
して別の連続した領域に格納した方がよい。
声(音節)に対する音声素片を蓄積しておく。また、初
期波形は別の領域にまとめて記憶しておく。初期波形は
音声素片によって長さが不均一のため、音声素片の構造
体に含めると記憶容量が無駄になるので、一次元配列と
して別の連続した領域に格納した方がよい。
【0041】このような音声素片を用意したという前提
で、先ほどの「TG」イベントの生成の説明に戻る。
で、先ほどの「TG」イベントの生成の説明に戻る。
【0042】「TG」イベントのデータには「ピッチI
D」をセットする。最初の「TG」イベントのデータに
は初期波形を表す0を設定する。イベント間隔は「初期
波形の長さ」から先ほどの窓長の2分の1を引いたもの
である。
D」をセットする。最初の「TG」イベントのデータに
は初期波形を表す0を設定する。イベント間隔は「初期
波形の長さ」から先ほどの窓長の2分の1を引いたもの
である。
【0043】次に、続けて「TG」イベントを生成す
る。この「TG」イベントのデータには最初のピッチ波
形を表す1をセットする。イベント間隔はそのピッチ波
形が合成時に用いられる位置でのピッチ周期である。ピ
ッチ周期は音節バッファのピッチ情報(開始ピッチと中
央ピッチ)から内挿によって求める。
る。この「TG」イベントのデータには最初のピッチ波
形を表す1をセットする。イベント間隔はそのピッチ波
形が合成時に用いられる位置でのピッチ周期である。ピ
ッチ周期は音節バッファのピッチ情報(開始ピッチと中
央ピッチ)から内挿によって求める。
【0044】同様にして、「TG」イベントを1音節分
生成する。各「TG」イベントのデータである「ピッチ
ID」は、ピッチ波形のもとの音声波形中の位置と合成
時の音節中の位置が最も近くなるように選ぶ。即ち、も
との音声波形のピッチと合成時のピッチが同じならばピ
ッチIDは0,1,2,,,と一つずつ増加するが、合成時のピ
ッチの方が高い場合は0,1,1,2,3,3,,,というように同じ
番号を何度か繰り返す。逆に合成時のピッチの方が低い
場合は0,1,3,4,6,,,というように、途中の番号を間引
く。こうする事により合成時のピッチ制御により音声素
片の時間長が変化することを防ぐ。図8に音節「オ」に
対してイベントリストが生成される様子を示す。
生成する。各「TG」イベントのデータである「ピッチ
ID」は、ピッチ波形のもとの音声波形中の位置と合成
時の音節中の位置が最も近くなるように選ぶ。即ち、も
との音声波形のピッチと合成時のピッチが同じならばピ
ッチIDは0,1,2,,,と一つずつ増加するが、合成時のピ
ッチの方が高い場合は0,1,1,2,3,3,,,というように同じ
番号を何度か繰り返す。逆に合成時のピッチの方が低い
場合は0,1,3,4,6,,,というように、途中の番号を間引
く。こうする事により合成時のピッチ制御により音声素
片の時間長が変化することを防ぐ。図8に音節「オ」に
対してイベントリストが生成される様子を示す。
【0045】一音節分のイベントリストが生成されたら
次の段階に移り、イベント読み出しおよび合成制御の処
理を行う(ステップS7)。この処理を詳しく説明した
フローチャートを図9に示す。図9において、イベント
を1つ取り出し(ステップS11)、そのイベント種類
が「SC」であるか否かを判定し(ステップS12)、
「SC」であれば音声素片切り替え処理を実行し(ステ
ップS13)、「SC」でなければ、イベント種類が
「TG」であるか否かを判定し(ステップS14)、
「TG」であればトリガー処理を実行する(ステップS
15)。その後、次のイベントを読み出す時期が来たか
どうかを判定し(ステップS8)、来るまで音声波形合
成の処理を繰り返し行い(ステップS9)、更に、イベ
ントリストが終了するまでイベント読み出しから音声波
形合成までを繰り返す。
次の段階に移り、イベント読み出しおよび合成制御の処
理を行う(ステップS7)。この処理を詳しく説明した
フローチャートを図9に示す。図9において、イベント
を1つ取り出し(ステップS11)、そのイベント種類
が「SC」であるか否かを判定し(ステップS12)、
「SC」であれば音声素片切り替え処理を実行し(ステ
ップS13)、「SC」でなければ、イベント種類が
「TG」であるか否かを判定し(ステップS14)、
「TG」であればトリガー処理を実行する(ステップS
15)。その後、次のイベントを読み出す時期が来たか
どうかを判定し(ステップS8)、来るまで音声波形合
成の処理を繰り返し行い(ステップS9)、更に、イベ
ントリストが終了するまでイベント読み出しから音声波
形合成までを繰り返す。
【0046】図9の中の音声素片切り替え処理、および
トリガー処理については後述する。これらの処理は各イ
ベントが持つイベント間隔に従って行われるので、ピッ
チの制御など時間情報に基づいた処理が行われる。すな
わち、あるイベントを読み出した時、イベント間隔が2
0であったら、次の処理である音声波形合成を20回実
行した後、次のイベントを読み出す。音声波形合成処理
では1サンプルの音声波形を合成する。「TG」イベン
トのイベント間隔はピッチ周期になっているので「T
G」イベントに従ってピッチ波形を読み出す事により、
目的のピッチ周期を持った音声波形が合成される。目的
のピッチを持った音声が合成される様子を図10に示
す。
トリガー処理については後述する。これらの処理は各イ
ベントが持つイベント間隔に従って行われるので、ピッ
チの制御など時間情報に基づいた処理が行われる。すな
わち、あるイベントを読み出した時、イベント間隔が2
0であったら、次の処理である音声波形合成を20回実
行した後、次のイベントを読み出す。音声波形合成処理
では1サンプルの音声波形を合成する。「TG」イベン
トのイベント間隔はピッチ周期になっているので「T
G」イベントに従ってピッチ波形を読み出す事により、
目的のピッチ周期を持った音声波形が合成される。目的
のピッチを持った音声が合成される様子を図10に示
す。
【0047】次に音声波形合成処理の詳細について説明
する。管理部2は「音声素片ID」の管理を行うと共
に、複数設けられた状態保持部3とサンプル読み出し部
5の組(エレメントと呼ぶ)の内、どのエレメントを次
に使用するかを表す「エレメントID」の管理を行う。
各エレメントの状態保持部3は現在の「ピッチID」、
ピッチ波形の「先頭アドレス」および「最終アドレ
ス」、現在読み出し中のアドレスを表す「読み出しアド
レス」を保持している。サンプル読み出し部5は状態保
持部3から「読み出しアドレス」を取り出し、それが
「最終アドレス」を越えていなければ音声素片DB7の
該当アドレスから音声素片を1サンプル読み出す。その
後、状態保持部3の「読み出しアドレス」を一つ加算す
る。加算重畳部6は全てのエレメントのサンプル読み出
し部5の出力を加算して出力する。この出力は振幅制御
部4によって振幅の制御を受け、出力部8により音響振
動に変換されて音声として出力される。
する。管理部2は「音声素片ID」の管理を行うと共
に、複数設けられた状態保持部3とサンプル読み出し部
5の組(エレメントと呼ぶ)の内、どのエレメントを次
に使用するかを表す「エレメントID」の管理を行う。
各エレメントの状態保持部3は現在の「ピッチID」、
ピッチ波形の「先頭アドレス」および「最終アドレ
ス」、現在読み出し中のアドレスを表す「読み出しアド
レス」を保持している。サンプル読み出し部5は状態保
持部3から「読み出しアドレス」を取り出し、それが
「最終アドレス」を越えていなければ音声素片DB7の
該当アドレスから音声素片を1サンプル読み出す。その
後、状態保持部3の「読み出しアドレス」を一つ加算す
る。加算重畳部6は全てのエレメントのサンプル読み出
し部5の出力を加算して出力する。この出力は振幅制御
部4によって振幅の制御を受け、出力部8により音響振
動に変換されて音声として出力される。
【0048】図9の中の音声素片切り替え処理では、管
理部2の「音声素片ID」を与えられた音節IDに対応
するものに変更する。
理部2の「音声素片ID」を与えられた音節IDに対応
するものに変更する。
【0049】また、トリガー処理では、管理部2の「エ
レメントID」を循環的に更新する。すなわち、図11
に示すように、まず、「エレメントID」に1を加算し
(ステップS21)、それがエレメントの個数に達した
かどうかを判断し(ステップS22)、達していたら0
にリセットする(ステップS23)。次に、イベントデ
ータからピッチIDを取り出し(ステップS24)、更
に管理部2から「音声素片ID」を取り出し(ステップ
S25)、対応する音声素片の対応するピッチ波形の先
頭アドレスを取得して(ステップS26)、状態保持部
3の「先頭アドレス」にセットする。また、「読み出し
アドレス」をピッチ波形先頭アドレスで初期化し(ステ
ップS27)、更に、あらかじめ決められたピッチ波形
の長さを用いて、「最終アドレス」を設定する(ステッ
プS28)。
レメントID」を循環的に更新する。すなわち、図11
に示すように、まず、「エレメントID」に1を加算し
(ステップS21)、それがエレメントの個数に達した
かどうかを判断し(ステップS22)、達していたら0
にリセットする(ステップS23)。次に、イベントデ
ータからピッチIDを取り出し(ステップS24)、更
に管理部2から「音声素片ID」を取り出し(ステップ
S25)、対応する音声素片の対応するピッチ波形の先
頭アドレスを取得して(ステップS26)、状態保持部
3の「先頭アドレス」にセットする。また、「読み出し
アドレス」をピッチ波形先頭アドレスで初期化し(ステ
ップS27)、更に、あらかじめ決められたピッチ波形
の長さを用いて、「最終アドレス」を設定する(ステッ
プS28)。
【0050】図12は、本実施例における音声素片の作
成方法を表したものである。同図で再上段は音声素片の
もととなる音声波形を表している。Psは開始マーク、P
0,P1,,,, はピッチに対応するピークに付けられたピッ
チマーク、W0,W1,,,, は切り出し窓長を表す。S0,S
1,,,, は切り出された波形である。S1以降は1ピッチ周
期ごとに切り出したピッチ波形であるが、S0 は初期波
形であり、開始マークからP0までとそれ以降W0/2 の長
さまでを切り出した波形である。P0 以降はHanning 窓
の後半、それ以前は矩形窓である。また、S1以降の素片
はHanning 窓によって切り出される。
成方法を表したものである。同図で再上段は音声素片の
もととなる音声波形を表している。Psは開始マーク、P
0,P1,,,, はピッチに対応するピークに付けられたピッ
チマーク、W0,W1,,,, は切り出し窓長を表す。S0,S
1,,,, は切り出された波形である。S1以降は1ピッチ周
期ごとに切り出したピッチ波形であるが、S0 は初期波
形であり、開始マークからP0までとそれ以降W0/2 の長
さまでを切り出した波形である。P0 以降はHanning 窓
の後半、それ以前は矩形窓である。また、S1以降の素片
はHanning 窓によって切り出される。
【0051】Hanning 窓の窓長であるWn (n=0,1,2,,,)
は例えば(数1)のように、全ての音声波形に対してピ
ッチ周期の代表値(例えば平均値)を用いて一律に決め
ても良いし、
は例えば(数1)のように、全ての音声波形に対してピ
ッチ周期の代表値(例えば平均値)を用いて一律に決め
ても良いし、
【0052】
【数1】Wn = Tall × R, (Tall は全ての音声のピッチ
周期の平均) (数2)のように、各音声波形ごとにピッチ周期の代表
値(例えば平均値)を用いて決めても良いし、
周期の平均) (数2)のように、各音声波形ごとにピッチ周期の代表
値(例えば平均値)を用いて決めても良いし、
【0053】
【数2】 Wn = Tind × R, (Tind は各音声のピッチ周期の平均) (数3)(数4)のように、各ピッチ波形ごとにその近
隣のピッチ周期から個別に決定しても良い。
隣のピッチ周期から個別に決定しても良い。
【0054】
【数3】Wn = ((Tn + Tn+1) / 2) × R , for n ≧ 1
【0055】
【数4】W0 = T1 × R ここで、R はピッチ周期に対する窓長の比で、例えば1.
4 前後を用いる。その理由について次に説明する。
4 前後を用いる。その理由について次に説明する。
【0056】図13は、ある音声の時間波形(上段)
と、そのFFTスペクトルおよびLPCスペクトル包絡
(下段)である。サンプリング周波数fsは(数5)で
あり、
と、そのFFTスペクトルおよびLPCスペクトル包絡
(下段)である。サンプリング周波数fsは(数5)で
あり、
【0057】
【数5】fs = 10kHz 分析窓長Wは(数6)であり、
【0058】
【数6】W = 512 線形予測次数Mは(数7)である。
【0059】
【数7】M = 12 窓関数はHanning 窓である。また、この音声のピッチ周
期Tは(数8)であり、時間波形の2478 点目から2990
点目が分析対象区間である。
期Tは(数8)であり、時間波形の2478 点目から2990
点目が分析対象区間である。
【0060】
【数8】T = 108 FFTスペクトルは高調波のために櫛状の周期的な構造
をしており、これがピッチとして知覚される。また、L
PCスペクトル包絡はFFTスペクトルのピークを結ぶ
ようななめらかな形状をしており、この形状により音韻
が知覚される。
をしており、これがピッチとして知覚される。また、L
PCスペクトル包絡はFFTスペクトルのピークを結ぶ
ようななめらかな形状をしており、この形状により音韻
が知覚される。
【0061】図14は、同音声の時間波形(上段)と、
W=2T(窓長がピッチ周期の2倍)の時のFFTスペ
クトル(下段)である。時間波形の2438 点目から2653
点目が分析対象区間である。この時のFFTスペクトル
は櫛状の構造を失い、スペクトル包絡を表している。こ
れはHanning 窓の周波数特性が元のスペクトルに畳み込
まれるためである。
W=2T(窓長がピッチ周期の2倍)の時のFFTスペ
クトル(下段)である。時間波形の2438 点目から2653
点目が分析対象区間である。この時のFFTスペクトル
は櫛状の構造を失い、スペクトル包絡を表している。こ
れはHanning 窓の周波数特性が元のスペクトルに畳み込
まれるためである。
【0062】すなわち、図13に示した原スペクトルは
fs/Tの間隔で櫛状の周期的な構造をしている。一
方、窓長WのHanning 窓の周波数特性は、メインローブ
の帯域幅Bが(数9)である。
fs/Tの間隔で櫛状の周期的な構造をしている。一
方、窓長WのHanning 窓の周波数特性は、メインローブ
の帯域幅Bが(数9)である。
【0063】
【数9】B = 2fs / W また、W=2Tの時のBは(数10)となり、これと音
声スペクトルとを畳み込む事により、ちょうど高調波の
間を埋める効果がある。
声スペクトルとを畳み込む事により、ちょうど高調波の
間を埋める効果がある。
【0064】
【数10】B = fs / T このような理由から、W=2TのHanning 窓で切り出さ
れたピッチ波形は原音声のスペクトル包絡に近いスペク
トルを有する。こうして切り出された波形を新たなピッ
チ周期T’で再配置、重畳する事によって所望のピッチ
周期の音声が合成される。
れたピッチ波形は原音声のスペクトル包絡に近いスペク
トルを有する。こうして切り出された波形を新たなピッ
チ周期T’で再配置、重畳する事によって所望のピッチ
周期の音声が合成される。
【0065】W<2Tの時はB>fs/Tとなるため、
音声のスペクトルと畳み込んだとき、スペクトル包絡に
歪を生ずる。W>2Tの場合はB<fs/Tとなり、音
声のスペクトルと畳み込んだとき、十分に高調波の間を
埋める効果がなく、そのスペクトルは元の音声の高調波
構造を含んだものとなる。このような場合は、目的のピ
ッチ周期で再配置、重畳しても元の音声波形の持つピッ
チの情報が残存しているため、エコーに似た音が発生す
る。
音声のスペクトルと畳み込んだとき、スペクトル包絡に
歪を生ずる。W>2Tの場合はB<fs/Tとなり、音
声のスペクトルと畳み込んだとき、十分に高調波の間を
埋める効果がなく、そのスペクトルは元の音声の高調波
構造を含んだものとなる。このような場合は、目的のピ
ッチ周期で再配置、重畳しても元の音声波形の持つピッ
チの情報が残存しているため、エコーに似た音が発生す
る。
【0066】先行文献(特表平3−501896)は上
記の性質を利用し、原音声のピッチ周期Tと目的のピッ
チ周期T’の関係がT<T’の時はW=2T、T>T’
の時はW=2T’とする事で高品質なピッチ変更を実現
していた。T>T’の時、すなわちピッチを上げるとき
に原音声のピッチ周期ではなく合成ピッチ周期の2倍の
窓長を用いるのは、切り出しピッチ波形の重なり合いが
多くなる事を防ぐためであると思われる。余り多くのピ
ッチ波形が重なり合うと互いの影響が強くなり音質劣化
を引き起こす。
記の性質を利用し、原音声のピッチ周期Tと目的のピッ
チ周期T’の関係がT<T’の時はW=2T、T>T’
の時はW=2T’とする事で高品質なピッチ変更を実現
していた。T>T’の時、すなわちピッチを上げるとき
に原音声のピッチ周期ではなく合成ピッチ周期の2倍の
窓長を用いるのは、切り出しピッチ波形の重なり合いが
多くなる事を防ぐためであると思われる。余り多くのピ
ッチ波形が重なり合うと互いの影響が強くなり音質劣化
を引き起こす。
【0067】先ほどW<2Tの時は切り出されたピッチ
波形は元の音声スペクトルに対して歪を持っていると述
べた。しかし、2Tに比べて極端にWが小さくない場合
はその歪は許容できる。もし、固定のWで全ての合成ピ
ッチの範囲をカバーできれば先行文献のように合成時に
窓掛けを行わなくても、事前に窓掛けを済ませた音声素
片を用意しておくことにより、合成時にはピッチ波形の
重ね合わせ処理のみで済むので、計算量を減らす事がで
きる。
波形は元の音声スペクトルに対して歪を持っていると述
べた。しかし、2Tに比べて極端にWが小さくない場合
はその歪は許容できる。もし、固定のWで全ての合成ピ
ッチの範囲をカバーできれば先行文献のように合成時に
窓掛けを行わなくても、事前に窓掛けを済ませた音声素
片を用意しておくことにより、合成時にはピッチ波形の
重ね合わせ処理のみで済むので、計算量を減らす事がで
きる。
【0068】固定の窓長を用いる場合、ピッチを上げて
行ったときに多くのピッチ波形が重なり合う事により歪
が発生する。このような観点からはWは小さい方がよ
い。
行ったときに多くのピッチ波形が重なり合う事により歪
が発生する。このような観点からはWは小さい方がよ
い。
【0069】そこで、切り出されたピッチ波形のスペク
トル歪が許容できる程度に長く、かつ合成ピッチが高い
場合の重なり合いによる歪が許容できる程度に短い窓長
を選ぶことで最適な窓長Wを決定する事ができる。
トル歪が許容できる程度に長く、かつ合成ピッチが高い
場合の重なり合いによる歪が許容できる程度に短い窓長
を選ぶことで最適な窓長Wを決定する事ができる。
【0070】Wの範囲としては原音声にもよるが、1.2
Tから1.6T程度の範囲に最適値がある事が多い。たと
えばW=1.4T の時の切り出しピッチ波形のスペクトル
を図15に示す。図13の原スペクトルの包絡を十分に
表しており、図14のW=2Tの場合と比べても遜色の
ないスペクトル形状を示しているばかりか、むしろこち
らの方がスペクトル包絡としては優れている(高調波構
造が除去されている)。そして、W=2Tと比べてピッ
チ上昇時のピッチ波形の重なり度合いは軽減されてい
る。
Tから1.6T程度の範囲に最適値がある事が多い。たと
えばW=1.4T の時の切り出しピッチ波形のスペクトル
を図15に示す。図13の原スペクトルの包絡を十分に
表しており、図14のW=2Tの場合と比べても遜色の
ないスペクトル形状を示しているばかりか、むしろこち
らの方がスペクトル包絡としては優れている(高調波構
造が除去されている)。そして、W=2Tと比べてピッ
チ上昇時のピッチ波形の重なり度合いは軽減されてい
る。
【0071】以上のような方法により、合成時の計算は
事実上加算演算のみとなり、きわめて少ない演算処理量
で高品質の音声を合成することが可能である。
事実上加算演算のみとなり、きわめて少ない演算処理量
で高品質の音声を合成することが可能である。
【0072】合成波形を1サンプル合成するために必要
な演算は以下の通りである。ピッチ波形を1サンプル生
成するためには、音声素片を読み出すためのメモリ読み
出しが1回だけ必要である。エレメントの出力を重畳す
るための加算回数はエレメント数−1である。したがっ
て、エレメント数をnとすると合成波形1サンプルあた
りメモリアクセスn回、加算(n−1)回である。仮に
n=4とするとメモリアクセス4回、加算3回である。
な演算は以下の通りである。ピッチ波形を1サンプル生
成するためには、音声素片を読み出すためのメモリ読み
出しが1回だけ必要である。エレメントの出力を重畳す
るための加算回数はエレメント数−1である。したがっ
て、エレメント数をnとすると合成波形1サンプルあた
りメモリアクセスn回、加算(n−1)回である。仮に
n=4とするとメモリアクセス4回、加算3回である。
【0073】次に、本発明にかかる第2の実施例につい
て説明する。図16は本発明の第2の実施例の音声合成
装置の構成図である。その音声合成装置には制御部1が
設けられ、その出力は管理部2、複数の状態保持部3、
振幅制御部4に接続されている。管理部2は複数の状態
保持部3に接続され、それらの状態保持部3は同じ数設
けられたサンプル読み出し部5に一対一に接続されてい
る。また、波形保持部9がサンプル読み出し部5と同じ
数だけ設けられ、サンプル読み出し部5と一対一に接続
され、その複数のサンプル読み出し部5の出力は一つに
まとめられ加算重畳部6に入力されている。その加算重
畳部6の出力は振幅制御部4に入力され、その出力は出
力部8に入力されている。また、圧縮音声素片DB10
が設けられ、全てのサンプル読み出し部5に接続されて
いる。
て説明する。図16は本発明の第2の実施例の音声合成
装置の構成図である。その音声合成装置には制御部1が
設けられ、その出力は管理部2、複数の状態保持部3、
振幅制御部4に接続されている。管理部2は複数の状態
保持部3に接続され、それらの状態保持部3は同じ数設
けられたサンプル読み出し部5に一対一に接続されてい
る。また、波形保持部9がサンプル読み出し部5と同じ
数だけ設けられ、サンプル読み出し部5と一対一に接続
され、その複数のサンプル読み出し部5の出力は一つに
まとめられ加算重畳部6に入力されている。その加算重
畳部6の出力は振幅制御部4に入力され、その出力は出
力部8に入力されている。また、圧縮音声素片DB10
が設けられ、全てのサンプル読み出し部5に接続されて
いる。
【0074】圧縮音声素片DB10には、図17に示す
ような形式で音声素片が記憶されている。すなわち、
「初期波形の長さ」と「初期波形のポインタ」、「ピッ
チ波形の個数」が図7と同様に記憶されているが、「ピ
ッチ波形」の代わりに「第1ピッチ波形」と複数の「差
分波形」が記憶されている。「初期波形記憶領域」に関
しては図7と同様である。
ような形式で音声素片が記憶されている。すなわち、
「初期波形の長さ」と「初期波形のポインタ」、「ピッ
チ波形の個数」が図7と同様に記憶されているが、「ピ
ッチ波形」の代わりに「第1ピッチ波形」と複数の「差
分波形」が記憶されている。「初期波形記憶領域」に関
しては図7と同様である。
【0075】「差分波形」は、図7における「ピッチ波
形」の隣合った物同士の差を取ったデータである。全て
のピッチ波形はピークを中心に切り出されているのでそ
れらの差分は隣接ピッチ間の波形変化を表している。音
声波形の場合は隣接ピッチ間の相関が強いため、差分波
形はきわめて振幅の小さい物となる。したがって、記憶
領域に割り当てる一語あたりのビット数を数ビット減ら
すことが可能である。また、符号化方法によっては二分
の一や四分の一まで減らすことができる。
形」の隣合った物同士の差を取ったデータである。全て
のピッチ波形はピークを中心に切り出されているのでそ
れらの差分は隣接ピッチ間の波形変化を表している。音
声波形の場合は隣接ピッチ間の相関が強いため、差分波
形はきわめて振幅の小さい物となる。したがって、記憶
領域に割り当てる一語あたりのビット数を数ビット減ら
すことが可能である。また、符号化方法によっては二分
の一や四分の一まで減らすことができる。
【0076】このような形式で記憶された圧縮音声素片
DB10を用いて実際に波形を読み出し音声波形を合成
する手順について説明する。1サンプルの合成処理につ
き全てのエレメントで順番にサンプル読み出し処理が行
われる。
DB10を用いて実際に波形を読み出し音声波形を合成
する手順について説明する。1サンプルの合成処理につ
き全てのエレメントで順番にサンプル読み出し処理が行
われる。
【0077】まず、音声素片切り替え処理およびトリガ
ー処理が行われた直後にサンプル読み出し処理に入った
と仮定する。図18において、初期波形か否か判定し
(ステップS101)、初期波形が終了であれば第1ピ
ッチ波形の処理に移り(ステップS102、S10
3)、終了でなければ(ステップS102)、状態保持
部3の「ピッチID」は初期波形を指しているので初期
波形から1サンプル読み出し(ステップS104)、加
算重畳部へ出力する(ステップS105)。同時に状態
保持部3の「読み出しアドレス」を一つ加算して(ステ
ップS106)処理を終わる。以後の処理では「読み出
しアドレス」が「最終アドレス」を越えていなければ同
様の処理を行い、越えていれば何もしない。
ー処理が行われた直後にサンプル読み出し処理に入った
と仮定する。図18において、初期波形か否か判定し
(ステップS101)、初期波形が終了であれば第1ピ
ッチ波形の処理に移り(ステップS102、S10
3)、終了でなければ(ステップS102)、状態保持
部3の「ピッチID」は初期波形を指しているので初期
波形から1サンプル読み出し(ステップS104)、加
算重畳部へ出力する(ステップS105)。同時に状態
保持部3の「読み出しアドレス」を一つ加算して(ステ
ップS106)処理を終わる。以後の処理では「読み出
しアドレス」が「最終アドレス」を越えていなければ同
様の処理を行い、越えていれば何もしない。
【0078】次に、それ以後の「TG」イベントに続い
てサンプル読み出し処理に入ったとする。状態保持部3
の「ピッチID」は当然初期波形以外を指している。最
初は第1ピッチ波形を指す(ステップS107)。した
がって、第1ピッチ波形から1サンプル読み出す(ステ
ップS110)。もし第1ピッチ波形終了であれば差分
波形の処理に移る(ステップS109)。アドレスの更
新は上記と同様であるが、読み出した値を波形保持部9
に一時記憶する(ステップS111)。波形保持部9は
ピッチ波形一つ分の記憶領域であり、第1ピッチ波形の
先頭から数えてn番目から読み出された値は、波形保持
部9の先頭から数えてn番目に記憶される。そして、同
じ値を加算重畳部6に出力し(ステップS112)、次
のサンプルの処理に移る(ステップS113)。
てサンプル読み出し処理に入ったとする。状態保持部3
の「ピッチID」は当然初期波形以外を指している。最
初は第1ピッチ波形を指す(ステップS107)。した
がって、第1ピッチ波形から1サンプル読み出す(ステ
ップS110)。もし第1ピッチ波形終了であれば差分
波形の処理に移る(ステップS109)。アドレスの更
新は上記と同様であるが、読み出した値を波形保持部9
に一時記憶する(ステップS111)。波形保持部9は
ピッチ波形一つ分の記憶領域であり、第1ピッチ波形の
先頭から数えてn番目から読み出された値は、波形保持
部9の先頭から数えてn番目に記憶される。そして、同
じ値を加算重畳部6に出力し(ステップS112)、次
のサンプルの処理に移る(ステップS113)。
【0079】次に、「ピッチID」が差分波形を指して
いれば(ステップS114)、差分波形から1サンプル
読み出す(ステップS116)。ここで、もし1つの差
分波形終了の場合は、次の差分波形の処理に移る(ステ
ップS115)。アドレスの更新は上記と同様である。
差分波形の場合は読み出した値と波形保持部9に記憶さ
れていた値を加算する(ステップS117)。こうする
ことで差分波形から原波形を復元することができる。こ
の値を波形保持部9に再び記憶しておき(ステップS1
17)、加算重畳部6へも出力する(ステップS11
8)。そして次のサンプルの処理に移る(ステップS1
19)。
いれば(ステップS114)、差分波形から1サンプル
読み出す(ステップS116)。ここで、もし1つの差
分波形終了の場合は、次の差分波形の処理に移る(ステ
ップS115)。アドレスの更新は上記と同様である。
差分波形の場合は読み出した値と波形保持部9に記憶さ
れていた値を加算する(ステップS117)。こうする
ことで差分波形から原波形を復元することができる。こ
の値を波形保持部9に再び記憶しておき(ステップS1
17)、加算重畳部6へも出力する(ステップS11
8)。そして次のサンプルの処理に移る(ステップS1
19)。
【0080】以上のように、ピッチ波形を差分波形の形
で蓄積することにより記憶容量を大きく削減することが
可能である。また、そのために第1の実施例に比べて余
分に必要となる構成要素と計算は、1エレメントあたり
一つの1ピッチ波形分のメモリとサンプル読み出し処理
1回につき加算、メモリから1語読み出し、メモリへ1
語格納が各1回と、ごくわずかである。合成波形を1サ
ンプル合成するために必要な演算は、以下の通りであ
る。ピッチ波形を1サンプル生成するためには、差分波
形を読み出すためのメモリ読み出しが1回、それを波形
保持部9の値と加算して原波形を復元するためのメモリ
読み出しと加算がそれぞれ1回、その値を再び波形保持
部9に記憶するためのメモリ書き込みが1回である。エ
レメント数をnとすると、合成波形1サンプルあたり、
メモリアクセス3n回、加算がn+(n−1)回(n個
のエレメント出力を重畳するための加算演算はn−1
回)である。仮にnが4ならば、合成波形1サンプルあ
たり、メモリアクセス12回、加算15回となる。
で蓄積することにより記憶容量を大きく削減することが
可能である。また、そのために第1の実施例に比べて余
分に必要となる構成要素と計算は、1エレメントあたり
一つの1ピッチ波形分のメモリとサンプル読み出し処理
1回につき加算、メモリから1語読み出し、メモリへ1
語格納が各1回と、ごくわずかである。合成波形を1サ
ンプル合成するために必要な演算は、以下の通りであ
る。ピッチ波形を1サンプル生成するためには、差分波
形を読み出すためのメモリ読み出しが1回、それを波形
保持部9の値と加算して原波形を復元するためのメモリ
読み出しと加算がそれぞれ1回、その値を再び波形保持
部9に記憶するためのメモリ書き込みが1回である。エ
レメント数をnとすると、合成波形1サンプルあたり、
メモリアクセス3n回、加算がn+(n−1)回(n個
のエレメント出力を重畳するための加算演算はn−1
回)である。仮にnが4ならば、合成波形1サンプルあ
たり、メモリアクセス12回、加算15回となる。
【0081】図19に従来技術と本発明の演算量の比較
を示す。
を示す。
【0082】なお、上記実施例では、いずれも窓関数に
Hanning 窓を用いたが、これに限らず、他の形状のもの
を用いても構わない。
Hanning 窓を用いたが、これに限らず、他の形状のもの
を用いても構わない。
【0083】また、上記実施例では、いずれもイベント
種類としては「SC」(音声素片切り替え)と「TG」
(トリガー)のみを用いたが、これに限らず、その他の
例えば振幅制御情報や別話者の音声から作成した音声素
片セットへの切り替え情報などを使用することもでき
る。
種類としては「SC」(音声素片切り替え)と「TG」
(トリガー)のみを用いたが、これに限らず、その他の
例えば振幅制御情報や別話者の音声から作成した音声素
片セットへの切り替え情報などを使用することもでき
る。
【0084】また、上記実施例では、いずれも加算重畳
によるピッチ変更は音声素片に対して用いたが、これに
限らず、例えばフォルマント合成における声帯音源波形
のピッチ変更などに用いてももちろん構わない。
によるピッチ変更は音声素片に対して用いたが、これに
限らず、例えばフォルマント合成における声帯音源波形
のピッチ変更などに用いてももちろん構わない。
【0085】以上のように、音声素片作成時に窓掛けを
済ませておくことにより、合成時の演算量を飛躍的に減
少させることが出来、かつ、そのための音質劣化を少な
く抑えることができる。また、ピッチ波形間の差分を取
ることによって効果的に音声素片を圧縮することが出
来、従来の技術よりも更に少ない記憶容量で実施するこ
とができる。また、音声素片を圧縮したことによる合成
時の演算量や装置規模の増大は極めて少ない。
済ませておくことにより、合成時の演算量を飛躍的に減
少させることが出来、かつ、そのための音質劣化を少な
く抑えることができる。また、ピッチ波形間の差分を取
ることによって効果的に音声素片を圧縮することが出
来、従来の技術よりも更に少ない記憶容量で実施するこ
とができる。また、音声素片を圧縮したことによる合成
時の演算量や装置規模の増大は極めて少ない。
【0086】このように、演算量が極めて少なく、かつ
装置規模も小さいために、小型の高品質音声合成装置へ
の応用が可能となる。
装置規模も小さいために、小型の高品質音声合成装置へ
の応用が可能となる。
【0087】
【発明の効果】以上述べたところから明らかなように本
発明は、音質劣化が少なく、音声合成時の演算量を減少
させることができるという長所を有する。
発明は、音質劣化が少なく、音声合成時の演算量を減少
させることができるという長所を有する。
【0088】また、ピッチ波形の差分を取って音声素片
を圧縮すことにより、記憶容量を少なくできるという利
点がある。
を圧縮すことにより、記憶容量を少なくできるという利
点がある。
【図1】本発明にかかる第1の実施例の音声合成装置の
構成図である。
構成図である。
【図2】同第1の実施例における制御部を中心とした全
体の処理のフローチャートである。
体の処理のフローチャートである。
【図3】同第1の実施例における音節バッファのデータ
構造を示す図である。
構造を示す図である。
【図4】同第1の実施例における音節バッファに音節I
D、フレーズ長、アクセントレベルが設定される様子を
説明する図である。
D、フレーズ長、アクセントレベルが設定される様子を
説明する図である。
【図5】同第1の実施例における音節バッファに韻律情
報が設定される様子を説明する図である。
報が設定される様子を説明する図である。
【図6】同第1の実施例におけるイベントリストのデー
タ構造を示す図である。
タ構造を示す図である。
【図7】同第1の実施例における音声素片DBにおける
音声素片のデータ構造を示す図である。
音声素片のデータ構造を示す図である。
【図8】同第1の実施例における音節「オ」に対してイ
ベントリストが生成される様子を説明する図である。
ベントリストが生成される様子を説明する図である。
【図9】同第1の実施例におけるイベント読み出しおよ
び合成制御の部分のフローチャートである。
び合成制御の部分のフローチャートである。
【図10】同第1の実施例における目的のピッチを持っ
た音声が合成される様子を説明する図である。
た音声が合成される様子を説明する図である。
【図11】同第1の実施例におけるトリガー処理のフロ
ーチャートである。
ーチャートである。
【図12】同第1の実施例における音声波形から音声素
片を作成する様子を説明する図である。
片を作成する様子を説明する図である。
【図13】原音声波形のスペクトルを示す図である。
【図14】窓長がピッチ周期の2倍の時のスペクトルを
示す図である。
示す図である。
【図15】窓長がピッチ周期の1.4倍の時のスペクトル
を示す図である。
を示す図である。
【図16】本発明にかかる第2の実施例の音声合成装置
の構成図である。
の構成図である。
【図17】同第2の実施例における圧縮音声素片DBに
おける音声素片のデータ構造を示す図である。
おける音声素片のデータ構造を示す図である。
【図18】同第2の実施例におけるサンプル読み出し部
の処理を表すフローチャートである。
の処理を表すフローチャートである。
【図19】演算量の比較を示す図である。
1 制御部 2 管理部 3 状態保持部 4 振幅制御部 5 サンプル読み出し部 6 加算重畳部 7 音声素片DB 8 出力部 9 波形保持部 10 圧縮音声素片DB
Claims (23)
- 【請求項1】 音声波形の所定の区間内のピッチ周期毎
に存在するそれぞれのピークについて、前記ピークを中
心として両端で零近傍に収束する窓関数でピッチ波形を
切り出す切り出し操作を、前記所定の区間内の全てのピ
ークについて行い、窓関数の長さはどのピークについて
もそれらの両隣のピークに到達するよりも短いことを特
徴とする音声素片作成方法。 - 【請求項2】 窓関数の長さは全て同じ長さであること
を特徴とする請求項1記載の音声素片作成方法。 - 【請求項3】 窓関数の長さは音声波形のその時点での
ピッチ周期の2倍の長さを、1よりも小さい所定の定数
で乗算した長さであることを特徴とする請求項1記載の
音声素片作成方法。 - 【請求項4】 所望の全ての音声波形について、請求項
1、2、3のいずれかの前記音声素片作成方法を用いて
音声素片データを作成し、その作成した音声素片データ
を記憶しておき、その記憶している音声素片データから
所望の音声素片データの所望のピッチ波形を読み出し、
所望のピッチ周期の間隔になるように重ね合わせて配置
し、それらを加算して一つの音声波形として出力するこ
とを特徴とする音声合成方法。 - 【請求項5】 窓関数の長さは各音声波形についてその
音声波形のピッチ周期を表す一つの代表値を2倍したも
のを、1よりも小さい所定の定数によって乗算した長さ
であることを特徴とする請求項4記載の音声合成方法。 - 【請求項6】 音声素片データの前記記憶は、各音声素
片データの最初のピッチ波形については波形そのものを
記憶し、2番目以降のピッチ波形については一つ前のピ
ッチ波形とそのピッチ波形との変化分を表す差分ピッチ
波形を記憶するものであって、ある音声素片データを読
み出す場合、最初のピッチ波形は記憶されている波形を
そのまま読み出すと同時に、次のピッチ波形を読み出す
までその値を一時的に記憶しておき、2番目以降のピッ
チ波形は読み出した差分波形の値を前記記憶された一つ
前のピッチ波形の値に加算することで波形を復元すると
同時に、前記一時記憶された値を復元された波形の値で
置き換えることを特徴とする請求項4、又は5記載の音
声合成方法。 - 【請求項7】 所望の全ての音声波形について、請求項
1、2、3のいずれかの前記音声素片作成方法を用いて
作成された音声素片データを記憶する音声素片データ記
憶手段と、その音声素片データ記憶手段から所望の音声
素片データの所望のピッチ波形を読み出すピッチ波形読
み出し手段と、その読み出されたピッチ波形を所望のピ
ッチ周期の間隔になるように重ね合わせて配置し、それ
らを加算して一つの音声波形として出力する加算重畳部
とを備えたことを特徴とする音声合成装置。 - 【請求項8】 窓関数の長さは各音声波形についてその
音声波形のピッチ周期を表す一つの代表値を2倍したも
のを、1よりも小さい所定の定数によって乗算した長さ
であることを特徴とする請求項7記載の音声合成装置。 - 【請求項9】 音声素片データ記憶手段は、各音声素片
データの最初のピッチ波形については波形そのものを記
憶し、2番目以降のピッチ波形については一つ前のピッ
チ波形とそのピッチ波形との変化分を表す差分ピッチ波
形を記憶するものであって、ある音声素片データを読み
出す場合に、読み出された最初のピッチ波形を、次のピ
ッチ波形が読み出されるまで、その値を一時的に記憶す
るピッチ波形一時記憶手段を備え、2番目以降のピッチ
波形は読み出した差分波形の値を前記ピッチ波形一時記
憶手段に記憶された一つ前のピッチ波形の値に加算する
ことで波形を復元すると同時に、前記ピッチ波形一時記
憶手段に記憶された値を復元された波形の値で置き換え
ることを特徴とする請求項7、又は8記載の音声合成装
置。 - 【請求項10】 時刻情報と所定の機能を表す機能情報
と前記所定の機能に応じた任意の個数のパラメータとを
有する制御信号の並びである制御信号列を生成し、前記
制御信号の機能情報とパラメータを用いて、前記時刻情
報が表すタイミングに沿って音声素片を制御することを
特徴とする音声合成方法。 - 【請求項11】 所定の機能はピッチ周期単位で切り出
された音声素片の読み出しタイミングの制御であること
を特徴とする請求項10記載の音声合成方法。 - 【請求項12】 所定の機能は音韻ごとに用意された音
声素片の切り替え制御であり、パラメータは目的の音韻
に対応する音声素片を指し示す情報であることを特徴と
する請求項10、又は11記載の音声合成方法。 - 【請求項13】 時刻情報と所定の機能を表す機能情報
と前記所定の機能に応じた任意の個数のパラメータとを
有する制御信号の並びである制御信号列を生成し、前記
制御信号の機能情報とパラメータを用いて、前記時刻情
報が表すタイミングに沿って音声素片を制御する制御手
段を備えたことを特徴とする音声合成装置。 - 【請求項14】 所定の機能はピッチ周期単位で切り出
された音声素片の読み出しタイミングの制御であること
を特徴とする請求項13記載の音声合成装置。 - 【請求項15】 所定の機能は音韻ごとに用意された音
声素片の切り替え制御であり、パラメータは目的の音韻
に対応する音声素片を指し示す情報であることを特徴と
する請求項13、又は14記載の音声合成装置。 - 【請求項16】 時刻情報と所定の機能を表す機能情報
と前記所定の機能に応じた任意の個数のパラメータとを
有する制御信号の並びである制御信号列を生成し、前記
制御信号の機能情報とパラメータを用いて、前記時刻情
報が表すタイミングに沿って音声素片を制御することを
特徴とする請求項4、5、又は6記載の音声合成方法。 - 【請求項17】 所定の機能はピッチ波形読み出し開始
指示であって、管理手段の前記ピッチ波形読み出し開始
指示により、複数のピッチ波形読み出し部の内最も古く
選択されたものを選択し、ピッチ波形の読み出しを開始
し、加算重畳部により、全てのピッチ波形読み出し部が
読み出した値を加算して出力することを特徴とする請求
項16記載の音声合成方法。 - 【請求項18】 パラメータは音声素片データ記憶手段
に記憶されたいずれかの音声波形または差分波形を指し
示すピッチ波形指定情報であり、管理手段は前記ピッチ
波形指定情報が指し示すピッチ波形の読み出しを開始さ
せることを特徴とする請求項17記載の音声合成方法。 - 【請求項19】 所定の機能は音声素片切り替え指示で
あり、パラメータは音声素片データ記憶手段に記憶され
たいずれかの音声素片を指し示す情報であることを特徴
とする請求項16、、17、又は18記載の音声合成方
法。 - 【請求項20】 時刻情報と所定の機能を表す機能情報
と前記所定の機能に応じた任意の個数のパラメータとを
有する制御信号の並びである制御信号列を生成し、前記
制御信号の機能情報とパラメータを用いて、時刻情報が
表すタイミングに沿って音声素片を制御する制御手段を
備えたことを特徴とする請求項7、8、又は9記載の音
声合成装置。 - 【請求項21】 一つの管理手段を備え、前記ピッチ波
形読み出し手段は、複数のピッチ波形読み出し部を有す
るものであって、所定の機能はピッチ波形読み出し開始
指示であり、前記管理手段は前記ピッチ波形読み出し開
始指示により、前記ピッチ波形読み出し部の内最も古く
選択されたものを選択し、ピッチ波形の読み出しを開始
させ、前記加算重畳部は全てのピッチ波形読み出し部が
読み出した値を加算して出力することを特徴とする請求
項20記載の音声合成装置。 - 【請求項22】 パラメータは前記音声素片データ記憶
手段に記憶されたいずれかの音声波形または差分波形を
指し示すピッチ波形指定情報であり、前記管理手段は前
記ピッチ波形指定情報が指し示すピッチ波形の読み出し
を開始させることを特徴とする請求項21の音声合成装
置。 - 【請求項23】 所定の機能は音声素片切り替え指示で
あり、パラメータは前記音声素片データ記憶手段に記憶
されたいずれかの音声素片を指し示す情報であることを
特徴とする請求項20、21、又は22記載の音声合成
装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6302471A JPH08160991A (ja) | 1994-12-06 | 1994-12-06 | 音声素片作成方法および音声合成方法、装置 |
US08/565,401 US5864812A (en) | 1994-12-06 | 1995-11-30 | Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments |
KR1019950046901A KR100385603B1 (ko) | 1994-12-06 | 1995-12-05 | 음성세그먼트작성방법,음성합성방법및그장치 |
CNB951190490A CN1146863C (zh) | 1994-12-06 | 1995-12-06 | 语音合成方法及其装置 |
CNB2003101028665A CN1294555C (zh) | 1994-12-06 | 1995-12-06 | 语音段制作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6302471A JPH08160991A (ja) | 1994-12-06 | 1994-12-06 | 音声素片作成方法および音声合成方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08160991A true JPH08160991A (ja) | 1996-06-21 |
Family
ID=17909354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6302471A Pending JPH08160991A (ja) | 1994-12-06 | 1994-12-06 | 音声素片作成方法および音声合成方法、装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH08160991A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7054806B1 (en) | 1998-03-09 | 2006-05-30 | Canon Kabushiki Kaisha | Speech synthesis apparatus using pitch marks, control method therefor, and computer-readable memory |
JP2008152042A (ja) * | 2006-12-18 | 2008-07-03 | Mitsubishi Electric Corp | 音声合成装置、音声合成方法及び音声合成プログラム |
US7542905B2 (en) | 2001-03-28 | 2009-06-02 | Nec Corporation | Method for synthesizing a voice waveform which includes compressing voice-element data in a fixed length scheme and expanding compressed voice-element data of voice data sections |
US8280737B2 (en) | 2007-09-06 | 2012-10-02 | Fujitsu Limited | Sound signal generating method, sound signal generating device, and recording medium |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58100900A (ja) * | 1981-12-11 | 1983-06-15 | 日本電気株式会社 | 任意語の音声合成方法 |
JPS5968793A (ja) * | 1982-10-13 | 1984-04-18 | 松下電器産業株式会社 | 音声合成装置 |
JPS59192294A (ja) * | 1983-04-16 | 1984-10-31 | 富士通株式会社 | 会話音声歌声発生装置 |
JPH03233500A (ja) * | 1989-12-22 | 1991-10-17 | Oki Electric Ind Co Ltd | 音声合成方式およびこれに用いる装置 |
JPH04331990A (ja) * | 1991-05-07 | 1992-11-19 | Casio Comput Co Ltd | 音声電子楽器 |
JPH06332449A (ja) * | 1993-05-21 | 1994-12-02 | Kawai Musical Instr Mfg Co Ltd | 電子楽器の歌声再生装置 |
-
1994
- 1994-12-06 JP JP6302471A patent/JPH08160991A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58100900A (ja) * | 1981-12-11 | 1983-06-15 | 日本電気株式会社 | 任意語の音声合成方法 |
JPS5968793A (ja) * | 1982-10-13 | 1984-04-18 | 松下電器産業株式会社 | 音声合成装置 |
JPS59192294A (ja) * | 1983-04-16 | 1984-10-31 | 富士通株式会社 | 会話音声歌声発生装置 |
JPH03233500A (ja) * | 1989-12-22 | 1991-10-17 | Oki Electric Ind Co Ltd | 音声合成方式およびこれに用いる装置 |
JPH04331990A (ja) * | 1991-05-07 | 1992-11-19 | Casio Comput Co Ltd | 音声電子楽器 |
JPH06332449A (ja) * | 1993-05-21 | 1994-12-02 | Kawai Musical Instr Mfg Co Ltd | 電子楽器の歌声再生装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7054806B1 (en) | 1998-03-09 | 2006-05-30 | Canon Kabushiki Kaisha | Speech synthesis apparatus using pitch marks, control method therefor, and computer-readable memory |
US7428492B2 (en) | 1998-03-09 | 2008-09-23 | Canon Kabushiki Kaisha | Speech synthesis dictionary creation apparatus, method, and computer-readable medium storing program codes for controlling such apparatus and pitch-mark-data file creation apparatus, method, and computer-readable medium storing program codes for controlling such apparatus |
US7542905B2 (en) | 2001-03-28 | 2009-06-02 | Nec Corporation | Method for synthesizing a voice waveform which includes compressing voice-element data in a fixed length scheme and expanding compressed voice-element data of voice data sections |
JP2008152042A (ja) * | 2006-12-18 | 2008-07-03 | Mitsubishi Electric Corp | 音声合成装置、音声合成方法及び音声合成プログラム |
US8280737B2 (en) | 2007-09-06 | 2012-10-02 | Fujitsu Limited | Sound signal generating method, sound signal generating device, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5864812A (en) | Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments | |
JP3408477B2 (ja) | フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ | |
US4912768A (en) | Speech encoding process combining written and spoken message codes | |
JP3294604B2 (ja) | 波形の加算重畳による音声合成のための処理装置 | |
US7010488B2 (en) | System and method for compressing concatenative acoustic inventories for speech synthesis | |
EP1308928B1 (en) | System and method for speech synthesis using a smoothing filter | |
JPS62160495A (ja) | 音声合成装置 | |
JPH031200A (ja) | 規則型音声合成装置 | |
EP1559095A2 (en) | Apparatus, methods and programming for speech synthesis via bit manipulations of compressed data base | |
EP0813184B1 (en) | Method for audio synthesis | |
JPH0632020B2 (ja) | 音声合成方法および装置 | |
JP2003108178A (ja) | 音声合成装置及び音声合成用素片作成装置 | |
JP2761552B2 (ja) | 音声合成方法 | |
JPH08160991A (ja) | 音声素片作成方法および音声合成方法、装置 | |
JP4451665B2 (ja) | 音声を合成する方法 | |
WO2004027753A1 (en) | Method of synthesis for a steady sound signal | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
JP2987089B2 (ja) | 音声素片作成方法および音声合成方法とその装置 | |
JPH11249676A (ja) | 音声合成装置 | |
JPH09179576A (ja) | 音声合成方法 | |
JP3853923B2 (ja) | 音声合成装置 | |
JP2001117576A (ja) | 音声合成方法 | |
JPH09230893A (ja) | 規則音声合成方法及び音声合成装置 | |
JPH11161297A (ja) | 音声合成方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040518 |