JP3038755B2 - 音声合成装置の音源データ生成方法 - Google Patents
音声合成装置の音源データ生成方法Info
- Publication number
- JP3038755B2 JP3038755B2 JP2012283A JP1228390A JP3038755B2 JP 3038755 B2 JP3038755 B2 JP 3038755B2 JP 2012283 A JP2012283 A JP 2012283A JP 1228390 A JP1228390 A JP 1228390A JP 3038755 B2 JP3038755 B2 JP 3038755B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- residual
- peak position
- waveform
- source data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】 A.産業上の利用分野 本発明は、規則合成方式による音声合成装置に係り、
特に音源データの生成方法に関する。
特に音源データの生成方法に関する。
B.発明の概要 本発明は、複数の音声波形から得る残差情報を音源情
報とする音声合成装置において、 残差情報の各ピッチ区間でのピーク位置のバラツキを
少なくする処理を行い、さらにはピーク値の変動及びイ
ンパルス性の弱い区間のインパルス性強調処理を行うこ
とにより、 合成音声にざらつく感じのノイズを低減したものであ
る。
報とする音声合成装置において、 残差情報の各ピッチ区間でのピーク位置のバラツキを
少なくする処理を行い、さらにはピーク値の変動及びイ
ンパルス性の弱い区間のインパルス性強調処理を行うこ
とにより、 合成音声にざらつく感じのノイズを低減したものであ
る。
C.従来の技術 規則合成方式による音声合成装置は、入力文字列を構
分解析によって単語,文節に区切り、夫々にはイントネ
ーション,アクセントを決定し、単語や文節を音節さら
には音素にまで分解し、音節又は音素単位の音源波及び
調音フィルタのパラメータを求め、音源波に対する調音
フィルタの応答出力として合成音声を得るようにしてい
る。
分解析によって単語,文節に区切り、夫々にはイントネ
ーション,アクセントを決定し、単語や文節を音節さら
には音素にまで分解し、音節又は音素単位の音源波及び
調音フィルタのパラメータを求め、音源波に対する調音
フィルタの応答出力として合成音声を得るようにしてい
る。
このような音声合成装置において、音源情報としてイ
ンパルスとノイズを使用する方式、又は残差情報を使用
する方式がある。このうち、残差を音源情報とする方式
は、音声波形を線形予測分析して調音パラメータを求
め、このパラメータによる調音フィルタに音声波形を入
力してその出力に残差波形を求め、この残差波形をサン
プリングと符号化によって音源情報とする。また、音声
波形の切出しには元の波形に窓関数(ハミング窓,ハニ
ング窓等)を乗じ、切出し区間の両端に急激な変化が起
きないようにする。
ンパルスとノイズを使用する方式、又は残差情報を使用
する方式がある。このうち、残差を音源情報とする方式
は、音声波形を線形予測分析して調音パラメータを求
め、このパラメータによる調音フィルタに音声波形を入
力してその出力に残差波形を求め、この残差波形をサン
プリングと符号化によって音源情報とする。また、音声
波形の切出しには元の波形に窓関数(ハミング窓,ハニ
ング窓等)を乗じ、切出し区間の両端に急激な変化が起
きないようにする。
D.発明が解決しようとする課題 残差を音源とする方式において、音源情報の圧縮のた
めに残差波形のサンプリングと符号化に情報圧縮を施す
場合、この音源情報を用いた合成音声は人の音声特徴か
ら著しく外れた音声になってしまう問題があった。
めに残差波形のサンプリングと符号化に情報圧縮を施す
場合、この音源情報を用いた合成音声は人の音声特徴か
ら著しく外れた音声になってしまう問題があった。
一方、音源情報を得るための元の音声波形として子音
+母音(CV波形)のほかに、母音+子音(VC波形)や共
通母音(V波形)を推移区間で波形混合し、この混合波
形から残差情報を得て音源とする場合、ピッチ区間毎の
音源の振幅や形状に大きなバラツキが生じる場合があり
(特に女性の音声分析時)、その結果、合成音声にざら
つく感じのノイズが含まれることが多く、全体的に質の
良い合成音声が得られない問題があった。
+母音(CV波形)のほかに、母音+子音(VC波形)や共
通母音(V波形)を推移区間で波形混合し、この混合波
形から残差情報を得て音源とする場合、ピッチ区間毎の
音源の振幅や形状に大きなバラツキが生じる場合があり
(特に女性の音声分析時)、その結果、合成音声にざら
つく感じのノイズが含まれることが多く、全体的に質の
良い合成音声が得られない問題があった。
例えば、女性音声の残差波形図は、第4図に示すよう
に、ピッチ毎の基準点t0〜t3からピーク(インパルス)
の位置までの時間T0〜T3にバラツキがあるし、ピーク値
L0〜L3にピッチ毎の変動が大きく、さらにインパルスの
強く表れる区間2と殆どノイズに近い(インパルス性の
弱い)区間3が混在する。このようなピーク位置のバラ
ツキやピーク値の変動さらにはインパルス性の弱い区間
の混在が合成音声にざらつきノイズの主要因と考えられ
る。
に、ピッチ毎の基準点t0〜t3からピーク(インパルス)
の位置までの時間T0〜T3にバラツキがあるし、ピーク値
L0〜L3にピッチ毎の変動が大きく、さらにインパルスの
強く表れる区間2と殆どノイズに近い(インパルス性の
弱い)区間3が混在する。このようなピーク位置のバラ
ツキやピーク値の変動さらにはインパルス性の弱い区間
の混在が合成音声にざらつきノイズの主要因と考えられ
る。
本発明の目的は、複数の音声波形から残差情報を得て
音源とする音声合成装置において、ざらつく感じのノイ
ズを低減した音源データの生成方法を提供することにあ
る。
音源とする音声合成装置において、ざらつく感じのノイ
ズを低減した音源データの生成方法を提供することにあ
る。
E.課題を解決するための手段 本発明は、前記目的を達成するため、音声波形の分析
によって得る残差情報の各ピッチ区間毎に完全インパル
ス列と該残差情報の相互相関を計算し、該相関が最大と
なる位置から各ピッチ区間毎のピーク位置を計算し、こ
のピーク位置列の平均化処理による平均化ピーク位置を
中心にして順次分析窓を取って該残差情報の再分析を行
い、この再分析による残差情報を前記ピーク位置を基準
にして切出して音源データを生成することを特徴とす
る。
によって得る残差情報の各ピッチ区間毎に完全インパル
ス列と該残差情報の相互相関を計算し、該相関が最大と
なる位置から各ピッチ区間毎のピーク位置を計算し、こ
のピーク位置列の平均化処理による平均化ピーク位置を
中心にして順次分析窓を取って該残差情報の再分析を行
い、この再分析による残差情報を前記ピーク位置を基準
にして切出して音源データを生成することを特徴とす
る。
また、本発明は前記切出した残差情報をピッチ区間毎
に各残差波形の位相をそろえて時間軸方向の平均化処理
を行うことを特徴とする。
に各残差波形の位相をそろえて時間軸方向の平均化処理
を行うことを特徴とする。
F.作用 残差波形のピーク位置のバラツキには、残差波形の各
ピッチ区間毎に完全インパルスとの相互相関によって各
ピッチ区間毎のピーク位置を求め、このピーク位置の平
均化処理による平均化ピーク位置を中心にした分析窓に
よる切出しと再分析によってピーク位置のバラツキを低
減した残差波形を得る。
ピッチ区間毎に完全インパルスとの相互相関によって各
ピッチ区間毎のピーク位置を求め、このピーク位置の平
均化処理による平均化ピーク位置を中心にした分析窓に
よる切出しと再分析によってピーク位置のバラツキを低
減した残差波形を得る。
また、ピーク位置のバラツキを低減した残差波形をピ
ッチ区間毎に位相をそろえて平均化処理を行うことでピ
ーク値のピッチ毎の変動及びインパルス性の弱い区間の
インパルス性強調を行う。
ッチ区間毎に位相をそろえて平均化処理を行うことでピ
ーク値のピッチ毎の変動及びインパルス性の弱い区間の
インパルス性強調を行う。
G.実施例 第1図は本発明方法の一実施例を示す処理手順図であ
る。ステップS1は、従来の残差情報生成と同様に、複数
の音声波形の混合波形から音声特徴パラメータを求める
と共に音源情報としての残差抽出を行う。ステップS2〜
S7は残差情報に対してそのピーク(インパルス状)がフ
レーム毎に大きく変動しないように波形処理を行う。こ
のため、まず、フレームiにおいて得られた残差波形
(第2図のa)に対して、各ピッチ区間毎の基準点t0〜
t4からある固定時間Δtだけづれた完全インパルス列
(第2図のb)を用意し、この完全インパルス列と残差
波形との相互相関を計算する(ステップS2)。この計算
より、相関係数の最大となるようなずらし幅をxiとし、
このxiを各ピッチ区間毎に求める(ステップS3)。この
算出値は(x2+Δt)としてフレームiにおける基準点
t2からのピーク位置とする。
る。ステップS1は、従来の残差情報生成と同様に、複数
の音声波形の混合波形から音声特徴パラメータを求める
と共に音源情報としての残差抽出を行う。ステップS2〜
S7は残差情報に対してそのピーク(インパルス状)がフ
レーム毎に大きく変動しないように波形処理を行う。こ
のため、まず、フレームiにおいて得られた残差波形
(第2図のa)に対して、各ピッチ区間毎の基準点t0〜
t4からある固定時間Δtだけづれた完全インパルス列
(第2図のb)を用意し、この完全インパルス列と残差
波形との相互相関を計算する(ステップS2)。この計算
より、相関係数の最大となるようなずらし幅をxiとし、
このxiを各ピッチ区間毎に求める(ステップS3)。この
算出値は(x2+Δt)としてフレームiにおける基準点
t2からのピーク位置とする。
各フレームにおいて求められたピーク位置列(xi+Δ
t)はフレーム方向で平均化処理を行い、ピーク位置が
なめらかに推移するようにする(ステップS4)。この平
均化処理は、例えば女性音声波形ではその残差のインパ
ルス性が弱い区間やバラツキが非常に大きくなる場合に
ピーク位置の抽出誤りによるバラツキの軽減を図る。
t)はフレーム方向で平均化処理を行い、ピーク位置が
なめらかに推移するようにする(ステップS4)。この平
均化処理は、例えば女性音声波形ではその残差のインパ
ルス性が弱い区間やバラツキが非常に大きくなる場合に
ピーク位置の抽出誤りによるバラツキの軽減を図る。
なお、平均化ピーク位置列は、実際の残差波形のピー
ク点にならない場合もあるが、本来その位置に残差ピー
クが現れるべき(ピッチ間隔でピークが現れるはず)の
ものであり、この位置をピーク位置とすることでバラツ
キ軽減を図る。
ク点にならない場合もあるが、本来その位置に残差ピー
クが現れるべき(ピッチ間隔でピークが現れるはず)の
ものであり、この位置をピーク位置とすることでバラツ
キ軽減を図る。
次に、平均化したピーク位置列を中心にして残差波形
に順次分析窓を取った再切出し(ステップS5)と再分析
を行う(ステップS6)。この結果得られた残差を先のピ
ーク位置列を基準に一様に切出し、音源ファイルを作成
する(ステップS7)。この結果、音源波としてはピッチ
毎のピーク位置はなめらかに推移し、残差波形にピーク
位置の位相的なバラツキを無くす。
に順次分析窓を取った再切出し(ステップS5)と再分析
を行う(ステップS6)。この結果得られた残差を先のピ
ーク位置列を基準に一様に切出し、音源ファイルを作成
する(ステップS7)。この結果、音源波としてはピッチ
毎のピーク位置はなめらかに推移し、残差波形にピーク
位置の位相的なバラツキを無くす。
次に、ピッチ区間毎の残差波形は夫々の位相をそろえ
た状態で時間軸方向の平均化処理を行う(ステップS
8)。この平均化処理は、第3図に示すように処理対象
とする残差波形Bと他の残差波形A,Cとの加算平均又は
加重平均を行い、この結果の残差波形B′には全体的に
インパルス性の弱いピッチ区間にもインパルス性を向上
させ、またインパルス振幅の推移もなめらかにする。
た状態で時間軸方向の平均化処理を行う(ステップS
8)。この平均化処理は、第3図に示すように処理対象
とする残差波形Bと他の残差波形A,Cとの加算平均又は
加重平均を行い、この結果の残差波形B′には全体的に
インパルス性の弱いピッチ区間にもインパルス性を向上
させ、またインパルス振幅の推移もなめらかにする。
H.発明の効果 以上のとおり、本発明によれば、残差情報の各ピッチ
区間でのピーク位置のバラツキを少なくし、さらにはピ
ーク値の変動の平滑化及びインパルス性の弱い区間のイ
ンパルス性強調を行って音源データを生成するようにし
たため、女性音声の合成等に適用して合成音声にざらつ
く感じのノイズを低減し、全体的に質の良い合成音声を
得ることができる。
区間でのピーク位置のバラツキを少なくし、さらにはピ
ーク値の変動の平滑化及びインパルス性の弱い区間のイ
ンパルス性強調を行って音源データを生成するようにし
たため、女性音声の合成等に適用して合成音声にざらつ
く感じのノイズを低減し、全体的に質の良い合成音声を
得ることができる。
第1図は本発明方法の一実施例を示す処理手順図、第2
図は残差波形と完全インパルス波形図、第3図は残差波
形の平均化処理波形図、第4図は従来の残差波形図であ
る。
図は残差波形と完全インパルス波形図、第3図は残差波
形の平均化処理波形図、第4図は従来の残差波形図であ
る。
フロントページの続き (56)参考文献 特開 昭63−279300(JP,A) 特開 昭58−145994(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 21/06 JICSTファイル(JOIS)
Claims (2)
- 【請求項1】音声波形の分析によって得る残差情報の各
ピッチ区間毎に完全インパルス列と該残差情報の相互相
関を計算し、該相関が最大となる位置から各ピッチ区間
毎のピーク位置を計算し、このピーク位置列の平均化処
理による平均化ピーク位置を中心にして順次分析窓を取
って該残差情報の再分析を行い、この再分析による残差
情報を前記ピーク位置を基準にして切出して音源データ
を生成することを特徴とする音声合成装置の音源データ
生成方法。 - 【請求項2】前記切出した残差情報をピッチ区間毎に各
残差波形の位相をそろえて時間軸方向の平均化処理を行
うことを特徴とする音声合成装置の音源データ生成方
法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012283A JP3038755B2 (ja) | 1990-01-22 | 1990-01-22 | 音声合成装置の音源データ生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012283A JP3038755B2 (ja) | 1990-01-22 | 1990-01-22 | 音声合成装置の音源データ生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03216699A JPH03216699A (ja) | 1991-09-24 |
JP3038755B2 true JP3038755B2 (ja) | 2000-05-08 |
Family
ID=11801035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012283A Expired - Lifetime JP3038755B2 (ja) | 1990-01-22 | 1990-01-22 | 音声合成装置の音源データ生成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3038755B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69926462T2 (de) * | 1998-05-11 | 2006-05-24 | Koninklijke Philips Electronics N.V. | Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung |
-
1990
- 1990-01-22 JP JP2012283A patent/JP3038755B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH03216699A (ja) | 1991-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2782147B2 (ja) | 波形編集型音声合成装置 | |
Slaney et al. | Automatic audio morphing | |
JP3266819B2 (ja) | 周期信号変換方法、音変換方法および信号分析方法 | |
JP3528258B2 (ja) | 符号化音声信号の復号化方法及び装置 | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
JPH07248794A (ja) | 音声信号処理方法 | |
US20090144058A1 (en) | Restoration of high-order Mel Frequency Cepstral Coefficients | |
US7305339B2 (en) | Restoration of high-order Mel Frequency Cepstral Coefficients | |
JP3038755B2 (ja) | 音声合成装置の音源データ生成方法 | |
JP2798003B2 (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
JPH0744727A (ja) | 画像作成方法およびその装置 | |
Li et al. | A real-time voice conversion method based on a non-parallel corpus for training | |
JP3035939B2 (ja) | 音声分析合成装置 | |
JP3030869B2 (ja) | 音声合成装置の音源データ生成方法 | |
JP2900454B2 (ja) | 音声合成装置の音節データ作成方式 | |
JP2003076385A (ja) | 信号分析方法および信号分析装置 | |
JP2995774B2 (ja) | 音声合成方式 | |
JP2702157B2 (ja) | 最適音源ベクトル探索装置 | |
JP3148920B2 (ja) | 音声符号化復号化装置 | |
KR0133467B1 (ko) | 한국어 음성 합성기의 벡터 양자화 방법 | |
JPH01312600A (ja) | パワ適応窓音声波形再生方法 | |
JP3233543B2 (ja) | インパルス駆動点抽出方法およびピッチ波形抽出方法とその装置 | |
JP3317458B2 (ja) | 音声合成方法 | |
JPS5821797A (ja) | 音声合成用基本周期波形生成法 | |
JPS60262200A (ja) | スペクトルパラメ−タ補間方法 |