JPH04253100A - 音声合成装置の音源データ生成方法 - Google Patents
音声合成装置の音源データ生成方法Info
- Publication number
- JPH04253100A JPH04253100A JP2408727A JP40872790A JPH04253100A JP H04253100 A JPH04253100 A JP H04253100A JP 2408727 A JP2408727 A JP 2408727A JP 40872790 A JP40872790 A JP 40872790A JP H04253100 A JPH04253100 A JP H04253100A
- Authority
- JP
- Japan
- Prior art keywords
- peak position
- peak
- pitch
- sound source
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 18
- 238000012935 Averaging Methods 0.000 claims 1
- 239000011295 pitch Substances 0.000 description 21
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000012950 reanalysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】この発明は規則音声合成方式にに
よる音声合成装置に係り、特に音源データの生成方法に
関する。
よる音声合成装置に係り、特に音源データの生成方法に
関する。
【0002】
【従来の技術】規則音声合成方式による音声合成装置は
、入力文字列を構文解析によって単語,文節に区切り、
夫々にはイントネーション,アクセントを決定し、単語
や文節を音節さらには音素にまで分解し、音節又は音素
単位の音源波及び調音フィルタのパラメータを求め、音
源波に対する調音フィルタの応答出力として合成音声を
得るようにしている。
、入力文字列を構文解析によって単語,文節に区切り、
夫々にはイントネーション,アクセントを決定し、単語
や文節を音節さらには音素にまで分解し、音節又は音素
単位の音源波及び調音フィルタのパラメータを求め、音
源波に対する調音フィルタの応答出力として合成音声を
得るようにしている。
【0003】このような音声合成装置において、音源情
報としてインパルスとノイズを使用する方式、又は残差
情報を使用する方式がある。このうち、残差を音源情報
とする方式は、音声波形を線形予測分析して調音パラメ
ータを求め、このパラメータによる調音フィルタに音声
波形を入力してその出力に残差波形を求め、この残差波
形をサンプリングと符号化によって音源情報としている
。また、音声波形の切り出しには元の波形に窓関数(ハ
ミング窓,ハニング窓等)を乗じ、切り出し区間の両端
に急激な変化が起きないようにする。
報としてインパルスとノイズを使用する方式、又は残差
情報を使用する方式がある。このうち、残差を音源情報
とする方式は、音声波形を線形予測分析して調音パラメ
ータを求め、このパラメータによる調音フィルタに音声
波形を入力してその出力に残差波形を求め、この残差波
形をサンプリングと符号化によって音源情報としている
。また、音声波形の切り出しには元の波形に窓関数(ハ
ミング窓,ハニング窓等)を乗じ、切り出し区間の両端
に急激な変化が起きないようにする。
【0004】
【発明が解決しようとする課題】残差波形を用いて音源
情報を得る従来手段として各ピッチ波形の切り出し基準
点(ピッチ同期点)をいくつかの零交叉点の候補から音
声波形基準で抽出している。例えば、図4Aに示す女性
音声による「ウ」の発生の場合、候補となる零交差点の
個数が2〜3個と少なく、しかもピッチ波形の振幅の少
ない波形では零交差点は正確に求めることができる。
情報を得る従来手段として各ピッチ波形の切り出し基準
点(ピッチ同期点)をいくつかの零交叉点の候補から音
声波形基準で抽出している。例えば、図4Aに示す女性
音声による「ウ」の発生の場合、候補となる零交差点の
個数が2〜3個と少なく、しかもピッチ波形の振幅の少
ない波形では零交差点は正確に求めることができる。
【0005】しかし、図4Bに示す男性音声による「ウ
」の発声の場合、零交差点が多くピッチ毎の波形振幅の
減衰の大きなときには、正確に残差ピークの出現する付
近の零交差点が得られず、位相のずれた点が基準として
選ぶことが多い。そして、位相のずれたまま音源ファイ
ルに格納すると、合成時に波形の歪みが発生する図4A
,Bにおいて、a〜e及びa′〜c′がピッチ同期点で
ある。
」の発声の場合、零交差点が多くピッチ毎の波形振幅の
減衰の大きなときには、正確に残差ピークの出現する付
近の零交差点が得られず、位相のずれた点が基準として
選ぶことが多い。そして、位相のずれたまま音源ファイ
ルに格納すると、合成時に波形の歪みが発生する図4A
,Bにおいて、a〜e及びa′〜c′がピッチ同期点で
ある。
【0006】上述した方式を用いて女性音声の分析を行
う場合、零交叉点が正確に求まるので、ピッチ同期手段
により、1つ1つのピッチ単位波形に正確に分割するこ
とは可能であるけれども、男性音声の分析を行う場合、
ピッチ波形の相違のために、零交叉点の誤差が大きく正
確な位置に分割基準が得られなかった。
う場合、零交叉点が正確に求まるので、ピッチ同期手段
により、1つ1つのピッチ単位波形に正確に分割するこ
とは可能であるけれども、男性音声の分析を行う場合、
ピッチ波形の相違のために、零交叉点の誤差が大きく正
確な位置に分割基準が得られなかった。
【0007】この発明は上記事情に鑑みてなされたもの
で、零交叉回数が多く、ピッチ内の波形減衰の大きな波
形においても正確なピーク位置を求めることができるよ
うにした音声合成装置の音源データ生成方法を提供する
ことを目的とする。
で、零交叉回数が多く、ピッチ内の波形減衰の大きな波
形においても正確なピーク位置を求めることができるよ
うにした音声合成装置の音源データ生成方法を提供する
ことを目的とする。
【0008】
【課題を解決するための手段】この発明は上記の目的を
達成するために、原波形からピッチ区間を分割検出した
後、全フレームの残差を計算し、ピッチ区間毎に得られ
た残差どうしの相関を計算して残差ピーク位置を抽出し
、その後、母音区間のエネルギー最大フレームで残差最
大点を区間のピーク位置として抽出し、その区間から時
間軸の前後方向に隣接する区間との相互相関計算を行い
、その計算で最大となる幅より、次々とピーク位置を抽
出した後、隣りどうしの間隔をピッチとし、このピッチ
の列を平均化処理した後、再度平均化されたピッチでピ
ーク位置を抽出し、そのピーク位置をその近傍で微調整
した後、最終的なピーク位置を抽出し、このピーク位置
をもとに切り出し再分析して音源データを生成すること
を特徴とするものである。
達成するために、原波形からピッチ区間を分割検出した
後、全フレームの残差を計算し、ピッチ区間毎に得られ
た残差どうしの相関を計算して残差ピーク位置を抽出し
、その後、母音区間のエネルギー最大フレームで残差最
大点を区間のピーク位置として抽出し、その区間から時
間軸の前後方向に隣接する区間との相互相関計算を行い
、その計算で最大となる幅より、次々とピーク位置を抽
出した後、隣りどうしの間隔をピッチとし、このピッチ
の列を平均化処理した後、再度平均化されたピッチでピ
ーク位置を抽出し、そのピーク位置をその近傍で微調整
した後、最終的なピーク位置を抽出し、このピーク位置
をもとに切り出し再分析して音源データを生成すること
を特徴とするものである。
【0009】
【作用】原波形からピッチ区間を分割検出した後、全フ
レームの残差を計算する。その後、残差ピーク位置を抽
出する。この抽出の後、残差最大点を区間のピーク位置
として抽出する。一方、区間から時間軸の前後方向に隣
接する区間との相互相関計算等を行う。その計算により
次々とピーク位置を抽出し、隣りどうしの間隔をピッチ
とし、このピッチの列を平均化処理する。その後、再び
ピーク位置を抽出してそのピーク位置を微調整し、最終
的ピーク位置を抽出する。
レームの残差を計算する。その後、残差ピーク位置を抽
出する。この抽出の後、残差最大点を区間のピーク位置
として抽出する。一方、区間から時間軸の前後方向に隣
接する区間との相互相関計算等を行う。その計算により
次々とピーク位置を抽出し、隣りどうしの間隔をピッチ
とし、このピッチの列を平均化処理する。その後、再び
ピーク位置を抽出してそのピーク位置を微調整し、最終
的ピーク位置を抽出する。
【0010】
【実施例】以下この発明の一実施例を図面に基づいて説
明する。
明する。
【0011】図1において、ステップS1は図2に示す
原波形からピッチ区間を分割検出する処理で、このステ
ップS1で基準点を検出するときに、波形を基準にしな
いで、一旦全フレームの残差を計算する。これがステッ
プS2の処理である。ステップ S2の処理が終わった
ならステップS3の処理を行う。ステップS3はピッチ
区間 毎に得られた残差列どうしの相関計算を行う。こ
の相関計算の結果によりステップS4で残差ピーク位置
を抽出する。
原波形からピッチ区間を分割検出する処理で、このステ
ップS1で基準点を検出するときに、波形を基準にしな
いで、一旦全フレームの残差を計算する。これがステッ
プS2の処理である。ステップ S2の処理が終わった
ならステップS3の処理を行う。ステップS3はピッチ
区間 毎に得られた残差列どうしの相関計算を行う。こ
の相関計算の結果によりステップS4で残差ピーク位置
を抽出する。
【0012】残差ピーク位置が抽出されたならステップ
S5の処理に移る。ステップS5は母音区間(一般にピ
ーク性が強い)のエネルギー最大のフレームで、残差の
最大点をその区間のピーク位置として抽出する。また、
その区間から時間軸の前後方向に、となりの区間との相
互相関をステップS6で計算する。この計算の結果、相
関の最大となる幅より、次々とステップS7でピーク位
置を図3に示すように図2から決めて行く。
S5の処理に移る。ステップS5は母音区間(一般にピ
ーク性が強い)のエネルギー最大のフレームで、残差の
最大点をその区間のピーク位置として抽出する。また、
その区間から時間軸の前後方向に、となりの区間との相
互相関をステップS6で計算する。この計算の結果、相
関の最大となる幅より、次々とステップS7でピーク位
置を図3に示すように図2から決めて行く。
【0013】
例えば、Peak(M)→Peak(M−1)→P
eak(M−2)…… Peak(
M→Peak(M+1)→Peak(M+2)……ピー
ク位置が決定されたなら、その隣どうしの間隔をピッチ
P(1),P(2)…点とステップS8で行う。このス
テップS8でのピークの列をステップS9で平均化処理
し、なめらかに推移させるようにする。次に平均化処理
されたピッチP(1)′,P(2)′……をステップS
10で再度ピークを決定する。ピーク決定後、ステップ
S11でピーク位置をその近傍で微調整する。例えば近
くにより大きなピークが存在すればずらすようにする。 その後、最終的なピーク位置をステップS12で決定す
る。 この最終的なピーク位置をもとにステップS13からS
16の処理を行って各ピッチ区間で位相を整えて音源フ
ァイルに格納する。なお、ステップS13は最終的なピ
ーク位置をもとに切り出しを行う処理であり、ステップ
S14は再分析を行う処理であり、ステップS15は各
ピッチ区間で位相を整えて音源ファイルに格納する処理
である。
eak(M−2)…… Peak(
M→Peak(M+1)→Peak(M+2)……ピー
ク位置が決定されたなら、その隣どうしの間隔をピッチ
P(1),P(2)…点とステップS8で行う。このス
テップS8でのピークの列をステップS9で平均化処理
し、なめらかに推移させるようにする。次に平均化処理
されたピッチP(1)′,P(2)′……をステップS
10で再度ピークを決定する。ピーク決定後、ステップ
S11でピーク位置をその近傍で微調整する。例えば近
くにより大きなピークが存在すればずらすようにする。 その後、最終的なピーク位置をステップS12で決定す
る。 この最終的なピーク位置をもとにステップS13からS
16の処理を行って各ピッチ区間で位相を整えて音源フ
ァイルに格納する。なお、ステップS13は最終的なピ
ーク位置をもとに切り出しを行う処理であり、ステップ
S14は再分析を行う処理であり、ステップS15は各
ピッチ区間で位相を整えて音源ファイルに格納する処理
である。
【0014】
【発明の効果】以上述べたように、この発明によれば、
零交叉回数が多く、ピッチ内の波形減衰の大きな波形に
おいても常に正確なピーク位置を求めることができるよ
うにしたものである。
零交叉回数が多く、ピッチ内の波形減衰の大きな波形に
おいても常に正確なピーク位置を求めることができるよ
うにしたものである。
【図1】この発明の一実施例を示すフローチャート。
【図2】原波形図。
【図3】音源波形図。
【図4】女性音声と男性音声波形図。
Claims (1)
- 【請求項1】 原波形からピッチ区間を分割検出した
後、全フレームの残差を計算し、ピッチ区間毎に得られ
た残差列どうしの相関を計算して残差ピーク位置を抽出
し、その後、母音区間のエネルギー最大フレームで残差
最大点を区間のピーク位置として抽出し、その区間から
時間軸の前後方向に隣接する区間との相互相関計算を行
い、その計算で最大となる幅より、次々とピーク位置を
抽出した後、隣りどうしの間隔をピッチとし、このピッ
チの列を平均化処理した後、再度平均化されたピッチで
ピーク位置を抽出し、そのピーク位置をその近傍で微調
整した後、最終的なピーク位置を抽出し、このピーク位
置をもとに切り出し再分析して音源データを生成するこ
とを特徴とする音声合成装置の音源データ生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2408727A JP3030869B2 (ja) | 1990-12-28 | 1990-12-28 | 音声合成装置の音源データ生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2408727A JP3030869B2 (ja) | 1990-12-28 | 1990-12-28 | 音声合成装置の音源データ生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04253100A true JPH04253100A (ja) | 1992-09-08 |
JP3030869B2 JP3030869B2 (ja) | 2000-04-10 |
Family
ID=18518145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2408727A Expired - Lifetime JP3030869B2 (ja) | 1990-12-28 | 1990-12-28 | 音声合成装置の音源データ生成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3030869B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009031219A1 (ja) * | 2007-09-06 | 2009-03-12 | Fujitsu Limited | 音信号生成方法、音信号生成装置及びコンピュータプログラム |
-
1990
- 1990-12-28 JP JP2408727A patent/JP3030869B2/ja not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009031219A1 (ja) * | 2007-09-06 | 2009-03-12 | Fujitsu Limited | 音信号生成方法、音信号生成装置及びコンピュータプログラム |
US8280737B2 (en) | 2007-09-06 | 2012-10-02 | Fujitsu Limited | Sound signal generating method, sound signal generating device, and recording medium |
JP5141688B2 (ja) * | 2007-09-06 | 2013-02-13 | 富士通株式会社 | 音信号生成方法、音信号生成装置及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3030869B2 (ja) | 2000-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6349277B1 (en) | Method and system for analyzing voices | |
US8244546B2 (en) | Singing synthesis parameter data estimation system | |
Acero | Formant analysis and synthesis using hidden Markov models | |
Bonada et al. | Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016 | |
EP1145224A1 (en) | Method and apparatus for pitch tracking | |
JPS62160495A (ja) | 音声合成装置 | |
JP3450237B2 (ja) | 音声合成装置および方法 | |
JPH06161494A (ja) | 音声のピッチ区間自動抽出方法 | |
Rossi et al. | A method for automatic extraction of Fujisaki-model parameters | |
Faghih et al. | Real-time monophonic singing pitch detection | |
JPH04253100A (ja) | 音声合成装置の音源データ生成方法 | |
Lertwongkhanakool et al. | An automatic real-time synchronization of live speech with its transcription approach | |
Ninh et al. | F0 parameterization of glottalized tones in HMM-based speech synthesis for Hanoi Vietnamese | |
JP3358139B2 (ja) | 音声ピッチマーク設定方法 | |
Gu et al. | An improved voice conversion method using segmental GMMs and automatic GMM selection | |
JPH03216699A (ja) | 音声合成装置の音源データ生成方法 | |
Resch et al. | Time synchronization of speech. | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
Minghui et al. | An example-based approach for prosody generation in Chinese speech synthesis | |
JP3263136B2 (ja) | 信号のピッチ同期位置抽出方式及び信号合成方式 | |
Kaur et al. | Designing and creating Punjabi Speech Synthesis System Using Hidden Markov Model | |
Laprie et al. | Construction of perception stimuli with copy synthesis | |
JP2000214877A (ja) | 音声素片作成方法及び装置 | |
Nakano et al. | Vocal manipulation based on pitch transcription and its application to interactive entertainment for karaoke | |
Kleijn et al. | Voice/Hearing Impairment-Time Synchronization of Speech |