JPH04253100A

JPH04253100A - 音声合成装置の音源データ生成方法

Info

Publication number: JPH04253100A
Application number: JP2408727A
Authority: JP
Inventors: Kiyoshi Ishida; 清石田; Yoshimasa Sawada; 沢田　喜正
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Priority date: 1990-12-28
Filing date: 1990-12-28
Publication date: 1992-09-08
Anticipated expiration: 2015-04-10
Also published as: JP3030869B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は規則音声合成方式にに
よる音声合成装置に係り、特に音源データの生成方法に
関する。

【０００２】

【従来の技術】規則音声合成方式による音声合成装置は
、入力文字列を構文解析によって単語，文節に区切り、
夫々にはイントネーション，アクセントを決定し、単語
や文節を音節さらには音素にまで分解し、音節又は音素
単位の音源波及び調音フィルタのパラメータを求め、音
源波に対する調音フィルタの応答出力として合成音声を
得るようにしている。

【０００３】このような音声合成装置において、音源情
報としてインパルスとノイズを使用する方式、又は残差
情報を使用する方式がある。このうち、残差を音源情報
とする方式は、音声波形を線形予測分析して調音パラメ
ータを求め、このパラメータによる調音フィルタに音声
波形を入力してその出力に残差波形を求め、この残差波
形をサンプリングと符号化によって音源情報としている
。また、音声波形の切り出しには元の波形に窓関数（ハ
ミング窓，ハニング窓等）を乗じ、切り出し区間の両端
に急激な変化が起きないようにする。

【０００４】

【発明が解決しようとする課題】残差波形を用いて音源
情報を得る従来手段として各ピッチ波形の切り出し基準
点（ピッチ同期点）をいくつかの零交叉点の候補から音
声波形基準で抽出している。例えば、図４Ａに示す女性
音声による「ウ」の発生の場合、候補となる零交差点の
個数が２〜３個と少なく、しかもピッチ波形の振幅の少
ない波形では零交差点は正確に求めることができる。

【０００５】しかし、図４Ｂに示す男性音声による「ウ
」の発声の場合、零交差点が多くピッチ毎の波形振幅の
減衰の大きなときには、正確に残差ピークの出現する付
近の零交差点が得られず、位相のずれた点が基準として
選ぶことが多い。そして、位相のずれたまま音源ファイ
ルに格納すると、合成時に波形の歪みが発生する図４Ａ
，Ｂにおいて、ａ〜ｅ及びａ′〜ｃ′がピッチ同期点で
ある。

【０００６】上述した方式を用いて女性音声の分析を行
う場合、零交叉点が正確に求まるので、ピッチ同期手段
により、１つ１つのピッチ単位波形に正確に分割するこ
とは可能であるけれども、男性音声の分析を行う場合、
ピッチ波形の相違のために、零交叉点の誤差が大きく正
確な位置に分割基準が得られなかった。

【０００７】この発明は上記事情に鑑みてなされたもの
で、零交叉回数が多く、ピッチ内の波形減衰の大きな波
形においても正確なピーク位置を求めることができるよ
うにした音声合成装置の音源データ生成方法を提供する
ことを目的とする。

【０００８】

【課題を解決するための手段】この発明は上記の目的を
達成するために、原波形からピッチ区間を分割検出した
後、全フレームの残差を計算し、ピッチ区間毎に得られ
た残差どうしの相関を計算して残差ピーク位置を抽出し
、その後、母音区間のエネルギー最大フレームで残差最
大点を区間のピーク位置として抽出し、その区間から時
間軸の前後方向に隣接する区間との相互相関計算を行い
、その計算で最大となる幅より、次々とピーク位置を抽
出した後、隣りどうしの間隔をピッチとし、このピッチ
の列を平均化処理した後、再度平均化されたピッチでピ
ーク位置を抽出し、そのピーク位置をその近傍で微調整
した後、最終的なピーク位置を抽出し、このピーク位置
をもとに切り出し再分析して音源データを生成すること
を特徴とするものである。

【０００９】

【作用】原波形からピッチ区間を分割検出した後、全フ
レームの残差を計算する。その後、残差ピーク位置を抽
出する。この抽出の後、残差最大点を区間のピーク位置
として抽出する。一方、区間から時間軸の前後方向に隣
接する区間との相互相関計算等を行う。その計算により
次々とピーク位置を抽出し、隣りどうしの間隔をピッチ
とし、このピッチの列を平均化処理する。その後、再び
ピーク位置を抽出してそのピーク位置を微調整し、最終
的ピーク位置を抽出する。

【００１０】

【実施例】以下この発明の一実施例を図面に基づいて説
明する。

【００１１】図１において、ステップＳ１は図２に示す
原波形からピッチ区間を分割検出する処理で、このステ
ップＳ１で基準点を検出するときに、波形を基準にしな
いで、一旦全フレームの残差を計算する。これがステッ
プＳ２の処理である。ステップ　Ｓ２の処理が終わった
ならステップＳ３の処理を行う。ステップＳ３はピッチ
区間　毎に得られた残差列どうしの相関計算を行う。こ
の相関計算の結果によりステップＳ４で残差ピーク位置
を抽出する。

【００１２】残差ピーク位置が抽出されたならステップ
Ｓ５の処理に移る。ステップＳ５は母音区間（一般にピ
ーク性が強い）のエネルギー最大のフレームで、残差の
最大点をその区間のピーク位置として抽出する。また、
その区間から時間軸の前後方向に、となりの区間との相
互相関をステップＳ６で計算する。この計算の結果、相
関の最大となる幅より、次々とステップＳ７でピーク位
置を図３に示すように図２から決めて行く。

【００１３】　　例えば、Ｐｅａｋ（Ｍ）→Ｐｅａｋ（Ｍ−１）→Ｐ
ｅａｋ（Ｍ−２）……　　　　　　　　　　Ｐｅａｋ（
Ｍ→Ｐｅａｋ（Ｍ＋１）→Ｐｅａｋ（Ｍ＋２）……ピー
ク位置が決定されたなら、その隣どうしの間隔をピッチ
Ｐ（１），Ｐ（２）…点とステップＳ８で行う。このス
テップＳ８でのピークの列をステップＳ９で平均化処理
し、なめらかに推移させるようにする。次に平均化処理
されたピッチＰ（１）′，Ｐ（２）′……をステップＳ
１０で再度ピークを決定する。ピーク決定後、ステップ
Ｓ１１でピーク位置をその近傍で微調整する。例えば近
くにより大きなピークが存在すればずらすようにする。その後、最終的なピーク位置をステップＳ１２で決定す
る。この最終的なピーク位置をもとにステップＳ１３からＳ
１６の処理を行って各ピッチ区間で位相を整えて音源フ
ァイルに格納する。なお、ステップＳ１３は最終的なピ
ーク位置をもとに切り出しを行う処理であり、ステップ
Ｓ１４は再分析を行う処理であり、ステップＳ１５は各
ピッチ区間で位相を整えて音源ファイルに格納する処理
である。

【００１４】

【発明の効果】以上述べたように、この発明によれば、
零交叉回数が多く、ピッチ内の波形減衰の大きな波形に
おいても常に正確なピーク位置を求めることができるよ
うにしたものである。

【図面の簡単な説明】

【図１】この発明の一実施例を示すフローチャート。

【図２】原波形図。

【図３】音源波形図。

【図４】女性音声と男性音声波形図。

Claims

【特許請求の範囲】

【請求項１】　　原波形からピッチ区間を分割検出した
後、全フレームの残差を計算し、ピッチ区間毎に得られ
た残差列どうしの相関を計算して残差ピーク位置を抽出
し、その後、母音区間のエネルギー最大フレームで残差
最大点を区間のピーク位置として抽出し、その区間から
時間軸の前後方向に隣接する区間との相互相関計算を行
い、その計算で最大となる幅より、次々とピーク位置を
抽出した後、隣りどうしの間隔をピッチとし、このピッ
チの列を平均化処理した後、再度平均化されたピッチで
ピーク位置を抽出し、そのピーク位置をその近傍で微調
整した後、最終的なピーク位置を抽出し、このピーク位
置をもとに切り出し再分析して音源データを生成するこ
とを特徴とする音声合成装置の音源データ生成方法。