JPH1055193A - 音声分析方法 - Google Patents

音声分析方法

Info

Publication number
JPH1055193A
JPH1055193A JP8213379A JP21337996A JPH1055193A JP H1055193 A JPH1055193 A JP H1055193A JP 8213379 A JP8213379 A JP 8213379A JP 21337996 A JP21337996 A JP 21337996A JP H1055193 A JPH1055193 A JP H1055193A
Authority
JP
Japan
Prior art keywords
linear prediction
voice
spectrum
prediction coefficient
spectral envelope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8213379A
Other languages
English (en)
Inventor
Yoichiro Matsumura
陽一郎 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP8213379A priority Critical patent/JPH1055193A/ja
Publication of JPH1055193A publication Critical patent/JPH1055193A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 声道特性を精度良く推定できるようにして、
合成音の音質の向上を図ったものである。 【解決手段】 音声スペクトルのピーク点を例えば3次
元スプライン法により補間工程11で補間する。この補
間工程11で補間された値からスペクトル包絡をスペク
トル包絡工程12で求める。その後、この工程12で求
められたスペクトル包絡から声道パラメータである線形
予測係数を推定し、線形予測係数決定工程13で線形予
測係数を決定した後、精度良く線形予測係数を抽出工程
14で抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、規則音声合成に
おける音質向上を図るために、声道特性を精度良く推定
する音声分析方法に関する。
【0002】
【従来の技術】規則音声合成は、任意の日本語文章を漢
字かな混じり文として与えれば、出力にその文が音声と
して出力されるものである。図10は規則音声合成シス
テムの概略構成のブロック図で、図10において、テキ
スト入力部11に入力された漢字かな混じり文を、日本
語処理部12で内蔵の日本語辞書を参照しながら音素記
号列に変換する。次に、この音素記号列に基づき、韻律
パターン生成部13で韻律パターンを生成する。韻律パ
ターン生成部13は、時間長パターン生成部13a、ピ
ッチパターン生成部13bおよびエネルギパターン生成
部13cから構成され、これら各生成部13a〜13c
で韻律パターンが生成される。
【0003】各生成部13a〜13cで各パターンを生
成する際には、それぞれ時間長パターンデータベース
1、ピッチパターンデータベース2およびエネルギパタ
ーンデータベース3のデータに基づき、各音素毎に目標
値を定めて行く手段を取っている。このようにして得ら
れた韻律パターンと音素記号列を基に、音声合成部14
では、音声素片データベース4から必要なデータを参照
し、所望の韻律パターンを実現しながら音声波形が生成
される。音声合成部14で生成された音声波形は音声出
力部5から音声出力となって放声される。
【0004】上記のように構成された規則音声合成シス
テムにおいて、音声を合成する基となる音声素片データ
ベース4は、実音声を分析し、算出してデータベース化
したものである。分析手法には、線形予測分析方法(L
PC分析方法)および、その改良であるPARCOR分
析方法、LSP分析方法が代表的なものである。これら
方法による分析により得られた、声道特性を表す声道パ
ラメータと音源波形は音声素片データ毎にデータベース
化して保管される。この素片データとしては、子音→母
音(CVデータ)、母音→子音(VCデータ)、母音→
母音(VVデータ)等の単位で用意される。そして、音
声合成時には、これら素片データを対象文章に応じて参
照し、合成演算により音声波形が生成される。
【0005】
【発明が解決しようとする課題】規則音声合成システム
における音声の品質、特に音質は、音声素片データ(声
道パラメータ、音源)を抽出する音声分析方法の推定精
度に大きく依存していることが知られている。従来の線
形予測分析方法は、理論的には、音源すなわち、音声生
成システムの入力を孤立パルスあるいはホワイトノイズ
と仮定し、システムの伝達関数を推定している。このこ
とをスペクトル上で解釈すると、入力のスペクトルがあ
らゆる周波数にわたって一定である。従って、音声スペ
クトルは滑らかな連続スペクトルであり、それがそのま
ま声道の周波数特性(すなわちシステムの伝達関数)を
表すと仮定している。一方、母音等の有声音において入
力は、あるピッチ周波数を持つパルス列であると仮定す
べきであり、音声スペクトルにおいても入力パルス列の
周期性により、ピッチ周波数の整数倍のところに局所的
ピークを持つ線スペクトル構造を示すことになる。この
ため、分析結果に誤差が生じる恐れがある。特に、女性
音はピッチ周波数が高いため、孤立パルス仮定からのず
れが大きく推定精度が悪くなる。このことが音声合成時
におけるピッチ制御による音質劣化の大きな要因となっ
ていた。
【0006】この発明は上記の事情に鑑みてなされたも
ので、声道特性を精度良く推定できるようにして、合成
音の音質の向上を図った音声分析方法を提供することを
課題とする。
【0007】
【課題を解決するための手段】この発明は、上記の課題
を達成するために、規則音声合成において、音声特徴抽
出を行う際に、音声スペクトルのピーク点を補間するこ
とにより、スペクトル包絡を求め、その後、スペクトル
包絡から線形予測係数を決定することを特徴とし、前記
ピーク点の補間には3次元スプライン法を用いたことを
特徴とするものである。
【0008】また、前記線形予測係数を抽出した後、音
声スペクトルのピーク点における値との誤差に基づき前
記線形予測係数を修正することを特徴とするものであ
る。
【0009】
【発明の実施の形態】以下この発明の実施の形態を図面
に基づいて説明する。図1はこの発明の実施の第1形態
を示す工程説明図で、図1において、11は音声スペク
トルのピーク点を例えば3次元スプライン法により補間
する補間工程である。この補間工程11で求められたス
ペクトル包絡から声道パラメータである線形予測係数
を、線形予測係数決定工程12で決定する。
【0010】次に上記形態を図2の動作処理フローチャ
ートにより述べる。まず、音声データを読み込む(S
1)。この音声データに、窓長が基本周期の3〜5倍の
窓を掛けて切り出す(S2)。切り出したデータをFF
Tにより電力スペクトルP(ω)、0≦ω≦πを求める
(S3)。ここで求められた電力スペクトルのピーク
(局所的)を図3に示すように検出し、その周波数と電
力スペクトル値{ωm,P(ωm),m=1,2,…}を
求める(S4)。ステップS4で求められた電力スペク
トルのピーク値の対数{1n{P(ωm)},m=1,
2,…}を3次元スプライン法により補間することによ
り図4に示すスペクトル包絡S(ω)を求める(S
5)。求められたスペクトル包絡S(ω)から最尤推定
法により全極モデルにおける線形予測係数(声道パラメ
ータ)を決定する。具体的には、線形予測係数を
{ai,i=1,2,…,p}とし、全極型伝達関数H
(ω)を次式とすると、
【0011】
【数1】
【0012】次式の評価関数Iを最小にする線形予測係
数(ai)を求める(S6)。
【0013】
【数2】
【0014】なお、評価関数Iは各aiに関して二次で
あり、連立一次方程式の求解に帰着する。
【0015】図5は第1形態の方法により女性音「あ」
(ピッチ周波数は約263Hz)を分析し、求めたパラ
メータによる全極型スペクトル包絡線であり、図6はL
PC分析法により求めたスペクトル包絡線である。この
両図から、従来のLPC分析法に比較して第1形態によ
る方法の方が音声スペクトルのピーク点を包絡線が精度
良く捕らえているのが明らかである。
【0016】次にこの発明の実施の第2形態を図7に示
す動作処理フローチャートにより述べる。図7におい
て、ステップS1〜S6までの処理は第1形態と同じで
あるから、ステップS7以降について述べるに、この第
2形態では第1形態により線形予測係数を求めた後、電
力スペクトルのピーク点における値との誤差に基づき線
形予測係数を修正するようにしたことが特徴である。こ
のような工程を追加することにより、音声スペクトルの
ピーク点を精度良く捕らえることができるようになり、
これにより精度良いスペクトル包絡線を表す線形予測係
数に修正することができるようになる。
【0017】図7において、全極型伝達関数H(ω)の
ゲインG(>0)をステップS7で求める。具体的には
次式に示す評価関数Eを最小化するゲインGを求めるこ
とにより決定する。ただし、Nはスペクトルのピーク点
の数である。
【0018】
【数3】
【0019】次に図8に示すスペクトルのピーク点にお
ける誤差e(ωm)を次式により求める(S8)。
【0020】 e(ωm)=P(ωm)/GD(ωm)、 m=1、2、… ここで、ステップS8で求めた誤差e(ωm)のばらつ
きを{F(e(ωm))、m=1,2,…}により平滑化する(S
9)。その後、{F(e(ωm))、m=1,2,…}を3次元ス
プライン法により補間し、補間曲線をSe(ω)とする
(S10)。図9に補間曲線を示す。なお、Fは次式に
示すような誤差のばらつきを平滑する関数であり、ωが
0に近い程平滑化される。
【0021】
【数4】
【0022】上記補間曲線Se(ω)が得られたなら、
G×D(ω)にexp(Se(ω))を掛けスペクトル包絡を修
正する(S11)。次に、G×D(ω)×exp(Se(ω))
を前記第1形態のステップS5におけるスペクトル包絡
S(ω)として線形予測係数を決定する(S12)。そ
の後、ステップS7からステップS12までの操作をス
テップS13で数回繰り返して処理を終了する。
【0023】次にこの発明の実施の第3形態について述
べるに、この第3形態の方法は前記第2形態におけるス
テップS11において、評価関数を変えたものである。
このように評価関数を変えると、音声スペクトルのピー
ク点を精度良く捕らえることができるようになり、これ
により精度良いスペクトル包絡線を表す線形予測係数に
修正することができる。
【0024】この第3形態の動作処理は第2形態の動作
処理とステップS10まで同じであり、ステップS11
からの処理が以下のように異なる。ステップS11でス
ペクトル包絡S(ω)が、S(ω)=G×D(ω)×ex
p(Se(ω))とする。このとき、全極型伝達関数H
(ω)の絶対値の2乗を次式のようにすると、
【0025】
【数5】
【0026】次式の評価関数Jを最小化することによ
り、係数(bi)を求める。
【0027】
【数6】
【0028】なお、Jは各biに関して二次であり、連
立一次方程式の求解に帰着する。
【0029】さらに、次式の評価関数Iを最小化するこ
とにより、線形予測係数(ai)を求め、第2形態処理
と同様に処理を数回繰り返す。
【0030】
【数7】
【0031】
【発明の効果】以上述べたように、この発明によれば、
精度良く声道パラメータ(線形予測係数)を推定するこ
とができるとともに、精度良く得られた声道パラメータ
により求めた音源は、そのスペクトルのピーク点におけ
る値のばらつきが、従来法に比較して小さくなる利点が
ある。また、この発明の方法により抽出した素片データ
を使用することにより合成音の音質を大幅に向上させる
ことができ、特にピッチ変動による音質劣化を抑制する
ことができる。
【図面の簡単な説明】
【図1】この発明の実施の第1形態を示す工程説明図。
【図2】第1形態の動作処理フローチャート。
【図3】周波数対電力のピーク特性図。
【図4】周波数対電力のスペクトル包絡特性図。
【図5】第1形態により求められたスペクトル包絡特性
図。
【図6】LPC分析法により求められたスペクトル包絡
特性図。
【図7】この発明の実施の第2形態の動作処理フローチ
ャート。
【図8】スペクトルのピーク点における誤差を示す特性
図。
【図9】補間曲線図。
【図10】規則音声合成システムの概略構成のブロック
図。
【符号の説明】
11…音声スペクトルのピーク点補間工程 12…線形予測係数決定工程

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 規則音声合成において、音声特徴抽出を
    行う際に、音声スペクトルのピーク点を補間することに
    より、スペクトル包絡を求め、その後、スペクトル包絡
    から線形予測係数を決定することを特徴とする音声分析
    方法。
  2. 【請求項2】 前記ピーク点の補間には3次元スプライ
    ン法を用いたことを特徴とする請求項1記載の音声分析
    方法。
  3. 【請求項3】 前記線形予測係数を抽出した後、音声ス
    ペクトルのピーク点における値との誤差に基づき前記線
    形予測係数を修正することを特徴とする請求項1又は2
    記載の音声分析方法。
  4. 【請求項4】 前記線形予測係数を修正するにあたり、
    評価関数を変えたことを特徴とする請求項3記載の音声
    分析方法。
JP8213379A 1996-08-13 1996-08-13 音声分析方法 Pending JPH1055193A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8213379A JPH1055193A (ja) 1996-08-13 1996-08-13 音声分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8213379A JPH1055193A (ja) 1996-08-13 1996-08-13 音声分析方法

Publications (1)

Publication Number Publication Date
JPH1055193A true JPH1055193A (ja) 1998-02-24

Family

ID=16638228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8213379A Pending JPH1055193A (ja) 1996-08-13 1996-08-13 音声分析方法

Country Status (1)

Country Link
JP (1) JPH1055193A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930863A (zh) * 2012-10-19 2013-02-13 河海大学常州校区 一种基于简化自适应内插加权谱模型的语音转换及重构方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930863A (zh) * 2012-10-19 2013-02-13 河海大学常州校区 一种基于简化自适应内插加权谱模型的语音转换及重构方法
CN102930863B (zh) * 2012-10-19 2014-05-28 河海大学常州校区 一种基于简化自适应内插加权谱模型的语音转换及重构方法

Similar Documents

Publication Publication Date Title
JP2763322B2 (ja) 音声処理方法
US7792672B2 (en) Method and system for the quick conversion of a voice signal
WO2005109399A1 (ja) 音声合成装置および方法
EP1995723A1 (en) Neuroevolution training system
JPH031200A (ja) 規則型音声合成装置
US20160027430A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
JP2798003B2 (ja) 音声帯域拡大装置および音声帯域拡大方法
JP2600384B2 (ja) 音声合成方法
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP4684770B2 (ja) 韻律生成装置及び音声合成装置
JP4829912B2 (ja) 基本周波数推定装置、基本周波数推定方法、基本周波数推定プログラム、記憶媒体
JPH1055193A (ja) 音声分析方法
JP2536169B2 (ja) 規則型音声合成装置
JPH07261798A (ja) 音声分析合成装置
JPH0632037B2 (ja) 音声合成装置
JP3358139B2 (ja) 音声ピッチマーク設定方法
JP4056319B2 (ja) 音声合成方法
JP2005024794A (ja) 音声合成方法と装置および音声合成プログラム
JP2755478B2 (ja) テキスト音声合成装置
JP2001282273A (ja) 音声情報処理装置とその方法と記憶媒体
JP2001100777A (ja) 音声合成方法及び装置
JP2001312300A (ja) 音声合成装置
JP3063088B2 (ja) 音声分析合成装置、音声分析装置及び音声合成装置
JPH11202883A (ja) パワースペクトル包絡生成方法および音声合成装置