JPH11202883A - パワースペクトル包絡生成方法および音声合成装置 - Google Patents

パワースペクトル包絡生成方法および音声合成装置

Info

Publication number
JPH11202883A
JPH11202883A JP10005457A JP545798A JPH11202883A JP H11202883 A JPH11202883 A JP H11202883A JP 10005457 A JP10005457 A JP 10005457A JP 545798 A JP545798 A JP 545798A JP H11202883 A JPH11202883 A JP H11202883A
Authority
JP
Japan
Prior art keywords
power spectrum
pse
spectrum envelope
error
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10005457A
Other languages
English (en)
Inventor
Kaoru Tsukamoto
薫 塚本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10005457A priority Critical patent/JPH11202883A/ja
Publication of JPH11202883A publication Critical patent/JPH11202883A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 高い周波数でサンプリングされた音声データ
から明瞭度のよい音声を合成できる音声合成用素片を生
成する。 【解決手段】 音声波形切り出し部101 は音声波形デー
タから音声データを切り出し、ピッチ抽出部102 は音声
データから対数パワースペクトルと基本周波数とを求
め、対数パワースペクトル標本部103 は対数パワースペ
クトルを基本周波数で標本化して標本化データ系列を得
る。PSE パラメータ抽出部104 は標本化データ系列を用
いて最小二乗法によりPSE モデルを求め、そのとき、誤
差評価部105 は誤差二乗和の各項に対し重み付けする。
対数PSE 特性標本化部106 はPSEモデルのパワースペク
トル包絡を標本化して標本化データを生成し、指数変換
部107 は標本化データから直約尺度の振幅スペクトル包
絡特性を生成し、逆FFT 部108 は振幅スペクトル包絡特
性からインパルス応答波形を求め、音声合成部109はイ
ンパルス応答波形から音声を合成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声合成用素片を
求めるためのパワースペクトル包絡を生成するパワース
ペクトル包絡生成方法とその方法を用いた音声合成装置
に関するものである。
【0002】
【従来の技術】入力された文字情報(例えばテキストデ
ータ)に基づいて音声を合成する音声合成技術は、出力
語彙の制限がないことから、録音再生型の音声合成技術
にとって代わる技術として期待されている。
【0003】音声合成では、音節、音素、1ピッチ区間
の波形等の基本的な小さな単位から抽出される特徴パラ
メータを用いて、それらを接続する規則や、ピッチ、振
幅などの韻律情報を制御する規則を精密に定めることに
より、あらゆる文字列から音声を合成することが可能で
ある。その音声合成の基礎となる特徴パラメータに人間
の音声を素材にして用いる場合、自然音声から直接取り
出した音声の1ピッチ分の波形を波形領域で所定の規則
に従って重ね合わせることにより合成音を生成したり、
または、音声のパワースペクトル包絡を変換することに
得た零位相系のインパルス応答波形を波形領域で所定の
規則に従って重ね合わせることにより合成音を生成する
方法がある。なお、このインパルス応答波形は、音声合
成用素片の一つである。
【0004】後者の音声のパワースペクトル包絡を用い
て特徴パラメータの抽出を行う場合、ケプストラム分析
法、線形予測分析法、中島 他「パワースペクトル包絡
(PSE) 音声分析・合成系」日本音響学会誌44巻11号(198
8)、第824 頁〜第832 頁に記載されている分析法(以下
PSE 分析法と称す)等が用いられる。このうちPSE 分析
法は、有声音のとき周波数領域で信頼できるデータは基
本周波数の整数倍の位置にしか存在しないことに基づい
て新たなパワースペクトル包絡モデル(以下PSE モデル
と称す)を定義するものであり、このPSE 分析法を用い
たインパルス応答波形の生成方法の概略は以下の通りで
ある。
【0005】まず、音声波形に窓をかけて切り出し、こ
れをフーリエ変換して対数パワースペクトルを求める。
次いで、その対数パワースペクトルを複素逆高速フーリ
エ変換( 複素逆FTT)してケプストラムを求め、そのケプ
ストラムのピークから基本周波数を算出する。そして、
その基本周波数の整数倍の各位置で対数パワースペクト
ル包絡を標本化して標本化データ系列を求め、その標本
化データ系列を用いてM項余弦級数で表されるPSE モデ
ルのパワースペクトル包絡を求める。
【0006】このときM項余弦級数の係数パラメータ
は、標本化データ系列とPSE モデルのパワースペクトル
包絡との誤差二乗和の最小値を求めることによって推定
する。次いで、求めたPSE モデルのパワースペクトル包
絡を標本化し、その標本化値を対数尺度から直約尺度に
変換して直約尺度の振幅スペクトル包絡を得る。この振
幅スペクトル包絡データを虚数部を零として複素逆高速
フーリエ変換( 複素逆FTT)し、音声合成用素片としての
対称形のインパルス応答波形を得るものである。
【0007】
【発明が解決しようとする課題】しかしながら、上述の
方法では、対数パワースペクトルの微細構造が4 kHz
以上の高周波数領域で乱れることが多いことを考慮し、
4 kHz 以上の周波数成分を排除してPSE モデルのパワ
ースペクトル包絡を求めているので、高周波数成分の性
質を生かした高品質の音声合成要素片を得ることができ
ないという問題があった。
【0008】また、上述の方法では、PSE モデルのパワ
ースペクトラム包絡を求める際に、対数パワースペクト
ル包絡の標本化データ系列とPSE モデルのパワースペク
トル包絡との誤差二乗和の最小値を求めている。しかし
ながら、原音声のサンプリング周波数が低い場合には
(例えば8k Hz )M項余弦級数の項数が少ないので、
比較的容易に誤差二乗和の最小値を求めることができる
が、サンプリング周波数が高くなると項数が多くなり、
その項数に比例して誤差二乗和が大きくなるため、原音
声に対して合成音の明瞭度が低下するという問題があっ
た。
【0009】本発明はこのような従来技術の問題を解消
し、高い周波数でサンプリングされた原音声に対しても
合成音の明瞭度が低下しない音声合成用素片を得ること
のできるPSE モデルのパワースペクトル包絡生成方法お
よび音声合成装置を提供することを目的とする。
【0010】
【課題を解決するための手段】本発明は上述の課題を解
決するために、音声データの対数パワースペクトルをそ
のケプストラムから求めた基本周波数の整数倍の各位置
で標本化することにより得た標本化データ系列を用いて
PSE モデルのパワースペクトル包絡を生成するパワース
ペクトル包絡生成方法であって、この方法は、標本化デ
ータ系列とパワースペクトル包絡との誤差二乗和の各項
を人間の聴覚の周波数特性に応じて重み付けする第1の
工程と、この第1の工程で重み付けされた誤差二乗和が
最小になるPSE モデルの係数パラメータを推定してパワ
ースペクトル包絡を求める第2の工程とを含むことを特
徴とする。
【0011】また、本発明は、音声データの対数パワー
スペクトルをそのケプストラムから求めた基本周波数の
整数倍の各位置で標本化することにより得た標本化デー
タ系列を用いてPSE モデルのパワースペクトル包絡を求
め、このパワースペクトル包絡からインパルス応答波形
を生成して音声を合成する音声合成装置であって、この
装置は、標本化データ系列とパワースペクトル包絡との
誤差二乗和の各項を人間の聴覚の周波数特性に応じて重
み付けする誤差評価手段と、この誤差評価手段により重
み付けされた誤差二乗和が最小になるPSE モデルの係数
パラメータを推定してパワースペクトル包絡を求めるPS
E パラメータ生成手段とを含むことを特徴とする。
【0012】
【発明の実施の形態】次に添付図面を参照して本発明の
実施例を詳細に説明する。
【0013】まず、第1の実施例について説明する。第
1の実施例による音声合成装置は、高い周波数でサンプ
リングされた音声データの対数パワーペクトル包絡を基
本周波数で標本化することにより得た標本化データ系列
を用いて、PSE モデルの対数パワースペクトル包絡を最
小二乗法により求めるとき、その誤差二乗和の各項をあ
らかじめ低周波数域の誤差が相対的に大きく評価される
ように重み付けするものであって、音声の高周波数成分
の性質を生かしたバランスのよい特徴パラメータを得る
ものである。
【0014】図1は、第1の実施例による音声合成装置
を示す構成図である。図1において、音声波形切り出し
部101 は、入力された音声波形データに適当な時間窓を
かけて音声データx(n)を切り出し、これをピッチ抽出部
102 へ送出するものである。ピッチ抽出部102 は、音声
波形切り出し部101 からの音声データx(n)から対数パワ
ースペクトル包絡を求め、この対数パワースペクトル包
絡からケプストラムを求めて基本周波数f0を算出し、対
数パワースペクトル包絡と基本周波数f0とを対数パワー
スペクトル標本化部103 へ送出するものである。
【0015】対数パワースペクトル標本化部103 は、ピ
ッチ抽出部102 からの対数パワースペクトル包絡を、同
じくピッチ抽出部102 からの基本周波数f0の整数倍の各
位置で標本化し、得られた標本化データ系列y(n)をPSE
パラメータ抽出部104 へ送出するものである。PSE パラ
メータ抽出部104 は、対数パワースペクトル標本化部10
3 からの標本化データ系列y(n)を用いてPSE モデルの対
数パワースペクトル包絡を求め、これを対数PSE 特性標
本化部106 へ送出するものである。誤差評価部105 は、
PSE パラメータ抽出部104 がPSE モデルの係数パラメー
タを最小二乗法で推定する際に、誤差二乗和の各項をあ
らかじめ人間の聴覚の周波数特性に応じて、例えば、低
周波数域の誤差が相対的に大きく評価されるように重み
付けするものである。
【0016】対数PSE 特性標本化部106 は、PSE パラメ
ータ抽出部104 からのPSE モデルの対数パワースペクト
ル包絡を標本化し、得られた標本化データを指数変換部
107へ送出するものである。指数変換部107 は、対数PSE
特性標本化部106 からの標本化データを対数尺度から
直約尺度に変換して直約尺度の振幅スペクトル包絡デー
タを生成し、これを逆FFT 部108 へ送出するものであ
る。逆FFT 部108 は、指数変換部107 からの振幅スペク
トル包絡からインパルス応答波形を生成し、これを音声
合成部109 へ送出するものである。音声合成部109 は、
逆FFT 部108 からのインパルス応答波形を用いて音声を
合成するものである。
【0017】次ぎに、図1に示す音声合成装置の動作に
ついて説明する。音声波形切り出し部101 では、入力さ
れた音声波形データに適当な時間窓をかけて音声データ
x(n)を切り出す。図2は、音声波形A に窓B をかけて音
声データを切り出す様子を示すものである。ピッチ抽出
部102 では、音声波形切り出し部101 で切り出された音
声データx(n)をフーリエ変換して対数パワースペクトル
を求める。そして、この対数パワースペクトルを複素逆
フーリエ変換してケプストラムを求め、そのピークから
基本周波数f0を算出する。図3は、ケプストラムのピー
クから基本周波数f0を算出する様子を示すものであっ
て、この例ではケフレンシが約6.6msec の位置でピーク
が現れているので基本周波数は約151 Hz になる。
【0018】対数パワースペクトル標本部103 では、ピ
ッチ抽出部102 で求められた対数パワースペクトルを、
その周波数軸上においてピッチ抽出部102 で算出された
基本周波数f0の整数倍の各位置で標本化し、式(1) で表
されるN個の標本化データ系列y(n)を得る。
【0019】
【数1】 y(i),(i =0, 1, 2,....., N−1) .....(1) ここで、整数Nの値は、f0*(N−1) がS/ 2を超える
最小値とし、上限周波数Fをf0*(N−1) と定義する。
なお、Sは入力された音声波形(原音声)のサンプリン
グ周波数である。図4は、対数パワースペクトル包絡C
を基本周波数f0の整数倍の位置で標本化する様子を示す
ものである。なお、従来例では上限周波数Fを約4 kH
z に設定しているが、本実施例では上限周波数Fを原音
声のサンプリング周波数Sの約1/ 2に設定しているの
で、高サンプリング周波数の原音声に対しても高周波成
分の性質を生かしたバランスのよい特徴パラメータを得
ることができる。
【0020】PSE パラメータ抽出部104 では、対数パワ
ースペクトル標本化部103 で得られた周波数帯域幅[ 0
−F] におけるN個の標本化データ系列y(n)を用いて、
PSEモデルを求める。具体的には、式(2) に示すM項余
弦級数Y( λ) をPSE モデルの対数パワースペクトル包
絡とし、標本化データ系列y(n)と対数パワースペクトル
包絡Y( λ) との誤差二乗和Jを最小にする係数パラメ
ータA(i) を求める。
【0021】
【数2】 本実施例では、PSE パラメータ抽出部104 でこの係数パ
ラメータA(i) を求めるときに、誤差評価部105 により
あらかじめ誤差二乗和Jの各項の誤差j(i)を、式(3) に
示すように重み付け定数αを用いて重み付けを行ってい
る。
【0022】
【数3】 j(i)=α{ Y( δi)−y(i)}2 δ=π/(N−1) .....(3) ただし、y(0)=0.99*y(1) とする。この重み付けは、周
波数f0*iの値に応じて行い、例えば、0 <f0*i≦4000(
Hz)の周波数範囲においてはα=1.0 に、f0*i>4000(
Hz)の周波数範囲においてはα=0.5 にそれぞれ設定す
る。したがって、誤差二乗和Jは式(4) で表される。
【0023】
【数4】 PSE パラメータ抽出部104 では、この重み付けされた誤
差二乗和Jを最小にする係数パラメータA(i) を求め
る。本実施例では、重み付け定数αの値は、人間の聴覚
の周波数特性に応じて変えている。通常、音声の4 kH
z 以下の周波数成分が人間の聴覚に与える影響は、4 k
Hz 以上の周波数成分よりも大きい。そこで、誤差二乗
和Jの4 kHz 以下の項の誤差の和が4 kHz 以上の項
の誤差の和よりも大きく評価されるように、例えば、4
kHz 以上の誤差の寄与が全体の30%程度以下になるよ
うに設定する。この場合、サンプリング周波数Sが大き
くなるほど4 kHz 以上の項が増加するので、サンプリ
ング周波数Sが大きくなるほど4 kHz 以上の項に対す
る重み付け定数αの値を小さく設定する。
【0024】例えば、サンプリング周波数Sが22.05kH
z 、基本周波数f0が150 Hz であるとき、分析区間0〜
11.025k Hz におけるPSE モデルの係数パラメータA
(i) の項数は、約75項となり、0〜4 kHz における係
数パラメータA(i) の項数は、約26項となる。したがっ
て、4 kHz 以上の誤差の寄与を30%程度以下に抑える
ためには、重み付け定数αの値を、例えば、0<f0*i≦
4000の周波数範囲においてはα=1.0 に、f0*i>4000の
周波数範囲においてはα=0.2 にそれぞれ設定する。
【0025】このように、誤差評価部105 では、誤差二
乗和Jの各項に対して、人間の聴覚の周波数特性を考慮
して低周波数域における誤差が高周波数域における誤差
より大きくなるように重み付けを行い、PSE パラメータ
抽出部104 では、その重み付けが行われた各項からなる
誤差二乗和Jが最小となるPSE モデルの係数パラメータ
A(i) を求める。
【0026】対数PSE 特性標本化部106 では、PSE パラ
メータ抽出部104 で求められたPSEモデルの対数パワー
スペクトル包絡Y( λ) がM項余弦級数で表され、零周
波数に関して対称であるので、式(5) で表されるパワー
スペクトル包絡Y( λ) について、−S/ 2からS/ 2
の区間を、例えば、512 点あるいは1024点で標本化す
る。これにより、PSE モデルの対数パワースペクトル包
絡の標本化データ系列が得られる。
【0027】
【数5】 指数変換部107 では、対数PSE 特性標本化部106 で得ら
れたPSE モデルの対数パワースペクトル包絡の各標本値
を直約尺度の標本値に変換し、直約尺度の振幅スペクト
ル包絡特性を得る。この変換は、例えば、各標本値につ
いてその実数部(Real)および虚数部(Image) を用いて20
log|(Real)2 +(Imag)2|を算出することにより実行でき
る。
【0028】逆FFT 部108 では、指数変換部107 で求め
られた振幅スペクトル包絡特性の標本値を実数部とし虚
数部を零として複素逆フーリエ変換し、零位相形のイン
パルス応答波形を得る。図5は、逆FFT 部108 で得られ
たインパルス応答波形の一例を示すものである。音声合
成部109 では、逆FFT 部108 で得られたインパルス応答
波形をピッチ周期ごとに重ね合わせて音声を合成する。
図6は、音声合成部109 で合成された音声波形の一例を
示すものである。
【0029】以上説明したように第1の実施例によれ
ば、高サンプリングの音声データの対数パワーペクトル
包絡を基本周波数で標本化することにより得た標本化デ
ータ系列を用いて、PSE モデルの対数パワースペクトル
包絡を最小二乗法により求めるとき、その誤差二乗和の
各項をあらかじめ聴覚に影響の大きい低周波数域の誤差
が相対的に大きく評価されるように重み付けしているの
で、音声の高周波数域の性質も生かしたバランスのよい
特徴パラメータを得ることができる。
【0030】次ぎに、本発明の第2の実施例について説
明する。第2の実施例による音声合成装置は、高サンプ
リング周波数の音声データの対数パワーペクトル包絡を
基本周波数で標本化することにより得た標本化データ系
列を用いて、PSE モデルのパワースペクトル包絡を最小
二乗法により求めるとき、その誤差二乗和の各項をあら
かじめ人間の耳の感度を考慮して重み付けするものであ
って、より自然性の高い特徴パラメータを得るものであ
る。
【0031】図7は、第2の実施例による音声合成装置
の構成図である。この音声合成装置は、図1に示す第1
の実施例の音声合成装置とほぼ同じ構成であるが、誤差
評価部105 に替えてA特性による誤差評価部205 を設け
た点で相違する。図7において、音声波形切り出し部20
1 、ピッチ抽出部202 、対数パワースペクトル標本化部
203 、PSE パラメータ抽出部204 、対数PSE 特性標本化
部206 、指数変換部207 、逆FFT 部208 、および音声合
成部209 は、図1に示す音声波形切り出し部101 、ピッ
チ抽出部102 、対数パワースペクトル標本化部103 、PS
E パラメータ抽出部104 、対数PSE 特性標本化部106 、
指数変換部107 、逆FFT 部108 、および音声合成部109
とそれぞれ同じものである。
【0032】A特性による誤差評価部205 は、PSE パラ
メータ抽出部204 がPSE モデルの係数パラメータを最小
二乗法で推定する際に、誤差二乗和の各項を騒音を測定
する際に用いられる聴覚補正回路(A特性:JIS 規格)
の特性に従って重み付けするものである。これにより、
人間の聴覚に影響の大きい周波数域の誤差が小さくなる
ようにPSE モデルの係数パラメータを決定することがで
きる。
【0033】次ぎに、本実施例の動作を説明する。音声
波形切り出し部201 では、入力された音声波形データに
適当な時間窓をかけて音声データx(n)を切り出す。ピッ
チ抽出部202 では、音声波形切り出し部201 で切り出さ
れた音声データx(n)をフーリエ変換して対数パワースペ
クトルを求め、この対数パワースペクトルを複素逆フー
リエ変換してケプストラムを求め、そのケプストラムの
ピークから基本周波数f0を算出する。
【0034】対数パワースペクトル標本部203 では、図
1に示す対数パワースペクトル標本部103 と同様にし
て、ピッチ抽出部202 で求められた対数パワースペクト
ルをその周波数軸上においてピッチ抽出部202 で算出さ
れた基本周波数f0の整数倍の各位置で標本化し、式(1)
で表されるN個の標本化データ系列y(n)を得る。PSE パ
ラメータ抽出部204 では、対数パワースペクトル標本化
部203 で得られた周波数帯域幅[ 0−F] におけるN個
の標本化データ系列y(n)を用いて、PSE モデルを求め
る。具体的には、式(2) に示すM項余弦級数Y( λ) を
PSE モデルの対数パワースペクトル包絡とし、標本化デ
ータ系列y(n)と対数パワースペクトル包絡Y( λ) との
誤差二乗和Jを最小にする係数パラメータA(i) を求め
る。
【0035】本実施例では、PSE パラメータ抽出部204
でこのパラメータA(i) を求めるときに、A特性による
誤差評価部205 により、あらかじめ誤差二乗和Jの各項
の誤差j(i)を、式(3) に示すように重み付け定数αを用
いて重み付けを行っている。この重み付けは、第1の実
施例の場合と異なり、騒音評価で用いられる騒音計の聴
感補正回路の感度特性(A特性、JIS 規格)に従って行
う。これにより、人間の耳の感度特性を細かく考慮した
特徴パラメータを得ることができる。図8はA特性を示
す。このA特性a(f)は、式(6) の近似式で表すことがで
きる。
【0036】
【数6】 a(f)=7.1F−11.2F2+1.6F3 +0.3F4 [dB] .....(6) F =log(f/1000) =logf−3 ただし、f は周波数(kHz)であり、f =f0*iとして計算
する。ところで、A特性は、感度が10Hz で−70.5d B
程度、2.5kHz で1.3dB程度が最大値となっている。そ
こで、これを利用して、例えば、重み付け定数αを式
(7) で定義する。
【0037】
【数7】α={a(f0*i)+70.4}/10.0 .....(7) 重み付け定数αを式(7) により定義した場合、誤差はA
特性により最大7倍程度の差で耳の感度に合わせた評価
がなされることになる。誤差二乗和Jは式(4)で表され
る。誤差評価部205 では、誤差二乗和Jの各項に対して
このようにA特性に従って重み付けを行い、PSE パラメ
ータ抽出部204 では、その重み付けが行われた誤差二乗
和Jが最小となるPSE モデルの係数パラメータA(i) を
求める。
【0038】対数PSE 特性標本化部206 では、PSE パラ
メータ抽出部204 で求められたPSEモデルの対数パワー
スペクトル包絡Y( λ) がM項余弦級数で表され、零周
波数に関して対称であるので、式(5) で表されるPSE モ
デルの対数パワースペクトル包絡Y( λ) について、−
S/ 2からS/ 2の区間を、例えば、512 点あるいは10
24点で標本化する。これにより、PSE モデルの対数パワ
ースペクトル包絡の標本化データ列が得られる。
【0039】指数変換部207 では、対数PSE 特性標本化
部206 で得られた対数パワースペクトル包絡の各標本値
を直約尺度の標本値に変換し、直約尺度の振幅スペクト
ル包絡特性を得る。この変換は、例えば、各標本値につ
いてその実数部(Real)および虚数部(Image) を用いて20
log|(Real)2 +(Imag)2|を算出することにより実行でき
る。逆FFT 部208 では、指数変換部207 で求められた振
幅スペクトル包絡特性の標本値を実数部とし虚数部を零
として複素逆フーリエ変換し、零位相形のインパルス応
答波形を得る。音声合成部209 では、逆FFT 部208 で得
られたインパルス応答波形をピッチ周期ごとに重ね合わ
せて音声を合成する。
【0040】以上説明したように第2の実施例によれ
ば、高サンプリング周波数の音声データの対数パワーペ
クトル包絡を基本周波数で標本化することにより得た標
本化データ系列を用いて、PSE モデルの対数パワースペ
クトル包絡を最小二乗法により求めるとき、その誤差二
乗和の各項をあらかじめ騒音を測定する際に用いる騒音
計の聴感補正回路の特性に従って重み付けしているの
で、より自然性の高い特徴パラメータを得ることができ
る。
【0041】
【発明の効果】このように本発明によれば、高サンプリ
ングの音声データの対数パワーペクトル包絡を基本周波
数で標本化することにより得た標本化データ系列を用い
て、PSE モデルの対数パワースペクトル包絡を最小二乗
法により求めるとき、その誤差二乗和の各項をあらかじ
め人間の聴覚の周波数特性を考慮して重み付けしている
ので、音声の高周波数域の性質も生かした自然性の高い
特徴パラメータを得ることができる。
【図面の簡単な説明】
【図1】本発明による音声合成装置の第1の実施例の構
成図である。
【図2】図1の音声波形切り出し部において音声波形に
窓をかけて一部を切り出す様子を示す説明図である。
【図3】図1のピッチ抽出部においてケプストラムのピ
ークから基本周波数を算出する様子を示す説明図であ
る。
【図4】図1の対数パワースペクトル標本化部において
PSE モデルの対数パワースペクトル包絡を標本化する様
子を示す説明図である。
【図5】図1の逆FFT 部で得られたインパルス応答波形
の一例を示す図である。
【図6】図1の音声合成部で得られた音声合成波形の一
例を示す図である。
【図7】本発明による音声合成装置の第2の実施例の構
成図である。
【図8】騒音計の聴感補正回路の感度特性を示す図であ
る。
【符号の説明】
101 、201 音声波形切り出し部 102 、202 ピッチ抽出部 103 、203 対数パワースペクトル標本化部 104 、204 PSE パラメータ抽出部 105 、205 誤差評価部 106 、206 対数PSE 特性標本化部 107 、207 指数変換部 108 、208 逆FFT 部 109 、209 音声合成部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声データの対数パワースペクトルをそ
    のケプストラムから求めた基本周波数の整数倍の各位置
    で標本化することにより得た標本化データ系列を用いて
    PSE モデルのパワースペクトル包絡を生成するパワース
    ペクトル包絡生成方法であって、該方法は、 前記標本化データ系列とパワースペクトル包絡との誤差
    二乗和の各項を人間の聴覚の周波数特性に応じて重み付
    けする第1の工程と、 該第1の工程で重み付けされた前記誤差二乗和が最小に
    なる前記PSE モデルの係数パラメータを推定して前記パ
    ワースペクトル包絡を求める第2の工程とを含むことを
    特徴とするパワースペクトル包絡生成方法。
  2. 【請求項2】 請求項1に記載の方法において、前記第
    1の工程は、前記誤差二乗和の各項を低周波数域におけ
    る誤差が高周波数域における誤差より大きくなるように
    重み付けすることを特徴とするパワースペクトル包絡生
    成方法。
  3. 【請求項3】 請求項1に記載の方法において、前記第
    1の工程は、前記誤差二乗和の重み付けを騒音計の聴覚
    補正回路特性に応じて重み付けをすることを特徴とする
    パワースペクトル包絡生成方法。
  4. 【請求項4】 音声データの対数パワースペクトルをそ
    のケプストラムから求めた基本周波数の整数倍の各位置
    で標本化することにより得た標本化データ系列を用いて
    PSE モデルのパワースペクトル包絡を求め、該パワース
    ペクトル包絡からインパルス応答波形を生成して音声を
    合成する音声合成装置であって、該装置は、 前記標本化データ系列とパワースペクトル包絡との誤差
    二乗和の各項を人間の聴覚の周波数特性に応じて重み付
    けする誤差評価手段と、 該誤差評価手段により重み付けされた前記誤差二乗和が
    最小になる前記PSE モデルの係数パラメータを推定して
    前記パワースペクトル包絡を求めるPSE パラメータ生成
    手段とを含むことを特徴とする音声合成装置。
JP10005457A 1998-01-14 1998-01-14 パワースペクトル包絡生成方法および音声合成装置 Pending JPH11202883A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10005457A JPH11202883A (ja) 1998-01-14 1998-01-14 パワースペクトル包絡生成方法および音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10005457A JPH11202883A (ja) 1998-01-14 1998-01-14 パワースペクトル包絡生成方法および音声合成装置

Publications (1)

Publication Number Publication Date
JPH11202883A true JPH11202883A (ja) 1999-07-30

Family

ID=11611764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10005457A Pending JPH11202883A (ja) 1998-01-14 1998-01-14 パワースペクトル包絡生成方法および音声合成装置

Country Status (1)

Country Link
JP (1) JPH11202883A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100863656B1 (ko) * 2006-02-07 2008-10-15 야마하 가부시키가이샤 응답 파형 합성 방법 및 장치와 컴퓨터 판독 가능한 기억매체
US8321208B2 (en) 2007-12-03 2012-11-27 Kabushiki Kaisha Toshiba Speech processing and speech synthesis using a linear combination of bases at peak frequencies for spectral envelope information

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100863656B1 (ko) * 2006-02-07 2008-10-15 야마하 가부시키가이샤 응답 파형 합성 방법 및 장치와 컴퓨터 판독 가능한 기억매체
US8693705B2 (en) 2006-02-07 2014-04-08 Yamaha Corporation Response waveform synthesis method and apparatus
US8321208B2 (en) 2007-12-03 2012-11-27 Kabushiki Kaisha Toshiba Speech processing and speech synthesis using a linear combination of bases at peak frequencies for spectral envelope information

Similar Documents

Publication Publication Date Title
US7792672B2 (en) Method and system for the quick conversion of a voice signal
Erro et al. Voice conversion based on weighted frequency warping
EP1252621B1 (en) System and method for modifying speech signals
JP2763322B2 (ja) 音声処理方法
EP1995723B1 (en) Neuroevolution training system
US6741960B2 (en) Harmonic-noise speech coding algorithm and coder using cepstrum analysis method
JP4520732B2 (ja) 雑音低減装置、および低減方法
KR101378696B1 (ko) 협대역 신호로부터의 상위대역 신호의 결정
JP4764118B2 (ja) 帯域制限オーディオ信号の帯域拡大システム、方法及び媒体
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
JPH10124088A (ja) 音声帯域幅拡張装置及び方法
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
Hwang et al. LP-WaveNet: Linear prediction-based WaveNet speech synthesis
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
JP4382808B2 (ja) 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム
JP2013057735A (ja) 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
JP2798003B2 (ja) 音声帯域拡大装置および音声帯域拡大方法
JPH10124089A (ja) 音声信号処理装置及び方法、並びに、音声帯域幅拡張装置及び方法
JP2004012584A (ja) 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
Srivastava Fundamentals of linear prediction
JPH11202883A (ja) パワースペクトル包絡生成方法および音声合成装置
CN112201261A (zh) 基于线性滤波的频带扩展方法、装置及会议终端系统
Sun Voice quality conversion in TD-PSOLA speech synthesis
KR20050113744A (ko) 음성 코드북 구축 시스템 및 방법
Shiga et al. Estimating detailed spectral envelopes using articulatory clustering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040831

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070206