JPH07261798A - 音声分析合成装置 - Google Patents

音声分析合成装置

Info

Publication number
JPH07261798A
JPH07261798A JP6050788A JP5078894A JPH07261798A JP H07261798 A JPH07261798 A JP H07261798A JP 6050788 A JP6050788 A JP 6050788A JP 5078894 A JP5078894 A JP 5078894A JP H07261798 A JPH07261798 A JP H07261798A
Authority
JP
Japan
Prior art keywords
phase
amplitude
residual
analysis
harmonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6050788A
Other languages
English (en)
Inventor
Seiichi Uchida
誠一 内田
Tomoki Hamagami
知樹 濱上
Mitsuo Furumura
光男 古村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP6050788A priority Critical patent/JPH07261798A/ja
Publication of JPH07261798A publication Critical patent/JPH07261798A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は音声信号の符号情報から元の音声信
号を復元する音声分析合成装置において極めて肉声に近
い音韻性及び音色を実現することを目的とする。 【構成】 音声信号から線形予測分析により信号のスペ
クトルと、スペクトルを取り除いて得られる残差波形の
信号に分離する線形予測分析部2を有する音声分析合成
装置に、残差波形を基本波と高調波に分解する場合に、
各調波に対して周波数が高くなるほど時間軸上の分析窓
を狭くしかつ時間と周波数との不確定性を最小とする関
数により残差波形を変換して、各調波の位相と振幅を抽
出する位相・振幅抽出用残差分析部3を設ける。位相・
振幅導出残差分析部3で得られた位相と振幅を用いて、
音源生成部5は、各調波を再現し、再現された各調波を
時間軸上で加算して残差信号を形成し、この残差信号と
線形予測分析による信号を加算して音声の合成音を形成
させる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声信号を符号化し符
号情報から元の音声信号を復元する音声分析合成装置に
関する。
【0002】
【従来の技術】従来の音声合成技術では、人間の音声を
直接利用せず、人間の音声のパラメータを抽出し、その
パラメータを制御することによって人工的に音声信号を
形成する音声分析合成方式が知られている。図8は従来
の音声分析合成装置の例を説明する図である。図8にお
いて、人間の自然音声を例えば線形予測分析部100に
入力し、線形予測分析部100では自然音声について過
去の音声信号の数サンプリングの値を線形結合して得た
予測値と実測値間の誤差を最小にすることにより求めた
音声のスペクトルパラメータ(線形予測係数)と最小化
された誤差である残差信号とに分離する。前記残差信号
は残差分析部101に入力され、残差分析部101にて
残差波形から基本周波数をパワーを音源情報パラメータ
として抽出する。抽出された前記基本周波数とパワーを
音源モデル102、例えばPIFM音源モデル(Pul
se source model Interpola
ted by Frequency Modulati
on)に入力し、音源信号を形成する。
【0003】ここで、PIFM音源モデルについて、図
9を参照して説明する。PIFM音源モデルは、前記パ
ルス波形音源モデルにおける基本波h=1とその高調波
h=2、3、…、Hを全ての高調波が基本波に0位相同
期させて基本周波数とパワー情報を用いて合成しそれら
全ての調波を時間軸上に足し合わせると、(b)に示す
ように音源信号を再現する。
【0004】前記音源モデルにて得られる合成された音
源信号と、前記予測分析部で分析し求めたスペクトルパ
ラメータとを声道フィルタ103に入力することで、合
成音が得られる。
【0005】
【発明が解決しようとする課題】従来技術では、従来音
響心理の分野で常識とされている「定常音の知覚は、パ
ワースペクトル(統計的性質)の特徴が支配的であり、
波形形状すなわち位相情報(瞬時的性質)は聴覚には影
響しない」との仮説下では、残差波形を分析して得る音
源情報パラメータに基本周波数とパワーを用いること
で、良好な合成音声が得られるはずとされてきた。
【0006】しかしながら、従来の音声分析合成装置で
得た合成音声は、自然音声と比較すると音色に明らかな
違いが認められる。この原因は未だ明らかになっていな
いが、従来技術のような基本周波数とパワーの音源情報
パラメータだけによる残差波形の近似では、音色の再現
に限界がきている。以上の問題を解決する方法として、
新たなパラメータを用いて残差波形の波形形状を再現で
きるような音源モデルを形成することが考えられる。そ
こで、波形の形状を表すパラメータとして位相が考えら
れるが、フーリエ変換等によって得られる位相は非常に
不安定であり、音源モデルに適用しても、補間などの制
御が行えないので、合成に必要なパラメータ数の増加や
その音声分析合成法を規則合成装置に適用した時に柔軟
性に欠けるという問題がある。
【0007】したがって、本発明は、上記問題に鑑み、
合成音声を音色の面から自然音色に近づけ、またパラメ
ータ量の低減や補間などの制御に耐え得る安定性を持っ
たパラメータを用いる音声分析合成装置を提供るするこ
とを目的とする。
【0008】
【課題を解決するための手段】第1の発明は、前記課題
を解決するために、音声を検出する検出部と、音声信号
を予測分析して得られた予測信号と前記音声信号との残
差信号に分離する予測分析部と、前記残差信号を基本波
と高調波に変換するときに、各調波の周波数が高くなる
ほど時間軸上で分析窓を狭くする関数を用いて前記残差
波形を変換して、該各調波の位相と振幅を抽出する位相
・振幅抽出用残差分析部と、該位相・振幅抽出用残差分
析部で得られた位相と振幅を用いて音源を形成する音源
生成部とを備える音声分析合成装置を提供する。
【0009】また、前記位相・振幅抽出用残差分析部
は、前記残差信号を基本波と高調波に変換するときに、
各調波の周波数が高くなるほど時間軸上で分析窓を狭く
し、時間と周波数領域の両方でコンパクトサポートを持
つ関数を用いて前記残差波形を変換して、該各調波の位
相と振幅を抽出する。さらにより効果的には、前記位相
・振幅抽出用残差分析部は、残差波形に対してウェーブ
レット変換を行って得られるウェーブレット変換分析値
の実部と虚部を形成するウェーブレット変換分析値形成
部と、振幅及ぶ位相を未知パラメータとした正弦波又は
余弦波である各調波が合成されて形成される残差波形に
対してウェーバレット変換した結果の実部又は虚部を振
幅と位相の余弦の積又は振幅と位相の正弦の積を未知数
として展開した一次連立方程式の展開係数として形成す
る展開係数生成部と、前記エェーブレット変換分析値及
び前記展開係数を入力して一次連立方程式を解き前記振
幅と位相の余弦の積又は正弦の積の未知数を求める一次
連立方程式の解形成部と、前記一次連立方程式の解形成
部で求められた前記振幅と位相の余弦の積又振幅と位相
の正弦の積の未知数がら振幅及び位相を求める位相・振
幅抽出部とを備える。
【0010】第2の発明は、前記課題を解決するため
に、音声を検出する検出部と、音声信号を予測分析して
得られた予測信号と前記音声信号との残差信号に分離す
る予測分析部と、前記残差信号を基本波と高調波に変換
し、位相と振幅を抽出する位相・振幅抽出用残差分析部
と、該位相・振幅抽出用残差分析部で得られた各調波の
位相と振幅の中から時間軸において各調波が低周波数域
では高周波数域に比較して時間間隔を等しくあるいは長
い間隔で、また必要に応じて周波数軸においては各調波
が低周波数域では高周波数域に比較して周波数間隔を等
しくあるいは短い間隔で位相及び振幅を抽出する選択抽
出部と、前記選択抽出部にて抽出された各調波の位相及
び振幅を補間した位相及び振幅を用いて音源を形成させ
る音源生成部とを備える音声分析合成装置を提供する。
【0011】
【作用】本発明の音声分析合成装置によれば、音声が検
出され、検出された音声信号が予測分析して得られた予
測信号と前記音声信号との残差信号に分離され、前記残
差信号が基本波と高調波に変換されるときに、各調波の
周波数が高くなるほど時間軸上で分析窓を狭くする関数
を用いて前記残差波形が変換されて、該各調波の位相と
振幅が抽出され、抽出された位相と振幅を用いて音源が
形成されることにより、前記残差波形を分析することで
得られる基本周波数情報と振幅情報からだけでは再現で
きなかった前記残差波形の波形形状まで近似した音源信
号が形成できる。このため、広く用いられている線形予
測法などに基づく音声分析合成装置の音源合成部に本発
明を導入することにより、より自然な音色を得ることが
可能となる。
【0012】
【実施例】本発明の3通りの実施例についてを図面を参
照して説明する。最初に本発明をボコーダタイプの音声
分析合成装置の音源部分に利用する基本的な第1の実施
例を説明する。次に本発明を音声の規則合成装置に利用
する応用的な第2の実施例を説明する。最後に本発明を
直接音声波形に適応した場合の音声分析合成装置の第3
の実施例について説明する。
【0013】図1は本発明の第1の実施例に係るボコー
ダタイプの音声分析合成装置(例として線形予測分析ボ
コーダに対する適用)の概略を示すブロック図である。
本図に示す音声分析合成装置は、人間の音声を直接入力
するマイクロフォン1を具備し、該マイクロフォン1か
らの音声信号を、ここでは例として従来の技術の項で述
べた線形予測分析法を行なう線形予測分析部2に入力す
ることにより、前記音声信号をスペクトル情報である線
形予測係数と、前記音声信号からスペクトル情報を取り
除いた結果得られる残差波形に分離する。線形予測分析
部2に接続される位相・振幅抽出用残差分析部3は、前
記残差波形を入力とし後述する分析方法により各調波の
位相と振幅を抽出する。位相・振幅抽出用残差分析部3
に接続される選択抽出部4では、前記各調波の位相と振
幅を入力として、音源合成に必要な前記位相と振幅を表
すパラメータの数を低減させるために、聴覚特性などを
基準として必要なパラメータだけを選択して抽出する。
選択抽出部4に接続される音源生成部5ではまず選択抽
出された位相と振幅パラメータを基に時間領域及び周波
数領域で補間を行い、その後に、後述する音源合成方法
により音源信号を合成する。音源生成部5に接続する声
道フィルタ6は、線形予測分析部2で得られた線形予測
係数を用いてフィルタを形成し前記合成音源をその入力
として音声を合成しスピーカ7に出力する。
【0014】以上説明した分析合成装置の音源生成部5
では、音源波形を構成する各調波の位相および振幅すな
わち各調波の波形形状に対して制御を行なうので、得ら
れる合成波形の波形形状は従来の方法によるものに比べ
て極めて残差波形に近く、その結果前記合成音源を用い
て最終的に得られる合成音声はほぼ肉声と等しい自然な
音色が実現される。
【0015】以下に本願の特徴である位相・振幅抽出用
残差分析部3、選択抽出部4及び音源生成部5の詳細に
ついて説明する。まず、位相・振幅抽出用残差分析部3
における各調波の位相と振幅の抽出法について説明す
る。実在する任意の波形を基本波とその高調波に直接分
解する方法として短時間フーリエ変換を利用することが
考えられる。しかし、短時間フーリエ変換で得られる位
相スペクトルをそのまま三角関数波の位相として取り扱
っても、得られる各高調波は安定した三角関数波にはな
らない。この原因は、短時間フーリエ変換によって得ら
れる位相は分析窓内の変動を平均化したものなので、全
周波数帯域において同一の分析窓幅では、音声のように
非定常変動をする波形からは特に高周波数域において瞬
時的な位相を抽出できないからであると考察できる。
【0016】本発明ではこの問題を、分析対象とする周
波数域が高くなるほど、時間軸上での分析窓幅が狭くな
る変換方法により解決する。この特性を持つ変換方法と
ては種々の方法の利用が提案されているが、本発明の目
的に最適な方法としてウェーブレット変換が挙げられ
る。図2は図1の位相・振幅抽出用残差分析部3の構成
を示す図である。図2に示すように位相・振幅抽出用残
差分析部3には残差波形を入力するウェーブレット変換
分析値形成部31が設けられる。ウェーブレット変換分
析値形成部31のウェーブレット変換は、基底関数とし
てガボール(Gabor)関数などの時間−周波数領域
の両方でコンパクトサポートを持つ関数(基本ウェーブ
レットと呼ぶ。以後ψ(t)と表す。)をスケール変
換、時間シフトした関数群を用いる。ウェーブレット変
換における基底関数の形成を次式に示す。
【0017】
【数1】
【0018】ここでαはスケール変換の特性を決定する
1以上の定数である。αに関わる整数n(1≦n≦N)
を変化させることにより、時間軸上では局在性が変化
し、また周波数軸上では不確定性原理により時間軸上と
は逆に局在性が変化し、同時にその中心周波数も変化す
る。このスケール変換により生成した基底関数群を用い
ることで、ウェーブレット変換は高い周波数帯域では高
時間分解能−低周波数分解能という特性になり、逆に低
い周波数帯域では低時間分解能−高周波数分解能という
特性になり、多重解像度が実現される。すなわちウェー
ブレット変換は各周波数帯域に対し適当な窓幅で分析を
するので、短時間フーリエ変換に比べ、より正確に非定
常的変化を観測できる。
【0019】任意の2乗可積分関数f(t)(実際の残
差波形)の、時刻j、スケール(周波数に比例)nにお
けるウェーブレット変換は次のように表される。
【0020】
【数2】
【0021】また、ウェーブレット変換分析値の実部お
よび虚部は、それぞれ、
【0022】
【数3】
【0023】となる。基本ウェーブレットとして用いら
れる、Gabor関数は次式で表される。
【0024】
【数4】
【0025】Gabor関数は時間と周波数に関する不
確定性が最小の関数であり、この意味で時間−周波数空
間において最も局在性が良い関数である。前述のよう
に、時間領域及び周波数領域の両方でコンパクトサポー
トを持つ関数であれば、Gabor関数以外でも用いる
ことが可能である。その例としては、ラプラシアン−ガ
ウシアン(Laplacian−Gaussian)関
数等がある。さらに、基本ウェーブレットのもつ特性と
しては、その関数をFIR(Finite Impul
se Response)フィルタのインパルスレスポ
ンスと見なした時に線形位相特性を持つものが望ましい
(ちなみに、Gabor関数は線形位相特性をもつ)。
【0026】次に残差波形のモデル化について説明す
る。位相・振幅抽出用検出用残差分析部3には展開係数
形成部32が設けられ、以下に説明される。残差波形に
対し、「ウェーブレット変換の分析窓内では、各調波の
周波数と振幅は一定と見倣せる」と仮定する。すべての
周波数帯域において一定の窓幅を用いた分析法と違いウ
ェーブレット変換は周波数帯域に適した窓幅で分析する
ので、上記仮定によって生じる誤差は短時間フーリエ変
換に基づく方法よりも小さくなる。
【0027】上記仮定が成り立つとすれば、残差波形f
(t)は時刻jの近傍でそれぞれ時不変の周波数を持つ
H本の調波からなる波形として次式でモデル化される。
【0028】
【数5】
【0029】またωh は、第h次調波の角周波数であ
り、
【0030】
【数6】
【0031】と表される。ここで各調波間の周波数間隔
ω1 /(2π)があまり大きな値となると、(4)式で
表されるモデルと実現象間の歪みが大きくなるので注意
する。ウェーブレット変換によって得られる位相は例え
ばGabor関数の位相であるから、たとえ瞬時的な位
相を得ることができるとしても、そのまま正弦波又は余
弦波で表される各調波の位相とすることはできない。よ
って、今まで与えた式を用いて、ウェーブレット変換で
得られるGabor関数の振幅、位相を、基本波とその
高調波すなわち調波構造に分解する。まず(4)式で表
される残差の調波構造モデルを(2)式に代入しウェー
ブレット変換する。
【0032】
【数7】
【0033】(6)式右辺の(ωh (t−j)+θh
を、既知のωh(t−j)と未知のθhに分解し、さらに
積分を行なうことで得られた結果をそれぞれ実部および
虚部について整理すると
【0034】
【数8】
【0035】となる。ここで、xh,yhはそれぞれ、
【0036】
【数9】
【0037】のように未知数項Ah,θhをまとめた1次
変数である。このように展開係数Cn, hおよびC′
n,hは、以下のように第nスケール成分を分解する基底
関数の中心角周波数ωnと第h次高調波の角周波数ωh
差に逆比例する係数として得られる。
【0038】
【数10】
【0039】次に位相・振幅抽出用残差分析部3にはウ
ェーブレット変換分析値形成部31からの分析値、さら
に展開係数形成部32から展開係数を入力する一次連立
方程式の解形成部33が設けられ、以下にこれを説明す
る。(7),(8)式において、hに関する和を展開
し、さらに各スケールnに対して成り立つ方程式を連立
させると時刻jでの状態が以下に示す行列で表される。
【0040】
【数11】
【0041】よって(13),(14)式はそれぞれH
個のxh,yhを未知数とする連立1次方程式であり、H
≦Nであれば、従来技術の特異値分解法を用いて、解を
得ることができる。なお、実際に解くときには、ウェー
ブレット変換を更に過剰基底にすることで(13),
(14)式の連立方程式の方程式数Nを増し(H≪
N)、より安定した解を得ることができるようにする。
【0042】ウェーブレット分析値形成部31において
残差波形に対しウェーブレット変換(2)を行ない左
辺、
【0043】
【数12】
【0044】を計算する時に、残差波形のサンプリング
周波数の低いことに起因して(2)式内の積分の精度が
十分でない場合、残差波形をオーバーサンプリングする
ことにより時間軸上で補間しその後にウェーブレット変
換を行なう。また、位相・振幅抽出用残差分析部3には
一次連立方程式の解形成部33により(13),(1
4)式を解いて得たxh,yhを用いて、Ah,θhを次式
によって得る位相・振幅抽出部34が設けられる。
【0045】
【数13】
【0046】この(15)式を各hに対して解くことに
より、時刻jにおけるすべての調波の位相と振幅が計算
される。以下に選択抽出部4における処理を説明する。
選択抽出部4では前記位相・振幅抽出用残差分析部3に
より形成された前記各調波の位相と振幅を表すパラメー
タの中から、時間領域及び周波数領域の両方において、
聴覚的特性等に基づく基準を用いて選択的にパラメータ
を抽出し、抽出されなかったパラメータを棄却すること
で、音源生成部5において音源合成に必要なパラメータ
の数を低減する。選択抽出の処理は時間領域で、また必
要に応じて周波数領域で行われる。
【0047】時間領域における選択抽出は、各調波の位
相と振幅を時間軸上で各調波に対してすべて等しい時間
間隔、もしくは低周波数領域の調波は高周波数領域の調
波に比べ長い時間間隔で抽出を行うことにより実現され
る。なお、前記時間領域における選択抽出を行う場合、
前記位相・振幅用残差分析部3における処理は前記選択
抽出が各調波に対しすべて等しい時間間隔で行われる場
合はその時間間隔、また周波数に対応して時間間隔を変
えて行われる場合はその時間間隔のうち最も短い時間間
隔で行えば良く、すべての時点jにおいて処理する必要
はない。
【0048】周波数領域における選択抽出は、周波数軸
上で一定の周波数間隔、もしくは高周波数領域では低周
波数領域に比べて広い周波数間隔で調波を選択し、その
調波の位相と振幅を抽出する(図5)。次に、音源生成
部5における、前記位相を振幅を用いた音源の合成法を
説明する。音源生成部5では、位相・振幅抽出用残差分
析部3において形成された各調波の振幅と位相が選択抽
出部4により選択抽出されて入力される。まず以下に選
択抽出部4おける選択抽出が、時間領域ですべての調波
に対して一定時間間隔で行われ、かつ周波数領域におい
て選択抽出が行われなかった場合を説明する。この場
合、音源生成部5には選択抽出部4で選択抽出された調
波の位相と振幅が一定時間間隔で入力され、その間(以
後、合成フレームと呼ぶ)の各々の調波を時間軸上での
補間により合成し、それらを加算することにより音源波
形を形成する。以下に音源生成部4の特徴である補間に
よる各調波の合成法と、合成された前記調波を用いた音
源合成法を説明する。
【0049】まず時間軸上での補間による、第h次高調
波の合成法について説明する。いま、時刻j1,j2の2
点において第h次高調波の位相θh1,θh2と振幅Ah
1,Ah2が位相・振幅抽出用残差分析部3により計算
されたとして、それらを用いてその間の位相変調および
振幅変調を施した三角関数波形を補間により形成するこ
とを考える。補間操作は位相補間と振幅補間に分離して
考える。
【0050】2点間の位相補間によって、周波数変調す
る第h次高調波の位相変化を表す関数θh(t)を形成
する。θh(t)を決定するために次の4つの境界条件
を満たすθh(t)を与える。 〔位相の連続性に関する境界条件〕
【0051】
【数14】
【0052】〔(角)周波数の連続性に関する境界条
件〕
【0053】
【数15】
【0054】これらの4条件を同時に満たすためには、
位相補間式θh(t)は少なくとも3次方程式である必
要がある。問題を解くためには、これらの条件をそれぞ
【0055】
【数16】
【0056】に代入し、a,b,c,dを算出すればよ
い。なお、以上に説明した方法は2点間のみの境界条件
から補間関数を与えるものであるが、前後何点かの関係
を考慮する補間法(例えばスプライン補間法)を用いる
ことも可能である。振幅補間は、次の方法が最も簡易で
ある。
【0057】
【数17】
【0058】(20)式の振幅補間法は2点間で1次補
間をしているだけであるが、位相補間と同様にスプライ
ン補間法や調波のパワー分布の特性を用いた方法の適用
も可能である。以上(18),(20)式より得られる
結果を用いて、区間〔j1,j2〕で補間により合成され
る第h次高調波の波形fh(t)は
【0059】
【数18】
【0060】となる。図3は本発明を分析合成器に適用
した結果得られた調波構造の一部(原波形:/a/の定
常部)を示す図である。本図に示されるように、三角関
数波で表される調波が得られているのがわかる。(2
1)式により合成フレーム内で合成されたH本の各調波
波形から音源を合成する方法を説明する。(21)式に
おいて形成されたfh(t)(1≦h≦H)を用い、次
式により合成フレーム内の合成音源波形
【0061】
【数19】
【0062】を合成する。
【0063】
【数20】
【0064】ここで残差分析部3の項で前述した理由に
より、オーバーサンプリングされた残差波形を基に合成
音源
【0065】
【数21】
【0066】を形成した場合には、ここで原波形の持つ
サンプリング周波数に
【0067】
【数22】
【0068】をダウンサンプリングする必要がある。図
4は本発明を音声の分析合成器として実施した場合に得
られた音源波形と、残差波形との比較(音声/a/定常
部)を示す図である。本図より本発明により合成される
音源波形は、図9に示したPIFM音源モデルで得られ
る音源波形に比べ、残差波形の持つ波形形状をかなりの
精度で近似したものが得られることがわかる。さらに音
源生成部5より出力された音源波形を声道フィルタ6に
入力することで得られた合成音声は、有声部無声部に関
わらず音韻性だけなく音色も原音声とほとんど同じもの
が得られた。
【0069】以上の説明は、選択抽出部4における選択
抽出が時間領域ですべての調波に対し一定間隔で行われ
た場合についてであってが、以上の説明において、各調
波hに対する合成フレーム長を独立に設定することによ
り、周波数に対応して、選択抽出の時間間隔を変化させ
た場合にも同様の議論が可能である。次に選択抽出部4
において、周波数領域での選択抽出が行われた場合の音
源生成部5での補間について説明する。図5は周波数軸
上における選択抽出及び補間の概念を表す図である。
【0070】
【数23】
【0071】3通りの方法が例としてあげられる。第一
の方法は前記1調波分のパラメータを用いて(18)式
で決定された第h次高調波と近似によって形成すべきそ
の近傍の(2k−1)本の第(h+k)次高調波(−K
≦k≦K)が仮想的な基本波に0位相同期していると見
做すことに基づく。
【0072】
【数24】
【0073】第二の方法は、位相・振幅抽出用残差分析
部3によって合成フレーム境界j1、j2で与えられる第
h次高調波の位相θh1とθh2および第(h+2K)次
高調波の位相θh+2K1とθh+2K2を用い、各境界時刻j
1、j2においてそれぞれ第h次−第(h+2K)次高調
波間で線形補間し、その補間によって得た周波数軸上に
おける位相変化に基づいて第h+k次高調波(0<k<
2K)の境界時刻での位相を求め、その位相を用いて
(18)式によって
【0074】
【数25】
【0075】を形成する方法である。第三の方法は、第
二の方法で示した線形補間法をスプライン等の高次補間
法に拡張するものである。周波数軸上での振幅変化の補
間には、前記位相の3通りの補間方法のうちの第二、第
三の方法と等価な方法、すなわち線形補間法とスプライ
ン等の高次補間法を適用可能である。線形補間法を用い
【0076】
【数26】
【0077】を求める方法を説明する。時刻j1におい
て位相・振幅抽出用残差分析部3の出力としてAh1、
h+K2が与えれ、同様に時刻j2においてAk2、Ah+K
2が与えられているとすると、次の周波数軸上での直線
補間式により、その間の各調波の振幅値を推定する。
【0078】
【数27】
【0079】−K≦k≦0のときは(24),(25)
式においてAh+2k1,Ah+2k2の代わりにAh-2k1とA
h-2k2を用いればよい。その後で(24),(25)式
を(20)式に代入することにより、第(h−K)次高
調波から第(h+K)次高調波までの、
【0080】
【数28】
【0081】を計算する。スプライン等の高次補間法を
用いて周波数軸上で振幅を補間する方法は、(24)、
(25)式で示した線形補間法をスプライン等の高次補
間法に拡張すればよい。なお、選択抽出部4において、
周波数軸上での補間間隔に比例するKを周波数に比例し
て増加すれば、前述の聴覚特性に合致したパラメータ数
の低減が行われる。
【0082】以上の説明は線形予測分析法に基づいた音
声の分析合成装置について行なったが、線形予測分析部
2を自己回帰移動平均分析モデル等にしても全く同様に
本発明を実施できる。図6は本発明である音声分析合成
法を音声規則合成装置に導入した場合の第2の実施例の
概略を示すブロック図である。本図は、文章などを入力
として任意の音声を合成できる音声規則合成装置におい
て、本発明の音声分析合成装置を導入した図である。本
図に示す音声規則合成装置は、発音情報入力部11を具
備する。この発音情報入力部11は、入力された合成す
べき文章を解析し、音声合成処理に必要なアクセントの
情報、ポーズ、母音の無声音化などといった発音情報を
加えた音韻記号列に変換する。この発音情報入力部11
に接続される音韻継続時間長生成部12では、発音情報
入力部11によって生成された前記音韻記号列につい
て、母音部エネルギー重心点間時間長を与えるリズム規
則により音声継続時間長を制御する。この音韻継続時間
長生成部12に接続される音源振幅パターン生成部13
では音韻継続時間長生成部12のリズム規則により与え
られる母音部エネルギー重心点間時間長を守るように音
声のパワーパターンをパワー規則により決定する。さら
に音声継続時間長生成部12に接続されるピッチ(基本
周波数の逆数)パターン生成部14では、各アクセント
句における単音節に相当する韻律の単位であるモーラの
含まれている個数、およびそのアクセント句のアクセン
ト型から、点ピッチパターンを決める韻律制御規則によ
りピッチパターンを形成し、そのピッチパターンを補間
して連続ピッチパターンを生成する。これらの音源振幅
パターン生成部13及びピッチパターン生成部14に接
続される音源生成部15は、前記パワーパターン、前記
連続ピッチパターン、さらに後述する調波の位相と振幅
パターン生成部22により与えられる各調波の位相情報
と振幅情報を用いることで音源波形を生成する。前記音
韻継続時間長生成部12に接続されるスペクトルパター
ン生成部16では、VCV(母音/子音/母音)音韻連
鎖のスペクトル情報を音韻結合規則により接続し、合成
すべき音声の(連続的な)スペクトルパターンを形成す
る。これらの音源生成部15およびスペクトルパターン
生成部16に接続される音声合成器17では前記音源波
形と前記スペクトルパターンから合成音声を作成しスピ
ーカ18に出力する。
【0083】さらに、本図で示した音声規則合成装置
は、人間が発話した音声合成基本単位を入力するマイク
ロフォン19と、該マイクロフォン19からの音声信号
を入力し従来の技術の項で述べた線形予測分析法により
人間が発話した音声を分析する線形予測分析部20と、
線形予測分析部20によって形成された残差波形を入力
し、前述した各調波の位相情報と振幅情報を形成する残
差分析部21を具備する。この残差分析部21は図1に
おける位相・振幅抽出用残差分析部3と等価である。残
差分析部21より形成された前記位相情報と前記振幅情
報は、マイクロフォン19に入力された音声合成基本単
位に対する規則としてデータベース23に蓄えられる。
音韻継続時間長生成部12に接続される調波の位相と振
幅パターン生成部22では、音韻継続時間長生成部12
より入力される音韻記号列によって調波の位相と振幅パ
ターンデータベース23を駆動し、各調波の位相と振幅
の基本パターンを出力する。調波の位相と振幅パターン
生成部22に接続される音源生成部15では、ピッチパ
ターン生成部14より入力されるピッチパターンを用い
て前記調波の位相と振幅パターンを制御し、その結果を
用いて各調波を合成する。さらに音源生成部15では合
成された各調波を用いて基本的な音源波形を合成し、そ
の後で音源振幅パターン生成部13から音源生成部15
に入力される音源振幅パターンにより、波形全体として
の振幅制御をおこなうことで音源を形成する。音源合成
部15は図1における音源生成部5に対応する。
【0084】以上の処理により得られた音源波形を用い
ることで従来の音源モデル等を用いた方法に比べ、得ら
れる規則合成音声の音韻性および音色は極めて自然性が
高いものとなる。第2実施例においても線形予測分析法
に基づいた装置を用いて説明したが、分析法として自己
回帰移動平均分析モデルなどを使用しても同様の装置が
実現できる。
【0085】図7は、本発明の第3の実施例に係る音声
分析合成装置の概略であってボコーダタイプでないもの
を示すブロック図である。本図に示す音声分析合成装置
は、人間の音声を直接入力するマイクロフォン201を
具備し、該マイクロフォン201からの音声信号を、音
声波形分析部202に入力し、前記音声信号を各調波に
分解し、位相と振幅パラメータを抽出する。音声波形分
析部202は分析の対象を残差波形ではなく音声信号と
する以外は図1における位相・振幅抽出用残差分析部3
と等価である。音声波形分析部202に接続される音声
波形合成部203では、入力された各調波の前記位相と
前記振幅パラメータを元に音声波形を再合成しスピーカ
204に出力する。音声波形合成部203も合成の対象
を音源波形ではなく音声信号とする点以外は図1におけ
る音源生成部5と等価である。
【0086】
【発明の効果】以上説明したように、本発明によれば、
前記残差信号が基本波と高調波に変換されるときに、各
調波の周波数が高くなるほど時間軸上で分析窓を狭くす
る関数を用いて前記残差波形が変換されて、該各調波の
位相と振幅が抽出され、抽出された位相と振幅を用いて
音源が形成されるので、波形レベルで残差信号を精度良
く近似した音源信号が得られ、この効果により従来の音
声合成器の合成音声の品質をより自然な音色に近づける
ことができる。対象とする信号を残差信号ではなく音声
信号そのものとしても同様の効果を持つ音声分析合成装
置を実現することが可能である。また、本発明では安定
した音源情報パラメータとして、位相及び振幅が得られ
るので、パラメータ量の低減や補間などの制御が可能と
なった。
【図面の簡単な説明】
【図1】本発明の第1の実施例に係るボコーダタイプの
音声分析合成装置(例として線形予測分析ボコーダに対
する適用)の概略を示すブロック図である。
【図2】図1の位相・振幅抽出用残差分析部3の構成ブ
ロックを示す図である。
【図3】本発明の分析合成器に適用した結果得られた調
波構造の一部(原波形:/a/の定常部)を示す図であ
る。
【図4】本発明を音声の分析合成器として実施した場合
に得られた音源波形と残差波形との比較(音声/a/定
常部)を示す図である。
【図5】周波数軸上での各調波の位相と振幅パラメータ
の選択抽出を説明する図である。
【図6】本発明である音声分析合成装置を音声規則合成
装置に導入した場合の第2の実施例の概略を示すブロッ
ク図である。
【図7】本発明の第3の実施例に係るボコーダタイプで
ない音声分析合成装置の概略を示すブロック図である。
【図8】従来の音声分析合成装置の例を説明する図であ
る。
【図9】従来の音源合成法であるPIFM音源モデルに
よる残差波形の再合成を説明する図である。
【符号の説明】
1…マイクロフォン 2…線形予測分析部 3…位相・振幅抽出用残差分析部 4…音源生成部 5…声道フィルタ 6…スピーカ 11…音声情報入力部 12…音韻継続時間長生成部 13…音源振幅パターン生成部 14…ピッチパターン生成部 15…音声合成器 18…スピーカ 19…マイクロフォン 20…線形予測分析部 21…残差分析部 22…調波の位相および振幅パターン生成部 23…調波の位相及び振幅規則データベース 31…ウェーブレット変換分析形成部 32…展開係数形成部 33…一次連立方程式の解形成部 34…位相・振幅抽出部 100…線形予測分析部 101…残差分析部 103…音源モデル 104…声道フィルタ 201…マイクロフォン 202…音声波形分析部 203…音声波形合成部 204…スピーカ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声を検出する検出部と、音声信号を予
    測分析して得られた予測信号と前記音声信号との残差信
    号に分離する予測分析部と、 前記残差信号を基本波と高調波に変換するときに、各調
    波の周波数が高くなるほど時間軸上で分析窓を狭くする
    関数を用いて前記残差波形を変換して、該各調波の位相
    と振幅を抽出する位相・振幅抽出用残差分析部と、 該位相・振幅抽出用残差分析部で得られた位相と振幅を
    用いて音源を形成する音源生成部と、 を備えたことを特徴とする音声分析合成装置。
  2. 【請求項2】 前記位相・振幅抽出用残差分析部は、前
    記残差信号を基本波と高調波に変換するときに、各調波
    の周波数が高くなるほど時間軸上で分析窓を狭くし、時
    間と周波数領域の両方でコンパクトサポートを持つ関数
    を用いて前記残差波形を変換して、該各調波の位相と振
    幅を抽出することを特徴とした請求項1に記載の音声分
    析合成装置。
  3. 【請求項3】 前記位相・振幅抽出用残差分析部は、残
    差波形に対してウェーブレット変換を行って得られるウ
    ェーブレット変換分析値の実部と虚部を形成するウェー
    ブレット変換分析値形成部と、 振幅及ぶ位相を未知パラメータとした正弦波又は余弦波
    である各調波が合成されて形成される残差波形に対して
    ウェーブレット変換した結果の実部又は虚部を振幅と位
    相の余弦の積又は振幅と位相の正弦の積を未知数として
    展開した一次連立方程式の展開係数として形成する展開
    係数生成部と、 前記ウェーブレット変換分析値及び前記展開係数を入力
    して一次連立方程式を解き前記振幅と位相の余弦の積又
    は正弦の積の未知数を求める一次連立方程式の解形成部
    と、 前記一次連立方程式の解形成部で求められた前記振幅と
    位相の余弦の積又振幅と位相の正弦の積の未知数から振
    幅及び位相を求める位相・振幅抽出部と、 を備えることを特徴とする請求項1又は請求項2に記載
    の音声分析合成装置。
  4. 【請求項4】 音声を検出する検出部と、音声信号を予
    測分析して得られた予測信号と前記音声信号との残差信
    号に分離する予測分析部と、 前記残差信号を基本波と高調波に変換し、位相と振幅を
    抽出する位相・振幅抽出用残差分析部と、 該位相・振幅抽出用残差分析部で得られた各調波の位相
    と振幅の中から時間軸において各調波が低周波数域では
    高周波数域に比較して時間間隔を等しくあるいは長い間
    隔で、また必要に応じて周波数軸においては各調波が低
    周波数域では高周波数域に比較して周波数間隔を等しく
    あるいは短い間隔で位相及び振幅を抽出する選択抽出部
    と、 前記選択抽出部にて抽出された各調波の位相及び振幅を
    補間した位相及び振幅を用いて音源を形成させる音源生
    成部と、 を備えることを特徴とする音声合成装置。
JP6050788A 1994-03-22 1994-03-22 音声分析合成装置 Pending JPH07261798A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6050788A JPH07261798A (ja) 1994-03-22 1994-03-22 音声分析合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6050788A JPH07261798A (ja) 1994-03-22 1994-03-22 音声分析合成装置

Publications (1)

Publication Number Publication Date
JPH07261798A true JPH07261798A (ja) 1995-10-13

Family

ID=12868558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6050788A Pending JPH07261798A (ja) 1994-03-22 1994-03-22 音声分析合成装置

Country Status (1)

Country Link
JP (1) JPH07261798A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002328697A (ja) * 2001-04-26 2002-11-15 Sony Corp 信号処理装置及び信号処理方法
EP1343143A1 (en) * 2000-12-14 2003-09-10 Sony Corporation Information extracting device
JP2007114355A (ja) * 2005-10-19 2007-05-10 Univ Of Tokyo 音声合成方法及び装置
JP2011514562A (ja) * 2008-03-20 2011-05-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法
JP2013045035A (ja) * 2011-08-26 2013-03-04 Brother Ind Ltd 発声評価装置、発声評価方法、及び発声評価プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1343143A1 (en) * 2000-12-14 2003-09-10 Sony Corporation Information extracting device
EP1343143A4 (en) * 2000-12-14 2005-10-19 Sony Corp INFORMATION AUFFINDUNGSGERAET
US7366661B2 (en) 2000-12-14 2008-04-29 Sony Corporation Information extracting device
JP2002328697A (ja) * 2001-04-26 2002-11-15 Sony Corp 信号処理装置及び信号処理方法
JP2007114355A (ja) * 2005-10-19 2007-05-10 Univ Of Tokyo 音声合成方法及び装置
JP2011514562A (ja) * 2008-03-20 2011-05-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法
US8793123B2 (en) 2008-03-20 2014-07-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for converting an audio signal into a parameterized representation using band pass filters, apparatus and method for modifying a parameterized representation using band pass filter, apparatus and method for synthesizing a parameterized of an audio signal using band pass filters
JP2013045035A (ja) * 2011-08-26 2013-03-04 Brother Ind Ltd 発声評価装置、発声評価方法、及び発声評価プログラム

Similar Documents

Publication Publication Date Title
Bonada et al. Synthesis of the singing voice by performance sampling and spectral models
JP2763322B2 (ja) 音声処理方法
Rao et al. Prosody modification using instants of significant excitation
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
Childers et al. Voice conversion
JPS63285598A (ja) 音素接続形パラメ−タ規則合成方式
JPH031200A (ja) 規則型音声合成装置
RU2296377C2 (ru) Способ анализа и синтеза речи
EP0391545B1 (en) Speech synthesizer
JPH08254993A (ja) 音声合成装置
JP2002358090A (ja) 音声合成方法、音声合成装置及び記録媒体
JPH04358200A (ja) 音声合成装置
JPH07261798A (ja) 音声分析合成装置
JPH11259066A (ja) 音楽音響信号分離方法、その装置およびそのプログラム記録媒体
JPH08305396A (ja) 音声帯域拡大装置および音声帯域拡大方法
Mehta et al. Synthesis, analysis, and pitch modification of the breathy vowel
US7822599B2 (en) Method for synthesizing speech
Al-Radhi et al. A continuous vocoder using sinusoidal model for statistical parametric speech synthesis
JP4468506B2 (ja) 音声データ作成装置および声質変換方法
JPH10254500A (ja) 補間音色合成方法
JP3394281B2 (ja) 音声合成方式および規則合成装置
JP3368949B2 (ja) 音声分析合成装置
Min et al. A hybrid approach to synthesize high quality Cantonese speech
Lavner et al. Voice morphing using 3D waveform interpolation surfaces and lossless tube area functions
JP2000010599A (ja) 音声変換装置及び音声変換方法