JPH02239293A

JPH02239293A - 音声処理方法

Info

Publication number: JPH02239293A
Application number: JP1060371A
Authority: JP
Inventors: Takashi Aso; 隆麻生
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1989-03-13
Filing date: 1989-03-13
Publication date: 1990-09-21
Anticipated expiration: 2013-06-11
Also published as: US5485543A; EP0388104A2; EP0388104A3; JP2763322B2; DE69009545D1; EP0388104B1; DE69009545T2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野〕本発明は、音声を分析してパラメータに変換し、そのパ
ラメータから再び音声を合成する音声分析合成方式に関
するものである。

〔従来の技術〕

従来、音声分析合成方式の一方式として、メルケプスト
ラム方式が存在する。

（文献）（１）今井，阿部：“改良メルケプストラム法によるス
ペクトル包絡抽出”，電子通信学会論文誌Ｖｏｌ．Ｊ６
２−Ａ　　Ｎｏ．４　（１９７９／４）（２）今井，住
田他：“音声合成のためのメル対数スペクトル近似（Ｍ
ＬＳＡ）フィルタ”，電子通信学会論文誌ＶｏｌＪ６６
−Ａ　　Ｎｏ．２　（１９８３／２）（３）小林．岡村
他：“メルケプストラム音声合成器の構成”，日本音響
学会音声研究会資料Ｓ８３−０３（１９８３／４）（４）北村．今井他：“メルケプストラムを用いる音声
合成と合成音声の品質”　日本音響学会聴覚研究会資料
Ｈ８３−４０　（１９８３／６）この方式では、分析時
には改良ケブスドラム法でスペクトラム包絡を求めて、
それをメル目盛を近似する非直線周波数目盛上のケプス
ドラム係数に変換し、スベクトラム包絡情報とする。合
成時には、合成フィルタとしてメル対数スペクトル近似
フィルタ（ＭＬＳＡフィルタ）を用い、分析時に得られ
たメルケプストラム係数をフィルタ係数として入力する
ことにより合成音を生成する。

また別の音声分析合成方式として、ＰＳＥ方式が存在す
る。

（文献）（５）中島，鈴木：“パワースペクトル包絡（ＰＳＥ）
音声分析・合成系“，音響学会誌Ｖｏｌ．４４，　Ｎｏ
．１１，Ｐ．８２４　（１９８８）（６）中島，鈴木：“非定常態波形のスペクトル・モデ
ルに基づくピッチ対同期形ＰＳＥ分析法”音響学会誌Ｖ
ｏｌ．４４，　Ｎｏ．１２，　Ｐ．９００　（１９８８
）この方式では、分析時には音声波形からＦＦＴにより
得られるパワースペクトルを基本周波数の整数倍の位置
で標本化し、その標本点を余弦級数により滑らかに結ん
だものをスペクトル包絡として求める。合成時には得ら
れたスペクトル包絡から零位相インパルス応答波形を求
めて基本周期（基本周゛波数の逆数）で重ね合わすこと
により合成音声を生成する。

〔発明が解決しようとしている課題〕

しかしながら上記従来例には、それぞれつぎに示すよう
な欠点があった。

（１）メルケプストラム方式においては、改良ケブスド
ラムでスペクトル包絡を求める際にケブスドラム係数の
次数と音声の基本周波数の関係によってスペクトル包絡
が振動する傾向にある。

の極と零のダイナミックレンジが大きいときには、その
急激な変化に追従出来ない。これらの理由によりメルケ
プストラム方式における分析方式はスペクトル包絡を精
密に求めるのに不向きであり、音質劣化の原因となって
いる。これに対してＰＳＥ方式における分析方式では、
スペクトルを基本周波数で標本化して、その標本点を通
る近似曲線（余弦級数）を包絡とするので、上記のよう
な問題は生じない。

（２）ＰＳＥ法においては、合成時に零位相インパルス
応答波形を重ね合わせる際、基本周期（基本周波数の逆
数）で、時刻０に対称なインパルス応答波形を重ね合わ
せるために、合成波形を記憶してお《バツファが必要と
なる。また、無声音声区間での合成においてもインパル
ス応答波形を重ね合わせるために、無声音声区間の合成
音において重ね合わせの周期が存在することになり、ス
ペクトルを求めた際にホワイトノイズの特性のような連
続スペクトルにならず、重ね合わせ周波数の整数倍の位
置でのみエネルギーを有する線スペクトルとなる。この
特性は実際の音声とはかけはなれたものとなる。これら
の理由によりＰＳＥ方式における合成方式は実時間処理
には不向きであり、また得られる合成音声の特性にも問
題がある。これに対してメルケプストラム法における合
成方式では、フィルタ（ＭＬＳＡフィルタ）を用いるの
で、ＤＳＰなどで容易に実時間処理が可能であり、また
有声音声区間と無声音声区間とでは音源を替えて、無声
音声区間ではホワイトノイズを音源とすることによりＰ
ＳＥ方式で発生するような問題は生じない。

〔課題を解決するための手段〕

本発明によれば、ある短い時間長の音声波形データをＦ
ＦＴ　ｔ，，て短時間パワースペクトルを求め、その短
時間パワースペクトルを基本周波数の整数倍の位置で標
本化し、得られた標本点に対して余弦級数モデルをあて
はめてスペクトル包絡を求める。

このスペクトル包絡からメルケプストラム係数を算出し
て、得られたメルケプストラム係数を合成フィルタ（Ｍ
ＬＳＡフィルタ）のフィルタ係数として入力し、合成音
声を生成する。このように構成することにより、より実
用的で高品質な合成音声を生成するようにしたものであ
る。

〔実施例〕第１図は本発明の特徴を最もよ《表わす図面であり、同
図においてｌは短時間音声波形（この単位時間長を１フ
レームとする）を分析して対数スペクトル包絡データを
生成し、有声／無声判定を行い、ピッチ（基本周波数）
を抽出する分析部、２は分析部ｌで生成された包絡デー
タをメルケプストラム係数に変換するパラメータ変換部
、３はパラメータ変換部２で得られるメルケプストラム
係数と分析部ｌで得られる有声／無声情報とピッチ情報
から合成音声波形を生成する合成部である。

第２図は第１図における分析部の構成を示している。４
は入力されたｌフレーム分の音声が有声区間か無声区間
かを判定するための有声／無声判定部、５は入力された
１フレームのピッチ（基本周波数）を抽出するピッチ抽
出部、６は入力されたｌフレームの音声データのパワー
スペクトルを求めるパワースペクトル抽出部、７はパワ
ースペクトル柚出部６で得られるパワースペクトルをピ
ッチ抽出部５で得られるピッチ間隔で標本化する標本化
部、８は標本化部７で得られる標本点系列に対して余弦
級数モデルをあてはめて係数を求めるパラメータ推定部
、９はパラメータ推定部８で得られる係数から対数スペ
クトル包絡を求めるスペクトル包絡生成部である。

第３図は第ｌ図におけるパラメータ変換部の構成を示し
ている。１０は周波数軸をメル目盛に変換するための近
似周波数目盛を作成するためのメル近似目盛生成部、１
１は周波数軸をメル近似目盛に変換するための周波数軸
変換部、ｌ２は対数スペクトル包絡からケプストラム係
数を生成するケプスドラム変換部である。

第４図は第１図における合成部の構成を示している。ｌ
３は有声音声区間の音源を発生するためのパルス音源発
生部、ｌ４は無声音声区間の音源を発生するためのノイ
ズ音源発生部、ｌ５は有声／無声判定部４から得られる
有声／無声情報に従って音源を切り換えるための音源切
り換え部、ｌ６はメルケプストラム係数と音源から合成
音声波形を生成するための合成フィルタ部である。

つぎに本実施例の具体的な動作を説明する。

説明の前に、いま音声資料として次のようなデータを仮
定する。

サンプリング周波数：　１２ｋＨｚフレーム長：　２　１　．３３　ｍｓｅｃ　（２５６デ
ータポイント）フレーム周期：　ｌｏｍｓｅｃ　（１２
０データポイント）まず１フレーム長の音声データが分
析部ｌに入力されると、有声／無声判定部４では入力さ
れたフレームが有声音声区間であるか無声音声区間であ
るかの判定がなされる。ここでの判定は、例えば文献（
Ｂ．Ｓ．Ａｔａｌ　ａｎｄ　Ｌ．Ｒ，Ｒａｂｉｎｅｒ　
：　’Ａ　ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ　Ａ
ｐｐｒｏａｃｈ　ｔｏ　Ｖｏｉｃｅｄ−Ｕｎｖｏｉｃｅ
ｄＳｉｌｅｎｃｅ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｗ
ｉｔｈ　Ａｐｐｌｉｃａｔｉｏｎｓｔｏ　　Ｓｐｅｅｃ
ｈ　　Ｒｅｃｏｇｎｉｔｉｏｎ　，　ＩＥＥＥ　　Ｔｒ
ａｎｓ．ＡＳＳＰ　　Ｖｏｌ．２４　　Ｎｏ．３　　１
９７６）に記載されている方法などで実現可能である。

パワースペクトル抽出部５では入力されたｌフレーム長
のデータについて窓掛け処理（ブラックマン窓７ハニン
グ窓など）をしたあとＦＦＴ処理を施し、対数パワース
ペクトルを求める。以後の処理でピッチを求める際に、
周波数分解能を細かくとる必要があるので、ＦＦＴの点
数は大きめ（例えば２０４８ポイント）にとる必要があ
る。

入力されたフレームが有声音声区間の場合には、ピッチ
抽出部６でピッチを抽出する。この時ピッチ抽出部６で
はパワースペクトル抽出部５で得られた対数パワースペ
クトルの逆ＦＦＴによりケプストラムを求め、ケブスド
ラムの最大値を与えるケフレンシー（単位は（ｓｅｃ）
）の逆数をピッチ（基本周波数：　ｆｏ　（Ｈｚ））と
する方法などが考えられる。

また無声音声区間ではピッチは存在しないので、ピッチ
を十分低い一定値（例えばＩＯＯＨＺ）とする。

つぎに標本化部７では、パワースペクトル抽出部５で求
めた対数パワースペクトルをピッチ抽出部６からのピッ
チ間隔（ピッチの整数倍の位置）で標本化して、標本点
系列を求める。

このとき標本点系列を求める周波数帯域は、１２ｋＨｚ
サンプリングの場合θ〜５ｋＨｚが適当であるが、特に
限定されるものではない（ただしサンプリング定理より
サンプリング周波数の１／２以下にする）。

ここで、いま必要とする周波数帯域を５ｋＨｚとすると
ｆ。Ｘ（Ｎ−１）が５０００を越える最小値がモデルの
上限周波数Ｆ　（Ｈｚ），　　Ｎが標本点系列の個数で
ある。

つぎにパラメータ推定部８で、標本化部で求めた標本点
系列）＋，　　（ｊ＝０．　　１・・・，Ｎ−１）から
Ｎ項余弦級数Ｙ（λ）＝ΣＡｉｃｏｓｉλ，　（ｏ≦λ≦π）（ｌ）
の係数パラメータＡ＋　（ｉ＝ｏ，　　ｌ・・・，Ｎ−
１）を求める。ただしｙ０については、零周波数におけ
る対数パワースペクトルの値であるが、ＦＦＴによるノ
′；ワースベクトルの零周波数における値は正確ではな
いので、ｙ０の近似値としてｙ，の値を用いる。

Ａ＋を求めるには、標本点系列ＹｌとＹ（λ）との誤差
二乗和Ｊ＝Σ（Ｙ（δ）　　ｙ＋ｌ”＋　　δ＝π／　（Ｎ−
１）　　　　　　　（２）を最小にすればよい。具体的
にはＪをＡ　（１，　Ａ　Ｉ　，・・・Ａ　Ｎ−１につ
いて偏微分したものをＯとおいて得られるＮ次の連立ｌ
次方程式の解を求めれば良い。

つぎにスペクトル包絡生成部９で、パラメータ推定部で
求められたＡ６，Ａｌ，・・・ＡＮ−１から？（λ）＝
Ａ■＋Ａ１ｃｏｓλ＋Ａ　２　ｃｏｓ２λ＋−＋　ＡＮ
−１　ｃｏｓ　（Ｎ−１）λ　　　　　　　　　（３）
により対数スペクトル包絡データを求める。

以上の動作により、分析部ｌにおいて有声／無声情報、
ピッチ情報および対数スペクトル包絡データを生成する
。

つぎにパラメータ変換部２においてスペクトル包絡デー
タからメルケプストラム係数に変換する。

まず予めメル近似目盛生成部１０において、メル周波数
目盛を近似する非直線周波数目盛を作成する。メル目盛
は聴覚上の周波数分解能を表わす心理的な物理量であり
、一次の全極通過フィルタの位相特性により近似する。

一時の全極通過フィルタの伝達特性をとした時の周波数特性はＨ　（ｅ”）　＝ｅｘｐ　（　ｊβ（Ω））ただしΩ＝
Ｗ△ｔ，△ｔはデイジタルフィルタの単位遅延時間、ω
は角周波数である。ここで非直線周波数目盛として Ω＝β（Ω）を考え、伝達関数Ｈ　（ｚ）におけるαを０．３５　（
サンプリング周波数が１０ｋＨｚの場合）〜０，４６　
（同１２ｋＨｚ）の任意の値を選べばΩはメル目盛とよ
く一致することが知られている。

つぎに周波数軸変換部１１で分析部ｌで求めた対数スペ
クトル包絡の周波数軸をメル近似目盛生成部１０で作成
したメル目盛に変換し、メル対数スペクトル包絡を求め
る。直線周波数目盛における通常の対数スペクトルＧ＋
（Ω）に対して、メル対数スペクトルＧｍ（Ω）はＧｒｎ（Ω）　＝Ｇｔ　（β一′（Ω））　　　　　　
　　　　　　　　（８）と変換されるるケブストラム変換部１２では、周波数軸変換部１ｌで得
られたメル対数スペクトル包絡データを逆ＦＦＴするこ
とによりメルケプストラム係数を求める。次数はＦＦＴ
の点数の１／２個までとることができるが、実際には１
５〜２０が適当とされている。

以上がパラメータ変換部２における動作説明である。つ
ぎに合成部３では有声／無声情報、ピッチ情報、メルケ
プストラム係数から合成音声波形を生成する。

まず有声／無声情報に従って、ノイズ音源生成部ｌ３ま
たはパルス音源生成部ｌ４で音源データを作成する。す
なわち入力フレームが有声音声区間パルス波形を生成し
音源とする。その際メルケプストラム係数の１次の項は
音声のパワー（強さ）の大きさを表わしているので、こ
の値を用いてパルスの大きさを制御する。また入力フレ
ームが無声音声区間の場合には、ノイズ音源生成部ｌ３
で白色雑音としてＭ系列を発生させて音源とする。

音源切り変え部１５では、有声／無声情報に従って、有
声音声区間ではパルス音源発生部１４で生成したパルス
系列を、無声音声区間ではノイズ音源発生部ｌ３で生成
したＭ系列を合成フィルタ部に対して送出する。

合成フィルタ部ｌ６では、音源切り変え部１５からの音
源系列と、パラメータ変換部２からのメルケプストラム
係数からメル対数スペクトル近似フィルタ（ＭＬＳＡフ
ィルタ）を用いて合成音声波形を生成する。このＭＬＳ
Ａフィルタについては文献（３）に記載されている方法
を用いて実現可能である。

記の実施例ではパラメータ変換部２における構成を第３
図のように示したが、文献（３）に記載されている方法
により構成することも可能である。その場合の構成図を
第５図に示す。第５図において１７はスペクトル包絡デ
ータからケプストラム係数を求めるケブスドラム変換部
、ｌ８はケプスドラム係数をメルケプストラム係数に変
換するメルケプストラム変換部である。このように構成
した時の動作をつぎに示す。

ケプストラム変換部ｌ７では、分析部ｌで作成された対
数スペクトル包絡データに対して逆ＦＦＴ処理を施すこ
とによりケブスドラム係数を求める。

つぎにメルケプストラム変換部ｌ８においてケプストラ
ム係数Ｃ　（ｍ）をメルケプストラム係数Ｃａ（ｍ）に
次の再帰式で変換する。

ｎ＝・・・，　−２，　−１，　ＯＣａ　（ｍ）　＝　ｐ：’，　ｍ＝０．　１．　２　−
−−　　　　　　　（１１）以上の説明では、分析合成
装置を例にあげたが、本発明の方式は分析合成装置のみ
に限定されるものではな《、規則合成装置にも適用され
るものである。その場合実施例を第６図に示す。

第６図において１９は規則合成用単位音声データ（例え
ば単音節データ）作成部であり、２０は音声波形から対
数スペクトル包絡データを求めるための分析部で、第１
図の分析部ｌと同様の構成である。

２ｌは対数スペクトル包絡データからメルケプストラム
係数を生成するためのパラメータ変換部であり、第ｌ図
のパラメータ変換部２と同様の構成である。２２はそれ
ぞれの単位音声データに対応するメルケプストラム係数
を格納しておくためのメモリ部である。２３は任意の文
字列データから合成音声を生成するための規則合成部で
あり、２４は入力された文字列を解析するための文字列
解析部、２５は文字列解析部２４からの解析結果からパ
ラメータ接続規則やピッチ情報．有声／無声情報を生成
するための規則部、２６は規則部２５のパラメータ接続
規則に従ってメモリ部２２からメルケプストラム係数を
取りだして接続し、メルケプストラム係数の時系列を生
成するパラメータ接続部、２７はメルケプストラム係数
時系列とピッチ情報，有声／無声情報から合成音声を生
成するための合成部で、第１図の合成部３と同様の構成
である。

第６図に沿って動作の説明をする。

まず規則合成用単位音声データ作成部ｌ９で規則合成に
必要なデータを作成する。ここで規則合成の単位となる
音声（例えば単音節音声）の分析を行い（分析部２０）
、メルケプストラム係数を求めて（パラメータ変換部２
１）、メモリ部２２に格納しておく。

つぎに規則合成部２３で任意の文字列データから合成音
声を生成する。入力された文字列データは文字列解析部
２４で解析されて、単音節単位の情報に分解される。こ
の情報をもとに規則部２５ではパラメータ接続規則，ピ
ッチ情報，有声／無声情報を作成する。パラメータ接続
部２６では、パラメータ接続規則に従ってメモリ部２２
から必要なデータ（メルケプストラム係数）を取りだし
てきて接続し、メルケプストラム係数の時系列を作成す
る。合成部２７ではピッチ情報，有声／無声情報とメル
ケプストラム係数時系列データから規則合成音声を生成
する。

尚、本実施例ならびに他の実施例ともにパラメータとし
てメルケプストラム係数を使用しているが、式（４）．
　　（６）．　　（９），　　（１０）においてα＝Ｏ
とおくことにより、得られるパラメータはケブス］・ラ
ム係数と等価となる。この場合、第３図においてメル近
似目盛生成部ｌＯと周波数軸変換部１１を、第５図にお
いてメルケプストラム変換部１８を削除し、第４図の合
成フィルタ部ｌ６を対数振幅特性近似フィルタ（ＬＭＡ
フィルタ）に変更することにより容易に実現できる。

〔発明の効果〕

以上説明したように、音声波形から求めた対数パワース
ペクトルを基本周波数で標本化し、得られた標本点につ
いて余弦級数モデルをあてはめてスペクトル包絡を求め
、そのスペクトル包絡からメルケプストラム係数を求め
、ＬＭＳＡフィルタで合成することにより、より高品質
な合成音声を得られる効果がある。

【図面の簡単な説明】

第１図は本発明の実施例のブロック図。第２図は第１図における分析部のブロック図。第３図は第１図におけるパラメータ変換部のブロック図
。第４図は第１図における合成部のブロック図。第５図は第ｌ図におけるパラメータ変換部の他の実施例
のブロック図。第６図は本発明の他の実施例のブロック図。ｌは分析部、２はパラメータ変換部、３は合成部、４は
有声／無声判定部、５はパワースペクトル抽出部、６は
ピッチ抽出部、７は標本化部、８はパラメータ推定部、
９はスペクトル包絡生成部、ｌＯはメル近似目盛生成部
、１１は周波数軸変換部、ｌ２はケプストラム変換部、
Ｉ３はノイズ音源発生部、ｌ４はパルス音源発生部、１
５は音源切り換え部、１６は合成フィルタ部、ｌ７はケ
プストラム変換部、１８はメルケプストラム変換部、ｌ
９は規則合成用単位音声データ作成部、２０は分析部、
２ｌはパラメータ変換部、２２はメモリ部、２３は規則
合成部、２４は文字列解析部、２５は規則部、２６はパ
ラメータ接続部、２７は合成部。

Claims

【特許請求の範囲】

音声をいったんパラメータに変換して、そのパラメータ
から再び音声を合成する音声分析合成方式であって、入
力された音声の短時間パワースペクトルを基本周波数で
標本化し、得られた標本点に対して余弦級数モデルをあ
てはめてスペクトル包絡を求め、このスペクトル包絡か
らメルケプストラム係数を算出し、このメルケプストラ
ム係数をメル対数スペクトル近似フィルタの係数として
合成音声を生成することを特徴とする音声分析合成方式
。