JP2000259164A

JP2000259164A - 音声データ作成装置および声質変換方法

Info

Publication number: JP2000259164A
Application number: JP11059632A
Authority: JP
Inventors: Takeshi Iwaki; 健岩木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1999-03-08
Filing date: 1999-03-08
Publication date: 2000-09-22
Anticipated expiration: 2019-03-08
Also published as: JP4468506B2

Abstract

(57)【要約】【課題】素片データに基づいて声質変換の素片データ
を作成し、スペクトル操作しても高品質な合成音にでき
る音声データ作成装置および声質変換方法の提供。【解決手段】声質変換装置10は、素片辞書12から読み
出した素片データをスペクトル抽出部14で周波数帯域デ
ータに変換する。この周波数帯域を第１のスペクトル群
とし、新たな声質変換によるスペクトル帯域を第２のス
ペクトル群とする。基準点設定部16で両スペクトル群の
対応付け基準となる周波数を設定し、帯域分割部18で設
定したスペクトル帯域を帯域分割し周波数の対応付け関
係（補間）を決める。スペクトル生成部20は、この対応
付けに基づき第２のスペクトル群の周波数データをマッ
ピングしFFT 分析部22に供給する。FFT 分析部22は各帯
域の周波数データに逆FFT 処理を行い新たな素片データ
を生成している。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声データ作成装
置および声質変換方法に関し、たとえば、音声素片デー
タを声質変換して他の音声素片データを自動的に作成す
る音声データ作成装置および音声素片データの声質変換
を行う手順の声質変換方法等に用い、特にテキスト音声
変換を行う装置や方法とともに用いて好適なものであ
る。

【０００２】

【従来の技術】日本語のテキスト文章を音声に変換して
出力するテキスト音声変換には、テキスト解析、パラメ
ータ生成および音声合成の処理が順次行われる。テキス
ト解析では、たとえば、入力される漢字かな混じり文を
用意した単語辞書と参照して形態素解析を行われる。形
態素解析によって、入力された文の読み、アクセント、
およびイントネーション等が決定される。この決定され
た各種の情報から韻律記号付き発音記号、いわゆる中間
言語が生成される。

【０００３】また、パラメータ生成では、ピッチ周波数
パターンおよび音韻継続時間等の設定が行われる。音声
合成では、これらの処理で得られたデータを用いて音声
に合成する処理が行われる。これまで、音声合成の処理
には、たとえば、線形予測法等が用いられてきている。

【０００４】線形予測法に用いられる声道情報と音源情
報とは、本来、相互に関連がある情報である。しかしな
がら、線形予測法では、これらの情報を分離して扱われ
る。これにより、合成される音声の品質低下が生じてし
まっていた。そこで、近年、声道情報と音源情報とを分
離することなく、原音声波形をそのまま利用して高品質
の合成音を得る手法が提案されてきている。

【０００５】ところが、音声合成処理は、保持している
素片データを重畳するだけであることから、合成音の声
質を変更できない。このような声質を変更する場合に
は、複数の合成音を出力しようとした際に、複数の発声
者から作成した複数の素片データが予め保持されていな
ければならない。この素片データの作成する際には、各
発声者の音声波形の形状に大きく依存する詳細なパラメ
ータ設定を個々に行う必要がある。この設定の必要性
は、素片データの作成処理を自動化する上での大きな問
題になっている。

【０００６】また、一層変化に富んだ豊かな合成音を提
供する場合、素片データサイズが大きくなる傾向があ
る。このような音声合成装置は、システム構成の規模が
当然大きくなり、実現する上での問題になる。このよう
な問題を考慮して音声の声質変換に関する提案がされて
いる。

【０００７】ここで、具体的なその音声合成の声質変換
に関する主な手法を記載する。この手法には、時間領域
での声質変換処理と周波数領域での声質変換処理とがあ
る。前者の手法は、同一音韻の複数の音声データを用い
て徐々に音声を変化させる音声モーフィングを行い、新
たにこれら音声データで合成される音声の中間的な特徴
を有する音声を得る方法である。この方法の一例には、
たとえば、特開平9-50295 号公報がある。また、後者の
手法は、ある周波数帯域で、ある音声のスペクトルデー
タを他者のスペクトルデータで置き換えて、新たなスペ
クトルデータを得る方法である。この方法の一例には、
たとえば、阿部匡伸，「基本周波数とスペクトルの漸次
変形による音声モーフィング」，日本音響学会講演論文
集2-1-8,p259-260, 1995 がある。

【０００８】

【発明が解決しようとする課題】ところで、前述した手
法のうち、前者の手法の例では、音声のモーフィングの
際に対応の基準となる特徴点を音声波形の中にある位置
に設定する必要がある。しかしながら、波形のゆらぎの
影響によりこの特徴点を安定に求めることが難しい。ま
た、この特徴点の対応付けにおいて、波形形状が時間と
ともに変化する場合、すなわち、たとえば、モーフィン
グを行う該当区間内に存在する波形のピークの個数が変
化する場合、この対応付けが不適当に行われてしまう虞
れがある。

【０００９】また、後者の手法の例では、高周波数での
スペクトルデータと低周波数でのスペクトルデータとを
異なる音声データから作成することから、これら２つの
スペクトルデータの接続処理による合成音は、品質低下
が避けられない。

【００１０】このように様々な音声の声質変換する方法
が提案されてきているが、高品質な声質変換方法、特
に、素片作成方法はまだ確立されていない。

【００１１】本発明はこのような従来技術の欠点を解消
し、保持する素片データに基づいて声質変換の素片デー
タを作成し、スペクトル操作しても高品質な合成音を出
力することのできる音声データ作成装置および声質変換
方法を提供することを目的とする。

【００１２】

【課題を解決するための手段】本発明は上述の課題を解
決するために、複数の音声信号が素片データ化され所定
の順序で記憶手段に配されており、この記憶手段から供
給される音声の素片データに声質変換を施して新たな音
声の素片データを作成する音声データ作成装置におい
て、記憶手段から読み出した素片データを周波数的にス
ペクトル分析するスペクトル分析手段と、スペクトル分
析手段で分析した素片データの周波数帯域を第１のスペ
クトル群にし、新たな声質変換によるスペクトル帯域を
第２のスペクトル群にして両スペクトル群の対応付けの
基準となる周波数を設定する基準設定手段と、この基準
設定手段で設定したスペクトル帯域を帯域分割するとと
もに、第１および第２のスペクトル群の周波数関係を対
応付ける帯域分割手段と、この帯域分割手段により得ら
れた関係の対応付けおよびスペクトル分析手段からのス
ペクトルを用いて、第２のスペクトル群の周波数データ
を生成するスペクトル生成手段と、このスペクトル生成
手段からの周波数データに逆スペクトル分析を施す逆変
換手段とを含み、逆変換手段から得られた素片データを
変換データ記憶手段に供給して格納することを特徴とす
る。

【００１３】ここで、帯域分割手段は、生成した第１お
よび第２のスペクトル群の区間内を単調増加関数で補間
することが好ましい。これにより補間が容易になる。

【００１４】スペクトル生成手段は、周波数の対応付け
の関係だけから、第１のスペクトル群内のスペクトルの
伸縮を行い、第２のスペクトル群の周波数データを作成
する変換スペクトル作成手段と、分割した第１のスペク
トル群の各帯域毎にスペクトルのパワーを算出するとと
もに、この第１のスペクトル群内のスペクトルパワーに
よって変換スペクトル作成手段のスペクトルの大きさを
調整するパワー調整手段とを含むことが望ましい。素片
データへの声質変換による強調・抑圧をなくすことがで
きる。

【００１５】パワー調整手段は、第１および第２のスペ
クトル群内のパワースペクトル面積が同じになるように
調整するとよい。

【００１６】本発明の音声データ作成装置は、スペクト
ル分析手段で素片データを周波数領域のデータに変換す
る。素片データを用いることにより、音源成分と声道成
分との分離しないで新たな素片データを生成することに
なる。そして、素片データを周波数領域のスペクトルデ
ータに変換することにより、時間領域で生じる不適当な
対応付けを回避できる。ここで、この周波数帯域は、第
１のスペクトル群とし、新たな声質変換によるスペクト
ル帯域を第２のスペクトル群とする。この両スペクトル
群の対応付けの基準となる周波数は基準設定手段で設定
し、帯域分割手段で設定したスペクトル帯域を帯域分割
して周波数の対応付け関係を明らかにする。実際にスペ
クトル生成手段では、この対応付けに基づいて第２のス
ペクトル群の周波数データ、すなわち声質変換したスペ
クトルデータを生成する。逆変換手段ではこの各帯域の
周波数データに逆スペクトル分析して時間領域の素片デ
ータに変換することにより、安定に高品質な声質変換を
自動的に行って新たな変換素片データを生成することが
でき、得られた変換素片データを変換データ記憶手段に
格納することができる。

【００１７】また、本発明は複数の音声信号を素片デー
タ化し所定の順序で用意した記憶手段に配し、この記憶
手段から供給される音声の素片データに声質変換を施し
て新たな音声の素片データを作成する声質変換方法にお
いて、記憶手段から読み出した素片データを周波数的に
スペクトル分析するスペクトル分析工程と、スペクトル
分析工程で分析した素片データの周波数帯域を第１のス
ペクトル群にし、新たな声質変換によるスペクトル帯域
を第２のスペクトル群にして両スペクトル群の対応付け
の基準となる周波数を設定する基準入力工程と、この基
準入力工程で設定したスペクトル帯域を帯域分割すると
ともに、第１および第２のスペクトル群の周波数関係を
対応付ける帯域分割工程と、この帯域分割工程により得
られた関係の対応付けおよびスペクトル分析工程からの
スペクトルを用いて、第２のスペクトル群の周波数デー
タを生成するスペクトル生成工程と、このスペクトル生
成工程からの周波数データに逆スペクトル分析を施す逆
変換工程とを含み、逆変換工程により得られた素片デー
タを別途用意した記憶手段に供給して格納することを特
徴とする。

【００１８】ここで、帯域分割工程は、生成した第１お
よび第２のスペクトル群の区間内を単調増加関数で補間
することが好ましい。

【００１９】スペクトル生成工程は、周波数の対応付け
の関係だけから、第１のスペクトル群内のスペクトルの
伸縮を行い、第２のスペクトル群の周波数データを作成
する変換スペクトル作成工程と、分割した第１のスペク
トル群の各帯域毎にスペクトルのパワーを算出するとと
もに、この第１のスペクトル群内のスペクトルパワーに
応じて変換スペクトル作成工程で得られたスペクトルの
大きさを調整するパワー調整工程とを含むことが望まし
い。

【００２０】パワー調整工程は、第１および第２のスペ
クトル群内のパワースペクトル面積が同じになるように
調整するとよい。

【００２１】本発明の声質変換方法は、まず、素片デー
タを周波数領域のデータに変換する。素片データを用い
ることにより、音源成分と声道成分との分離しないで扱
い、新たな素片データを生成している。そして、素片デ
ータを周波数領域のスペクトルデータに変換することに
より、時間領域で生じる不適当な対応付けを回避してい
る。ここで、この周波数帯域は、第１のスペクトル群と
し、新たな声質変換によるスペクトル帯域を第２のスペ
クトル群とする。この両スペクトル群の対応付けの基準
となる周波数を設定した後、スペクトル帯域を帯域分割
する周波数の対応付け関係を明らかにする。実際にこの
対応付けに基づいて第２のスペクトル群の周波数データ
に声質変換を施す。すなわち声質変換したスペクトルデ
ータは、第２のスペクトル群の周波数データを対応付け
により帯域の幅を変えることになる。得られた各帯域の
周波数データに逆スペクトル分析して時間領域の素片デ
ータに変換することにより、安定に高品質な声質変換を
自動的に行って新たな変換素片データを生成している。

【００２２】

【発明の実施の形態】次に添付図面を参照して本発明に
よる音声データ作成装置および声質変換方法の一実施例
を詳細に説明する。

【００２３】本実施例では、音声データ作成装置を適用
した声質変換装置10について図１〜図11を参照しながら
説明する。声質変換装置10には、図１に示すように素片
辞書12、スペクトル抽出部14、基準点設定部16、帯域分
割部18、スペクトル生成部20、FFT 分析部22および変換
素片辞書24が備えられている。声質変換装置10におい
て、図１に図示していないが上述した各部は、システム
制御部により、たとえばデータ読出し／書込みや分析処
理等のタイミング動作が制御されている。

【００２４】素片辞書12は、磁気ディスクや光磁気ディ
スクのようなディスク状記録媒体である。記録媒体に
は、大量のサンプリングした音声素片が所定の規則に応
じて記憶されている。また、素片辞書12には、記憶され
ている音声素片データを迅速に読み出せるようなデータ
構造に記憶させた、いわゆるデータベースが構築されて
いる。より高品質な合成音を得るためには、自然波形素
片辞書を用いるとよい。

【００２５】スペクトル抽出部14には、図２に示すよう
にバッファメモリ14a 、第１演算部14b および第２演算
部14c が備えられている。バッファメモリ14a は、音声
素片データを一時的に格納しておくメモリである。第１
演算部14b は、高速フーリエ変換（FFT ）を行う演算機
能部である。リアルタイムでのスペクトル分析が要求さ
れるような場合、この演算をハードウェアで行うように
構成することも可能である。第２演算部14c は、後述す
るように第１演算部14b で算出された実部と虚部の値に
基づいてパワースペクトルおよび位相項を算出する。

【００２６】基準点設定部16は、データ入力デバイスで
ある。データは、たとえばキーボードを介して帯域分割
する点での変換前と変換後の周波数の数値を直接的に入
力したり、ポインティングデバイスを用いる場合、変換
前と変換後の周波数軸で囲まれた面の一点をクリックし
て設定するようにしてもよい。このようにして設定する
と、帯域の対応関係の理解が視覚的に容易になる（図３
を参照）。この設定される基準点が帯域分割基準点であ
る。

【００２７】帯域分割部18は、音声素片データの周波数
帯域範囲を複数に分割し、かつ帯域の変換前後の周波数
の対応関係付けを行う。この関係付けは、定義した各周
波数帯域の区間内を単調増加関数で補間して行う。たと
えば、図３に示すように、記号×の２点を入力される
と、帯域分割部18は、この２点の入力により音声周波数
の範囲を３つの周波数帯域に分割する。このとき、周波
数の低い帯域から順に帯域No.0, 帯域No.1, および帯域
No.2と定義する。周波数帯域範囲は0 〜11.025kHz とし
て横軸に変換前の周波数、縦軸に変換後の周波数をと
る。図３から明らかなように帯域毎の変換に着目する
と、音声素片データの2kHz以下の成分はそのままで、2k
Hzを越える成分に声質変換を施すことを示している。帯
域No.1の2 〜8kHzは、新たな素片の2 〜4kHzに対応さ
せ、帯域No.2の8 〜11.025kHz は、4 〜11.025kHz に対
応させる。対応関係は、帯域毎の線形補間によって行
う。このようにして、元のスペクトルデータの周波数を
変換しないで用いる範囲と新たな声質用の素片データを
作成する周波数範囲の関係が作られる。前者の範囲は、
主に合成音の音韻性を決定付けると考えられている低次
ホルマント成分が存在する区間である。これに対して、
後者の範囲は、個々人の音声の特徴が現れるスペクトル
の高域成分に対応し、この範囲をスペクトル変換するこ
とにより声質を変更する。

【００２８】スペクトル生成部20は、帯域分割部18の対
応関係にあった、帯域をそれぞれ線形補間し、スペクト
ル成分をマッピングして新たなスペクトル成分を生成す
る。ただし、このマッピングは、音声信号の有声部分に
対して行われ、無声音部分にはマッピング処理を行わ
ず、そのまま元の音声データを用いることは言うまでも
ない。また、補間は、線形補間に限定されるものでな
く、単調増加関数による非線型な対応付けでもよい。具
体的な生成については後段で詳述する。

【００２９】FFT 分析部22は、スペクトル抽出部14で行
ったフーリエ変換と逆の変換、すなわち逆フーリエ変換
を行う。この変換を施すことにより、周波数領域のデー
タを時間領域の音声素片データに戻す。また、変換素片
辞書24は、素片辞書12と同じデータ構造を有するディス
ク状記録媒体である。変換素片辞書24は、FFT 分析部22
からの音声素片データを格納する。このように構成して
保持している音声素片データに声質変換を施して高品質
な新たな音声素片データを作成している。

【００３０】次に声質変換装置10の動作を説明する。最
初に、素片辞書12から音声素片データを読み出す。読み
出した音声素片データは、スペクトル抽出部14のバッフ
ァメモリ14a に供給される。一時的に音声素片データを
格納した後、第１演算部14bに出力する。第１演算部14b
では、FFT 処理を施して供給された音声素片データを
時間領域から周波数領域に変換する。この変換により、
スペクトル領域のデータ系列を生成する。このとき得ら
れる実部：x(i)と虚部：y(i)とにそれぞれ分けて第２演
算部14c に供給する。供給されたこれらの値を用いて、
パワースペクトル算出部140cは、パワースペクトルpow
(i)を式(1)

【００３１】

【数１】から算出する。

【００３２】また、位相項算出部142cは、位相項arg(i)
を式(2)

【００３３】

【数２】 arg(i)＝tan^-1{y(i)/x(i)} ・・・(2) から算出する。算出結果はスペクトル生成部20に供給す
る。

【００３４】ところで、基準点設定部16では、帯域分割
基準点が入力される。帯域分割部18では、この入力によ
り定義された各周波数帯域の区間を単調増加関数で補間
する。説明の簡単化のために単調増加関数として１次関
数を用いる。１次関数は、帯域分割基準点を図３と同じ
に設定して、帯域No.0では周波数 0と2kHzの区間、帯域
No.1では2kHzと8kHzの区間および帯域No.2では8kHzと1
1.025kHz の区間をそれぞれ直線補間している（図４の
破線を参照）。この関係を表した周波数対応表が図４で
ある。たとえば、帯域No.1内の周波数f₁を変換する場
合、周波数対応表の矢印の順に見て変換後の周波数T_Fを
算出してもよい。また、実際に直線補間の一次関数の変
数に周波数f₁を代入して算出してもよい。このようにし
て新たに作成する声質変換する周波数T_Fが対応付けられ
ることが判る。

【００３５】実際に読み出した音声素片データに対する
声質変換は、スペクトル生成部20で供給されるスペクト
ル成分を周波数対応に応じたマッピング処理により行わ
れる。作成された声質変換スペクトルデータがFFT 分析
部22に供給される。FFT 分析部22では、供給されたデー
タに逆FFT 変換を施して新たな声質変換素片を得る。逆
FFT 変換は、FFT 変換の処理とまったくの逆処理であ
る。この変換処理を終了することにより一連の声質変換
処理は終了する。そして、このようにして得られた新た
な音声素片データは、変換素片辞書24に格納される。こ
の格納処理により音声データ作成処理が終了する。

【００３６】この一連の動作により音声素片データを新
たな声質の音声素片データに容易に変換することができ
る。声質変換装置10において、より具体的に格納されて
いる素片辞書12の男性の音声「a 」に声質変換を施し
た。この声質変換の前後で音声「a 」がどのように変換
されるかを比較してみる。ここで、図５には変換前の音
声波形「a 」の合成波形（上段）とそのパワースペクト
ル波形（下段）を示し、図６には、変換後の合成波形
（上段）とそのパワースペクトル波形（下段）を示す。
ここでも、帯域分割基準点は、図３の設定と同じにして
いる。図５および図６の上段の合成波形を比較して、波
形形状に大きな違いは見られないことが判る。これは、
合成音の音韻性および自然性が保たれていることを示し
ている。しかしながら、下段のパワースペクトルは、図
６に示すように周波数3000Hz以上の高域成分の形状が連
続的な形で大きく変形させられていることが判る。この
合成音を聴取してみると、元の音声素片データによる合
成音と異なる声質の合成音が高品質に得られた。

【００３７】次に声質変換装置10の変形例について図７
を参照しながら説明する。ここで、前述の実施例と同じ
部分には、同一の名称および参照符号を付して説明を省
略する。本実施例の声質変換装置10は、スペクトル生成
部20にパワースペクトルを調整する機能が追加されてい
る。スペクトル生成部20には、変換スペクトル作成部20
a およびパワー調整部20b が備えられている。変換スペ
クトル作成部20a は、前述の実施例のスペクトル作成部
20でのスペクトルの変換をマッピング処理に基づいて行
っている。

【００３８】たとえば、帯域分割基準点を４つ設定した
場合、周波数範囲 0〜11.025kHz （＝f₄）を図８に示す
ように周波数f₀〜f₃と元の音声素片データをほぼ等分割
する。このとき、先の実施例（周波数0 〜周波数f₁）と
同様に声質変換しない帯域No.0を、たとえば周波数0 〜
周波数f₀＝T_F0 ＝2kHzに設定する。これに対して、周波
数2kHz＜f ≦11.025kHz （＝f₄）の帯域分割は、この周
波数範囲内での変換後の周波数の分割順序が保たれてい
れば任意に設定してよい（図８の変換後の周波数T_F1 〜
T_F3 を参照）。このような設定のため変換後の帯域幅
は、図８の帯域No.1〜帯域No.4に示すように、一定にな
らず、高域成分が抑圧される。

【００３９】これに加えて、パワースペクトルには一般
に、-6dB/oct程度で減衰する特性がある（図９の細い実
線）。図８の周波数対応関係にある新たな声質変換スペ
クトルデータのパワースペクトルを作成すると、そのパ
ワースペクトルの減衰特性は望ましくない強調や抑圧を
受けた特性を示す。この減衰特性は全周波数範囲にわた
って周波数対応を関係付ける単調増加関数を見ると、帯
域毎に直線補間する１次関数がそれぞれ異なることによ
る非線型性によって生じる。この結果、得られる合成音
は、ローパスフィルタを通したような、こもった音に聞
える。実際の減衰特性を調べて見ると、図９から明らか
なように周波数0 〜11.025kHz までの帯域範囲のうち、
たとえば、2kHz〜8kHz近傍のパワースペクトル成分が大
きな抑圧を受けている。特に、周波数2kHz〜4kHzの減衰
特性が大きく、-18dB/oct になっている（図９の太い実
線を参照）。この減衰特性の落込み方が顕著で、一般の
-6dB/octの減衰特性と比較して見ると、周波数4kHzのパ
ワーレベルは周波数8kHzでのレベルとほぼ同等なほどま
で抑圧を受けている。一方、周波数4kHz〜11.025kHz の
間の減衰特性は、-2.6dB/octと小さい。

【００４０】パワー調整部20b は、変換スペクトル作成
部20a で得られた声質変換スペクトルデータのうち、こ
のような望ましくない抑圧・強調等による成分を除去す
るようにパワースペクトルの大きさだけを調整する。こ
の調整により、パワースペクトル生成の中での望ましく
ない強調や抑制を調整する。このときパワー調整部20b
は、位相項に対して何も処理しない。パワー調整部20b
は、声質変換したスペクトルデータに対するパワースペ
クトルを作成するとともに、スペクトル抽出部14で算出
した元々の音声素片データに対するパワースペクトルと
この作成したパワースペクトルとを比較する。これらの
パワースペクトルの差が大きくなる場合に、スペクトル
変換による意図しないスペクトル形状の強調・抑制を、
変換後の帯域パワースペクトルを帯域前のパワースペク
トルで正規化することにより調整する。このパワースペ
クトルを調整するために帯域の両端には余弦関数を用い
て不連続にならないようにスムージングを施している。
ここで、余弦関数を用いてスムージング化したが、余弦
関数に限定されるものでなく、連続で滑らかな関数であ
ればよい。

【００４１】具体的なパワースペクトルの調整について
説明する。図４と同様に帯域分割基準点が２入力の場
合、図10に示すように、周波数2kHz〜8kHzと周波数8kHz
〜11.025kHz の２つの帯域における元々のパワースペク
トルP₃₀, P₃₂がある。パワー調整部20b は、元々のパワ
ースペクトルP₃₀, P₃₂を用いて、声質変換したスペクト
ルデータのパワースペクトルA₃₀, A₃₂の大きさを調整
し、変換前と変換後の対応するパワースペクトル（の面
積）をそれぞれ同じにする。たとえば、帯域2kHz〜8kHz
まで変換前の帯域パワースペクトルを正規化すると、倍
率 m＝A₃₀/P₃₀ 〜1.2 が得られる。この場合、この倍率
分だけ面積を抑えるように、たとえば余弦関数を用いて
平滑化して面積を同一化する。同様に、8kHz〜11.025kH
z までの正規化により倍率 m＝A₃₂/P₃₂ 〜0.8 が得られ
る。この帯域では余弦関数を用いて面積を増やすように
平滑化が行われる。これらの処理により、望ましくない
抑圧・強調等を除くことができる。これにより、パワー
調整部20b は声質変換したスペクトルデータを元の音声
素片データのパワースペクトル減衰特性に準じた減衰特
性にすることができる。

【００４２】たとえば、素片辞書12から読み出した音声
素片をスペクトル抽出部14でFFT 処理し得られるパワー
スペクトルは、二点鎖線で示す-6dB/octに沿っているこ
とが判る（図11(a) を参照）。スペクトル生成部20の変
換スペクトル作成部20a で帯域分割基準点により分割さ
れた帯域毎に声質変換に伴うマッピング処理を行うと、
パワースペクトルは帯域毎に大きく変化する。図11(a)
と図11(b) との特性を比べると、大体3kHz〜5kHzで大き
くレベルが低下している。これは声質変換処理によって
望ましくない抑圧を受けたことを示している。この抑圧
を除くようにパワー調整部20b は、帯域毎に変換前後の
面積を同一にする調整を行う。調整の結果、図11(c) に
示すように中域のパワースペクトルに大幅な改善が見ら
れた。得られる合成音は、帯域分割基準点で帯域分割し
てマッピングすることによる声質変換の効果をより素直
に反映して自然で明瞭になった。

【００４３】ところで、本実施例は、音源成分と声道成
分とを分離しない素片を基にして声質変換を行って新た
な素片の作成の試みを示したが、この他PSE 素片等のよ
うに音源成分を除去した素片を基に声質変換したスペク
トルの生成を行うこともできる。声質変換装置10は、た
とえば、原音声のピッチを変化させ、声の高さを変更す
る、いわゆる音声ピッチ変換装置のように、種々の音声
出力装置に適用することも可能である。

【００４４】以上のように構成することにより、たとえ
ば音声のモーフィングを行う際に生じて問題になる不適
当な対応付けを回避し、周波数領域で声質変換を行わな
い大域と声質変換を行う帯域とを帯域分割基準点で分
け、声質変換する帯域には周波数の対応付けに応じた変
換を行い、得られた第２のスペクトル群に逆FFT 処理を
施して新たな音声素片データを生成することにより、ス
ペクトル操作による劣化の少ない、高品質な音声素片デ
ータを作成することができる。これにより、これまでな
かった高品質な声質変換による音声素片の自動的な作成
法を確立することができる。

【００４５】

【発明の効果】このように本発明の音声データ作成装置
によれば、スペクトル分析手段で記憶手段から読み出し
た素片データを周波数領域のデータに変換する。素片デ
ータを用いることにより、音源成分と声道成分との分離
しないで新たな素片データを生成することになる。そし
て、素片データを周波数領域のスペクトルデータに変換
することにより、時間領域で生じる不適当な対応付けも
回避できる。ここで、この周波数帯域は、第１のスペク
トル群とし、新たな声質変換によるスペクトル帯域を第
２のスペクトル群とする。基準設定手段でのこの両スペ
クトル群の対応付けの基準となる周波数の設定、帯域分
割手段での設定したスペクトル帯域を帯域分割して周波
数の対応付け関係を明らかにして、実際にスペクトル生
成手段でこの対応付けに基づいて第２のスペクトル群の
周波数データ、すなわち声質変換したスペクトルデータ
を生成する。逆変換手段ではこの各帯域の周波数データ
に逆スペクトル分析して時間領域の素片データに変換し
て、安定に高品質な声質変換を自動的に行って新たな変
換素片データを生成することができ、得られた変換素片
データを変換データ記憶手段に格納する。これにより、
スペクトル操作による劣化の少ない、高品質な音声素片
データを作成することができる。

【００４６】また、本発明の声質変換方法によれば、ま
ず、素片データを周波数領域のデータに変換する。素片
データを用いて音源成分と声道成分との分離しないで扱
い、新たな素片データを生成し、素片データを周波数領
域のスペクトルデータに変換することにより、時間領域
で生じる不適当な対応付けを回避する。ここで、この周
波数帯域を第１のスペクトル群とし、新たな声質変換に
よるスペクトル帯域を第２のスペクトル群とする。この
両スペクトル群の対応付けの基準となる周波数を設定し
た後、スペクトル帯域を帯域分割する周波数の対応付け
関係を明らかにする。実際にこの対応付けに基づいて第
２のスペクトル群の周波数データに声質変換を施す。得
られた各帯域の周波数データに逆スペクトル分析して時
間領域の素片データに変換して、安定に高品質な声質変
換を自動的に行って新たな変換素片データを生成してい
る。これにより、これまでなかった高品質な声質変換に
よる音声素片の自動的な作成法を確立することができ
る。

【図面の簡単な説明】

【図１】本発明に係る音声データ作成装置を声質変換装
置に適用した際の概略的な構成を示すブロック図であ
る。

【図２】図１のスペクトル抽出部の構成を示すブロック
図である。

【図３】図１の基準点設定部および帯域分割部で行う周
波数変換の対応関係を説明する模式図である。

【図４】図３の周波数対応関係を示す周波数対応表（声
質変換）の例を説明する図である。

【図５】図４の声質変換前での音声素片データの合成波
形とパワースペクトルを示すグラフである。

【図６】図４の声質変換後での音声素片データの合成波
形とパワースペクトルを示すグラフである。

【図７】図１の声質変換装置の変形例の構成を示すブロ
ック図である。

【図８】声質変換装置における周波数変換での高域成分
の抑圧を説明する模式図である。

【図９】声質変換の有無に応じて得られるパワースペク
トルの減衰特性を表す図である。

【図１０】図９の声質変換した際に生じるパワースペク
トルの減衰特性を改善する方法を説明する模式図であ
る。

【図１１】音声素片データに施す処理がスペクトル抽
出、声質変換、およびパワー調整して得られたパワース
ペクトルを表すグラフである。

【符号の説明】

10 声質変換装置 12 素片辞書 14 スペクトル抽出部 16 基準点設定部 18 帯域分割部 20 スペクトル生成部 22 FFT 分析部 24 変換素片辞書 14a バッファメモリ 14b 第１演算部 14c 第２演算部 20a 変換スペクトル作成部 20b パワー調整部 140c パワースペクトル算出部 142c 位相項算出部

Claims

【特許請求の範囲】

【請求項１】複数の音声信号が素片データ化され所定
の順序で記憶手段に配されており、該記憶手段から供給
される音声の素片データに声質変換を施して新たな音声
の素片データを作成する音声データ作成装置において、
該装置は、前記記憶手段から読み出した素片データを周波数的にス
ペクトル分析するスペクトル分析手段と、前記スペクトル分析手段で分析した素片データの周波数
帯域を第１のスペクトル群にし、新たな声質変換による
スペクトル帯域を第２のスペクトル群にして両スペクト
ル群の対応付けの基準となる周波数を設定する基準設定
手段と、該基準設定手段で設定したスペクトル帯域を帯域分割す
るとともに、前記第１および前記第２のスペクトル群の
周波数関係を対応付ける帯域分割手段と、該帯域分割手段により得られた関係の対応付けおよび前
記スペクトル分析手段からのスペクトルを用いて、前記
第２のスペクトル群の周波数データを生成するスペクト
ル生成手段と、該スペクトル生成手段からの周波数データに逆スペクト
ル分析を施す逆変換手段とを含み、前記逆変換手段から得られた素片データを変換データ記
憶手段に供給して格納することを特徴とする音声データ
作成装置。
【請求項２】請求項１に記載の装置において、前記帯
域分割手段は、生成した第１および前記第２のスペクト
ル群の区間内を単調増加関数で補間することを特徴とす
る音声データ作成装置。
【請求項３】請求項１に記載の装置において、前記ス
ペクトル生成手段は、前記周波数の対応付けの関係だけ
から、前記第１の群内のスペクトルの伸縮を行い、前記
第２のスペクトル群の周波数データを作成する変換スペ
クトル作成手段と、前記分割した第１のスペクトル群の各帯域毎にスペクト
ルのパワーを算出するとともに、該第１のスペクトル群
内のスペクトルパワーによって前記変換スペクトル作成
手段のスペクトルの大きさを調整するパワー調整手段と
を含むことを特徴とする音声データ作成装置。
【請求項４】請求項３に記載の装置において、前記パ
ワー調整手段は、前記第１および前記第２のスペクトル
群内のパワースペクトル面積が同じになるように調整す
ることを特徴とする音声データ作成装置。
【請求項５】複数の音声信号を素片データ化し所定の
順序で用意した記憶手段に配し、該記憶手段から供給さ
れる音声の素片データに声質変換を施して新たな音声の
素片データを作成する声質変換方法において、該方法
は、前記記憶手段から読み出した素片データを周波数的にス
ペクトル分析するスペクトル分析工程と、前記スペクトル分析工程で分析した素片データの周波数
帯域を第１のスペクトル群にし、新たな声質変換による
スペクトル帯域を第２のスペクトル群にして両スペクト
ル群の対応付けの基準となる周波数を設定する基準入力
工程と、該基準入力工程で設定したスペクトル帯域を帯域分割す
るとともに、前記第１および前記第２のスペクトル群の
周波数関係を対応付ける帯域分割工程と、該帯域分割工程により得られた関係の対応付けおよび前
記スペクトル分析工程からのスペクトルを用いて、前記
第２のスペクトル群の周波数データを生成するスペクト
ル生成工程と、該スペクトル生成工程からの周波数データに逆スペクト
ル分析を施す逆変換工程とを含み、前記逆変換工程により得られた素片データを別途用意し
た記憶手段に供給して格納することを特徴とする声質変
換方法。
【請求項６】請求項５に記載の装置において、前記帯
域分割工程は、前記生成した第１および第２のスペクト
ル群の区間内を単調増加関数で補間することを特徴とす
る声質変換方法。
【請求項７】請求項５に記載の装置において、前記ス
ペクトル生成工程は、前記周波数の対応付けの関係だけ
から、前記第１のスペクトル群内のスペクトルの伸縮を
行い、前記第２のスペクトル群の周波数データを作成す
る変換スペクトル作成工程と、前記分割した第１のスペクトル群の各帯域毎にスペクト
ルのパワーを算出するとともに、該第１のスペクトル群
内のスペクトルパワーに応じて前記変換スペクトル作成
工程で得られたスペクトルの大きさを調整するパワー調
整工程とを含むことを特徴とする声質変換方法。
【請求項８】請求項７に記載の装置において、前記パ
ワー調整工程は、前記第１および前記第２のスペクトル
群内のパワースペクトル面積が同じになるように調整す
ることを特徴とする声質変換方法。