JP2010049196A

JP2010049196A - 声質変換装置及び方法、音声合成装置及び方法

Info

Publication number: JP2010049196A
Application number: JP2008215711A
Authority: JP
Inventors: Masanori Tamura; 正統田村; Shinko Morita; 眞弘森田; Takehiko Kagoshima; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-08-25
Filing date: 2008-08-25
Publication date: 2010-03-04
Anticipated expiration: 2028-08-25
Also published as: JP5038995B2; US8438033B2; US20100049522A1

Abstract

【課題】少量のターゲット音声から、ターゲット音声の声質をもつ高品質の音声を容易に生成することができる声質変換方法及び装置を提供する。
【解決手段】入力されたソース音声から、その声質の特徴を表すソース音声スペクトルパラメータを抽出し、（ソース音声の声質をターゲット音声の声質に変換するための規則である）声質変換規則を用いて、ソース音声スペクトルパラメータを第１の変換スペクトルパラメータに変換し、記憶手段に記憶されている複数のターゲット音声スペクトルパラメータのなかから、第１の変換スペクトルパラメータに類似するターゲット音声スペクトルパラメータを選択し、選択されたターゲット音声スペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成し、第１の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、非周期成分スペクトルパラメータとを混合することより第２の変換スペクトルパラメータを生成する。
【選択図】図１

Description

本発明は、ソース音声（変換元の音声）の声質をターゲット音声（変換先の音声）の声質に変換する声質変換装置及び方法に関する。

変換元の音声を入力し、その声質を変換先の声質に変換する技術を声質変換技術という。声質変換技術ではまず、音声のスペクトル情報をパラメータとして表現し、変換元のスペクトルパラメータと変換先のスペクトルパラメータとの関係から声質変換規則を学習する。そして、変換元の任意の入力音声を分析してスペクトルパラメータを求め、前記声質変換規則を適用して変換先のスペクトルパラメータに変換する。得られたスペクトルパラメータから音声波形を合成することにより、入力音声の声質を変換先の声質に変換する。

声質変換の一つの方法として、混合ガウス分布（ＧＭＭ）に基づいて声質変換を行う声質変換方法（例えば、非特許文献１参照）が開示されている。非特許文献１では、変換元の音声のスペクトルパラメータからＧＭＭを求め、ＧＭＭの各混合における回帰行列を、変換元のスペクトルパラメータと、変換先のスペクトルパラメータを対にして回帰分析を行うことにより求め、声質変換規則とする。声質変換を適用する際は、入力した変換元の音声のスペクトルパラメータがＧＭＭの各混合において出力される確率により重み付けして回帰行列を適用し、変換先のスペクトルパラメータを得る。

ＧＭＭの回帰分析は、スペクトルパラメータとしてケプストラムを用い、誤差を最小化するように学習するが、スペクトルの高域成分などスペクトルの非周期的な特徴をあらわす成分を、適切に声質変換することは困難であり、声質変換した音声のこもり感、ノイズ感が生じるという問題があった。

また、第１話者の声質のスペクトルを第２話者の声質のスペクトルに変換するため、音素毎に作成した周波数ワーピングおよび、スペクトルの傾きの変換グルーピングし、グループの平均周波数ワーピング関数およびスペクトル傾きを用いて声質変換を行う声質変換装置が開示されている（特許文献１参照）。周波数ワーピング関数は、非線形周波数マッチングにより求め、スペクトル傾きは最小二乗近似した傾きによって求め、傾きの差に基づいて変換する。

周波数ワーピング関数は、フォルマント構造の明確な周期的な成分に対しては適切に求められるものの、スペクトルの高域成分などスペクトルの非周期的な特徴をあらわす成分に対して求めることは困難であり、また傾きの補正による変換は、変換規則の制約が強いため、変換先話者への類似度を高くすることは困難であると考えられる。この結果、声質変換した音声にこもり感やノイズ感が生じ、また変換先の声質への類似度が低くなるという問題がある。

任意の文章を入力し、音声波形を生成することを「テキスト音声合成」という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の３つの段階によって行われる。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報（基本周波数、音韻継続時間長など）が出力される。最後に、音声波形生成部で音韻系列・韻律情報から音声波形を生成する。

音声合成方法の一つとして、入力された音韻系列・韻律情報を目標にして、大量の音声素片を含む音声素片データベースから音声素片系列を選択して合成する素片選択型の音声合成方法がある。素片選択型の音声合成は、予め記憶された大量の音声素片の中から、入力された音韻系列・韻律情報に基づき音声素片を選択し、選択された音声素片を接続することで音声を合成する。また、入力された音韻系列・韻律情報を目標にして、入力音韻系列の各合成単位に対して、合成音声の歪みの度合いに基づいて複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成し、それらを接続して音声を合成する複数素片選択型の音声合成方法がある。融合方法としては、例えばピッチ波形を平均化する方法が用いられる。

上述した素片選択型音声合成や複数素片選択型音声合成など、テキスト音声合成の音声素片データベースを、目標とする変換先の少量の音声データを用いて声質変換する方法が開示されている（特許文献２参照）。特許文献２では、大量の変換元の音声データと、少量の変換先の音声データとを用いて声質変換規則を学習し、得られた声質変換規則を音声合成のための変換元の音声素片データベースに適用することにより、変換先の声質で任意文の音声合成を可能にする。特許文献２においては、声質変換規則としては、非特許文献１の方法などに基づいており、非特許文献１と同様スペクトルの高域成分など非周期的成分の声質変換を適切に行うことは困難であり、声質変換した音声のこもり感、ノイズ感が生じるという問題がある。
特許第３６３１６５７号公報特開２００７−１９３１３９号公報 Y. Stylianou, at el., 「Continuous Probabilistic Transform for Voice Conversion, 」 IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL.6, NO.2, MARCH 1998

上述したように、従来技術である非特許文献１および特許文献２ではスペクトルパラメータに対する回帰分析等の手法に基づいて、また特許文献１では周波数ワーピングおよび傾き補正を用いて声質変換を行っているが、スペクトルの非周期成分を適切に変換することは困難であった。その結果、声質変換した結果得られる音声にこもり感、ノイズ感が生じる場合があり、また変換先声質への類似度が低くなるという問題があった。

また、すべてのスペクトル成分を変換先音声を用いて作成する場合は、あらかじめ記憶している変換先音声が少量な場合、適切な変換先音声を作成することができないという問題がある。

そこで、本発明は、上記従来技術の問題点を解決するためになされたものであって、ソース音声（変換元音声）の声質をターゲット音声（変換先音声）の声質に変換する際に、少量のターゲット音声から、ターゲット音声の声質をもつ高品質の音声を容易に生成することができる声質変換方法及び装置、該声質変換方法を用いた声質変換方法及び装置を提供することを目的とする。

声質変換装置は、
ターゲット音声の声質の特徴を表す複数のターゲット音声スペクトルパラメータを記憶するパラメータ記憶手段と、
ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を記憶する声質変換規則記憶手段と、
入力された前記ソース音声から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出手段と、
前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第１の変換スペクトルパラメータに変換するパラメータ変換手段と、
前記パラメータ記憶手段に記憶されている前記複数のターゲット音声スペクトルパラメータのなかから、前記第１の変換スペクトルパラメータに類似する少なくとも１つのターゲット音声スペクトルパラメータを選択するパラメータ選択手段と、
選択されたターゲット音声スペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成手段と、
前記第１の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分スペクトルパラメータとを混合することより第２の変換スペクトルパラメータを得るパラメータ混合手段と、
前記第２の変換スペクトルパラメータから音声波形を生成する音声波形生成手段と、
を含み、声質の周期成分はソース音声を声質変換することにより生成し、音韻環境等の変動に対して聴覚的な感度の低い非周期成分はターゲット音声から生成し、該周期成分と該非周期成分とを混合することにより、ターゲット音声のスペクトルパラメータを生成する。

少量のターゲット音声（変換先音声）から、ターゲット音声の声質をもつ高品質の音声を容易に生成することができる。

以下、本発明の実施形態について説明する。

（第１の実施形態）
図１は、第１の実施形態に係る声質変換装置の構成例を示すブロック図である。図１の声質変換装置において、変換元（ソースsource）パラメータ記憶部１０１は、複数の変換元（ソースsource）音声のスペクトルパラメータを記憶し、変換先(ターゲットtarget)パラメータ記憶部１０２は複数の変換先(ターゲットtarget)音声のスペクトルパラメータを記憶する。

声質変換規則作成部１０３は、変換元パラメータ記憶部１０１に記憶されている変換元スペクトルパラメータと、変換先パラメータ記憶部１０２に記憶されている変換先スペクトルパラメータとを用いて声質変換規則を作成する。この声質変換規則は、声質変換規則記憶部１０４に記憶される。

変換元パラメータ抽出部１０５は、変換元音声（ソース音声）から変換元スペクトルパラメータを抽出し、パラメータ変換部１０６は、抽出された変換元スペクトルパラメータを、声質変換規則記憶部１０４に記憶されている声質変換規則を用いて声質変換し、第１の変換スペクトルパラメータを得る。

パラメータ選択部１０７が、変換先パラメータ記憶部１０２から変換先スペクトルパラメータを選択すると、非周期成分作成部１０８は、選択された変換先スペクトルパラメータから非周期成分スペクトルパラメータを作成する。

パラメータ混合部１０９は、第１の変換スペクトルパラメータの周期成分と上記非周期成分スペクトルパラメータとを混合し、第２の変換スペクトルパラメータを得る。

波形生成部１１０は、上記第２の変換スペクトルパラメータから音声波形を生成し、変換音声を得る。

図１の声質変換装置は、以上の構成により、入力された変換元音声を声質変換して、変換先音声を生成する。

変換元パラメータ記憶部１０１と、変換先パラメータ記憶部１０２はそれぞれ、変換元の声質の音声データから抽出した変換元スペクトルパラメータと、変換先の声質の音声データから抽出した変換先スペクトルパラメータが記憶されている。声質変換規則生成部１０３は、これらのスペクトルパラメータを用いて声質変換規則を作成する。

スペクトルパラメータとは、音声のスペクトル情報を表したパラメータであり、フーリエ変換により作成した離散スペクトル、ＬＳＰ係数、ケプストラム、メルケプストラム、ＬＳＰ係数や、後述する局所基底に基づくパラメータなど、声質変換に用いる特徴パラメータである。音声合成の素片データベースを効率的に作成することを考慮した場合、変換元パラメータ記憶部１０１は、中から大規模な量の変換元スペクトルパラメータを記憶し、変換先パラメータ記憶部１０２には少量の変換先スペクトルパラメータが記憶されることを想定する。

図１の声質変換装置によれば、少量の目標とする変換先の声質の音声を用意するのみで、その声質をもつ任意文の合成音声を生成するこが可能になる。

声質変換規則作成部１０３は、変換元パラメータ記憶部１０１に記憶されている変換元スペクトルパラメータおよび、変換先パラメータ記憶部１０２に記憶されている変換先スペクトルパラメータから声質変換規則を作成する。声質変換規則とは、変換元スペクトルパラメータと変換先スペクトルパラメータとの関係から、変換元の声質のスペクトルパラメータを変換先の声質のスペクトルパラメータに変換する規則である。

声質変換規則を求めるには、回帰分析、ＧＭＭに基づく回帰分析（非特許文献１）、周波数ワーピング（特許文献１）などの手法を用いることができ、声質変換規則のパラメータは、変換元スペクトルパラメータと変換先スペクトルパラメータとを対応づけ、得られた学習データの対から作成する（特許文献２）。

声質変換規則記憶部１０４には、声質変換規則作成部１０３で作成された声質変換規則と、複数の声質変換規則がある場合は声質変換規則を選択するための情報を記憶している。

変換元パラメータ抽出部１０５は、入力された変換元音声から変換元スペクトルパラメータを求める。変換元音声から所定の長さの音声フレームを切り出し、得られた音声フレームをスペクトル分析し、変換元スペクトルパラメータを求める。パラメータ変換部１０６は、声質変換規則記憶部１０４に記憶されている声質変換規則を用いて、前記変換元のスペクトルパラメータを声質変換し、第１の変換スペクトルパラメータを得る。

パラメータ選択部１０７は、第１の変換スペクトルパラメータに対応する変換先スペクトルパラメータを変換先パラメータ記憶部１０２から選択する。変換先スペクトルパラメータの選択は、第１の変換スペクトルパラメータとの類似度に基づいて行うことができる。類似度は変換先パラメータ記憶部１０２に記憶されている各変換先スペクトルパラメータと、第１の変換スペクトルパラメータとの類似の度合を数値化したものであり、スペクトル距離に基づいて求めることや、変換元スペクトルパラメータの韻律情報や後述する音韻環境などの属性の違いを数値化したコスト関数に基づいて求めることができる。パラメータ選択部１０７では、第１変換スペクトルパラメータに対し、１つだけでなく、複数の変換先スペクトルパラメータを選択してもよい。

非周期成分作成部１０８では、選択された変換先スペクトルパラメータから非周期成分スペクトルパラメータを作成する。

音声のスペクトルは、大きく周期成分と非周期成分にわけられる。一般的に有声音の音声波形はピッチ周期の周期的な波形としてあらわされる。このピッチ周期に同期した成分を周期成分、その他の成分を非周期成分とよぶ。周期成分は、主に、声帯の振動によって励振され、声道特性および放射特性に従うスペクトル包絡をもつ成分である。非周期成分は、声道内によって生じる空気音の乱流による雑音的な成分や、空気流を一時的にとめて解放することにより生じるインパルス音的な成分など、主に、声帯の振動以外の要素により生成される。有声音では、パワーの強い低域の成分は周期成分が多く含まれ、非周期成分は主にスペクトルの高い帯域に含まれる。従って、ある境界周波数によって２つの帯域にわけた高域成分を非周期成分、低域成分を周期成分として扱うことがある。また、ピッチの整数倍の窓関数で分析し、基本周波数の整数倍以外の周波数の振幅に基づいて非周期成分を作成し、基本周波数の整数倍のハーモニクス成分に基づいて周期成分を作成することもある。

非周期成分作成部１０８では、選択された変換先スペクトルパラメータを周期成分と非周期成分に分離し、非周期成分スペクトルパラメータを抽出する。複数の変換先スペクトルパラメータを選択した場合は、該複数の変換先スペクトルパラメータの非周期成分を代表する非周期成分スペクトルパラメータを作成する。たとえば、選択された複数のスペクトルパラメータを平均化した後に、非周期成分を抽出することにより作成することができる。

パラメータ混合部１０９では、パラメータ変換部１０６で得られた第１の変換スペクトルパラメータと、非周期成分作成部１０８で作成された非周期成分スペクトルパラメータとから第２の変換スペクトルパラメータを生成する。

まず、第１の変換スペクトルパラメータを周期成分および非周期成分に分離し、第１の変換スペクトルパラメータの周期成分を抽出する。この分離処理は、非周期成分作成部１０８と同様である。すなわち、境界周波数を定めて低域と高域に分離する場合は、非周期成分作成部１０８で求めた境界周波数を用いて分離し、低域成分を周期成分として抽出することができる。また、基本周波数の整数倍のハーモニクス成分を抽出することにより第１の変換スペクトルパラメータから周期成分を抽出することができる。このように抽出した第１の変換スペクトルパラメータの周期成分と、非周期成分作成部１０８で作成された非周期成分スペクトルパラメータとを混合し、第２の変換スペクトルパラメータを生成する。

このように、本実施形態では、周期成分は変換元スペクトルパラメータを声質変換することにより作成し、非周期成分は、変換先スペクトルパラメータから作成する。周期成分は、音韻環境などの変動に対して聴覚的に敏感であるのに対し、非周期成分は、話者個人性に与える影響は大きいものの、音響環境の変動に対して、比較的感度が低いという傾向がみられる。また、非周期成分の変換はパワーの小さい成分であることやノイズ的な成分であることから、統計的に変換規則を作成することは困難である。従って、変換によって作成する場合より、変換先スペクトルパラメータから直接作成した方が変換先の音声の特徴の再現性が高い。このため、少量の変換先スペクトルパラメータのみを変換先パラメータ記憶部１０２に記憶している場合においても、全帯域を声質変換することにより作成する場合と比較し、適切な（より変換先の音声に近い）第２の変換スペクトルパラメータが得られる。

波形生成部１１０では、第２の変換スペクトルパラメータから音声波形を生成する。励振源を与えてフィルタを駆動することや、第２の変換スペクトルパラメータから求めた離散スペクトルに適当な位相を与えて逆フーリエ変換し、ピッチマークに従って重畳することにより音声波形を生成し、それらを接続することにより変換音声が得られる。

次に、図２に示すフローチャートを参照して１の声質変換装置の処理動作について説明する。まず、変換元パラメータ抽出部１０５は、入力された変換元音声から、各音声フレームの波形を切り出し（ステップＳ２０１）、切り出した音声フレームをスペクトル分析し、変換元スペクトルパラメータを得る（ステップＳ２０２）。

次にパラメータ変換部１０６は、声質変換規則記憶部１０４から声質変換規則を選択し（ステップＳ２０３）、この選択された声質変換規則を用いて変換元スペクトルパラメータを変換し、第１の変換スペクトルパラメータを得る（ステップＳ２０４）。

パラメータ選択部１０７は、得られた第１の変換スペクトルパラメータと、変換先パラメータ記憶部１０２に記憶されている各変換先スペクトルパラメータとの類似度を算出し（ステップＳ２０５）、該第１の変換スペクトルパラメータに最も類似度の高い１つまたは複数の変換先スペクトルパラメータを選択する（ステップＳ２０６）。

非周期成分作成部１０８は、選択された変換先スペクトルパラメータから、境界周波数など、周期・非周期成分を分離するために用いる情報を求め、分割方法を決定する（ステップＳ２０７）。そして、求めた情報（例えば境界周波数）を用いて実際に変換先スペクトルパラメータを周期成分と非周期成分とに分離し、非周期成分スペクトルパラメータを抽出する（ステップＳ２０８）。

パラメータ混合部１０９は、まず、ステップＳ２０４で得られた第１の変換スペクトルパラメータを周期・非周期成分に分離して、第１の変換スペクトルパラメータの周期成分を抽出する（ステップＳ２０９）。この抽出された第１の変換スペクトルパラメータの周期成分と、ステップＳ０８で得られた非周期成分スペクトルパラメータとを混合することにより第２の変換スペクトルパラメータを生成する（ステップＳ２１０）。

最後に、波形生成部１１０は、こうして得られた各第２の変換スペクトルパラメータから音声波形を生成し（ステップＳ２１１）、これらを接続することにより、声質変換された音声を生成する（ステップＳ２１２）。

以下、具体例に基づき、第１の実施形態に係る声質変換装置の処理動作をより詳細に説明する。本実施形態に係る声質変換装置は、スペクトルパラメータ、声質変換方法、周期・非周期分離方法、変換先スペクトル選択方法、波形生成方法など、各ステップにおいて、さまざまな方法を用いることができるが、ここではまず１例として、スペクトルパラメータとして、局所的な基底に基づくスペクトル包絡パラメータを用い、声質変換規則としては周波数ワーピングおよび乗算パラメータを用い、周期・非周期分離はスペクトルパラメータから求めたパワーの累積値に基づいて行う場合について述べる。

局所的な基底に基づくスペクトル包絡パラメータについて説明する。変換元パラメータ記憶部１０１、変換先パラメータ記憶部１０２には、それぞれ音声データから求めたスペクトル包絡パラメータが記憶されている。変換元パラメータ抽出部１０５は、入力された変換元音声からスペクトル包絡パラメータを抽出する。局所的な基底に基づくスペクトル包絡パラメータは、音声から求めたスペクトル情報を、局所的な基底の線形結合により表現する。ここではスペクトル情報としては、対数スペクトルを用い、局所的な基底はあらかじめ定めた周波数スケールに対してハニング窓を用いて作成したものを用いる。

図３に周波数スケールを示す。図３の横軸は周波数を表わし、周波数スケールはこのように周波数上の間隔をあらわす。図３に定めた周波数スケールは、０〜π／２まではメルスケール上で等間隔な点、

とし、π／２〜πは直線スケール上で等間隔な点

としている。Ｎ_warpはメルスケールの帯域から等間隔な帯域に、間隔が滑らかに変化するように求めており、２２．０５Ｋｈｚの信号を、Ｎ＝５０、α＝０．３５として求める場合、Ｎ_warp＝３４となる。Ω（ｉ）はｉ番目のピーク周波数を示す。この様にスケールを定め、この間隔に従って局所的な基底を作成する。基底ベクトルΦ_i（ｋ）はハニング窓を用いて作成しており、１≦ｉ≦Ｎ−１に対しては、

とし、ｉ＝０に対しては、

として作成する。ただし、Ω（０）＝０，Ω（Ｎ）＝πとする。

すなわち、Ｎ個のピーク周波数のそれぞれに対応する複数の基底のそれぞれは、当該ピーク周波数を含む任意の周波数帯域に値が存在し、該周波数帯域の外側における値が零である。また、（ピーク周波数が）隣接する２つの基底は、それぞれの値が存在する周波数帯域が重なる。

このように作成した局所基底を図４Ａ、図４Ｂに示す。図４Ａは基底をそれぞれプロットしたもの、図４Ｂはすべての局所基底を重ねたものを示している。この基底とそれぞれの基底に対する係数を用いて、対数スペクトルを表現する。音声データｘ（ｎ）をフーリエ変換することにより求めた対数スペクトルＸ（ｋ）は、Ｎ点の線形結合として、次式であらわされる。

係数ｃ_iは、最小自乗法によって求めることができる。このように求めた係数をスペクトルパラメータとして用いる。

すなわち、音声信号から、音源の周期性によるスペクトルの微細構造成分を除いたスペクトルであるＬ次のスペクトル包絡情報を抽出する。そして、Ｎ個（Ｌ＞Ｎ＞１）の各基底とそのそれぞれ対応する基底係数ｃ_iの線形結合と、抽出されたスペクトル包絡情報との歪み量とが最小となるように、該基底係数ｃ_iを求める。この基底係数の集まりが、スペクトル包絡情報のスペクトルパラメータである。

図５Ａは、変換元パラメータ記憶部１０１に記憶されている、変換元の音声データから求めたスペクトルパラメータの一例を示している。図５Ｂは、変換先パラメータ記憶部１０２に記憶されている、変換先の音声データから求めたスペクトルパラメータの一例を示している。図５Ａ及び５Ｂは、声質変換規則作成のための音声データとして、変換元音声および変換先音声を用意し、それぞれから求めたスペクトルパラメータの例である。

図６は、スペクトル包絡パラメータの抽出例を示している。音声データから求めたピッチ波形（図６（ａ））から対数スペクトル包絡（図６（ｂ））を求め、式（５）にしたがって係数ｃ_iを求める（図６（ｃ））。図６（ｄ）はこの係数と基底から再構築したスペクトル包絡である。図６（ｃ）に示すように、局所基底に基づくスペクトル包絡パラメータは、スペクトルの概形を表すパラメータになるため、パラメータの各次元のマッピングによって周波数方向のスペクトルの伸縮である周波数ワーピングを実現することができるという特徴がある。

声質変換規則記憶部１０４は、変換元パラメータ記憶部１０１に記憶されている変換元スペクトルパラメータと、変換先パラメータ記憶部１０２に記憶されている変換先スペクトルパラメータとから作成した声質変換規則を記憶する。変換規則として、周波数ワーピング関数と乗算パラメータを用いる場合は、次式によって声質変換を行う。

ｙ（ｉ）はｉ次の変換後のスペクトルパラメータであり、ａ（ｉ）は乗算パラメータ、Ψ（ｉ）は周波数ワーピングを表す関数であり、ｘ（ｉ）は変換元のスペクトルパラメータである。このΨ（ｉ）およびａ（ｉ）と、声質変換規則の選択に用いる情報を声質変換規則記憶部１０４に記憶している。声質変換規則作成部１０３は、変換元スペクトルパラメータと、変換先スペクトルパラメータの対を作成し、それらの対から声質変換規則を作成する。変換元のスペクトルパラメータをＬＢＧクラスタリングし、各クラスタにおいて変換規則を作成する場合、声質変換規則選択情報は各クラスタの変換元のスペクトルパラメータのセントロイドｃ_selと、各クラスタにおける周波数ワーピング関数Ψおよび乗算パラメータａを保持する。

図７は、声質変換規則作成部１０３の処理動作を説明するためのフローチャートである。図７において、まず、各変換先スペクトルパラメータに対して、変換元スペクトルパラメータを選択し、スペクトルパラメータ対を求める（ステップＳ７０１）。この対を求める方法として、同じ発話内容を発声した変換元音声データと変換先音声データから、それぞれのスペクトルパラメータを対応づける方法がある。また、特許文献２に記載されているように、変換元音声データおよび変換先音声データを音素・半音素・音節・ダイフォンなどの音声単位の音声素片に分割し、各変換先音声素片に対してコスト関数を用いて、変換元の音声素片群のなかから最適な音声素片を選択する。そして、変換元の音声素片と変換先の音声素片とを対応づけ、音声素片内で時間方向に各スペクトルを対応づける方法も用いることができる。

ステップＳ７０１で求めた複数個のスペクトルパラメータの対を用いて、以下の処理を行う。すなわち、まず、ステップＳ７０２では、複数個の対のそれぞれの変換元スペクトルパラメータをクラスタリングする。クラスタリングは、規則による分類や、スペクトル距離に基づくクラスタリング、ＧＭＭによる混合分布の作成、決定木に基づくクラスタリングなどにより行うことができる。規則による分類の場合、音素種別による分類や調音方法による分類など、あらかじめ分類規則を定め、それにしたがってクラスタリングを行う。スペクトル距離に基づくクラスタリングの場合は、変換元スペクトルパラメータに対してＬＢＧアルゴリズムを適用し、スペクトルパラメータのユークリッド距離等に基づいてクラスタリングを行い、各クラスタのセントロイドｃ_selを作成する。ＧＭＭに基づく場合は、尤度最大化基準に基づいて、各クラスタ（混合）の平均ベクトル、共分散行列、および混合重みを学習データから求める。また、決定木に基づくクラスタリングの場合は、各スペクトルパラメータの属性を定めて、属性を２分割する質問のセットを用意し、誤差を最小にする質問を順次探索していくことにより作成する。このように、変換元スペクトルパラメータのクラスタリングステップでは、あらかじめ定めたクラスタリング方法に従って、変換元スペクトルパラメータのクラスタリングを行う。以下、クラスタリングとしては、物理距離に基づくＬＢＧクラスタリングを用いる。クラスタリングを行わず、各スペクトルパラメータ対それぞれについて声質変換規則を作成し、記憶してもよい。

得られた各クラスタについて、以下に示すような処理（ステップＳ７０３〜ステップＳ７０７）を行い、各クラスタに対する声質変換規則を作成する。

まず、ステップＳ７０３では、クラスタ内の各スペクトルパラメータ対に対して、周波数ワーピング関数を作成する。周波数ワーピング関数は、変換元スペクトルパラメータと、変換先スペクトルパラメータのＤＰマッチングによって作成することができる。ＤＰマッチングは、誤差を最小にするようにデータ列の対応づけを行う方法であり、ｉ次の変換元のスペクトルパラメータを周波数方向にシフトして、ｊ次の変換先のスペクトルパラメータに対応づける周波数ワーピング関数Ψ（ｉ）＝ｊが得られる。対応付けの際にＤＰマッチングのパスの制約を与えることにより、制約下でのワーピング関数を求めることができ、たとえば全学習データ対を用いて作成した周波数ワーピング関数からのずれ幅の制約などを与えることにより、安定した周波数ワーピング関数を作成することができる。また、ＤＰマッチングを行う際のパラメータとして、前後の次元の差分の情報や、時間方向の前後のフレームのスペクトルパラメータなどを加えることにより、安定した周波数ワーピング関数を求めることができる。

次に、ステップＳ７０４において、ステップＳ７０３において作成した各スペクトルパラメータ対に対応する周波数ワーピング関数を平均化することにより、各クラスタの平均周波数ワーピング関数を求める。

ステップＳ７０５では、乗算パラメータを得るため、各クラスタのスペクトルパラメータ対から、平均変換元スペクトルパラメータおよび平均変換先スペクトルパラメータを求める。これらは各パラメータを平均化することにより作成する。

ステップＳ７０６では、得られた平均変換元スペクトルに対して、前記平均周波数ワーピング関数を適用し、その結果である周波数ワーピングの施された平均変換元スペクトルパラメータを得る。そして、ステップＳ７０７では、平均変換先スペクトルパラメータと、周波数ワーピングの施された平均変換元スペクトルパラメータとの比を求めることにより乗算パラメータを得る。

以上のステップＳ７０３からステップＳ７０７を各クラスタに対して行うことにより、声質変換規則が作成される。

作成した声質変換規則の例を図８に示す。声質変換規則はクラスタリングした結果の各クラスタに対して、選択情報ｃ_sel、周波数ワーピング関数Ψ、乗算パラメータａを記憶している。選択情報ｃ_selは、ＬＢＧクラスタリングに基づく場合は当該クラスタ中の変換元スペクトルパラメータのセントロイドであり、図８に示したように変換元平均スペクトルパラメータになる。

その他のクラスタリングを用いる場合は、それぞれの選択情報が記憶される。ＧＭＭを用いる場合、選択情報はそのパラメータとなる。決定木クラスタリングを用いる場合、別途決定木の情報を持ち、各クラスタがどのリーフノードに対応するかを示す情報が選択情報となる。クラスタリングせずに各スペクトル対それぞれに対して記憶する場合は、各変換元スペクトルパラメータをそのまま選択情報として記憶する。

周波数ワーピング関数Ψは、図８に示すように、横軸を入力、縦軸を出力として、パラメータの次元の対応づけを表す関数になる。また乗算パラメータａは、図８に示すように周波数ワーピングの施された変換元スペクトルパラメータと、変換先スペクトルパラメータとの比率を表す。以上の処理により声質変換規則記憶部１０４に記憶されている声質変換規則が作成される。

上述した声質変換規則を利用して、変換元音声を入力し、変換先音声を出力する声質変換装置の処理について述べる。

まず、変換元パラメータ抽出部１０５は、図９に示すように、変換元音声から音声フレームを切り出し（ステップＳ２０１）、さらに、変換元のスペクトルパラメータを抽出する（ステップＳ２０２）。

ここでは音声フレームとしてピッチ波形を用いる。音声データと対応するピッチマークとから、音声フレームを切り出す。各ピッチマークを中心として、ピッチの２倍のハニング窓を掛けることによりピッチ波形を切り出す。すなわち、図９（ａ）に示すように、「ま」という音声の音声波形に対し、図９（ｂ）に示すように、この各ピッチマークを中心に、ピッチ同期分析に用いる音声フレームの長さ（ピッチの２倍の長さ）のハニング窓を掛ける。これにより切り出したピッチ波形（図９（ｃ））から、図９（ｄ）に示すように、変換元スペクトルパラメータｃ_srcが得られる。

なお、本実施形態では、図９に示したように、音声の各ピッチ波形に対して、スペクトルパラメータを抽出しているが、固定のフレーム長、フレームレートを用いて分析してもよい。

パラメータ変換部１０６では、上記のようにして得られた変換元スペクトルパラメータｃ_srcを変換し、第１の変換スペクトルパラメータｃ_conv1を生成する（ステップＳ２０３、ステップＳ２０４）。まず、ステップＳ２０３において、声質変換規則記憶部１０４に記憶されている声質変換規則から、声質変換規則を選択する。ここでは、変換元スペクトルパラメータｃ_srcと声質変換規則記憶部１０３に選択情報として記憶されている各クラスタの変換元スペクトルパラメータｃ_selとのスペクトル距離を求め、距離を最小化するクラスタｋを選択する。

次にステップＳ２０４において、選択されたクラスタｋの周波数ワーピング関数Ψ_kおよび乗算パラメータａ_kを用いて、次式（８）に従って、実際にスペクトルｃ_srcの変換を行い、ｃ_conv1を得る。

この様子を図１０に示す。まず、図１０（ａ）に示す変換元スペクトルパラメータｃ_srcに対して、周波数ワーピング関数ψ_ｋを適用して、周波数ワーピング後の変換元スペクトルパラメータを得る。これはスペクトル領域で周波数方向にシフトさせる処理になる。図１０（ｂ）の点線はｃ_src、実線は周波数ワーピング後のスペクトルパラメータを示しており、この様子がわかる。そして、周波数ワーピング後のスペクトルパラメータに乗算パラメータａ_kを掛けることにより、図１０（ｃ）に示すように、第１の変換スペクトルパラメータｃ_conv1を得る。

音声のスペクトルにおいて、声道内などの共振周波数であるフォルマント周波数は、音韻性や話者性などの違いをあらわす重要な情報である。周波数ワーピングは、主にこのフォルマント周波数を移動させる処理を意味し、フォルマント周波数の変換によって声質が変わることが知られている。さらに、変換後に乗算パラメータによって振幅方向の値（係数値）を変換することにより形状を調整し、第１の変換先スペクトルパラメータが得られる。

上述した変換方法は、ケプストラムの回帰分析による変換などと比較すると物理的な意味が明確になるという特徴がある。以上の処理を、入力した変換元音声の各音声フレームから求めたスペクトルパラメータに対して適用し、それぞれの時刻における第１の変換スペクトルパラメータを得る。

次に、変換先スペクトル選択部１０７は、ステップＳ２０５において、各音声フレームに対し求めた第１の変換スペクトルパラメータｃ_conv1と変換先パラメータ記憶部１０２に記憶されている各変換先スペクトルパラメータとの類似度を計算する。そして、ステップＳ２０６において、各第１の変換スペクトルパラメータに対し、最も類似する（類似度が最大の）変換先スペクトルパラメータｃ_tgtを選択する。類似度としてスペクトル距離を用いる場合は、スペクトルパラメータのユークリッド距離を求め、距離最少となる変換先スペクトルパラメータを選択する。スペクトル距離でなく、たとえばｆ_０や音韻環境など属性の違いをあらわすコスト関数を類似度として用いてもよい。このように、変換先スペクトル選択部１０７では、変換先のスペクトルパラメータを選択する。

なおパラメータ選択部１０７は、上述の説明では、１つの第１変換スペクトルパラメータに対し、１つの変換先スペクトルパラメータを選択したが、この場合に限らない。１つの第１変換スペクトルパラメータに対し、複数の変換先スペクトルパラメータを選択してもよい。その場合、類似度（距離）で順位付けを行い、上位の複数の変換先スペクトルパラメータを選択する。

非周期成分作成部１０８は、パラメータ選択部１０７で選択された変換先スペクトルパラメータを周期成分と非周期成分とに分離する。まず、ステップＳ２０７では周期成分および非周期成分の分割に必要なパラメータを求める。スペクトルパラメータを高域成分および低域成分に分割する場合は、ここで声質の周期成分と非周期成分との境界にある境界周波数を求める。

パラメータ選択部１０７で選択された変換先スペクトルパラメータまたは第１の変換スペクトルパラメータから、上記境界周波数を求めることができる。すなわち、スペクトルパラメータのリニア振幅領域における累積値に基づいて境界周波数を決定する場合は、まず式（９）に従って、周波数毎の振幅を全周波数帯域にわたって累積した値、すなわち、リニア領域における累積値ｃｕｍを求める。

さらに、得られたｃｕｍと、予め定めた係数λ（＜１）とを用いて、全周波数帯域の振幅の累積値ｃｕｍのうち予め定められた割合λ・ｃｕｍを定める。そして、式（１０）によって、周波数が最も低い方から順に周波数毎の振幅を累積していき、その値がλ・ｃｕｍ以下で且つ最大となる周波数（次数）ｑを求める。このｑの値が境界周波数である。

以上の処理により、境界周波数ｑを求めることができる。次に、ステップＳ２０８において、実際にスペクトルパラメータの分離を行い、非周期成分スペクトルパラメータｃ_hを得る。

非周期成分スペクトルパラメータｃ_hは、式（１１）に示すように、低域を「０」とすることにより求めてもよいし、境界付近に単調増加する重みをかけて滑らかに値をもつようにしてもよい。

パラメータ選択部１０７で複数の変換先スペクトルパラメータを選択した場合は、選択した複数の変換先スペクトルパラメータを平均化してｃ_tgtを求め、上述した処理と同様に境界周波数を求める。平均化した後、聴覚重み付けフィルタの処理や、スペクトルパラメータの谷強調の処理などをさらに適用し、ｃ_tgtおよびｃ_hを作成してもよい。

図１１に選択された変換先スペクトルパラメータｃ_tgtを分割し、ｃ_hを作成する様子を示す。図１１（ａ）に選択された変換先スペクトルパラメータを示し、図１１（ｂ）に求めた非周期成分スペクトルパラメータを示す。図１１に示すように、スペクトルパラメータの高域の成分および低域の成分にわけ、それぞれ非周期成分、周期成分とする。

パラメータ混合部１０９では、図１２に示すように、パラメータ変換部１０６で得られた第１の変換スペクトルパラメータｃ_conv1（図１２（ａ）参照）から、周期成分スペクトルパラメータｃ_lを作成し（図１２（ｂ）参照）、非周期成分作成部１０８で得られた非周期成分スペクトルパラメータｃ_h（図１２（ｃ）参照）と混合する事により（図１２（ｄ）参照）、第２の変換スペクトルパラメータｃ_conv2を得る。

高域・低域に分割する場合、ステップＳ２０９では、非周期成分作成部１０８で求めた境界次数ｑを用いて、次式（１２）に示すように、第１の変換スペクトルパラメータの境界次数ｑより小さい低域部分と境界次数ｑ以上の高域部分とに分割し、この低域部分を周期成分変換スペクトルパラメータｃ_lとする。

ステップＳ２１０では、周期成分変換スペクトルパラメータｃ_lと、非周期成分スペクトルパラメータｃ_hとを混合し、第２の変換スペクトルパラメータｃ_conv2を得る。

このように、パラメータ混合部１０９で行う「混合」は、第１の変換スペクトルパラメータの境界次数ｑより高い高域部分を非周期成分作成部１０８で作成された非周期成分で置き換えることにより、第２の変換スペクトルパラメータを生成することである。

パラメータ混合部１０９で混合する際は、パワーを調整して混合してもよい。この場合、次式（１３）を用いて、第１の変換スペクトルパラメータのパワーｐ_conv1および変換先スペクトルパラメータのパワーｐ_tgtを求め、その比率からパワーの補正量ｒを求めて、パワーを調整した非周期成分スペクトルパラメータと周期成分変換スペクトルパラメータとを混合する。

波形生成部１１０では、第２の変換スペクトルパラメータｃ_conv2から音声波形を生成する。ステップＳ２１１において、ｃ_conv2からピッチ波形を生成し、ステップＳ２１２においてピッチマークに従って重畳・接続を行うことにより音声波形を生成する。ｃ_conv2から式（５）を用いてスペクトルパラメータを生成し、適当な位相を与えて逆フーリエ変換することにより音声波形を生成する。これにより声質変換した音声が得られる。

図１３に示すように、第２の変換スペクトルパラメータｃ_conv2から離散スペクトルを生成し、逆ＦＦＴを施すことによりピッチ波形を生成し、ピッチマークに従って重畳することにより声質変換した音声波形が生成される。

ピッチ波形の生成には位相情報が必要になるが、位相スペクトル情報も局所的な基底に基づくパラメータにより位相パラメータを求め、式（１０）によって求めた境界次数を用いて周期成分および非周期成分に分離する。周期成分は変換元の位相パラメータを用いて、非周期成分は選択された変換元スペクトルパラメータの位相パラメータを用いて混合することにより生成することができる。位相パラメータｈ_iは、アンラップした位相スペクトルをａｒｇ（Ｘ（ｋ））としたとき、以下の式により求められる。

このように求めた位相パラメータを用いて、波形生成部１１０においてピッチ波形を生成する際に用いる位相スペクトルを作成する。位相スペクトルパラメータの抽出例を図１４に示す。図１４（ａ）は変換元音声の音声フレームのピッチ波形、図１４（ｂ）は、各ピッチ波形の位相スペクトル（アンラップした位相）、図１４（ｃ）は、各位相スペクトルから求めた位相パラメータ、図１４（ｄ）は式（１４）により再生成した位相スペクトルを示している。

また、位相スペクトル作成処理動作を図１５に示す。なお、図１５において、図２と同一部分には同一符号を付している。

変換元パラメータ抽出部１０５は、ステップＳ２０１において、変換元音声から音声フレームを抽出すると、ステップＳ１５０１において、図１４に示すように位相スペクトル、さらに、その特徴を示す位相パラメータを抽出する。

なお、上記変換元音声と同様に、変換先パラメータ記憶１０２には、変換先音声から求めた位相パラメータが記憶されている。この位相パラメータは、対応する変換先スペクトルパラメータ及び選択情報に対応付けて変換先パラメータ記憶１０２に記憶されている。

図２のステップＳ２０３〜ステップＳ２０４で第１の変換スペクトルパラメータが生成されると、前述したように、パラメータ選択部１０７は、ステップＳ２０５において、得られた第１の変換スペクトルパラメータと、変換先パラメータ記憶部１０２に記憶されている変換先スペクトルパラメータとの類似度を求め、図２のステップＳ２０６で類似度が最も高いものから順に１つまたは複数の変換先スペクトルパラメータを選択する。このとき、パラメータ選択部１０７は、選択された変換先スペクトルパラメータに対応付けて変換先パラメータ記憶部１０２に記憶されている位相パラメータ（変換先位相パラメータ）も選択する。

次に、非周期成分作成部１０８は、前述したように、ステップＳ２０７において、周期成分および非周期成分の分割するための境界次数ｑを得る。得られた境界次数ｑを用いてステップＳ１５０３において、変換先位相パラメータを周期成分および非周期成分に分離し、非周期成分ｈ_hを求める。式（１１）と同様に境界次数ｑより上の帯域を抽出することにより、非周期成分ｈ_hを求めることができる。

パラメータ混合部１０９は、前述したように、第１の変換スペクトルパラメータを周期成分と非周期成分とに分離して、第１の変換スペクトルパラメータの周期成分を抽出し、抽出された第１の変換スペクトルパラメータの周期成分と、非周期成分スペクトルパラメータとを混合することにより第２の変換スペクトルパラメータを生成する。さらに、パラメータ混合部１０９は、ステップＳ１５０４において、ステップＳ１５０１において求めた変換元の位相パラメータから、式（１２）と同様に低域成分を抽出することにより、周期成分位相パラメータｈ_lを得る。そして、ステップＳ１５０５において、得られた周期成分位相パラメータｈ_lおよび非周期成分位相パラメータｈ_hを混合することにより変換位相パラメータｈ_iを求め、得られたｈ_ｉから式（１４）を用いて位相スペクトルを生成する。

得られた位相スペクトルは、波形生成部１１０が、ステップＳ２１１において、ピッチ波形を生成する際に用いる。

このように、変換音声の音声波形を生成する際に用いる位相スペクトルの低域部分に相当する（自然に変化する）周期成分は、入力された変換元音声から得られた位相パラメータから生成し、高域部分は変換先位相パラメータの非周期成分を用いるため、自然な変換音声が得られる。

上述した実施形態では、変換規則として変換元のＬＢＧクラスタリングに基づく声質変換を用いたが、これに限定するものではない。

声質変換規則記憶部１０４には学習データとして作成した変換元および変換先のスペクトルパラメータ対それぞれの周波数ワーピング関数および乗算パラメータを蓄積しておき、そこから声質変換規則を選択することにより声質変換することができる。この場合、パラメータ変換部１０６はステップＳ２０３において、各変換元スペクトルに対し、類似度に基づいて１つまたは複数の声質変換規則を選択する。そして、選択された１つの声質変換規則または複数の声質変換規則から作成した平均的な声質変換規則を、声質変換に用いることができる。選択された複数の声質変換規則を平均化する際は、周波数ワーピング関数Ψおよび、乗算パラメータａをそれぞれ平均化することにより、平均周波数ワーピング関数および、平均乗算パラメータを求めて、声質変換を行うことができる。これにより、あらかじめ準備したさまざまな変換規則のなかから、適切な変換規則の選択、もしくは近傍の複数の変換規則の平均化により、適切な声質変換規則を作成することができる。これにより、本実施形態に基づく声質変換装置の周期成分のスペクトル変換を高品質に行うことができる。

また、上述の声質変換装置では、局所基底に基づくスペクトルパラメータを用いたが、同様の処理をＦＦＴによって求めた離散スペクトルによって行うこともできる。この場合、変換元パラメータ記憶部１０１及び変換先パラメータ記憶部１０２には、それぞれＦＦＴなどにより求めた離散スペクトルを記憶し、変換元パラメータ抽出部１０５は、ステップＳ２０２において離散スペクトルを求める。その後、周波数ワーピングおよび乗算パラメータを用いて変換した後、変換したスペクトルの周期成分と、選択した変換先の非周期成分のスペクトルを混合し、波形生成することにより、変換音声を生成することができる。位相も同様に離散スペクトルによる位相パラメータを用いることができる。

また、本実施形態に係る声質変換装置においては、上述した方式のみでなく、さまざまなスペクトル変換方法やスペクトルパラメータを用いることができる。以下、他のスペクトル変換方法として、ここでは差分パラメータによる方法、および非特許文献１に記載されているＧＭＭに基づく回帰分析による方法について述べる。この場合、スペクトルパラメータとしては、上述した局所基底に基づくパラメータや離散スペクトルなど周波数領域のパラメータのみでなく、ケプストラム、メルケプストラム、ＬＳＰなどのスペクトルパラメータを用いることができる。

差分パラメータを用いて声質変換を行う場合、パラメータ変換部１０６では、式（６）の代わりに式（１５）を用いて声質変換を行う。

ｙは変換後のスペクトルパラメータであり、ｂは差分パラメータであり、ｘは変換元のスペクトルパラメータである。この差分パラメータｂと、声質変換規則の選択に用いる情報（選択情報）とを声質変換規則記憶部１０４に記憶する。声質変換規則は、周波数ワーピングおよび乗算パラメータによる変換と同様に、声質変換規則作成部１０３が作成する。

すなわち、声質変換規則作成部１０３は、変換元スペクトルパラメータと変換先スペクトルパラメータとの対を複数個作成し、各対から差分パラメータを作成する。クラスタリングして複数の差分パラメータを記憶する場合も、前述同様、変換元のスペクトルをＬＢＧクラスタリングし、各クラスタにおいて変換規則を作成することができる。声質変換規則記憶部１０４には、声質変換規則の選択情報である各クラスタの変換元のスペクトルのセントロイドｃ_selと、各クラスタにおける差分パラメータｂを記憶する。

パラメータ変換部１０６は、変換元スペクトルパラメータｃ_srcを変換し、第１の変換スペクトルパラメータｃ_conv1を得る。まず、ステップＳ２０３において、変換元スペクトルパラメータｃ_srcと声質変換規則記憶部１０４に選択情報として記憶されている各クラスタの変換元スペクトルのセントロイドｃ_selとのスペクトル距離を求め、この距離が最小のクラスタｋを選択する。次にステップＳ２０４において、選択されたクラスタｋの差分パラメータｂ_ｋを用いて、変換元スペクトルパラメータｃ_srcを第１の変換スペクトルパラメータｃ_conv1に変換する。

回帰分析パラメータによる声質変換規則を用いる場合は、式（１７）によって声質変換を行う。

この場合も同様に変換元のスペクトルパラメータのクラスタリングを行い、各クラスタにおいて変換規則を作成することができる。各クラスタの変換元スペクトルパラメータと変換先スペクトルパラメータとの対から回帰分析パラメータＡおよびｂを作成し、声質変換規則記憶部１０３に記憶する。パラメータ変換部１０６では、クラスタｋを決定した後、式（１８）により変換を行う。

次に、ＧＭＭに基づく回帰分析による声質変換規則を用いる場合について述べる。この場合、変換元話者スペクトルパラメータをＧＭＭによりモデル化し、入力した変換元話者のスペクトルパラメータがＧＭＭの各混合成分において観測される事後確率により重み付けして声質変換を行う。ＧＭＭλは、ガウス分布の混合として、次式で表される。

このとき、ＧＭＭに基づく声質変換の変換規則は次式で示される。

ＧＭＭに基づく声質変換では、各混合の間で連続に変化する回帰行列が得られるという特徴がある。ＧＭＭに基づく声質変換では、各クラスタが、ＧＭＭの各混合に対応し、それぞれの混合はガウス分布であらわさる。すなわち、

を変換規則選択情報として声質変換規則記憶部１０４に記憶する。各混合の回帰分析パラメータを｛Ａ^c、ｂ^c｝としたとき、ｘは式（２１）の事後確率に基づいて各混合の回帰行列を重み付けするように変換される。ＧＭＭに基づく回帰分析の場合の声質変換規則作成部１０３の処理動作を図１６に示す。

まずステップＳ１６０１では、ＧＭＭを最尤推定する。ＧＭＭの初期値としては、ＬＢＧアルゴリズムで作成したクラスタを与え、ＥＭアルゴリズムによりＧＭＭの各パラメータを最尤推定する。次にＳ１６０２において、回帰行列を求めるための方程式の係数を求める。そして、ステップＳ１６０３において、各混合の回帰行列{Ａ_c、ｂ_c}を求める。ＧＭＭに基づく回帰分析による声質変換では、ＧＭＭのモデルパラメータλおよび、各混合における回帰行列｛Ａ_c、ｂ_c｝を声質変換規則として声質変換規則記憶部１０４に記憶する。パラメータ変換部１０６では、ｘ＝ｃ_src、として、変換元スペクトルと声質変換規則記憶部１０４に記憶されたＧＭＭのモデルパラメータとを用いて式（２１）により確率を算出し、式（２０）によってスペクトルの変換を行い、得られたｙを第１の変換スペクトルパラメータｃ_conv1として用いる。

スペクトルパラメータとしては、ケプストラム、メルケプストラム、ＬＳＰパラメータ、離散スペクトル、前記局所基底に基づくパラメータなど、さまざまなパラメータを用いることができる。式（６）による周波数ワーピングおよび乗算パラメータを用いた声質変換は周波数領域のパラメータを想定しているが、差分パラメータ、回帰分析パラメータ、ＧＭＭに基づく回帰分析などによる声質変換を用いる場合は任意のスペクトルパラメータを用いることができる。

周波数領域のパラメータとは異なるパラメータを用いる場合は、スペクトルパラメータをそのまま周期成分・非周期成分に分離することは困難な場合が多い。この場合、非周期成分作成部１０８およびパラメータ混合部１０９は、パラメータ選択部１０７において選択された変換先スペクトルパラメータ、もしくは第１の変換スペクトルパラメータを離散スペクトルに変換し、得られた離散スペクトルを周期・非周期成分に分離する際のスペクトルパラメータとして用いる。離散スペクトルで表された変換先スペクトルパラメータの非周期成分を非周期成分スペクトルパラメータ、離散スペクトルで表された第１の変換スペクトルパラメータの周期成分を周期成分変換スペクトルパラメータとして、これらを混合して第２の変換スペクトルパラメータを得ることができる。

この場合、パラメータ混合部１０９は、図１７に示すように、まずステップＳ１７０１において、パラメータ変換部１０６で得られた第１の変換スペクトルパラメータを離散スペクトルに変換して、離散スペクトルの第１の変換スペクトルパラメータを得る。スペクトルパラメータとして、ケプストラムおよび、メルケプストラムを用いている場合は、次式（２２）に示すようにして離散スペクトルを求めることができる。

また、ＬＳＰパラメータを用いた場合には、次式（２３）に示すようにして離散スペクトルを求めることができる。

その他のスペクトルパラメータを用いた場合も、同様に、第１の変換スペクトルパラメータから離散スペクトルを生成し、離散スペクトルの第１の変換スペクトルパラメータを得る。

次に、ステップＳ１７０２において、得られた離散スペクトルの第１の変換スペクトルパラメータを周期・非周期分離を行い、周期成分を抽出する。上述した実施形態に述べたように式（１０）に示すリニア領域のスペクトル振幅の累積値から求めた境界次数ｑを用いる場合は、ｑより低い次元の離散スペクトル成分を周期成分として抽出し、周期成分変換スペクトルパラメータを作成する。

ステップＳ１７０３では、このように抽出した周期成分変換スペクトルパラメータと、非周期成分スペクトルパラメータとを混合することにより第２の変換スペクトルパラメータを得る。変換先パラメータ記憶部１０２に記憶されている変換先スペクトルパラメータが、ケプストラム、ＬＳＰなどのパラメータの場合にも同様に、非周期成分作成部１０８においてスペクトルパラメータから離散スペクトルに変換した後、非周期成分スペクトルパラメータを抽出することができる。

これにより、任意のスペクトルパラメータを用いて本実施形態に基づく声質変換装置を利用することができる。

上述した実施形態では、周期成分、非周期成分の分離をスペクトル振幅の累積値に基づいて行っていたが、これに限定するものではない。ＭＥＬＰ（Ｍｉｘｅｄｅｘｃｉｔａｔｉｏｎｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎ）に用いられている周波数領域を複数の帯域に分割し、各帯域の周期性・非周期性を判定し、判定した結果に基づいて周期成分・非周期成分の境界を求めて分離する方法や、ＨＮＭ（Ｈａｒｍｏｎｉｃｐｌｕｓｎｏｉｓｅｍｏｄｅｌ）に用いられている方法により最大有声周波数を求め、得られた最大有声周波数を境界周波数として分離する方法、もしくはＰＳＨＦ（Ｐｉｔｃｈｓｃａｌｅｄｈａｒｍｏｎｉｃｆｉｌｔｅｒ）により、音声波形をピッチの整数倍の窓幅でＤＦＴを行い、基本周波数の整数倍以外のスペクトル成分から非周期成分を作成し、基本周波数の整数倍のスペクトル成分から周期成分を作成することにより分割する方法、などを用いることができる。

ＭＥＬＰ方法による周期成分・非周期成分の分離の場合、あらかじめ定めた帯域分割のフィルタによって音声信号を帯域分割し、各帯域における周期性の度合いを表す値を算出する。周期性の度合いを表す値は、ピッチの長さを幅とする音声信号の相関によって定める。

そして、上述の周期性の度合いを表す値が所定の閾値以上の帯域を周期成分、そうでなければ非周期成分と決定する。周期成分と決定された周波数帯と、非周期成分と決定された周波数帯との境界を境界周波数とする。

非周期成分作成部１０８は、パラメータ選択部１０７において選択された変換先スペクトルパラメータに対して、上述した指標に基づいて算出した境界周波数情報を求め、該境界周波数情報に基づいて変換先スペクトルパラメータを帯域分割することにより非周期成分スペクトルパラメータを作成する。パラメータ混合部１０９は、得られた境界周波数以下の帯域の第１の変換スペクトルパラメータを周期成分変換スペクトルパラメータとして求め、これと上記非周期成分スペクトルパラメータとを混合することにより、第２の変換スペクトルパラメータを得る。

ＨＮＭに用いられている最大有声周波数を周期成分および非周期成分の境界として用いる場合は、ｆ₀の整数倍位置付近の最大のピークｆ_cのそれぞれについて隣接する谷までの間の振幅の累積値をＡｍｃ（ｆ_c）として求め、隣接するピークの累積値Ａｍｃ（ｆ_i）の平均値との比、ピークの値Ａｍ（ｆ_c）と隣接するピークＡｍ（ｆ_i）との差、ｆ₀整数倍位置との距離に基づいて周期成分か非周期成分かを判別する。

式（２５）を満たす場合は、そのハーモニクスは周期成分であり、そうでなければ非周期成分である。非周期成分となるハーモニクスの中で最も低いものを境界周波数として用いる。この場合も、ハーモニクスそれぞれについて判定するため、帯域分割したそれぞれの帯域において周期性を表す度合いを算出し、得られた周期性を表す度合いに基づいて境界周波数を求める事になる。

ＰＳＨＦ（Ｐｉｔｃｈｓｃａｌｅｄｈａｒｍｏｎｉｃｆｉｌｔｅｒ）を用いる場合、スペクトルに境界周波数を定め、高域は非周期成分、低域は周期成分と分割するのではなく、全帯域のスペクトルを、周期成分および非周期成分の２つのスペクトルに分離する。この場合、ピッチのｂ倍の長さの離散フーリエ変換を求め、ｂの整数倍の位置における成分をハーモニック成分とし、ハーモニック成分を除いた成分から非周期性成分を求める。非周期成分作成部１０８は、パラメータ選択部１０７において選択されたスペクトルを周期成分および非周期成分に分離し、非周期成分を求める。パラメータ混合部１０９は第１の変換スペクトルパラメータから周期成分を求めて、これと上記非周期成分とを混合する。この場合、基本周波数の整数倍の情報をあらわす周期成分と、その他の成分をあらわす非周期成分として分離することになる。

上述の声質変換装置は、声質変換装置の内部で周期成分・非周期成分の分離を行っていたがこれに限定するものではない。変換元パラメータ記憶部１０１、変換先パラメータ記憶部１０２に、あらかじめ周期・非周期分離を行った音声のスペクトルから求めたスペクトルパラメータを記憶しておき、声質変換に用いてもよい。実際、ハーモニック成分に基づいて周期・非周期成分を分離する場合は、スペクトルパラメータではなく、音声データに対して直接適用する場合がある。この場合、あらかじめ周期成分および非周期成分に分離した音声を用いて声質変換を行う必要がある。この場合の声質変換装置の処理動作を図１８に示す。

声質変換規則作成部１０３は、変換元パラメータ記憶部１０１に記憶されている周期成分の変換元スペクトルパラメータおよび、変換先パラメータ記憶部１０２に記憶されている周期成分の変換先スペクトルパラメータを用いて声質変換規則を作成する。作成した声質変換基規則を声質変換規則記憶部１０４に記憶しておく。

変換元の音声が入力されると、まず、変換元パラメータ抽出部１０５は、ステップＳ１８０１において、該入力された変換元音声を周期成分および非周期成分に分離する。そして、ステップＳ１８０２において音声フレームを切り出し、ステップＳ１８０３で周期成分のスペクトル分析を行って周期成分変換元スペクトルパラメータを得る。入力された変換元音声から、音声フレームを切り出してスペクトル分析し、その後スペクトルを周期成分および非周期成分に分割して周期成分の変換元スペクトルパラメータを求めてもよい。

次に、パラメータ変換部１０６は、ステップＳ１８０４で、声質変換規則記憶部１０４から声質変換規則を選択し、ステップＳ１８０５では、選択された声質変換規則を適用して周期成分の変換元スペクトルパラメータを変換し、周期成分の第１の変換スペクトルパラメータを得る。

パラメータ選択部１０７は、ステップＳ１８０５で、該第１の周期成分変換スペクトルパラメータと、変換先パラメータ記憶部１０２に記憶されている各周期成分変換先スペクトルパラメータとの類似度を求める。ステップＳ１８０７では、この類似度に基づいて、類似度の高い周期成分変換先スペクトルパラメータに対応する非周期成分変換先スペクトルパラメータを選択する。このとき複数の非周期成分変換先スペクトルパラメータを選択してもよい。

非周期成分作成部１０８は、ステップＳ１８０８において、選択された非周期成分変換先スペクトルパラメータから非周期成分スペクトルパラメータを生成する。複数の非周期成分変換先スペクトルパラメータを選択した場合は、例えば、それら複数の非周期成分変換先スペクトルパラメータを平均化することにより、１つの非周期成分スペクトルパラメータを作成する。

パラメータ混合部１０９は、ステップＳ１８０９において、周期成分の第１の変換スペクトルパラメータと、作成された非周期成分スペクトルパラメータとを混合し、第２の変換スペクトルパラメータを得る。

波形生成部１１０は、ステップＳ１８１０において、得られた第２の変換スペクトルパラメータから音声波形を生成する。ステップＳ１８１１で、生成された音声波形を接続することにより変換音声が得られる。

以上の処理により、あらかじめ周期・非周期に分離された音声およびそのスペクトルパラメータを用いて声質変換を行うことができる。

以上説明したように、第１の実施形態に係る声質変換装置によれば、変換元の音声から求めたスペクトルパラメータを声質変換することにより、変換先音声のスペクトルの周期成分を生成し、変換先音声のスペクトルの非周期成分は、該変換先音声から求めた変換先スペクトルパラメータを用いて生成する。そして、生成された周期成分及び非周期成分のスペクトルパラメータを混合して後、音声波形を生成することにより、変換先音声に最も適した非周期成分をもつ声質変換音声を得ることが可能になる。

（第２の実施形態）
図１９は、第２の実施形態に係る声質変換装置の構成例を示すブロック図である。図１９の声質変換装置は、変換元の音声素片を変換し、変換先の音声素片を得る。第１の実施形態に係る声質変換装置は、音声フレームを処理単位として声質変換処理を行うが、第２の実施形態では音声素片を処理単位としている点が異なる。ここで、音声素片とは、音声単位に対応する音声信号である。音声単位は、音素あるいは音素を分割したものの組み合わせによる単位である。例えば、半音素、音素（Ｃ、Ｖ）、ダイフォン（ＣＶ、ＶＣ、ＶＶ）、トライフォン（ＣＶＣ、ＶＣＶ）、音節（ＣＶ、Ｖ）、などであり（Ｖは母音、Ｃは子音を表す）、これらが混在しているなど可変長であってもよい。

図１９の声質変換装置において、変換元音声素片記憶部１９０１は複数の変換元音声素片を記憶し、変換先音声素片記憶部１９０２は複数の変換先音声素片を記憶する。

声質変換規則作成部１９０３は、変換元音声素片記憶部１９０１に記憶されている変換元音声素片と、変換先音声素片記憶部１９０２に記憶されている変換先音声素片とを用いて声質変換規則を作成する。得られた声質変換規則は、声質変換規則記憶部１９０４に記憶される。

変換元パラメータ抽出部１９０５は、入力された変換元音声素片を音声フレームに分割し、各音声フレームの変換元スペクトルパラメータを抽出する。

パラメータ変換部１０６は、抽出された変換元スペクトルパラメータを、声質変換規則記憶部１９０４に記憶されている声質変換規則を用いて声質変換し、第１の変換スペクトルパラメータを生成する。

音声素片選択部１９０７が、変換先音声素片記憶部１９０２から変換先音声素片を選択すると、非周期成分作成部１９０８は、選択された変換先音声素片の各音声フレームを変換元音声素片の音声フレームに対応付け、各音声フレームの非周期成分スペクトルパラメータを作成する。

パラメータ混合部１９０９は、第１の変換スペクトルパラメータから作成した周期成分変換スペクトルパラメータと、非周期成分作成部１９０８で作成された非周期成分スペクトルパラメータとを混合し、第２の変換スペクトルパラメータを生成する。パラメータ混合部１９０９で行う「混合」も、第１の実施形態と同様、第１の変換スペクトルパラメータの境界次数ｑより高い高域部分を非周期成分作成部１０８で作成された非周期成分で置き換えることにより、第２の変換スペクトルパラメータを生成することである。

波形生成部１９１０は、第２の変換スペクトルパラメータから音声波形を生成し、変換音声素片を得る。

図１９の声質変換装置は、以上の構成より、入力された変換元音声素片を声質変換した変換先音声素片を生成する。

変換元音声素片記憶部１９０１と変換先音声素片記憶部１９０２はそれぞれ、変換元の声質の音声データを分割して得られる変換元音声素片及びその各フレームのスペクトルパラメータと、変換先の声質の音声データを分割して得られる変換先音声素片及びそのスペクトルパラメータが記憶されている。声質変換規則作成部１９０３は、これら音声素片のスペクトルパラメータを用いて声質変換規則を作成する。

図２０に、音声素片記憶部１９０１，１９０２に記憶されている音声素片情報の例を示す。各音声素片の音声素片情報として、音声単位に切り出した音声波形とピッチマークおよび、各ピッチマーク位置におけるスペクトルパラメータとを含む音声素片情報が音声素片番号とともに記憶されている。音声素片記憶部１９０１，１９０２には、上記各音声素片情報と共に図２１に示す音素環境情報を記憶している。音素環境情報（属性情報）は、音声素片番号とその音韻種別、基本周波数、音韻継続時間長、接続境界のスペクトルパラメータ、音韻環境情報などを含む。

声質変換規則作成部１９０３は、変換元音声素片記憶部１９０１に記憶されている変換元音声素片のスペクトルパラメータおよび、変換先音声素片記憶部１９０２に記憶されている変換先音声素片のスペクトルパラメータから声質変換規則を作成する。

声質変換規則記憶部１９０４には、音声素片のスペクトルパラメータの声質変換規則および複数の声質変換規則がある場合は声質変換規則を選択するための情報を記憶している。声質変換規則は第１の実施形態に記載されている方法や、特許文献２に記載されている方法などにより作成する。

変換元パラメータ抽出部１９０５は、入力された変換元音声素片からスペクトルパラメータを求める。変換元音声素片はピッチマークの情報を持つ。変換元音声素片の各ピッチマークに対応する音声フレームを切り出し、得られた音声フレームをスペクトル分析し、スペクトルパラメータを求める。

パラメータ変換部１９０６は、声質変換規則記憶部１９０４に記憶されている声質変換規則を用いて、変換元音声素片のスペクトルパラメータを声質変換し、第１の変換スペクトルパラメータを得る。

音声素片選択部１９０７は、変換元音声素片に対応する変換先音声素片を変換先音声素片記憶部１９０２から選択する。すなわち、音声素片選択部１９０７は、第１の変換スペクトルパラメータと変換先音声素片記憶部１９０２に記憶されている変換先音声素片との類似度に基づいて変換先音声素片を選択する。第１の変換スペクトルパラメータとの類似度は、変換先音声素片のスペクトルパラメータと第１の変換スペクトルパラメータを時間方向に対応づけて求めたスペクトル距離でもよい。また、変換元音声素片の韻律や音韻環境などの音素環境と、変換先音声素片の音素環境との違いを数値化したコスト関数に基づいて類似度を求めることができる。

コスト関数は、属性情報毎にサブコスト関数Ｃ_n（ｕ_t，ｕ_c）（ｎ：１，…，Ｎ、Ｎはサブコスト関数の数）を作成し、サブコスト関数の線形和としてあらわす。ｕ_tは変換元の音声素片、ｕ_cは変換先音声素片記憶部１９０２に記憶されている変換先音声素片のうち、ｕ_tと同じ音韻の音声素片を表す。サブコスト関数は、変換元音声素片と変換先音声素片の基本周波数の違い（差）を表す基本周波数コストＣ₁（ｕ_t，ｕ_c）、音韻継続時間長の違い（差）を表す音韻継続時間長コストＣ₂（ｕ_t，ｕ_c）、素片境界におけるスペクトルの違い（差）を表すスペクトルコストＣ₃（ｕ_t，ｕ_c）、Ｃ₄（ｕ_t，ｕ_c）_、音韻環境の違い（差）を表す音韻環境コストＣ₅（ｕ_t，ｕ_c）、Ｃ₆（ｕ_t，ｕ_c）を用いる。具体的には、基本周波数コストは、

このように対数基本周波数の差として算出する。ここで、ｆ（ｕ）は音声素片ｕに対応する属性情報から平均基本周波数を取り出す関数を表す。また、音韻継続時間長コストは、

から算出する。ここで、ｇ（ｕ）は音声素片ｕに対応する属性情報から音韻継続時間長を取り出す関数を表す。スペクトルコストは、音声素片の境界におけるケプストラム距離

から算出する。ここで、ｈ^l（ｕ）は音声素片ｕの左素片境界、ｈ^r（ｕ）は右素片境界のケプストラム係数をベクトルとして取り出す関数を表す。音韻環境コストは、隣の素片が等しいかどうかを表す距離

から算出する。変換先音声素片と変換元音声素片の歪みを表すコスト関数は、次式（３０）に示すように、これらのサブコスト関数の重み付き和として定義する。

ここで、ｗ_nはサブコスト関数の重みを表し、あらかじめ定めた所定の値を用いる。式（３０）は、ある変換元音声素片に、変換先音声素片記憶部１９０２中のある音声素片を当てはめた場合の歪みを表す当該音声素片のコスト関数である。

式（３０）により得られる変換元音声素片と変換先音声素片との間のコストを類似度として用い、変換先音声素片を選択することができる。音声素片選択部１９０７は、１つだけでなく、複数の変換先音声素片を選択してもよい。

非周期成分作成部１９０８は、音声素片選択部１９０７で選択された変換先音声素片から非周期成分スペクトルパラメータを作成する。選択された変換先音声素片のスペクトルパラメータを周期成分・非周期成分に分離し、非周期成分スペクトルパラメータを抽出する。周期成分および非周期成分の分離は第１の実施形態と同様に行うことができる。複数の変換先スペクトルパラメータを選択した場合は、複数の変換先音声素片のスペクトルパラメータの非周期成分を平均化して、１つの非周期成分スぺクトルパラメータを作成する。非周期成分スペクトルパラメータは、変換先音声素片のスペクトルパラメータと、変換元音声素片のスペクトルパラメータを時間方向に対応づけて、対応付けられた変換先音声素片のスペクトルパラメータから生成する。これにより、第１の変換スペクトルパラメータと同じ個数の非周期成分スペクトルパラメータが生成される。

パラメータ混合部１９０９は、第１の変換スペクトルパラメータおよび生成された非周期成分スペクトルパラメータから第２の変換スペクトルパラメータを生成する。まず、第１の変換スペクトルパラメータを周期成分および非周期成分に分離し、該周期成分を周期成分変換スペクトルパラメータとして抽出する。得られた周期成分変換スペクトルパラメータと、非周期成分作成部１９０８で生成された非周期成分スペクトルパラメータとを混合し、第２の変換スペクトルパラメータを生成する。

次に、図２２を参照して、図１９の声質変換装置の処理動作について説明する。

まず、変換元パラメータ抽出部１９０５は、ステップＳ２２０１において、入力された変換元音声素片から、各ピッチマーク時刻に対応した音声フレームのピッチ波形を切り出す。そして、ステップＳ２２０２において、切り出したピッチ波形をスペクトル分析し、スペクトルパラメータを得る。

パラメータ変換部１９０６は、ステップＳ２２０３において、声質変換規則記憶部１９０４から声質変換規則を選択し、ステップＳ２２０４において、選択された声質変換規則を用いてスペクトルパラメータを変換し、第１の変換スペクトルパラメータを得る。

ステップＳ２２０５では、音声素片選択部１９０７は、得られた第１の変換スペクトルパラメータと、変換先音声素片記憶部１９０２に記憶されている各変換先音声素片との類似度を算出する。そして、ステップＳ２２０６において、得られた類似度に基づいて変換先音声素片を選択する。

ステップＳ２２０７では、非周期成分作成部１９０８は、第１の変換スペクトルパラメータと選択された変換先音声素片の各スペクトルパラメータとを時間方向に対応付ける。対応付けは、ピッチ波形の削除および複製によってピッチ波形数を揃えることにより行う。

そして、ステップＳ２２０８において、選択された変換先スペクトルパラメータ、もしくは変換先スペクトルパラメータから求めたスペクトルを周期成分・非周期成分に分離するために必要な、例えば境界周波数などを決定する。ステップＳ２２０９では、決定された境界周波数を用いて、変換先スペクトルパラメーラから非周期成分を分離して、非周期成分スペクトルパラメータを抽出する。

ステップＳ２２０２では、パラメータ混合部１９０９は、第１の変換スペクトルパラメータからその周期成分を分離して、周期成分変換スペクトルパラメータを得る。そして、ステップＳ２２１１において、当該周期成分変換スペクトルパラメータと、ステップＳ２２０９で得られた非周期成分スペクトルパラメータとを混合することにより、第２の変換スペクトルパラメータを得る。

波形生成部１９１０は、ステップＳ２２１２において、こうして得られた各スペクトルパラメータから音声波形を生成し、ステップＳ２２１３において、これらを接続することにより、声質変換した音声を生成する。

このように、第２の実施形態に係る声質変換装置によれば、音声素片を単位として声質変換を行うことが可能となる。周期成分は変換元の音声素片から求めたスペクトルパラメータを声質変換し、非周期成分は選択された変換先音声素片から作成し、これらを混合することにより、変換先の声質に最適な非周期成分をもつ声質変換音声素片を得ることが可能になる。

（第３の実施形態）
図２３は、第３の実施形態に係るテキスト音声合成装置の構成例を示すブロック図である。図２３のテキスト音声合成装置は、第２の実施形態に係る声質変換装置を適用した音声合成装置であり、任意のテキスト文が入力されると、変換先の声質をもつ合成音声を生成する。

図２３のテキスト音声合成装置は、テキスト入力部２３０１、言語処理部２３０２、韻律処理部２３０３、音声合成部２３０４、音声波形出力部２３０５、及び声質変換部２３０６を含む。声質変換部２３０６は、図１９の声質変換装置に相当する。

言語処理部２３０２は、テキスト入力部２３０１から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部２３０３へ出力する。韻律処理部２３０３は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列（音韻記号列）及び韻律情報を生成し、音声合成部２３０４へ出力する。音声合成部２３０４は、音韻系列及び韻律情報と、声質変換部２３０６で生成された音声素片とを用いて音声波形を生成する。こうして生成された音声波形は音声波形出力部２３０５から出力される。

図２４は、図２３の音声合成部２３０４及び声質変換部２３０６の構成例を示したものである。音声合成部２３０４は、音韻系列・韻律情報入力部２４０１、音声素片選択部２４０２、音声素片編集・接続部２４０３、音声波形出力部２３０５と、声質変換部２３０６で声質変換により作成された変換音声素片および属性情報を保持する変換音声素片記憶部２４０４を含む。

声質変換部２３０６は、図１９の声質変換装置の構成のうち、少なくとも変換元パラメータ抽出部１９０５以外の構成を含み、変換元音声素片記憶部１９０１に記憶されている各音声素片を変換先音声素片に変換する。すなわち、図２２のステップＳ２２０３〜ステップＳ２２１３に示したように、変換先音声素片記憶部１９０２に含まれる変換先音声素片と、声質変換規則記憶部１９０４に含まれる声質変換規則を用いて、第２の実施形態で説明したように、変換元音声素片記憶部１９０１に記憶されている各音声素片の声質を変換先音声の声質に変換する。声質変換部２３０６で声質変換した結果得られる音声素片は音声合成部２３０４の変換音声素片記憶部２４０４に記憶される。

変換元音声素片記憶部１９０１および変換先音声素片記憶部１９０２は、第２の実施形態と同様に、変換元の音声データから作成した所定の音声単位（合成単位）に分割された音声素片および属性情報が記憶されている。音声素片は、図２０に示すように、ピッチマークの付与された変換元話者の音声素片の波形が当該音声素片を識別するための番号とともに格納されている。属性情報は、図２１に示すように音韻（半音素名など）、基本周波数、音韻継続時間長、接続境界ケプストラム、音素環境など、音声素片選択部２４０２において用いる情報が当該音声素片の素片番号と共に記憶されている。音声素片および属性情報は、変換元話者の音声データから、ラベリング、ピッチマーキング、属性生成、素片抽出等の工程により作成される。

声質変換部２３０６では、第２の実施形態で説明したように、まず、パラメータ変換部１９０６が、声質変換規則記憶部１９０４に記憶されている声質変換規則を用いて、変換元音声素片記憶部１９０１に記憶されている各音声素片のスペクトルパラメータから第１の変換スペクトルパラメータを生成する。音声素片選択部１９０７が、前述したように、変換先音声素片記憶部１９０２から変換先音声素片を選択すると、非周期成分作成部１９０８は、選択された変換先音声素片を用いて、前述したように、非周期成分スペクトルパラメータを生成する。そして、パラメータ混合部１９０９は、第１の変換スペクトルパラメータから抽出された周期成分変換スペクトルパラメータと、非周期成分作成部１９０８で生成された非周期成分スペクトルパラメータとを混合することにより第２の変換スペクトルパラメータを作成し、第２の変換スペクトルパラメータから波形生成することにより変換音声素片を得る。このようにして得られた変換音声素片とその属性情報を変換音声素片記憶部２４０４に蓄積する。

音声合成部２３０４では、変換音声素片記憶部２４０４から音声素片を選択し、音声合成を行う。音韻系列・韻律情報入力部２４０１には、韻律処理部２３０３から出力された入力テキストに対応する音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部２４０１に入力される韻律情報としては、基本周波数、音韻継続時間長などがある。

音声素片選択部２４０２は、入力音韻系列を予め定められた音声単位（合成単位）に区切る。そして、各音声単位に対し、入力韻律情報と、変換音声素片記憶部２４０４に保持されている属性情報とに基づいて合成音声の歪みの度合いを推定し、この合成音声の歪みの度合いに基づいて変換音声素片記憶部２４０４に記憶されている音声素片のなかから、音声素片を選択する。ここで、合成音声の歪みの度合いは変換音声素片記憶部２４０４に保持されている属性情報と音韻系列・韻律情報入力部２４０１から入力された目標音素環境との違いに基づく歪みである目標コストと、接続する音声素片間の音素環境の違いに基づく歪みである接続コストとの重み付け和として求められる。

音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因ごとにサブコスト関数Ｃ_n（ｕ_i，ｕ_i-1，ｔ_i）（ｎ：１，…，Ｎ，Ｎはサブコスト関数の数）を定める。第２の実施形態で用いたコスト関数は、２つの音声素片の間の歪みを測るためのコスト関数であるが、ここで定義するコスト関数は、入力韻律・音韻系列と音声素片との間の歪みを測るためのコスト関数である点が異なる。ｔ_iは、入力音韻系列および入力韻律情報に対応する目標とする音声（目標音声）をｔ＝（ｔ₁，…，ｔ_I）としたときのｉ番目のセグメントに対応する部分の音声素片の目標とする属性情報を表し、ｕ_iは変換音声素片記憶部２４０４に記憶されている音声素片のうち、ｔ_iと同じ音韻の音声素片を表す。

サブコスト関数は、変換音声素片記憶部２４０４に記憶されている音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するためのものである。目標コストとしては、変換音声素片記憶部２４０４に記憶されている音声素片の基本周波数と目標の基本周波数との違い（差）を表す基本周波数コストＣ₁（ｕ_i，ｕ_i-1，ｔ_i）、音声素片の音韻継続時間長と目標の音韻継続時間長との違い（差）を表す音韻継続時間長コストＣ₂（ｕi，ｕ_i-1，ｔ_i）、音声素片の音韻環境と、目標の音韻環境との違い（差）を表す音韻環境コストＣ₃（ｕ_i，ｕ_i-1，ｔ_i）を用いる。接続コストとしては、接続境界でのスペクトルの違い（差）を表すスペクトル接続コストＣ₄（ｕ_i，ｕ_i-1，ｔ_i）を用いる。

これらのサブコスト関数の重み付き和を、式（３１）の音声単位コスト関数と定義する。

ここで、ｗ_nはサブコスト関数の重みを表す。本実施形態では、簡単のため、ｗ_nはすべて「１」とする。式（３１）は、ある音声単位に、ある音声素片を当てはめた場合の当該音声素片の音声単位コストである。

入力音韻系列を音声単位で区切ることにより得られる複数のセグメントのそれぞれに対し、式（３１）から音声単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式（３２）に示すように定義する。

音声素片選択部２４０２では、式（３２）に示したコスト関数を用いて、音声素片を選択する。ここでは、変換音声素片記憶部２４０４に記憶されている音声素片のなかから、式（３２）で算出されるコスト関数の値が最小となる音声素片の系列を求める。このコストが最小となる音声素片の組み合わせを最適素片系列と呼ぶこととする。すなわち、最適音声素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応する。最適音声素片系列中の各音声素片から算出された上記音声単位コストと式（３２）より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法（ＤＰ：ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ）を用いることでより効率的に行うことができる。

音声素片編集・接続部２４０３では、選択された音声素片を、入力韻律情報に従って変形し、接続することで合成音声の音声波形を生成する。選択された音声素片からピッチ波形を抽出し、当該音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。

図２５は、素片編集・接続部２４０３の処理を説明するための図である。図２５では、「あいさつ」という合成音声の音素「ａ」の音声波形を生成する例を示している。図２５（ａ）は、音声素片選択部２４０２で選択された音声素片、図２５（ｂ）は、ピッチ波形抽出のためのハニング窓、図２５（ｃ）はピッチ波形、および図２５（ｄ）は合成音声を示している。

図２５（ｄ）において、合成音声の縦棒はピッチマークを表しており、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて作成される。このピッチマークにしたがって所定の音声単位毎に、選択された音声素片から抽出したピッチ波形を重畳合成することにより、素片の編集を行って基本周波数および音韻継続時間長を変更する。その後に、音声単位間で、隣り合うピッチ波形を接続して合成音声を生成する。

上述したように、第３の実施形態では、第２の実施形態で説明した声質変換装置を用いて声質変換された音声素片を用いて、素片選択型の音声合成を行うことが可能になり、入力された任意のテキストに対応する合成音声を生成することができる。

すなわち、第２の実施形態で説明した声質変換装置により、変換先話者の少量の音声素片を用いて作成した声質変換規則を、変換元音声素片記憶部１９０１に記憶されている各音声素片に適用して周期成分スペクトルパラメータを作成する。該変換音声の音声素片から選択された音声素片を用いて生成された非周期成分スペクトルパラメータと、該周期成分スペクトルパラメータとを混合して生成された第２の変換スペクトルパラメータを用いて、変換先話者の声質を有する音声素片を生成し、これを変換音声素片記憶部２４０４に記憶する。変換音声素片記憶部２４０４に記憶された音声素片から音声を合成することにより、変換先話者の声質を持つ任意のテキスト文の合成音声を得ることができる。また、本実施形態によれば、変換先話者の声質に最適なスペクトル非周期成分をもつ変換音声素片が得られ、自然な変換先話者の合成音声が得られる。

第３の実施形態では、１つの音声単位（合成単位）に対し１つの音声素片を選択するタイプの音声合成に声質変換を適用する場合について述べたが、これに限定するものではない。１つの音声単位に対し複数の音声素片を選択し、これらを融合するタイプの音声合成に声質変換を適用してもよい。この場合の音声合成部の構成例を図２６に示す。なお、図２６の音声合成部も図２３のテキスト音声合成装置の音声合成部２３０４として用いることができる。

図２６において、変換先音声素片記憶部２４０４は、図２４の変換先音声素片記憶部２４０４と同様に、声質変換部２３０６で生成された変換音声素片を記憶する。

音韻系列・韻律情報入力部２６０１には、図２３の韻律処理部２３０３から出力された、テキスト解析の結果得られた音韻系列および韻律情報が入力される。複数音声素片選択部２６０２は、変換音声素片記憶部２４０４から、式（３２）を用いて算出されたコストの値に基づいて１音声単位につき複数の音声素片を選択する。そして、複数音声素片融合部２６０３は、選択された複数の音声素片を融合して融合音声素片を生成する。融合音声素片編集・接続部２６０４は、生成された融合音声素片に対し、韻律の変更および接続を行い、合成音声の音声波形を生成する。

複数素片選択部２６０２の処理および複数音声素片融合部２６０３の処理は（特開２００５−１６４７４９号公報）に示されている手法により行うことができる。複数素片選択部２６０２では、まず式（３２）のコスト関数の値を最小化するようにＤＰアルゴリズムを用いて最適音声素片系列を選択する。その後、各音声単位に対応する区間に対し、その前後の音声単位区間の最適音声素片との接続コスト及び当該区間の目標コストの和をコスト関数として用いて、このコスト関数の値の小さい順に、変換音声素片記憶部２４０４に記憶されている音声素片のなかから複数の音声素片を選択する。

このように、１つの区間に対し選択された複数の音声素片は、複数音声素片融合部２６０３において融合され、当該複数の音声素片の代表音声素片を得る。複数音声素片融合部２６０３における音声素片融合処理は、まず、選択された各音声素片からピッチ波形を抽出する。抽出したピッチ波形の波形数を、ピッチ波形の複製や削除を行うことにより、目標とする韻律から生成したピッチマークに揃える。そして、各ピッチマークに対応する複数のピッチ波形を時間領域で平均化することにより代表音声素片を生成する。

融合音声素片編集・接続部２６０４は、各区間の代表音声素片に対し、韻律の変更および接続を行い、合成音声の音声波形を生成する。

図２６に示した複数の素片を選択し、これらを融合するタイプの音声合成は、図２４の素片選択型の音声合成よりも、安定感の高い合成音声が得られることが確認されている。従って、図２６に示した構成によれば、安定感・肉声感の高い、変換先話者の声質を有する合成音声を生成することができる。

上記実施形態では、音声素片選択部２４０２と複数音声素片選択部２６０２は、変換音声素片記憶部２４０４に記憶されている音声素片のなかから音声素片を選択する音声合成について説明したが、この場合に限らない。素片選択部２４０２と複数音声素片選択部２６０２は、変換音声素片記憶部２４０４に記憶されている変換音声素片と、変換先音声素片記憶部１９０２に記憶されている変換先音声素片とのなかから音声素片を選択してもよい。この場合、素片選択部２４０２と複数音声素片選択部２６０２は、変換音声素片記憶部２４０４および変換先音声素片記憶部１９０２に記憶されている同じ音韻の音声素片のなかから素片選択を行う。ただし、変換先音声素片記憶部１９０２に記憶されている変換先音声素片は変換先の声質をそのままもつものの、少量であることを仮定しているため、変換音声素片素片記憶部２４０４に記憶されている変換音声素片を選択する割合は高くなる。この割合を制御するため、式（３０）のコスト関数の計算に用いるサブコスト関数の１つとして、変換音声素片利用コストＣ₅（ｕ_i，ｕ_i-1，ｔ_i）を用いてもよい。

変換先音声素片利用コストは、変換音声素片記憶部２４０４に記憶される変換音声素片を用いる場合は「１」、変換先音声素片記憶部１９０２に記憶される変換先音声素片を用いる場合は「０」を返すコスト関数である。その重みｗ₅の値により、変換音声素片記憶部２４０４に記憶されている変換音声素片が選択される割合を制御することができる。適切な重みｗ₅を与えることにより、変換先音声素片および変換音声素片を適切に切り替えて利用することができ、より高品質な変換先話者の声質を有する合成音声が得られる。

上記実施形態では、１つの音声素片を選択するタイプの音声合成や、複数の素片を選択し、これらを融合するタイプの音声合成に声質変換を適用する場合を説明したが、これらに限定するものではない。例えば素片学習型音声合成の１つである閉ル―プ学習に基づく音声合成装置（特許第３２８１２８１号）にも第１及び第２の声質変換を適用することもできる。

素片学習型音声合成では、学習データとなる複数の音声素片からそれらを代表する音声素片を学習し保持し、その学習された音声素片を入力音韻系列・韻律情報に従って編集・接続することにより音声を合成する。この場合、学習データとなる音声素片を声質変換し、その結果得られた変換音声素片から代表音声素片を学習することにより声質変換を適用する。また、学習された音声素片に対して声質変換を適用し、変換先話者の声質の代表音声素片を作成することもできる。

第１乃至第３の実施形態では、ピッチ同期分析に基づいて音声素片を分析・合成しているが、これに限定するものではない。例えば無声音の区間ではピッチは観測されないためピッチ同期処理を行うことはできない。このような区間では、固定フレームレートによる分析合成により声質変換することができる。ただし、無声音区間に限らず固定フレームレートによる分析合成を用いてもよい。また、無声音の音声素片は変換せず、変換元話者の音声素片をそのまま利用してもよい。

以上説明した声質変換装置および音声合成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、声質変換装置および音声合成装置は、上記のコンピュータ装置に搭載されたプロセッサに、（図２、図１５、図１８、図２２に示すような処理の）プログラムを実行させることにより、図１や図１９に示した声質変換装置の各構成部の機能を実現することができる。また、上記のコンピュータ装置に搭載されたプロセッサに、プログラムを実行させることにより、図２３等に示した音声合成装置の各構成部の機能を実現することができる。

このとき、声質変換装置および音声合成装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。

また、本発明の実施の形態に記載した本発明の手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、半導体メモリなどの記録媒体に格納して頒布することもできる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

第１の実施形態に係る声質変換装置の構成例を示すブロック図。図１の声質変換装置の処理動作を説明するためのフローチャート。スペクトルパラメータを説明するための周波数スケールの例を示す図。スペクトルパラメータを説明のための局所基底の例を示す図。全ての局所基底を重ね合わせた状態を示す図。変換元スペクトルパラメータ記憶部におけるスペクトルパラメータの記憶例を示す図。変換先スペクトルパラメータ記憶部におけるスペクトルパラメータの記憶例を示す図。スペクトル包絡パラメータを抽出例を示す図。声質変換規則作成部の処理動作を説明するためのフローチャート。声質変換規則記憶部における声質変換規則の記憶例を示す図。変換元パラメータ抽出部におけるピッチマークの付与と音声フレームの抽出の例を示す図。パラメータ変換部におけるスペクトルパラメータの声質変換の例を示す図。非周期成分作成部における非周期成分スペクトルパラメータの生成方法を説明するための図。パラメータ混合部における第２の変換スペクトルパラメータの生成方法を説明するための図。波形生成部の処理を説明するための図。位相パラメータを説明するための図。図１の声質変換装置において位相パラメータの生成処理動作を説明するためのフローチャート。声質変換規則作成部の他の処理動作を説明するためのフローチャート。パラメータ混合部の他の処理動作を説明するためのフローチャート。図１の声質変換装置の他お処理動作を説明するためのフローチャート。第２の実施形態に係る声質変換装置の構成例を示すブロック図。変換元・変換先音声素片記憶部における音声素片の記憶例を示す図。変換元・変換先音声素片記憶部に記憶される各音声素片の音素環境情報（属性情報）の例を示す図。図１９の声質変換装置の処理動作を説明するためのフローチャート。第３の実施形態に係る音声合成装置の構成例を示すブロック図。音声合成部の構成例を示すブロック図。音声波形編集・接続部の処理を説明するための図。音声合成装置の他の構成例を示すブロック図。

符号の説明

１０１…変換元パラメータ記憶部
１０２…変換先パラメータ記憶部
１０３…声質変換規則作成部
１０４…声質変換規則記憶部
１０５…変換元パラメータ抽出部
１０６…パラメータ変換部
１０７…パラメータ選択部
１０８…非周期成分作成部
１０９…パラメータ混合部
１１０…波形生成部

Claims

ターゲット音声の声質の特徴を表す複数のターゲット音声スペクトルパラメータを記憶するパラメータ記憶手段と、
ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を記憶する声質変換規則記憶手段と、
入力された前記ソース音声から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出手段と、
前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第１の変換スペクトルパラメータに変換するパラメータ変換手段と、
前記パラメータ記憶手段に記憶されている前記複数のターゲット音声スペクトルパラメータのなかから、前記第１の変換スペクトルパラメータに類似する少なくとも１つのターゲット音声スペクトルパラメータを選択するパラメータ選択手段と、
選択されたターゲット音声スペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成手段と、
前記第１の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分スペクトルパラメータとを混合することより第２の変換スペクトルパラメータを得るパラメータ混合手段と、
前記第２の変換スペクトルパラメータから音声波形を生成する音声波形生成手段と、
を含む声質変換装置。
前記非周期成分生成手段は、
選択されたターゲット音声スペクトルパラメータまたは前記第１の変換スペクトルパラメータから、声質の周期成分と非周期成分との境界となる境界周波数を求め、
前記選択されたターゲット音声スペクトルパラメータから前記境界周波数より高い帯域を前記非周期成分スペクトルパラメータとして抽出することを特徴とする請求項１記載の声質変換装置。
前記非周期成分生成手段は、
選択されたターゲット音声スペクトルパラメータから、基本周波数の整数倍の周波数成分から前記周期成分を抽出し、該周期成分以外の周波数成分から前記非周期成分スペクトルパラメータを抽出することを特徴とする請求項１記載の声質変換装置。
周波数が最も低い方から順に、前記選択されたターゲット音声スペクトルパラメータまたは前記第１の変換スペクトルパラメータの周波数毎の振幅を累積していき、その値が、全周波数帯域にわたる周波数毎の振幅の累積値のうち予め定められた割合以下で且つ最大となる周波数を前記境界周波数と決定する請求項２記載の声質変換装置。
前記選択されたターゲット音声スペクトルパラメータを複数の帯域に分割し、各帯域の周期性の度合いを表す値を算出し、この度合いを表す値に基づき各帯域を前記周期成分と前記非周期成分とに分類して、該周期成分と該非周期成分との境界の周波数を前記境界周波数として決定する請求項３記載の声質変換装置。
前記パラメータ記憶手段は、各ターゲット音声スペクトルパラメータの前記非周期成分をさらに記憶し、
前記非周期成分生成手段は、前記パラメータ記憶手段に記憶されている、前記第１の変換スペクトルパラメータに類似する１又は複数のターゲット音声スペクトルパラメータの前記非周期成分から、前記非周期成分スペクトルパラメータを生成する請求項１記載の声質変換装置。
前記パラメータ記憶手段は、前記ターゲット音声の音声信号から抽出されたスペクトル包絡情報と、周波数毎の複数の基底及び該複数の基底のそれぞれに対応する複数の基底係数の線形結合との歪み量が最小となるように決定された前記複数の基底係数を前記ターゲット音声スペクトルパラメータとして記憶する請求項１記載の声質変換装置。
前記声質変換規則記憶手段は、前記ソース音声スペクトルパラメータを周波数方向にシフトさせる周波数ワーピング関数、前記ソース音声スペクトルパラメータの各周波数の振幅方向の値を変化させる乗算パラメータ、前記ソース音声スペクトルパラメータと前記ターゲット音声スペクトルパラメータとの差分を表す差分パラメータ、及び前記ソース音声スペクトルパラメータと前記ターゲット音声スペクトルパラメータとの間の回帰分析パラメータのうちの少なくとも１つを前記声質変換規則して記憶する請求項１記載の声質変換装置。
前記パラメータ記憶手段は、前記ターゲット音声の声質の特徴を表すケプストラム、メルケプストラム、及びＬＳＰパラメータのうちのいずれか１つをターゲット音声スペクトルパラメータとして記憶し、
前記非周期成分生成手段は、選択されたターゲット音声スペクトルパラメータを離散スペクトルに変換し、該離散スペクトルから前記非周期成分スペクトルパラメータを生成し、
前記パラメータ混合手段は、前記第１の変換スペクトルパラメータを離散スペクトルに変換し、該離散スペクトルから抽出された前記周期成分と、前記非周期成分スペクトルパラメータとを混合することとにより、前記第２の変換スペクトルパラメータを得る請求項１記載の声質変換装置。
前記パラメータ記憶手段は、各ターゲット音声スペクトルパラメータとともに、これに対応する前記ターゲット音声の位相スペクトルの特徴を示す位相パラメータをさらに記憶し、
前記抽出手段は、さらに、入力された前記ソース音声から、その位相スペクトルの特徴を表すソース音声位相パラメータを抽出し、
前記非周期成分生成手段は、さらに、選択されたターゲット音声スペクトルに対応する前記位相パラメータから、前記非周期成分を表す非周期成分位相パラメータを生成し、
前記パラメータ混合手段は、前記ソース音声位相パラメータから抽出した前記周期成分を表す周期成分位相パラメータと、前記非周期成分位相パラメータとを混合することにより、変換位相パラメータを生成し、
前記音声波形生成手段は、前記第２の変換スペクトルパラメータと、前記変換位相パラメータとから前記音声波形を生成する請求項１記載の声質変換装置。
ターゲット音声の複数の音声素片と、各音声素片とともに当該音声素片の特徴を表すスペクトルパラメータ及び属性情報とを記憶する音声素片記憶手段と、
ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を記憶する声質変換規則記憶手段と、
入力された前記ソース音声の音声素片から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出手段と、
前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第１の変換スペクトルパラメータに変換するパラメータ変換手段と、
前記パラメータ記憶手段に記憶されている各音声素片の前記スペクトルパラメータと前記第１の変換スペクトルパラメータとの類似度と、各音声素片の属性情報と前記入力されたソース音声の属性情報との類似度とのうちの少なくとも１つに基づき、前記複数の音声素片のなかから１または複数の音声素片を選択する選択手段と、
選択された前記１または複数の音声素片のスペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成手段と、
前記第１の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分パラメータとを混合することにより、第２の変換スペクトルパラメータを得るパラメータ混合手段と、
前記第２の変換スペクトルパラメータから音声波形を生成する音声波形生成手段と、
を含む声質変換装置。
前記音声素片記憶手段は、各音声素片の属性情報として、基本周波数、音韻継続時間長、音韻環境、及びスペクトル情報のうちの少なくとも１つを含む請求項１１記載の声質変換装置。
請求項１または１１記載の声質変換装置と、
前記声質変換装置で音声波形の生成された複数の音声素片と、各音声素片の属性情報を記憶する音声素片記憶手段と、
入力されたテキストから得られる音韻系列を予め定められた音声単位に区切り、各音声単位の属性情報に基づき、各音声単位に対し、前記音声素片記憶手段に記憶されている前記複数の音声素片のなかから１または複数の音声素片を選択する音声素片選択手段と、
１つの音声素片に対し選択された１つの音声素片、または１つの音声素片に対し選択された複数の音声素片を融合して得られる代表音声素片を接続して音声波形を生成する音声波形生成手段と、
を含む音声合成装置。
前記音声素片選択手段は、前記音声素片記憶手段に記憶されている前記複数の音声素片と、前記ターゲット音声の複数の音声素片のなかから、各音声素片に対し、１または複数の音声素片を選択する請求項１３記載の音声合成装置。
ターゲット音声の声質の特徴を表す複数のターゲット音声スペクトルパラメータをパラメータ記憶手段に記憶するステップと、
ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を声質変換規則記憶手段に記憶するステップと、
入力された前記ソース音声から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出ステップと、
前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第１の変換スペクトルパラメータに変換するパラメータ変換ステップと、
前記パラメータ記憶手段に記憶されている前記複数のターゲット音声スペクトルパラメータのなかから、前記第１の変換スペクトルパラメータに類似する少なくとも１つのターゲット音声スペクトルパラメータを選択するパラメータ選択ステップと、
選択されたターゲット音声スペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成ステップと、
前記第１の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分スペクトルパラメータとを混合することより第２の変換スペクトルパラメータを得るパラメータ混合ステップと、
前記第２の変換スペクトルパラメータから音声波形を生成する音声波形生成ステップと、
を含む声質変換方法。
ターゲット音声の複数の音声素片と、各音声素片とともに当該音声素片の特徴を表すスペクトルパラメータ及び属性情報とを音声素片記憶手段に記憶するステップと、
ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を声質変換規則記憶手段に記憶するステップと、
入力された前記ソース音声の音声素片から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出ステップと、
前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第１の変換スペクトルパラメータに変換するパラメータ変換ステップと、
前記パラメータ記憶手段に記憶されている各音声素片の前記スペクトルパラメータと前記第１の変換スペクトルパラメータとの類似度と、各音声素片の属性情報と前記入力されたソース音声の属性情報との類似度とのうちの少なくとも１つに基づき、前記複数の音声素片のなかから１または複数の音声素片を選択する選択ステップと、
選択された前記１または複数の音声素片のスペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成ステップと、
前記第１の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分パラメータとを混合することにより、第２の変換スペクトルパラメータを得るパラメータ混合ステップと、
前記第２の変換スペクトルパラメータから音声波形を生成する音声波形生成ステップと、
を含む声質変換方法。
請求項１５または１６記載の声質変換方法を用いて生成された音声波形の複数の音声素片と、各音声素片の属性情報を音声素片記憶手段に記憶するステップと、
入力されたテキストから得られる音韻系列を予め定められた音声単位に区切り、各音声単位の属性情報に基づき、各音声単位に対し、前記音声素片記憶手段に記憶されている前記複数の音声素片のなかから１または複数の音声素片を選択する音声素片選択ステップと、
１つの音声素片に対し選択された１つの音声素片、または１つの音声素片に対し選択された複数の音声素片を融合して得られる代表音声素片を接続して音声波形を生成する音声波形生成ステップと、
を含む音声合成方法。
コンピュータに、
ターゲット音声の声質の特徴を表す複数のターゲット音声スペクトルパラメータをパラメータ記憶手段に記憶するステップ、
ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を声質変換規則記憶手段に記憶するステップ、
入力された前記ソース音声から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出ステップ、
前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第１の変換スペクトルパラメータに変換するパラメータ変換ステップ、
前記パラメータ記憶手段に記憶されている前記複数のターゲット音声スペクトルパラメータのなかから、前記第１の変換スペクトルパラメータに類似する少なくとも１つのターゲット音声スペクトルパラメータを選択するパラメータ選択ステップ、
選択されたターゲット音声スペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成ステップ、
前記第１の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分スペクトルパラメータとを混合することより第２の変換スペクトルパラメータを得るパラメータ混合ステップ、
前記第２の変換スペクトルパラメータから音声波形を生成する音声波形生成ステップ、
を実行させるための声質変換プログラム。
コンピュータに、
ターゲット音声の複数の音声素片と、各音声素片とともに当該音声素片の特徴を表すスペクトルパラメータ及び属性情報とを音声素片記憶手段に記憶するステップ、
ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を声質変換規則記憶手段に記憶するステップ、
入力された前記ソース音声の音声素片から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出ステップ、
前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第１の変換スペクトルパラメータに変換するパラメータ変換ステップ、
前記パラメータ記憶手段に記憶されている各音声素片の前記スペクトルパラメータと前記第１の変換スペクトルパラメータとの類似度と、各音声素片の属性情報と前記入力されたソース音声の属性情報との類似度とのうちの少なくとも１つに基づき、前記複数の音声素片のなかから１または複数の音声素片を選択する選択ステップ、
選択された前記１または複数の音声素片のスペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成ステップ、
前記第１の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分パラメータとを混合することにより、第２の変換スペクトルパラメータを得るパラメータ混合ステップ、
前記第２の変換スペクトルパラメータから音声波形を生成する音声波形生成ステップ、
を実行させるための声質変換プログラム。
コンピュータに請求項１８または１９記載の声質変換プログラムを実行させることにより音声波形の生成された複数の音声素片と、各音声素片の属性情報を音声素片記憶手段に記憶するステップと、
入力されたテキストから得られる音韻系列を予め定められた音声単位に区切り、各音声単位の属性情報に基づき、各音声単位に対し、前記音声素片記憶手段に記憶されている前記複数の音声素片のなかから１または複数の音声素片を選択する音声素片選択ステップ、
１つの音声素片に対し選択された１つの音声素片、または１つの音声素片に対し選択された複数の音声素片を融合して得られる代表音声素片を接続して音声波形を生成する音声波形生成ステップ、
をコンピュータに実行させるための音声合成プログラム。