JP4241736B2

JP4241736B2 - 音声処理装置及びその方法

Info

Publication number: JP4241736B2
Application number: JP2006011653A
Authority: JP
Inventors: 正統田村; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-01-19
Filing date: 2006-01-19
Publication date: 2009-03-18
Anticipated expiration: 2026-01-19
Also published as: US7580839B2; KR20070077042A; CN101004910A; JP2007193139A; EP1811497A3; US20070168189A1; EP1811497A2

Description

本発明は、変換元話者の音声を変換先話者の音声に変換する規則を作成する音声処理装置及びその方法に関する。

変換元話者の音声を入力し、その声質を変換先話者に変換する技術を声質変換技術という。声質変換技術ではまず、音声のスペクトル情報をパラメータとして表現し、変換元話者のスペクトルパラメータと変換先話者のスペクトルパラメータとの関係から声質変換規則を学習する。そして、変換元話者の任意の入力音声を分析してスペクトルパラメータを求め、前記声質変換規則を適用して変換先話者のスペクトルパラメータに変換し、得られたスペクトルパラメータから音声波形を合成することにより、入力音声の声質を変換先話者の声質に変換する。

声質変換の一手法として、混合ガウス分布（ＧＭＭ）に基づいて変換規則を学習する声質変換方法（例えば、非特許文献１参照）が開示されている。非特許文献１では、変換元話者の音声のスペクトルパラメータからＧＭＭを求め、ＧＭＭの各混合における回帰行列を、変換元話者のスペクトルパラメータと、変換先話者のスペクトルパラメータを対にして回帰分析を行うことにより求め、声質変換規則とする。声質変換を適用する際は、入力音声のスペクトルパラメータがＧＭＭの各混合において出力される確率により重み付けして回帰行列を適用する。これにより、変換規則が連続になり、自然な声質変換が行われる。このように、声質変換規則作成のための変換元話者の音声と変換先話者の音声とを対にして、その関係から学習を行う。非特許文献１においては、二人の話者の短い音韻単位の音声データを動的時間伸縮（ＤＴＷ）により対応付けて変換規則の学習データとしている。このように従来の声質変換規則作成装置では、非特許文献１に開示されているように、変換先話者と変換元話者の同じ発話内容の音声データを対応付け、その対から変換規則を学習している。

また、任意の文章を入力し、音声波形を生成することをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の３つの段階によって行われる。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報（基本周波数、音韻継続時間長など）が出力される。最後に、音声波形生成部で音韻系列・韻律情報から音声波形を生成する。音声合成方法の一つとして、入力された音韻系列・韻律情報を目標にして、大量の音声素片を含む音声素片データベースから音声素片系列を選択して合成する素片選択型の音声合成方法がある。素片選択型の音声合成は、予め記憶された大量の音声素片の中から、入力された音韻系列・韻律情報に基づき音声素片を選択し、選択された音声素片を接続することで音声を合成する。また、入力された音韻系列・韻律情報を目標にして、入力音韻系列の各合成単位に対して、合成音声の歪みの度合いに基づいて複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成し、それらを接続して音声を合成する複数素片選択型の音声合成方法がある（例えば、特許文献１参照）。融合方法としては、例えばピッチ波形を平均化する方法が用いられる。

これら、テキスト音声合成の音声素片データベースを、ある目標とする変換先話者の少量の音声データを用いて声質変換することを考える。これにより、音声データが限られる変換先話者の声質で任意の文章を音声合成できるようになる。非特許文献１に開示されている手法を、このような声質変換に適用するためには、変換元話者と、変換先話者の同じ発話内容の音声データを用意し、その音声データを用いて声質変換規則を作成することになる。この様に、非特許文献１に開示されている手法では、大量の変換元話者の音声データと、少量の変換先話者の音声データとを用いて声質変換規則を学習する場合、声質変換規則学習に用いる音声データの発話内容が限定され、また変換元話者の大量の音声素片データベースが存在するにもかかわらず、限定された発話内容のみを用いて声質変換規則を学習するため、変換元話者の大量の音声素片データベースに含まれる情報を反映した変換規則の学習ができない。
特開２００５−１６４７４９号公報 Y.Stylianou,at el.,「Continuous Probabilistic Transform for Voice Conversion,」 IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING,VOL.6,NO.2,MARCH 1998

上述したように、従来技術には大量の変換元話者の音声データと、少量の変換先話者の音声データを用いて声質変換規則を学習する際、学習データとして用いる音声データの発話内容が限定され、また変換元話者の大量の音声素片データベースに含まれる情報を反映した変換規則の学習ができないという問題があった。

本発明は、上記従来技術の問題点を解決するためになされたものであって、変換先話者の任意文の発声による声質変換規則作成を可能とする音声処理装置及びその方法を提供する。

本発明は、変換元話者の複数の音声素片及び前記各音声素片に対応する少なくとも基本周波数情報、継続長情報、音韻環境情報、スペクトル情報のうちの一つを含む複数の属性からなる元話者属性情報を保持する変換元話者音声記憶部と、変換先話者の音声を、任意の音声単位に分割して先話者音声素片とする音声素片抽出部と、前記変換先話者の音声またはその音声の言語情報から、前記各先話者音声素片に対応する先話者属性情報をそれぞれ求める属性作成部と、前記先話者音声素片に対して、前記先話者属性情報と前記元話者属性情報との歪みの度合を表すコストを、前記属性情報に含まれる各属性に対する歪みの度合を表すサブコスト関数の重み付き和であるコスト関数から算出し、前記コストより一または複数の音声素片を前記変換元話者音声記憶部に含まれる、先話者音声素片と同一の音韻の音声素片から選択して、元話者音声素片とすることにより前記変換先話者の音声に対応する音声素片対を作成する変換元話者音声素片選択部と、前記一または複数の元話者音声素片の声質を前記先話者音声素片の声質に変換するための、共通もしくは所定の分類に従って作成された複数の声質変換関数を、前記変換先話者の音声に対応する音声素片対の前記先話者音声素片と前記一または複数の元話者音声素片に基づいて作成する声質変換規則作成部と、を有することを特徴とする音声処理装置である。

本発明によれば、変換先話者の任意文の発声による声質変換規則作成を可能とする。

以下、本発明の実施形態について説明する。

（第１の実施形態）
以下、本発明の第１の実施形態に係わる声質変換規則作成装置について図１から図２１に基づいて説明する。

（１）声質変換規則作成装置の構成
図１は、本実施形態に係わる声質変換規則作成装置を示すブロック図である。

声質変換規則作成装置は、変換元話者音声素片データベース１１と、声質変換規則学習データ作成部１２と、声質変換規則学習部１３とを備え、声質変換規則１４を作成する。

声質変換規則学習データ作成部１２は、変換先話者の音声データを入力し、任意の音声単位に区切って得られる音声素片それぞれに対して、変換元話者音声素片データベース１１から変換元話者の音声素片を選択し、前記変換先話者の音声素片と選択された変換元話者の音声素片との対を学習データとする。

声質変換規則学習部１３では、声質変換規則学習データ作成部１２で作成された学習データを用いて声質変換規則１４を学習する。

（２）声質変換規則学習データ作成部１２
図２に、声質変換規則学習データ作成部１２の構成を示す。

音声素片抽出部２１において、変換先話者の音声データは、任意の音声単位の音声素片に分割されて変換先話者音声素片を抽出する。

属性作成部２２において、抽出された変換先話者音声素片に対応する属性情報が作成される。

変換元話者音声素片選択部２３において、前記変換先話者音声素片の属性情報と、変換元話者音声素片データベースに含まれる変換元話者音声素片の属性情報との歪みを表すコスト関数に基づいて、変換先話者音声素片に対応する変換元話者音声素片が選択される。

このように選択された変換先話者音声素片と、変換元話者音声素片の対を、声質変換規則の学習データとする。

以下、声質変換規則学習データ作成部１２の処理の詳細を述べる。

（２−１）音声素片抽出部２１
音声素片抽出部２１では、変換先話者の音声データから任意の音声単位の音声素片を抽出する。音声単位は、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素（Ｃ、Ｖ）、ダイフォン（ＣＶ、ＶＣ、ＶＶ）、トライフォン（ＣＶＣ、ＶＣＶ）、音節（ＣＶ、Ｖ）、などであり（Ｖは母音、Ｃは子音を表す）、これらが混在しているなど可変長であってもよい。

図３に音声素片抽出部２１の処理のフローチャートを示す。

ステップＳ３１において、入力された変換先話者音声データに対して音素単位等のラベル付けを行う。

ステップＳ３２において、ピッチマークを付与する。

ステップＳ３３において、任意の音声単位に対応する音声素片に分割する。

図４に「そう話す」という文に対してラベリング及びピッチマーキングを行った例を示す。図４（ａ）は、音声データの音素境界にラベルを付与した例、図４（ｂ）は「ａ」の部分に対してピッチマーキングを行った例を示している。

ラベリングは音声単位の境界と各音声単位の音韻種別を表すラベルを付与することであり、隠れマルコフモデルを用いる方法などにより行われる。自動ラベリングに限らず、人手で付与してもよい。また、ピッチマーキングは音声の基本周期に同期したマークを付与することであり、波形のピークを抽出する方法などにより行われる。

このように、ラベリング、ピッチマーキングを行い、音声素片に分割する。音声単位を半音素とした場合、図４（ｂ）に示すように音素境界及び音素中心で波形を分割し、「ａの左素片（ａ−ｌｅｆｔ）」、「ａの右素片（ａ−ｒｉｇｈｔ）」のように求められる。

（２−２）属性作成部２２
次に、属性作成部２２において、音声素片抽出部２１において抽出された音声素片に対応する属性情報を求める。音声素片の属性は、基本周波数情報、継続長情報、音韻環境情報、スペクトル情報などの情報が用いられる。

図５に作成された変換先話者属性情報の例を示す。ここでは、基本周波数情報、音韻継続時間長、接続境界のケプストラム及び音韻環境を属性としており、基本周波数は音声素片内の平均値（Ｈｚ）、音韻継続時間長はミリ秒単位（ｍｓｅｃ）、スペクトルパラメータは接続境界のケプストラム、音韻環境は前後の隣の音素としている。

基本周波数は、例えば自己相関関数に基づいてピッチ抽出し、基本周波数に変換し、素片内の平均値を求めることにより求められる。また、スペクトル情報となるケプストラムは音声素片境界の端のピッチ波形を分析することにより求められる。

音韻環境は、前野音韻の種類及び後ろの音韻の種類を保持している。これにより変換先話者の音声素片及び対応する変換先話者属性情報が求められる。音韻環境は、前の音韻の種類及び後ろの音韻の種類を保持している。

（２−３）変換元話者音声素片データベース１１
変換元話者音声素片データベース１１は、変換元話者の音声データから作成した音声素片及び属性情報が記憶されている。音声素片の音声単位、属性情報は、音声素片抽出部２１及び属性作成部２２において得られるものと同様のものである。

変換元話者音声素片データベース１１には、図６に示すように、ピッチマークの付与された変換元話者の音声素片の波形が当該音声素片を識別するための番号と共に格納されている。

また、音声素片と共に図７に示すように各音声素片の属性情報が、当該音声素片の素片番号と共に記憶されている。

音声素片及び属性情報は、変換先話者音声素片抽出部２１、属性作成部２２の処理と同様に、変換元話者の音声データから、ラベリング、ピッチマーキング、属性生成、素片抽出等の工程により作成される。

（２−４）変換元話者音声素片選択部２３
変換元話者音声素片選択部２３では、変換先話者の音声素片の属性情報と、変換元話者の属性情報の歪みをコスト関数として表し、変換先話者の各音声素片に対してコストが最小となる変換元話者の音声素片を選択する。

（２−４−１）コスト関数
コスト関数は、属性情報毎にサブコスト関数Ｃｎ（ｕｔ，ｕｃ）（ｎ：１，…，Ｎ、Ｎはサブコスト関数の数）として表す。ｕｔは変換先話者の音声素片、ｕｃは変換元話者音声素片データベース１１に含まれる変換元話者の音声素片のうち、ｕｔと同じ音韻の音声素片を表す。

サブコスト関数は、変換先話者の音声素片と変換元話者との音声素片の基本周波数の違い（差）を表す基本周波数コストＣ１（ｕｔ，ｕｃ）、音韻継続時間長の違い（差）を表す音韻継続時間長コストＣ２（ｕｔ，ｕｃ）、素片境界におけるスペクトルの違い（差）を表すスペクトルコストＣ３（ｕｔ，ｕｃ）、Ｃ４（ｕｔ，ｕｃ）、音韻環境の違い（差）を表す音韻環境コストＣ５（ｕｔ，ｕｃ）、Ｃ６（ｕｔ，ｕｃ）を用いる。

具体的には、基本周波数コストは、

のように対数基本周波数の差として算出する。ここで、ｆ（ｕ）は音声素片ｕに対応する属性情報から平均基本周波数を取り出す関数を表す。

また、音韻継続時間長コストは、

から算出する。ここで、ｇ（ｕ）は音声素片ｕに対応する属性情報から音韻継続時間長を取り出す関数を表す。

スペクトルコストは、音声素片の境界におけるケプストラム距離

から算出する。ここで、ｈ^ｌ（ｕ）は音声素片ｕの左素片境界、ｈ^ｒ（ｕ）は右素片境界のケプストラム係数をベクトルとして取り出す関数を表す。

音韻環境コストは、隣の素片が等しいかどうかを表す距離

から算出する。

変換先話者の音声素片と変換元話者の音声素片の歪みを表すコスト関数は、これらのサブコスト関数の重み付き和として定義する。

ここで、ｗｎはサブコスト関数の重みを表す。本実施形態では、簡単のため、ｗｎは全て「１」とする。上記式（５）は、ある変換先話者音声素片に、変換元話者音声素片データベース中のある音声素片を当てはめた場合の歪みを表す当該音声素片のコスト関数である。

（２−４−２）処理の内容
変換元話者音声素片選択部２３では、上述したコスト関数を用いて変換先話者の音声素片に対応する変換元話者の音声素片を選択する。この処理を図８に示す。

ステップＳ８１〜Ｓ８３において、変換元話者音声素片データベースに含まれる変換先話者の音声素片と同じ音韻の音声素片全てについてループし、コスト関数の値を計算する。ここで同じ音韻とは、音声単位に対応した音韻の種類が等しいものであり、半音素単位であれば「ａの左素片」、「ｉの右素片」などの種類が等しいことを示す。

ステップＳ８１〜Ｓ８３において、変換先音声素片と同じ音韻の全ての変換元話者音声素片コストが求められる。

ステップＳ８４において、その中からコスト値を最小とする変換元話者音声素片を選択する。

これらの処理により変換先話者音声素片と変換元話者音声素片の学習データの対が求まる。

（２−４−３）他の処理の内容
図８の変換元話者音声素片選択部２３では、各変換先話者音声素片に対し、コスト最小となる最適な音声素片を一つ選択しているが、複数の音声素片を選択しても良い。

この場合、変換元話者音声素片選択部２３は、図９に示す処理により変換元話者音声素片データベースに含まれる同じ音韻の音声素片の中からコスト値の小さい方から順に上位Ｎ個の変換元話者の音声素片を選択する。

まず、ステップＳ８１〜Ｓ８３において、変換元話者音声素片データベースに含まれる変換先話者の音声素片と同じ音韻の音声素片全てについてループし、コスト関数の値を計算する。

その後、ステップＳ９１において、コストに基づいて音声素片をソートし、ステップＳ９２において、コスト値の小さいものから上位Ｎ個の音声素片を選択する。

このようにして一つの変換先話者の音声素片に対してＮ個の変換元話者の音声素片を選択することができ、変換元話者の音声素片それぞれと、対応する変換先話者の音声素片とを学習データの対とする。

これにより、変換先話者のそれぞれの音声素片に対して複数の変換元話者の音声素片が用いられるため、変換元話者音声素片と最適変換先話者音声素片とのミスマッチによる悪影響が減少し、また学習データ量が増えるため、より安定した変換規則学習を行うことができる。

（３）声質変換規則学習部１３
次に、声質変換規則学習部１３について説明する。

声質変換規則学習部１３では、声質変換規則学習データ作成部１２において作成された変換元話者と変換先話者の音声素片の対を用いて声質変換規則１４を学習する。声質変換規則としては、平行移動、単回帰分析、重回帰分析、ＶＱに基づく声質変換、非特許文献１に示されるＧＭＭに基づく声質変換などが挙げられる。

（３−１）処理の内容
声質変換規則学習部１３の処理を図１０に示す。

まず、変換先話者スペクトルパラメータ抽出部１０１及び変換元話者スペクトルパラメータ抽出部１０２において、学習データのスペクトルパラメータを求める。スペクトルパラメータは、音声素片のスペクトル包絡の情報を表すパラメータであり、ＬＰＣ係数、ＬＳＦパラメータ、メルケプストラム等が用いられる。ここでは、スペクトルパラメータはピッチ同期分析により求める。すなわち、音声素片のそれぞれのピッチマークを中心として、ピッチの２倍のハニング窓をかけることによりピッチ波形を抽出し、得られたピッチ波形からスペクトルパラメータを求める。

スペクトルパラメータの一つであるメルケプストラムは、正則化離散ケプストラムによる方法（O.Cappe at el.,「Regularization Techniques for Discrete Cepstrum Estimation,」 IEEE SIGNAL PROCESSING LETTERS,VOL.3,NO.4,APRIL1996）、不偏推定による方法（小林隆夫,「音声のケプストラム分析，メルケプストラム分析」，電子情報通信学会技術研究報告，DSP98-77/SP98-56,pp.33-40,1998.9）等により求めることができる。

変換元話者音声素片、変換先話者音声素片の各ピッチマークにおいてスペクトルパラメータを求めた後、スペクトルパラメータマッピング部１０３でスペクトルパラメータを対応づける。

変換元話者、変換先話者の音声素片はピッチ波形数が異なるため、スペクトルパラメータマッピング部１０３においてピッチ波形数を揃える処理を行う。これは、ＤＴＷ（動的時間伸縮）による方法、線形にマッピングする方法、区分線形関数でマッピングする方法などにより変換元話者のスペクトルパラメータと変換先話者のスペクトルパラメータを時間方向に対応付けることにより行う。

この結果、変換先話者の各スペクトルパラメータに対して、変換元話者のスペクトルパラメータが対応づけられる。この様子を図１１に示す。図１１は、上から変換先話者音声素片とピッチマーク、ハニング窓により切り出した各ピッチ波形及び各ピッチ波形をスペクトル分析し、得られたスペクトルパラメータから求めたスペクトル包絡とを示す。また、下から同様に変換元話者の音声素片、ピッチ波形、スペクトル包絡を示している。図１０のスペクトルパラメータマッピング部１０３において、変換元話者のスペクトルパラメータと、変換先話者のスペクトルパラメータを１対１対応させて、スペクトルパラメータの対を求め、これらを声質変換規則の学習データとする。

このように作成した変換元話者と変換先話者のスペクトルパラメータの対を学習データとして、声質変換規則作成部１０４により声質変換規則を学習する。

（３−２）声質変換規則
声質変換規則として、平行移動、単回帰分析、重回帰分析、ベクトル量子化（ＶＱ）に基づく声質変換規則、混合ガウス分布（ＧＭＭ）に基づく声質変換規則について述べる。

（３−２−１）平行移動を用いる場合
平行移動を用いる場合の声質変換規則作成部１０４の処理を図１２に示す。

平行移動を用いる場合、声質変換規則は、次の式で表される。

ここで、ｙ’は変換後のスペクトルパラメータ、ｘは変換元のスペクトルパラメータ、ｂは平行移動量であり、ｂを学習データであるスペクトルパラメータの対から次式により求める。

但し、Nは学習用スペクトルパラメータ対の数を表し、ｙｉは変換先話者のスペクトルパラメータ、ｘｉは変換元話者のスペクトルパラメータ、ｉは学習データ対の番号を表す。まず、ステップＳ１２１〜Ｓ１２３のループにより、全ての学習用スペクトルパラメータ対の差を求め、ステップＳ１２４において平行移動量ｂを求める。この平行移動量ｂが変換規則になる。

（３−２−２）単回帰分析を用いる場合
次に、単回帰分析を用いる場合の声質変換規則作成部１０４の処理を図１３に示す。

単回帰分析の場合はスペクトルパラメータの各次元で回帰分析を行う。単回帰分析を用いる場合、声質変換規則は、次の式で表される。

ここで、ｙ’^ｋは変換後のスペクトルパラメータ、ｘ^ｋは変換元のスペクトルパラメータ、ａ^ｋ、ｂ^ｋは回帰係数とオフセット項、ｋはスペクトルパラメータの次元であり、このａ^ｋ、ｂ^ｋを学習データであるスペクトルパラメータの対から求める。

但し、Ｎは学習用スペクトルパラメータ対の数、ｙｉ^ｋは変換先話者のスペクトルパラメータ、ｘｉ^ｋは変換元話者のスペクトルパラメータ、ｉは学習データ対の番号を表す。

まず、ステップＳ１３１〜Ｓ１３３のループにより、全ての学習用スペクトルパラメータ対から、回帰分析に必要な式（９）の各項の値を求め、ステップＳ１３４において回帰係数ａ^ｋ及びｂ^ｋを求める。この回帰係数ａ^ｋ及びｂ^ｋが求める変換規則になる。

（３−２−３）重回帰分析を用いる場合
次に、重回帰分析を用いる場合の声質変換規則作成部１０４の処理を図１４に示す。

重回帰分析を用いる場合、声質変換規則は、次の式で表される。

ここで、ｙ’は変換後のスペクトルパラメータ、ｘ’は変換元のスペクトルパラメータｘにオフセット項（１）を加えたもの、Ａは回帰行列であり、Ａを学習データであるスペクトルパラメータの対から求める。ｋをスペクトルパラメータの次元、ａ^ｋを行列Ａの各列とし、Ｙ^ｋを（ｙ１^ｋ、…、ｙＮ^ｋ）Ｔ、Ｘを（x’１^Ｔ、…、ｘ’Ｎ^Ｔ）、ｘ’ｉ^Ｔは変換元スペクトルパラメータｘｉにオフセット項を加え（ｘｉ^Ｔ、１）^Ｔとしたもの、としたとき、

として表される方程式を解くことにより求めることができる。但し、Ｘ^Ｔは行列Ｘの転置を表す。

変換規則学習のアルゴリズムは、図１４に示すように、まず、ステップＳ１４１〜Ｓ１４３のループにより、全ての学習用スペクトルパラメータ対から、Ｘ及びＹを作成し、ステップＳ１４４において、式（１１）の方程式を解くことにより、回帰係数ａ^ｋが求まり、全ての次元について解くことにより、回帰行列Ａが求まる。この回帰行列Ａが求める変換規則になる。

（３−２−４）ベクトル量子化を用いる場合
次に、ベクトル量子化（ＶＱ）に基づく場合の声質変換規則作成部１０４の処理を図１５に示す。

ＶＱに基づく声質変換規則では、まず変換元話者のスペクトルパラメータの集合をＬＢＧアルゴリズムによりＣ個のクラスタにクラスタリングし、ＶＱにより声質変換規則学習データ作成部１２において作成された学習データ対の変換元話者スペクトルパラメータを各クラスタに割り当て、各クラスタにおいて重回帰分析を行う。ＶＱに基づく声質変換規則は次式で表される。

Ａ^ｃはクラスタｃの回帰行列、ｓｅｌ^ｃ（ｘ）は、ｘがクラスタｃに属する場合は１それ以外は０を返す選択関数である。式（１２）は、選択関数により回帰行列を選択して、各クラスタにおいてスペクトルパラメータの変換を行うことを表している。

この概念図を図１６に示す。図中黒丸は変換元話者スペクトルパラメータ、白丸はＬＢＧアルゴリズムにより求められたセントロイドを示す。

図中の線に示すように変換元話者スペクトルパラメータの空間はクラスタリングされ、各クラスタにおいて、回帰行列Ａ^ｃを求める。変換時には入力された変換元話者のスペクトルパラメータを各クラスタに対応づけ、各クラスタの回帰行列によりスペクトルパラメータを変換する。

まず、声質変換規則作成部１０４では、ステップＳ１５１においてクラスタリングを行い、各クラスタのセントロイドを求める。予め定めたクラスタ数ＣになるまでＬＢＧアルゴリズムにより変換元話者のスペクトルパラメータをクラスタリングする。クラスタリングの学習データは変換元話者音声素片データベース１１に含まれる全ての音声素片から抽出したピッチ波形のスペクトルパラメータを用いて行う。声質変換規則学習データ作成部１２において選択された変換元話者の音声素片のスペクトルパラメータのみをクラスタリングしてもよい。

次に、ステップＳ１５２〜Ｓ１５４において、声質変換規則学習データ作成部１２において作成された学習データ対の変換元話者スペクトルパラメータをベクトル量子化し、それぞれのスペクトルパラメータをクラスタに割り当てる。

そして、ステップＳ１５５〜Ｓ１５７において、変換元話者スペクトルパラメータと変換先話者スペクトルパラメータの対を用いて各クラスタの回帰行列を求める。回帰行列の計算ステップ１５６においては、図１４のステップＳ１４１〜Ｓ１４４に示す処理と同様に、クラスタ毎に式（１１）の方程式を作成し、これを解くことにより回帰行列Ａ^ｃを求める。ＶＱに基づく声質変換規則では、ＬＢＧアルゴリズムにより得られた各クラスタのセントロイド及び各クラスタの回帰行列Ａ^ｃが声質変換規則になる。

（３−２−５）ＧＭＭを用いる場合
最後に、非特許文献１において提案されているＧＭＭに基づく声質変換の声質変換規則作成部１０４の処理を図１７に示す。ＧＭＭに基づく声質変換規則では、ＧＭＭにより変換元話者スペクトルパラメータをモデル化し、入力した変換元話者のスペクトルパラメータがＧＭＭの各混合成分において観測される事後確率により重み付けして声質変換を行う。ＧＭＭλは、ガウス分布の混合として、次式で表される。

このとき、ＧＭＭに基づく声質変換の変換規則は次式で示される。

により求める。

ＧＭＭに基づく声質変換では、各混合の間で連続に変化する回帰行列が得られるという特徴がある。概念図を図１８に示す。図中黒丸は変換元話者スペクトルパラメータ、白丸はＧＭＭの最尤推定により求められた各混合の平均値を表す。

ＧＭＭに基づく声質変換では、ＶＱに基づく声質変換規則における各クラスタが、ＧＭＭの各混合に対応し、それぞれの混合はガウス分布であらわされ平均μｃ、分散Σｃ、混合重みｗｃをパラメータとして持つ。各混合の回帰行列をＡ^ｃとしたとき、ｘは式（１４）の事後確率に基づいて各混合の回帰行列を重み付けするように適応される。

図中の式に示したように、変換元のスペクトルパラメータｘが混合ｍ１において生成される確率が０．３、混合ｍ２において生成される確率が０．６、混合ｍ３において生成される確率が０．１となる場合、各クラスタの回帰行列を用いて変換したスペクトルパラメータの重み付け和により変換先のスペクトルパラメータｙが求まる。

ＧＭＭに基づく声質変換規則作成部１０４では、まずステップＳ１７１によりＧＭＭを最尤推定する。ＧＭＭの初期値としては、ＬＢＧアルゴリズムで作成したクラスタを与え、ＥＭアルゴリズムによりＧＭＭの各パラメータを最尤推定する。次にＳ１７２〜Ｓ１７４において、回帰行列を求めるための方程式の係数を求める。特許文献１に述べられているように、式（１４）により重み付けしたデータに対して図１４に示す処理と同様の処理を行うことにより方程式の係数が求まる。そして、ステップＳ１７５において、各混合の回帰行列Ａｃを求める。ＧＭＭに基づく声質変換規則では、ＧＭＭのモデルパラメータλ及び各混合における回帰行列Ａ^ｃが声質変換規則になる。

以上により、平行移動、単回帰分析、重回帰分析、ベクトル量子化（ＶＱ）に基づく声質変換規則、または混合ガウス分布（ＧＭＭ）に基づく声質変換それぞれの声質変換規則が求められる。

（４）効果
本実施形態により、変換先話者の音声データから音声素片及び属性情報を抽出し、属性情報の歪みに基づいて変換元話者の音声素片データベースから音声素片を選択し、変換先話者音声素片、変換元話者音声素片の対を学習データとして声質変換規則を学習することができる。

また、変換先話者の任意文の発声による声質変換規則作成を可能とし、また変換元話者の大量の音声素片データベースに含まれる情報を反映した変換規則の学習を可能とする声質変換規則作成装置を提供することができる。

（５）変更例
本実施形態では、変換先話者の属性情報と、変換元話者の属性情報との歪みを式（５）に表されるコスト関数として、コストが最小となる変換元話者の音声素片もしくは、複数の変換元話者の音声素片を選択している。

これに代えて、変換先話者の属性情報を変換元話者の属性情報に近づけるように変換し、変換した変換先話者属性情報と、変換元話者属性情報との間の歪みから式（５）のコストを求め変換元話者の音声素片を選択してもよい。

（５−１）属性作成部２２の処理
この場合の属性作成部２２の処理を、図１９に示す。

属性作成部２２では、変換先話者の音声素片から変換先話者属性抽出部１９１により変換先話者の属性を抽出する。

変換先話者属性抽出部１９１では、変換先話者の基本周波数、音韻継続時間長、接続境界ケプストラム、音韻環境など図５に示す情報が抽出される。

属性変換部１９２において、得られた変換先話者の属性を、変換元話者の属性に近づけるように変換し、変換元話者音声素片選択部２３に入力する変換先話者属性情報を作成する。属性の変換は、属性変換規則作成部１９４において予め作成した属性変換規則１９３を用いて行う。

（５−２）基本周波数と音韻継続時間長を変換する例
以下、図５に示されている属性情報のうち、基本周波数及び音韻継続時間長を変換する例を示す。

この場合、属性変換規則作成部１９４では、変換先話者の基本周波数を変換元話者の基本周波数へ近づける規則及び変換先話者の音韻継続時間長を変換元話者の音韻継続時間長に近づける規則を作成する。この処理のフローチャートを図２０及び図２１に示す。

変換先話者平均対数基本周波数抽出ステップＳ２０１において、変換先話者の音声データから抽出した対数基本周波数の平均値を求める。

変換元話者平均対数基本周波数抽出ステップＳ２０２において、変換元話者の音声データから抽出した対数基本周波数の平均値を求める。

平均対数基本周波数差計算ステップＳ２０３において、変換元話者平均対数基本周波数と、変換先話者平均対数基本周波数の差を求め、属性変換規則１９３とする。

同様に、図２１の変換先話者平均音韻継続時間長ステップＳ２１１において、変換先話者の音韻継続時間長の平均値を求める。

変換元話者平均音韻継続時間長ステップＳ２１２において、変換元話者の音韻継続時間長の平均値を求める。

音韻継続時間長比計算ステップＳ２１３において、変換元話者の平均音韻継続時間長と、変換先話者の平均音韻継続時間長の比を求めて属性変換規則１９３とする。

属性変換規則１９３は、平均対数基本周波数差、平均音韻継続時間長比だけでなく、平均対数基本周波数のレンジを補正する規則などを用いてもよい。また、全データで共通の規則ではなく、音韻毎・アクセント型毎の規則作成など属性をクラスタリングして、各クラスタにおいて属性変換規則を求めてもよい。このように属性変換規則作成部１９４において属性変換規則１９３が作成される。

属性作成部２２では、変換先話者音声素片から、図５に示す属性を求め、属性中の基本周波数、音韻継続時間長を、属性変換規則１９３に保持されている変換規則で変換する。基本周波数は、対数基本周波数に変換し、対数基本周波数に対して平均対数基本周波数差を加えることにより変換元話者の基本周波数に近づけるように変換し、変換された対数基本周波数から基本周波数に戻すことにより素片選択時の変換先話者の基本周波数属性とする。

音韻継続時間長は、平均音韻継続時間長比をかけることにより変換元話者の音韻継続時間長に近づけるように変換し、変換した属性を素片選択時の変換先話者音韻継続時間長属性とする。

これにより、男声の声から女声の声に変換する場合のように平均基本周波数が大きく異なる話者の間で声質変換規則を学習する場合に、変換先話者の女声の基本周波数を属性として、変換元話者の男性の音声素片データベースから素片選択すると、男声の音声素片データベース中の最も基本周波数の高い素片ばかりが選択されてしまい、選択される素片に偏りが生じることを避けることができる。

また、話速の早い変換元話者から話速の遅い変換先話者に変換する声質変換規則を作成する際に、変換元話者の音声素片の中から最も音韻継続時間長の長い音声素片ばかりが選択され、選択される素片に偏りが生じることを避けることができる。

これにより、変換先話者と変換元話者の特徴が異なる場合においても、変換元話者の音声素片データベースに含まれるそれぞれの音声素片の特徴を反映した声質変換規則を作成することができる。

（第２の実施形態）
以下、本発明の第２の実施形態に係わる声質変換装置について図２３から図２６に基づいて説明する。

声質変換装置は、第１の実施形態に係わる声質変換規則作成装置において作成された声質変換規則を変換元話者の任意の音声データに適用し、変換元話者の音声データの声質を変換先話者の声質に変換する。

（１）声質変換装置の構成
図２３は、本実施形態に係わる声質変換装置を示すブロック図である。

まず、変換元話者の音声データから、変換元話者スペクトルパラメータ抽出部２３１において、スペクトルパラメータを抽出する。

スペクトルパラメータ変換部２３２では、抽出されたスペクトルパラメータを第１の実施形態に係わる声質変換規則作成装置において作成された声質変換規則１４により変換する。

そして、波形生成部２３３では、変換されたスペクトルパラメータから音声波形を生成する。これにより変換元話者音声データから変換した変換先話者音声波形が得られる。

（２）変換元話者スペクトルパラメータ抽出部２３１
変換元話者スペクトルパラメータ抽出部２３１では、変換元話者音声データに対してピッチマーキングを行い、各ピッチマークを中心としてピッチ波形を切り出し、切り出したピッチ波形に対してスペクトル分析を行う。ピッチマーキング、スペクトル分析等は、第１の実施形態において述べた変換元話者スペクトルパラメータ抽出部１０２と同様の方法を用いる。これにより、変換元話者の音声データの各ピッチ波形に対して、図１１の変換元話者スペクトルパラメータ抽出部１０２に示すようなスペクトルパラメータが求まる。

（３）スペクトルパラメータ変換部２３２
次に、スペクトルパラメータ変換部２３２において、声質変換規則学習部１３において作成された声質変換規則２３４に保持されている声質変換規則を用いて、スペクトルパラメータを変換する。

（３−１）平行移動を用いる場合
声質変換規則として平行移動を用いる場合はｘを変換元のスペクトルパラメータ、ｙを変換後のスペクトルパラメータ、ｂを平行移動量として、式（６）により求まる。

（３−２）単回帰分析を用いる場合
また、単回帰分析を用いる場合は、ｘ^ｋを変換元のｋ次のスペクトルパラメータ、ｙ^ｋを変換元のｋ次のスペクトルパラメータ、ａ^ｋをｋ次のスペクトルパラメータに対する回帰係数、ｂ^ｋをｋ次のスペクトルパラメータに対するバイアスとしたときに、式（８）により求まる。

（３−３）重回帰分析を用いる場合
また、重回帰分析を用いる場合は、ｘを変換元のスペクトルパラメータ、ｙを変換後のスペクトルパラメータ、Ａを回帰行列としたとき、式（１０）により求まる。

（３−４）ＶＱに基づく方法を用いる場合
また、ＶＱに基づく方法を用いる場合は、スペクトルパラメータ変換部２３２は変換元のスペクトルパラメータに対して、図２４に示す処理を適用して変換する。

図２４では、まずステップＳ２４１において、声質変換規則学習部１３においてＬＢＧアルゴリズムにより得られた各クラスタのセントロイドと入力されたスペクトルパラメータとの距離を求め、距離が最小となるクラスタを選択する（ベクトル量子化）。

ステップＳ２４２において、式（１２）を用いてスペクトルパラメータの変換を行う。ｘは変換元のスペクトルパラメータ、ｙは変換後のスペクトルパラメータ、Ａ^ｃはクラスタｃの回帰行列、ｓｅｌ^ｃ（ｘ）は、ｘがクラスタｃに属する場合は１それ以外は０を返す関数である。

（３−５）ＧＭＭに基づく方法を用いる場合
また、ＧＭＭに基づく方法を用いる場合について図２８に基づいて説明する。

図２５に示すように、まずステップＳ２５１において、声質変換規則学習部１３において最尤推定により得られたＧＭＭを用いてスペクトルパラメータがＧＭＭの各混合において生成される事後確率式（１５）を求める。

次に、ステップＳ２５２において、得られた各混合における事後確率を重みとして、式（１４）により変換する。ｐ（ｍｃ｜ｘ）はｘが混合ｍｃにおいて観測される確率であり、ｘは変換元のスペクトルパラメータ、ｙは変換後のスペクトルパラメータ、Ａ^ｃは混合ｃの回帰行列である。

これらに示したように、それぞれの声質変換規則に対応して、スペクトルパラメータ変換部２３２において変換元話者のスペクトルパラメータを変換する。

（４）波形合成部２３３
次に、波形合成部２３３では、変換したスペクトルパラメータから波形を生成する。

変換したスペクトルパラメータから求めたスペクトルに適当な位相を与え、逆フーリエ変換することによりピッチ波形を生成し、得られたピッチ波形をピッチマークに重畳合成することにより波形が合成される。

波形合成の際のピッチマークは、変換元話者のピッチマークから、目標話者の韻律に近づけるように変更したピッチマークを用いてもよい。この場合、図２０及び図２１に示す属性変換規則作成部において作成された基本周波数及び音韻継続時間長の変換規則を、変換元話者から抽出した基本周波数及び音韻継続時間長に適用して変換し、変換した基本周波数及び音韻継続時間長からピッチマークを作成する。

これにより韻律情報を目標話者に近づけることができる。

また、逆フーリエ変換によりピッチ波形を合成したが、適当な音源情報を与え、フィルタリングすることによりピッチ波形を再合成してもよい。ＬＰＣ係数の場合は全極フィルタ、メルケプストラムの場合はＭＬＳＡフィルタにより音源情報と、スペクトル包絡パラメータからピッチ波形を合成することができる。

（５）音声データの例
声質変換装置で変換した音声データの例を図２６に示す。

図２６は左から、変換元話者の音声データ、変換後の音声データ、変換先話者の音声データからそれぞれ抽出した対数スペクトル及びピッチ波形を示す。

変換元話者音声データから抽出したピッチ波形から、変換元話者スペクトルパラメータ抽出部２３１でスペクトル包絡パラメータを求める。得られたスペクトル包絡パラメータに対し、スペクトルパラメータ変換部２３２において声質変換規則を適用することにより変換する。変換したスペクトル包絡パラメータから波形合成部２３３により変換後のピッチ波形を合成することで、変換後のピッチ波形が得られる。変換先話者の音声データから抽出したピッチ波形及びスペクトル包絡と比較すると、変換後のピッチ波形は変換先話者の音声データから抽出したピッチ波形に近づいている様子がわかる。

（６）効果
上述したように、本実施形態では、第１の実施形態に示す声質変換規則作成装置において作成された声質変換規則を用いて、入力した変換元話者の音声データを変換先話者の声質になるように変換することができる。

本実施形態によれば、変換先話者の任意文の発声による声質変換規則、また変換元話者の大量の音声素片データベースに含まれる情報を反映した声質変換規則を、変換元話者の音声データに適用することが可能になり高品質な声質変換を行うことができる。

（第３の実施形態）
以下、本発明の第３の実施形態に係わるテキスト音声合成装置について図２７から図３３に基づいて説明する。

テキスト音声合成装置は、第１の実施形態に係わる声質変換規則作成装置において作成された声質変換規則を音声合成装置に適用し、任意文の入力に対して、変換先話者の声質をもつ合成音声を生成する。

（１）テキスト音声合成装置の構成
図２７は、本実施形態に係わるテキスト音声合成装置を示すブロック図である。

テキスト音声合成装置は、テキスト入力部２７１、言語処理部２７２、韻律処理部２７３、音声合成部２７４、音声波形出力部２７５から構成される。

（２）言語処理部２７２
言語処理部２７２は、テキスト入力部２７１から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部２７３へ送る。

（３）韻律処理部２７３
韻律処理部２７３は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列（音韻記号列）及び韻律情報を生成し、音声波形生成部２７４へ送る。

（４）音声合成部２７４
音声合成部２７４は、音韻系列及び韻律情報から音声波形を生成する。こうして生成された音声波形は音声波形出力部２７５で出力される。

（４−２）音声合成部２７４の構成
図２８は、音声合成部２７４の構成例を示したものである。

音声合成部２７４は、音韻系列・韻律情報入力部２８１、音声素片選択部２８２、音声素片編集・接続部２８３、音声波形出力部２７５と、変換先話者の音声素片及び属性情報を保持する音声素片データベース２８４より構成される。

本実施形態においては、変換先話者音声素片データベース２８４は、変換元話者音声素片データベース１１に対して、第１の実施形態に係わる声質変換措置において作成された声質変換規則１４を声質変換部２８５において適用することによって得られる変換先話者の音声素片データベースであることを特徴としている。

変換元話者音声素片データベース１１は、第１の実施形態と同様に、変換元話者の音声データから作成した任意の音声単位に分割された音声素片及び属性情報が記憶されている。音声素片は、図６に示すように、ピッチマークの付与された変換元話者の音声素片の波形が当該音声素片を識別するための番号と共に格納されており、属性情報は図７に示すように、音韻（半音素名など）、基本周波数、音韻継続時間長、接続境界ケプストラム、音素環境など、音声素片素片選択２８２において用いる情報が当該音声素片の素片番号と共に記憶されている。音声素片及び属性情報は、変換先話者の素片抽出部、属性作成部の処理と同様に、変換元話者の音声データから、ラベリング、ピッチマーキング、属性生成、素片抽出等の工程により作成される。

声質変換規則１４、第１の実施形態に係わる声質変換規則作成装置において作成された、変換元話者の音声を変換先話者の声質に変換する声質変換規則が保持されている。

声質変換規則は声質変換の方法によって異なる。

第１及び第２の実施形態において述べたように、声質変換規則として平行移動を用いる場合は式（７）により求まる平行移動量ｂを保持する。

単回帰分析を用いる場合は式（９）により求められる回帰係数ａ^ｋ及びｂ^ｋを保持する。

重回帰分析を用いる場合は式（１１）の方程式を解くことにより求まる回帰行列Ａを保持する。

ＶＱに基づく方法を用いる場合は各クラスタのセントロイド及び各クラスタの回帰行列Ａ^ｃを保持する。

ＧＭＭに基づく方法を用いる場合は最尤推定により得られたＧＭＭλ及び各混合の回帰行列Ａ^ｃを保持する。

（４−３）声質変換部２８５
声質変換部２８５では、変換元話者音声素片データベースに含まれる各音声素片に対して声質変換規則を適用し、変換先話者の声質に変換した変換先話者音声素片データベース２８４を作成する。声質変換部２８５では、変換元話者の各音声素片に対して、図２９に示す声質変換処理を行う。

（４−３−１）変換元話者スペクトルパラメータ抽出部２９１
変換元話者スペクトルパラメータ抽出部２９１では、変換元話者の音声素片に付与されているピッチマーク情報を参照し、ピッチ波形を切り出して、図２３の変換元話者スペクトルパラメータ抽出部２３１と同様に、スペクトルパラメータの抽出を行う。

（４−３−２）スペクトルパラメータ変換部２９２と波形合成部２９３
スペクトルパラメータ変換部２９２及び波形合成部２９３は、図２３のスペクトルパラメータ変換部２３２及び波形合成部２３３、図２５の声質変換例と同様に、声質変換規則１４を用いてスペクトルパラメータを変換し、変換したスペクトルパラメータから音声波形を合成することにより声質を変換する。

これにより、変換元話者の各音声素片を変換し、変換先話者音声素片を作成する。このように作成した変換先話者音声素片と、対応する属性情報を変換先話者音声素片データベース２８４に保持する。

音声合成部２７４では、音声素片データベース２８４から音声素片を選択し、音声合成を行う。音韻系列・韻律情報入力部２８１には、韻律処理部２７３から出力された入力テキストに対応する音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部２８１に入力される韻律情報としては、基本周波数、音韻継続時間長などがある。

（５）音声素片選択部２８２
音声素片選択部２８２は、入力音韻系列の各音声単位に対し、入力韻律情報と、音声素片データベース２８４に保持されている属性情報とに基づいて合成音声の歪みの度合いを推定し、前記合成音声の歪みの度合いに基づいて音声素片データベース２８４に記憶されている音声素片の中から、音声素片を選択する。

ここで、合成音声の歪みの度合いは、音声素片データベース２８４に保持されている属性情報と音韻系列・韻律情報入力部２８１から送られる目標音素環境との違いに基づく歪みである目標コストと、接続する音声素片間の音素環境の違いに基づく歪みである接続コストの重み付け和として求められる。

音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因毎にサブコスト関数Ｃｎ（ｕｉ，ｕｉ−１，ｔｉ）（ｎ：１，…，Ｎ，Ｎはサブコスト関数の数）を定める。第１の実施形態に記述されている式（５）のコスト関数は、二つの音声素片の間の歪みを測るためのコスト関数であり、ここで定義するコスト関数は入力韻律・音韻系列と音声素片との間の歪みを測るためのコスト関数である点が異なる。ｔｉは、入力音韻系列及び入力韻律情報に対応する目標とする音声（目標音声）をｔ＝（ｔ１，…，ｔＩ）としたときのｉ番目のセグメントに対応する部分の音声素片の目標とする属性情報を表し、ｕｉは変換先話者音声素片データベース２８４に記憶されている音声素片のうち、ｔｉと同じ音韻の音声素片を表す。

サブコスト関数は、変換先話者音声素片データベース２８４に記憶されている音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するためのものである。目標コストとしては、変換先話者音声素片データベース２８４に記憶されている音声素片の基本周波数と目標の基本周波数との違い（差）を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い（差）を表す音韻継続時間長コスト、音声素片の音韻環境と、目標の音韻環境との違い（差）を表す音韻環境コストを用いる。接続コストとしては、接続境界でのスペクトルの違い（差）を表すスペクトル接続コストを用いる。具体的には、基本周波数コストは、

から算出する。ここで、ｖｉは変換先話者音声素片データベース２８４に記憶されている音声素片ｕｉの属性情報を、ｆ（ｖｉ）は属性情報ｖｉから平均基本周波数を取り出す関数を表す。

また、音韻継続時間長コストは、

から算出する。ここで、ｇ（ｖｉ）は音素環境ｖｉから音韻継続時間長を取り出す関数を表す。

また、音韻環境コストは、

から算出し、隣接する音韻が一致しているかどうかを表す。

また、スペクトル接続コストは、２つの音声素片間のケプストラム距離

から算出する。ここで、ｈ（ｕｉ）は音声素片ｕｉの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。

これらのサブコスト関数の重み付き和を音声単位コスト関数と定義する。

ここで、ｗｎはサブコスト関数の重みを表す。本実施形態では、簡単のため、ｗｎは全て「１」とする。上記式（２０）は、ある音声単位に、ある音声素片を当てはめた場合の当該音声素片の音声単位コストである。

入力音韻系列を音声単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式（２０）から音声単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式（２１）に示すように定義する。

音声素片選択部２８２では、上記式（１６）〜（２１）に示したコスト関数を用いて、音声素片を選択する。ここでは、変換先話者音声素片データベース２８４に記憶されている音声素片の中から、上記式（２１）で算出されるコスト関数の値が最小となる音声素片の系列を求める。このコストが最小となる音声素片の組み合わせを最適素片系列と呼ぶこととする。すなわち、最適音声素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適音声素片系列中の各音声素片から算出された上記音声単位コストと式（２１）より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法（ＤＰ：ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ）を用いることでより効率的に行うことができる。

（６）音声素片編集・接続部２８３
音声素片編集・接続部２８３では、選択された音声素片を、入力韻律情報に従って変形し、接続することで合成音声の音声波形を生成する。選択された音声素片からピッチ波形を抽出し、当該音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。

（６−１）処理の内容
図３０は、素片編集・接続部２８３の処理を説明するための図である。

図３０では、「あいさつ」という合成音声の音素「ａ」の音声波形を生成する例を示している。上から選択された音声素片、ピッチ波形抽出のためのハニング窓、ピッチ波形及び合成音声を示している。合成音声の縦棒はピッチマークを表しており、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて作成される。このピッチマークにしたがって任意の音声単位毎に、選択された音声素片から抽出したピッチ波形を重畳合成することにより、素片の編集を行って基本周波数及び音韻継続時間長を変更する。その後に、音声単位間で、隣り合うピッチ波形を接続して合成音声を生成する。

（７）効果
上述したように、本実施形態では、第１の実施形態に示す声質変換規則作成装置において作成された声質変換規則により変換した変換先話者音声素片データベースを用いて、素片選択型の音声合成を行うことが可能になり、任意の入力文章に対応する合成音声を生成することができる。

すなわち、変換先話者の少量のデータを用いて作成した声質変換規則を、変換元話者の音声素片データベース中の各音声素片に適用して変換先話者の音声素片データベースを作成し、該変換先話者音声素片データベースから音声を合成することにより変化先話者の声質を持つ任意文の合成音を得ることができる。

また、本実施形態によれば、変換先話者の任意文の発声による声質変換規則、変換元話者の大量の音声素片データベースに含まれる情報を反映した声質変換規則を、変換元話者の音声データに適用することにより得られる変換先話者音声素片データベースから音声を合成することができ、自然な変換先話者の合成音声が得られる。

（８）変更例１
本実施形態では、声質変換規則を事前に変換元話者音声素片データベースの各音声素片に適用したが、合成時に声質変換規則を適用してもよい。

この場合、音声合成部２６４は図３１に示すように、変換元話者音声素片データベース１１と共に、第１の実施形態に係わる声質変換規則作成装置において作成された声質変換規則１４を保持する。

音声合成時には、音韻系列・韻律情報入力部２８１において、テキスト解析の結果得られた音韻系列及び韻律情報を入力し、音声素片選択部３１１において、変換元話者音声素片データベースから式（２１）より算出されたコストの値を最小化するように音声素片を選択し、声質変換部３１２において、選択された音声素片の声質を変換する。声質変換部３１２における声質変換は、図２８に示す声質変換部２８５と同様に行うことができる。その後、変換された音声素片を音声素片編集・接続部２８３において、韻律の変更及び接続を行い合成音声が得られる。

本変更例によれば、音声合成時に声質変換処理が加わるため音声合成時の計算量は増加するが、保持されている声質変換規則１４によって合成音声の声質を変換することができるため、変換先話者の声質で合成音声を生成する場合においても変換先話者音声素片データベースを保持する必要がなくなる。

このため、様々な話者の声質で音声合成する音声合成システムを構築する場合に、変換元話者の音声素片データベースと各話者へ変換する声質変換規則を保持することのみで実現でき、全ての話者の音声素片データベースを保持するよりも少ないメモリ量で実現することができる。

また、新たな話者への変換規則を作成した場合に、その変換規則のみをネットワークを通じて他の音声合成システムに伝送することができ、新たな話者の声質を伝送する際に、その話者の音声素片データベース全てを伝送する必要がなくなり、伝送に必要な情報量を減らすことができる。

（９）変更例２
本実施形態では、素片選択型の音声合成に声質変換を適用する場合について述べたが、これに限定するものではない。特許文献１において開示されている複数素片選択・融合型の音声合成に声質変換を適用してもよい。

この場合の音声合成装置を図３２に示す。

声質変換部２８５において、変換元話者音声素片データベース１１を声質変換規則１４を用いて変換し、変換先話者音声素片データベース２８４を作成する。

音声合成部２７４では、音韻系列・韻律情報入力部２８１において、テキスト解析の結果得られた音韻系列及び韻律情報を入力する。

複数音声素片選択部３２１において、音声素片データベースから式（２１）より算出されたコストの値に基づいて音声単位毎に複数の音声素片を選択する。

そして、複数音声素片融合部３２２において、選択された複数の音声素片を融合して融合音声素片を作成し、作成された融合音声素片を、融合音声素片編集・接続部３２３において韻律の変更及び接続を行い合成音声の音声波形を生成する。

複数素片選択部３２１の処理及び複数音声素片融合部３２２の処理は特許文献１に示されている手法により行うことができる。

複数素片選択部３２１では、まず式（２１）のコスト関数の値を最小化するようにＤＰアルゴリズムを用いて最適音声素片系列を選択する。その後、各音声単位に対応する区間において、前後の隣の音声単位区間の最適音声素片との接続コスト及び該当する区間の入力された属性との目標コストとの和をコスト関数として、変換先話者音声素片データベースに含まれる同じ音韻の音声素片の中からコスト関数の値の小さい順に、複数の音声素片を選択する。

このように、選択した複数の音声素片は、複数音声素片融合部において融合され、選択された複数の音声素片を代表する音声素片を得る。音声素片融合は、選択された各音声素片からピッチ波形を抽出し、抽出したピッチ波形の波形数をピッチ波形の複製や削除を行うことにより目標とする韻律から生成したピッチマークに揃え、各ピッチマークに対応する複数のピッチ波形を時間領域で平均化することにより行うことができる。

この融合音声素片を融合音声素片編集・接続部３２３において、韻律の変更及び接続を行い合成音声の音声波形が生成される。複数素片選択・融合型の音声合成は、素片選択型より安定感の高い合成音声が得られることが確認されているため、本構成によれば、安定感・肉声感の高い変換先話者の声質の音声合成を行うことができる。

（１０）変更例３
また、本実施形態では、予め声質変換規則を適用することにより作成した音声素片データベースを保持する複数素片選択・融合型の音声合成について述べた。これに代えて、変換元話者音声素片データベースから複数の音声素片を選択し、選択された複数の音声素片を声質変換し、変換した複数の音声素片を融合することにより融合音声素片を作成し、編集・接続することにより音声を合成してもよい。

この場合、音声合成部２７４は図３３に示すように、変換元話者音声素片データベース１１と共に、第１の実施形態に係わる声質変換規則作成装置において作成された声質変換規則１４を保持する。

音声合成時には、音韻系列・韻律情報入力部２８１において、テキスト解析の結果得られた音韻系列及び韻律情報を入力し、複数音声素片選択部３３１において、図３１の複数音声素片選択部３１２と同様に、変換元話者音声素片データベース１１から音声単位毎に複数の音声素片を選択する。

選択された複数の音声素片は、声質変換部３３２において、声質変換規則１４を適用し変換先話者の声質を持つ音声素片に変換される。声質変換部３３２における声質変換は、図２８に示す声質変換部２８５と同様に行うことができる。その後、変換された音声素片を複数音声素片融合部３２２において融合し、音声素片編集・接続部３２３において、韻律の変更及び接続を行い合成音声の音声波形が生成される。

本変更例によれば、音声合成時に声質変換処理が加わるため音声合成時の計算量は増加するが、保持されている声質変換規則によって合成音声の声質を変換することができるため、変換先話者の声質で合成音声を生成する場合においても変換先話者の声質の音声素片データベースを保持する必要がなくなる。

このため、様々な話者の声質で音声合成する音声合成システムを構築する場合に、変換元話者の音声素片データベースと各話者の声質変換規則を保持することのみで実現でき、全ての話者の音声素片データベースを保持するよりも少ないメモリ量で実現することができる。

また、複数素片選択・融合型の音声合成は、素片選択型より安定感の高い合成音声が得られることが確認されているため、本変更例によれば、安定感・肉声感の高い変換先話者の声質の音声合成を行うことができる。

ここでは、声質変換した後に音声素片融合処理を行ったが融合音声素片を生成した後に融合音声素片の各ピッチ波形の声質を変換しても良い。その場合は、図３４に示すように声質変換部の前に複数音声素片融合部３４１を持ち、変換元話者の複数の音声を複数素片選択部３３１において選択し、複数音声素片融合部３４１において融合した後に声質変換規則１４を用いて声質変換部３４２において融合音声素片の声質変換を行い、変換した融合音声素片を音声素片編集・接続部３２３において編集・接続することで合成音声を得る。

（１１）変更例４
また、本実施形態では素片選択型音声合成及び複数素片選択・融合型の音声合成に対して第１の実施形態に係わる声質変換規則作成装置において作成された声質変換規則を適用したが、これに限定するものではない。

例えば、素片学習型音声合成の一つである閉ル―プ学習に基づく音声合成装置（例えば、特許第３２８１２８１号公報参照）に適用することもできる。

素片学習型音声合成では、学習データとなる複数の音声素片からそれらを代表する音声素片を学習し保持し、その学習された音声素片を入力音韻系列・韻律情報に従って編集・接続することにより音声を合成する。この場合、学習データとなる音声素片を声質変換し変換音声素片から代表音声素片を学習することにより声質変換を適用することができる。また、学習された音声素片に対して声質変換を適用し、変換先話者の声質の代表音声素片を作成することもできる。

（１２）変更例５
また、本実施形態において、属性変換規則作成部１９４において作成した属性変換規則を適用してもよい。

この場合、変換元話者音声素片データベースの属性情報に属性変換規則を適用し、属性情報を変換先話者の属性に近づけることにより、音声合成時の属性情報として変換先話者の属性情報に近づけたものを利用することができる。

また、韻律処理部２７３において生成された韻律情報に対して、属性変換規則１９４において作成した属性変換を適用し入力される韻律情報を変換してもよい。これにより、韻律生成部２７３においては変換元話者の特徴を持つ韻律を生成し、生成した韻律情報を変換先話者の韻律に変換し、変換先話者の韻律を用いて音声合成を行うことができる。これにより声質のみでなく韻律も変換することができる。

（１３）変更例６
また、第１〜第３の実施形態においては、ピッチ同期分析に基づいて音声素片を分析・合成しているが、これに限定するものではない。例えば無声音の区間ではピッチは観測されないためピッチ同期処理を行うことはできない。このような区間では、固定フレームレートによる分析合成により声質変換することができる。

但し、無声音区間に限らず固定フレームレートによる分析合成を用いてもよい。また、無声音の音声素片は変換せず、変換元話者の音声素片をそのまま利用してもよい。

（変更例）
なお、本発明は第１〜第３の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。

また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。

さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に係わる声質変換規則作成装置の構成を示すブロック図である。声質変換規則学習データ作成部１２の構成を示すブロック図である。音声素片抽出部２１の動作を示すフローチャートである。音声素片抽出部２１におけるラベリング及びピッチマーキングの例を示す図である。属性作成部２２において作成される属性情報の例を示す図である。音声素片データベースに含まれる音声素片の例を示す図である。音声素片データベースに含まれる属性情報の例を示す図である。変換元話者音声素片選択部２３の動作を示すフローチャートである。変換元話者音声素片選択部２３の動作を示すフローチャートである。声質変換規則学習部１３の構成を示すブロック図である。声質変換規則学習部１３の処理の例を示す図である。声質変換規則作成部１０４の動作を示すフローチャートである。声質変換規則作成部１０４の動作を示すフローチャートである。声質変換規則作成部１０４の動作を示すフローチャートである。声質変換規則作成部１０４の動作を示すフローチャートである。声質変換規則作成部１０４にもけるＶＱに基づく声質変換の動作を示す概念図である。声質変換規則作成部１０４の動作を示すフローチャートである。声質変換規則作成部１０４にもけるＧＭＭに基づく声質変換の動作を示す概念図である。属性作成部２２の構成を示すブロック図である。属性変換規則作成部１９４の動作を示すフローチャートである。属性変換規則作成部１９４の動作を示すフローチャートである。音声合成部２７４の構成を示すブロック図である。第２の実施形態に係わる声質変換装置の構成を示すブロック図である。スペクトルパラメータ変換部２３２の動作を示すフローチャートである。スペクトルパラメータ変換部２３２の動作を示すフローチャートである。第２の実施形態に係わる声質変換装置の動作の例を示す図である。本発明の第３の実施形態に係わる音声合成装置の構成を示すブロック図である。音声合成部２７４の構成を示すブロック図である。声質変換部２８６の構成を示すブロック図である。音声素片編集・接続部２８３の動作の例を示す図である。音声合成部２７４の構成を示すブロック図である。音声合成部２７４の構成を示すブロック図である。音声合成部２７４の構成を示すブロック図である。音声合成部２７４の構成を示すブロック図である。

符号の説明

１１・・・変換元話者音声素片データベース
１２・・・声質変換規則学習データ作成部
１３・・・声質変換規則学習部
１４・・・声質変換規則

Claims

変換元話者の複数の音声素片及び前記各音声素片に対応する少なくとも基本周波数情報、継続長情報、音韻環境情報、スペクトル情報のうちの一つを含む複数の属性からなる元話者属性情報を保持する変換元話者音声記憶部と、
変換先話者の音声を、任意の音声単位に分割して先話者音声素片とする音声素片抽出部と、
前記変換先話者の音声またはその音声の言語情報から、前記各先話者音声素片に対応する先話者属性情報をそれぞれ求める属性作成部と、
前記先話者音声素片に対して、前記先話者属性情報と前記元話者属性情報との歪みの度合を表すコストを、前記属性情報に含まれる各属性に対する歪みの度合を表すサブコスト関数の重み付き和であるコスト関数から算出し、前記コストより一または複数の音声素片を前記変換元話者音声記憶部に含まれる、先話者音声素片と同一の音韻の音声素片から選択して、元話者音声素片とすることにより前記変換先話者の音声に対応する音声素片対を作成する変換元話者音声素片選択部と、
前記一または複数の元話者音声素片の声質を前記先話者音声素片の声質に変換するための、共通もしくは所定の分類に従って作成された複数の声質変換関数を、前記変換先話者の音声に対応する音声素片対の前記先話者音声素片と前記一または複数の元話者音声素片に基づいて作成する声質変換規則作成部と、
を有することを特徴とする音声処理装置。
前記変換元話者音声素片選択部は、
前記コスト関数のコストが最小となる元話者属性情報に対応する音声素片を前記変換元話者音声記憶部から選択して前記元話者音声素片とする
ことを特徴とする請求項１記載の音声処理装置。
前記属性作成部は、
前記変換先話者の属性情報を前記変換元話者の属性情報に変換する前記変換元話者音声素片記憶部に含まれる複数の音声素片に共通の属性変換関数を作成する属性変換規則作成部と、
前記変換先話者の音声または前記変換先話者の音声の言語情報から、前記先話者音声素片に対応する属性情報を抽出する属性抽出部と、
前記先話者音声素片に対応する属性情報を、前記属性変換関数を用いて変換し、前記変換された属性情報を前記先話者音声素片に対応する先話者属性情報とする属性変換部と、
を有することを特徴とする請求項１または２記載の音声処理装置。
前記属性変換規則作成部は、
前記変換先話者の基本周波数情報の平均値及び前記変換元話者の基本周波数情報の平均値を求める基本周波数情報分析部と、
前記変換元話者の基本周波数情報の平均値と、前記変換先話者の基本周波数情報の平均値との差分を求め、前記差分を前記変換先話者の基本周波数情報に加える関数を属性変換関数とする平均基本周波数情報差分生成部と、
を有することを特徴とする請求項３に記載の音声処理装置。
前記声質変換規則作成部は、
前記先話者音声素片の声質を表す先話者音声パラメータ及び前記元話者音声素片の声質を表す元話者音声パラメータを求める音声パラメータ抽出部と、
前記先話者音声パラメータを、前記元話者音声パラメータから予測する回帰行列を求める回帰分析部と、
を有し、
前記回帰行列を前記声質変換関数とする
ことを特徴とする請求項１から４のいずれかに記載の音声処理装置。
前記声質変換規則作成部において作成された声質変換関数を保持する声質変換規則記憶部と、
変換元話者音声パラメータを抽出する変換元話者音声パラメータ抽出部と、
前記声質変換関数を用いて前記変換元話者の音声パラメータを変換する音声パラメータ変換部と、
前記変換された音声パラメータから音声波形を生成する波形合成部と、
を有することを特徴とする請求項１から４のいずれかに記載の音声処理装置。
前記声質変換関数により前記変換元話者音声素片を変換して得られる変換先話者音声素片を記憶する変換先話者音声素片記憶部と、
前記変換先話者音声素片記憶部から音声素片を選択して代表音声素片を得る音声素片選択部と、
前記代表音声素片を接続して音声波形を生成する音声波形生成部と、
を有することを特徴とする請求項１から５のいずれかに記載の音声処理装置。
前記変換元話者音声素片記憶部から音声素片を選択して、変換元話者代表音声素片を得る音声素片選択部と、
前記変換元話者代表音声素片を前記声質変換関数により変換して変換先話者代表音声素片を得る声質変換部と、
前記変換先話者代表音声素片を接続して音声波形を生成する音声波形生成部と、
を有することを特徴とする請求項１から５のいずれかに記載の音声処理装置。
前記声質変換関数により、前記変換元話者音声素片を変換して得られる変換先話者音声素片を記憶する変換先話者音声素片記憶部と、
前記変換先話者音声素片記憶部から合成単位毎に複数の音声素片を選択する複数音声素片選択部と、
前記選択された複数の音声素片を融合することにより融合音声素片を得る音声素片融合部と、
前記融合音声素片を接続して音声波形を生成する音声波形生成部と、
を有することを特徴とする請求項１から５のいずれかに記載の音声処理装置。
前記変換元話者音声記憶部から合成単位毎に複数の音声素片を選択する複数音声素片選択部と、
前記選択された複数の音声素片を前記声質変換関数により変換して変換先話者の複数の音声素片を得る声質変換部と、
前記変換先話者の複数の音声素片を融合することにより融合音声素片を得る音声素片融合部と、
前記融合音声素片を接続して音声波形を生成する音声波形生成部と、
を有することを特徴とする請求項１から５のいずれかに記載の音声処理装置。
変換元話者の複数の音声素片及び前記各音声素片に対応する少なくとも基本周波数情報，継続長情報，音韻環境情報，スペクトル情報のうちの一つを含む複数の属性からなる元話者属性情報を変換元話者音声素片記憶手段に保持する変換元話者音声素片記憶ステップと、
変換先話者の音声を、任意の音声単位に分割して先話者音声素片とする音声素片抽出ステップと、
前記変換先話者の音声またはその音声の言語情報から、前記各先話者音声素片に対応する先話者属性情報をそれぞれ求める属性作成ステップと、
前記先話者音声素片それぞれに対して、前記先話者属性情報と前記元話者属性情報との歪みの度合を表すコストを、前記属性情報に含まれる各属性に対する歪みの度合を表すサブコスト関数の重み付き和であるコスト関数から算出し、前記コストより一または複数の音声素片を、前記変換元話者音声素片記憶手段に保持した変換元話者の音声素片に含まれる，先話者音声素片と同一の音韻の音声素片から選択して、元話者音声素片とすることにより前記変換先話者の音声に対応する音声素片対を作成する変換元話者音声素片選択ステップと、
前記一または複数の元話者音声素片の声質を前記先話者音声素片の声質に変換するための、共通もしくは所定の分類に従って作成された声質変換関数を、前記変換先話者の音声に対応する音声素片対の前記先話者音声素片と前記一または複数の元話者音声素片に基づいて作成する声質変換関数作成ステップと、
を有することを特徴とする音声処理方法。
変換元話者の複数の音声素片及び前記各音声素片に対応する少なくとも基本周波数情報，継続長情報，音韻環境情報，スペクトル情報のうちの一つを含む複数の属性からなる元話者属性情報を保持する変換元話者音声記憶機能と、
変換先話者の音声を、任意の音声単位に分割して先話者音声素片とする音声素片抽出機能と、
前記変換先話者の音声またはその音声の言語情報から、前記各先話者音声素片に対応する先話者属性情報をそれぞれ求める属性作成機能と、
前記先話者音声素片それぞれに対して、前記先話者属性情報と前記元話者属性情報との歪みの度合を表すコストを、前記属性情報に含まれる各属性に対する歪みの度合を表すサブコスト関数の重み付き和であるコスト関数から算出し、前記コストより一または複数の音声素片を前記保持した変換元話者の音声素片に含まれる，先話者音声素片と同一の音韻の音声素片から選択して、元話者音声素片とすることにより前記変換先話者の音声に対応する音声素片対を作成する変換元話者音声素片選択機能と、
前記一または複数の元話者音声素片の声質を前記先話者音声素片の声質に変換するための、共通もしくは所定の分類に従って作成された声質変換関数を、前記変換先話者の音声に対応する音声素片対の前記先話者音声素片と前記一または複数の元話者音声素片に基づいて作成する声質変換規則作成機能と、
をコンピュータによって実現させるための音声処理プログラム。