JP5846043B2

JP5846043B2 - 音声処理装置

Info

Publication number: JP5846043B2
Application number: JP2012115065A
Authority: JP
Inventors: ヴィラヴィセンシオフェルナンド; ジョルディ　ボナダ; ボナダジョルディ
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-05-18
Filing date: 2012-05-18
Publication date: 2016-01-20
Anticipated expiration: 2032-05-18
Also published as: US20130311189A1; JP2013242410A

Description

本発明は、音声を処理する技術に関する。

音声の声質を変換する技術が従来から提案されている。例えば非特許文献１には、第１発声者の音声の特徴量と第２発声者の音声の特徴量との確率分布を近似する正規混合分布モデルに応じた変換関数を処理対象の音声に適用することで第２発声者の声質に対応した音声を生成する技術が開示されている。

F. Villacivencio and J Bonada, "Applying Voice Conversion to Concatenative Singing-Voice Synthesis", in Proc. of INTERSPEECH 10, vil. 1, 2010

しかし、非特許文献１の技術では、変換関数の生成（機械学習）に適用された音声とは特徴量が相違する音声を処理対象とした場合に、第２発声者の本来の声質から乖離した音声が生成され得る。したがって、例えば処理対象の音声の特性（学習用の音声との乖離）に応じて変換後の音声の特性が不安定に変動し、結果的に変換後の音声の音質が低下する可能性がある。以上の事情を考慮して、本発明は、音声の声質の変換により高音質な音声を生成することを目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明に係る第１態様に係る音声処理装置は、声質が相違する各音声（例えば原音声ＶS0および目標音声ＶT0）の特徴量の分布を近似する混合分布モデル（例えば混合分布モデルλ(z)）の各要素分布（例えば要素分布Ｎ）に音声の特徴量が属する確率を示す確率項（例えば確率項ｐ(ｃq|ｘ)）を包含する声質変換用の変換関数（例えば変換関数Ｆ(x)）に原音声の原特徴量（例えば原特徴量ｘA(k)）を適用することで変換特徴量（例えば変換特徴量Ｆ(xA(k))）を生成する変換処理手段（例えば変換処理部４２）と、原特徴量が混合分布モデルの各要素分布に属する確率に応じた推定特徴量（例えば推定特徴量ｘB(k)）を確率項に対する原特徴量の適用で生成する特徴量推定手段（例えば特徴量推定部４４）と、変換処理手段が生成した変換特徴量に対応する第１スペクトル（例えば第１スペクトル包絡Ｌ1(k)）と特徴量推定手段が生成した推定特徴量に対応する推定スペクトル（例えば推定スペクトル包絡ＥB(k)）との差異に応じた第１変換フィルタ（例えば第１変換フィルタＨ1(k)）を生成する第１差分算定手段（例えば第１差分算定部５２）と、第１差分算定手段が生成した第１変換フィルタを原特徴量に対応する原スペクトル（例えば原スペクトル包絡ＥA(k)）に加算することで第２スペクトル（例えば第２スペクトル包絡Ｌ2(k)）を生成する合成処理手段（例えば合成処理部５４）と、第１スペクトルと第２スペクトルとの差異に応じた第２変換フィルタ（例えば第２変換フィルタＨ2(k)）を生成する第２差分算定手段（例えば第２差分算定部５６）と、第１変換フィルタと第２変換フィルタとを原音声のスペクトルに加算することで目標音声を生成する音声変換手段（例えば音声変換部３２）とを具備する。

第１態様の音声処理装置においては、変換関数の確率項に原特徴量を適用した推定特徴量と原特徴量を変換関数に適用した変換特徴量との差異に応じた第１変換フィルタが生成され、変換特徴量が示す第１スペクトルと原特徴量の原スペクトルに第１変換フィルタを加算した第２スペクトルとの差異に応じた第２変換フィルタが生成される。そして、第１変換フィルタと第２変換フィルタとを原音声のスペクトルに加算することで目標音声が生成される。第２変換フィルタは、原特徴量と推定特徴量との相違が補償されるように作用するから、原特徴量が変換関数の設定用の音声の特徴量と相違する場合でも高音質な音声を生成することが可能である。

本発明の好適な態様において、第２差分算定手段は、第１スペクトルおよび第２スペクトルの各々を周波数領域内で平滑化する平滑手段（例えば平滑部５６２）と、平滑化後の第１スペクトル（例えば第１平滑スペクトル包絡ＬS1(k)）と平滑化後の第２スペクトル（例えば第２平滑スペクトル包絡ＬS2(k)）との差分を第２変換フィルタとして算定する減算手段（例えば減算部５６４）とを含む。以上の構成では、平滑化後の第１スペクトルと平滑化後の第２スペクトルとの差分が第２変換フィルタとして生成されるから、原特徴量と推定特徴量との相違を高精度に補償することが可能である。

本発明の第２態様の音声処理装置は、複数の音声素片の各々を順次に選択する素片選択手段と、素片選択手段が選択した各音声素片を前述の各態様の音声処理装置と同様の方法で目標音声の音声素片に変換する音声処理手段と、音声処理手段による変換後の音声素片を相互に連結して音声信号を生成する音声合成手段とを具備する。以上の構成によれば、第１態様の音声処理装置と同様の効果が実現される。

第１態様および第２態様に係る音声処理装置は、ＤＳＰ（Digital Signal Processor）等の専用の電子回路で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。例えば第１態様のプログラムは、声質が相違する各音声の特徴量の分布を近似する混合分布モデルの各要素分布に音声の特徴量が属する確率を示す確率項を包含する声質変換用の変換関数に原音声の原特徴量を適用することで変換特徴量を生成する変換処理と、原特徴量が混合分布モデルの各要素分布に属する確率に応じた推定特徴量を確率項に対する原特徴量の適用で生成する特徴量推定処理と、変換処理で生成した変換特徴量に対応する第１スペクトルと特徴量推定処理で生成した推定特徴量に対応する推定スペクトルとの差異に応じた第１変換フィルタを生成する第１差分算定処理と、第１差分算定処理が生成した第１変換フィルタを原特徴量に対応する原スペクトルに加算することで第２スペクトルを生成する合成処理と、第１スペクトルと第２スペクトルとの差異に応じた第２変換フィルタを生成する第２差分算定処理と、第１変換フィルタと第２変換フィルタとを原音声のスペクトルに加算することで目標音声を生成する音声変換処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の第１態様に係る音声処理装置と同様の作用および効果が実現される。

また、第２態様のプログラムは、複数の音声素片の各々を順次に選択する素片選択処理と、素片選択処理で選択した各音声素片を第１態様のプログラムと同様の処理で目標音声の音声素片に変換する音声処理と、音声処理による変換後の音声素片を相互に連結して音声信号を生成する音声合成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の第２態様に係る音声処理装置と同様の作用および効果が実現される。

なお、第１態様および第２態様のプログラムは、例えば、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。

本発明の第１実施形態に係る音声処理装置のブロック図である。特徴量抽出部の動作のフローチャートである。解析処理部のブロック図である。第１変換フィルタの説明図である。第２差分算定部のブロック図である。第２差分算定部の動作のフローチャートである。統合処理部の動作のフローチャートである。本発明の第２実施形態に係る音声処理装置のブロック図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置１００Aのブロック図である。特定の発声者ＵS（S：source）が発声した音声（以下「原音声」という）ＶSの音声信号が音声処理装置１００Aに供給される。音声処理装置１００Aは、発音内容（音韻）を維持したまま発声者ＵSの原音声ＶSを別個の発声者ＵT（T：target）の声質の音声（以下「目標音声」という）ＶTに変換する信号処理装置（声質変換装置）である。変換後の目標音声ＶTの音声信号が音声処理装置１００Aから出力されて例えば音波として放音される。なお、ひとりの発声者が声質を相違させて発声した各音声を原音声ＶSおよび目標音声ＶTとすることも可能である。すなわち、発声者ＵSと発声者ＵTとは共通し得る。

図１に示すように、音声処理装置１００Aは、演算処理装置１２と記憶装置１４とを具備するコンピュータシステムで実現される。記憶装置１４は、演算処理装置１２が実行するプログラムや演算処理装置１２が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として任意に利用される。演算処理装置１２は、記憶装置１４に格納されたプログラムを実行することで、発声者ＵSの原音声ＶSを発声者ＵTの目標音声ＶTに変換するための複数の機能（周波数分析部２２，特徴量抽出部２４，解析処理部２６，音声変換部３２，波形生成部３４）を実現する。なお、演算処理装置１２の機能を複数の装置に分散した構成や、演算処理装置１２の機能の一部を専用の電子回路（ＤＳＰ）が実現する構成も採用され得る。

周波数分析部２２は、原音声ＶSのスペクトルＰS(k)を時間軸上の単位期間（フレーム）毎に順次に算定する。記号ｋは、時間軸上の任意の１個の単位期間を意味する。スペクトルＰS(k)は、例えば振幅スペクトルやパワースペクトルである。スペクトルＰS(k)の算定には短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。なお、通過帯域が相違する複数の帯域通過フィルタで構成されるフィルタバンクを周波数分析部２２として採用することも可能である。

特徴量抽出部２４は、原音声ＶSの特徴量（以下「原特徴量」という）ｘA(k)を単位期間毎に順次に生成する。具体的には、第１実施形態の特徴量抽出部２４は、図２の処理を単位期間毎に実行する。図２の処理を開始すると、特徴量抽出部２４は、周波数分析部２２が単位期間毎に算定したスペクトルＰS(k)のスペクトル包絡（以下「原スペクトル包絡」という）ＥA(k)を特定する（Ｓ11）。例えば特徴量抽出部２４は、各単位期間のスペクトルＰS(k)の各ピーク（調波成分）を補間することで原スペクトル包絡ＥA(k)を特定する。各ピークの補間には公知の曲線補間技術（例えば３次スプライン補間）が任意に採用される。なお、周波数をメル周波数に変換（メル尺度化）することで原スペクトル包絡ＥA(k)の低域成分を強調することも可能である。

特徴量抽出部２４は、原スペクトル包絡ＥA(k)に対する逆フーリエ変換で自己相関関数を算定し（Ｓ12）、原スペクトル包絡ＥA(k)を近似する自己回帰モデル（全極型伝達関数）を処理Ｓ12の自己相関関数から推定する（Ｓ13）。自己回帰（ＡＲ：autoregressive）モデルの推定には例えばYule-Walker方程式が好適に利用される。特徴量抽出部２４は、処理Ｓ13で推定された自己回帰モデルの係数（自己回帰係数）に対応する複数の係数（線スペクトルの周波数）を要素とするベクトルを原特徴量ｘA(k)として算定する（Ｓ14）。以上の説明から理解されるように、原特徴量ｘA(k)は原スペクトル包絡ＥA(k)を表現する。具体的には、原スペクトル包絡ＥA(k)の各ピークの高低に応じて各線スペクトルの間隔（粗密）が変動するように原特徴量ｘA(k)の各係数（各線スペクトルの周波数）が設定される。

図１の解析処理部２６は、特徴量抽出部２４が単位期間毎に抽出した原特徴量ｘA(k)を解析することで変換フィルタＨ(k)を単位期間毎に順次に生成する。変換フィルタＨ(k)は、原音声ＶSを目標音声ＶTに変換するためのフィルタ（写像関数）であり、周波数軸上の各周波数に対応する複数の係数で構成される。なお、解析処理部２６の具体的な構成および動作については後述する。

音声変換部３２は、解析処理部２６が生成した変換フィルタＨ(k)を利用して原音声ＶSを目標音声ＶTに変換する。具体的には、音声変換部３２は、周波数分析部２２が生成した各単位期間のスペクトルＰS(k)にその単位期間の変換フィルタＨ(k)を作用させることで目標音声ＶTのスペクトルＰT(k)を単位期間毎に生成する。例えば、音声変換部３２は、原音声ＶSのスペクトルＰS(k)と解析処理部２６が生成した変換フィルタＨ(k)とを加算することでスペクトルＰT(k)（ＰT(k)＝ＰS(k)＋Ｈ(k)）を生成する。なお、原音声ＶSのスペクトルＰS(k)と変換フィルタＨ(k)との時間的な関係は適宜に変更され得る。例えば、各単位期間の変換フィルタＨ(k)を１個後の単位期間のスペクトルＰS(k+1)に作用させることも可能である。

波形生成部３４は、音声変換部３２が単位期間毎に生成したスペクトルＰT(k)から目標音声ＶTの音声信号を生成する。具体的には、波形生成部３４は、周波数領域のスペクトルＰT(k)を時間領域の波形信号に変換し、相前後する単位期間の波形信号を相互に重複した状態で加算することで目標音声ＶTの音声信号を生成する。波形生成部３４が生成した音声信号は例えば音波として放音される。

解析処理部２６による変換フィルタＨ(k)の生成には、原音声ＶSを目標音声ＶTに変換するための変換関数Ｆ(x)が利用される。解析処理部２６の具体的な構成および動作の説明に先立ち、変換関数Ｆ(x)の具体的な内容を以下に詳述する。

変換関数Ｆ(x)の設定には、事前に収録された原音声ＶS0および目標音声ＶT0が学習情報（事前情報）として利用される。原音声ＶS0は、発声者ＵSが複数の音韻を順次に発声した音声であり、目標音声ＶT0は、発声者ＵTが原音声ＶS0と同様の音韻を順次に発声した音声である。原音声ＶS0の各単位期間の特徴量ｘ(k)と目標音声ＶT0の各単位期間の特徴量ｙ(k)とが抽出される。特徴量ｘ(k)および特徴量ｙ(k)は、特徴量抽出部２４が抽出する原特徴量ｘA(k)と同種の数値（スペクトル包絡を表現するベクトル）であり、図２に例示した処理と同様の方法で抽出される。

原音声ＶS0の特徴量ｘ(k)と目標音声ＶT0の特徴量ｙ(k)との分布に対応した混合分布モデルλ(z)を想定する。混合分布モデルλ(z)は、時間軸上で相互に対応する特徴量ｘ(k)および特徴量ｙ(k)を要素とする特徴量（ベクトル）ｚの分布を、数式(1)で表現されるようにＱ個の要素分布Ｎの加重和で近似する。例えば、要素分布Ｎを正規分布とした正規混合分布モデル（ＧＭＭ：Gaussian Mixture Model）が混合分布モデルλ(z)として好適に採用される。

数式(1)の記号αqは第ｑ番目（ｑ＝１〜Ｑ）の要素分布Ｎの加重値を意味する。また、数式(1)の記号μq^zは、第ｑ番目の要素分布Ｎの平均（平均ベクトル）を意味し、記号Σq^zは、第ｑ番目の要素分布Ｎの共分散行列を意味する。数式(1)の混合分布モデルλ(z)の推定には、ＥＭ（Expectation-Maximization）アルゴリズム等の公知の最尤推定アルゴリズムが任意に採用される。要素分布Ｎの総数Ｑが適切な数値に設定された場合、混合分布モデルλ(z)の各要素分布Ｎは、相異なる音素（音韻）に対応する可能性が高い。

以下の数式(2)で表現されるように、第ｑ番目の要素分布Ｎの平均μq^zは、特徴量ｘ(k)の平均μq^xと特徴量ｙ(k)の平均μq^yとを含んで構成される。

また、第ｑ番目の要素分布Ｎの共分散行列Σq^zは以下の数式(3)で表現される。

数式(3)の記号Σq^xxは、第ｑ番目の要素分布Ｎにおける各特徴量ｘ(k)の共分散行列（自己共分散行列）を意味し、記号Σq^yyは、第ｑ番目の要素分布Ｎにおける各特徴量ｙ(k)の共分散行列（自己共分散行列）を意味する。また、数式(3)の記号Σq^xyおよび記号Σq^yxは、第ｑ番目の要素分布Ｎにおける特徴量ｘ(k)と特徴量ｙ（ｋ）との共分散行列（相互共分散行列）を意味する。

解析処理部２６が変換フィルタＨ(k)の生成に適用する変換関数Ｆ(x)は以下の数式(4)で表現される。

数式(4)の記号ｐ(ｃq|ｘ)は、特徴量ｘが観測された場合にその特徴量ｘが混合分布モデルλ(z)の第ｑ番目の要素分布Ｎに属する確率（事後確率）を示す確率項を意味し、以下の数式(5)で定義される。

数式(4)の変換関数Ｆ(x)は、発声者ＵSの原音声ＶSに対応する空間（以下「原空間」という）から発声者ＵTの目標音声ＶTに対応する空間（以下「目標空間」という）に対する写像を意味する。すなわち、特徴量抽出部２４が抽出した原特徴量ｘA(k)を変換関数Ｆ(x)に適用することで、原特徴量ｘA(k)に対応する目標音声ＶTの特徴量の推定値（Ｆ(xA(k))）が算定される。特徴量抽出部２４が抽出する原特徴量ｘA(k)は、変換関数Ｆ(x)の設定に利用される原音声ＶS0の特徴量ｘ(k)とは相違し得る。変換関数Ｆ(x)による原特徴量ｘA(k)の写像は、確率項ｐ(ｃq|ｘ)により原特徴量ｘA(k)を原空間内に表現した特徴量（推定特徴量）ｘB(k)（ｘB(k)＝ｐ(ｃq|ｘA(k))ｘA(k)）を目標空間に変換（写像）する処理に相当する。

原音声ＶS0の各特徴量ｘ(k)と目標音声ＶT0の各特徴量ｙ(k)とを学習情報として数式(2)の平均μq^xおよび平均μq^yと数式(3)の共分散行列Σq^xxおよび共分散行列Σq^yxとが算定されて記憶装置１４に格納される。図１の解析処理部２６は、記憶装置１４に格納された各変数（μq^x，μq^y，Σq^xx，Σq^yx）を数式(4)に適用した変換関数Ｆ(x)を変換フィルタＨ(k)の生成に利用する。図３は、解析処理部２６のブロック図である。図３に示すように、解析処理部２６は、変換処理部４２と特徴量推定部４４とスペクトル生成部４６と第１差分算定部５２と合成処理部５４と第２差分算定部５６と統合処理部５８とを含んで構成される。

変換処理部４２は、特徴量抽出部２４が単位期間毎に抽出した原特徴量ｘA(k)を数式(4)の変換関数Ｆ(x)に適用することで変換特徴量Ｆ(xA(k))を単位期間毎に算定する。すなわち、変換特徴量Ｆ(xA(k))は、原特徴量ｘA(k)に対応する目標音声ＶTの特徴量の推定値に相当する。

特徴量推定部４４は、特徴量抽出部２４が単位期間毎に抽出した原特徴量ｘA(k)を変換関数Ｆ(x)の確率項ｐ(ｃq|ｘ)に適用することで推定特徴量ｘB(k)を単位期間毎に算定する。推定特徴量ｘB(k)は、変換関数Ｆ(x)の設定に利用された原音声ＶS0の原空間内で原特徴量ｘA(k)に対応する地点（具体的には、音韻が原特徴量ｘA(k)と共通する確度が統計的に高い地点）を意味する。すなわち、推定特徴量ｘB(k)は、原空間内に表現された原特徴量ｘA(k)のモデルに相当する。本実施形態の特徴量推定部４４は、記憶装置１４に格納された平均μq^xを適用した以下の数式(6)の演算で推定特徴量ｘB(k)を算定する。

図４の部分(A)には、原特徴量ｘA(k)が示す原スペクトル包絡ＥA(k)と推定特徴量ｘB(k)が示すスペクトル包絡（以下「推定スペクトル包絡」という）ＥB(k)とが例示されている。原特徴量ｘA(k)と推定特徴量ｘB(k)とは１個の音韻に対応する共通の要素分布Ｎに属する可能性が高いから、図４の部分(A)から把握される通り、周波数軸上のピークの周波数は原スペクトル包絡ＥA(k)と推定スペクトル包絡ＥB(k)とで概略的には合致する。しかし、例えば原特徴量ｘA(k)が変換関数Ｆ(x)の設定用の原音声ＶS0の特徴量ｘ(k)とは乖離する場合には、周波数に対する概略的な勾配（図４の部分(A)の破線）や強度レベルが原スペクトル包絡ＥA(k)と推定スペクトル包絡ＥB(k)とで相違し得る。

図３のスペクトル生成部４６は、特徴量（ｘA(k)，Ｆ(xA(k))，ｘB(k)）をスペクトル包絡（スペクトル密度）に変換する。具体的には、スペクトル生成部４６は、特徴量抽出部２４が抽出した原特徴量ｘA(k)が示す原スペクトル包絡ＥA(k)と、変換処理部４２が生成した変換特徴量Ｆ(xA(k))が示す第１スペクトル包絡Ｌ1(k)と、特徴量推定部４４が生成した推定特徴量ｘB(k)が示す推定スペクトル包絡ＥB(k)とを単位期間毎に順次に生成する。図４の部分(B)には、原特徴量ｘA(k)が示す原スペクトル包絡ＥA(k)と変換特徴量Ｆ(xA(k))が示す第１スペクトル包絡Ｌ1(k)とが対比的に図示されている。

図３の第１差分算定部５２は、変換特徴量Ｆ(xA(k))に対応する第１スペクトル包絡Ｌ1(k)と推定特徴量ｘB(k)に対応する推定スペクトル包絡ＥB(k)との差異に応じた第１変換フィルタＨ1(k)を単位期間毎に順次に生成する。具体的には、第１差分算定部５２は、図４の部分(C)に示すように、周波数領域にて第１スペクトル包絡Ｌ1(k)から推定スペクトル包絡ＥB(k)を減算することで第１変換フィルタＨ1(k)（Ｈ1(k)＝Ｌ1(k)−ＥB(k)）を生成する。以上の説明から理解されるように、第１変換フィルタＨ1(k)は、原空間内の推定特徴量ｘB(k)を目標空間内に写像するフィルタ（変換関数）である。

図３の合成処理部５４は、第１差分算定部５２が生成した第１変換フィルタＨ1(k)を原特徴量ｘA(k)の原スペクトル包絡ＥA(k)に作用させることで第２スペクトル包絡Ｌ2(k)を単位期間毎に順次に生成する。具体的には、合成処理部５４は、周波数領域にて原スペクトル包絡ＥA(k)と第１変換フィルタＨ1(k)とを加算することで第２スペクトル包絡Ｌ2(k)（Ｌ2(k)＝ＥA(k)＋Ｈ1(k)）を生成する。

第２差分算定部５６は、変換処理部４２が生成した変換特徴量Ｆ(xA(k))に対応する第１スペクトル包絡Ｌ1(k)と合成処理部５４が生成した第２スペクトル包絡Ｌ2(k)との差異に応じた第２変換フィルタＨ2(k)を単位期間毎に順次に生成する。

図５は、第２差分算定部５６のブロック図であり、図６は、第２差分算定部５６による処理の説明図である。図５に示すように、第１実施形態の第２差分算定部５６は、平滑部５６２と減算部５６４とを含んで構成される。平滑部５６２は、図６に示すように、第１スペクトル包絡Ｌ1(k)を周波数方向に平滑化した第１平滑スペクトル包絡ＬS1(k)を単位期間毎に順次に生成し、第２スペクトル包絡Ｌ2(k)を周波数方向に平滑化した第２平滑スペクトル包絡ＬS2(k)を単位期間毎に順次に生成する。例えば、平滑部５６２は、周波数軸上の５個の周波数にわたる移動平均（単純移動平均または加重移動平均）を算定することで、平滑前の微細構造を抑制した第１平滑スペクトル包絡ＬS1(k)および第２平滑スペクトル包絡ＬS2(k)を生成する。

図５の減算部５６４は、図６に示すように、第１平滑スペクトル包絡ＬS1(k)と第２平滑スペクトル包絡ＬS2(k)との差分を第２変換フィルタＨ2(k)（Ｈ2(k)＝ＬS1(k)−ＬS2(k)）として単位期間毎に順次に算定する。第１スペクトル包絡Ｌ1(k)と第２スペクトル包絡Ｌ2(k)との相違（第１平滑スペクトル包絡ＬS1(k)と第２平滑スペクトル包絡ＬS2(k)との相違）は、原特徴量ｘA(k)と推定特徴量ｘB(k)との相違（強度レベルや勾配の相違）に対応する。したがって、第２変換フィルタＨ2(k)は、原特徴量ｘA(k)と推定特徴量ｘB(k)との相違を補償するためのフィルタ（変換関数）として機能する。

図３の統合処理部５８は、第１差分算定部５２が生成した第１変換フィルタＨ1(k)と第２差分算定部５６が生成した第２変換フィルタＨ2(k)とに応じた変換フィルタＨ(k)を生成する。具体的には、統合処理部５８は、図７に示すように、第１変換フィルタＨ1(k)と第２変換フィルタＨ2(k)とを加算することで変換フィルタＨ(k)（Ｈ(k)＝Ｈ1(k)＋Ｈ2(k)）を単位期間毎に順次に生成する。前述の通り、統合処理部５８が生成した変換フィルタＨ(k)を図１の音声変換部３２が原音声ＶSのスペクトルＰS(k)に作用させることで目標音声ＶTのスペクトルＰT(k)が生成される。

ところで、原音声ＶSを目標音声ＶTに変換するための構成としては、例えば、図４の部分(B)に示すように、原特徴量ｘA(k)を変換関数Ｆ(x)に適用した変換特徴量Ｆ(xA(k))の第１スペクトル包絡Ｌ1(k)と原特徴量ｘA(k)の原スペクトル包絡ＥA(k)との差分を変換フィルタｈ(k)（ｈ(k)＝Ｌ1(k)−ＥA(k)）として原音声ＶSのスペクトルＰS(k)に作用させる構成（以下「対比例」という）も想定され得る（ＰT(k)＝ＰS(k)＋ｈ(k)）。しかし、対比例では、原特徴量ｘA(k)の特性が、変換関数Ｆ(x)の設定時に学習情報として使用された音声の特徴量ｘ(k)から乖離する場合に、原特徴量ｘA(k)と変換関数Ｆ(x)による写像で想定される推定特徴量ｘB(k)との相違（図４の部分(A)を参照して説明した強度レベルや勾配の相違）が顕著となり、結果的に、目標音声ＶTの本来の声質から乖離した音声が生成される可能性がある。そして、原特徴量ｘA(k)と推定特徴量ｘB(k)との相違が原特徴量ｘA(k)に応じて変動することで変換フィルタｈ(k)が不安定に変化し、結果的に変換後の音声の特性が頻繁に変化して音質が低下し得る。

他方、第１実施形態では、変換関数Ｆ(x)の確率項ｐ(ｃq|ｘ)に原特徴量ｘA(k)を適用した推定特徴量ｘB(k)と原特徴量ｘA(k)に変換関数Ｆ(x)を適用した変換特徴量Ｆ(xA(k))との差異に応じた第１変換フィルタＨ1(k)が生成され、変換特徴量Ｆ(xA(k))が示す第１スペクトル包絡Ｌ1(k)と原特徴量ｘA(k)の原スペクトル包絡ＥA(k)に第１変換フィルタＨ1(k)を作用させた第２スペクトル包絡Ｌ2(k)との差異に応じた第２変換フィルタＨ2(k)が生成される。そして、第１変換フィルタＨ1(k)と第２変換フィルタＨ2(k)とを原音声ＶSのスペクトルＰS(k)に作用させることで目標音声ＶTのスペクトルＰT(k)が生成される。第２変換フィルタＨ2(k)は、原特徴量ｘA(k)と推定特徴量ｘB(k)との相違が補償されるように作用するから、原特徴量ｘA(k)が変換関数Ｆ(x)の設定用の原音声ＶS0の特徴量ｘ(k)と相違する場合でも、前述の対比例と比較して高音質な音声を生成できるという利点がある。

また、第１実施形態では、第１スペクトル包絡Ｌ1(k)を平滑化した第１平滑スペクトル包絡ＬS1(k)と第２スペクトル包絡Ｌ2(k)を平滑化した第２平滑スペクトル包絡ＬS2(k)との差分に応じて第２変換フィルタＨ2(k)が生成される。したがって、例えば第１スペクトル包絡Ｌ1(k)と第２スペクトル包絡Ｌ2(k)との差分に応じて第２変換フィルタＨ2(k)を生成する構成と比較して、原特徴量ｘA(k)と推定特徴量ｘB(k)との相違を高精度に補償して高音質な目標音声ＶTを生成できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。以下に例示する各態様において作用や機能が第１実施形態と同様である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図８は、第２実施形態に係る音声処理装置１００Bのブロック図である。第２実施形態の音声処理装置１００Bは、複数の音声素片を相互に接続することで音声信号を生成する信号処理装置（音声合成装置）である。利用者は、入力装置（図示略）を適宜に操作することで、発声者ＵSの声質の音声の生成と発声者ＵTの声質の音声の生成とを選択することが可能である。

図８に示すように、発声者ＵSが発声した原音声ＶSから抽出された複数の音声素片Ｄの集合（音声合成用ライブラリ）が記憶装置１４に記憶される。各音声素片は、言語上の意味の区別の最小単位（例えば母音や子音）に相当する１個の音素（monophone）、または複数の音素を連結した音素連鎖（diphone，triphone）であり、例えば時間領域での波形のサンプル系列や周波数領域でのスペクトルを規定するデータで表現される。

第２実施形態の演算処理装置１２は、記憶装置１４に記憶されたプログラムを実行することで複数の機能（素片選択部７２，音声処理部７４，音声合成部７６）を実現する。素片選択部７２は、合成対象に指定された歌詞等の発音文字（以下「指定音韻」という）に対応する音声素片Ｄを記憶装置１４から順次に選択する。

音声処理部７４は、素片選択部７２が選択した各音声素片Ｄ（原音声ＶS）を発声者ＵTの目標音声ＶTの音声素片Ｄに変換する。具体的には、発声者ＵTの音声の合成が指示された場合に音声処理部７４は各音声素片Ｄの変換を実行する。具体的には、音声処理部７４は、第１実施形態の音声処理装置１００Aによる原音声ＶSから目標音声ＶTへの変換と同様の処理で原音声ＶSの音声素片Ｄから目標音声ＶTの音声素片Ｄを生成する。すなわち、第２実施形態の音声処理部７４は、例えば周波数分析部２２と特徴量抽出部２４と解析処理部２６と音声変換部３２と波形生成部３４とを含んで構成される。したがって、第２実施形態においても第１実施形態と同様の効果が実現される。他方、発声者ＵSの音声の合成が指示された場合、音声処理部７４は動作を停止する。

図８の音声合成部７６は、発声者ＵSの音声の合成が指示された場合には、素片選択部７２が記憶装置１４から選択および取得した音声素片Ｄ（発声者ＵSの原音声ＶS）を音高の調整後に相互に連結することで音声信号（指定音韻を発声者ＵSが発声した音声の音声信号）を生成する。他方、発声者ＵTの音声の合成が指示された場合、音声合成部７６は、音声処理部７４による変換後の音声素片Ｄ（発声者ＵTの目標音声ＶT）を音高の調整後に相互に連結することで音声信号（指定音韻を発声者ＵTが発声した音声の音声信号）を生成する。

以上に説明した第２実施形態では、発声者ＵSの原音声ＶSから抽出された音声素片Ｄを目標音声ＶTの音声素片Ｄに変換したうえで音声合成に適用するから、発声者ＵTの音声素片Ｄが記憶装置１４に格納されていない場合でも発声者ＵTの音声を合成することが可能である。したがって、発声者ＵSの音声素片Ｄと発声者ＵTの音声素片Ｄとの双方を記憶装置１４に格納した構成と比較して、発声者ＵSおよび発声者ＵTの音声を合成するために記憶装置１４に必要な容量が削減されるという利点がある。

＜変形例＞
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）前述の各形態では、解析処理部２６の統合処理部５８が第１変換フィルタＨ1(k)と第２変換フィルタＨ2(k)との統合で変換フィルタＨ(k)を生成したが、第１差分算定部５２が生成した第１変換フィルタＨ1(k)と第２差分算定部５６が生成した第２変換フィルタＨ2(k)とを、音声変換部３２が各単位期間のスペクトルＰS(k)に作用させることで目標音声ＶTのスペクトルＰT(k)（ＰT(k)＝ＰS(k)＋Ｈ1(k)＋Ｈ2(k)）を単位期間毎に生成することも可能である。すなわち、統合処理部５８は省略され得る。以上の説明から理解されるように、前述の各形態の音声変換部３２は、第１変換フィルタＨ1(k)と第２変換フィルタＨ2(k)とをスペクトルＰS(k)に作用させることで目標音声ＶTを生成する要素（音声変換手段）として包括され、第１変換フィルタＨ1(k)と第２変換フィルタＨ2(k)との統合（変換フィルタＨ(k)の生成）の有無は不問である。

（２）前述の各形態では、第１スペクトル包絡Ｌ1(k)を平滑化した第１平滑スペクトル包絡ＬS1(k)と第２スペクトル包絡Ｌ2(k)を平滑化した第２平滑スペクトル包絡ＬS2(k)との差異に応じた第２変換フィルタＨ2(k)を生成したが、第１スペクトル包絡Ｌ1(k)の平滑化や第２スペクトル包絡Ｌ2(k)の平滑化（平滑部５６２）は省略され得る。すなわち、前述の各形態の第２差分算定部５６は、第１スペクトル包絡Ｌ1(k)と第２スペクトル包絡Ｌ2(k)との差異に応じた第２変換フィルタＨ2(k)を生成する要素（第２差分算定手段）として包括される。

（３）前述の各形態では、自己回帰モデルの線スペクトルを規定する複数の係数の系列を特徴量（ｘA(k)，ｘB(k)）として例示したが、特徴量の種類は以上の例示に限定されない。例えば、ＭＦＣＣ（Mel-Frequency Cepstral Coefficient）を特徴量とした構成も採用され得る。

１００A，１００B……音声処理装置、１２……演算処理装置、１４……記憶装置、２２……周波数分析部、２４……特徴量抽出部、２６……解析処理部、３２……音声変換部、３４……波形生成部、４２……変換処理部、４４……特徴量推定部、４６……スペクトル生成部、５２……第１差分算定部、５４……合成処理部、５６……第２差分算定部、５８……統合処理部、５６２……平滑部、５６４……減算部、７２……素片選択部、７４……音声処理部、７６……音声合成部。

Claims

声質が相違する各音声の特徴量の分布を近似する混合分布モデルの各要素分布に音声の特徴量が属する確率を示す確率項を包含する声質変換用の変換関数に原音声の原特徴量を適用することで変換特徴量を生成する変換処理手段と、
前記原特徴量が前記混合分布モデルの各要素分布に属する確率に応じた推定特徴量を前記確率項に対する前記原特徴量の適用で生成する特徴量推定手段と、
前記変換処理手段が生成した変換特徴量に対応する第１スペクトルと前記特徴量推定手段が生成した推定特徴量に対応する推定スペクトルとの差異に応じた第１変換フィルタを生成する第１差分算定手段と、
前記第１差分算定手段が生成した第１変換フィルタを前記原特徴量に対応する原スペクトルに加算することで第２スペクトルを生成する合成処理手段と、
前記第１スペクトルと前記第２スペクトルとの差異に応じた第２変換フィルタを生成する第２差分算定手段と、
前記第１変換フィルタと前記第２変換フィルタとを前記原音声のスペクトルに加算することで目標音声を生成する音声変換手段と
を具備する音声処理装置。
前記第２差分算定手段は、
前記第１スペクトルおよび前記第２スペクトルの各々を周波数領域内で平滑化する平滑手段と、
前記平滑化後の第１スペクトルと前記平滑化後の第２スペクトルとの差分を前記第２変換フィルタとして算定する減算手段とを含む
請求項１の音声処理装置。
複数の音声素片の各々を順次に選択する素片選択手段と、
前記素片選択手段が選択した各音声素片を原音声として目標音声の音声素片に変換する音声処理手段と、
前記音声処理手段による変換後の音声素片を相互に連結して音声信号を生成する音声合成手段とを具備し、
前記音声処理手段は、
声質が相違する各音声の特徴量の分布を近似する混合分布モデルの各要素分布に音声の特徴量が属する確率を示す確率項を包含する声質変換用の変換関数に原音声の原特徴量を適用することで変換特徴量を生成する変換処理手段と、
前記原特徴量が前記混合分布モデルの各要素分布に属する確率に応じた推定特徴量を前記確率項に対する前記原特徴量の適用で生成する特徴量推定手段と、
前記変換処理手段が生成した変換特徴量に対応する第１スペクトルと前記特徴量推定手段が生成した推定特徴量に対応する推定スペクトルとの差異に応じた第１変換フィルタを生成する第１差分算定手段と、
前記第１差分算定手段が生成した第１変換フィルタを前記原特徴量に対応する原スペクトルに加算することで第２スペクトルを生成する合成処理手段と、
前記第１スペクトルと前記第２スペクトルとの差異に応じた第２変換フィルタを生成する第２差分算定手段と、
前記第１変換フィルタと前記第２変換フィルタとを前記原音声のスペクトルに加算することで目標音声を生成する音声変換手段とを含む
音声処理装置。