JP2015040903A

JP2015040903A - 音声処理装置、音声処理方法、及び、プログラム

Info

Publication number: JP2015040903A
Application number: JP2013170504A
Authority: JP
Inventors: 祐基光藤; Yuki Mitsufuji; 徹知念; Toru Chinen
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-08-20
Filing date: 2013-08-20
Publication date: 2015-03-02
Also published as: US9711161B2; US20150058015A1; CN104424952A; CN104424952B

Abstract

【課題】ユーザが希望する声質変換を、容易に行う。
【解決手段】声質決定部は、声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、声質変換に用いる目的話者決定方法を決定し、その目的話者決定方法に従い、目的話者を決定する。本技術は、例えば、参照話者の音声を、目的話者の音声に変換する声質変換に適用することができる。
【選択図】図４

Description

本技術は、音声処理装置、音声処理方法、及び、プログラムに関し、特に、例えば、ユーザが希望する声質変換を、容易に行うことができるようにする音声処理装置、音声処理方法、及び、プログラムに関する。

近年、ウェアラブルカメラやマイク（マイクロフォン）を用いて、個人の生活を長時間記録し続けるライフログの研究が進んでいる。

マイクには、機器を装着している本人の音声の他、他人の音声が混入することがあり、この場合、ライフログには、ユーザ本人の音声の他、他人の音声も記録される。

ライフログの実用化にあたり、ユーザがライフログを公開することを想定すると、プライバシ保護の観点から、ライフログに記録された他人の音声を加工せずに、そのまま公開することは好ましくない。

他人のプライバシ保護の方法として、ライフログから、他人の音声を消去する方法がある。

しかしながら、ライフログに、例えば、ユーザ本人と他人との会話が記録（録音）されている場合には、他人の音声のみを消去すると、会話が不自然になり（あるいは、会話としての体をなさず）、ライフログの意義を損ねてしまうことがある。

したがって、プライバシ保護の方法として、音声を加工し、会話の文脈情報を保ったまま、他人の個人性だけを消去する個人性消去法の提案が要請されている。音声の個人性消去法としては、例えば、音声の声質を変換する声質変換がある。

例えば、特許文献１には、声質変換にあたり、声質変換の対象の話者である参照話者と、声質変換の目的とする声質の話者である目的話者とのペアについて、そのペアの数だけ、声質変換のための変換係数を持つのではなく、１又は複数の参照話者及び目的話者の少なくとも一方の音声を用いて、声質変換モデルを生成する学習を行い、所定の適応手法を用いて、声質変換モデルを、任意の参照話者及び任意の目的話者の少なくとも一方の音声に適応させて、任意又は特定の参照話者の音声を特定又は任意の目的話者の声質の音声に変換する技術が記載されている。

特開2008-058696号公報

ところで、例えば、上述のような会話等の音声の声質変換にあたっては、ユーザが、その会話の場の雰囲気を残すような声質変換を希望する場合や、残さないような声質変換を希望する場合、さらには、会話の場の雰囲気を残すような声質変換の中でも、個人性をある程度残すような声質変換を希望する場合、個人性をなるべく消去するような声質変換を希望する場合等がある。

しかしながら、上述のような、ユーザが希望する声質変換が行われるように、目的話者（の声質）を指示することができるようなユーザI/Fを構成することは、困難であり、また、単に、目的話者（の声質）を指示するのでは、ユーザが希望する声質変換が行われるとは限らない。

本技術は、このような状況に鑑みてなされたものであり、ユーザが希望する声質変換を、容易に行うことができるようにするものである。

本技術の音声処理装置、又は、プログラムは、声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する声質決定部を備える音声処理装置、又は、そのような音声処理装置として、コンピュータを機能させるためのプログラムである。

本技術の音声処理方法は、声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定するステップを含む音声処理方法である。

以上のような本技術においては、声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法が決定され、その目的話者決定方法に従い、前記目的話者が決定される。

なお、音声処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本技術によれば、ユーザが希望する声質変換を、容易に行うことができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した音声個人性消去装置の一実施の形態の構成例を示すブロック図である。学習部１１の構成例を示すブロック図である。学習部１１が行う声質モデル学習の処理を説明するフローチャートである。声質変換部１２の構成例を示すブロック図である。目的話者決定方法のうちの第１の決定方法の概要を説明するための図である。目的話者決定方法のうちの第２の決定方法の概要を説明するための図である。第１の決定方法で行われ得る声質変換の概要を説明するための図である。目的話者決定方法のうちの第３の決定方法の概要を説明するための図である。声質変換部１２が行う声質変換の処理を説明するフローチャートである。サーバクライアントシステムに適用した音声個人性消去装置を説明する図である。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

＜本技術を適用した音声個人性消去装置の一実施の形態＞

図１は、本技術を適用した音声個人性消去装置の一実施の形態の構成例を示すブロック図である。

図１において、音声個人性消去装置は、学習部１１、及び、声質変換部１２を有し、声質変換を行うことにより、音声の個人性を消去する。

学習部１１には、声質変換に用いる声質モデル等を求める学習（以下、声質モデル学習ともいう）に用いられる複数としてのZ人の話者#1,#2,...,#Zの同一の発話の音声が供給される。

学習部１１は、そこに供給されるZ人の話者#1ないし#Zの音声を用いて、声質モデル学習を行うことにより、声質モデル、その他、声質変換に必要な情報を生成し、声質変換部１２に供給する。

声質変換部１２には、学習部１１から、声質モデル等が供給される他、声質変換の対象の話者である参照話者の音声と、声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値wが供給される。

ここで、決定方法制御値wは、例えば、ユーザが図示せぬ操作部を操作することにより入力することや、図示せぬ上位のアプリケーションから与えること等ができる。

声質変換部１２は、決定方法制御値wに従い、声質変換に用いる目的話者決定方法を決定し、その目的話者決定方法に従い、目的話者を決定する。

さらに、声質変換部１２は、学習部１１からの声質モデル等を用いて、参照話者の音声から、目的話者決定方法に従って決定した目的話者の声質の音声を生成することにより、参照話者の音声を、目的話者の音声に声質変換して出力する。

なお、学習部１１に音声が供給されるZ人の話者#1ないし#Zについては、そのZ人の話者#1ないし#Zの中に、参照話者が含まれていてもよいし、含まれていなくてもよい。

ここで、音声の個人性を消去する方法としては、例えば、参照話者の音声の基本周波数を上昇させる方法があり、音声の基本周波数を、一定の周波数まで上昇させることで、音声の個人性を消去することができる。

但し、音声の基本周波数を上昇させる方法では、音声の音色を決める因子である音声の周波数包絡の形状が、基本周波数の上昇とともに変化する。音色を決める周波数包絡の形状は、基本周波数の上昇には比例しないため、音声の基本周波数を上昇させる方法で得られる音声は、音声の自然さが損なわれ、実世界に存在する音声とは程遠い音声になる。

また、音声の個人性の消去は、音声の基本周波数ではなく、音色を変換する声質変換によって行うことができる。音色を変換する声質変換では、例えば、あらかじめ収録した音声の中から、参照話者とする音声と目的話者とする音声とのペアを用いて、音声の周波数包絡を変換するための変換係数が学習される。そして、学習により得られる変換係数を用いて、参照話者の音声が、目的話者の音声に変換される。

かかる声質変換では、ユーザが希望する目的話者の音声を用いて学習を行うことで、ユーザが希望する目的話者の音声への声質変換を行うことができる。

しかしながら、この場合、ユーザが希望する（声質の音声を発する）目的話者を、何らかの方法で指示する必要がある。

また、ユーザが希望する目的話者が指示される場合には、目的話者が一意に特定されるが、音声の個人性の消去では、ユーザが希望する目的話者が、特に存在しない場合があり、この場合、声質変換の目的話者を適切に決定する必要がある。

すなわち、例えば、ユーザA、並びに、他人B及びCの会話について、他人B及びCのプライバシ保護のために、他人B及びCの音声の声質変換を行う場合には、ユーザAが希望する目的話者は、特に存在しない。

しかしながら、この場合に、ユーザAが、他人B及びCの目的話者（他人B及びCの音声の声質変換を行うための目的話者）を指示しなければならないのは、面倒である。

また、他人B及びCの音声の声質変換を行う場合に、他人B及びCの目的話者として、例えば、同一の話者Dが指示されることは、好ましくない。ユーザA及び他人Bの会話と、ユーザA及び他人Cの会話とを区別することが困難となることや、他人B及びCの会話が成立しなくなることがあるからである。

ユーザA、並びに、他人B及びCの会話について、他人B及びCの音声の声質変換を行う場合には、そのユーザA、並びに、他人B及びCの３人の間の会話が成立するように、他人Bの目的話者と他人Cの目的話者とは、異なる話者とすることが必要である。すなわち、他人Bの目的話者として、話者Dを指示し、他人Cの目的話者として、話者Dとは異なる話者Eを指示する必要がある。

また、他人B及びCのプライバシ保護の観点からは、話者Dとしては、他人Bとは音声が似ていない話者を指示することが望ましく、話者Eとしても、他人Cとは音声が似ていない話者を指示することが望ましいことがある。

一方、場合によっては、ユーザAが、他人Bとは声質があまりにも異なる話者を、他人Bの目的話者にすることを希望しないことがある。他人Cについても、同様である。

さらに、ユーザA、並びに、他人B及びCの３人の会話の場の雰囲気を破壊せずに（できるだけ残しつつ）、他人B及びCの音声を、それぞれ、他人B及びCに似ていない音声に声質変換することを、ユーザAが希望することがある。

以上のように、ユーザが希望する声質変換としては、様々な声質変換があるが、ユーザが希望する声質変換を行うために、ユーザが、具体的な目的話者を指示しなければならないことは、面倒である。

また、ユーザが指示した目的話者によって、ユーザが希望する声質変換が行われるかどうかは、実際に、声質変換を行ってみなければ、分からないことがある。

すなわち、例えば、ユーザA、並びに、他人B及びCの３人の会話の場の雰囲気を破壊せずに、他人B及びCの音声を、それぞれ、他人B及びCに似ていない音声に声質変換することを、ユーザAが希望する場合に、ユーザAが、他人B及びCの目的話者として、それぞれ、話者D及びEを指示しても、ユーザAが想像していた声質とは異なる声質への声質変換が行われ、例えば、声質変換後の会話の雰囲気が、元の会話の場の雰囲気とはまったく異なる雰囲気になることがある。

そこで、図１の音声個人性消去装置では、声質変換部１２において、決定方法制御値wに従って、声質変換に用いる目的話者決定方法を決定し、その目的話者決定方法に従って、目的話者を決定することにより、決定方法制御値wを与えるだけで、容易に、ユーザが希望する声質変換を行うことができるようになっている。

＜学習部１１の構成例＞

図２は、図１の学習部１１の構成例を示すブロック図である。

図２において、学習部１１は、Z個の時間周波数変換部２１_１，２１_２，...，２１_Ｚ、Z個の包絡算出部２２_１，２２_２，...，２２_Ｚ、Z個の包絡特徴データベース２３_１，２３_２，...，２３_Ｚ、（１個の）包絡空間生成部２４、Z個の話者適応部２５_１，２５_２，...，２５_Ｚ、（１個の）声質空間生成部２６、及び、（１個の）声質モデルデータベース２７を有する。

＜時間周波数変換部２１_ｚ＞

時間周波数変換部２１_ｚには、声質モデル学習に用いる話者#zの音声が供給される。

時間周波数変換部２１_ｚは、そこに供給される話者#zの音声（信号）を、入力信号x(t)として、その入力信号x(t)の時間周波数情報を分析する。

すなわち、例えば、時間周波数変換部２１_ｚは、入力信号x(t)を、固定サイズの（時間）フレームで分割することにより、入力フレーム信号x~(n,l)を得る。

さらに、時間周波数変換部２１_ｚは、入力フレーム信号x~(n,l)に、例えば、式（１）の窓関数w_ana(n)を乗算することにより、式（２）の窓関数適用信号x_W (n,l)を得る。

…（１）

…（２）

ここで、nは、入力フレーム信号x~(n,l)の時間のインデクスであり、入力フレーム信号x~(n,l)としてのサンプル値がフレームlの先頭から何サンプル点目のサンプル値であるのかを表す。また、nは、n=0,1,...,N-1の値をとり、Nは、フレームのフレームサイズ、すなわち、１フレームの入力フレーム信号x~(n,l)のサンプル数を表す。

lは、（時間）フレームのインデクスであり、入力フレーム信号x~(n,l)が、入力信号x(t)の先頭から何フレーム目の信号であるのかを表す。また、lは、l=0,1,...,L-1の値をとり、Lは、入力信号x(t)から得られた入力フレーム信号x~(n,l)の数、すなわち、フレームの総数（総フレーム数）を表す。

さらに、πは、円周率を表す。

なお、式（１）の窓関数w_ana(n)は、ハニング窓の平方根であるが、窓関数w_ana(n)としては、ハニング窓以外の、例えば、ハミング窓や、ブラックマンハリス窓、その他の窓を採用することができる。

また、フレームサイズNは、入力信号x(t)のサンプリング周波数fsでサンプリングを行ったときの、１フレームの時間fsecに相当するサンプル数であり、R(x)を、所定の丸め関数とすると、式N=R(fs×fsec)で表される。

１フレームの時間fsecとしては、例えば、fsec=0.02[秒]を採用することができる。また、丸め関数R(x)としては、例えば、引数xを四捨五入する関数を採用することができる。但し、１フレームの時間fsecや、丸め関数R(x)は、これに限定されるものではない。

また、時間周波数変換部２１_ｚは、フレームを、入力信号x(t)上をシフトしながら、入力信号x(t)を、フレームサイズNのフレームの入力フレーム信号x~(n,l)に分割するが、その際のフレームのシフト量としては、例えば、フレームサイズNの50％を採用することができる。

この場合、あるフレームlの入力フレーム信号x~(n,l)の先頭側の半分は、その直前のフレームl-1の後ろ側の半分に一致する。

なお、フレームのシフト量は、フレームサイズNの50％に限定されるものではない。

式（２）の窓関数適用信号x_W (n,l)が求められた後、時間周波数変換部２１_ｚは、窓関数適用信号x_W (n,l)の時間周波数変換を行い、入力複素スペクトルX(k,l)を求める。

すなわち、時間周波数変換部２１_ｚは、例えば、式（３）及び式（４）に従って、時間領域の窓関数適用信号x_W (n,l)を、周波数領域の入力複素スペクトルX(k,l)に変換する。

…（３）

…（４）

ここで、x~_W(m,l)は、窓関数適用信号x_W (n,l)に対して、ゼロ詰めを行ったゼロ詰め信号を表す。

mは、時間周波数変換の対象となるゼロ詰め信号x~_W(m,l)の時間のインデクスであり、ゼロ詰め信号x~_W(m,l)としてのサンプル値がフレームlの先頭から何サンプル点目のサンプル値であるのかを表す。また、mは、m=0,1,...,N-1,N,...,M-1の値をとり、Mは、時間周波数変換に用いるサンプル値のサンプル数、すなわち、周波数変換の対象のサンプル数を表す。

kは、入力複素スペクトルX(k,l)の周波数のインデクスであり、入力複素スペクトルX(k,l)としてのサンプル値がフレームlの先頭から何サンプル点目のサンプル値であるのかを表す。また、kは、k=0,1,...,K-1の値をとり、Kは、式K=M/2+1で表される。

さらに、iは、虚数単位（√(-1)）を表す。

なお、式（４）では、時間周波数変換として、DFT（離散フーリエ変換）を採用しているが、時間周波数変換としては、その他、例えば、DCT（離散コサイン変換）や、MDCT（修正離散コサイン変換）その他の、時間領域から周波数領域への変換を採用することができる。

また、式（３）では、窓関数適用信号x_W (n,l)に対して、ゼロ詰めを行った信号を、ゼロ詰め信号x~_W(m,l)としているが、フレームサイズNが、DFTの対象のサンプル数Mに等しい場合には、窓関数適用信号x_W (n,l)が、そのまま、ゼロ詰め信号x~_W(m,l)として用いられ、式（４）のDFTの対象となる。

さらに、DFTの対象のサンプル数Mとしては、例えば、フレームサイズN以上の2のべき乗の値のうちの、フレームサイズNに最も近い値を採用することができる。但し、DFTの対象のサンプル数Mとしては、フレームサイズN以上の2のべき乗の値のうちの、フレームサイズNに最も近い値に限定されるものではない。

時間周波数変換部２１_ｚは、以上のようにして、話者#zについて求めた入力複素スペクトルX(k,l)を、包絡算出部２２_ｚに供給する。

＜包絡算出部２２_ｚ＞

包絡算出部２２_ｚは、時間周波数変換部２１_ｚから供給される話者#zの入力複素スペクトル（以下、単に、スペクトルともいう）X(k,l)から、その微細構造を取り除き、スペクトルX(k,l)の包絡線に関する包絡情報を算出する。

すなわち、包絡算出部２２_ｚは、例えば、式（５）及び式（６）に従い、LFCC（線形周波数ケプストラム係数）を算出し、そのLFCCの低次の項（係数）を、時間周波数変換部２１_ｚからのスペクトルX(k,l)の包絡情報として抽出する。

…（５）

…（６）

ここで、C(j,l)は、スペクトルX(k,l)の包絡情報としてのLFCCを表し、以下、単に、ケプストラムともいう。

jは、ケプストラムC(j,l)の時間のインデクスであり、ケプストラムC(j,l)としてのサンプル値がフレームlの先頭から何サンプル点目のサンプル値であるのかを表す。また、jは、j=0,1,...,Jの値をとり、Jは、スペクトルX(k,l)の包絡情報としてのケプストラムC(j,l)の最大次数を表す。

なお、スペクトルX(k,l)の包絡情報としてのケプストラムC(j,l)の最大次数Jとしては、例えば、12を採用することができるが、スペクトルX(k,l)の包絡情報としてのケプストラムC(j,l)の最大次数Jは、12に限定されるものではない。

また、スペクトルX(k,l)の包絡情報としては、LFCCの他、例えば、LPCC（線形予測ケプストラム係数）や、メル一般化ケプストラム、その他のケプストラムや、ケプストラム以外の、スペクトルX(k,l)の包絡線を表す情報を採用することができる。

包絡算出部２２_ｚは、以上のようにして、話者#zについて求めたスペクトルX(k,l)の包絡情報としてのケプストラムC(j,l)を、包絡特徴量データベース２３_ｚに供給する。

包絡特徴量データベース２３_ｚは、包絡算出部２２_ｚから供給される、話者#zの包絡情報としてのケプストラムC(j,l)を記憶する。、

ここで、以下、話者#zの包絡情報としてのケプストラムC(j,l)を、C_z(j,l)とも記載する。

また、話者#zのケプストラムC_z(j,l)のフレーム数を、L_zで表す。

＜包絡空間生成部２４＞

包絡空間生成部２４は、包絡特徴量データベース２３_１ないし２３_Ｚそれぞれに記憶された包絡情報としてのケプストラムC₁(j,l)ないしC_Z(j,l)を用いて、包絡情報をモデル化した包絡情報モデルとしての、例えば、UBM-GMM(Universal Background Model - Gaussian Mixture Model)の学習（生成）を行う。

すなわち、包絡空間生成部２４は、包絡特徴量データベース２３_１ないし２３_Ｚそれぞれについて、包絡特徴量データベース２３_ｚに記憶されたL_zフレーム（個）のケプストラムC_z(j,l)から、L~/Z（＜L_z）フレームのケプストラムC_z(j,l)を、ランダムにサンプリングする。

Ｚ個の包絡特徴量データベース２３_１ないし２３_Ｚそれぞれについて、L~/ZフレームのケプストラムC_z(j,l)が、ランダムにサンプリングされることで、合計で、L~フレームのケプストラムC_z(j,l)が得られる。

ここで、包絡特徴量データベース２３_ｚに記憶されたL_zフレームのケプストラムC_z(j,l)からサンプリングされた話者#zのL~/ZフレームのケプストラムC_z(j,l)を、話者ケプストラムC~_z(j,l)ともいう。

また、話者#1ないし#ZそれぞれのL~/ZフレームのケプストラムC_z(j,l)の集合であるL~フレームのケプストラムC_z(j,l)を、以下、全話者ケプストラムC~(j,l)ともいう。

各話者#zの話者ケプストラムC~_z(j,l)は、L~/Zフレームだけ存在するので、話者ケプストラムC~_z(j,l)のインデクスlは、l=0,1,...,L~/Z-1の値をとる。

全話者ケプストラムC~(j,l)は、L~フレームだけ存在するので、全話者ケプストラムC~(j,l)のインデクスlは、l=0,1,...,L~-1の値をとる。

包絡空間生成部２４では、全話者ケプストラムC~(j,l)を用いて、UBM-GMMの学習が、例えば、EM(Expectation Maximum)アルゴリズムに従って行われ、これにより、式（７）、式（８）、式（９）、式（１０）、及び、式（１１）に従って、UBM-GMMのモデルパラメータθ'_p＝{μ'_p，Σ'_p，π'_p}が求められる。

…（７）

…（８）

…（９）

…（１０）

…（１１）

ここで、pは、GMM(UBM-GMM)を構成するガウス分布のインデクスであり、p=0,1,2,...,P-1の値をとる。Pは、GMMを構成するガウス分布の総数（GMMの混合数）を表す。

θ'_p＝{μ'_p，Σ'_p，π'_p}は、GMMのp番目（先頭を0番目とする）のガウス分布のパラメータを表す。μ'_p及びΣ'_pは、GMMのp番目のガウス分布の平均ベクトル、及び、共分散行列を、それぞれ表し、π'_pは、GMMのp番目のガウス分布の重み（ここでは、全話者ケプストラムC~(j,l)が観測されるときのp番目のガウス分布の寄与率）を表す。

N（C~(j,l)｜μ'_p，Σ'_p）は、p番目のガウス分布N（μ'_p，Σ'_p）（平均ベクトルがμ'_p，で、共分散行列がΣ'_pであるガウス分布）において、全話者ケプストラムC~(j,l)が観測される確率を表す。

上付きのTは、転置を表す。

包絡空間生成部２４は、モデルパラメータθ'_p＝{μ'_p，Σ'_p，π'_p}の初期値として、例えば、ランダムな値を設定し、全話者ケプストラムC~(j,l)を、UBM-GMMの学習用のデータとして用い、式（７）ないし式（１１）の演算を、例えば、あらかじめ定められた学習回数Uだけ繰り返すことで、包絡情報としてのケプストラムC₁(j,l)ないしC_Z(j,l)をモデル化した包絡情報モデルとしてのUBM-GMMを生成する学習を行う。

以上のようにして得られるUBM-GMMは、包絡情報としてのケプストラムC_z(j,l)の包絡空間における、様々な話者の包絡情報の分布を表す。

包絡空間生成部２４は、以上のようにして生成した包絡情報モデルとしてのUBM-GMM、すなわち、UBM-GMMのモデルパラメータθ'_p＝{μ'_p，Σ'_p，π'_p}を、話者適応部２５_１ないし２５_Ｚ、及び、声質変換部１２に供給する。

さらに、包絡空間生成部２４は、話者#zのL~/Zフレームの話者ケプストラムC~_z(j,l)を、話者適応部２５_ｚに供給する。

なお、学習回数Uとしては、例えば、200、その他の、モデルパラメータθ'_p＝{μ'_p，Σ'_p，π'_p}の収束に十分な回数を採用することができる。

また、GMMの学習、すなわち、式（７）ないし式（１１）の演算は、モデルパラメータθ'_p＝{μ'_p，Σ'_p，π'_p}が収束するまで行うことができる。

さらに、θ'_p＝{μ'_p，Σ'_p，π'_p}の初期値については、ランダムな値を設定する他、例えば、k-means法などのハードクラスタリングの手法を用いて設定することができる。

＜話者適応部２５_ｚ＞

話者適応部２５_ｚは、包絡空間生成部２４からの話者#zのL~/Zフレームの話者ケプストラムC~_z(j,l)を用いて、同じく、包絡空間生成部２５_ｚからの包絡情報モデルとしてのUBM-GMMの話者適応を、例えば、MAP適応によって行うことで、話者#zに適応したGMMであるMAP-GMMを生成する。

すなわち、話者適応部２５_ｚは、式（１２）、式（１３）、式（１４）、式（１５）、式（１６）、式（１７）、及び、式（１８）を演算することで、UBM-GMMの話者適応を行い、各話者#zに適応したMAP-GMMを生成する。

…（１２）

…（１３）

…（１４）

…（１５）

…（１６）

…（１７）

…（１８）

ここで、適応係数εには、適当な値が、あらかじめ設定される。

μ_z,p及びΣ_z,pは、話者#zに適応したMAP-GMMのp番目のガウス分布の平均ベクトル、及び、共分散行列を、それぞれ表す。

話者適応部２５_ｚは、以上のようにして、話者#zに適応したMAP-GMMを生成すると、そのMAP-GMMのモデルパラメータである平均ベクトルμ_z,pを用い、式（１９）に従って、MAP-GMMを構成するP個のガウス分布の平均ベクトルμ_z,0，μ_z,1，...，μ_z,P-1をコンポーネントとする話者スーパベクトルS_zを、話者#zの声質を表す声質パラメータとして生成し、声質空間生成部２６に供給する。

…（１９）

＜声質空間生成部２６＞

声質空間生成部２６は、声質パラメータの空間である声質空間での、話者適応部２５_ｚから供給される声質パラメータとしての話者スーパベクトルS_zの分布を、声質変換に用いる声質モデルとして生成する。

すなわち、声質空間生成部２６は、話者適応部２５_１ないし２５_Ｚから供給される声質パラメータとしての話者スーパベクトルS₁ないしS_Zを、所定のクラス分け基準に従って、クラス分けし、各クラスの話者スーパベクトルS_zの分布を、声質モデルとして生成する。

具体的には、例えば、声質空間生成部２６は、式（２０）及び式（２１）に従って、声質モデルとしての各クラス#rの話者スーパベクトルS_zの分布であるガウス分布の平均値（平均ベクトル）ψ_rと、共分散（共分散行列）φ_rとを求める。

…（２０）

…（２１）

ここで、クラス#rは、r=0,1,...,R-1の値をとり、Rは、クラスの総数を表す。

A_rは、クラス#rに属する話者スーパベクトルS_zの集合を表す。

Z_rは、クラス#rに属する話者スーパベクトルS_zの数を表し、Z_rの総和(Z₀+Z₁+...+Z_R-1)は、話者#1ないし#Zの総数Zに等しい。

声質空間生成部２６は、以上のようにして求めたクラスごとの声質モデルとしての話者スーパベクトルS_zのガウス分布（声質パラメータ分布）の平均値ψ_r及び共分散φ_rを、声質モデルデータベース２７に供給する。

声質モデルデータベース２７では、声質空間生成部２６からのクラスごとの声質モデルとしての話者スーパベクトルS_zのガウス分布の平均値ψ_r及び共分散φ_rが記憶される。

なお、話者スーパベクトルS_zをクラス分けするクラスとしては、例えば、話者#zが、男性又は女性であることと、話者#zが、東洋人又は西洋人であることとの組み合わせを、クラス分け基準として、R=4(＝2×2)個のクラスを採用することができる。

但し、話者スーパベクトルS_zをクラス分けするクラスの総数Rや、クラス分け基準は、これに限定されるものではない。

＜学習部１１の処理＞

図３は、図２の学習部１１が行う声質モデル学習の処理を説明するフローチャートである。

ステップＳ１１において、時間周波数変換部２１_ｚは、声質モデル学習に用いる話者#zの音声を取得し、その話者#zの音声（信号）を、入力信号x(t)として、その入力信号x(t)を、式（１）ないし式（４）に従って周波数変換することで、スペクトルX(k,l)を求める。

そして、時間周波数変換部２１_ｚは、スペクトルX(k,l)を、包絡算出部２２_ｚに供給して、処理は、ステップＳ１１からステップＳ１２に進む。

ステップＳ１２では、包絡算出部２２_ｚは、時間周波数変換部２１_ｚからのスペクトルX(k,l)の包絡情報としてのケプストラムC(j,l)を、式（５）及び式（６）に従って求め、包絡特徴量データベース２３_ｚに供給して記憶させ、処理は、ステップＳ１３に進む。

ステップＳ１３では、包絡空間生成部２４は、包絡特徴量データベース２３_１ないし２３_Ｚそれぞれについて、包絡特徴量データベース２３_ｚに記憶されたケプストラムC_z(j,l)から、L~/Zフレーム（サンプル）のケプストラムC_z(j,l)を、話者ケプストラムC~_z(j,l)として、ランダムにサンプリングすることで、合計で、L~フレームの話者ケプストラムC~_z(j,l)を、UBM-GMMの学習に用いる学習データとなる全話者ケプストラムC~(j,l)として求める。

その後、処理は、ステップＳ１３からステップＳ１４に進み、包絡空間生成部２４は、全話者ケプストラムC~(j,l)を用い、式（７）ないし式（１１）に従って、UBM-GMMの学習を行うことで、包絡情報モデルとしてのUBM-GMMを生成する。

そして、包絡空間生成部２４は、包絡情報モデルとしてのUBM-GMMを、話者適応部２５_１ないし２５_Ｚ、及び、声質変換部１２に供給するとともに、話者#zのL~/Zフレームの話者ケプストラムC~_z(j,l)を、話者適応部２５_ｚに供給して、処理は、ステップＳ１４からステップＳ１５に進む。

ステップＳ１５では、話者適応部２５_ｚは、包絡空間生成部２４からの話者#zのL~/Zフレームの話者ケプストラムC~_z(j,l)を用いて、同じく、包絡空間生成部２５_ｚからの包絡情報モデルとしてのUBM-GMMの話者適応を、式（１２）ないし式（１８）に従って行うことで、話者#zに適応したMAP-GMMを生成し、処理は、ステップＳ１６に進む。

ステップＳ１６では、話者適応部２５_ｚは、話者#zに適応したMAP-GMMのモデルパラメータである平均ベクトルμ_z,pを用い、式（１９）に従って、話者#zの声質パラメータとしての話者スーパベクトルS_zを生成し、声質空間生成部２６に供給して、処理は、ステップＳ１７に進む。

ステップＳ１７では、声質空間生成部２６は、話者適応部２５_１ないし２５_Ｚから供給される声質パラメータとしての話者スーパベクトルS₁ないしS_Zをクラス分けし、各クラス#rの話者スーパベクトルS_zを用い、式（２０）及び式（２１）に従って、クラス#rごとの話者スーパベクトルS_zの平均値ψ_r及び共分散φ_rを、声質モデルとして求める。

そして、声質空間生成部２６は、声質モデルとしてのクラス#rごとの話者スーパベクトルS_zのガウス分布の平均値ψ_r及び共分散φ_rを、声質モデルデータベース２７に供給して、処理は、ステップＳ１７からステップＳ１８に進む。

ステップＳ１８では、声質モデルデータベース２７が、声質空間生成部２６からの声質モデルとしてのクラス#rごとの話者スーパベクトルS_zのガウス分布の平均値ψ_r及び共分散φ_rを記憶し、声質モデル学習の処理は終了する。

なお、学習部１１において、声質モデル学習は、例えば、声質変換部１２において声質変換を行うときにリアルタイムで行うことができる。

また、学習部１１において、声質モデル学習は、例えば、あらかじめ行うことができる。

学習部１１において、声質モデル学習を、あらかじめ行う場合には、その声質モデル学習で得られる声質モデル、及び、包絡情報モデルとしてのUBM-GMMを、声質変換部１２に、あらかじめ提供しておくことにより、図１の音声個人性消去装置は、学習部１１を設けずに、声質変換部１２だけで構成することができる。

＜声質変換部１２の構成例＞

図４は、図１の声質変換部１２の構成例を示すブロック図である。

図４において、声質変換部１２は、時間周波数変換部３１、包絡算出部３２、話者適応部３３、声質決定部３４、及び、音声生成部３５を有し、学習部１１からの声質モデル等を用いて、参照話者の音声の周波数包絡を変換することで、参照話者の音声の声質変換を行う。

＜時間周波数変換部３１＞

時間周波数変換部３１には、参照話者の音声が供給される。

時間周波数変換部３１は、図２の時間周波数変換部２１_ｚと同様にして、参照話者の音声の周波数変換を行うことで、スペクトルX(k,l)を求め、包絡算出部３２、及び、音声生成部３５に供給する。

＜包絡算出部３２＞

包絡算出部３２は、図２の包絡算出部２２_ｚと同様にして、時間周波数変換部３１からのスペクトルX(k,l)から、参照話者の包絡情報としてのケプストラムC(j,l)を求め、話者適応部３３に供給する。

ここで、参照話者の包絡情報としてのケプストラムC(j,l)を、以下、参照話者ケプストラムC_org(j,l)ともいう。

また、参照話者ケプストラムC_org(j,l)のフレーム数を、L_orgで表すこととする。参照話者ケプストラムC_org(j,l)のフレームのインデクスlは、l=0,1,...,L_org-1の値をとる。

＜話者適応部３３＞

話者適応部３３には、包絡算出部３２から、参照話者の包絡情報としての参照話者ケプストラムC_org(j,l)が供給される他、学習部１１（図２）の包絡空間生成部２４から、包絡情報モデルとしてのUBM-GMM（のモデルパラメータθ'_p＝{μ'_p，Σ'_p，π'_p}）が供給される。

話者適応部３３は、図２の話者適応部２５_ｚと同様にして、包絡算出部３２からの参照話者ケプストラムC_org(j,l)を用いて、学習部１１からのUBM-GMMの話者適応を行うことで、参照話者に適応したMAP-GMMを生成する。

さらに、話者適応部３３は、図２の話者適応部２５_ｚと同様にして、参照話者に適応したMAP-GMMのモデルパラメータである平均ベクトルμ_org,pを用い、MAP-GMMを構成するP個のガウス分布の平均ベクトルμ_org,0，μ_org,1，...，μ_org,P-1をコンポーネントとする話者スーパベクトルS_org＝［μ_org,0 ^T，μ_org,1 ^T，...，μ_org,P-1 ^T］^Tを、参照話者の声質を表す声質パラメータとして生成し、包絡算出部３２からの参照話者ケプストラムC_org(j,l)とともに、声質決定部３４に供給する。

＜声質決定部３４＞

声質決定部３４には、話者適応部３３から、参照話者の声質パラメータとしての話者スーパベクトルS_org＝［μ_org,0 ^T，μ_org,1 ^T，...，μ_org,P-1 ^T］^T、及び、参照話者ケプストラムC_org(j,l)が供給される他、決定方法制御値wが供給される。

さらに、声質決定部３４には、学習部１１（図２）の声質モデルデータベース２７に記憶された声質モデルとしてのクラス#rごとの話者スーパベクトルS_zの平均値ψ_r及び共分散φ_r（話者スーパベクトルS_zの分布（声質パラメータ分布）を規定する平均値ψ_r及び共分散φ_r）が供給される。

声質決定部３４は、決定方法制御値wに従い、声質変換に用いる目的話者決定方法を、注目する注目決定方法として決定する。

そして、声質決定部３４は、注目決定方法に従って、目的話者を決定する。

すなわち、声質決定部３４は、声質モデルとしてのクラス#rごとの話者スーパベクトルS_zの平均値ψ_r及び共分散φ_r、並びに、参照話者の声質パラメータとしての話者スーパベクトルS_orgを用い、注目決定方法に従って、目的話者の声質パラメータとしての話者スーパベクトルS_tarを決定する（求める）。

ここで、本実施の形態では、目的話者決定方法として、例えば、第１の決定方法、第２の決定方法、及び、第３の決定方法の３通りの決定方法が用意されている。

そして、決定方法制御値wは、例えば、w=0,1,2の値をとり、声質決定部３４は、決定方法制御値wに従って、注目決定方法を、第１ないし第３の決定方法のうちのいずれかに決定する。

例えば、決定方法制御値wが0である場合には、第１の決定方法が、注目決定方法に決定される。また、例えば、決定方法制御値wが1である場合には、第２の決定方法が、注目決定方法に決定され、決定方法制御値wが2である場合には、第３の決定方法が、注目決定方法に決定される。

第１の決定方法は、参照話者の声質パラメータとしての話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布（声質パラメータ分布）をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する話者スーパベクトルS（が表す声質）を、目的話者の声質パラメータとしての話者スーパベクトルS_tarに決定する方法である。

第１の決定方法では、例えば、式（２２）及び式（２３）に従って、参照話者の声質パラメータとしての話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布を用いて、目的話者の声質パラメータとしての話者スーパベクトルS_tarが決定される。

…（２２）

…（２３）

ここで、式（２２）は、話者スーパベクトルS_tarが、平均値がψ_rで、共分散がφ_rのガウス分布N（ψ_r，φ_r）から生成されることを表す。

また、話者スーパベクトルS_tarのコンポーネントになっているμ_tar,pは、P個のガウス分布を有するGMMのp番目のガウス分布の平均ベクトルを表す。

第２の決定方法は、参照話者の声質パラメータとしての話者スーパベクトルS_orgが属するクラス#rとは異なるクラス#r'の話者スーパベクトルS_zの分布（声質パラメータ分布）をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する話者スーパベクトルS（が表す声質）を、目的話者の声質パラメータとしての話者スーパベクトルS_tar（が表す声質）に決定する方法である。

第２の決定方法では、例えば、式（２４）及び式（２５）に従って、参照話者の声質パラメータとしての話者スーパベクトルS_orgが属するクラス#rとは異なるクラス#r'の話者スーパベクトルS_zの分布を用いて、目的話者の声質パラメータとしての話者スーパベクトルS_tarが決定される。

…（２４）

…（２５）

第３の決定方法は、参照話者の声質パラメータとしての話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布（声質パラメータ分布）内において、参照話者の声質パラメータとしての話者スーパベクトルS_orgに対応する点を、所定の点に対して点対称となる方向に移動した点に対応する話者スーパベクトルS（が表す声質）を、目的話者の声質パラメータとしての話者スーパベクトルS_tarに決定する方法である。

第３の決定方法では、例えば、式（２６）、式（２７）、及び、式（２８）に従って、参照話者の話者スーパベクトルS_orgから見て、参照話者の話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの平均値ψ_rに対して点対称の方向の点であって、参照話者の話者スーパベクトルS_orgから、参照話者の話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布の分散φ_rによって決まる距離Drにある点に対応する話者スーパベクトルSが、目的話者の声質パラメータとしての話者スーパベクトルS_tarに決定される。

…（２６）

…（２７）

…（２８）

ここで、式（２６）によれば、共分散φ_rの固有値e_rを次元方向に加算して得られる加算値の平方根が、距離Drとして用いられる。

また、||x||_Fは、xのフロベニウスノルムを表す。

第１及び第３の決定方法では、いずれも、参照話者の声質パラメータとしての話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布（声質パラメータ分布）内に分布する話者スーパベクトルSが、目的話者の声質パラメータとしての話者スーパベクトルS_tarに決定されるので、参照話者の音声の発話の場の雰囲気をある程度保存しつつ（残しつつ）、参照話者の音声の個人性を消去する声質変換を行うことができる。

また、第１の決定方法では、参照話者の声質パラメータとしての話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布（声質パラメータ分布）をランダムにサンプリングしたサンプリング点に対応する話者スーパベクトルSを、目的話者の声質パラメータとしての話者スーパベクトルS_tarに決定するので、参照話者の音声の発話の場に存在する各話者の声質パラメータとしての話者スーパベクトルの分布が大きく変わる可能性は小さい。

第２の決定方法では、参照話者の声質パラメータとしての話者スーパベクトルS_orgが属するクラス#rとは異なるクラス#r'の話者スーパベクトルS_zの分布（声質パラメータ分布）内に分布する話者スーパベクトルSが、目的話者の声質パラメータとしての話者スーパベクトルS_tarに決定されるので、参照話者の音声の発話の場の雰囲気を保存せず、かつ、参照話者の音声の個人性を、強力に消去する声質変換を行うことができる。

第３の決定方法では、参照話者の声質パラメータとしての話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布内において、参照話者の声質パラメータとしての話者スーパベクトルS_orgに対応する点を所定の点に対して点対称となる方向に移動した点に対応する話者スーパベクトルSを、目的話者の声質パラメータとしての話者スーパベクトルS_tarに決定するので、参照話者の音声の発話の場の雰囲気を保存し、かつ、参照話者の音声の個人性を、強力に消去する声質変換を行うことができる。

さらに、第３の決定方法では、目的話者の話者スーパベクトルS_tarが、参照話者の話者スーパベクトルS_orgに対応する点を所定の点に対して点対称となる方向に移動した点に対応する話者スーパベクトルSに決定されるので、参照話者の話者スーパベクトルS_orgが異なる場合には、目的話者の話者スーパベクトルS_tarも異なることになり、したがって、異なる参照話者については、異なる話者が目的話者に決定される。その結果、異なる参照話者に対して、同一の話者が目的話者に決定されることを防止することができる。

なお、参照話者の話者スーパベクトルS_orgが属するクラス#rは、例えば、参照話者等のユーザが入力することができる。

また、参照話者の話者スーパベクトルS_orgが属するクラス#rについては、声質決定部３４において、参照話者の音声のピッチ周波数に基づいて、参照話者が男性及び女性のいずれであるかを認識するとともに、声質変換部１２に、GPS(Global Positioning System)等を内蔵させ、そのGPSから得られる声質変換部１２が存在する地域の情報gを関数f(g)に与えて得られる、声質変換部１２が存在する地域が、西洋人及び東洋人のいずれが生活する地域であるかを認識した上で、それらの認識結果に基づいて、参照話者の話者スーパベクトルS_orgが属するクラス#rを決定することができる。

その他、例えば、声質決定部３４において、平均値ψ_rが、参照話者の話者スーパベクトルS_orgに最も近い声質モデルとしての話者スーパベクトルS_zの分布のクラス#rを、参照話者の話者スーパベクトルS_orgが属するクラスに決定することができる。

声質決定部３４は、目的話者の声質パラメータとしての話者スーパベクトルS_tarを決定すると、その話者スーパーベクトルS_tarから、目的話者の包絡情報としてのケプストラム（以下、目的話者ケプストラムともいう）C_tar(j,l)を、例えば、式（２９）、式（３０）、式（３１）、式（３１）、式（３２）、式（３３）、式（３４）、及び、式（３５）に従って求め、話者適応部３３からの参照話者ケプストラムC_org(j,l)とともに、音声生成部３５に供給する。

…（２９）

…（３０）

…（３１）

…（３２）

…（３３）

…（３４）

…（３５）

＜音声生成部３５＞

音声生成部３５は、包絡変換部４１、及び、周波数時間変換部４２を有し、参照話者の音声（のスペクトル）から、目的話者の声質の音声を生成して出力する。

＜包絡変換部４１＞

包絡変換部４１には、声質決定部３４から、目的話者ケプストラムC_tar(j,l)、及び、参照話者ケプストラムC_org(j,l)が供給される。さらに、包絡変換部４１には、時間周波数変換部３１から、参照話者（の音声）のスペクトルX(k,l)が供給される。

包絡変換部４１は、目的話者ケプストラムC_tar(j,l)、及び、参照話者ケプストラムC_org(j,l)を用いて、参照話者のスペクトルX(k,l)の包絡を変換する。

包絡変換部４１は、参照話者のスペクトルX(k,l)の変換に使用する周波数包絡を得るために、参照話者ケプストラムC_org(j,l)、及び、目的話者ケプストラムC_tar(j,l)の高域をゼロ詰めし、そのゼロ詰め後の参照話者ケプストラムC_org(j,l)、及び、目的話者ケプストラムC_tar(j,l)を、式（３６）及び式（３７）に従って、ケプストラム領域(時間領域)の信号から周波数領域の信号に再変換する。

…（３６）

…（３７）

ここで、V_org(k,l)は、参照話者の周波数領域上の包絡情報を表し、V_tar(k,l)は、目的話者の周波数領域上の包絡情報を表す。

包絡変換部４１は、包絡情報V_org(k,l)及びV_tar(k,l)を用い、式（３８）に従って、参照話者のスペクトルX(k,l)を、目的話者（の音声）のスペクトルY(k,l)に変換する。

…（３８）

包絡変換部４１は、以上のようにして、目的話者のスペクトルY(k,l)を求めると、その目的話者のスペクトルY(k,l)を、周波数時間変換部４２に供給する。

＜周波数時間変換部４２＞

周波数時間変換部４２は、包絡変換部４１からの目的話者のスペクトルY(k,l)の周波数時間変換を、式（３９）及び式（４０）に従って行い、出力フレーム信号y~(n,l)を得る。

…（３９）

…（４０）

ここで、conj(x)は、xの虚数成分の符号を反転することを表す。

また、周波数時間変換部４２の周波数時間変換としては、時間周波数変換部３１の時間周波数変換の逆変換が採用される。本実施の形態では、時間周波数変換部３１の時間周波数変換として、図２の時間周波数変換部２１_ｚと同様のDFT（式（４））が採用されているため、周波数時間変換部４２の周波数時間変換としては、DFTの逆変換のIDFT （逆離散フーリエ変換）（式（４０））が採用される。

周波数時間変換部４２は、出力フレーム信号y~(n,l)を得た後、式（４１）に従って、窓関数w_syn(n)を乗算し、さらに、式（４２）に従って、オーバーラップ加算を行うことでフレーム合成を行う。そして、周波数時間変換部４２は、フレーム合成の結果得られる目的話者の音声（信号）y^curr(n+lN)を、声質変換結果（参照話者の音声の声質変換の結果）として出力する。

…（４１）

…（４２）

ここで、y^curr(n+lN)、及び、y^prev(n+lN)は、いずれも、声質変換結果としての音声を表すが、y^prev(n+lN)は、フレームlの音声である出力フレーム信号y~(n,l)の直前までの声質変換結果としての音声を表し、y^curr(n+lN)は、フレームlの音声である出力フレーム信号y~(n,l)までの声質変換結果としての音声を表す。

また、式（４１）の窓関数w_syn(n)は、時間周波数変換部３１（及び時間周波数変換部２１_ｚ）で用いられる式（１）の窓関数w_ana(n)と同一の窓関数であるが、窓関数w_syn(n)としては、その他、例えば、ハミング窓や矩形窓等を採用することができる。

＜第１ないし第３の決定方法＞

図５は、目的話者決定方法のうちの第１の決定方法の概要を説明するための図である。

第１の決定方法では、参照話者の話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布（図中、点線で示す）がランダムにサンプリングされ、そのサンプリングの結果得られるサンプリング点に対応する話者スーパベクトルSが、目的話者の話者スーパベクトルS_tarに決定される。

したがって、第１の決定方法によれば、声質変換によって、参照話者の音声の発話の場に存在する各話者の話者スーパベクトルの分布が大きく変わる可能性は小さい。

すなわち、目的話者の話者スーパベクトルS_tarは、参照話者の話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布内からサンプリングされるため、そのような目的話者の話者スーパベクトルS_tarを用いて行われる声質変換では、参照話者の音声の発話の場の雰囲気が保存される。

したがって、第１の決定方法によれば、参照話者の音声の発話の場の雰囲気を破壊せずに、音声の個人性を消去する声質変換を行うことができる。

図６は、目的話者決定方法のうちの第２の決定方法の概要を説明するための図である。

第２の決定方法は、参照話者の話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布（図中、点線で示す）とは異なるクラス#r'の話者スーパベクトルS_zの分布がランダムにサンプリングされ、そのサンプリングの結果得られるサンプリング点に対応する話者スーパベクトルSが、目的話者の話者スーパベクトルS_tarに決定される。

したがって、第２の決定方法では、目的話者の話者スーパベクトルS_tarは、参照話者の話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布の外側からサンプリングされるため、そのような目的話者の話者スーパベクトルS_tarを用いて行われる声質変換では、参照話者の音声の発話の場の雰囲気が破壊され、さらに、声質変換後の音声は、参照話者とは大きく声質が異なる音声になる。

以上から、第２の決定方法によれば、参照話者の音声の発話の場の雰囲気を保存せず、かつ、参照話者の音声の個人性を、強力に消去する声質変換を行うことができる。

図７は、第１の決定方法で行われ得る声質変換の概要を説明するための図である。

第１の決定方法では、参照話者の話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布（図中、点線で示す）がランダムにサンプリングされ、そのサンプリングの結果得られるサンプリング点に対応する話者スーパベクトルSが、目的話者の話者スーパベクトルS_tarに決定されるため、複数の参照話者に対して、同一の声質（、又は、似ている声質）の話者が、目的話者に決定されることが、可能性としてある。

この場合、複数の参照話者の音声が、声質変換後に区別することが困難になることがある。

第３の決定方法によれば、以上のように、複数の参照話者に対して、同一の声質の話者が、目的話者に決定されることを防止することができる。

図８は、目的話者決定方法のうちの第３の決定方法の概要を説明するための図である。

第３の決定方法では、参照話者の話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布（図中、点線で示す）内において、参照話者の話者スーパベクトルS_orgから見て、クラス#rの話者スーパベクトルS_zの分布の平均値ψ_rに対して点対称の方向の点であって、参照話者の話者スーパベクトルS_orgから、クラス#rの話者スーパベクトルS_zの分布の分散φ_rによって決まる距離Drにある点に対応する話者スーパベクトルSが、目的話者の話者スーパベクトルS_tarに決定される。

以上のように、第３の決定方法では、参照話者の話者スーパベクトルS_orgが属するクラス#rの話者スーパベクトルS_zの分布内において、参照話者の話者スーパベクトルS_orgを、平均値ψ_rに向かって、距離Drだけ移動した点に対応する話者スーパベクトルSが、目的話者の話者スーパベクトルS_tarに決定されるので、参照話者の音声の発話の場の雰囲気を破壊せずに、音声の個人性を、強力に消去する声質変換を行うことができる。

さらに、第３の決定方法では、複数の参照話者については、その参照話者の声質が異なる限り、異なる声質の話者が、目的話者に決定される。したがって、複数の参照話者に対して、同一の声質の話者が、目的話者に決定されることを防止することができる。

以上のように、声質変換部１２では、決定方法制御値wに従い、声質変換に用いる目的話者決定方法を決定し、その目的話者決定方法に従い、目的話者を決定するので、ユーザは、決定方法制御値wを指示するだけで、目的話者自体を指示しなくても、容易に、ユーザが希望する声質変換を行うことができる。

＜声質変換部１２の処理＞

図９は、図４の声質変換部１２が行う声質変換の処理を説明するフローチャートである。

声質変換部１２は、参照話者の音声と、決定方法制御値wとが供給されると、参照話者の音声を、時間周波数変換部３１に供給するとともに、決定方法制御値wを、声質決定部３４に供給する。

そして、ステップＳ２１において、時間周波数変換部３１は、図２の時間周波数変換部２１_ｚと同様にして、参照話者の音声の周波数変換を行い、その結果得られるスペクトルX(k,l)を、包絡算出部３２、及び、音声生成部３５に供給して、処理は、ステップＳ２２に進む。

ステップＳ２２では、包絡算出部３２は、図２の包絡算出部２２_ｚと同様にして、時間周波数変換部３１からのスペクトルX(k,l)から、参照話者の包絡情報としてのケプストラムC(j,l)を求め、話者適応部３３に供給して、処理は、ステップＳ２３に進む。

ステップＳ２３では、話者適応部３３は、学習部１１（図２）の包絡空間生成部２４から、包絡情報モデルとしてのUBM-GMM（のモデルパラメータθ'_p＝{μ'_p，Σ'_p，π'_p}）を取得し、処理は、ステップＳ２４に進む。

ステップＳ２４では、話者適応部３３は、図２の話者適応部２５_ｚと同様にして、包絡算出部３２からの参照話者ケプストラムC_org(j,l)を用いて、学習部１１からのUBM-GMMの話者適応を行うことで、参照話者に適応したMAP-GMMを生成し、処理は、ステップＳ２５に進む。

ステップＳ２５では、話者適応部３３は、図２の話者適応部２５_ｚと同様にして、参照話者に適応したMAP-GMMのモデルパラメータである平均ベクトルμ_org,pを用い、MAP-GMMを構成するP個のガウス分布の平均ベクトルμ_org,0，μ_org,1，...，μ_org,P-1をコンポーネントとする話者スーパベクトルS_org＝［μ_org,0 ^T，μ_org,1 ^T，...，μ_org,P-1 ^T］^Tを、参照話者の声質を表す声質パラメータとして生成し、包絡算出部３２からの参照話者ケプストラムC_org(j,l)とともに、声質決定部３４に供給して、処理は、ステップＳ２６に進む。

ステップＳ２６では、声質決定部３４は、外部から供給される決定方法制御値wを取得し、その決定方法制御値wに従い、例えば、上述した第１ないし第３の決定方法の中から、声質変換に用いる目的話者決定方法を、注目決定方法として決定して、処理は、ステップＳ２７に進む。

なお、外部から決定方法制御値wが供給されない場合には、声質決定部３４では、例えば、あらかじめ決められたデフォルトの値を、決定方法制御値wとして用いることができる。

ステップＳ２７では、声質決定部３４は、注目決定方法に従い、学習部１１（図２）の声質モデルデータベース２７に記憶された声質モデルとしてのクラス#rごとの話者スーパベクトルS_zの平均値ψ_r及び共分散φ_r、並びに、話者適応部３３から供給される参照話者の声質パラメータとしての話者スーパベクトルS_orgを用いて、目的話者の声質パラメータとしての話者スーパベクトルS_tarを決定し（求め）、処理は、ステップＳ２８に進む。

ステップＳ２８では、声質決定部３４は、目的話者の声質パラメータとしての話者スーパベクトルS_tarから、目的話者の包絡情報としてのケプストラムである目的話者ケプストラムC_tar(j,l)を、式（２９）ないし式（３５）に従って求め、話者適応部３３からの参照話者ケプストラムC_org(j,l)とともに、音声生成部３５の包絡変換部４１に供給して、処理は、ステップＳ２９に進む。

ステップＳ２９では、包絡変換部４１は、式（３６）及び式（３７）に従って、声質決定部３４からの目的話者ケプストラムC_tar(j,l)、及び、参照話者ケプストラムC_org(j,l)を、周波数領域上の包絡情報V_tar(k,l)及びV_org(k,l)に変換し、処理は、ステップＳ３０に進む。

ステップＳ３０では、包絡変換部４１は、包絡情報V_org(k,l)及びV_tar(k,l)を用い、式（３８）に従って、声質決定部３４からの参照話者のスペクトルX(k,l)を、目的話者（の音声）のスペクトルY(k,l)に変換し、周波数時間変換部４２に供給して、処理は、ステップＳ３１に進む。

ステップＳ３１では、周波数時間変換部４２は、包絡変換部４１からの目的話者のスペクトルY(k,l)の周波数時間変換を、式（３９）ないし式（４２）に従って行い、その結果得られる目的話者の音声y^curr(n+lN)、すなわち、参照話者の音声の声質変換の結果を出力する。

＜サーバクライアントシステムへの適用＞

図１０は、サーバクライアントシステムに適用した音声個人性消去装置を説明する図である。

図１の音声個人性消去装置は、いわゆるスタンドアロンの装置として構成する他、サーバクライアントシステムとして構成することができる。

図１０Ａは、音声個人性消去装置を適用したサーバクライアントシステムの第１の構成例を示すブロック図である。

図１０Ａでは、サーバは、学習部１１を有し、クライアントは、声質変換部１２を有する。

クライアントとしての声質変換部１２は、サーバとしての学習部１１から、声質モデル等の必要な情報を取得して、声質変換を行う。

図１０Ｂは、音声個人性消去装置を適用したサーバクライアントシステムの第２の構成例を示すブロック図である。

図１０Ｂでは、サーバは、学習部１１、及び、声質変換部１２を有し、クライアントは、図示せぬユーザI/F(Interface)を有する。

クライアントでは、ユーザが、ユーザI/Fから、参照話者の音声、及び、決定方法制御値wを入力し、サーバに送信する。

サーバでは、クライアントからの参照話者の音声、及び、決定方法制御値w、さらには、学習部１１で得られる声質モデル等の必要な情報を用いて、声質変換が行われ、その声質変換結果としての音声が、クライアントに送信される。

クライアントでは、サーバからの声質変換結果としての音声が受信され、ユーザI/Fから出力される。

図１０Ｃは、音声個人性消去装置を適用したサーバクライアントシステムの第３の構成例を示すブロック図である。

図１０Ｃは、サーバは、学習部１１と、声質変換部１２の一部としての声質決定部３４を有し、クライアントは、声質変換部１２の残り（図４の時間周波数変換部３１、包絡算出部３２、話者適応部３３、及び、音声生成部３５）を有する。

クライアントでは、決定方法制御値wが、サーバに送信され、サーバにおいて、声質決定部３４が、クライアントからの決定方法制御値wと、学習部１１で得られる声質モデル等の必要な情報を用いて、上述した場合と同様の処理を行い、その結果得られる情報を、クライアントに送信する。

クライアントでは、声質変換部１２において、参照話者の音声と、サーバから送信されてくる、声質決定部３４で得られた情報を用いて、図９で説明した声質変換部１２の処理のうちの、声質決定部３４が行う処理を除いた処理が行われる。

なお、音声個人性消去装置を、サーバクライアントシステムに適用する場合には、声質変換部１２を構成するブロックのうちの、声質決定部３４以外のブロックを、サーバに設けることができる。

＜本技術を適用したコンピュータの説明＞

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図１１は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。

あるいはまた、プログラムは、リムーバブル記録媒体１１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体１１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵しており、CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されている。

CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、CPU１０２は、ハードディスク１０５に格納されたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。

これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

なお、入力部１０７は、キーボードや、マウス、マイク等で構成される。また、出力部１０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

ここで、本実施の形態では、本技術を、音声の個人性を消去することを目的とする声質変換に適用した場合について説明したが、本技術は、音声の個人性を消去すること以外の目的の声質変換にも適用することができる。

また、本実施の形態では、決定方法制御値wが、0,1,2の３値のいずれかをとることとし、その決定方法制御値wに従って、第１ないし第３の決定方法の中から、声質変換に用いる目的話者決定方法を決定することとしたが、決定方法制御値wは、３値に限定されるものではなく、目的話者決定方法も、第１ないし第３の決定方法の３つの方法に限定されるものではない。すなわち、決定方法制御値wとしては、２値又は４値以上を採用することができ、目的話者決定方法としては、２つ又は４つ以上の方法を用意することができる。

さらに、声質変換の方法は、上述した方法に限定されるものではない。

なお、本技術は、以下のような構成をとることができる。

＜１＞
声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する声質決定部
を備える音声処理装置。
＜２＞
声質変換の対象の話者である参照話者の音声から、前記目的話者の声質の音声を生成する音声生成部をさらに備える
＜１＞に記載の音声処理装置。
＜３＞
前記声質決定部は、声質を表す声質パラメータの声質空間内の、複数の話者の音声を用いて求められた前記声質パラメータの分布である声質パラメータ分布を用いて、前記目的話者を決定する
＜２＞に記載の音声処理装置。
＜４＞
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
＜３＞に記載の音声処理装置。
＜５＞
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
＜４＞に記載の音声処理装置。
＜６＞
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布内において、前記参照話者の声質パラメータに対応する点を、所定の点に対して点対称となる方向に移動した点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
＜４＞又は＜５＞に記載の音声処理装置。
＜７＞
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
＜３＞に記載の音声処理装置。
＜８＞
前記声質決定部は、前記決定方法制御値に従い、
声質を表す声質パラメータの声質空間内の、複数の話者の音声を用いて求められた前記声質パラメータの分布である声質パラメータ分布を用いる方法、
又は、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布を用いる方法
を、前記声質変換に用いる前記目的話者決定方法に決定する
＜３＞に記載の音声処理装置。
＜９＞
前記声質決定部は、前記決定方法制御値に従い、
前記参照話者の声質パラメータが属する前記声質パラメータ分布をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法、
前記参照話者の声質パラメータが属する前記声質パラメータ分布内において、前記参照話者の声質パラメータに対応する点を、所定の点に対して点対称となる方向に移動した点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法、
又は、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法
を、前記声質変換に用いる前記目的話者決定方法に決定する
＜３＞に記載の音声処理装置。
＜１０＞
声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する
ステップを含む音声処理方法。
＜１１＞
声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する声質決定部
として、コンピュータを機能させるためのプログラム。

１１学習部，１２声質変換部，２１_１ないし２１_Ｚ時間周波数変換部，２２_１ないし２２_Ｚ包絡算出部，２３_１ないし２３_Ｚ包絡特徴量データベース，２４包絡空間生成部，２５_１ないし２５_Ｚ話者適応部，２６声質空間生成部，２７声質モデルデータベース，３１時間周波数変換部，３２包絡算出部，３３話者適応部，３４声質決定部，３５音声生成部，４１包絡変換部，４２周波数時間変換部，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する声質決定部
を備える音声処理装置。
声質変換の対象の話者である参照話者の音声から、前記目的話者の声質の音声を生成する音声生成部をさらに備える
請求項１に記載の音声処理装置。
前記声質決定部は、声質を表す声質パラメータの声質空間内の、複数の話者の音声を用いて求められた前記声質パラメータの分布である声質パラメータ分布を用いて、前記目的話者を決定する
請求項２に記載の音声処理装置。
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
請求項３に記載の音声処理装置。
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
請求項４に記載の音声処理装置。
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布内において、前記参照話者の声質パラメータに対応する点を、所定の点に対して点対称となる方向に移動した点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
請求項４に記載の音声処理装置。
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
請求項３に記載の音声処理装置。
前記声質決定部は、前記決定方法制御値に従い、
声質を表す声質パラメータの声質空間内の、複数の話者の音声を用いて求められた前記声質パラメータの分布である声質パラメータ分布を用いる方法、
又は、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布を用いる方法
を、前記声質変換に用いる前記目的話者決定方法に決定する
請求項３に記載の音声処理装置。
前記声質決定部は、前記決定方法制御値に従い、
前記参照話者の声質パラメータが属する前記声質パラメータ分布をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法、
前記参照話者の声質パラメータが属する前記声質パラメータ分布内において、前記参照話者の声質パラメータに対応する点を、所定の点に対して点対称となる方向に移動した点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法、
又は、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法
を、前記声質変換に用いる前記目的話者決定方法に決定する
請求項３に記載の音声処理装置。
声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する
ステップを含む音声処理方法。
声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する声質決定部
として、コンピュータを機能させるためのプログラム。