JP2011059146A

JP2011059146A - 音声変換装置および音声変換方法

Info

Publication number: JP2011059146A
Application number: JP2009205349A
Authority: JP
Inventors: Hidenori Kawahara; 英紀河原
Original assignee: Wakayama University
Current assignee: Wakayama University
Priority date: 2009-09-04
Filing date: 2009-09-04
Publication date: 2011-03-24
Anticipated expiration: 2029-09-04
Also published as: JP5545935B2

Abstract

【課題】極めて少ない学習用のデータに基づいて、ある話者によって話された音声を、その話者以外の話者によって話されたような高い品質を有する音声に変換することができる音声変換装置および音声変換方法を提供する。
【解決手段】学習部１０は、変換対象の話者の母音の音声と変換目標の話者の母音の音声とに基づいて、変換対象の話者の音声を変換目標の話者の音声に変換するための個別変換関数を母音ごとに生成した後、生成した母音ごとの個別変換関数を合成して、変換対象の話者の音声を変換目標の話者の音声に変換する実行用合成変換関数を生成するための変換関数合成用汎関数を生成する。実行部２０は、学習部１０で生成された母音ごとの個別変換関数および変換関数合成用汎関数を含む変換関数に基づいて、実行用合成変換関数を生成し、生成した実行用合成変換関数を用いて、変換対象の話者の音声を変換目標の話者の音声に変換する。
【選択図】図１

Description

本発明は、話者の音声を他の人の音声に変換する音声変換装置および音声変換方法に関し、より詳細には、ある話者により話された音声を、一人あるいは複数の基準とする別の話者の音声を用いて、基準とする別の話者、あるいはある話者でも基準とする別の話者でもない中間的な別の話者により話された音声に変換するための音声変換装置および音声変換方法に関する。

標本化してディジタル化した音声を再生する方法として、標本化に用いた周波数よりも低い標本化周波数を用いて再生することによって、音声全体の基本周波数とスペクトル包絡とを同じ割合で低下させ、比例的に圧縮する方法がある。また、高い標本化周波数を用いて再生することによって、音声全体の基本周波数とスペクトル包絡とを同じ割合で、上昇させて、比例的に伸張する方法もある。しかし、これら方法を用いると、基本周波数を低下させる場合には、その低下の割合に反比例して時間長が増加し、上昇させる場合には、その上昇の割合に反比例して時間長が減少する。周波数と時間とが反比例するこの関係を避ける方法として、変換音声のある長さの区間に分割した試料の一部を、間引いたり、もう一度繰り返すなどの方法がある。しかし、このような方法は、切断、繰返しあるいは間引きによる品質の劣化があり、変換の割合が小さな場合以外では実用的ではない。

ＰＳＯＬＡ(Pitch Synchronous OverLap and Add)と呼ばれる方法（非特許文献１参照）は、音声の周期性に着目し、周期的に繰り返される信号の周期に同期して切出した波形を用いて上記の繰返しや間引きを行うことによって、品質の劣化を避けるために提案された方法である。ＰＳＯＬＡは、簡単な処理で比較的良い品質を保ったまま、基本周波数およびスペクトル包絡を変換することのできる方法として、広く用いられている。しかし、この方法では、スペクトル包絡の変型は周波数軸の比例的な伸縮に限られるため、変換の自由度は少ない。また、変換の割合を大きくした場合には、品質の劣化が大きくなるという問題がある。

ＳＴＲＡＩＧＨＴ（特許文献１および非特許文献２参照）および、その改良型であるＴＡＮＤＥＭ−ＳＴＲＡＩＧＨＴ（特許文献２，非特許文献３参照）では、信号の周期性の影響を取り除いたスペクトル包絡を正確に求めることによって、基本周波数、スペクトル包絡、および非周期性指標、ならびにそれらが表現されている時間軸および周波数軸を、再合成音声の品質の大きな劣化を伴わずに独立に自由に操作することができる。周波数軸の比例的な伸縮の場合には、同じ変換率のときは、一般にＳＴＲＡＩＧＨＴおよびＴＡＮＤＥＭ−ＳＴＲＡＩＧＨＴによる方が、変換された音声の品質はよい。しかし、これらの値を自由に操作した場合、操作の結果として得られる変換音声の品質は、必ずしも良くならない。これは、変換が自由であり過ぎるため、話者の個人性、あるいは用いている言語に存在する音韻の一貫性が崩れたり、人間が通常出す音声の範囲を逸脱した音が生ずるなどの要因による副作用である。

そのような一貫性を保証するために、別の話者の話した同一のテキストによる音声との間のモーフィング（非特許文献４，５参照）、あるいはそれぞれの話者による音声の分析結果のパラメタ間の統計的対応関係を求めて統計的な変換を行う方法（非特許文献６参照）等が開発されている。

しかし、モーフィングには、同一のテキストによる音声が必要であることと、モーフィングに用いる２つの音声の間の対応関係の設定に非常に手間がかかるという問題がある。統計的な方法には、学習に大量の音声データが必要であることと、統計的な操作に必然的に含まれる平均操作によって、スペクトルの微細な特徴が失われて音声の品質が劣化するという問題がある。

母音の情報を用いて音声を変換する方法（特許文献３および非特許文献７，８参照）は、品質の問題と学習の問題とを同時に解決することができる可能性のある方法である。この方法は、未知の人の話した言葉であっても、直ぐに内容を理解することができるようになる人間の音声知覚能力が、母音に大きく依存しているという知見（非特許文献８参照）を根拠としていると考えることができる。

母音を用いて変換を行う場合、注目する母音のスペクトルが前後の子音または母音によって大きく変化してしまう調音結合という現象の存在が大きな問題となる。問題は、適切な調音結合があることが高い品質の自然な音声の再現に重要であることと、調音結合があることによって、母音の認識が困難になることにある。変換対象となる音声の母音を、たとえば音声認識技術を用いて認識し、その認識結果のラベルに基づいて変換法を決定し、母音と母音との中間あるいは、母音と子音との中間を線形補間等の方法で補間する場合には、この２つの理由が問題となる。まず、ラベルの自動認識が困難で、誤りを含んだものとなることで、変換音声の品質が大きく劣化する。ラベルを手作業によって、正しく付与した場合（特許文献３，４参照）であっても、母音の典型例についての変換規則を固定的に用いた場合には、まず、母音部においてこの調音結合が適切に再現されず、母音と母音との中間あるいは、母音と子音との中間においても、母音部そのものが適切に変換されていないことから、調音結合が適切に再現されず、その結果、品質が劣化するという問題がある。

声質変換の応用では、特定の話者の声に変換することが必要ではない場合もある。たとえば、既存の音声試料の音声を、その音声の元々の話者が分からないようにすることができれば良い場合である。また、単に、違った声に変えたいという場合である。数人の話者の声の特徴を、好みの割合で混ぜ合わせたような音声に変えたいという要求がある場合である。また、もう少し、滑舌の良い音声に変えたり、訛に特有の音韻の偏りを直したい場合もある。ところが、従来の母音に基づく音声変換の方法では、これらの要求に応えるために、複数の話者の音声からそのいずれの話者でもない中間的な話者の音声を作成する方法は、明らかになってはいない。自然でかついずれの話者でもない音声を作成することは、２人の話者の音声をモーフィングして、中間にある音声を作成することで実現することができることが示されている（非特許文献９参照）。

特開平１０−９７２８７号公報特開２００９−４２７１６号公報特開２００２−２１５１９８号公報特開２００８−５４２１２７号公報

Eric Moulines, and Francis Charpentier, 「Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones」, Speech Communication, 9(5-6), pp.453-467 (1990) Hideki Kawahara, Ikuyo Masuda-Katsuse and Alain deCheveign´e, 「Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneousfrequency-based F0 extraction: Possible role of a reptitive structure in sounds」, Speech Communication, 27(3-4), pp.187-207 (1999) Hideki Kawahara, M. Morise, T. Takahashi, R. Nisimura, T. Irino and H. Banno,「TANDEM-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, F0 and aperiodicity estimation」, Proc. ICASSP’2008, Las Vegas, pp.3933-3936 (2008) Hideki Kawahara and Hisami Matsui, 「Auditory morphing based on an elastic perceptual distance metric in an interference-free time-frequency representation」, Proc. ICASSP’2003,Hong Kong, vol.I, pp.256-259, (2003) H. Kawahara, R. Nisimura, T. Irino, M. Morise, T. Takahashi, B. Banno, 「Temporally variable multi-aspect auditory morphing enabling extrapolation without objective and perceptual breakdown」, Proc. ICASSP2009, Taipei, pp.3905-3908 (2009) Y. Stylianou, O. Capp´e, and E. Moulines, 「Continuous probabilistic transform for voice conversion」, IEEE Trans. Speech Audio Process., vol. 6, no. 2, pp.131-142, Mar. 1998 高橋徹, 森勢将雅, 西村竜一, 入野俊夫, 坂野秀樹, 河原英紀, 「母音情報に基づく話者変換システムの提案: 音声テクスチャマッピングの一実装例」, 電子情報通信学会技術研究報告,SP -106(613), pp.13-18, (2007) 加藤, 筧, 「音声知覚における話者への適応性の検討」, 日本音響学会誌, 44(3), pp.180-186 (1988). 河原英紀, 生駒太一, 森勢将雅, 高橋徹, 豊田健一, 片寄晴弘, 「モーフィングに基づく歌唱デザインインタフェースの提案と初期検討」, 情報処理学会論文誌, 48(12), pp.3637-3648(2007).

ＳＴＲＡＩＧＨＴを用いて、音声のテクスチャマッピングの考え方を応用した母音に基づく音声変換方法（非特許文献７参照）は、これらの問題点を解決する可能性を有している。しかし、この方法は、様々な具体的な実装法の工夫にもかかわらず、方法の成否を握る母音の変換関数の設計において、最初に提案された手作業に匹敵する品質を実現することができないという、実用上の大きな障害となる問題点をかかえている。

本発明の目的は、極めて少ない学習用のデータに基づいて、ある話者によって話された音声を、その話者以外の話者によって話されたような高い品質を有する音声に変換することができる音声変換装置および音声変換方法を提供することである。

本発明は、変換対象の話者の母音の音声と変換目標の話者の母音の音声とに基づいて、変換対象の話者の音声を変換目標の話者の音声に変換するための個別変換関数を母音ごとに生成する生成部を含むことを特徴とする音声変換装置である。

また本発明は、前記生成部は、前記母音ごとの個別変換関数を生成した後、生成した母音ごとの個別変換関数を合成して変換対象の話者の音声を変換目標の話者の音声に変換する実行時変換関数を生成するための変換関数合成用汎関数を生成することを特徴とする。

また本発明は、前記生成部で生成された前記母音ごとの個別変換関数および前記変換関数合成用汎関数を含む変換関数に基づいて前記実行時変換関数を生成し、生成した実行時変換関数を用いて、変換対象の話者の音声を変換目標の話者の音声に変換する変換部をさらに含むことを特徴とする。

また本発明は、前記生成部は、前記母音ごとの個別変換関数として、変換対象の話者の音声と変換目標の話者の音声との周波数軸の対応関係に基づいて周波数軸を変換する周波数軸変換関数、周波数軸変換関数によって変換された周波数軸の上でのスペクトル包絡の概形の違いを少なくするように変換するスペクトル概形変換関数、および音声の中の周期的な成分と非周期的な成分との割合を示す非周期性指標を変換する非同期性指標変換関数を生成することを特徴とする。

また本発明は、変換対象の話者の音声を変換目標の話者の音声に変換する音声変換装置が音声を変換する音声変換方法であって、
変換対象の話者の母音の音声と変換目標の話者の母音の音声とに基づいて、変換対象の話者の音声を変換目標の話者の音声に変換するための個別変換関数を母音ごとに生成する生成ステップを含むことを特徴とする音声変換方法である。

本発明によれば、生成部によって、変換対象の話者の母音の音声と変換目標の話者の母音の音声とに基づいて、変換対象の話者の音声を変換目標の話者の音声に変換するための個別変換関数が母音ごとに生成される。

したがって、音声の特徴点を抽出する手作業なしに、極めて少ない学習用のデータに基づいて、ある話者によって話された音声を、その話者以外の話者によって話されたような高い品質を有する音声に変換することができる。

また本発明によれば、前記生成部によって、前記母音ごとの個別変換関数を生成した後、生成した母音ごとの個別変換関数を合成して変換対象の話者の音声を変換目標の話者の音声に変換する実行時変換関数を生成するための変換関数合成用汎関数が生成される。

したがって、音声の特徴点を抽出する手作業なしに、変換対象の話者の音声を変換目標の話者の音声に変換する実行時変換関数を生成するための変換関数合成用汎関数を、個別変換関数とともに生成することができる。

また本発明によれば、変換部によって、前記生成部で生成された前記母音ごとの個別変換関数および前記変換関数合成用汎関数を含む変換関数に基づいて前記実行時変換関数が生成され、生成された実行時変換関数を用いて、変換対象の話者の音声が変換目標の話者の音声に変換される。

したがって、変換対象の話者の音声を入力するだけで、生成部によって生成された個別変換関数および変換関数合成用汎関数を用いて実行時変換関数し、生成した実行時変換関数を用いて、変換対象の話者の音声を変換目標の話者の音声に変換することができる。

また本発明によれば、前記生成部によって、前記母音ごとの個別変換関数として、変換対象の話者の音声と変換目標の話者の音声との周波数軸の対応関係に基づいて周波数軸を変換する周波数軸変換関数、周波数軸変換関数によって変換された周波数軸の上でのスペクトル包絡の概形の違いを少なくするように変換するスペクトル概形変換関数、および音声の中の周期的な成分と非周期的な成分との割合を示す非周期性指標を変換する非同期性指標変換関数が生成される。

したがって、周波数軸、スペクトル概形および非周期性指標を勘案した個別変換関数とすることができる。

また本発明によれば、変換対象の話者の音声を変換目標の話者の音声に変換する音声変換装置が音声を変換するにあたって、生成ステップでは、変換対象の話者の母音の音声と変換目標の話者の母音の音声とに基づいて、変換対象の話者の音声を変換目標の話者の音声に変換するための個別変換関数を母音ごとに生成する。

本発明の一実施形態である音声変換装置１の構成を示すブロック図である。個別変換関数３０の構成を示す図である。学習部１０が個別変換関数を設計する個別変換関数設計処理手順を示す図である。変換関数生成部１３が実行する周波数軸変換関数を設計する周波数軸変換関数設計処理手順を示す図である。変換関数生成部１３が実行するスペクトル概形変換関数を設計するスペクトル概形変換関数設計処理手順を示す図である。変換関数生成部１３が実行する非周期性指標変換関数を設計する非周期性指標変換関数設計処理手順を示す図である。変換関数生成部１３が実行する変換関数合成用汎関数を設計する変換関数合成用汎関数設計処理手順を示す図である。実行部２０が実行する第１の音声合成処理手順を示す図である。個別変換関数３０、変換関数合成用汎関数４０および実行用合成変換関数５０の関係を示す図である。実行部２０が実行する第２の音声合成処理手順を示す図である。目標話者の母音ごとの音声波形の一例を示す図である。対象話者の音声波形の一例を示す図である。目標話者および対象話者について同一カテゴリに属する母音間の距離と、異なったカテゴリに属する母音間の距離との分布を示す図である。各母音について上位３個の母音区間の平均として求めた母音テンプレートの一例を示す図である。対象話者と目標話者との母音テンプレートに共通する特性の違いを示す図である。エラーレベルを用いた評価結果を示す図である。誤判断の確率の求め方を説明するための図である。

図１は、本発明の一実施形態である音声変換装置１の機能の構成を示すブロック図である。本発明に係る音声変換方法は、音声変換装置１によって実行される。音声変換装置１は、後述する変換関数を用いて、変換対象の話者の音声（以下「変換対象音声」という）を、変換目標の話者の音声（以下「変換目標音声」という）に変換する装置である。厳密には、変換対象の話者の音声を、変換目標の話者の音声を模した疑似音声に変換することであるが、本願では、変換対象の話者の音声を変換目標の話者の疑似音声に変換することを、単に変換対象の話者の音声を変換目標の話者の音声に変換するという。

音声変換装置１は、たとえば中央処理装置（以下「ＣＰＵ」という）および記憶装置を含むパーソナルコンピュータなどの従来の技術による図示しないコンピュータによって構成される。音声変換装置１は、コンピュータの他に、キーボードおよびマウスなどの図示しない入力装置、液晶ディスプレイなどの図示しない表示装置、マイクロフォンなどの図示しない音声入力装置、およびスピーカなどの図示しない音声出力装置を含んで構成される。

入力装置は、入力された情報をＣＰＵに送り、表示装置は、ＣＰＵから指示される情報を表示する。音声入力装置は、マイクロフォンから入力された音声のアナログ信号をデジタル信号に変換し、変換したデジタル信号を音声データとしてＣＰＵに送るアナログデジタル変換器を含む。音声出力装置は、ＣＰＵから受け取る音声データのデジタル信号をアナログ信号に変換するデジタルアナログ変換器、およびデジタルアナログ変換器で変換されたアナログ信号を増幅してスピーカから出力させる増幅器を含む。

音声変換装置１は、学習部１０および実行部２０を含んで構成される。学習部１０および実行部２０は、ＣＰＵが記憶装置に記憶されるプログラムを実行することによって実現される機能である。記憶装置は、たとえば半導体メモリあるいはハードディスク装置によって構成され、ＣＰＵで実行されるプログラム、およびＣＰＵが学習部１０および実行部２０の機能を実現するために用いる情報を記憶する。記憶装置に記憶される情報は、ＣＰＵによって書き込みおよび読み出しが行われる。

音声変換装置１は、変換対象音声から変換目標音声への変換を、学習部１０によって実行される学習段階、および実行部２０によって実行される実行段階の２つの段階で行う。生成ステップである学習段階では、学習部１０は、変換対象の話者（以下「対象話者」という）が発声する５つの母音、つまり「あ」、「い」、「う」、「え」および「お」の母音の音声データと、変換目標の話者（以下「目標話者」という）が発声する５つの母音の音声データとから個別変換関数を生成するとともに、生成した個別変換関数から、実行時に用いる実行時変換関数を合成するための変換関数合成用汎関数を生成する。また、個別変換関数の生成に用いた母音の変換対象音声のスペクトル包絡から、実行時変換関数の生成に用いる母音テンプレートも生成する。

スペクトル包絡は、音声を分析することによって求められるパラメタであり、音声のパワースペクトルに含まれる周期性などの音源の性質に起因する微細な構造を取り除いたものである。母音テンプレートは、「あ」、「い」、「う」、「え」および「お」などの、それぞれの母音カテゴリに属する音声から求められたスペクトル包絡を代表する情報表現である。具体的には、たとえば、同一の母音カテゴリに属する音声から求められたスペクトル包絡の平均値を用いてもよい。さらに、この平均値からＭＦＣＣを求めたものを母音テンプレートとして用いてもよい。音声変換装置１では、この母音テンプレートの求め方にも特徴がある。ＭＦＣＣは、音声認識で良く用いられるパラメタである。

実行段階では、実行部２０は、対象話者の音声が入力装置から入力され、アナログデジタル変換器でデジタル信号に変換された変換対象音声の音声データから、変換対象音声のスペクトル包絡を求める。そして、求めたペクトル包絡と学習段階で生成された母音テンプレートとの類似度を計算し、計算した類似度に基づいて、学習段階でそれぞれの母音に対して生成された個別変換関数に含まれる後述する母音変換関数を、変換関数合成用汎関数を用いて合成して、実行時変換関数を生成する。さらに、合成された実行時変換関数を用いて、変換対象音声のスペクトル包絡を変換し、変換したスペクトル包絡と、変換した基本周波数および変換した非周期性指標を用いて、変換目標音声を合成する。

基本周波数および非周期性指標は、スペクトル包絡の変換と同時に、分析フレームごとに変換される。分析フレームは、分析によって、様々な時刻において求められた音声パラメタを指定するために付与される通し番号によって認識されるフレームのことである。通常は、音声の分析は、一定周期、たとえば５ｍｓの周期で行われており、通し番号は、分析を開始したときから、１回の分析ごとに１ずつ増加される。一定の周期ではなく、不均一な時間間隔で分析が行われることもある。分析フレームという用語は、その通し番号で指定された時刻における音声パラメタを指定するために用いられることもある。非周期性指標は、音声の中の周期的な成分と非周期的な成分との割合を示す。

図２は、個別変換関数３０の構成を示す図である。個別変換関数３０は、母音変換関数３１と基本周波数変換関数３９とによって構成される。母音変換関数３１は、母音ごとに生成される母音別変換関数３２、具体的には母音／ａ／用変換関数３２ａ、母音／ｉ／用変換関数３２ｉ、母音／ｕ／用変換関数３２ｕ、母音／ｅ／用変換関数３２ｅおよび母音／ｏ／用変換関数３２ｏを含む。各母音別変換関数３２は、周波数軸変換関数３３、スペクトル概形変換関数３４および非周期性指標変換関数３５を含む。

周波数軸変換関数３３は、変換対象音声と変換目標音声との周波数軸の対応関係に基づいて周波数軸を変換する関数である。スペクトル概形変換関数３４は、変換された周波数軸の上でのスペクトル包絡の概形の違いを少なくするように変換する関数である。非周期性指標変換関数３５は、音声の中の周期的な成分と非周期的な成分との割合を示す非周期性指標を変換するための関数である。基本周波数変換関数３９は、それぞれの話者の基本周波数の平均値、および平均値のまわりの標準偏差の違いを変換するための関数である。

図１を参照して、生成部である学習部１０は、変換対象音声パラメタ抽出部１１、変換目標音声パラメタ抽出部１２および変換関数生成部１３を含んで構成される。変換部である実行部２０は、音声分析部２１、実行用合成変換関数生成部２２および変換音声合成部２３を含んで構成される。

変換対象音声パラメタ抽出部１１は、変換対象音声の母音の音声データから変換対象音声の音声パラメタを抽出し、抽出した変換対象音声の音声パラメタを変換関数生成部１３に送る。変換目標音声パラメタ抽出部１２は、変換目標音声の母音の音声データから変換目標音声の音声パラメタを抽出し、抽出した変換目標音声の音声パラメタを変換関数生成部１３に送る。変換関数生成部１３は、変換対象音声パラメタ抽出部１１からの変換対象音声の音声パラメタ、および変換目標音声パラメタ抽出部１２からの変換目標音声の音声パラメタに基づいて、個別変換関数および変換関数合成用汎関数、ならびに母音テンプレートを生成する。

音声分析部２１は、入力装置から入力される変換対象となる話者の音声の音声データを分析し、音声パラメタを生成する。実行用合成変換関数生成部２２は、音声分析部２１で生成された音声パラメタに基づいて、変換関数生成部１３で生成された母音変換関数を、変換関数生成部１３で生成された変換関数合成用汎関数を用いて合成して、実行時変換関数を生成する。変換音声合成部２３は、実行用合成変換関数生成部２２で生成された実行時変換関数（以下「実行用合成変換関数」ともいう）を用いて、変換対象音声のスペクトル包絡を変換し、変換したスペクトル包絡と、変換した基本周波数および変換した非周期性指標を用いて、変換目標音声を合成する。

図３は、学習部１０が個別変換関数を設計する個別変換関数設計処理手順を示す図である。入力装置から学習段階を実行する指示があると、処理Ａ１に移る。処理Ａ１では、変換対象音声パラメタ抽出部１１は、学習のための変換対象音声の母音の音声データをアナログデジタル変換器から取得する。処理Ａ２では、変換対象音声パラメタ抽出部１１は、取得した変換対象音声の母音の音声データから、変換対象音声の音声パラメタ（図３では「パラメタ」と記す）を抽出する。

本実施例では、音声パラメタは、ＴＡＮＤＥＭ−ＳＴＲＡＩＧＨＴ（特許文献２，非特許文献３参照）によって求められるパラメタである。この場合、音声パラメタは、スペクトル包絡、基本周波数、および非同期性指標の三種類から構成されている。スペクトル包絡は、分析時刻における周波数ごとのパワーとして、基本周波数は、分析時刻における周波数を表す数値として、非同期性指標は、分析時刻における周波数ごとの周期成分と非周期成分との割合として表わされる。処理Ａ３では、変換対象音声パラメタ抽出部１１は、取得した変換対象音声の母音の音声データから、変換対象音声のラベル情報を生成する。

ラベル情報は、それぞれの話者の発した音声の母音の区間と、その区間における母音の種類とを表す情報である。区間は、各母音の音声が継続している区間である。母音の種類は、「あ」、「い」、「う」、「え」および「お」の母音の種類のうちいずれであるかを示す情報であり、たとえば母音「あ」のラベル情報は「ａ」であり、母音「い」のラベル情報は「ｉ」であり、母音「う」のラベル情報は「ｕ」であり、母音「え」のラベル情報は「ｅ」であり、母音「お」のラベル情報は「ｏ」である。このラベル情報は、操作者が入力装置によって手作業で付与する場合と、音声認識プログラムを用いて自動的に付与される場合とがある。発声内容が予め分かっている場合には、音声認識プログラムの機能を用いて、発声内容の母音情報と、音声信号との対応付けを行うことは、それらの情報がない状態で音声認識を行うよりも、はるかに容易な問題であり、信頼性も高い。

処理Ａ４では、変換目標音声パラメタ抽出部１２は、学習のための変換目標音声の母音の音声データをアナログデジタル変換器から取得する。処理Ａ５では、変換目標音声パラメタ抽出部１２は、取得した変換目標音声の母音の音声データから、変換目標音声の音声パラメタを抽出する。処理Ａ６では、変換目標音声パラメタ抽出部１２は、取得した変換目標音声の母音の音声データから、変換目標音声のラベル情報を生成し、生成したラベル情報を記憶装置に記憶する。

処理Ａ７では、変換関数生成部１３は、抽出された変換対象音声の音声パラメタおよび変換目標音声の音声パラメタ、ならびに変換対象音声のラベル情報および変換目標音声のラベル情報に基づいて、個別変換関数と音声テンプレートとを設計つまり生成する。以下同様に生成することを、設計するともいう。変換関数生成部１３は、個別変換関数の設計では、周波数軸変換関数、スペクトル概形変換関数、非周期性指標変換関数、基本周波数変換関数および変換関数合成用汎関数を設計する。これらの関数の設計および音声テンプレートの設計については後述する。処理Ａ８では、変換関数生成部１３は、設計した個別変換関数を記憶装置に記憶し、そして、処理Ａ９では、変換関数生成部１３は、設計した音声テンプレートを記憶装置に記憶し、個別変換関数設計処理手順を終了する。

図４は、変換関数生成部１３が実行する周波数軸変換関数を設計する周波数軸変換関数設計処理手順を示す図である。周波数軸変換関数は、対象話者の母音の周波数軸を、目標話者の母音の周波数軸に対応づける関数である。周波数軸変換関数設計処理手順は、図３の処理Ａ７で実行される。

処理Ｂ１では、変換関数生成部１３は、周波数軸変換関数の初期値を設定する。具体的には、周波数軸変換関数を規定するパラメタの初期値つまり関数に含まれる係数の初期値を設定する。
処理Ｂ２では、変換関数生成部１３は、周波数軸変換関数の初期値を用いて、周波数軸変換関数候補を設定する。すなわち、周波数軸変換関数候補は、設定した初期値を代入した関数である。

処理Ｂ３では、変換関数生成部１３は、図３に示した処理Ａ２，Ａ５と同様に、ＴＡＮＤＥＭ−ＳＴＲＡＩＧＨＴ（特許文献２，非特許文献３参照）によって、対象話者の母音の音声データから、対象話者の母音のスペクトル包絡を求める。スペクトル包絡は、求められた音声パラメタを構成する要素の１つである。
処理Ｂ４では、変換関数生成部１３は、記憶装置から変換対象音声のラベル情報を読み出す。処理Ｂ５では、変換関数生成部１３は、目標話者の母音の音声データから、目標話者の母音のスペクトル包絡を求める。処理Ｂ６では、変換関数生成部１３は、記憶装置から目標話者のラベル情報を読み出す。

処理Ｂ７では、変換関数生成部１３は、変換対象音声のすべての分析フレームについて、変換対象音声のラベル情報が示す母音に対応する周波数軸変換関数候補を選択する。そして、選択した周波数軸変換関数候補を用いて、対象話者の母音のスペクトル包絡を、目標話者の母音の周波数軸の上のスペクトル包絡に変換する。すなわち、対象話者の母音の周波数軸を目標話者の母音の周波数軸にあわせる。

処理Ｂ８では、変換関数生成部１３は、変換対象音声および変換目標音声のラベル情報に基づいて、同じ母音に属する目標話者の母音スペクトル包絡（以下「目的母音スペクトル包絡」という）と、対象話者の母音スペクトル包絡（以下「対象母音スペクトル包絡」という）を処理Ｂ７によって変換した母音スペクトル包絡との間のスペクトル距離を計算し、さらにその距離をすべての母音について総合した総合スペクトル距離を求める。

処理Ｂ９では、変換関数生成部１３は、求められた総合スペクトル距離が、周波数軸変換関数を規定するパラメタについての最小値である場合は、周波数軸変換関数候補の更新を終了し、最小値に対応する周波数軸変換関数候補を、学習されたパラメタを設計値とする周波数変換関数として決定する。たとえば、周波数軸変換関数を規定するパラメタの値を様々に変えて、それぞれの場合に総合スペクトル距離を計算し、それらを比較することによって、最小値を求める。パラメタの次元数が多い場合には、ｓｉｍｐｌｅｘ法など、広く用いられている非線形最適化計算アルゴリズムを用いることによって、最小値を求めることができる。

具体例として、たとえばパラメタの値に、微小な乱数を加えたものを、新たなパラメタの値として総合スペクトル距離を求めることを、パラメタの次元数だけの回数繰り返し、いずれの場合にも求められた総合スペクトル距離が、元の総合スペクトル距離よりも小さくならない場合に、そのパラメタの値が総合スペクトル距離の最小値を与えるパラメタとなる。

学習されたパラメタとは、最小値である場合のパラメタである。また、変換関数生成部１３は、音声テンプレートも設計する。音声テンプレートの設計については、後述する。

求められた総合スペクトル距離が、周波数軸変換関数を規定するパラメタについての最小値でない場合は、周波数軸変換関数を規定するパラメタを変更し、周波数変換関数個補を更新し、処理Ｂ２に戻る。たとえば最小値でない場合には、総合スペクトル距離をより小さくするような、乱数で生成されたパラメタが少なくとも１つあることになる。そのパラメタの中で、最も総合スペクトル距離を小さくするものを用いてパラメタを更新する。
処理Ｂ１０では、変換関数生成部１３は、学習された周波数軸変換関数を記憶装置に記憶し、そして、処理Ｂ１１では、変換関数生成部１３は、設計された音声テンプレートを記憶装置に記憶し、周波数軸変換関数設計処理手順を終了する。

ある母音ｘの周波数軸変換関数Ｔ^（ｆ） _Ｖ：ｘは、式（１）で表される。ここで、対象話者の周波数軸上の周波数をｆ^{（ｓｒｃ）}と表し、目標話者の周波数軸上の周波数をｆ^{（ｔｇｔ）}と表す。

周波数軸変換関数Ｔ^（ｆ） _Ｖ：ｘの具体例としては、式（２）のような直交関数による展開を用いる。式（２）を用いることによって、周波数軸の対応関係が、一意で単調増加であることが保証される。

初期値としては、恒等関数を用いる。すなわち、パラメタａ_ｋおよびｂ_ｋを、変数ｋ＝０,１，……,Ｍについて、すべて「０」と置く。Ｍの値としては、「１」または「２」を用いる。ｆ_Ｌとｆ_Ｕは、注目する周波数範囲を表している。具体的には、ｆ_Ｌは、０Ｈｚ、ｆ_Ｕは、標本化周波数の半分の周波数が相当する。ｇ（ｆ）は、聴覚特性に近づけるための関数であり、ｇ⁻¹（λ）は、その逆関数である。具体的には人間の聴覚末梢系における周波数分解能に基づいて作られたＥＲＢ_Ｎｎｕｍｂｅｒ（非特許文献「B.C.J.
Moore:“An introduction to psychology of hearing, 5th edition”,
Academic Press,San Diego, CA (2003).（邦訳は「聴覚心理学概論」ただし、第三版の訳）」）を用いる。周波数軸をＥＲＢ_Ｎｎｕｍｂｅｒを用いて非線形変換してｆ_ＥＲＢとすると、ｆ_ＥＲＢは、周波数ｆの関数として式（３）のように表される。

この周波数軸変換関数を用いて変換したスペクトル包絡の間の距離が最小となるように、パラメタａ_ｋおよびｂ_ｋを更新する。具体的には、ある方法Ｍｎに基づくスペクトル包絡の間の距離をｄ_Ｍｎ（Ｐ_１（ｆ）,Ｐ_２（ｆ））としたとき、式（４）によって周波数軸を変換した場合のスペクトル包絡の間の距離を求める。

方法Ｍｎとして、以下のようにして求められる周波数平滑化された重み付き対数スペクトル距離ｄ_ＷｄＢを用いる。この距離を人間の聴覚的印象に更に近づけるために、聴覚の周波数分解能に基づく、周波数平滑化を加える。これは、周波数軸をＥＲＢ_Ｎｎｕｍｂｅｒを用いて非線形変換してパワースペクトルを表現し、その上で平滑化関数を用いて平滑化し、その後で対数スペクトルに変換することによって実現する。ＳＴＲＡＩＧＨＴ（特許文献２および非特許文献３参照）によって求められたパワースペクトルＰ_ＴＳＴ（ｆ）を、式（５）によって、ＥＲＢ_Ｎｎｕｍｂｅｒ軸上の平滑化された対数スペクトルＰ_ＬＳ（ｆ_ＥＲＢ）に変換する。ここでは、ｄＢを用いて対数スペクトルを表すことにする。

なお、平滑化関数ｈ（λ）は、式（６）で表わされ、正規化されているものとする。

この平滑化関数の第一次近似として、式（７）のように、幅がＥＲＢ_Ｎｎｕｍｂｅｒ軸上で「１」である矩形の関数を用いる。

また、第二次近似としては、式（８）のように、底辺が「２」の長さの二等辺三角形を用いる。

ここでは、第二近似のｈ_２（λ）を用いる。

重み付き対数スペクトル距離ｄ_ＷｄＢ（Ｐ_１（ｆ）,Ｐ_２（ｆ））は、このようにしてＰ_１（ｆ）とＰ_２（ｆ）とを、ＥＲＢ_Ｎｎｕｍｂｅｒ軸上での平滑化された対数スペクトルに変換されたものを、それぞれＰ_ＬＳ１（ｆ_ＥＲＢ）とＰ_ＬＳ２（ｆ_ＥＲＢ）と表すと、式（９）のように計算される。ｆ_ＵＥＲＢおよびｆ_ＬＥＲＢは、距離を評価する周波数の上限および下限をＥＲＢ_Ｎｎｕｍｂｅｒを用いて表したものである。これらの周波数の値としては、たとえば、４０００Ｈｚと４００Ｈｚとをそれぞれに用いる。

総合スペクトル距離は、評価に用いられた重み付き対数スペクトル距離ｄ_ＷｄＢ（Ｐ_１（ｆ）,Ｐ_２（ｆ））を、平均したものになる。ｄ_Ｍｎという書き方は、様々な距離の求め方を一般的に表すための説明に用いた書き方である。この具体例では、ｄ_ＷｄＢ（Ｐ_１（ｆ）,Ｐ_２（ｆ））だけを用いているので、ｄ_Ｍｎを用いることは、必ずしも必要ではい。このような書き方を行ったのは、ｄ_ＷｄＢの代わりにＭＦＣＣに基づく距離を用いても、同じ形式で議論が可能であるからである。すなわち、その場合には、ｄ_ＷｄＢの代わりにＭＦＣＣに基づく距離を用いても、全く同じ手順で最適化を行うことができる。

図５は、変換関数生成部１３が実行するスペクトル概形変換関数を設計するスペクトル概形変換関数設計処理手順を示す図である。スペクトル概形変換関数は、対象話者の母音のスペクトル概形を、目標話者の母音のスペクトル概形に変換する関数である。スペクトル概形は、スペクトル包絡の概形のことである。スペクトル概形変換関数設計処理手順は、図３の処理Ａ７で実行される。

処理Ｃ１では、変換関数生成部１３は、スペクトル概形変換関数を規定するパラメタの初期値を設定する。処理Ｃ２では、変換関数生成部１３は、スペクトル概形変換関数の初期値を用いて、スペクトル概形変換関数候補を設定する。処理Ｃ３では、変換関数生成部１３は、対象話者の母音の音声データから、対象話者の母音のスペクトル包絡を求める。スペクトル包絡の求め方は、周波数軸変換関数の場合と同じ求め方である。

処理Ｃ４では、変換関数生成部１３は、記憶装置から変換対象音声のラベル情報を読み出す。処理Ｃ５では、変換対象音声のラベル情報が示す母音に対応する周波数軸変換関数を選択する。処理Ｃ６では、変換関数生成部１３は、目標話者の母音の音声データから、目標話者の母音のスペクトル包絡を求める。処理Ｃ７では、変換関数生成部１３は、記憶装置から目標話者のラベル情報を読み出す。

処理Ｃ８では、変換関数生成部１３は、変換対象音声のすべての分析フレームについて、変換対象音声のラベル情報が示す母音に対応する周波数軸変換関数を用いて、対象話者の母音のスペクトル包絡を、目標話者の母音の周波数軸の上のスペクトル包絡に変換する。そして、変換されたスペクトル包絡に含まれるスペクトル概形成分を、変換対象音声のラベル情報が示す母音に対応するスペクトル概形変換関数候補を用いて変換することによって、スペクトル概形を変換したスペクトル包絡に変換する。

処理Ｃ９では、変換関数生成部１３は、変換対象音声および変換目標音声のラベル情報に基づいて、同じ母音に属する目的母音スペクトル包絡と対象母音スペクトル包絡との間のスペクトル距離を計算し、さらにその距離をすべての母音について総合した総合スペクトル距離を求める。

処理Ｃ１０では、変換関数生成部１３は、求められた総合スペクトル距離が、スペクトル概形変換関数を規定するパラメタについての最小値である場合は、スペクトル概形変換関数候補の更新を終了し、最小値に対応するスペクトル概形変換関数候補を、学習されたパラメタを設計値とするスペクトル概形変換関数として決定する。求められた総合スペクトル距離が、スペクトル概形変換関数を規定するパラメタについての最小値でない場合は、スペクトル概形変換関数を規定するパラメタを変更し、スペクトル概形変換関数候補を更新し、処理Ｃ２に戻る。処理Ｃ１１では、変換関数生成部１３は、決定したスペクトル概形変換関数を記憶装置に記憶し、スペクトル概形変換関数設計処理手順を終了する。

あるスペクトルＰ（ｆ）のスペクトル概形Ｐ_Ｓ（ｆ）は、ＳＴＲＡＩＧＨＴによって求められた音声のスペクトル包絡から計算される平滑化対数スペクトルＰ_ＬＳ（ｆ_ＥＲＢ）をコサイン級数に展開したものの、低次の係数から構成される。まず、展開係数ｐ_ｋを求める。ｋを、「０」からたとえば「７」までの整数とし、合計８つの係数ｐ_ｋを式（１０）によって求める。

このｐ_ｋを用いて、スペクトル概形Ｐ_Ｓ（ｆ）は、式（１１）のように求められる。

スペクトル概形の変換関数の初期値は、周波数軸を変換した対象話者のスペクトル概形Ｐ_Ｓ ^{（ｓｒｃ）}（Ｔ^（ｆ） _Ｖ：ｘ（ｆ））と、目標話者のスペクトル概形Ｐ_Ｓ ^{（ｔｇｔ）}（ｆ）との差で与えられる。この概形の変換関数を表すパラメタｐ_ｋ ^{（ｃｎｖ）}は、式（１２）によって、それぞれの展開係数の差で与えられる。

すなわち、スペクトル概形変換関数は、式（１１）の展開係数ｐ_ｋに式（１２）のパラメタｐ_ｋ ^{（ｃｎｖ）}を代入したものである。

図６は、変換関数生成部１３が実行する非周期性指標変換関数を設計する非周期性指標変換関数設計処理手順を示す図である。非周期性指標変換関数は、対象話者の母音の非周期性指標を目標話者の母音の非周期性指標に変換する関数である。非周期性指標変換関数設計処理手順は、図３の処理Ａ７で実行される。

処理Ｄ１では、変換関数生成部１３は、非周期性指標変換関数を規定するパラメタの初期値を設定する。処理Ｄ２では、変換関数生成部１３は、非周期性指標変換関数の初期値を用いて、非周期性指標変換関数候補を設定する。処理Ｄ３では、変換関数生成部１３は、対象話者の母音の音声データから、対象話者の母音の非周期性指標を求める。非周期性指標は、ＴＡＮＤＥＭ−ＳＴＲＡＩＧＨＴ（特許文献２，非特許文献３参照）による分析によって求める。

処理Ｄ４では、変換関数生成部１３は、記憶装置から変換対象音声のラベル情報を読み出す。処理Ｄ５では、変換対象音声のラベル情報が示す母音に対応する周波数軸変換関数を選択する。処理Ｄ６では、変換関数生成部１３は、目標話者の母音の音声データから、目標話者の母音の非周期性指標を求める。処理Ｄ７では、変換関数生成部１３は、記憶装置から目標話者のラベル情報を読み出す。

処理Ｄ８では、変換関数生成部１３は、変換対象音声のすべての分析フレームについて、変換対象音声のラベル情報が示す母音に対応する周波数軸変換関数を用いて、対象話者の母音の非周期性指標を、目標話者の母音の周波数軸の上の非周期性指標に変換した後、変換された非周期性指標を、変換対象音声のラベル情報が示す母音に対応する非周期性指標変換関数候補を用いて、さらに変換する。

処理Ｃ９では、変換関数生成部１３は、変換対象音声および変換目標音声のラベル情報に基づいて、同じ母音に属する目標話者の非周期性指標（以下「目的母音非周期性指標」という）と、対象話者の母音の変換された非周期性指標（以下「対象母音非周期性指標」という）との間の非周期性指標距離を計算し、さらにその距離をすべての母音について総合した総合非周期性指標距離を求める。非周期性指標距離および総合非周期性指標距離の求め方は、後述する。

処理Ｄ１０では、変換関数生成部１３は、求められた総合非周期性指標距離が、非周期性指標変換関数を規定するパラメタについての最小値である場合は、非周期性指標変換関数候補の更新を終了し、最小値に対応する非周期性指標変換関数候補を、学習されたパラメタを設計値とする非周期性指標変換関数として決定する。求められた総合非周期性指標距離が、非周期性指標変換関数を規定するパラメタについての最小値でない場合は、非周期性指標変換関数を規定するパラメタを変更し、非周期性指標変換関数候補を更新し、処理Ｄ２に戻る。処理Ｄ１１では、変換関数生成部１３は、決定した非周期性指標変換関数を記憶装置に記憶し、非周期性指標変換関数設計処理手順を終了する。

非周期性指標Ａ_Ｐ（ｆ）は、それぞれの周波数における非周期成分のパワーＰ_{ａｐｅｒｉｏｄｉｃ}（ｆ）が、その周波数におけるパワーＰ（ｆ）のどれだけを占めるかを表す指標であり、ｄＢを用いて、式（１３）のように定義されている。非周期性指標は、たとえばＳＴＲＡＩＧＨＴによって求められる。

非周期性指標変換関数Ｔ_ＡＰの初期値は、式（１４）によって、周波数軸を変換した対象話者の非周期性指標Ａ_Ｐ ^{（ｓｒｃ）}（Ｔ^（ｆ） _Ｖ：ｘ（ｆ））と、目標話者の非周期性指標Ａ_Ｐ ^{（ｔｇｔ）}（ｆ）との差で与えられる。

非周期性指標変換関数Ｔ_ＡＰは、式（１４）によって表される。実際には、この差を、スペクトル概形の場合と同じようにＥＲＢ_Ｎ軸上でコサイン級数に展開し、その係数の差を初期値とするのが、１つの実現形態になる。
非周期性指標距離は、式（１５）によって与えられる。

総合非周期性指標距離は、それぞれの評価に用いられたフレーム同士の非周期性指標距離を平均したものとして求める。

基本周波数の変換は、基本周波数の対数の平均値と標準偏差とに基づいて行われる。ｖ_０ ^{（ｓｒｃ）}（ｔ）を、対象話者の基本周波数の対数、ｖ_０ ^{（ｔｇｔ）}（ｔ）を、目標話者の基本周波数の対数とする。それぞれ、対象話者の基本周波数ｆ_０ ^{（ｓｒｃ）}（ｔ）と、目標話者の基本周波数ｆ_０ ^{（ｔｇｔ）}（ｔ）から、式（１６），（１７）によって定義される。

ｖ〜_０ ^{（ｓｒｃ）}を、対象話者の基本周波数の対数の平均値、ｖ〜_０ ^{（ｔｇｔ）}を、目標話者の基本周波数の対数の平均値とする。また、σ_ｖ０ ^{（ｓｒｃ）}を、対象話者の基本周波数の対数の標準偏差、σ_ｖ０ ^{（ｔｇｔ）}を、目標話者の基本周波数の対数の標準偏差とする。基本周波数変換関数は、式（１８）で表わされる。基本周波数変換関数は、対象話者の基本周波数の対数を、式（１８）によって変換し、変換された基本周波数の対数_０ ^{（ｃｎｖ）}（ｔ）を求める。

変換された基本周波数ｆ_０ ^{（ｃｎｖ）}（ｔ）は、この変換された基本周波数の対数_０ ^{（ｃｎｖ）}（ｔ）から、式（１９）によって求められる。

混合割合を指定するパラメタをｒとすると、この変換関数を用いて、指定した混合割合で変換した基本周波数の対数ｖ_０ ^{（ｍｒｐ）}（ｔ,ｒ）は、式（２０）で求められる。

ｒが「０」の場合には、対象話者の基本周波数の対数がそのまま用いられ、ｒが「１」の場合には、変換関数によって変換された基本周波数の対数が用いられることになる。それ以外の場合には、ｒの値に基づいて、内挿あるいは外挿した値となる。

指定した混合割合で変換した基本周波数ｆ_０ ^{（ｍｒｐ）}（ｔ,ｒ）は、このｖ_０ ^{（ｍｒｐ）}（ｔ,ｒ）から、式（２１）で求められる。

基本周波数変換関数は、実行時にフレームごとに音声パラメタを変換する場合の合成変換関数を求める際に用いる。実行時にフレームごとに基本周波数を変換する際には、変換関数合成用汎関数の入力である変換割合指定の値ｒに基づいて、式（２０）の形に変えて用いる。

図７は、変換関数生成部１３が実行する変換関数合成用汎関数を設計する変換関数合成用汎関数設計処理手順を示す図である。変換関数合成用汎関数は、対象話者の音声の音声パラメタの入力の値に基づいて、音声パラメタを変換するために用いられる三種類の変換関数を合成する汎関数である。対象話者の音声の音声パラメタの入力は、対象話者の音声を分析することによって求められるものである。実行時には、図８に示した処理Ｆ３であり、汎関数の設計時には、図７に示した処理Ｅ３が入力に相当する。
三種類の変換関数とは、周波数軸変換関数、スペクトル概形変換関数および非周期性指標変換関数のことである。変換関数合成用汎関数設計処理手順は、図３の処理Ａ７で実行される。

変換関数合成用汎関数は、個別変換関数を合成することで、対象話者の音声を、目標話者の音声に近づけることを目的として、対象話者の音声の母音テンプレートと入力された対象話者の音声のスペクトルとの類似度を求める関数のパラメタを設計する。個別変換関数を合成するとは、具体的には、入力された対象話者の音声のスペクトルと、対象話者の音声の母音テンプレートとの類似度に基づいて、変換関数を規定するパラメタの値を補間することである。

対象話者の音声が、目標話者の音声に近づいたか否かを判定するための、分布類似度の計算においては、汎関数を用いて合成された変換関数により変換された対象話者の音声のスペクトルと、目標話者の母音テンプレートとの距離の分布を利用する。具体的には、変換された対象話者の音声のスペクトルと、その音声のフレームに付されている母音のラベル情報と同じカテゴリである目標話者の母音テンプレートとのスペクトル距離の分布と、その音声のフレームに付されている母音のラベル情報と異なったカテゴリである目標話者の母音テンプレートとのスペクトル距離の分布とが交差する点における確率、すなわち、誤り率に相当する確率が、最も小さくなるように、対象音声の母音テンプレートと入力された対象音声のスペクトルとの類似度を求める関数のパラメタを設計するのである。対象音声の母音テンプレートと入力された対象音声のスペクトルとの類似度を求める関数は、母音カテゴリごとに求められる。

処理Ｅ１では、変換関数生成部１３は、変換関数合成用汎関数を規定するパラメタの初期値を設定する。処理Ｅ２では、変換関数生成部１３は、変換関数合成用汎関数の初期値を用いて、変換関数合成用汎関数候補を設定する。処理Ｅ３では、変換関数生成部１３は、対象話者の母音の音声データから、対象話者の母音のスペクトル包絡を求める。処理Ｅ４では、変換関数生成部１３は、記憶装置から、個別変換関数を読み出す。処理Ｅ５では、変換関数生成部１３は、読み出した個別変換関数を、設定した変換関数合成用汎関数候補を用いて合成し、合成した変換関数を用いて、目標話者の母音のスペクトル包絡を変換する。

処理Ｅ６では、変換関数生成部１３は、目標話者の母音の音声データから、目標話者の母音のスペクトル包絡を求める。処理Ｅ７では、変換関数生成部１３は、記憶装置から目標話者のラベル情報を読み出す。処理Ｅ８では、変換関数生成部１３は、記憶装置から変換対象音声のラベル情報を読み出す。

処理Ｅ９では、変換関数生成部１３は、変換対象音声のラベル情報が示す母音に対応する対象話者のスペクトル包絡の距離分布、および変換目標音声のラベル情報が示す母音に対応する変換された目標話者の母音のスペクトル包絡の距離分布を計算する。スペクトル包絡の距離分布については、後述する。処理Ｅ１０では、変換関数生成部１３は、対象話者のスペクトル包絡の距離分布と、目標話者の母音のスペクトル包絡の距離分布との類似度である分布類似度を計算する。

処理Ｅ１１では、変換関数生成部１３は、計算された分布類似度に基づいて、変換関数合成用汎関数候補の更新を終了するか継続するかを判定する。し、変換関数合成用汎関数候補の更新を終了するときは、計算された分布類似度に対応する変換関数合成用汎関数候補を、学習されたパラメタを設計値とする変換関数合成用汎関数として決定する。変換関数合成用汎関数候補の更新を継続するときは、変換関数合成用汎関数を規定するパラメタを変更して、変換関数合成用汎関数候補を更新し、処理Ｅ２に戻る。処理Ｅ１２では、変換関数生成部１３は、決定した変換関数合成用汎関数を記憶装置に記憶し、変換関数合成用汎関数設計処理手順を終了する。

スペクトル包絡の距離分布とは、スペクトル包絡の距離を確立分布Ｘとおいたとき、その距離がある閾値ｄ_θ以下、あるいは閾値ｄ_θ以上である確率として、それぞれ式（２２），（２３）によって定義される。
Ｐｒ（Ｘ＜ｄ_θ） …（22）
Ｐｒ（Ｘ＞ｄ_θ） …（23）

要するに、求められた距離が、どのように分布しているかを表したものであり、具体的には、図１３に示す分布で表わされる。

具体的には、距離は、周波数軸変換関数のところで説明した重み付き対数スペクトル距離、あるいはＭＦＣＣ距離を用いる。すなわち、対象音声の母音テンプレートと入力された対象音声のスペクトルとの類似度を求める関数は、２つのシグモイド関数を合成して作成する。シグモイド関数は、式（２４）のような関数であり、ａおよびｂの２つのパラメタによって形状が決まる。

図８は、実行部２０が実行する第１の音声合成処理手順を示す図である。入力装置から実行段階を実行する指示があると、処理Ｆ１に移る。第１の音声合成処理手順は、学習段階で設計された変換関数合成用汎関数と、学習段階で生成された一人の対象話者の母音テンプレートとを用いて、対象話者の音声を目標話者の音声に、指定された割合で近づける音声変換の実行手順である。指定された割合とは、音声の属性を混ぜる割合であり、音そのものではなく、音の様々な性質、たとえばその人の声の個性を変換したものである。たとえば割合が１００％であれば、対象話者の割合が０％および目標話者の割合が１００％の割合であり、割合が５０％であれば対象話者の割合が５０％および目標話者の割合が５０％の割合ということである。

処理Ｆ１では、音声分析部２１は、目標話者の音声に変換するための変換対象音声の音声データをアナログデジタル変換器から取得する。処理Ｆ２では、音声分析部２１は、取得した音声データの分析を行い、フレームごとに音声パラメタを生成する。処理Ｆ３では、音声分析部２１は、生成した音声パラメタを実行用合成変換関数生成部２２に送る。

処理Ｆ４では、実行用合成変換関数生成部２２は、記憶装置から対象話者の母音テンプレートを読み出す。処理Ｆ５では、実行用合成変換関数生成部２２は、記憶装置から個別変換関数を読み出す。処理Ｆ６では、実行用合成変換関数生成部２２は、入力装置から指定される変換割合指定を取得する。

処理Ｆ７では、実行用合成変換関数生成部２２は、フレームごとに、音声分析部２１から受け取る音声パラメタ、読み出した母音テンプレートおよび個別変換関数、ならびに取得した変換割合指定を、変換関数合成用汎関数に与え、実行用合成変換関数を生成し、生成した実行用合成変換関数を変換音声合成部２３に送る。フレームごとに、音声パラメタ、母音テンプレート、個別変換関数、および変換割合指定を、どのように変換関数合成用汎関数に与えて、実行用合成変換関数を生成するのかについては、図９で詳述する。

処理Ｆ８では、変換音声合成部２３は、実行用合成変換関数生成部２２から実行用合成変換関数を受け取る。処理Ｆ９では、変換音声合成部２３は、実行用合成変換関数を用いて、現在のフレームの音声パラメタを変換する。具体的には、ＴＡＮＤＥＭ−ＳＴＲＡＩＧＨＴ（特許文献２，非特許文献３参照）の合成部に、スペクトル包絡、基本周波数、および非同期性指標を加えることによって、音声パラメタに変換する。処理Ｆ１０では、変換音声合成部２３は、変換した音声パラメタを用いて音声合成を行う。
処理Ｆ１１では、変換音声合成部２３は、音声合成した音声データを音声出力装置に送り、音声合成した音声を出力し、第１の音声合成処理手順を終了する。

図９は、個別変換関数３０、変換関数合成用汎関数４０および実行用合成変換関数５０の関係を示す図である。変換関数合成用汎関数４０は、対象話者の音声の音声パラメタの入力の値に基づいて、音声パラメタを変換するために用いられる実行用合成変換関数５０を合成する汎関数である。実行用合成変換関数５０は、周波数軸変換関数、スペクトル概形変換関数および非周期性指標変換関数の３種類の変換関数を含む。これら三種類の変換関数は、母音に対応する個別変換関数を、適切な割合で合成することによって求められる。

変換関数合成用汎関数４０は、スペクトル包絡変換関数を合成するのためのスペクトル包絡変換関数合成汎関数４３と、周波数軸変換関数を合成するのための周波数軸変換関数合成汎関数４４と、非周期性指標変換関数を合成のための非周期性指標変換関数合成汎関数４５とを含む。また、変換関数合成用汎関数４０は、適切な割合を決めるために、入力音声パラメタ５１の中のスペクトル包絡を計算するスペクトル包絡部４１と、記憶装置に記憶される対象話者の母音テンプレートに基づいて、スペクトル包絡部４１で計算されたスペクトル包絡と各母音テンプレートとの類似度を計算する類似度計算部４２とを含む。

スペクトル包絡変換関数合成汎関数４３は、個別変換関数３０に含まれるスペクトル概形変換関数を、類似度計算部４２によって計算された類似度と、変換割合指定５３によって指定される変換割合とに基づいて、実行用合成変換関数５０に含まれるスペクトル概形変換関数を合成する。

周波数軸変換関数合成汎関数４４は、個別変換関数３０に含まれる周波数軸変換関数を、類似度計算部４２によって計算された類似度と、変換割合指定５３によって指定される変換割合とに基づいて、実行用合成変換関数５０に含まれる周波数軸変換関数を合成する。非周期性指標変換関数合成汎関数４５は、個別変換関数３０に含まれる非周期性指標変換関数を、類似度計算部４２によって計算された類似度と、変換割合指定５３によって指定される変換割合とに基づいて、実行用合成変換関数５０に含まれる非周期性指標変換関数を合成する。

類似度に基づいて、具体的にどのように個別の変換関数を合成するかを説明する。周波数軸変換関数は、パラメタａ_ｋおよびｂ_ｋにより規定される。ある母音ｘについての個別の周波数軸変換関数を規定する係数をａ_ｋ ^Ｖ:ｘとｂ_ｋ ^Ｖ:ｘと表す。ここでｋは、「０」から「Ｍ」までの整数である。合成された周波数軸変換関数を規定する係数つまりパラメタをａ_ｋ ^{（ｃｍｐ）}とｂ_ｋ ^{（ｃｍｐ）}と表す。また、母音ｘと現在のフレームの類似度をＷ_Ｖ:ｘと表し、指定する変換割合をｒとすると、合成された変換関数を規定する係数は、個別の変換関数を規定する係数から、式（２５），（２６）によって求められる。

ここで、Ｎｕｍ（Ｖｏｗｅｌ）は、母音の集合Ｖｏｗｅｌの要素の数を求める関数である。日本語の場合には、Ｎｕｍ（Ｖｏｗｅｌ）は、「５」となる。母音の集合Ｖｏｗｅｌは、日本語の場合には、「あ」、「い」、「う」、「え」および「お」を要素とする。

スペクトル概形変換関数も同様に、ある母音についてのスペクトル概形変換関数を規定する係数をｐ_ｋ ^Ｖ:ｘと表すと、合成されたスペクトル概形変換関数を規定する係数ｐ_ｋ ^{（ｃｍｐ）}は、式（２７）で求められる。

あるフレームのスペクトルは、こうして合成された周波数軸変換関数を用いて、変換された後、こうして合成されたスペクトル概形変換関数を用いて、スペクトル概形が変換される。

式（２５）（２６）が、周波数軸変換関数合成汎関数であり、式（２７）が、スペクトル包絡変換関数合成汎関数である。式（２７）で求められた係数で規定されるスペクトル概形変換関数が実行用合成変換関数のスペクトル概形変換関数である。実行用合成変換関数の周波数軸変換関数は、式（２５）,（２６）で求められた係数で規定される周波数軸変換関数である。これらの関数は、関数を設定するパラメタを計算する関数であるので、「関数の関数」という汎関数の定義に一致する。実行用合成変換関数の非周期性指標変換関数は、スペクトル概形変換関数と同じ形の式で表わされる。

図１０は、実行部２０が実行する第２の音声合成処理手順を示す図である。入力装置から実行段階を実行する指示があると、処理Ｇ１に移る。第２の音声合成処理手順は、学習段階で設計された複数の話者の変換関数合成用汎関数と、学習段階で生成された対象話者の母音テンプレートを用いて、対象話者の音声を、複数の目標話者を指定された割合で混合した音声に、近づける音声変換の実行手順である。複数の目標話者を指定された割合で混合した音声とは、複数の目標話者の音声を合成した場合に、合成後の音声の中に占める各目標話者の割合が、変換割合で指定された割合になるように混合した音声である。この場合対象話者の割合は０％である。処理Ｇ１〜３，Ｇ９〜Ｇ１２は、図８に示した処理Ｆ１〜３，Ｆ８〜１１と同じ処理であり、重複を避けるために説明は省略する。

処理Ｇ４Ｎ，Ｇ５Ｎ，Ｇ６Ｎは、第Ｎ番目の目標話者（以下「目標話者Ｎ」という。Ｎは、目標話者の数を表す自然数であり、任意に設定することができる）について、実行用合成変換関数生成部２２が実行する処理である。処理Ｇ４Ｎでは、実行用合成変換関数生成部２２は、記憶装置から対象話者の母音テンプレートを読み出す。処理Ｇ５Ｎでは、実行用合成変換関数生成部２２は、記憶装置から個別変換関数を読み出す。処理Ｇ６Ｎでは、実行用合成変換関数生成部２２は、フレームごとに、音声分析部２１から受け取る音声パラメタ、読み出した母音テンプレートおよび個別変換関数を、変換関数合成用汎関数に与える。

処理Ｇ７では、実行用合成変換関数生成部２２は、入力装置から指定される混合割合指定を取得する。処理Ｇ８では、実行用合成変換関数生成部２２は、目標話者１〜Ｎの音声パラメタ、母音テンプレートおよび個別変換関数が与えられた変換関数合成用汎関数を、指定された混合割合で混合した変換関数混合用汎関数を生成し、生成した変換関数混合用汎関数によって実行用合成変換関数を生成し、生成した実行用合成変換関数を変換音声合成部２３に送る。

複数の目標話者の混合を行う場合には、個別の変換関数を規定する係数および類似度を、個別の母音ｘの添字と目標話者を指定する添字Ｃをつけて、ａ_ｋ ^Ｖ：ｘＣおよびｂ_ｋ ^Ｖ：ｘＣ、ｐ_ｋ ^Ｖ：ｘＣ、Ｗ_Ｖ：ｘＣと表すこととする。さらに混合割合指定は、ｒ_Ｃと、目標話者を添字とする数字の組となる。これらを用いて、合成された変換関数を規定する係数は、式（２８）〜式（３０）のように求められる。ここでＴａｌｋｅｒは、話者の集合を表す。式（２８）〜式（３０）が、変換関数混合用汎関数である。

図１１は、目標話者の母音ごとの音声波形の一例を示す図である。以下、具体的な実施例について、図１１〜図１５を用いて説明する。図１１は、目標話者が５つの母音「あ」、「い」、「う」、「え」および「お」を単独で発生した音声の波形である。縦軸が音声の振幅であり、横軸が時間である。時間は、音声の波形の上側に示され、単位は秒である。左から順に母音「あ」、「い」、「う」、「え」および「お」の音声の波形が示され、それぞれの音声の波形の区間の下側に、各母音のラベル情報、具体的には「ａ」、「ｉ」、「ｕ」、「ｅ」および「ｏ」が示されている。

図１２は、対象話者の音声波形の一例を示す図である。対象話者が「コーヒーにミルクを入れますか？」という文章を読み上げたときの音声の波形を示す。縦軸および横軸は、図１１と同じであり、図１１と同様に、音声の波形の下側にラベル情報が示されている。上述した実施形態では、対象話者の５つの母音を用いたが、文章を読み上げた音声の中に、「あ」、「い」、「う」、「え」および「お」の５つの母音が含まれていれば、その音声の中の５つの母音を用いることによって変換することができる。母音は、子音とくみあわされていてもよい。たとえば「た」あるいは「は」があれば、「あ」の母音を抽出することができる。

これらの音声の波形は、ＴＡＮＤＥＭ−ＳＴＲＡＩＧＨＴ（特許文献２，非特許文献３参照）によって分析され、５ｍｓごとに、スペクトル包絡Ｐ_ＴＳＴ（ω，ｔ）、基本周波数ｆ_０（ｔ）、非周期性指標Ｒ（ω，ｔ）が求められる。以下、音声の話者を区別する必要がある場合には、対象話者には（ｓｒｃ）、目標話者には（ｔｇｔ）を、それぞれの変数の上付きの添字として明記する。

周波数軸変換関数の設計では、代表的なフレームの選択、および母音テンプレートの設計を行う。上述した実施形態では、すべてのフレームについて行ったが、代表的なフレームとしても本質的な問題は生じない。すなわち、代表的なフレームを選択して、それを対象とするフレームとしてもよいし、母音のラベルがついている区間全部を対象とするフレームとしてもよい。母音のラベルが付与された区間のなｋでも、始まりの部分や終りの部分の分析フレームで求められるスペクトル包絡は、調音結合という現象の影響を大きく受けて、典型的な母音のスペクトル包絡が崩れてしまうことがある。そのようなフレームを母音テンプレートの設計に持ちたっ倍には、変換音声の品質の劣化につながるので、このような場合には、そのような問題を有しない代表的なフレームを選択するとよい。このような代表的なフレームを選択することによって、学習に必要な計算時間を大きく削減することができる。
代表的なフレームの選択では、まず、それぞれのラベル付けられた母音区間を代表するようなフレームを選択するために、予め、スペクトル包絡をＭＦＣＣに変換しておく。ここでは、Ｍ（ｋ，ｔ）で表すこととする。

ある一つの母音区間の２つの時刻をｔｉ，ｔｊとし、「ＭＦＣＣ距離ｄＭＦＣＣ（ｉ，ｊ）」を式（３１）で定義する。

このｄＭＦＣＣ（ｉ，ｊ）を、各時刻において小さなものから順に並び替え、小さいものから４０％の順位における距離が最も小さくなる時刻を、その母音区間を代表する時刻として選択する。
このようにすることで、様々な原因で生ずる離れ値の影響を受けない代表を選択することができる。

次に、母音テンプレートの設計では、母音を代表するテンプレートを設計する。まず、こうして選択された母音区間を代表するＭＦＣＣを、対象話者の場合にはＭ_Ｖ：ａ ^{（ｓｒｃ）}（ｋ，ｊ）、目標話者の場合にはＭ_Ｖ：ａ ^{（ｔｇｔ）}（ｋ，ｊ）と表すこととする。下付き添字は、母音の種類を表す。たとえば、母音「あ」の場合には、Ｖ：ａ、「い」の場合にはＶ：ｉのように、母音に対応する英文字を用いることにする。ＭＦＣＣの第２番目の添字ｊは、同じ母音に属する母音区間のいずれであるかを示す通し番号である。

このような準備の下、同一カテゴリに属する母音間の距離の分布と、異なるカテゴリに属する母音間の距離の分布を求める。同じカテゴリに属する母音間の距離をｄ_{Ｖ：ａ：ｉｎ}（ｉ，ｊ）と標記し、異なるカテゴリに属する母音間の距離をｄ_{Ｖ：ａ：ｏｕｔ}（ｉ，ｊ）と標記することとする。同じカテゴリに属する母音間の距離ｄ_{Ｖ：ａ：ｉｎ}（ｉ，ｊ）、および異なるカテゴリに属する母音間の距離ｄ_{Ｖ：ａ：ｏｕｔ}（ｉ，ｊ）は、式（３２）、式（３３）で表わされる。

ここで、ｘ，ｙには、母音のカテゴリを表す英字が代入される。距離が、対象話者であるか、目標話者であるかを明記する場合には、同様に上付きの添字とし，対象話者には（ｓｒｃ）、目標話者には（ｔｇｔ）を付す。

図１３は、目標話者および対象話者について同一カテゴリに属する母音間の距離と、異なったカテゴリに属する母音間の距離との分布を示す図である。縦軸は確率であり、累積分布（図１３では「cumulative distribution」と記す）の形で表している。横軸は、スペクトルの距離（図１３では「spectral distance(dB)」と記す）である。

累積分布とは、具体的には、あるフレームの母音のＭＦＣＣから同一カテゴリに属する母音のＭＦＣＣまでの距離がある閾値ｄ_θ以下である確率Ｐｒ（ｄ_{Ｖ：ｘ：ｉｎ}（ｉ，ｊ）＜ｄ_θ）と、あるフレームの母音のＭＦＣＣから異なるカテゴリに属する母音のＭＦＣＣまでの距離がある閾値ｄ_θ以下である確率Ｐｒ（ｄ_{Ｖ：ｘ：ｏｕｔ}（ｉ，ｊ）＜ｄ_θ）を、スペクトル距離の閾値ｄ_θの関数として表している。確率Ｐｒ（ｄ_{Ｖ：ｘ：ｉｎ}（ｉ，ｊ）＜ｄ_θ）および確率Ｐｒ（ｄ_{Ｖ：ｘ：ｏｕｔ}（ｉ，ｊ）＜ｄ_θ）は、分析結果のデータから計算される確率である。

図１３（ａ）は、図１１に示した目標話者の音声波形の場合の累積分布であり、図１３（ｂ）は、図１２に示した対象話者の音声波形の場合の累積分布である。目標話者の音声は単独発声された母音であるため、同一カテゴリと異なったカテゴリとの母音の間の距離の分布は、明確に分かれている。一方、対象話者の音声の場合には、文章中の母音区間が対象であるため、同一カテゴリの母音間の距離が異なったカテゴリの母音間の距離よりも大きな場合が生じている。

ここで、Ｐｒ（ｄ_{Ｖ：ｘ：ｉｎ}（ｉ，ｊ）＜ｄ_θ）は、注目している母音区間と同じ母音カテゴリの区間のＭＦＣＣが同じものであることを見逃す確率であり、Ｐｒ（ｄ_{Ｖ：ｘ：ｏｕｔ}（ｉ，ｊ）＜ｄ_θ）は、注目している母音区間とは別の母音カテゴリの区間のＭＦＣＣを同じカテゴリに属しているものと誤認する確率である。見逃しの確率と誤認する確率とが等しくなる場合の確率の値は、注目している母音区間を代表するＭＦＣＣの『良さ』を表す一つの指標である。この場合、確率が低いほど『良い』ことになる。この『良さ』に基づいて、それぞれの母音カテゴリの上位Ｎ個の区間のＭＦＣＣを平均することによって、それぞれの母音テンプレートを作成する。

図１４は、各母音について上位３個の母音区間の平均として求めた母音テンプレートの一例を示す図である。上位３個とは、ＭＦＣＣの『良さ』の上位３個ということである。
実線は、対象話者の母音テンプレートであり、破線は、話者の母音テンプレートである。目標図１４の母音テンプレートでは、ピークの位置も、スペクトル全体の傾きや強くなっている部分なども目標話者と対象話者とでは異なっていることが分かる。なお、ここでは、人間の知覚特性と同じような見方でスペクトルを表示するために、対数周波数軸を用いている。

このようにして求められた対象話者と目標話者との母音テンプレートに共通する特性の違いを、人間の聴覚系の周波数分解能を対数周波数軸よりも精密に模した「ＥＲＢ_Ｎｎｕｍｂｅｒ周波数ｆ_ＥＲＢ」軸上でのコサイン級数による展開の低次係数を用いた近似によって抽出する。ＥＲＢ_Ｎｎｕｍｂｅｒ周波数ｆ_ＥＲＢは、周波数ｆの関数として、式（３４）によって表される。
ｆ_ＥＲＢ＝２１．４ｌｏｇ_１０（０．００４３７ｆ＋１） …（34）

ＥＲＢ_Ｎｎｕｍｂｅｒについては、たとえば非特許文献「B.C.J. Moore: “An
introduction to psychology of hearing, 5th edition”, Academic Press,San Diego,
CA (2003).（邦訳は「聴覚心理学概論」ただし、第三版の訳）」に記載されている。こうして求めた対象話者と目標話者との母音テンプレートに共通する特性の違いを用いて、母音テンプレートを補償しておく。

対数スペクトルで表した対象話者および目標話者の母音テンプレートのそれぞれの平均値の差をＤ（ｆ_ＥＲＢ）と表し、それを平滑化したものをＤ_Ｓ（ｆ_ＥＲＢ）とする。Ｄ_Ｓ（ｆ_ＥＲＢ）は、Ｄ（ｆ_ＥＲＢ）をコサイン級数で展開し、低次の係数を用いて合成することで、式（３５）によって求められる。

このｓ_ｋを用い、平均値の差を平滑化したＤ_Ｓ（ｆ）は、式（３６）のように求められる。

このＤ_Ｓ（ｆ）を予め目標話者の母音テンプレートから引いて取り除いておくことによって、スペクトル概形変換関数に共通の成分が含まれることを防ぐことができる。Ｄ_Ｓ（ｆ）は、Ｄ_Ｓ（ｆ_ＥＲＢ）を、実際の周波数ｆの関数として表したものである。音声のスペクトル包絡は、周波数の関数として求められているので、実際に母音のテンプレートを補償するためには、Ｄ_Ｓ（ｆ_ＥＲＢ）を、周波数ｆの関数であるＤ_Ｓ（ｆ）に変換して用いる必要がある。ここでは、この２段階を１つの式にまとめて表している。

図１５は、対象話者と目標話者との母音テンプレートに共通する特性の違いを示す図である。縦軸は、バイアス（図１５では「bias(dB)」と記す）であり、横軸は周波数（図１５では「frequency(Hz)」と記す）である。破線は、平滑化前の共通する特性の違いを示し、実線は、８次のコサイン級数によって平滑化された共通する特性の違いを示す。

図１６は、エラーレベルを用いた評価結果を示す図である。この評価結果は、本発明の効果を示すために行った評価の結果である。縦軸はエラーレベル（図１６では「error
level(%)」と記す）であり、誤判断の確率を表している。誤判断の確率とは、目標話者の母音テンプレートと、同じ母音カテゴリに属する母音ラベルが付されている対象話者の母音区間を代表するスペクトル包絡との間の距離の分布と、異なる母音カテゴリに属する母音ラベルが付されている対象話者の母音区間を代表するスペクトル包絡との間の距離の分布とが交差する距離を閾値として母音カテゴリを判断した場合の誤判断の確率を表している。

横軸は、対象話者の音声に加えられた処理の種類（図１６では「conditions」と記す）を示す。エラーレベルは、エラーレベルの値が小さいほどよい。処理の種類として、４つの処理の種類、具体的には、条件ＷＯ、条件ＳＳ、条件ＣＶおよび条件ＦＬを横軸に付している。

条件ＷＯは、対象話者と目標話者との母音テンプレート間のバイアス補償なしの距離を用いた場合である。条件ＳＳは、対象話者と目標話者との母音テンプレート間のバイアス補償ありの距離を用いた場合である。条件ＣＶは、対象話者と目標話者との母音テンプレート間のバイアス補償ありで、かつ本発明の変換関数を用いて変換した距離を用いた場合である。条件ＦＬは、条件ＣＶに、さらにケプストラムを用いた重み付けによるスペクトルの強調を行った距離を用いた場合である。

図１７は、誤判断の確率の求め方を説明するための図である。縦軸は、誤判定の確率（図１７では「sample probability」と記す）を示し、横軸はＭＦＣＣ距離（図１７では「spectral distance in MFCC(dB)」と記す）を示す。図１７は、処理の種類ごとに、距離と累積分布との関係を示している。

左上がりの曲線は、同じ母音カテゴリの母音区間に含まれるフレームのスペクトルと、目標話者の母音テンプレートとの距離が、横軸の値つまり距離よりも大きな場合の確率を示す。右上がりの曲線は、異なった母音カテゴリの母音区間に含まれるフレームのスペクトルと、目標話者の母音テンプレートとの距離が、横軸の値つまり距離よりも大きな場合の確率を示す。この左上がりの曲線と右上がりの曲線との交点の縦軸の値として、誤り率、つまり誤判断の確率が求められる。

図１６では、本発明の変換関数を用いた条件ＣＶのときにエラーレベルが小さくなっていることがわかる。すなわち、本発明によって、対象話者と目標話者の特徴点の抽出を手作業で行うことなしに、ＳＴＲＡＩＧＨＴを用いて、音声のテクスチャマッピングの考え方を応用した母音に基づく音声変換方法（非特許文献７参照）と同程度の高い品質を有する音声に変換することができる。

このように、学習部１０によって、変換対象の話者の母音の音声と変換目標の話者の母音の音声とに基づいて、変換対象の話者の音声を変換目標の話者の音声に変換するための個別変換関数が母音ごとに生成される。

したがって、音声の特徴点を抽出する手作業なしに、極めて少ない学習用のデータ、具体的には５つの母音の音声データに基づいて、ある話者によって話された音声を、その話者以外の話者によって話されたような高い品質を有する音声に変換することができる。

また本発明によれば、学習部１０によって、母音ごとの個別変換関数を生成した後、生成した母音ごとの個別変換関数を合成して変換対象の話者の音声を変換目標の話者の音声に変換する実行時変換関数を生成するための変換関数合成用汎関数が生成される。したがって、音声の特徴点を抽出する手作業なしに、変換対象の話者の音声を変換目標の話者の音声に変換する実行時変換関数を生成するための変換関数合成用汎関数を、個別変換関数とともに生成することができる。

また本発明によれば、実行部２０によって、学習部１０で生成された母音ごとの個別変換関数および変換関数合成用汎関数を含む変換関数に基づいて実行時変換関数が生成され、生成された実行時変換関数を用いて、変換対象の話者の音声が変換目標の話者の音声に変換される。したがって、変換対象の話者の音声を入力するだけで、学習部１０によって生成された個別変換関数および変換関数合成用汎関数を用いて実行時変換関数し、生成した実行時変換関数を用いて、変換対象の話者の音声を変換目標の話者の音声に変換することができる。

また本発明によれば、学習部１０によって、母音ごとの個別変換関数として、変換対象の話者の音声と変換目標の話者の音声との周波数軸の対応関係に基づいて周波数軸を変換する周波数軸変換関数、周波数軸変換関数によって変換された周波数軸の上でのスペクトル包絡の概形の違いを少なくするように変換するスペクトル概形変換関数、および音声の中の周期的な成分と非周期的な成分との割合を示す非周期性指標を変換する非同期性指標変換関数が生成される。したがって、周波数軸、スペクトル概形および非周期性指標を勘案した個別変換関数とすることができる。

また本発明によれば、変換対象の話者の音声を変換目標の話者の音声に変換する音声変換装置が音声を変換するにあたって、学習段階では、変換対象の話者の母音の音声と変換目標の話者の母音の音声とに基づいて、変換対象の話者の音声を変換目標の話者の音声に変換するための個別変換関数を母音ごとに生成する。

１音声変換装置
１０学習部
１１変換対象音声パラメタ抽出部
１２変換目標音声パラメタ抽出部
１３変換関数生成部
２０実行部
２１部
２２変換関数合成用汎関数生成部
２３変換音声合成部
３０個別変換関数
３１母音変換関数
３２母音別変換関数
３３周波数軸変換関数
３４スペクトル概形変換関数
３５非周期性指標変換関数
３９基本周波数変換関数
４０変換関数合成用汎関数
４３スペクトル包絡変換関数合成汎関数
４４周波数軸変換関数合成汎関数
４５非周期性指標変換関数合成汎関数
５０実行用合成変換関数

Claims

変換対象の話者の母音の音声と変換目標の話者の母音の音声とに基づいて、変換対象の話者の音声を変換目標の話者の音声に変換するための個別変換関数を母音ごとに生成する生成部を含むことを特徴とする音声変換装置。
前記生成部は、前記母音ごとの個別変換関数を生成した後、生成した母音ごとの個別変換関数を合成して変換対象の話者の音声を変換目標の話者の音声に変換する実行時変換関数を生成するための変換関数合成用汎関数を生成することを特徴とする請求項１に記載の音声変換装置。
前記生成部で生成された前記母音ごとの個別変換関数および前記変換関数合成用汎関数を含む変換関数に基づいて前記実行時変換関数を生成し、生成した実行時変換関数を用いて、変換対象の話者の音声を変換目標の話者の音声に変換する変換部をさらに含むことを特徴とする請求項２に記載の音声変換装置。
前記生成部は、前記母音ごとの個別変換関数として、変換対象の話者の音声と変換目標の話者の音声との周波数軸の対応関係に基づいて周波数軸を変換する周波数軸変換関数、周波数軸変換関数によって変換された周波数軸の上でのスペクトル包絡の概形の違いを少なくするように変換するスペクトル概形変換関数、および音声の中の周期的な成分と非周期的な成分との割合を示す非周期性指標を変換する非同期性指標変換関数を生成することを特徴とする請求項１〜３のいずれか１つに記載の音声変換装置。
変換対象の話者の音声を変換目標の話者の音声に変換する音声変換装置が音声を変換する音声変換方法であって、
変換対象の話者の母音の音声と変換目標の話者の母音の音声とに基づいて、変換対象の話者の音声を変換目標の話者の音声に変換するための個別変換関数を母音ごとに生成する生成ステップを含むことを特徴とする音声変換方法。