JP2007178686A

JP2007178686A - 音声変換装置

Info

Publication number: JP2007178686A
Application number: JP2005376597A
Authority: JP
Inventors: Yumiko Kato; 弓子加藤; Yoshifumi Hirose; 良文廣瀬; Shinichi Yoshizawa; 伸一芳澤
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-12-27
Filing date: 2005-12-27
Publication date: 2007-07-12

Abstract

【課題】入力音声の音韻性を保ちつつ、歪や雑音の発生等の音質の劣化が少ない変換音声を生成する音声変換装置を提供する。
【解決手段】入力音声の音響的特徴を変換して出力する音声変換装置１０であって、入力音声の音響的特徴を、予め定められた時間幅を有するフレーム単位で分析する音声分析部２０２と、音声の特徴を記述した複数の音響モデルと複数の音響モデルにそれぞれ対応付けられた複数の音声変換方法とを記憶している変換関数―音響モデルデータベース２０３と、入力音声の音響的特徴とデータベースに記憶されている音響モデルとを比較し、音響的特徴に最も近い音響モデルに対応付けられた音声変換方法をデータベースから選択することにより、音声変換方法を生成する変換方法生成部２１０ａと、変換方法生成部２１０ａで生成された音声変換方法を用いて入力音声の音響的特徴を変換する音声変換部２０５とを備える。
【選択図】図１

Description

本発明は入力音声の特徴を変換し、元の音声とは異なる特徴、すなわち元の音声とは異なる音色、声の高さ、強さ等の特徴を持つ音声へと変換する音声変換装置に関するものである。

従来、入力音声の特徴を変換する音声変換装置が種々提案されている。簡易な音声変換装置としては、入力音声の周波数特徴を全体に高くする方向にシフトさせる、または低くする方向にシフトさせることにより、入力音声の持つ周波数特性を捉えにくくし、入力音声の話者特徴を消すものが知られている。また、イコライザによる入力音声の周波数特徴の変形、入力音声の時間軸上での引き延ばしまたは短縮、基本周波数のシフト等、入力音声と異なる特徴を持つ音声に変換する技術は多く知られている。

しかし、これらの多くは、入力音声が時間的に変動するものであるにもかかわらず、入力音声に対する変換処理は一定であるため、入力音声の変動によって歪が生じ音韻性が損なわれたり、ノイズが発生したりするなど、大きな音質劣化を引き起こしていた。

これに対して、音声の音韻性に着目した音声変換装置が提案されている（例えば、特許文献１および特許文献２参照。）。特許文献１に開示されている技術では、音声認識により入力音声の音韻を特定した後、特定された音韻に対応した変換関数を入力音声に適用して、入力音声の声質を変換している。また、特許文献２に開示されている技術では、あらかじめ音声に付与された音素ラベルに対応した変換関数を適用して声質を変換する。これらの技術では、入力音声に対して音声認識を行い、入力音声の各部分の音韻を判別し、その判別された音韻種類に基づいて、スペクトル包絡を変換する関数を選択する。

図１６は、特許文献１に記載された従来の音声変換装置の構成を示すブロック図である。音声認識部１０４は入力音声の認識を行い、入力音声の各部分の音韻を特定する。変換テーブル選択部１０８は、認識された各音韻の種類に対応するスペクトル包絡変換関数をスペクトル包絡変換テーブル記憶部１０９に記憶された母音スペクトル包絡変換テーブル１０９ａまたは子音スペクトル包絡変換テーブル１０９ｂより取得して、音韻の時間幅の中心点における変換関数とする。音素間変換テーブル推定部１０７は、選択された音韻の中心点における変換関数を用いて、中心点以外の点に対する変換関数を補間することにより生成する。スペクトル包絡変換部１０２は、変換関数に従って、入力音声のスペクトル包絡を変換する。これにより、入力音声の特徴を変換することができる。
特開２００２−２１５１９８号公報（第６−７頁、図３）特開２００２−２１５１９９号公報（第５頁）

しかしながら、従来の構成では、音声認識部１０４が入力音声の各部分に対して音韻ラベルを生成し、音韻の種類に従って変換関数を選択している。このため、音韻内の音響的特徴のばらつきに対応することができず、入力音声の音響的特徴と変換関数とが合致しない場合が発生する。なぜならば、同一の音韻であってもその音響的特徴は大きくばらついている。例えば「ａ」と認識された音であっても、/e/に近い音響的特徴をもった「ａ」もあれば、/o/に近い音響的特徴を持った「ａ」もある。このように音響的特徴のばらつきが大きい音韻という音声の単位に対して、単一の変換関数を対応させると、変換結果の音声の音韻性が崩れたり、スペクトルピークが近づきすぎる等の歪によって雑音が発生する等、音質の劣化を引き起こしやすいという課題を有している。

本発明は、上述の課題を解決するためになされたものであり、入力音声の音韻性を保ちつつ、歪や雑音の発生等の音質の劣化が少ない変換音声を生成する音声変換装置を提供することを目的とする。

上記目的を達成するために、本発明に係る音声変換装置は、入力音声の音響的特徴を変換して出力する音声変換装置であって、入力音声の音響的特徴を、予め定められた時間幅を有するフレーム単位で分析する音声分析手段と、音声の特徴を記述した複数の音響モデルと前記複数の音響モデルにそれぞれ対応付けられた複数の音声変換方法とを記憶しているデータベースと、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択することにより、音声変換方法を生成する変換方法生成手段と、前記変換方法生成手段で生成された前記音声変換方法を用いて前記入力音声の音響的特徴を変換する音声変換手段とを備える。

本構成によると、入力音声の音韻に関わらず、各フレームの音響的特徴に合わせた変換方法を選択することができる。このため、入力音声と変換方法との不整合が無く、入力音声の音韻性を保ちつつ、変換による歪や雑音の発生等の音質の劣化が少ない変換音声を生成することができる。

また、入力音声の音韻に伴う音響的特徴に加え、音韻列や韻律、感情や態度に伴う発声の仕方の変化のように話者内での音響的特徴のばらつき、性別や年齢、方言等の話者間での音響的特徴のばらつきに対応して、入力音声の各フレームの音響的特徴に適した変換方法を選択することができる。このため、入力音声の音韻性を保ちつつ、歪や雑音の発生等、音質の劣化が少ない変換音声を生成することができる。

また、前記変換方法生成手段は、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択するマッチング手段と、選択された前記音声変換方法が変化するフレーム位置を含む所定数のフレームである境界領域の音声変換方法を、当該境界領域よりも時間的に前の音声変換方法および後の音声変換方法を用いて補間することにより生成する補間手段とを有する。

この構成によると、変換関数が不連続に変化することにより、変換後の音声が不連続になることを防ぐことができる。

さらに、前記変換方法生成手段は、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、比較時の尤度が所定の閾値よりも大きい音響モデルに対応する音声変換方法と当該尤度とを出力するマッチング手段と、前記マッチング手段より出力された尤度の比に基づいて、前記音声変換方法を合成する合成手段とを有し、前記音声変換手段は、前記合成手段による合成後の音声変換方法を用いて前記入力音声の音響的特徴を変換する。

さらにまた、前記変換方法生成手段は、さらに、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満の場合には、選択された前記音声変換方法を変更する。

具体的には、前記変換方法生成手段は、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満のフレームに対しては、尤度が前記所定の閾値以上のフレームに対する音声変換方法との接続コストが最小となるように音声変換方法の再選択を行なう。

本構成によると、データベース中のどの音響モデルとも適合しないような音声が入力された際や、入力音声の音響的特徴が変化していく過程に対しても適切な変換方法を決定することができる。このため、変換方法の不整合による歪や雑音の発生がなく、変換方法が急峻に変化することによる雑音や違和感の発生等の音質の劣化が少ない変換音声を生成することができる。

なお、本発明は、このような特徴的な手段を備える音声変換装置として実現することができるだけでなく、音声変換装置に含まれる特徴的な手段をステップとする音声変換方法として実現したり、音声変換方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。

本発明によれば、入力音声とマッチングする音響モデルごとに変換方法を対応させることで、入力音声の各部分の音響的特徴に合わせた変換方法を選択することができるため、入力音声と変換方法との不整合が無く、変換による歪や雑音の発生等の音質の劣化が少ない変換音声を生成することができる音声変換装置を提供することができる。

以下本発明の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
図１は、本発明の実施の形態１における音声変換装置の機能的構成を示すブロック図である。

音声変換装置１０は、入力音声の音響的特徴を変換して出力する装置であり、音声入力部２０１と、音声分析部２０２と、変換関数−音響モデルデータベース２０３と、変換方法生成部２１０ａと、音声変換部２０５と、音声合成部２０６とを備えている。

音声入力部２０１は、音声波形の入力を受け付ける処理部である。
音声分析部２０２は、音声波形を分析し、当該波形を再合成可能なパラメータすなわち分析合成パラメータを生成する処理部である。なお、分析は、予め定められた時間幅を有するフレーム単位で行なわれる。

変換関数−音響モデルデータベース２０３は、音響モデルとその音響モデルごとに対応付けられた入力音声の音響的特徴を変形するための変換関数とを記録しているデータベースである。音響モデルとは、分析パラメータによって記述されたフレーム単位の音声の特徴を示したデータを示す。なお、本発明中における音響モデルには音素は含まれないものとする。

変換方法生成部２１０ａは、入力音声の分析合成パラメータを変換する変換方法を生成するための処理部であり、マッチング部２０４ａを備えている。マッチング部２０４ａは、入力音声の分析合成パラメータと変換関数−音響モデルデータベース２０３に記録された音響モデルとを比較して、入力音声の分析合成パラメータに最も近い音響モデルに対応する変換関数を選択する処理部である。

音声変換部２０５はマッチング部２０４ａで選択された変換関数に従って、入力音声の各フレームの分析合成パラメータを変換する処理部である。

音声合成部２０６は、変換後の分析合成パラメータに従って、音声波形を生成する処理部である。

なお、音声分析部２０２は、入力音声の音響的特徴を、予め定められた時間幅を有するフレーム単位で分析する音声分析手段の一例である。変換関数―音響モデルデータベース２０３は、音声の特徴を記述した複数の音響モデルと前記複数の音響モデルにそれぞれ対応付けられた複数の音声変換方法とを記憶しているデータベースの一例である。変換方法生成部２１０ａは、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択することにより、音声変換方法を生成する変換方法生成手段の一例である。音声変換部２０５は、前記変換方法生成手段で生成された前記音声変換方法を用いて前記入力音声の音響的特徴を変換する音声変換手段の一例である。

次に実施の形態１に係る音声変換装置１０の動作について説明する。図２は、実施の形態１に係る音声変換装置１０の動作を示すフローチャートである。

音声入力部２０１は、音声波形の入力を受け付ける（ステップＳ２０１）。音声分析部２０２は、ステップＳ２０１で入力された音声波形をフレームごとに分析し、分析合成パラメータ列を生成する（ステップＳ２０２）。音声分析部２０２は、例えば、ＬＰＣ（Linear Predictive Coding）分析やＰＡＲＣＯＲ（Partial Autocorrelation）分析のようにスペクトルパラメータと音源パラメータとによって分析合成パラメータを記述する方式を用いて音声波形を分析し、分析合成パラメータ列を生成するものとする。

マッチング部２０４ａは、分析対象のフレームである分析フレームごとに変換関数−音響モデルデータベース２０３を参照して、分析合成パラメータと変換関数−音響モデルデータベース２０３内に記憶された音響モデルの分析パラメータとを比較し、当該分析フレームの分析合成パラメータに最も近い分析パラメータを持つ音響モデルを特定する（ステップＳ２０３）。また、マッチング部２０４ａは、特定された音響モデルに対応する変換関数を、変換関数―音響モデルデータベース２０３より抽出する（ステップＳ２０４）。さらに、マッチング部２０４ａは、分析フレームごとに、抽出された変換関数を音声変換部２０５に出力する（ステップＳ２０５）。

音声変換部２０５はステップＳ２０４で出力された変換関数に従って、各フレームの分析合成パラメータを変換する（ステップＳ２０６）。音声合成部２０６はステップＳ２０６で変換された分析合成パラメータに従って、音声波形を合成する（ステップＳ２０７）。

ここで変換関数−音響モデルデータベース２０３の作成方法の一例について説明する。図３は、変換関数−音響モデルデータベース２０３の作成方法を模式的に示した図である。図３（ａ）は、音声Ａから音声Ｂへの声質変換を行う変換関数の生成方法を模式的に示した図である。図３（ｂ）は、音響モデルの生成方法と音響モデルごとの変換関数の生成方法とを模式的に示した図である。図３（ｃ）変換関数―音響モデルデータベース２０３の一例を示す図である。

まず、図３（ａ）に基づいて、変換関数の生成方法について説明する。発話内容が同一で、声質の異なる２組の音声セット、音声Ａ（２１１）と音声Ｂ（２１２）が予め用意されているものとする。例えば、「あらゆる現実を…」という文章を、明るい口調で読み上げた音声Ａ（２１１）と、怒った口調で読み上げた音声Ｂ（２１２）とが予め用意されているものとする。

両音声データに対して音声分析を行い、分析合成パラメータ（例えばメルケプストラム係数）を抽出する。グラフ２１３に示すように、音声Ａおよび音声Ｂの分析合成パラメータに対して、ＤＰ（Dynamic Programming）マッチングにより、対応する音声波形の時間軸上のアラインメントをとり、音声Ａの各フレームに対する音声Ｂの対応フレームを求める。ここで、「メルケプストラム係数」とは、音声を線形予測モデルでモデル化した時の線形予測係数から得られる対数パワースペクトラムの逆フーリエ変換で定義されるケプストラム係数に対して、スペクトルの周波数軸を音の高さの感覚量であるメルスケールに変換したものである。発話内容が対応する音声Ａと音声Ｂとの各部分に対して、音声Ｂの分析合成パラメータと音声Ａの分析合成パラメータとの差を音声Ａから音声Ｂへの変換関数ｆとして求める。

一方、音響モデルは、図３（ｂ）に示すように変換元となる音声Ａの分析合成パラメータについて、分析合成パラメータで記述された音響特徴量ベクトルが類似する分析合成パラメータ同士を集めるようクラスタリングする。このクラスタ内の音響特徴量ベクトル（分析合成パラメータ）について、音響特徴量ベクトルとそのばらつきとを確率分布（たとえば正規分布）で表現する。この確率分布において、確率が最大になるような分析合成パラメータの値に最も近い値を持つ分析合成パラメータを選択する。選択された分析合成パラメータを変換前の分析合成パラメータとした場合に、図３（ａ）に示す方法で作成された変換関数を、当該クラスタを代表する変換関数とする。

クラスタ内の音響特徴量ベクトルを正規分布で表現する場合には、クラスタ内の音響特徴量ベクトルの平均ベクトルと共分散行列とを用いて正規分布すなわち確率分布としてクラスタを表現する。なお、クラスタ内の特徴量ベクトル間に相関がない場合には、クラスタ内の音響特徴量ベクトルの平均ベクトルと分散ベクトルとを用いて正規分布すなわち確率分布としてクラスタを表現する。確率分布を正規分布として表現した場合、確率が最大となる音響特徴量ベクトルはクラスタの平均ベクトルであるため、クラスタ中の音響特徴量ベクトルより平均ベクトルに最も近い音響特徴量ベクトルを選択し、その音響特徴量ベクトルに対応する変換関数をクラスタを音声Ａを代表する変換関数として抽出し、変換関数−音響モデルデータベース２０３に格納する。

図３（ｃ）に示すように、変換関数―音響モデルデータベース２０３には、「クラスタＩＤ」と「音響モデル」と「変換関数」とが組として記憶される。「クラスタＩＤ」は、図３（ｂ）を用いて説明した処理において決定されたクラスタの番号である。「音響モデル」は、クラスタに含まれる分析合成パラメータ（音響特徴量ベクトル）の確率分布表現、すなわち「平均ベクトル」と「共分散行列」または「分散ベクトル」とである。図３（ｃ）では、「音響モデル」として、「平均ベクトル」と「分散ベクトル」とを用いている。「変換関数」は、クラスタを代表する音声Ａを音声Ｂに変換する関数である。例えば、「クラスタＩＤ」が「１」のクラスタの「音響モデル」として「平均ベクトル」（ａ１，ｂ１，ｃ１，…）および「分散ベクトル」（α１，β１，…）が割り当てられており、その音響モデルに対応する音声Ａから音声Ｂへの「変換関数」として「ｆ１」が割り当てられている。

なお、ここでは説明の簡便のため、音声Ａと音声Ｂの２種類の音声セットのみを用いるものとしているが、多数種類の音声セットより、クラスタを作成し、変換の目標音声によって各クラスタに複数個の関数を設定するものとしても良い。また、ここでは分析合成パラメータとしてメルケプストラム係数を用いたが、ケプストラム係数、スペクトル包絡、声道フィルタ係数等、音韻の特徴を示す量的パラメータであればこれ以外のパラメータであっても良い。

かかる構成によれば、マッチング部２０４ａが入力音声の音響的特徴と適合する音響モデルに対応する変換関数を変換関数−音響モデルデータベース２０３より抽出し、音声変換部２０５がその変換関数に従って入力音声を変換することができる。これにより、音声変換部２０５は、音声特徴量の時間的変動による音韻内の音響的特徴のばらつきに関わり無く、入力音声の音響的特徴に合わせた変換関数を取得して分析合成パラメータを変更することとなる。このため、音声合成部２０６は、入力音声の音韻に対する発声時のばらつきに影響されることなく、歪や雑音の発生のない、高い音質の変換音声を生成することができる。

なお、実施の形態１に係る音声変換装置の構成は、図１に示した音声変換装置１０に限定されるものではなく、以下に示すようなものであっても良い。図４は、実施の形態１に係る音声変換装置の他の機能的構成の一例を示すブロック図である。

図１に示した音声変換装置１０では、変換関数と音響モデルとを対応させて記録した変換関数−音響モデルデータベース２０３を設けたが、音声変換装置１１では、変換関数―音響モデルデータベース２０３の代わりに、音響モデルデータベース２０７と変換関数テーブル２０８とを用いている。

音響モデルデータベース２０７は、クラスタごとに設けられた「音響モデル」と当該音響モデルの識別子である「音響モデルＩＤ」とを対応付けて記憶しているデータベースである。なお、「音響モデルＩＤ」は、図３（ｃ）に示した「クラスタＩＤ」に相当する。

変換関数テーブル２０８は、音響モデルデータベース２０７の「音響モデルＩＤ」と、音響モデルＩＤで特定される音響モデルに対応する音声Ａから音声Ｂへの「変換関数」とが対応付けられて記憶されている。例えば、「音響モデルＩＤ」が「２」の音響モデルとして、音響モデルデータベース２０７に「平均ベクトル」（ａ２，ｂ２，ｃ２，…）と「分散ベクトル」（α２，β２，…）とが記憶されており、変換関数テーブル２０８に「変換関数」（ｆ２）が記憶されている。

また、音声変換装置１１は、音声変換装置１０における変換方法生成部２１０ａの代わりに、変換方法生成部２１０ｂを備えている。変換方法生成部２１０ｂは、入力音声の分析合成パラメータを変換する変換方法を生成するための処理部であり、マッチング部２０４ｂおよび変換関数選択部２０９ａを備えている。マッチング部２０４ｂは、入力音声の音響的特徴と適合する音響モデルを音響モデルデータベース２０７より選択し、当該音響モデルの音響モデルＩＤを変換関数選択部２０９ａに出力する。変換関数選択部２０９ａは、音響モデルＩＤに対応した変換関数を変換関数テーブル２０８より選択し、音声変換部２０５に出力する。それ以外の処理は、音声変換装置１０と同様である。

（実施の形態２）
以下、本発明の実施の形態２に係る音声変換装置について説明する。実施の形態２に係る音声変換装置では、入力音声の分析合成パラメータに適合する音響モデルが変化する境界付近のフレームについては、境界の前後の音響モデルにそれぞれ割り当てられる２つの変換関数を用いて、２つの変換関数を補間するような変換関数を作成する点が異なる。また、実施の形態２に係る声質変換装置では、当該境界付近のフレームについては、補間された変換関数を用いて、入力音声の音響的特徴を変換して出力する。

図５は、本発明の実施の形態２の音声変換装置の機能的構成を示すブロック図である。
以下の説明では、実施の形態１に示した音声変換装置と同一の構成要素については、その名称および機能も同一であるため、説明を繰り返さない。

音声変換装置２０は、図１に示した音声変換装置１０の構成において、変換方法生成部２１０ａの代わりに変換方法生成部２１０ｃを用いている。変換方法生成部２１０ｃは、入力音声の分析合成パラメータを変換する変換方法を生成するための処理部であり、
マッチング部２０４ｃと、関数補間部３０１ａとを備えている。

マッチング部２０４ｃは、変換関数−音響モデルデータベース２０３を参照して入力音声の分析合成パラメータと音響モデルの分析パラメータの確率分布とを比較し、１つの音響モデルが連続して適合した一連のフレームに対して、１つの変換関数を抽出し、当該変換関数とその変換関数を適用する時間幅とを出力する処理部である。関数補間部３０１ａは、抽出された変換関数が異なる互いに隣接するフレームとその周辺のフレームとについて、変換関数を補間する処理部である。

なお、マッチング部２０４ｃは、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択するマッチング手段の一例である。関数補間部３０１ａは、選択された前記音声変換方法が変化するフレーム位置を含む所定数のフレームである境界領域の音声変換方法を、当該境界領域よりも時間的に前の音声変換方法および後の音声変換方法を用いて補間することにより生成する補間手段の一例である。

次に、実施の形態２に係る音声変換装置２０の動作について説明する。図６は、本発明の実施の形態２に係る音声変換装置２０の動作を示すフローチャートである。

音声入力部２０１は、音声波形の入力を受け付ける（ステップＳ２０１）。音声分析部２０２は、ステップＳ２０１で入力された音声波形をフレームごとに分析し、分析合成パラメータ列を生成する（ステップＳ２０２）。マッチング部２０４ｃは、分析対象のフレームである分析フレームごとに変換関数−音響モデルデータベース２０３を参照して、当該分析フレームの分析合成パラメータと変換関数−音響モデルデータベース２０３に記憶された音響モデルの分析パラメータとを比較し、当該分析フレームの分析合成パラメータに最も近い分析パラメータを持つ音響モデルを特定する（ステップＳ２０３）。ステップＳ２０１〜Ｓ２０３の処理は、図２を参照して説明した実施の形態１に係る音声変換装置１０が実行する処理と同様である。

次に、マッチング部２０４ｃは、同一の音響モデルが連続的に適合するフレームの範囲を同定し（ステップＳ３０１）、同一の音響モデルが適合した音声内のフレーム列すなわち時間幅ごとに変換関数を出力する（ステップＳ３０２）。関数補間部３０１ａは、ステップＳ３０２で出力された同一の音響モデルが適合したフレーム列または時間幅の始点または終点、すなわち適合した音響モデルが切り替わる境界位置を抽出する。また、関数補間部３０１ａは、境界位置を挟むフレーム及びその周辺の所定数のフレームを境界領域とし、境界領域以外のフレームに対しては、ステップＳ３０２で抽出された変換関数をそのまま音声変換部２０５に出力し、境界領域については境界領域の前後のフレームにあてはめられた２つの変換関数を用いて、補間により変換関数を生成して、分析フレームごとの変換関数を音声変換部２０５に出力する（ステップＳ３０３）。変換関数の補間処理（ステップＳ３０３）の詳細については後述する。

次に、音声変換部２０５はステップＳ３０３で出力された変換関数に従って各フレームの分析合成パラメータを変換する（ステップＳ２０６）。音声合成部２０６は、ステップＳ２０６で変換された分析合成パラメータに従って、音声波形を合成する（ステップＳ２０７）。なお、ステップＳ２０６およびＳ２０７の処理は、図２を参照して説明した実施の形態１に係る音声変換装置１０が実行する処理と同様である。

次に、変換関数の補間処理（図６のステップＳ３０３）について、具体例を挙げながら説明する。図７は、音響モデルの境界領域において変換関数の補間を行うフレームを模式的に示した図である。図７では、説明の便宜のために各フレームにフレーム番号を付している。

例えば、図７に示すようにクラスタＩＤ「１」の音響モデルが適合するフレームが、１フレーム目から６フレーム目まで６フレーム連続し、続いてクラスタＩＤ「２」の音響モデルが適合するフレームが、７フレーム目から１０フレーム目まで４フレーム連続し、続いてクラスタＩＤ「３」の音響モデルが適合するフレームが、１１フレーム目から１７フレーム目まで７フレーム連続し、続いてクラスタＩＤ「４」の音響モデルが適合するフレームが、１８フレーム目から２２フレーム目まで５フレーム連続するものとする。この場合に、境界領域を、異なる音響モデルが適合されたフレームが隣接する点、すなわち適合する音響モデルが切り替わったフレーム境界を挟んで４フレームとする。例えば、クラスタＩＤ「１」の音響モデルとクラスタＩＤ「２」の音響モデルとのフレーム境界は６フレーム目と７フレーム目の間であるため、境界領域は５フレーム目から８フレーム目までの４フレームになる。同様に、クラスタＩＤ「２」の音響モデルとクラスタＩＤ「３」の音響モデルとの境界領域は９フレーム目から１２フレーム目までの４フレームになり、クラスタＩＤ「３」の音響モデルとクラスタＩＤ「４」の音響モデルとの境界領域は１６フレーム目から１９フレーム目までの４フレームになる。

境界領域に含まれる４フレームについては各フレームの変換関数を境界領域の両端に隣接するフレームの変換関数を元に線形補間により生成するものとする。例えば、５フレーム目から８フレーム目までの境界領域は、４フレーム目の変換関数と９フレーム目の変換関数を元に線形補間により生成される。

かかる構成によればマッチング部２０４ｃで入力音声の音響的特徴と適合する音響モデルに対応する変換関数を変換関数−音響モデルデータベース２０３より抽出し、関数補間部３０１ａが、変換関数が切り替わる付近の境界領域について、境界領域に隣接するフレームの変換関数に基づいて補間により変換関数を生成し、音声変換部２０５が、その変換関数に従って音声を変換することができる。これにより、音声特徴量の時間的変動による音韻内の音響的特徴のばらつきに関わり無く、入力音声の音響的特徴に合わせた変換関数を取得して分析合成パラメータを変更することができる。そのうえ、変換関数が不連続に変化することにより変換後の音声が不連続になることを防ぐことができる。よって、入力音声の音韻に対する発声時のばらつきによる歪や雑音の発生を防ぎ、さらに変換時に適用する関数の不連続な変化による変換音声の不連続性とそれによるクリック様の雑音の発生、音声の不自然さ等の音質劣化を防いだ高音質な変換音声を生成することができる。

なお、図７においては、４フレーム分について変換関数の補間をするものとして説明を行なったが、これより多くの連続するフレームを境界領域として関数の補間を行うものとしても良い。境界領域は経験的に３０ミリセカンド程度までが適当である。

なお、本実施の形態の図７において、境界領域についてのみ線形補間をし、変換関数を生成するものとしたが、補間の対象とされるフレームおよび補間の方法は、これに限定されるものではない。例えば、同一の音響モデルが適合したフレーム列について、フレーム列の中央に位置する１フレームまたは数フレームを変換関数固定フレームとし、変換関数固定フレームについては、音響モデルに対応する変換関数をそのまま用い、それ以外のフレームについては、時間的に前後に位置する変換関数固定フレームで使用される２つの変換関数をスプライン補間等によって滑らかにつなぐことにより、補間された変換関数を作成し、変換関数の不連続を緩和するようにしても良い。

（実施の形態３）
以下、本発明の実施の形態３に係る音声変換装置について説明する。実施の形態３に係る音声変換装置では、各フレームに対して、適宜複数の変換関数を合成し、合成後の変換関数に基づいて、入力音声の分析合成パラメータを変換する点が、実施の形態１および２に係る音声変換装置とは異なる。

図８は、本発明の実施の形態３に係る音声変換装置の機能的構成を示すブロック図である。

以下の説明では、実施の形態１および２に示した音声変換装置と同一の構成要素については、その名称および機能も同一であるため、説明を繰り返さない。

図８において、図１と同じ構成要素については同じ符号を用い、説明を省略する。
音声変換装置３０は、図１に示した音声変換装置１０の構成において、変換方法生成部２１０ａの代わりに変換方法生成部２１０ｄを備えている。変換方法生成部２１０ｄは、入力音声の分析合成パラメータを変換する変換方法を生成するための処理部であり、マッチング部２０４ｄと関数合成部４０１とを備えている。

マッチング部２０４ｄは、変換関数−音響モデルデータベース２０３を参照して入力音声の分析合成パラメータと音響モデルの分析パラメータの確率分布とを比較し、マッチングを行い、マッチングの尤度が閾値より大きかったすべてのモデルについて、対応する変換関数を抽出し、当該変換関数と対応する音響モデルのマッチング尤度とを出力する処理部である。関数合成部４０１は、複数の変換関数をマッチング尤度に基づいて重みを付けて合成する処理部である。

なお、マッチング部２０４ｄは、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、比較時の尤度が所定の閾値よりも大きい音響モデルに対応する音声変換方法と当該尤度とを出力するマッチング手段の一例である。関数合成部４０１は、前記マッチング手段より出力された尤度の比に基づいて、前記音声変換方法を合成する合成手段の一例である。

次に、実施の形態３に係る音声変換装置３０の動作について説明する。図９は、本発明の実施の形態３に係る音声変換装置の動作を示したフローチャートである。

音声入力部２０１は、音声波形の入力を受け付ける（ステップＳ２０１）。音声分析部２０２は、ステップＳ２０１で入力された音声波形をフレームごとに分析し、分析合成パラメータ列を生成する（ステップＳ２０２）。マッチング部２０４ｄは、分析対象のフレームである分析フレームごとに変換関数−音響モデルデータベース２０３を参照して、当該分析フレームの分析合成パラメータと変換関数−音響モデルデータベース２０３に記憶された音響モデルの分析パラメータとのマッチングを行い、当該分析フレームごとに分析合成パラメータと各音響モデルとのマッチング尤度を求める（ステップＳ２０３ｄ）。マッチング部２０４ｄは、尤度が閾値以上の音響モデルに対応する変換関数をすべて抽出し（ステップＳ４０１）、フレームごとに少なくとも１つの変換関数と対応する音響モデルのマッチング尤度とを出力する（ステップＳ４０２）。閾値は例えば「０．２」とする。関数合成部４０１は、ステップＳ４０２で出力された変換関数が複数存在する場合には、複数の変換関数に対応した尤度比に基づいて、各変換関数の重みを決定し、その重みの割合で関数を混合することで、当該フレームの変換関数を合成し、音声変換部２０５に出力する（ステップＳ４０３）。なお、尤度が閾値以上の音響モデルに対応する変換関数が１つしかない場合には、関数合成部４０１は、当該変換関数をそのまま音声変換部２０５に出力する。

次に、音声変換部２０５は、ステップＳ４０３で関数合成部４０１から出力された変換関数に従って、各フレームの分析合成パラメータを変換する（ステップＳ２０６）。音声合成部２０６は、ステップＳ２０６で変換された分析合成パラメータに従って、音声波形を合成する（ステップＳ２０７）。

かかる構成によれば、マッチング部２０４ｄで入力音声の音響的特徴に対して閾値以上の尤度を有する音響モデルに対応する変換関数を変換関数−音響モデルデータベース２０３よりすべて抽出し、関数合成部４０１が尤度比に従って、抽出されたすべての変換関数に重みを付けてそれらを合成している。したがって、音声特徴量の時間的変動による音韻内の音響的特徴のばらつきに関わり無く、入力音声の音響的特徴に合わせた変換関数を取得して分析合成パラメータを変更している。そのうえ、入力音声の音響的特徴が音響モデルに合わないことにより音響モデルの最大確率近傍のデータより生成された変換関数を適用すると変換後の音声が劣化する可能性が高い場合であっても、複数個の音響モデルに対応する変換関数から尤度比に基づき入力音声に適した変換関数を合成することができる。このため、入力音声の音韻に対する発声時のばらつきによる歪や雑音の発生を防ぎ、音響モデルが当てはまらないような入力音声に対して不適切な変換関数を当てはめて音質を劣化させることを防ぐことができる。さらには音響的特徴が変動し、適合する音響モデルが切り替わる境界領域であっても、変換関数が突然切り替わることがなく、尤度に応じて徐々に変換関数が変化していくことになり、不連続による雑音や違和感を発生させない高音質な変換音声を生成することができる。

なお、本実施の形態のステップＳ４０２で入力音声に対する音響モデルの尤度を抽出し、ステップＳ４０３で尤度比によって関数を合成する際の重みを決定したが、音響モデルが確率モデルではなく分析パラメータ空間内の領域（クラスタ）として表現されている場合は、本実施の形態の尤度の代わりにクラスタ重心からの距離を用いるものとしても良い。

また、本実施の形態のステップＳ４０２で閾値は０．２としたがこれ以外の値でも良い。

（実施の形態４）
以下、本発明の実施の形態４に係る音声変換装置について説明する。実施の形態４に係る音声変換装置では、各フレームに対して、入力音声の分析合成パラメータと予め用意された音響モデルの分析パラメータの確率分布とのマッチングを行なった際の尤度を算出し、算出された尤度が所定の閾値未満の場合に、当該分析合成パラメータを変換するための変換関数を、尤度が所定の閾値以上のフレームで選択された変換関数を用いて補間する点が、実施の形態１〜３に係る音声変換装置とは異なる。

図１０は、本発明の実施の形態４に係る音声変換装置の機能的構成を示すブロック図である。

以下の説明では、実施の形態１〜３に示した音声変換装置と同一の構成要素については、その名称および機能も同一であるため、説明を繰り返さない。

音声変換装置４０は、図１に示した音声変換装置１０の構成において、変換方法生成部２１０ａの代わりに変換方法生成部２１０ｅを備えている。変換方法生成部２１０ｅは、入力音声の分析合成パラメータを変換する変換方法を生成するための処理部であり、マッチング部２０４ｅと、尤度判定部５０１ａと、関数補間部３０１ｂとを備えている。

マッチング部２０４ｅは、変換関数−音響モデルデータベース２０３を参照して入力音声の分析合成パラメータと音響モデルの分析パラメータの確率分布とを比較し、マッチングを行い、最尤の音響モデルに対応する変換関数を抽出し、当該変換関数と当該変換関数に対応する音響モデルのマッチング尤度とを出力する処理部である。

尤度判定部５０１ａは、マッチング部２０４ｅが出力した分析対象である分析フレームごとの尤度が、あらかじめ定められた閾値以上であるかどうかを判定し、閾値未満の分析フレームに対しては変換関数を差し替えることを指示する「変換関数差し替え指示信号」を付与する処理部である。

関数補間部３０１ｂは、尤度判定部５０１ａで尤度が閾値未満と判断された分析フレームの変換関数を、尤度が閾値以上と判定されたフレームの変換関数より補間して生成する処理部である。

なお、変換方法生成部２１０ｅは、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満のフレームに対しては、尤度が前記所定の閾値以上のフレームに対する音声変換方法を用いて補間することにより、新たな音声変換方法を生成する変換方法生成手段の一例である。

次に、実施の形態４に係る音声変換装置４０の動作について説明する。図１１は本発明の実施の形態４に係る音声変換装置の動作を示したフローチャートである。

音声入力部２０１は、音声波形の入力を受け付ける（ステップＳ２０１）。音声分析部２０２は、ステップＳ２０１で入力された音声波形をフレームごとに分析し、分析合成パラメータ列を生成する（ステップＳ２０２）。

マッチング部２０４ｅは、分析フレームごとに変換関数−音響モデルデータベース２０３を参照して、当該分析フレームの分析合成パラメータと変換関数−音響モデルデータベース２０３に記憶された音響モデルの分析パラメータとのマッチングを行う（ステップＳ２０３）。マッチング部２０４ｅは、適合した音響モデルに対応する変換関数を、変換関数―音響モデルデータベース２０３より抽出する（ステップＳ２０４）。さらに、マッチング部２０４ｅは、適合した変換関数と、当該変換関数に対応する音響モデルのマッチング尤度とを尤度判定部５０１ａに出力する（ステップＳ５０１）。尤度判定部５０１ａは、ステップＳ５０１で出力された分析フレームごとの尤度が閾値以上であるかどうかを判断し、閾値未満のフレームについては変換関数を差し替えることを指示する「変換関数差し替え指示信号」を付与する（ステップＳ５０２）。閾値は例えば尤度０．６とする。

関数補間部３０１ｂは、ステップＳ５０２で「変換関数差し替え指示信号」が付与されたフレームの直近で尤度が閾値以上のフレーム（すなわち、「変換関数差し替え指示信号」が付与されていないフレーム）の変換関数から補間することにより変換関数を作成し、ステップＳ５０２で「変換関数差し替え指示信号」が付与されたフレームの変換関数を、作成された変換関数に差し替え、音声変換部２０５に差し替えた変換関数を出力する（ステップＳ５０３）。なお、関数補間部３０１ｂは、「変換関数差し替え指示信号」が付与されていないフレームについては、尤度判定部５０１ａを介してマッチング部２０４ｅより出力された変換関数をそのまま音声変換部２０５に出力する。尤度判定処理（ステップＳ５０２）および変換関数補間処理（図１１のステップＳ５０３）については、後述する。

次に、音声変換部２０５は、ステップＳ５０３で関数補間部３０１ｂから出力された変換関数に従って、各フレームの分析合成パラメータを変換する（ステップＳ２０６）。音声合成部２０６は、ステップＳ２０６で変換された分析合成パラメータに従って、音声波形を合成する（ステップＳ２０７）。

次に、尤度判定部５０１ａが実行する尤度判定処理（ステップＳ５０２）および関数補間部３０１ｂが実行する変換関数補間処理（図１１のステップＳ５０３）について説明する。図１２は、音響モデルの尤度が低い場合に補間を行うフレームを模式的に示した図である。図１２では、説明の便宜のために各フレームにフレーム番号を付している。

例えば、図１２に示すように、マッチング部２０４ｅより各分析フレームの音響モデルの尤度が出力されたとする。尤度判定部５０１ａは、各分析フレームの音響モデルの尤度が０．６未満であるか否かを判断し、０．６未満であれば当該フレームに「変換関数差し替え指示信号」を付与する（図１１のステップＳ５０２）。すなわち、５フレーム目、６フレーム目および９フレーム目の尤度がそれぞれ０．４８、０．４３および０．３４であるため、これらのフレームに対して「変換関数差し替え指示信号」が付与されている。

次に、関数補間部３０１ｂは、「変換関数差し替え指示信号」が付与された１つ以上フレームからなる領域に対し、その領域の直前および直後の「変換関数差し替え指示信号」の付与されていないフレームの変換関数を用いて、当該領域のフレーム数に対して線形に関数を補間し、「変換関数差し替え指示信号」が付与されたフレームの変換関数を生成する。なお、補間はここではフレーム数に対して線形としたが、補間方法はこれ以外でもよく、例えばスプライン関数やシグモイド関数を用いて、「変換関数差し替え指示信号」が付された領域のフレームの変換関数が、当該領域の直前および直後の「変換関数差し替え指示信号」の付与されていないフレームの変換関数と滑らかに接続されるように補間するようにしても良い。

かかる構成によればマッチング部２０４ｅで入力音声の音響的特徴に適合する音響モデルに対応する変換関数を変換関数−音響モデルデータベース２０３より抽出し、尤度判定部５０１ａでの判定結果である尤度が閾値に満たないフレームについては、関数補間部３０１ｂで前後のフレームの変換関数より、尤度が閾値に満たないフレームの変換関数を補間して生成している。

このことにより、音韻内の音響的特徴のばらつきに関わり無く、入力音声の音響的特徴に合わせた変換関数を取得して分析合成パラメータを変更することができる。そのうえ、分析の失敗やノイズの混入等により、どの音響モデルに対しても尤度が低く不適切な変換関数が適用されている可能性のあるフレームがある場合にも、不適切な変換関数を適切な変換関数に差し替えている。このため、不適切な変換関数を当てはめることにより音質を劣化させることを防ぎ、変換関数の不連続による雑音や違和感を発生させない高音質な変換音声を生成することができる。

なお、本実施の形態のステップＳ５０１およびＳ５０２で、マッチング部２０４ｅが変換関数を抽出し、尤度と共に出力した後、尤度判定部５０１ａが尤度が閾値を越えるか否かを判断して変換関数の差し替えを決定したが、マッチング部２０４ｅが入力音声と音響モデルとのマッチングを行う際に、閾値未満の分析フレームについては変換関数を出力しないものとしても良い。

また、本実施の形態のステップＳ５０２で尤度の閾値を０．６として判定したが、これ以外の値でも良い。

さらに、本実施の形態のステップＳ５０１で入力音声に対する音響モデルの尤度を抽出し、尤度が閾値を越えるか否かを判断したが、音響モデルが確率モデルではなく分析パラメータ空間内の領域（クラスタ）として表現されている場合は、本実施の形態の尤度の代わりにクラスタ重心からの距離を用いるものとしても良い。

（実施の形態５）
以下、本発明の実施の形態５に係る音声変換装置について説明する。実施の形態５に係る音声変換装置では、各フレームに対して、入力音声の分析合成パラメータと予め用意された音響モデルの分析パラメータの確率分布とのマッチングを行なった際の尤度を算出し、算出された尤度が所定の閾値未満の場合に、尤度が閾値以上のフレームとの接続コストが最小となるように変換関数を選択する点が、実施の形態１〜４に係る音声変換装置とは異なる。

図１３は、本発明の実施の形態５に係る音声変換装置の機能的構成を示すブロック図である。

以下の説明では、実施の形態１〜４に示した音声変換装置と同一の構成要素については、その名称および機能も同一であるため、説明を繰り返さない。

音声変換装置５０は、図４に示した音声変換装置１１の構成において、変換方法生成部２１０ａの代わりに、変換方法生成部２１０ｆを備えている。変換方法生成部２１０ｆは、入力音声の分析合成パラメータを変換する変換方法を生成するための処理部であり、マッチング部２０４ｆと、尤度判定部５０１ｂと、変換関数選択部２０９ｂとを備えている。

マッチング部２０４ｆは、音響モデルデータベース２０７を参照して入力音声の分析合成パラメータと音響モデルの分析パラメータの確率分布とを比較して、最尤の音響モデルの音響モデルＩＤと尤度とを尤度判定部５０１ｂに出力する処理部である。

尤度判定部５０１ｂは、マッチング部２０４ｆが出力した分析フレームごとの尤度があらかじめ定められた閾値以上であるかどうかを判定し、閾値未満のフレームに対しては変換関数を再選択することを指示する「変換関数選択指示信号」を付与し、閾値以上のフレームに対しては音響モデルＩＤを変換関数選択部２０９ｂに出力する処理部である。

変換関数選択部２０９ｂは、尤度判定部５０１ｂを介してマッチング部２０４ｆより出力された音響モデルＩＤと尤度判定部５０１ｂより出力された「変換関数選択指示信号」とに基づいて、音響モデルとのマッチングの尤度が閾値未満と判断された分析フレームの変換関数を、尤度が閾値以上と判定されたフレームの変換関数との接続コストが小さくなるように再選択する処理部である。

なお、変換方法生成部２１０ｆは、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満のフレームに対しては、尤度が前記所定の閾値以上のフレームに対する音声変換方法との接続コストが最小となるように音声変換方法の再選択を行なう変換方法生成手段の一例である。

次に、実施の形態５に係る音声変換装置の動作について説明する。図１４は本発明の実施の形態５に係る音声変換装置の動作を示したフローチャートである。

マッチング部２０４ｆは、分析フレームごとに音響モデルデータベース２０７を参照して、当該分析フレームの分析合成パラメータと音響モデルデータベース２０７に記憶された音響モデルの分析パラメータとのマッチングを行い、分析合成パラメータに適合する音響モデルを抽出する（ステップＳ２０３）。マッチング部２０４ｆは、適合した音響モデルの音響モデルＩＤとマッチングの尤度とを尤度判定部５０１ｂに出力する（ステップＳ６０１）。尤度判定部５０１ｂは、ステップＳ６０１で出力された分析フレームごとの尤度が閾値以上であるかどうかを判断し、閾値未満のフレームについては変換関数の再選択を指示する「変換関数選択指示信号」を付与する（ステップＳ６０２）。閾値は例えば尤度０．６とする。変換関数選択部２０９ｂは、まず変換関数選択指示信号が付与されていない分析フレームについて、ステップＳ６０１でマッチング部２０４ｆより出力された音響モデルＩＤに従って変換関数テーブル２０８より音響モデルに対応する変換関数を取得し、音声変換部２０５に出力する（ステップＳ６０３）。また、変換関数選択部２０９ｂは、変換関数選択指示信号が付与された分析フレームに対して、当該フレームの直前および直後の変換関数選択指示信号が付与されていないフレームの変換関数との接続コストが最小になるように変換関数テーブル２０８より変換関数を選択し、音声変換部２０５に出力する（ステップＳ６０４）。接続コストを最小とするときの変換関数は、次式（１）に基づいて選択される。

さらに、ある関数接続位置ｋにおける接続コストは、例えばここでは変換関数が分析合成パラメータの移動量として記述されているため、次式（２）のように表すことができる。

変換しようとする音声中または変換関数選択指示信号が付与された連続するフレーム列中のすべての関数接続位置ｋに対して、式（２）により接続コストを求め、合計したものが式（１）によって示される音声全体または変換関数選択指示信号が付与された連続するフレーム列全体の接続コストとなる。変換関数選択部２０９ｂは、式（１）による接続コストが最小となるような関数列を例えばビタービアルゴリズム等を用いて選択することにより、最適な関数を選択する。

なお、変換関数選択指示信号が付与された連続するフレーム列については、連続する範囲を１フレームとみなして式（１）および式（２）を用いて１つの変換関数を選択し、変換関数選択指示信号が付与された連続するフレームすべてに同一の関数を当てはめるものとしても良い。

次に、音声変換部２０５はステップＳ６０３またはステップＳ６０４で出力された変換関数に従って、各フレームの分析合成パラメータを変換する（ステップＳ２０６）。音声合成部２０６は、ステップＳ２０６で変換された分析合成パラメータに従って、音声波形を合成する（ステップＳ２０７）。

かかる構成によればマッチング部２０４ｆで入力音声に適合する音響モデルを音響モデルデータベース２０７より特定し、変換関数選択部２０９ｂがマッチングの尤度が閾値以上のフレームについては音響モデルに対応する変換関数を選択し、尤度が閾値に満たないフレームについては変換関数選択部２０９ｂで前後のフレームの変換関数との接続コストを最小にする変換関数を選択している。

このことにより、音韻内の音響的特徴のばらつきに関わり無く、入力音声の音響的特徴に合わせた変換関数を取得して分析合成パラメータを変更することができる。そのうえ、分析の失敗やノイズの混入等により、どの音響モデルに対しても尤度が低く不適切な変換関数が適用されている可能性のあるフレームがある場合にも、関数の接続コストにより変換関数の再選択を行なっている。このため、不適切な変換関数を当てはめることにより音質を劣化させることを防ぎ、変換関数の不連続による雑音や違和感を発生させない高音質な変換音声を生成することができる。

なお、本実施の形態のステップＳ６０１およびＳ６０２でマッチング部２０４ｆが音響モデルＩＤを抽出し、尤度と共に出力した後、尤度判定部５０１ｂが尤度が閾値を越えるか否かを判断して変換関数の再選択を行なうか否かを決定したが、マッチング部２０４ｆが入力音声と音響モデルとのマッチングを行う際に、閾値未満の分析フレームについては音響モデルＩＤを出力しないものとしても良い。

また、本実施の形態のステップＳ６０１で入力音声に対する音響モデルの尤度を抽出し、尤度が閾値を越えるか否かを判断したが、音響モデルが確率モデルではなく分析パラメータ空間内の領域（クラスタ）として表現されている場合は、本実施の形態の尤度の代わりにクラスタ重心からの距離を用いるものとしても良い。

さらに、本実施の形態のステップＳ６０４では、接続コストは、式（２）に示すように、分析合成パラメータの移動量を用いて記述することにより、変換関数の変化量の差分として記述したが、変換関数によって変換された結果の分析合成パラメータ間の距離を接続コストとしても良い。

なお、本実施の形態のステップＳ６０１およびＳ６０２では、マッチング部２０４ｆが音響モデルデータベース２０７を参照して音響モデルＩＤを抽出し、尤度と共に出力した後、尤度判定部５０１ｂが尤度が閾値を越えるか否かを判断して変換関数の再選択を決定したが、図１５に示すように、変換方法生成部２１０ｇが備えるマッチング部２０４ｇが変換関数−音響モデルデータベース２０３を参照して入力音声と音響モデルとのマッチングを行い、尤度が閾値以上の分析フレームについては変換関数を出力し、閾値未満の分析フレームについては変換関数を出力せず、変換方法生成部２１０ｇが備える関数再選択部６０１は、変換関数が出力されていないフレームについては変換関数−音響モデルデータベース２０３を参照して前後の変換関数との接続コストを最小にする変換関数を選択するようにしてもよい。または、マッチング部２０４ｇは、変換関数とあわせて音響モデルＩＤを出力するものとし、関数再選択部６０１は、変換関数が出力されていないフレームについては変換関数−音響モデルデータベース２０３を参照して前後の音響モデルとの接続コストを最小にする音響モデルを選択し、その音響モデルに対応する変換関数を選択するようにしても良い。

以上、本発明の実施の形態に係る音声変換装置について説明したが、本発明は、この実施の形態に限定されるものではない。

例えば、上述の実施の形態では、音声分析部２０２が入力音声を分析して、分析結果を分析合成パラメータとして記述し、音声変換部２０５が分析合成パラメータを変換関数に基づいて変換するものとしたが、音声の変換方式はこれに限られるものではなく、入力音声の波形に対してフィルタリング、イコライジングまたは伝達関数の変更を行う等の方式でも良い。

本発明は、女性の声を男性の声にしたり、自分の声を好みの声にして応答メッセージを作成することのできる留守番電話機、音声メールを好みの声で作成する電子メール作成システム、入力される様々な声を標準音声に変換して音声認識しやすい声に変える自動音声案内システム、映画の吹き替えやアニメーションのアテレコで、声を修正したり、故人の声に変換したり、洋画の場合には元言語の俳優の声に変換したりすることのできる音声制作システム、アニメーション等の登場人物に視聴者が好みの声を当てはめることのできる視聴システム等に適用できる。

本発明の実施の形態１における音声変換装置の機能的構成を示すブロック図である。本発明の実施の形態１における音声変換装置のフローチャートである。本発明の実施の形態１における変換関数−音響モデルデータベース作成方法の模式図である。本発明の実施の形態１における音声変換装置の異なる方式における機能ブロック図である。本発明の実施の形態２における音声変換装置の機能的構成を示すブロック図である。本発明の実施の形態２における音声変換装置のフローチャートである。本発明の実施の形態２における音声変換装置の境界領域での変換関数の補間の模式図である。本発明の実施の形３における音声変換装置の機能的構成を示すブロック図である。本発明の実施の形態３における音声変換装置のフローチャートである。本発明の実施の形態４における音声変換装置の機能的構成を示すブロック図である。本発明の実施の形態４における音声変換装置のフローチャートである。本発明の実施の形態４における音声変換装置の補間位置の模式図である。本発明の実施の形態５における音声変換装置の機能的構成を示すブロック図である。本発明の実施の形態５における音声変換装置のフローチャートである。従来の音声変換装置の機能的構成を示すブロック図である。従来の音声変換装置の機能的構成を示すブロック図である。

符号の説明

１０、１１、２０、３０、４０、５０音声変換装置
１０１スペクトル包絡抽出部
１０２スペクトル包絡変換部
１０３、２０６音声合成部
１０４音声認識部
１０５音声ラベル情報記憶部
１０６変換ラベル作成部
１０７音素間変換テーブル推定部
１０８変換テーブル選択部
１０９スペクトル包絡変換テーブル記憶部
１０９ａ母音スペクトル包絡変換テーブル
１０９ｂ子音スペクトル包絡変換テーブル
２０１音声入力部
２０２音声分析部
２０３変換関数―音響モデルデータベース
２０４ａ〜２０４ｆマッチング部
２０５音声変換部
２０７音響モデルデータベース
２０８変換関数テーブル
２０９ａ、２０９ｂ変換関数選択部
２１０ａ〜２１０ｆ変換方法生成部
３０１ａ、３０１ｂ関数補間部
４０１関数合成部
５０１ａ、５０１ｂ尤度判定部

Claims

入力音声の音響的特徴を変換して出力する音声変換装置であって、
入力音声の音響的特徴を、予め定められた時間幅を有するフレーム単位で分析する音声分析手段と、
音声の特徴を記述した複数の音響モデルと前記複数の音響モデルにそれぞれ対応付けられた複数の音声変換方法とを記憶しているデータベースと、
前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択することにより、音声変換方法を生成する変換方法生成手段と、
前記変換方法生成手段で生成された前記音声変換方法を用いて前記入力音声の音響的特徴を変換する音声変換手段とを備える
ことを特徴とする音声変換装置。
前記変換方法生成手段は、
前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択するマッチング手段と、
選択された前記音声変換方法が変化するフレーム位置を含む所定数のフレームである境界領域の音声変換方法を、当該境界領域よりも時間的に前の音声変換方法および後の音声変換方法を用いて補間することにより生成する補間手段とを有する
ことを特徴とする請求項１に記載の音声変換装置。
前記変換方法生成手段は、
前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、比較時の尤度が所定の閾値よりも大きい音響モデルに対応する音声変換方法と当該尤度とを出力するマッチング手段と、
前記マッチング手段より出力された尤度の比に基づいて、前記音声変換方法を合成する合成手段とを有し、
前記音声変換手段は、前記合成手段による合成後の音声変換方法を用いて前記入力音声の音響的特徴を変換する
ことを特徴とする請求項１に記載の音声変換装置。
前記変換方法生成手段は、さらに、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満の場合には、選択された前記音声変換方法を変更する
ことを特徴とする請求項１に記載の音声変換装置。
前記変換方法生成手段は、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満のフレームに対しては、尤度が前記所定の閾値以上のフレームに対する音声変換方法を用いて補間することにより、新たな音声変換方法を生成する
ことを特徴とする請求項４に記載の音声変換装置。
前記変換方法生成手段は、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満のフレームに対しては、尤度が前記所定の閾値以上のフレームに対する音声変換方法との接続コストが最小となるように音声変換方法の再選択を行なう
ことを特徴とする請求項４に記載の音声変換装置。
前記入力音声の音響的特徴は、入力音声の音声波形を再合成可能なパラメータである分析合成パラメータで表現されている
ことを特徴とする請求項１〜６のいずれか１項に記載の音声変換装置。
前記変換方法は、前記入力音声の音響的特徴を変形するための変換関数である
ことを特徴とする請求項１〜７のいずれか１項に記載の音声変換装置。
入力音声の音響的特徴を変換して出力する音声変換方法であって、
入力音声の音響的特徴を、予め定められた時間幅を有するフレーム単位で分析する音声分析ステップと、
前記入力音声の音響的特徴と、音声の特徴を記述した複数の音響モデルと前記複数の音響モデルにそれぞれ対応付けられた複数の音声変換方法とを記憶しているデータベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択することにより、音声変換方法を生成する変換方法生成ステップと、
前記変換方法生成ステップで生成された前記音声変換方法を用いて前記入力音声の音響的特徴を変換する音声変換ステップとを含む
ことを特徴とする音声変換方法。
入力音声の音響的特徴を変換して出力するプログラムであって、
入力音声の音響的特徴を、予め定められた時間幅を有するフレーム単位で分析する音声分析ステップと、
前記入力音声の音響的特徴と、音声の特徴を記述した複数の音響モデルと前記複数の音響モデルにそれぞれ対応付けられた複数の音声変換方法とを記憶しているデータベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択することにより、音声変換方法を生成する変換方法生成ステップと、
前記変換方法生成ステップで生成された前記音声変換方法を用いて前記入力音声の音響的特徴を変換する音声変換ステップとをコンピュータに実行させる
ことを特徴とするプログラム。