JP2007178686A - 音声変換装置 - Google Patents

音声変換装置 Download PDF

Info

Publication number
JP2007178686A
JP2007178686A JP2005376597A JP2005376597A JP2007178686A JP 2007178686 A JP2007178686 A JP 2007178686A JP 2005376597 A JP2005376597 A JP 2005376597A JP 2005376597 A JP2005376597 A JP 2005376597A JP 2007178686 A JP2007178686 A JP 2007178686A
Authority
JP
Japan
Prior art keywords
speech
conversion
voice
acoustic
conversion method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005376597A
Other languages
English (en)
Inventor
Yumiko Kato
弓子 加藤
Yoshifumi Hirose
良文 廣瀬
Shinichi Yoshizawa
伸一 芳澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2005376597A priority Critical patent/JP2007178686A/ja
Publication of JP2007178686A publication Critical patent/JP2007178686A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】入力音声の音韻性を保ちつつ、歪や雑音の発生等の音質の劣化が少ない変換音声を生成する音声変換装置を提供する。
【解決手段】入力音声の音響的特徴を変換して出力する音声変換装置10であって、入力音声の音響的特徴を、予め定められた時間幅を有するフレーム単位で分析する音声分析部202と、音声の特徴を記述した複数の音響モデルと複数の音響モデルにそれぞれ対応付けられた複数の音声変換方法とを記憶している変換関数―音響モデルデータベース203と、入力音声の音響的特徴とデータベースに記憶されている音響モデルとを比較し、音響的特徴に最も近い音響モデルに対応付けられた音声変換方法をデータベースから選択することにより、音声変換方法を生成する変換方法生成部210aと、変換方法生成部210aで生成された音声変換方法を用いて入力音声の音響的特徴を変換する音声変換部205とを備える。
【選択図】図1

Description

本発明は入力音声の特徴を変換し、元の音声とは異なる特徴、すなわち元の音声とは異なる音色、声の高さ、強さ等の特徴を持つ音声へと変換する音声変換装置に関するものである。
従来、入力音声の特徴を変換する音声変換装置が種々提案されている。簡易な音声変換装置としては、入力音声の周波数特徴を全体に高くする方向にシフトさせる、または低くする方向にシフトさせることにより、入力音声の持つ周波数特性を捉えにくくし、入力音声の話者特徴を消すものが知られている。また、イコライザによる入力音声の周波数特徴の変形、入力音声の時間軸上での引き延ばしまたは短縮、基本周波数のシフト等、入力音声と異なる特徴を持つ音声に変換する技術は多く知られている。
しかし、これらの多くは、入力音声が時間的に変動するものであるにもかかわらず、入力音声に対する変換処理は一定であるため、入力音声の変動によって歪が生じ音韻性が損なわれたり、ノイズが発生したりするなど、大きな音質劣化を引き起こしていた。
これに対して、音声の音韻性に着目した音声変換装置が提案されている(例えば、特許文献1および特許文献2参照。)。特許文献1に開示されている技術では、音声認識により入力音声の音韻を特定した後、特定された音韻に対応した変換関数を入力音声に適用して、入力音声の声質を変換している。また、特許文献2に開示されている技術では、あらかじめ音声に付与された音素ラベルに対応した変換関数を適用して声質を変換する。これらの技術では、入力音声に対して音声認識を行い、入力音声の各部分の音韻を判別し、その判別された音韻種類に基づいて、スペクトル包絡を変換する関数を選択する。
図16は、特許文献1に記載された従来の音声変換装置の構成を示すブロック図である。音声認識部104は入力音声の認識を行い、入力音声の各部分の音韻を特定する。変換テーブル選択部108は、認識された各音韻の種類に対応するスペクトル包絡変換関数をスペクトル包絡変換テーブル記憶部109に記憶された母音スペクトル包絡変換テーブル109aまたは子音スペクトル包絡変換テーブル109bより取得して、音韻の時間幅の中心点における変換関数とする。音素間変換テーブル推定部107は、選択された音韻の中心点における変換関数を用いて、中心点以外の点に対する変換関数を補間することにより生成する。スペクトル包絡変換部102は、変換関数に従って、入力音声のスペクトル包絡を変換する。これにより、入力音声の特徴を変換することができる。
特開2002−215198号公報(第6−7頁、図3) 特開2002−215199号公報(第5頁)
しかしながら、従来の構成では、音声認識部104が入力音声の各部分に対して音韻ラベルを生成し、音韻の種類に従って変換関数を選択している。このため、音韻内の音響的特徴のばらつきに対応することができず、入力音声の音響的特徴と変換関数とが合致しない場合が発生する。なぜならば、同一の音韻であってもその音響的特徴は大きくばらついている。例えば「a」と認識された音であっても、/e/に近い音響的特徴をもった「a」もあれば、/o/に近い音響的特徴を持った「a」もある。このように音響的特徴のばらつきが大きい音韻という音声の単位に対して、単一の変換関数を対応させると、変換結果の音声の音韻性が崩れたり、スペクトルピークが近づきすぎる等の歪によって雑音が発生する等、音質の劣化を引き起こしやすいという課題を有している。
本発明は、上述の課題を解決するためになされたものであり、入力音声の音韻性を保ちつつ、歪や雑音の発生等の音質の劣化が少ない変換音声を生成する音声変換装置を提供することを目的とする。
上記目的を達成するために、本発明に係る音声変換装置は、入力音声の音響的特徴を変換して出力する音声変換装置であって、入力音声の音響的特徴を、予め定められた時間幅を有するフレーム単位で分析する音声分析手段と、音声の特徴を記述した複数の音響モデルと前記複数の音響モデルにそれぞれ対応付けられた複数の音声変換方法とを記憶しているデータベースと、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択することにより、音声変換方法を生成する変換方法生成手段と、前記変換方法生成手段で生成された前記音声変換方法を用いて前記入力音声の音響的特徴を変換する音声変換手段とを備える。
本構成によると、入力音声の音韻に関わらず、各フレームの音響的特徴に合わせた変換方法を選択することができる。このため、入力音声と変換方法との不整合が無く、入力音声の音韻性を保ちつつ、変換による歪や雑音の発生等の音質の劣化が少ない変換音声を生成することができる。
また、入力音声の音韻に伴う音響的特徴に加え、音韻列や韻律、感情や態度に伴う発声の仕方の変化のように話者内での音響的特徴のばらつき、性別や年齢、方言等の話者間での音響的特徴のばらつきに対応して、入力音声の各フレームの音響的特徴に適した変換方法を選択することができる。このため、入力音声の音韻性を保ちつつ、歪や雑音の発生等、音質の劣化が少ない変換音声を生成することができる。
また、前記変換方法生成手段は、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択するマッチング手段と、選択された前記音声変換方法が変化するフレーム位置を含む所定数のフレームである境界領域の音声変換方法を、当該境界領域よりも時間的に前の音声変換方法および後の音声変換方法を用いて補間することにより生成する補間手段とを有する。
この構成によると、変換関数が不連続に変化することにより、変換後の音声が不連続になることを防ぐことができる。
さらに、前記変換方法生成手段は、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、比較時の尤度が所定の閾値よりも大きい音響モデルに対応する音声変換方法と当該尤度とを出力するマッチング手段と、前記マッチング手段より出力された尤度の比に基づいて、前記音声変換方法を合成する合成手段とを有し、前記音声変換手段は、前記合成手段による合成後の音声変換方法を用いて前記入力音声の音響的特徴を変換する。
さらにまた、前記変換方法生成手段は、さらに、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満の場合には、選択された前記音声変換方法を変更する。
具体的には、前記変換方法生成手段は、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満のフレームに対しては、尤度が前記所定の閾値以上のフレームに対する音声変換方法との接続コストが最小となるように音声変換方法の再選択を行なう。
本構成によると、データベース中のどの音響モデルとも適合しないような音声が入力された際や、入力音声の音響的特徴が変化していく過程に対しても適切な変換方法を決定することができる。このため、変換方法の不整合による歪や雑音の発生がなく、変換方法が急峻に変化することによる雑音や違和感の発生等の音質の劣化が少ない変換音声を生成することができる。
なお、本発明は、このような特徴的な手段を備える音声変換装置として実現することができるだけでなく、音声変換装置に含まれる特徴的な手段をステップとする音声変換方法として実現したり、音声変換方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc-Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明によれば、入力音声とマッチングする音響モデルごとに変換方法を対応させることで、入力音声の各部分の音響的特徴に合わせた変換方法を選択することができるため、入力音声と変換方法との不整合が無く、変換による歪や雑音の発生等の音質の劣化が少ない変換音声を生成することができる音声変換装置を提供することができる。
以下本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図1は、本発明の実施の形態1における音声変換装置の機能的構成を示すブロック図である。
音声変換装置10は、入力音声の音響的特徴を変換して出力する装置であり、音声入力部201と、音声分析部202と、変換関数−音響モデルデータベース203と、変換方法生成部210aと、音声変換部205と、音声合成部206とを備えている。
音声入力部201は、音声波形の入力を受け付ける処理部である。
音声分析部202は、音声波形を分析し、当該波形を再合成可能なパラメータすなわち分析合成パラメータを生成する処理部である。なお、分析は、予め定められた時間幅を有するフレーム単位で行なわれる。
変換関数−音響モデルデータベース203は、音響モデルとその音響モデルごとに対応付けられた入力音声の音響的特徴を変形するための変換関数とを記録しているデータベースである。音響モデルとは、分析パラメータによって記述されたフレーム単位の音声の特徴を示したデータを示す。なお、本発明中における音響モデルには音素は含まれないものとする。
変換方法生成部210aは、入力音声の分析合成パラメータを変換する変換方法を生成するための処理部であり、マッチング部204aを備えている。マッチング部204aは、入力音声の分析合成パラメータと変換関数−音響モデルデータベース203に記録された音響モデルとを比較して、入力音声の分析合成パラメータに最も近い音響モデルに対応する変換関数を選択する処理部である。
音声変換部205はマッチング部204aで選択された変換関数に従って、入力音声の各フレームの分析合成パラメータを変換する処理部である。
音声合成部206は、変換後の分析合成パラメータに従って、音声波形を生成する処理部である。
なお、音声分析部202は、入力音声の音響的特徴を、予め定められた時間幅を有するフレーム単位で分析する音声分析手段の一例である。変換関数―音響モデルデータベース203は、音声の特徴を記述した複数の音響モデルと前記複数の音響モデルにそれぞれ対応付けられた複数の音声変換方法とを記憶しているデータベースの一例である。変換方法生成部210aは、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択することにより、音声変換方法を生成する変換方法生成手段の一例である。音声変換部205は、前記変換方法生成手段で生成された前記音声変換方法を用いて前記入力音声の音響的特徴を変換する音声変換手段の一例である。
次に実施の形態1に係る音声変換装置10の動作について説明する。図2は、実施の形態1に係る音声変換装置10の動作を示すフローチャートである。
音声入力部201は、音声波形の入力を受け付ける(ステップS201)。音声分析部202は、ステップS201で入力された音声波形をフレームごとに分析し、分析合成パラメータ列を生成する(ステップS202)。音声分析部202は、例えば、LPC(Linear Predictive Coding)分析やPARCOR(Partial Autocorrelation)分析のようにスペクトルパラメータと音源パラメータとによって分析合成パラメータを記述する方式を用いて音声波形を分析し、分析合成パラメータ列を生成するものとする。
マッチング部204aは、分析対象のフレームである分析フレームごとに変換関数−音響モデルデータベース203を参照して、分析合成パラメータと変換関数−音響モデルデータベース203内に記憶された音響モデルの分析パラメータとを比較し、当該分析フレームの分析合成パラメータに最も近い分析パラメータを持つ音響モデルを特定する(ステップS203)。また、マッチング部204aは、特定された音響モデルに対応する変換関数を、変換関数―音響モデルデータベース203より抽出する(ステップS204)。さらに、マッチング部204aは、分析フレームごとに、抽出された変換関数を音声変換部205に出力する(ステップS205)。
音声変換部205はステップS204で出力された変換関数に従って、各フレームの分析合成パラメータを変換する(ステップS206)。音声合成部206はステップS206で変換された分析合成パラメータに従って、音声波形を合成する(ステップS207)。
ここで変換関数−音響モデルデータベース203の作成方法の一例について説明する。図3は、変換関数−音響モデルデータベース203の作成方法を模式的に示した図である。図3(a)は、音声Aから音声Bへの声質変換を行う変換関数の生成方法を模式的に示した図である。図3(b)は、音響モデルの生成方法と音響モデルごとの変換関数の生成方法とを模式的に示した図である。図3(c)変換関数―音響モデルデータベース203の一例を示す図である。
まず、図3(a)に基づいて、変換関数の生成方法について説明する。発話内容が同一で、声質の異なる2組の音声セット、音声A(211)と音声B(212)が予め用意されているものとする。例えば、「あらゆる現実を…」という文章を、明るい口調で読み上げた音声A(211)と、怒った口調で読み上げた音声B(212)とが予め用意されているものとする。
両音声データに対して音声分析を行い、分析合成パラメータ(例えばメルケプストラム係数)を抽出する。グラフ213に示すように、音声Aおよび音声Bの分析合成パラメータに対して、DP(Dynamic Programming)マッチングにより、対応する音声波形の時間軸上のアラインメントをとり、音声Aの各フレームに対する音声Bの対応フレームを求める。ここで、「メルケプストラム係数」とは、音声を線形予測モデルでモデル化した時の線形予測係数から得られる対数パワースペクトラムの逆フーリエ変換で定義されるケプストラム係数に対して、スペクトルの周波数軸を音の高さの感覚量であるメルスケールに変換したものである。発話内容が対応する音声Aと音声Bとの各部分に対して、音声Bの分析合成パラメータと音声Aの分析合成パラメータとの差を音声Aから音声Bへの変換関数fとして求める。
一方、音響モデルは、図3(b)に示すように変換元となる音声Aの分析合成パラメータについて、分析合成パラメータで記述された音響特徴量ベクトルが類似する分析合成パラメータ同士を集めるようクラスタリングする。このクラスタ内の音響特徴量ベクトル(分析合成パラメータ)について、音響特徴量ベクトルとそのばらつきとを確率分布(たとえば正規分布)で表現する。この確率分布において、確率が最大になるような分析合成パラメータの値に最も近い値を持つ分析合成パラメータを選択する。選択された分析合成パラメータを変換前の分析合成パラメータとした場合に、図3(a)に示す方法で作成された変換関数を、当該クラスタを代表する変換関数とする。
クラスタ内の音響特徴量ベクトルを正規分布で表現する場合には、クラスタ内の音響特徴量ベクトルの平均ベクトルと共分散行列とを用いて正規分布すなわち確率分布としてクラスタを表現する。なお、クラスタ内の特徴量ベクトル間に相関がない場合には、クラスタ内の音響特徴量ベクトルの平均ベクトルと分散ベクトルとを用いて正規分布すなわち確率分布としてクラスタを表現する。確率分布を正規分布として表現した場合、確率が最大となる音響特徴量ベクトルはクラスタの平均ベクトルであるため、クラスタ中の音響特徴量ベクトルより平均ベクトルに最も近い音響特徴量ベクトルを選択し、その音響特徴量ベクトルに対応する変換関数をクラスタを音声Aを代表する変換関数として抽出し、変換関数−音響モデルデータベース203に格納する。
図3(c)に示すように、変換関数―音響モデルデータベース203には、「クラスタID」と「音響モデル」と「変換関数」とが組として記憶される。「クラスタID」は、図3(b)を用いて説明した処理において決定されたクラスタの番号である。「音響モデル」は、クラスタに含まれる分析合成パラメータ(音響特徴量ベクトル)の確率分布表現、すなわち「平均ベクトル」と「共分散行列」または「分散ベクトル」とである。図3(c)では、「音響モデル」として、「平均ベクトル」と「分散ベクトル」とを用いている。「変換関数」は、クラスタを代表する音声Aを音声Bに変換する関数である。例えば、「クラスタID」が「1」のクラスタの「音響モデル」として「平均ベクトル」(a1,b1,c1,…)および「分散ベクトル」(α1,β1,…)が割り当てられており、その音響モデルに対応する音声Aから音声Bへの「変換関数」として「f1」が割り当てられている。
なお、ここでは説明の簡便のため、音声Aと音声Bの2種類の音声セットのみを用いるものとしているが、多数種類の音声セットより、クラスタを作成し、変換の目標音声によって各クラスタに複数個の関数を設定するものとしても良い。また、ここでは分析合成パラメータとしてメルケプストラム係数を用いたが、ケプストラム係数、スペクトル包絡、声道フィルタ係数等、音韻の特徴を示す量的パラメータであればこれ以外のパラメータであっても良い。
かかる構成によれば、マッチング部204aが入力音声の音響的特徴と適合する音響モデルに対応する変換関数を変換関数−音響モデルデータベース203より抽出し、音声変換部205がその変換関数に従って入力音声を変換することができる。これにより、音声変換部205は、音声特徴量の時間的変動による音韻内の音響的特徴のばらつきに関わり無く、入力音声の音響的特徴に合わせた変換関数を取得して分析合成パラメータを変更することとなる。このため、音声合成部206は、入力音声の音韻に対する発声時のばらつきに影響されることなく、歪や雑音の発生のない、高い音質の変換音声を生成することができる。
なお、実施の形態1に係る音声変換装置の構成は、図1に示した音声変換装置10に限定されるものではなく、以下に示すようなものであっても良い。図4は、実施の形態1に係る音声変換装置の他の機能的構成の一例を示すブロック図である。
図1に示した音声変換装置10では、変換関数と音響モデルとを対応させて記録した変換関数−音響モデルデータベース203を設けたが、音声変換装置11では、変換関数―音響モデルデータベース203の代わりに、音響モデルデータベース207と変換関数テーブル208とを用いている。
音響モデルデータベース207は、クラスタごとに設けられた「音響モデル」と当該音響モデルの識別子である「音響モデルID」とを対応付けて記憶しているデータベースである。なお、「音響モデルID」は、図3(c)に示した「クラスタID」に相当する。
変換関数テーブル208は、音響モデルデータベース207の「音響モデルID」と、音響モデルIDで特定される音響モデルに対応する音声Aから音声Bへの「変換関数」とが対応付けられて記憶されている。例えば、「音響モデルID」が「2」の音響モデルとして、音響モデルデータベース207に「平均ベクトル」(a2,b2,c2,…)と「分散ベクトル」(α2,β2,…)とが記憶されており、変換関数テーブル208に「変換関数」(f2)が記憶されている。
また、音声変換装置11は、音声変換装置10における変換方法生成部210aの代わりに、変換方法生成部210bを備えている。変換方法生成部210bは、入力音声の分析合成パラメータを変換する変換方法を生成するための処理部であり、マッチング部204bおよび変換関数選択部209aを備えている。マッチング部204bは、入力音声の音響的特徴と適合する音響モデルを音響モデルデータベース207より選択し、当該音響モデルの音響モデルIDを変換関数選択部209aに出力する。変換関数選択部209aは、音響モデルIDに対応した変換関数を変換関数テーブル208より選択し、音声変換部205に出力する。それ以外の処理は、音声変換装置10と同様である。
(実施の形態2)
以下、本発明の実施の形態2に係る音声変換装置について説明する。実施の形態2に係る音声変換装置では、入力音声の分析合成パラメータに適合する音響モデルが変化する境界付近のフレームについては、境界の前後の音響モデルにそれぞれ割り当てられる2つの変換関数を用いて、2つの変換関数を補間するような変換関数を作成する点が異なる。また、実施の形態2に係る声質変換装置では、当該境界付近のフレームについては、補間された変換関数を用いて、入力音声の音響的特徴を変換して出力する。
図5は、本発明の実施の形態2の音声変換装置の機能的構成を示すブロック図である。
以下の説明では、実施の形態1に示した音声変換装置と同一の構成要素については、その名称および機能も同一であるため、説明を繰り返さない。
音声変換装置20は、図1に示した音声変換装置10の構成において、変換方法生成部210aの代わりに変換方法生成部210cを用いている。変換方法生成部210cは、入力音声の分析合成パラメータを変換する変換方法を生成するための処理部であり、
マッチング部204cと、関数補間部301aとを備えている。
マッチング部204cは、変換関数−音響モデルデータベース203を参照して入力音声の分析合成パラメータと音響モデルの分析パラメータの確率分布とを比較し、1つの音響モデルが連続して適合した一連のフレームに対して、1つの変換関数を抽出し、当該変換関数とその変換関数を適用する時間幅とを出力する処理部である。関数補間部301aは、抽出された変換関数が異なる互いに隣接するフレームとその周辺のフレームとについて、変換関数を補間する処理部である。
なお、マッチング部204cは、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択するマッチング手段の一例である。関数補間部301aは、選択された前記音声変換方法が変化するフレーム位置を含む所定数のフレームである境界領域の音声変換方法を、当該境界領域よりも時間的に前の音声変換方法および後の音声変換方法を用いて補間することにより生成する補間手段の一例である。
次に、実施の形態2に係る音声変換装置20の動作について説明する。図6は、本発明の実施の形態2に係る音声変換装置20の動作を示すフローチャートである。
音声入力部201は、音声波形の入力を受け付ける(ステップS201)。音声分析部202は、ステップS201で入力された音声波形をフレームごとに分析し、分析合成パラメータ列を生成する(ステップS202)。マッチング部204cは、分析対象のフレームである分析フレームごとに変換関数−音響モデルデータベース203を参照して、当該分析フレームの分析合成パラメータと変換関数−音響モデルデータベース203に記憶された音響モデルの分析パラメータとを比較し、当該分析フレームの分析合成パラメータに最も近い分析パラメータを持つ音響モデルを特定する(ステップS203)。ステップS201〜S203の処理は、図2を参照して説明した実施の形態1に係る音声変換装置10が実行する処理と同様である。
次に、マッチング部204cは、同一の音響モデルが連続的に適合するフレームの範囲を同定し(ステップS301)、同一の音響モデルが適合した音声内のフレーム列すなわち時間幅ごとに変換関数を出力する(ステップS302)。関数補間部301aは、ステップS302で出力された同一の音響モデルが適合したフレーム列または時間幅の始点または終点、すなわち適合した音響モデルが切り替わる境界位置を抽出する。また、関数補間部301aは、境界位置を挟むフレーム及びその周辺の所定数のフレームを境界領域とし、境界領域以外のフレームに対しては、ステップS302で抽出された変換関数をそのまま音声変換部205に出力し、境界領域については境界領域の前後のフレームにあてはめられた2つの変換関数を用いて、補間により変換関数を生成して、分析フレームごとの変換関数を音声変換部205に出力する(ステップS303)。変換関数の補間処理(ステップS303)の詳細については後述する。
次に、音声変換部205はステップS303で出力された変換関数に従って各フレームの分析合成パラメータを変換する(ステップS206)。音声合成部206は、ステップS206で変換された分析合成パラメータに従って、音声波形を合成する(ステップS207)。なお、ステップS206およびS207の処理は、図2を参照して説明した実施の形態1に係る音声変換装置10が実行する処理と同様である。
次に、変換関数の補間処理(図6のステップS303)について、具体例を挙げながら説明する。図7は、音響モデルの境界領域において変換関数の補間を行うフレームを模式的に示した図である。図7では、説明の便宜のために各フレームにフレーム番号を付している。
例えば、図7に示すようにクラスタID「1」の音響モデルが適合するフレームが、1フレーム目から6フレーム目まで6フレーム連続し、続いてクラスタID「2」の音響モデルが適合するフレームが、7フレーム目から10フレーム目まで4フレーム連続し、続いてクラスタID「3」の音響モデルが適合するフレームが、11フレーム目から17フレーム目まで7フレーム連続し、続いてクラスタID「4」の音響モデルが適合するフレームが、18フレーム目から22フレーム目まで5フレーム連続するものとする。この場合に、境界領域を、異なる音響モデルが適合されたフレームが隣接する点、すなわち適合する音響モデルが切り替わったフレーム境界を挟んで4フレームとする。例えば、クラスタID「1」の音響モデルとクラスタID「2」の音響モデルとのフレーム境界は6フレーム目と7フレーム目の間であるため、境界領域は5フレーム目から8フレーム目までの4フレームになる。同様に、クラスタID「2」の音響モデルとクラスタID「3」の音響モデルとの境界領域は9フレーム目から12フレーム目までの4フレームになり、クラスタID「3」の音響モデルとクラスタID「4」の音響モデルとの境界領域は16フレーム目から19フレーム目までの4フレームになる。
境界領域に含まれる4フレームについては各フレームの変換関数を境界領域の両端に隣接するフレームの変換関数を元に線形補間により生成するものとする。例えば、5フレーム目から8フレーム目までの境界領域は、4フレーム目の変換関数と9フレーム目の変換関数を元に線形補間により生成される。
かかる構成によればマッチング部204cで入力音声の音響的特徴と適合する音響モデルに対応する変換関数を変換関数−音響モデルデータベース203より抽出し、関数補間部301aが、変換関数が切り替わる付近の境界領域について、境界領域に隣接するフレームの変換関数に基づいて補間により変換関数を生成し、音声変換部205が、その変換関数に従って音声を変換することができる。これにより、音声特徴量の時間的変動による音韻内の音響的特徴のばらつきに関わり無く、入力音声の音響的特徴に合わせた変換関数を取得して分析合成パラメータを変更することができる。そのうえ、変換関数が不連続に変化することにより変換後の音声が不連続になることを防ぐことができる。よって、入力音声の音韻に対する発声時のばらつきによる歪や雑音の発生を防ぎ、さらに変換時に適用する関数の不連続な変化による変換音声の不連続性とそれによるクリック様の雑音の発生、音声の不自然さ等の音質劣化を防いだ高音質な変換音声を生成することができる。
なお、図7においては、4フレーム分について変換関数の補間をするものとして説明を行なったが、これより多くの連続するフレームを境界領域として関数の補間を行うものとしても良い。境界領域は経験的に30ミリセカンド程度までが適当である。
なお、本実施の形態の図7において、境界領域についてのみ線形補間をし、変換関数を生成するものとしたが、補間の対象とされるフレームおよび補間の方法は、これに限定されるものではない。例えば、同一の音響モデルが適合したフレーム列について、フレーム列の中央に位置する1フレームまたは数フレームを変換関数固定フレームとし、変換関数固定フレームについては、音響モデルに対応する変換関数をそのまま用い、それ以外のフレームについては、時間的に前後に位置する変換関数固定フレームで使用される2つの変換関数をスプライン補間等によって滑らかにつなぐことにより、補間された変換関数を作成し、変換関数の不連続を緩和するようにしても良い。
(実施の形態3)
以下、本発明の実施の形態3に係る音声変換装置について説明する。実施の形態3に係る音声変換装置では、各フレームに対して、適宜複数の変換関数を合成し、合成後の変換関数に基づいて、入力音声の分析合成パラメータを変換する点が、実施の形態1および2に係る音声変換装置とは異なる。
図8は、本発明の実施の形態3に係る音声変換装置の機能的構成を示すブロック図である。
以下の説明では、実施の形態1および2に示した音声変換装置と同一の構成要素については、その名称および機能も同一であるため、説明を繰り返さない。
図8において、図1と同じ構成要素については同じ符号を用い、説明を省略する。
音声変換装置30は、図1に示した音声変換装置10の構成において、変換方法生成部210aの代わりに変換方法生成部210dを備えている。変換方法生成部210dは、入力音声の分析合成パラメータを変換する変換方法を生成するための処理部であり、マッチング部204dと関数合成部401とを備えている。
マッチング部204dは、変換関数−音響モデルデータベース203を参照して入力音声の分析合成パラメータと音響モデルの分析パラメータの確率分布とを比較し、マッチングを行い、マッチングの尤度が閾値より大きかったすべてのモデルについて、対応する変換関数を抽出し、当該変換関数と対応する音響モデルのマッチング尤度とを出力する処理部である。関数合成部401は、複数の変換関数をマッチング尤度に基づいて重みを付けて合成する処理部である。
なお、マッチング部204dは、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、比較時の尤度が所定の閾値よりも大きい音響モデルに対応する音声変換方法と当該尤度とを出力するマッチング手段の一例である。関数合成部401は、前記マッチング手段より出力された尤度の比に基づいて、前記音声変換方法を合成する合成手段の一例である。
次に、実施の形態3に係る音声変換装置30の動作について説明する。図9は、本発明の実施の形態3に係る音声変換装置の動作を示したフローチャートである。
音声入力部201は、音声波形の入力を受け付ける(ステップS201)。音声分析部202は、ステップS201で入力された音声波形をフレームごとに分析し、分析合成パラメータ列を生成する(ステップS202)。マッチング部204dは、分析対象のフレームである分析フレームごとに変換関数−音響モデルデータベース203を参照して、当該分析フレームの分析合成パラメータと変換関数−音響モデルデータベース203に記憶された音響モデルの分析パラメータとのマッチングを行い、当該分析フレームごとに分析合成パラメータと各音響モデルとのマッチング尤度を求める(ステップS203d)。マッチング部204dは、尤度が閾値以上の音響モデルに対応する変換関数をすべて抽出し(ステップS401)、フレームごとに少なくとも1つの変換関数と対応する音響モデルのマッチング尤度とを出力する(ステップS402)。閾値は例えば「0.2」とする。関数合成部401は、ステップS402で出力された変換関数が複数存在する場合には、複数の変換関数に対応した尤度比に基づいて、各変換関数の重みを決定し、その重みの割合で関数を混合することで、当該フレームの変換関数を合成し、音声変換部205に出力する(ステップS403)。なお、尤度が閾値以上の音響モデルに対応する変換関数が1つしかない場合には、関数合成部401は、当該変換関数をそのまま音声変換部205に出力する。
次に、音声変換部205は、ステップS403で関数合成部401から出力された変換関数に従って、各フレームの分析合成パラメータを変換する(ステップS206)。音声合成部206は、ステップS206で変換された分析合成パラメータに従って、音声波形を合成する(ステップS207)。
かかる構成によれば、マッチング部204dで入力音声の音響的特徴に対して閾値以上の尤度を有する音響モデルに対応する変換関数を変換関数−音響モデルデータベース203よりすべて抽出し、関数合成部401が尤度比に従って、抽出されたすべての変換関数に重みを付けてそれらを合成している。したがって、音声特徴量の時間的変動による音韻内の音響的特徴のばらつきに関わり無く、入力音声の音響的特徴に合わせた変換関数を取得して分析合成パラメータを変更している。そのうえ、入力音声の音響的特徴が音響モデルに合わないことにより音響モデルの最大確率近傍のデータより生成された変換関数を適用すると変換後の音声が劣化する可能性が高い場合であっても、複数個の音響モデルに対応する変換関数から尤度比に基づき入力音声に適した変換関数を合成することができる。このため、入力音声の音韻に対する発声時のばらつきによる歪や雑音の発生を防ぎ、音響モデルが当てはまらないような入力音声に対して不適切な変換関数を当てはめて音質を劣化させることを防ぐことができる。さらには音響的特徴が変動し、適合する音響モデルが切り替わる境界領域であっても、変換関数が突然切り替わることがなく、尤度に応じて徐々に変換関数が変化していくことになり、不連続による雑音や違和感を発生させない高音質な変換音声を生成することができる。
なお、本実施の形態のステップS402で入力音声に対する音響モデルの尤度を抽出し、ステップS403で尤度比によって関数を合成する際の重みを決定したが、音響モデルが確率モデルではなく分析パラメータ空間内の領域(クラスタ)として表現されている場合は、本実施の形態の尤度の代わりにクラスタ重心からの距離を用いるものとしても良い。
また、本実施の形態のステップS402で閾値は0.2としたがこれ以外の値でも良い。
(実施の形態4)
以下、本発明の実施の形態4に係る音声変換装置について説明する。実施の形態4に係る音声変換装置では、各フレームに対して、入力音声の分析合成パラメータと予め用意された音響モデルの分析パラメータの確率分布とのマッチングを行なった際の尤度を算出し、算出された尤度が所定の閾値未満の場合に、当該分析合成パラメータを変換するための変換関数を、尤度が所定の閾値以上のフレームで選択された変換関数を用いて補間する点が、実施の形態1〜3に係る音声変換装置とは異なる。
図10は、本発明の実施の形態4に係る音声変換装置の機能的構成を示すブロック図である。
以下の説明では、実施の形態1〜3に示した音声変換装置と同一の構成要素については、その名称および機能も同一であるため、説明を繰り返さない。
音声変換装置40は、図1に示した音声変換装置10の構成において、変換方法生成部210aの代わりに変換方法生成部210eを備えている。変換方法生成部210eは、入力音声の分析合成パラメータを変換する変換方法を生成するための処理部であり、マッチング部204eと、尤度判定部501aと、関数補間部301bとを備えている。
マッチング部204eは、変換関数−音響モデルデータベース203を参照して入力音声の分析合成パラメータと音響モデルの分析パラメータの確率分布とを比較し、マッチングを行い、最尤の音響モデルに対応する変換関数を抽出し、当該変換関数と当該変換関数に対応する音響モデルのマッチング尤度とを出力する処理部である。
尤度判定部501aは、マッチング部204eが出力した分析対象である分析フレームごとの尤度が、あらかじめ定められた閾値以上であるかどうかを判定し、閾値未満の分析フレームに対しては変換関数を差し替えることを指示する「変換関数差し替え指示信号」を付与する処理部である。
関数補間部301bは、尤度判定部501aで尤度が閾値未満と判断された分析フレームの変換関数を、尤度が閾値以上と判定されたフレームの変換関数より補間して生成する処理部である。
なお、変換方法生成部210eは、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満のフレームに対しては、尤度が前記所定の閾値以上のフレームに対する音声変換方法を用いて補間することにより、新たな音声変換方法を生成する変換方法生成手段の一例である。
次に、実施の形態4に係る音声変換装置40の動作について説明する。図11は本発明の実施の形態4に係る音声変換装置の動作を示したフローチャートである。
音声入力部201は、音声波形の入力を受け付ける(ステップS201)。音声分析部202は、ステップS201で入力された音声波形をフレームごとに分析し、分析合成パラメータ列を生成する(ステップS202)。
マッチング部204eは、分析フレームごとに変換関数−音響モデルデータベース203を参照して、当該分析フレームの分析合成パラメータと変換関数−音響モデルデータベース203に記憶された音響モデルの分析パラメータとのマッチングを行う(ステップS203)。マッチング部204eは、適合した音響モデルに対応する変換関数を、変換関数―音響モデルデータベース203より抽出する(ステップS204)。さらに、マッチング部204eは、適合した変換関数と、当該変換関数に対応する音響モデルのマッチング尤度とを尤度判定部501aに出力する(ステップS501)。尤度判定部501aは、ステップS501で出力された分析フレームごとの尤度が閾値以上であるかどうかを判断し、閾値未満のフレームについては変換関数を差し替えることを指示する「変換関数差し替え指示信号」を付与する(ステップS502)。閾値は例えば尤度0.6とする。
関数補間部301bは、ステップS502で「変換関数差し替え指示信号」が付与されたフレームの直近で尤度が閾値以上のフレーム(すなわち、「変換関数差し替え指示信号」が付与されていないフレーム)の変換関数から補間することにより変換関数を作成し、ステップS502で「変換関数差し替え指示信号」が付与されたフレームの変換関数を、作成された変換関数に差し替え、音声変換部205に差し替えた変換関数を出力する(ステップS503)。なお、関数補間部301bは、「変換関数差し替え指示信号」が付与されていないフレームについては、尤度判定部501aを介してマッチング部204eより出力された変換関数をそのまま音声変換部205に出力する。尤度判定処理(ステップS502)および変換関数補間処理(図11のステップS503)については、後述する。
次に、音声変換部205は、ステップS503で関数補間部301bから出力された変換関数に従って、各フレームの分析合成パラメータを変換する(ステップS206)。音声合成部206は、ステップS206で変換された分析合成パラメータに従って、音声波形を合成する(ステップS207)。
次に、尤度判定部501aが実行する尤度判定処理(ステップS502)および関数補間部301bが実行する変換関数補間処理(図11のステップS503)について説明する。図12は、音響モデルの尤度が低い場合に補間を行うフレームを模式的に示した図である。図12では、説明の便宜のために各フレームにフレーム番号を付している。
例えば、図12に示すように、マッチング部204eより各分析フレームの音響モデルの尤度が出力されたとする。尤度判定部501aは、各分析フレームの音響モデルの尤度が0.6未満であるか否かを判断し、0.6未満であれば当該フレームに「変換関数差し替え指示信号」を付与する(図11のステップS502)。すなわち、5フレーム目、6フレーム目および9フレーム目の尤度がそれぞれ0.48、0.43および0.34であるため、これらのフレームに対して「変換関数差し替え指示信号」が付与されている。
次に、関数補間部301bは、「変換関数差し替え指示信号」が付与された1つ以上フレームからなる領域に対し、その領域の直前および直後の「変換関数差し替え指示信号」の付与されていないフレームの変換関数を用いて、当該領域のフレーム数に対して線形に関数を補間し、「変換関数差し替え指示信号」が付与されたフレームの変換関数を生成する。なお、補間はここではフレーム数に対して線形としたが、補間方法はこれ以外でもよく、例えばスプライン関数やシグモイド関数を用いて、「変換関数差し替え指示信号」が付された領域のフレームの変換関数が、当該領域の直前および直後の「変換関数差し替え指示信号」の付与されていないフレームの変換関数と滑らかに接続されるように補間するようにしても良い。
かかる構成によればマッチング部204eで入力音声の音響的特徴に適合する音響モデルに対応する変換関数を変換関数−音響モデルデータベース203より抽出し、尤度判定部501aでの判定結果である尤度が閾値に満たないフレームについては、関数補間部301bで前後のフレームの変換関数より、尤度が閾値に満たないフレームの変換関数を補間して生成している。
このことにより、音韻内の音響的特徴のばらつきに関わり無く、入力音声の音響的特徴に合わせた変換関数を取得して分析合成パラメータを変更することができる。そのうえ、分析の失敗やノイズの混入等により、どの音響モデルに対しても尤度が低く不適切な変換関数が適用されている可能性のあるフレームがある場合にも、不適切な変換関数を適切な変換関数に差し替えている。このため、不適切な変換関数を当てはめることにより音質を劣化させることを防ぎ、変換関数の不連続による雑音や違和感を発生させない高音質な変換音声を生成することができる。
なお、本実施の形態のステップS501およびS502で、マッチング部204eが変換関数を抽出し、尤度と共に出力した後、尤度判定部501aが尤度が閾値を越えるか否かを判断して変換関数の差し替えを決定したが、マッチング部204eが入力音声と音響モデルとのマッチングを行う際に、閾値未満の分析フレームについては変換関数を出力しないものとしても良い。
また、本実施の形態のステップS502で尤度の閾値を0.6として判定したが、これ以外の値でも良い。
さらに、本実施の形態のステップS501で入力音声に対する音響モデルの尤度を抽出し、尤度が閾値を越えるか否かを判断したが、音響モデルが確率モデルではなく分析パラメータ空間内の領域(クラスタ)として表現されている場合は、本実施の形態の尤度の代わりにクラスタ重心からの距離を用いるものとしても良い。
(実施の形態5)
以下、本発明の実施の形態5に係る音声変換装置について説明する。実施の形態5に係る音声変換装置では、各フレームに対して、入力音声の分析合成パラメータと予め用意された音響モデルの分析パラメータの確率分布とのマッチングを行なった際の尤度を算出し、算出された尤度が所定の閾値未満の場合に、尤度が閾値以上のフレームとの接続コストが最小となるように変換関数を選択する点が、実施の形態1〜4に係る音声変換装置とは異なる。
図13は、本発明の実施の形態5に係る音声変換装置の機能的構成を示すブロック図である。
以下の説明では、実施の形態1〜4に示した音声変換装置と同一の構成要素については、その名称および機能も同一であるため、説明を繰り返さない。
音声変換装置50は、図4に示した音声変換装置11の構成において、変換方法生成部210aの代わりに、変換方法生成部210fを備えている。変換方法生成部210fは、入力音声の分析合成パラメータを変換する変換方法を生成するための処理部であり、マッチング部204fと、尤度判定部501bと、変換関数選択部209bとを備えている。
マッチング部204fは、音響モデルデータベース207を参照して入力音声の分析合成パラメータと音響モデルの分析パラメータの確率分布とを比較して、最尤の音響モデルの音響モデルIDと尤度とを尤度判定部501bに出力する処理部である。
尤度判定部501bは、マッチング部204fが出力した分析フレームごとの尤度があらかじめ定められた閾値以上であるかどうかを判定し、閾値未満のフレームに対しては変換関数を再選択することを指示する「変換関数選択指示信号」を付与し、閾値以上のフレームに対しては音響モデルIDを変換関数選択部209bに出力する処理部である。
変換関数選択部209bは、尤度判定部501bを介してマッチング部204fより出力された音響モデルIDと尤度判定部501bより出力された「変換関数選択指示信号」とに基づいて、音響モデルとのマッチングの尤度が閾値未満と判断された分析フレームの変換関数を、尤度が閾値以上と判定されたフレームの変換関数との接続コストが小さくなるように再選択する処理部である。
なお、変換方法生成部210fは、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満のフレームに対しては、尤度が前記所定の閾値以上のフレームに対する音声変換方法との接続コストが最小となるように音声変換方法の再選択を行なう変換方法生成手段の一例である。
次に、実施の形態5に係る音声変換装置の動作について説明する。図14は本発明の実施の形態5に係る音声変換装置の動作を示したフローチャートである。
音声入力部201は、音声波形の入力を受け付ける(ステップS201)。音声分析部202は、ステップS201で入力された音声波形をフレームごとに分析し、分析合成パラメータ列を生成する(ステップS202)。
マッチング部204fは、分析フレームごとに音響モデルデータベース207を参照して、当該分析フレームの分析合成パラメータと音響モデルデータベース207に記憶された音響モデルの分析パラメータとのマッチングを行い、分析合成パラメータに適合する音響モデルを抽出する(ステップS203)。マッチング部204fは、適合した音響モデルの音響モデルIDとマッチングの尤度とを尤度判定部501bに出力する(ステップS601)。尤度判定部501bは、ステップS601で出力された分析フレームごとの尤度が閾値以上であるかどうかを判断し、閾値未満のフレームについては変換関数の再選択を指示する「変換関数選択指示信号」を付与する(ステップS602)。閾値は例えば尤度0.6とする。変換関数選択部209bは、まず変換関数選択指示信号が付与されていない分析フレームについて、ステップS601でマッチング部204fより出力された音響モデルIDに従って変換関数テーブル208より音響モデルに対応する変換関数を取得し、音声変換部205に出力する(ステップS603)。また、変換関数選択部209bは、変換関数選択指示信号が付与された分析フレームに対して、当該フレームの直前および直後の変換関数選択指示信号が付与されていないフレームの変換関数との接続コストが最小になるように変換関数テーブル208より変換関数を選択し、音声変換部205に出力する(ステップS604)。接続コストを最小とするときの変換関数は、次式(1)に基づいて選択される。
Figure 2007178686
さらに、ある関数接続位置kにおける接続コストは、例えばここでは変換関数が分析合成パラメータの移動量として記述されているため、次式(2)のように表すことができる。
Figure 2007178686
変換しようとする音声中または変換関数選択指示信号が付与された連続するフレーム列中のすべての関数接続位置kに対して、式(2)により接続コストを求め、合計したものが式(1)によって示される音声全体または変換関数選択指示信号が付与された連続するフレーム列全体の接続コストとなる。変換関数選択部209bは、式(1)による接続コストが最小となるような関数列を例えばビタービアルゴリズム等を用いて選択することにより、最適な関数を選択する。
なお、変換関数選択指示信号が付与された連続するフレーム列については、連続する範囲を1フレームとみなして式(1)および式(2)を用いて1つの変換関数を選択し、変換関数選択指示信号が付与された連続するフレームすべてに同一の関数を当てはめるものとしても良い。
次に、音声変換部205はステップS603またはステップS604で出力された変換関数に従って、各フレームの分析合成パラメータを変換する(ステップS206)。音声合成部206は、ステップS206で変換された分析合成パラメータに従って、音声波形を合成する(ステップS207)。
かかる構成によればマッチング部204fで入力音声に適合する音響モデルを音響モデルデータベース207より特定し、変換関数選択部209bがマッチングの尤度が閾値以上のフレームについては音響モデルに対応する変換関数を選択し、尤度が閾値に満たないフレームについては変換関数選択部209bで前後のフレームの変換関数との接続コストを最小にする変換関数を選択している。
このことにより、音韻内の音響的特徴のばらつきに関わり無く、入力音声の音響的特徴に合わせた変換関数を取得して分析合成パラメータを変更することができる。そのうえ、分析の失敗やノイズの混入等により、どの音響モデルに対しても尤度が低く不適切な変換関数が適用されている可能性のあるフレームがある場合にも、関数の接続コストにより変換関数の再選択を行なっている。このため、不適切な変換関数を当てはめることにより音質を劣化させることを防ぎ、変換関数の不連続による雑音や違和感を発生させない高音質な変換音声を生成することができる。
なお、本実施の形態のステップS601およびS602でマッチング部204fが音響モデルIDを抽出し、尤度と共に出力した後、尤度判定部501bが尤度が閾値を越えるか否かを判断して変換関数の再選択を行なうか否かを決定したが、マッチング部204fが入力音声と音響モデルとのマッチングを行う際に、閾値未満の分析フレームについては音響モデルIDを出力しないものとしても良い。
また、本実施の形態のステップS601で入力音声に対する音響モデルの尤度を抽出し、尤度が閾値を越えるか否かを判断したが、音響モデルが確率モデルではなく分析パラメータ空間内の領域(クラスタ)として表現されている場合は、本実施の形態の尤度の代わりにクラスタ重心からの距離を用いるものとしても良い。
さらに、本実施の形態のステップS604では、接続コストは、式(2)に示すように、分析合成パラメータの移動量を用いて記述することにより、変換関数の変化量の差分として記述したが、変換関数によって変換された結果の分析合成パラメータ間の距離を接続コストとしても良い。
なお、本実施の形態のステップS601およびS602では、マッチング部204fが音響モデルデータベース207を参照して音響モデルIDを抽出し、尤度と共に出力した後、尤度判定部501bが尤度が閾値を越えるか否かを判断して変換関数の再選択を決定したが、図15に示すように、変換方法生成部210gが備えるマッチング部204gが変換関数−音響モデルデータベース203を参照して入力音声と音響モデルとのマッチングを行い、尤度が閾値以上の分析フレームについては変換関数を出力し、閾値未満の分析フレームについては変換関数を出力せず、変換方法生成部210gが備える関数再選択部601は、変換関数が出力されていないフレームについては変換関数−音響モデルデータベース203を参照して前後の変換関数との接続コストを最小にする変換関数を選択するようにしてもよい。または、マッチング部204gは、変換関数とあわせて音響モデルIDを出力するものとし、関数再選択部601は、変換関数が出力されていないフレームについては変換関数−音響モデルデータベース203を参照して前後の音響モデルとの接続コストを最小にする音響モデルを選択し、その音響モデルに対応する変換関数を選択するようにしても良い。
以上、本発明の実施の形態に係る音声変換装置について説明したが、本発明は、この実施の形態に限定されるものではない。
例えば、上述の実施の形態では、音声分析部202が入力音声を分析して、分析結果を分析合成パラメータとして記述し、音声変換部205が分析合成パラメータを変換関数に基づいて変換するものとしたが、音声の変換方式はこれに限られるものではなく、入力音声の波形に対してフィルタリング、イコライジングまたは伝達関数の変更を行う等の方式でも良い。
本発明は、女性の声を男性の声にしたり、自分の声を好みの声にして応答メッセージを作成することのできる留守番電話機、音声メールを好みの声で作成する電子メール作成システム、入力される様々な声を標準音声に変換して音声認識しやすい声に変える自動音声案内システム、映画の吹き替えやアニメーションのアテレコで、声を修正したり、故人の声に変換したり、洋画の場合には元言語の俳優の声に変換したりすることのできる音声制作システム、アニメーション等の登場人物に視聴者が好みの声を当てはめることのできる視聴システム等に適用できる。
本発明の実施の形態1における音声変換装置の機能的構成を示すブロック図である。 本発明の実施の形態1における音声変換装置のフローチャートである。 本発明の実施の形態1における変換関数−音響モデルデータベース作成方法の模式図である。 本発明の実施の形態1における音声変換装置の異なる方式における機能ブロック図である。 本発明の実施の形態2における音声変換装置の機能的構成を示すブロック図である。 本発明の実施の形態2における音声変換装置のフローチャートである。 本発明の実施の形態2における音声変換装置の境界領域での変換関数の補間の模式図である。 本発明の実施の形3における音声変換装置の機能的構成を示すブロック図である。 本発明の実施の形態3における音声変換装置のフローチャートである。 本発明の実施の形態4における音声変換装置の機能的構成を示すブロック図である。 本発明の実施の形態4における音声変換装置のフローチャートである。 本発明の実施の形態4における音声変換装置の補間位置の模式図である。 本発明の実施の形態5における音声変換装置の機能的構成を示すブロック図である。 本発明の実施の形態5における音声変換装置のフローチャートである。 従来の音声変換装置の機能的構成を示すブロック図である。 従来の音声変換装置の機能的構成を示すブロック図である。
符号の説明
10、11、20、30、40、50 音声変換装置
101 スペクトル包絡抽出部
102 スペクトル包絡変換部
103、206 音声合成部
104 音声認識部
105 音声ラベル情報記憶部
106 変換ラベル作成部
107 音素間変換テーブル推定部
108 変換テーブル選択部
109 スペクトル包絡変換テーブル記憶部
109a 母音スペクトル包絡変換テーブル
109b 子音スペクトル包絡変換テーブル
201 音声入力部
202 音声分析部
203 変換関数―音響モデルデータベース
204a〜204f マッチング部
205 音声変換部
207 音響モデルデータベース
208 変換関数テーブル
209a、209b 変換関数選択部
210a〜210f 変換方法生成部
301a、301b 関数補間部
401 関数合成部
501a、501b 尤度判定部

Claims (10)

  1. 入力音声の音響的特徴を変換して出力する音声変換装置であって、
    入力音声の音響的特徴を、予め定められた時間幅を有するフレーム単位で分析する音声分析手段と、
    音声の特徴を記述した複数の音響モデルと前記複数の音響モデルにそれぞれ対応付けられた複数の音声変換方法とを記憶しているデータベースと、
    前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択することにより、音声変換方法を生成する変換方法生成手段と、
    前記変換方法生成手段で生成された前記音声変換方法を用いて前記入力音声の音響的特徴を変換する音声変換手段とを備える
    ことを特徴とする音声変換装置。
  2. 前記変換方法生成手段は、
    前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択するマッチング手段と、
    選択された前記音声変換方法が変化するフレーム位置を含む所定数のフレームである境界領域の音声変換方法を、当該境界領域よりも時間的に前の音声変換方法および後の音声変換方法を用いて補間することにより生成する補間手段とを有する
    ことを特徴とする請求項1に記載の音声変換装置。
  3. 前記変換方法生成手段は、
    前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとを比較し、比較時の尤度が所定の閾値よりも大きい音響モデルに対応する音声変換方法と当該尤度とを出力するマッチング手段と、
    前記マッチング手段より出力された尤度の比に基づいて、前記音声変換方法を合成する合成手段とを有し、
    前記音声変換手段は、前記合成手段による合成後の音声変換方法を用いて前記入力音声の音響的特徴を変換する
    ことを特徴とする請求項1に記載の音声変換装置。
  4. 前記変換方法生成手段は、さらに、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満の場合には、選択された前記音声変換方法を変更する
    ことを特徴とする請求項1に記載の音声変換装置。
  5. 前記変換方法生成手段は、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満のフレームに対しては、尤度が前記所定の閾値以上のフレームに対する音声変換方法を用いて補間することにより、新たな音声変換方法を生成する
    ことを特徴とする請求項4に記載の音声変換装置。
  6. 前記変換方法生成手段は、前記入力音声の音響的特徴と前記データベースに記憶されている音響モデルとの比較時の尤度が所定の閾値未満のフレームに対しては、尤度が前記所定の閾値以上のフレームに対する音声変換方法との接続コストが最小となるように音声変換方法の再選択を行なう
    ことを特徴とする請求項4に記載の音声変換装置。
  7. 前記入力音声の音響的特徴は、入力音声の音声波形を再合成可能なパラメータである分析合成パラメータで表現されている
    ことを特徴とする請求項1〜6のいずれか1項に記載の音声変換装置。
  8. 前記変換方法は、前記入力音声の音響的特徴を変形するための変換関数である
    ことを特徴とする請求項1〜7のいずれか1項に記載の音声変換装置。
  9. 入力音声の音響的特徴を変換して出力する音声変換方法であって、
    入力音声の音響的特徴を、予め定められた時間幅を有するフレーム単位で分析する音声分析ステップと、
    前記入力音声の音響的特徴と、音声の特徴を記述した複数の音響モデルと前記複数の音響モデルにそれぞれ対応付けられた複数の音声変換方法とを記憶しているデータベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択することにより、音声変換方法を生成する変換方法生成ステップと、
    前記変換方法生成ステップで生成された前記音声変換方法を用いて前記入力音声の音響的特徴を変換する音声変換ステップとを含む
    ことを特徴とする音声変換方法。
  10. 入力音声の音響的特徴を変換して出力するプログラムであって、
    入力音声の音響的特徴を、予め定められた時間幅を有するフレーム単位で分析する音声分析ステップと、
    前記入力音声の音響的特徴と、音声の特徴を記述した複数の音響モデルと前記複数の音響モデルにそれぞれ対応付けられた複数の音声変換方法とを記憶しているデータベースに記憶されている音響モデルとを比較し、前記音響的特徴に最も近い音響モデルに対応付けられた音声変換方法を前記データベースから選択することにより、音声変換方法を生成する変換方法生成ステップと、
    前記変換方法生成ステップで生成された前記音声変換方法を用いて前記入力音声の音響的特徴を変換する音声変換ステップとをコンピュータに実行させる
    ことを特徴とするプログラム。
JP2005376597A 2005-12-27 2005-12-27 音声変換装置 Pending JP2007178686A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005376597A JP2007178686A (ja) 2005-12-27 2005-12-27 音声変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005376597A JP2007178686A (ja) 2005-12-27 2005-12-27 音声変換装置

Publications (1)

Publication Number Publication Date
JP2007178686A true JP2007178686A (ja) 2007-07-12

Family

ID=38303939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005376597A Pending JP2007178686A (ja) 2005-12-27 2005-12-27 音声変換装置

Country Status (1)

Country Link
JP (1) JP2007178686A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007192931A (ja) * 2006-01-17 2007-08-02 Asahi Kasei Corp 声質変換吹替システム、及び、プログラム
JP2009038708A (ja) * 2007-08-03 2009-02-19 Kddi Corp 故人情報管理システム
JP2013109274A (ja) * 2011-11-24 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 目標話者学習方法、その装置及びプログラム
JP2016102860A (ja) * 2014-11-27 2016-06-02 日本放送協会 音声加工装置、及びプログラム
CN113793598A (zh) * 2021-09-15 2021-12-14 北京百度网讯科技有限公司 语音处理模型的训练方法和数据增强方法、装置及设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007192931A (ja) * 2006-01-17 2007-08-02 Asahi Kasei Corp 声質変換吹替システム、及び、プログラム
JP2009038708A (ja) * 2007-08-03 2009-02-19 Kddi Corp 故人情報管理システム
JP2013109274A (ja) * 2011-11-24 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 目標話者学習方法、その装置及びプログラム
JP2016102860A (ja) * 2014-11-27 2016-06-02 日本放送協会 音声加工装置、及びプログラム
CN113793598A (zh) * 2021-09-15 2021-12-14 北京百度网讯科技有限公司 语音处理模型的训练方法和数据增强方法、装置及设备
CN113793598B (zh) * 2021-09-15 2023-10-27 北京百度网讯科技有限公司 语音处理模型的训练方法和数据增强方法、装置及设备

Similar Documents

Publication Publication Date Title
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
JP3913770B2 (ja) 音声合成装置および方法
US8706488B2 (en) Methods and apparatus for formant-based voice synthesis
CN106971709B (zh) 统计参数模型建立方法和装置、语音合成方法和装置
JP4246790B2 (ja) 音声合成装置
JP4539537B2 (ja) 音声合成装置,音声合成方法,およびコンピュータプログラム
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP4966048B2 (ja) 声質変換装置及び音声合成装置
US20070213987A1 (en) Codebook-less speech conversion method and system
JP5039865B2 (ja) 声質変換装置及びその方法
JPWO2006040908A1 (ja) 音声合成装置及び音声合成方法
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
WO2013018294A1 (ja) 音声合成装置および音声合成方法
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
JPH04158397A (ja) 声質変換方式
JP2012141354A (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP2007178686A (ja) 音声変換装置
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JPH08248994A (ja) 声質変換音声合成装置
JP4769086B2 (ja) 声質変換吹替システム、及び、プログラム
JP2003259311A (ja) 映像再生方法、映像再生装置、映像再生プログラム
JP5275470B2 (ja) 音声合成装置およびプログラム
JP2010008922A (ja) 音声処理装置、音声処理方法及びプログラム