JP4177751B2 - 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ - Google Patents

声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ Download PDF

Info

Publication number
JP4177751B2
JP4177751B2 JP2003430209A JP2003430209A JP4177751B2 JP 4177751 B2 JP4177751 B2 JP 4177751B2 JP 2003430209 A JP2003430209 A JP 2003430209A JP 2003430209 A JP2003430209 A JP 2003430209A JP 4177751 B2 JP4177751 B2 JP 4177751B2
Authority
JP
Japan
Prior art keywords
waveform
unit
voice quality
voice
vocal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003430209A
Other languages
English (en)
Other versions
JP2005189483A (ja
JP2005189483A5 (ja
Inventor
パーハム・モクタリ
カルロス 寿憲 石井
ハートムット・フィツィンガー
ニック・キャンベル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
ATR Advanced Telecommunications Research Institute International
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
ATR Advanced Telecommunications Research Institute International
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, ATR Advanced Telecommunications Research Institute International, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2003430209A priority Critical patent/JP4177751B2/ja
Publication of JP2005189483A publication Critical patent/JP2005189483A/ja
Publication of JP2005189483A5 publication Critical patent/JP2005189483A5/ja
Application granted granted Critical
Publication of JP4177751B2 publication Critical patent/JP4177751B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

この発明は音声の声質を制御する方法に関し、特に、音声の声質をパラメータにより表し、当該パラメータの値を用いて声質を変化させる方法および装置に関する。
ここ二、三十年の間に、コンピュータを用いた音声処理技術は格段に進歩した。例えば、音声認識技術についてはかなり高精度で認識が行なわれるようになり、また音声合成についてもある程度の聞き取りやすさで音声を合成することが可能になっている。
しかし、人間が普段行なっている音声処理とコンピュータを用いた音声処理との間には、まだ多くの点で相違がある。その典型的な例はパラ言語情報の取り扱いである。
パラ言語情報とは、話し言葉のうち、文字では表現できない要素のことをいう。例えば発話時の身振り、顔つき、声の調子などがパラ言語情報を構成する。人間であれば、声の調子の微妙な変化により話者の気持ちを感じ取ることができる。それに対し、音声認識によって得られるのは文字で表現できる要素のみであり、パラ言語情報を捕らえることはできない。同様に、人間であれば、同じ発話内容であっても、発話時の声の調子によって発話時の種々の気持ちを伝えることができる。しかし音声合成ではそのような音声を合成することは難しい。
パラ言語情報の中で代表的なものとして、声質がある。声質については、種々の領域(例えば調音的、音響的、知覚的な領域)での、種々のレベル(例えば音声の機能的側面等)での定義が可能である。広い意味では、声質とは、話者により生成された人間の音声であって、かつ複数個の音声単位(例えば音素)にわたって聴者により知覚された音声の属性のことをいう。
現在の技術では、音声認識においても音声合成においても、人間が発声する場合の声質の変化に対応した処理を行なうことは困難である。この分野は音韻学と音声処理技術との間で共同して研究を行なうのに格好の分野であると考えられる。
特開2003−330478 Laver,J.、「声質の音声的記述」、ケンブリッジ大学出版社、1980(Laver,J.(1980),"The Phonetic Description of Voice Quality",Cambridge:Cambridge University Press)
人間とコンピュータとの間のインタフェースとして、音声処理技術は今後ますます多くの局面で使用されることになることは間違いない。その際、パラ言語的な情報もコミュニケーションに利用できれば、人間同士のコミュニケーションに近いものを実現できる。
しかし、現在までのところ、音声認識によって人間の音声の声質を判定したりすることは困難で、ましてや声質から話者の感情を判断することは非常に難しい。また、音声合成においても、あるパラ言語的な情報を伝達するためには声質をどのように制御すればよいかは、今のところ判明していない。
また、声質を制御するためのパラメータの数はできるだけ少ないことが望ましく、さらに理想的には、そうしたパラメータは、生理学上の観点からも、知覚上の観点からも意味あるものであって、声質という現象に関するこれらふたつの領域における理解をより深めるようなものであることが望まれる。
しかし従来は、そのような声質を判定したり制御したりするパラメータとしてどのようなものを使用すればよいかは不明であり、したがって当然、どのようにパラメータを変化させれば音声合成の声質を所望のものにすることができるかは分からなかった。
それ故にこの発明の目的は、声質を表すための声質モデルを生成する声質モデル生成方法を提供することである。
それ故にこの発明の目的は、少数のパラメータで声質を表すための声質モデルを生成する声質モデル生成方法を提供することである。
この発明の他の目的は、声質を所望のものに変換することが可能な声質変換装置及び方法を提供することである。
この発明の他の目的は、少数のパラメータで声質を所望のものに変換することが可能な声質変換装置及び方法を提供することである。
本発明の第1の局面に係る声質モデル生成方法は、それぞれ予め所定の声質に対応して準備された、基準となる複数の音声波形のうち、所定の条件を充足する部分から、当該部分が発声されたときの声帯波の単位波形を推定する声帯波形推定ステップと、声帯波の単位波形の各々を所定のパラメータ化方法にしたがってパラメータ化するパラメータ化ステップと、パラメータ化された声帯波の単位波形に対する主成分分析を行なうことにより、声帯波の単位波形の各々の主成分表現を取得する主成分分析ステップと、声帯波の単位波形の各々の波形と、当該波形に対応する主成分表現とを、当該声帯波が得られた音声波形に対応する声質のモデルとして出力するステップとを含む。
好ましくは、声帯波形推定ステップは、それぞれ予め所定の音質に対応して準備された、複数の音声波形の音節核を抽出するステップと、抽出された音節核の各々に対し、声道の影響を除去して音声が発生された際の声門気流の体積速度波形を検出するための逆フィルタを適用するステップと、逆フィルタが適用された後の音節核の各々から声帯波の単位波形を抽出する単位波形抽出ステップとを含む。
より好ましくは、単位波形抽出ステップは、音節核の中央部に存在する、体積速度波形の極小部分を起点とし、そこから当該音節核を含む所定領域の基本周波数により定まる周期の1周期分だけ遡った部分までを単位波形として抽出するステップを含む。
さらに好ましくは、単位波形抽出ステップに先立って、声門気流の体積速度波形を所定の正規化方法にしたがって正規化するステップをさらに含む。
好ましくは、主成分分析ステップは、パラメータ化された声帯波の単位波形に対する主成分分析を行なうことにより、声帯波の単位波形の各々の、先頭から所定個数までの主成分による主成分表現を取得するステップを含む。
より好ましくは、所定個数までの主成分は、第1主成分から第4主成分までである。
さらに好ましくは、パラメータ化ステップは、声帯波の単位波形を複数の等長部分に分割する所定個数のサンプリング点において、声帯波の単位波形を再サンプリングする再サンプリングステップを含む。
より好ましくは、再サンプリングステップによって再サンプリングされた声帯波の単位波形の差分をとることにより、声帯波の単位波形の微分データ列を求める微分ステップをさらに含み、主成分分析ステップは、微分データ列に対し主成分分析を行なうことにより、声帯波の単位波形の各々の微分量に対する主成分表現を取得するステップを含む。
さらに好ましくは、微分ステップによって求められた微分データ列の各々は、再サンプリング時間の差分と、当該再サンプリング時間の差分に対応する声帯波の単位波形の差分との対を含み、声質モデル生成方法はさらに、主成分分析ステップに先立って、微分データ列を求めるステップによって求められた微分データ列の各々に対し、時間軸方向の変動による影響と振幅方向の変動による影響とを等化するための予め定められる規準化処理を行なうステップをさらに含む。
本発明の第2の局面に係る声質変換方法は、それぞれ所定の声質に対応付けられた複数のプロトタイプ声帯波の単位波形と、当該複数のプロトタイプ声帯波の単位波形の各々に対して予め定める主成分分析によって得られた先頭から所定個数の主成分表現との対からなる声門波形モデルを用いて、入力音声波形の声質を変換する声質変換方法であって、入力音声波形のうち、所定の条件を充足している部分からそれぞれ声帯波の単位波形を抽出する単位波形抽出ステップと、入力音声波形の声質として予め指定される声質に対応する声門波形モデルと、ユーザにより指定される声質に対応する声門波形モデルとに基づいて、入力音声波形から抽出される声帯波の単位波形を、ユーザにより指定される声質に変換して出力音声波形を生成する音声波形生成ステップとを含む。
好ましくは、音声波形生成ステップは、入力音声波形の声質に対応する声門波形モデルから第1のプロトタイプ声帯波を選択するステップと、ユーザにより指定された声質に対応する声門波形モデルから第2のプロトタイプ声帯波を選択するステップと、第1の波形と第2の波形との間で所定の演算を行なうことにより、入力音声波形をユーザにより指定された声質の音声波形に変換するための変換関数を算出する変換関数算出ステップと、入力音声波形の声帯波の単位波形に対して変換関数を適用することにより、出力音声波形を生成するステップとを含む。
より好ましくは、変換関数算出ステップは、第2の波形から第1の波形を減算することにより、変換関数を算出するステップを含む。
さらに好ましくは、音声波形生成ステップは、入力音声波形の声帯波の単位波形に対して変換関数を加算することにより、出力音声波形を生成するステップを含む。
好ましくは、単位波形抽出ステップは、入力音声波形の音節核を抽出するステップと、抽出された音節核の各々に対し、声道の影響を除去して音声が発生された際の声門気流の体積速度波形を検出するための逆フィルタを適用するステップと、逆フィルタが適用された後の音節核の各々から声帯波の単位波形を抽出するステップとを含む。
より好ましくは、単位波形を抽出するステップは、音節核の中央部に存在する、体積速度波形の極小部分を起点とし、そこから当該音節核を含む所定領域の基本周波数により定まる周期の1周期分だけ遡った部分までを単位波形として抽出するステップを含む。
さらに好ましくは、波形を抽出するステップに先立って、声門気流の体積速度波形を所定の正規化方法にしたがって正規化するステップをさらに含む。
好ましくは、先頭から所定個数の主成分表現は、第1主成分から第4主成分によるものである。
この発明の第3の局面にかかるコンピュータプログラムは、コンピュータにより実行されると、上記したいずれかの方法の全てのステップを実現するようにコンピュータを動作させるように構成されている。
この発明の第4の局面に係るコンピュータは、上記したコンピュータプログラムによりプログラムされている。
この発明の第5の局面に係るコンピュータ読取可能な記録媒体は、上記したコンピュータプログラムを記録したものである。
‐構成‐
図1は、本発明の一実施の形態に係る声質変換システム30のブロック図である。図1を参照して、この声質変換システム30は、それぞれ特定の声質を持つ音声として選ばれた、声質を制御するパラメータの基準値を定めるための基準音声波形32から、声門波形モデルとしての、声質を制御するパラメータを表すPCAパラメータモデル36を主成分分析(PCA)によって作成するためのモデル作成部34と、入力音声波形50と当該入力音声波形50の声質を特定する、ユーザにより入力される声質特定情報51とを受け、入力音声波形50に対して、モデル作成部34が行なうのと同様の分析を行なって声帯波の波形を抽出し、声質特定情報51と、ユーザにより設定されたターゲットの声質とに基づいて、PCAパラメータモデル36を用いて音声波形54をターゲットの声質で再生成するための声質変換装置52とを含む。
本実施の形態では、基準音声波形32としては、予めそれぞれ特徴的な声質の音声であるとして選ばれた13種類の人間の音声波形を用いる。それら音声波形には、そうした声質を示すラベル付けが予めなされている。本実施の形態では、この音声波形として非特許文献1に添付された音声データを用いている。それら音声とその声質とについては図6を参照して後述する。なお、本実施の形態で使用する音声データは、所定のサンプリング速度でフレーム単位でサンプリングされたデジタルデータとして予め準備されるものとする。
図2は、モデル作成部34の詳細な構成を示すブロック図である。図2を参照して、モデル作成部34は、音声波形のうち、話者の発声機構によって安定して発声されている領域(これを以後「音節核」と呼ぶ。)を抽出するための音節核抽出部80を含む。より具体的には、音節核抽出部80は、音響エネルギーの時間軸上の波形分布を算出し、その分布波形の輪郭に対して凸包アルゴリズムを適用することにより音響エネルギーの輪郭中の谷部分を検出し、入力音声を当該谷部分で擬似音節に分割する。音節核抽出部80はさらに、上記のようにして得られた擬似音節中の、音響エネルギーの最大値が得られる点をまず音節核の起点とする。音節核抽出部80はさらに、音節核の左右に、音響エネルギーが所定のしきい値(0.8×音響エネルギーの最大値)より大きく、かつ有声と判定されたフレームであって、かつ同じ擬似音節中のフレームがあればそれらのフレームを擬似音節に1フレームずつ追加していくことにより、連続した領域を音節核として抽出する。
モデル作成部34はさらに、音節核抽出部80により抽出された音節核の各々について、線形予測(LP)ケプストラムを用いた線形予測によって最初の4つのフォルマント周波数及び帯域を推定するためのフォルマント推定部81を含む。フォルマント推定部81は、所定の線形ケプストラム‐フォルマントマッピングを利用しており、かつ予め母音フォルマントに対するマッピングを学習させてある。この音節核抽出部80及びフォルマント推定部81には、上記した特開2003−330478において開示されたものと同様のものを用いている。
モデル作成部34はさらに、音節核抽出部80及びフォルマント推定部81により抽出された音節核の各々に対して、音声に対する声道の影響を除去するための逆フィルタを生成し音声波形に対して適用するための逆フィルタ処理部82と、逆フィルタ処理部82の出力から、当該音節核を発声したときの話者の声帯の声門の体積速度波形を検出するための体積速度波形検出部84とを含む。
モデル作成部34はさらに、体積速度波形検出部84が検出した声門の体積速度波形を正規化するための正規化部86と、正規化部86により正規化された声門の体積速度波形から、各音節核の中央近くの1サイクル分の波形(声帯波)の波形データを抽出するための波形抽出部87と、波形抽出部87の抽出した1サイクル分の声帯波の波形データに対し、後述するようなPCA分析を行ない第4主成分までを算出するためのPCA分析部88とを含む。
PCA分析部88が出力するPCA分析の主成分の値は、対応する声帯波の波形(これをプロトタイプ声帯波と呼ぶ。)と対応付けられてPCAパラメータモデル36を構成する。PCA分析部88によるPCA分析に先立って音声波形データをパラメータ化する必要があるが、その詳細については後述する。後述するように、こうして得られたPCAパラメータモデルは、基準音声波形32を構成する各音声波形の声質をよく表すものと考えられる。
図3は、図2に示す逆フィルタ処理部82のより詳細なブロック図である。図3を参照して、逆フィルタ処理部82は、音節核の各々に対し、分析及び総合による最適化によって、ケプストラム‐フォルマントマッピングにより推定されたフォルマントの精度をより高め、さらに時間とともに変化する、声道の影響を除去するための逆フィルタを生成するための逆フィルタ生成部120と、入力される音節核の音声波形のうち、周波数の低いはっきりしない音声成分を減衰させるためのハイパスフィルタ122と、ハイパスフィルタ122の出力のうち、第4フォルマントより上のスペクトル成分を減衰させるためのローパスフィルタ124と、ローパスフィルタ124の出力する音声信号に対して、逆フィルタ生成部120の生成した逆フィルタを適用することにより、声道の最初の4つの共鳴成分の影響を除去するための逆フィルタ適用部126とを含む。
図2に示す体積速度波形検出部84は、逆フィルタ適用部126により出力される、声道の影響の除去された音声信号を積分することにより、唇による放射の影響を除去し、声門気流の体積速度波の推定波形を出力する機能を持つ。
図2に示す正規化部86は、体積速度波形検出部84の出力する声門気流の体積速度波の推定波形を正規化するためのものである。この波形の振幅がどのようなものかは前もって分からないので、このように正規化することが必要である。本実施の形態に係る正規化部86は、音節核の全体にわたる体積速度波の振幅の平均値を求め、元の値から減算することにより波形の正規化を行なっている。
図2に示す波形抽出部87は、音節核の近くの声帯波を以下のようにして抽出する。すなわち、波形抽出部87は、音節核の近くの、波形の極小値部分を探し、そこを起点として、そこから1周期分だけ遡った部分までを1サイクルの声帯波として抽出する。この場合の周期は、基本周波数F0の逆数として定められる。
図4は、図2に示すPCA分析部88の詳細なブロック図である。PCA分析のためには、波形を一定数のパラメータにより表現する必要がある。PCA分析部88は、声帯波の1サイクルの周期と振幅との双方の値に関連したPCA分析を可能とするために、以下に述べるような特定の方法により声帯波をパラメータ化している。
図4を参照して、PCA分析部88は、分析対象の声帯波波形の第15高調波により決定されるカットオフ周波数を有するローパスフィルタ140と、ローパスフィルタ140により低周波数成分が減衰された声帯波波形を、30個の互いに等しい間隔の部分波形により構成されるように再サンプリングするための再サンプリング部142とを含む。再サンプリング部142によるサンプリングでは、波形自身に沿ったサンプリング点間の距離が互いに等しくなるようなサンプリングが行なわれる。このようなサンプリングにより、波形の振幅軸と時間軸との間の共分散を考慮に入れることができ、二つの次元の双方に同時に関連するような変化についても柔軟にモデル化することができる。したがって各サンプリング点は、時間軸方向の値と、振幅軸方向の値との二つの値の組となる。
図5に、例となる声帯波160と、声帯波160に対するサンプリング点の例(0〜30により示す。)とを概念的に示す。図5に示すように、サンプリング点は31個あり、その結果声帯波160は30個の互いに等しい長さの部分波形に分割される。
本実施の形態において、サンプリング点は31個である。この個数は、波形の詳細部分を十分に保存しつつ、パラメータの数をできるだけ少なくするために選択されたものである。もちろん、サンプリング点の数が31に限定されるわけではなく、使用する装置の性能、必要とされる精度などによりサンプリング点の数を選択することができる。
サンプリング定理によれば、互いに等しい間隔の31個のサンプリング点でサンプリングすることにより、各声帯波形のスペクトルの第15高調波までが保存されることになる。したがって、エイリアシングを避けるため、ローパスフィルタ140のカットオフ周波数を声帯波形の第15高調波に設定してある。
図4を再度参照して、PCA分析部88はさらに、再サンプリング部142によりサンプリングされた波形の一次差分を算出するための差分算出部144を含む。これは、逆フィルタにより推定された声帯波の振幅のオフセットが未知であるため、その影響をなくすためである。また、種々の声帯波形の間の振幅の相違によってPCA分析に不自然な結果が生じることを避けるためでもある。この結果、30個の座標点においてサンプリングされた、60個のパラメータからなる、一つの声帯波に対する微分量が得られる。これら60個のパラメータからなる微分量の組を全ての声帯波に対して算出することで、それら得られた微分量の組の全てに対してPCA分析を行なうことが可能である。
図4を参照して、PCA分析部88はさらに、差分算出部144により算出された声帯波の微分量に対して規準化処理を行なうための規準化処理部146を含む。声帯波の微分の時間及び振幅の次元は互いに無関係であり、そのためPCA分析がそれら次元のうち変化量の大きな次元の方を不当に反映した形で行なわれてしまう可能性があり、それらの影響を等化しておくのが望ましい。そのため、PCA分析に先立ち、各次元について、その全体の平均値を各サンプリング点の値から減算し、さらにそれらサンプリング点の各次元の値をそれらの標準偏差で除算することにより規準化する。規準化処理部146が行なうのはその処理である。
PCA分析部88はさらに、規準化処理部146により規準化された、単位波形あたり30個のサンプリング点での計60個の値の組の全てに対してPCA分析を行ない、各単位波形に対し、その第4主成分までを算出するためのPCA計算部148を含む。
図6に、基準音声波形32から得られた声帯波と、それらに対するサンプリング結果を示す。図6に示す波形は、特定の声質を表すと判断された複数の音節核に対して算出された波形を、声質ごとに平均することによって得られたものである。(なお、実際には波形の微分量が得られるので、図6に示すのはそれを積分して得られた波形ということになる。)以下、これらをプロトタイプ声帯波と呼ぶ。
図6において、各波形の上部に記載された1〜3個のアルファベットは、そのプロトタイプ声帯波の声質を表す。アルファベットの組とその意味とを次のテーブル1に示す。
Figure 0004177751
上記したように、モデル作成部34によるPCA分析は声帯波の微分波形に対して行なう。しかし、以下では、この結果得られたプロトタイプ声帯波を分かりやすく比較するために、PCA分析の結果を積分して振幅のスケールに戻し、これらの声帯波の分析結果を論じる。その際、声帯波形の先頭サンプルの振幅を0とした。図7に、その結果を示す。
図7に示す4つのグラフは、それぞれ第1、第2、第3、及び第4主成分について、テスト対象となった全ての声帯波の平均値(実線で示す。)、及び平均値±標準偏差(それぞれ「+」と「□」とを含む線により示す。)を示したものである。ここでは、テスト対象は77種類の声帯波の集団からなる。
これら先頭の4つの主成分により説明される全分散の累計値は、それぞれ57.6%、80.8%、88.2%、及び92.1%である。したがって、60次元の空間により表されるデータに対するPCA分析の結果、直交基底関数が得られるが、そのうちの4つだけで分散の90%以上を説明することが可能なことが分かる。
図7の第1番目のグラフは、分散の57.6%を説明する第1主成分から得られる波形を示す。このグラフから、この主成分が主として波形の持続期間、すなわち声帯波の基本周波数を表す。またこの第1主成分は、波形の随伴的な変形についても説明する。周期が短くなると波形はより対称的になり、頂点はより丸くなる。周期が長くなると波形はより広く、頂部は平らになる。したがってこの第1主成分は、波形の立ち上がり部分(声門の開口時)と立下り部分(声門の閉鎖時)との変化は反映していない。
第2主成分を図7の2番目のグラフで示す。第2主成分は、もとの分散のうち、23.2%を説明するものであり、主として声門の開口時の波形の変動を説明するものである。特に、波形の中央部分は、中央のやや右側に偏った単一の頂点を持つ高振幅であるか、又は二重音系の発音の二つのパルスの間のくぼみを説明するような低い振幅であるかのいずれかである。第1主成分と異なり、この第2成分は波形の基本周期とはそれほど大きな関係はない。
第3主成分を図7の3番目のグラフで示す。第3主成分は元の分散の7.4%を説明するが、主として開口時の波形の傾斜と声帯波のピークの形とを反映するようである。例えば、一方の極では開口時の傾斜は急でその後に比較的平坦な頂部が続くが、他方の極では開口時の傾斜はゆるく、その後にさらにピークに続くより緩やかな傾斜部分が続く。
図7の4番目のグラフは、第4主成分による波形を示す。第4主成分は元の分散のうちわずか3.9%しか説明しないが、パルスのスキューと閉鎖時の速度とを反映する。一方の極では声帯波形は比較的対称形でより緩やかな閉鎖時の傾斜を示すが、他方の極では声帯波形のパルスはやや右側に偏り、より急な閉鎖時の傾斜を示す。
第5主成分以降は、波形のより詳細な部分について説明するものであるが、いずれも元の分散の2%に満たない部分を説明するものでしかない。したがって本実施の形態ではそれらについては考慮しない。
もちろん、第5主成分以降まで考慮してもよい。利用可能な計算機資源と、アプリケーションが必要とする速度との兼ね合いでどの主成分まで考慮するかを決定すればよい。もっとも、上記したように第4主成分までで波形の変化の大方は説明できるので、第5主成分以降を考慮する実益は少ないと思われる。
再び図1を参照して、声質変換装置52は、モデル作成部34により生成されたPCAパラメータモデル36を、それぞれのプロトタイプ声帯波の波形データとともに記憶するためのプロトタイプデータ記憶部68と、モデル作成部34で行なわれたのと同様の方法で入力音声波形50から声帯波の1サイクル分の波形を抽出するための声帯波形抽出部60と、声質特定情報51、プロトタイプデータ記憶部68に記憶されているプロトタイプ声帯波データ、及びユーザにより入力されたターゲットの声質に基づいて、入力音声波形50から抽出された声帯波形を、ユーザにより指定された声質の声帯波形に変換する機能を持つ音声波形変換関数を生成するための変換関数生成部62と、変換関数生成部62により得られた変換関数を用いて声帯波形抽出部60から出力される声帯波形を変換することにより、ユーザが指定した声質の音声波形54を生成するための波形再生成部64とを含む。
声帯波形抽出部60は、処理対象が入力音声波形50であることを除き、モデル作成部34と同様の処理をして声帯波の波形を抽出する機能を持つ。したがってここでは声帯波形抽出部60の詳細な説明は行なわない。
図8は、変換関数生成部62のより詳細なブロック図である。図8を参照して、変換関数生成部62は、キーボード及びモニタなど、ユーザとの間の対話を実現する入出力装置184と、ユーザにより入力された声質特定情報51に基づいて決定される、入力音声波形50の声質に対応するPCAパラメータを入出力装置184を用いてユーザに提示し、さらにPCAパラメータのターゲットとしてユーザにより指定された値を入出力装置184を介して受け取るためのターゲット設定部182とを含む。ターゲット設定部182はこのとき、プロトタイプデータ記憶部68に記憶されたPCAパラメータモデルを参照する。
変換関数生成部62はさらに、ターゲット設定部182により設定されたターゲットPCAパラメータに対するプロトタイプ声帯波の波形から、声質特定情報51に基づいて決定される、入力音声波形50の声質に対応するプロトタイプ声帯波の波形を減算することにより、波形変換関数を生成するための波形減算処理部188とを含む。
図9に、ターゲット設定部182によるPCAパラメータの表示とターゲットPCAパラメータの設定との一手法を示す。図9を参照して、図8に示す入出力装置184の出力画面200には、二つのPCAパラメータ設定領域202及び204が表示される。PCAパラメータ設定領域202は第1主成分(PC1)及び第2主成分(PC2)の値を設定するためのものである。PCAパラメータ設定領域204は第3主成分(PC3)及び第4主成分(PC4)の値を設定するためのものである。
PCAパラメータ設定領域202及び204はそれぞれ、二次元の座標(PC1,PC2)及び(PC3,PC4)により表される点を表示することができる。入力音声波形50の声質が指定されることによりプロトタイプデータ記憶部68に記憶された声門波形モデルからPC1〜PC4が決定される。それに対応する点として点210及び214をそれぞれPCAパラメータ設定領域202及び204に表示できる。この2点の表示により入力音声波形50の第1主成分〜第4主成分が特定される。
表示上において、例えばユーザがPCAパラメータ設定領域202において点212を新たに指定することにより、PC1及びPC2のターゲットの値が点212に対応する各軸上の値として定まる。同様に、ユーザがPCAパラメータ設定領域204において点216を新たに指定することにより、PC3及びPC4のターゲットの値が定まる。図8に示すターゲット設定部182は、このようにしてユーザにより設定された、第1主成分から第4主成分までのターゲット値を取得する。
もちろん、図9に示した手法はターゲットを設定するための一つの手法に過ぎないこれ以外にも、例えば各主成分ごとに値を直接入力する方法、予め準備されたプロトタイプを表示し、その中からターゲットとなるプロトタイプを指定させる方法等、様々な手法を用いることができる。
図10は、図1に示す波形再生成部64の詳細なブロック図である。図10を参照して、波形再生成部64は、声帯波形抽出部60から出力される各声帯波に、変換関数生成部62により生成された変換関数を加算することにより、入力音声波形50から抽出された声帯波を修正するための波形加算部240と、波形加算部240の出力する変換後の声帯波形に対し、その音声のピッチ及び発話の持続時間を適切なものに調整し、さらに物理的に現実的でない、又は極端な変形により生じる声帯波形の不自然なフォールドバック等を避ける処理を行なうための波形調整部242とを含む。
前述したとおり、規準化された声帯波形の微分は、それぞれ30個の時間座標及び振幅座標の対により表される。そのため、変換関数生成部62により生成される変換関数は、波形を振幅軸方向だけでなく時間軸方向へも変形させる。これにより、声質が不適切に変わってしまう可能性がある。そのため、波形調整部242により、波形を調整しそうした問題が生じないようにする。
波形再生成部64はさらに、波形調整部242の出力する、変換後の音声波形の微分に対して、図1に示す声帯波形抽出部60内で生成される逆フィルタ(図3に示す逆フィルタ処理部82に相当)の逆フィルタ(逆・逆フィルタ)を適用することにより、元のフォルマントを復元し、変換後の音声信号を出力するための逆・逆フィルタ244を含む。
‐動作‐
以上構成を説明した声質変換システム30は以下のように動作する。声質変換システム30の動作には二つの局面がある。第1の局面はPCAパラメータモデル36を作成する処理に関し、第2の局面はこのPCAパラメータモデル36を用い、入力音声波形50の声質をユーザ入力に従い変化させて音声波形54を生成する局面である。以下、まず第1の局面、次に第2の局面を順に説明する。
まず、第1の局面を説明する。図1を参照して、予め基準音声波形32が準備されているものとする。これら基準音声波形32の各々には、予めその声の声質を特定するラベル付けがなされているものとする。
モデル作成部34のうち、音節核抽出部80及びフォルマント推定部81は、基準音声波形32の各音声に対し、前述した処理を行ない、音節核を抽出する。すなわち、図2を参照して、音節核抽出部80は、音声波形の時間軸上のパワーの分布波形などに基づき、音節核を抽出する。フォルマント推定部81は、各音節核におけるフォルマント周波数及び帯域を推定する。こうして抽出された音節核は、基準音声波形32の音声のうちでも、発話者の発話機構により判定して発話されている部分を示す。
図2に示す逆フィルタ処理部82は、音節核抽出部80及びフォルマント推定部81により抽出された音節核の各々に対し、逆フィルタ処理を行なうことにより声道による影響を除去する。すなわち、図3を参照して、逆フィルタ生成部120は、音節核の各々に対し、分析及び総合による最適化によって、声道の影響を除去するための逆フィルタのためのパラメータを生成する。このパラメータは時間とともに変化する。ハイパスフィルタ122及びローパスフィルタ124によって低周波数成分及び第4フォルマントより上の成分が除去された音声信号は逆フィルタ適用部126に与えられ、逆フィルタ適用部126によって音声信号から声道の最初の4つの共鳴成分の影響が除去される。逆フィルタ適用部126の出力は図2に示す体積速度波形検出部84に与えられる。
体積速度波形検出部84は、逆フィルタ処理部82の出力に基づいて、各音声の音節核における声門気流の体積速度波形を検出する。検出された体積速度波形は正規化部86により正規化され波形抽出部87に与えられる。
波形抽出部87は、正規化された体積速度波形のうち、音節核の中心付近に存在する1サイクル分の波形を抽出し、PCA分析部88に与える。
図4を参照して、PCA分析部88のローパスフィルタ140は、対象の音声波形の第15高調波により決定されるカットオフ周波数より上の周波数成分を除去し、音声信号を再サンプリング部142に与える。再サンプリング部142は、入力される音声波形に対し、波形上で互いに等しい30個の部分波形に分割されるように選ばれた31個の点で音声波形をサンプリングし、時間及び振幅の対を31個生成する。差分算出部144は、これら31個の対の一次差分をとることにより、30個のサンプリング点でサンプリングされた、声帯波の微分量を出力する。規準化処理部146はこの微分量を構成する時間及び振幅の値から、処理対象となる一つの波形全体にわたって得られたそれらの平均値を減算し、さらにその結果の値をそれらの標準偏差で除算することにより規準化し、得られた60個の値(30個の時間及び振幅の微分量の対)をPCA計算部148に与える。PCA計算部148は、このようにして与えられた、全ての声帯波についてのパラメータの全体に対してPCA分析を行ない、各声質を代表する基準音声の声帯波について、それらの第1主成分から第4主成分の値を算出し、対応する基準音声の声帯波の波形とこれら4つの値を組合せることで各基準音声の声帯波のPCAパラメータモデル36を作成する。このようにして基準音声の声帯波の各々に対して得られたPCAパラメータモデル36は、声質変換装置52のプロトタイプデータ記憶部68に記憶される。
以上でPCAパラメータモデル36の作成処理は終了である。
次に、第2の局面における声質変換装置52の動作について説明する。図1を参照して、声帯波形抽出部60は、入力音声波形50に対し、モデル作成部34と同様の処理を行なうことにより入力音声波形50の声帯波の波形を抽出し、波形再生成部64に与える。
図8を参照して、ターゲット設定部182は、入力音声波形50に対応する声質を特定する声質特定情報51を受け、プロトタイプデータ記憶部68に記憶されているPCAモデルを参照して、当該声質に対応するPCA分析の第1主成分から第4主成分の値PC1〜PC4をユーザに対して図9に示す形式で提示する。ユーザは、入出力装置184を用い、前述したような操作によってこれらの値を所望の声質に対応する値にそれぞれ変更する。ターゲット設定部182はユーザにより変更された値をPCAのターゲット値として設定し、波形減算処理部188に与える。波形減算処理部188は、ターゲット設定部182により設定されたPCAパラメータのターゲット値に相当するプロトタイプ声門波の波形から、入力音声の声質として指定されたプロトタイプ声門波の波形を減算することにより、波形を変換するための変換関数を生成し、図1に示す波形再生成部64に与える。
図10を参照して、波形再生成部64の波形加算部240は、入力音声波形50から得られた声帯波の波形に対し、波形減算処理部188から与えられた変換関数を加算し、結果を波形調整部242に与える。波形調整部242は、前述したとおり波形加算部240の出力が不自然なものとならないように調整し、その結果を逆・逆フィルタ244に与える。逆・逆フィルタ244は、図1に示す声帯波形抽出部60内で生成された逆フィルタの逆フィルタ(逆・逆フィルタ)処理を入力に対して実行する。これにより、波形調整部242により生成された声門波形に対して、声道による変化が再び加えられ、声質が変化された後の音声波形が得られる。こうして、入力音声波形50と同じ発話内容であって、かつその声質がユーザにより設定されたPCAパラメータにより決定される声質に変換された音声波形54が出力される。
‐実験結果‐
図11に、本実施の形態による処理結果の例を示す。図11は、Laver(非特許文献1)のModalによる発話の一部のスペクトログラム260と、その発話をよりCreakyな声に変換した後のスペクトログラム262とを対照して示す。この例では、変換関数はModalプロトタイプに基づいて生成され、ターゲットをCreakyに設定した。
本実施の形態では、いずれの入力音声の声質も、予め準備されたプロトタイプの声質に十分近く、そのプロトタイプを変換関数の基礎として選択すれば、入力音声の声質はほぼ正しくターゲットに変換されることを仮定している。図11に示す例では、入力音声の声質はModalの声質に十分近いものと仮定している。
しかし実際には声門波形は、全体としてある特定の声質を持つと感じられる発話中でも、大きく変動するものである。したがって、上記した仮定が常に成立するとは限らない。それでも、図11からは、この変換により、音響的な情報と発話の持続時間とが明らかに保存されていることがわかる。さらに、垂直方向の縞模様からわかるように、この変換によって声帯波がより長くなっている。これは、F0がよりCreakyな声の方向にシフトしていることからも予測されたことである。実際にこの音声波形に基づき音声を合成することにより、変換後の音声が変換前の音声と同じ音声情報を持っており、かつ声質が明らかにCreakyな声に近くなっていることが分かる。
以上説明した声質変換システム30を構成するモデル作成部34及び声質変換装置52は、いずれもコンピュータハードウェア及びその上で動作するコンピュータプログラムにより実現できる。このコンピュータハードウェアとしては、音声信号を扱う設備を持ったものであれば、汎用のものを用いることができる。また、上で説明した装置の各機能ブロックは、この明細書の記載に基づき、当業者であればプログラムで実現することができる。そうしたプログラムもまた1つのデータであり、記憶媒体に記憶させて流通させることができる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の一実施の形態にかかる声質変換システム30のブロック図である。 図1に示す声質変換システム30のうち、モデル作成部34の詳細なブロック図である。 図2に示す逆フィルタ処理部82のより詳細なブロック図である。 図2に示すPCA分析部88のより詳細なブロック図である。 図4に示す再サンプリング部142により行なわれる再サンプリングの手法を説明するための図である。 プロトタイプ声帯波の波形とサンプリング結果とを示す図である。 第1主成分から第4主成分によりあらわされる波形の変化を説明するための図である。 図1に示す変換関数生成部62の詳細なブロック図である。 図8に示すターゲット設定部182によるターゲットの設定手法を説明するための図である。 図1に示す波形再生成部64の詳細なブロック図である。 本発明の一実施の形態による実験結果を示すスペクトログラムである。
符号の説明
30 声質変換システム、32 基準音声波形、34 モデル作成部、36 PCAパラメータモデル、50 入力音声波形、51 声質特定情報、52 声質変換装置、54 音声波形、60 声帯波形抽出部、62 変換関数生成部、64 波形再生成部、80 音節核抽出部、81 フォルマント推定部、82 逆フィルタ処理部、84 体積速度波形検出部、86 正規化部、87形抽出部、88 PCA分析部、120 逆フィルタ生成部、122 ハイパスフィルタ、124,140 ローパスフィルタ、126 逆フィルタ適用部、142 再サンプリング部、144 差分算出部、146 規準化処理部、148 PCA計算部、182 ターゲット設定部、184 入出力装置、188 波形減算処理部、240 波形加算部、242 波形調整部、244 逆・逆フィル

Claims (20)

  1. それぞれ予め所定の声質に対応して準備された、基準となる複数の音声波形のうち、所定の条件を充足する部分から、当該部分が発声されたときの声帯波の単位波形をそれぞれ推定する声帯波形推定ステップと、
    前記声帯波の単位波形の各々を所定のパラメータ化方法にしたがってパラメータ化するパラメータ化ステップと、
    前記パラメータ化された声帯波の単位波形の全てに対する主成分分析を行なうことにより、前記声帯波の単位波形の各々の主成分表現を取得する主成分分析ステップと、
    前記声帯波の単位波形の各々の波形と、当該波形に対応する主成分表現とを、当該声帯波が得られた音声波形に対応する声質のモデルとして出力するステップとを含む、声質モデル生成方法。
  2. 前記声帯波形推定ステップは、
    それぞれ予め所定の音質に対応して準備された、前記複数の音声波形の音節核を抽出するステップと、
    抽出された前記音節核の各々に対し、声道の影響を除去して音声が発生された際の声門気流の体積速度波形を検出するための逆フィルタを適用するステップと、
    前記逆フィルタが適用された後の前記音節核の各々から前記声帯波の単位波形を抽出する単位波形抽出ステップとを含む、請求項1に記載の声質モデル生成方法。
  3. 前記単位波形抽出ステップは、前記音節核の中央部に存在する、前記体積速度波形の極小部分を起点とし、そこから当該音節核を含む所定領域の基本周波数により定まる周期の1周期分だけ遡った部分までを前記単位波形として抽出するステップを含む、請求項2に記載の声質モデル生成方法。
  4. 前記単位波形抽出ステップに先立って、前記声門気流の体積速度波形を所定の正規化方法にしたがって正規化するステップをさらに含む、請求項2又は請求項3に記載の声質モデル生成方法。
  5. 前記主成分分析ステップは、
    前記パラメータ化された声帯波の単位波形の全てに対する主成分分析を行なうことにより、前記声帯波の単位波形の各々の、先頭から所定個数までの主成分による主成分表現を取得するステップを含む、請求項1〜請求項4のいずれかに記載の声質モデル生成方法。
  6. 前記所定個数までの主成分は、第1主成分から第4主成分までである、請求項5に記載の声質モデル生成方法。
  7. 前記パラメータ化ステップは、前記声帯波の単位波形を複数の等長部分に分割する所定個数のサンプリング点において、前記声帯波の単位波形を再サンプリングする再サンプリングステップを含む、請求項1〜請求項6のいずれかに記載の声質モデル生成方法。
  8. 前記再サンプリングステップによって再サンプリングされた前記声帯波の各々の単位波形において、隣接するサンプリング点間の差分をとることにより、前記声帯波の単位波形の各々の微分データ列を求める微分ステップをさらに含み、
    前記主成分分析ステップは、前記微分データ列の全てに対し前記主成分分析を行なうことにより、前記声帯波の単位波形の各々の微分量に対する主成分表現を取得するステップを含む、請求項7に記載の声質モデル生成方法。
  9. 前記微分ステップによって求められた微分データ列の各々は、再サンプリング時間の差分と、当該再サンプリング時間の差分に対応する前記声帯波の単位波形の差分との対を含み、
    前記声質モデル生成方法はさらに、前記主成分分析ステップに先立って、前記微分データ列を求めるステップによって求められた微分データ列の各々に対し、時間軸方向の変動による影響と振幅方向の変動による影響とを等化するための予め定められる規準化処理を行なうステップをさらに含む、請求項8に記載の声質モデル生成方法。
  10. それぞれ所定の声質に対応付けられた複数のプロトタイプ声帯波の単位波形と、当該複数のプロトタイプ声帯波の単位波形の全てに対して予め定める主成分分析を行なうことによって、前記複数のプロトタイプ声帯波の単位波形の各々に対して得られた先頭から所定個数の主成分の値からなる主成分表現との対からなる声門波形モデルを用いて、入力音声波形の声質を変換する声質変換方法であって、
    入力音声波形のうち、所定の条件を充足している部分からそれぞれ声帯波の単位波形を抽出する単位波形抽出ステップと、
    入力音声波形の声質として予め指定される声質に対応する声門波形モデルと、ユーザにより指定される声質に対応する声門波形モデルとに基づいて、前記入力音声波形から抽出された声帯波の単位波形を、前記ユーザにより指定される声質に変換して出力音声波形を生成する音声波形生成ステップとを含む、声質変換方法。
  11. 前記音声波形生成ステップは、
    前記入力音声波形の声質に対応する声門波形モデルから第1のプロトタイプ声帯波を選択するステップと、
    前記ユーザにより指定された声質に対応する声門波形モデルから第2のプロトタイプ声帯波を選択するステップと、
    前記第1の波形と前記第2の波形との間で所定の演算を行なうことにより、前記入力音声波形を前記ユーザにより指定された声質の音声波形に変換するための変換関数を算出する変換関数算出ステップと、
    前記入力音声波形の声帯波の単位波形に対して前記変換関数を適用することにより、前記出力音声波形を生成するステップとを含む、請求項10に記載の声質変換方法。
  12. 前記変換関数算出ステップは、前記第2の波形から前記第1の波形を減算することにより、前記変換関数を算出するステップを含む、請求項11に記載の声質変換方法。
  13. 前記音声波形生成ステップは、前記入力音声波形の声帯波の単位波形に対して前記変換関数を加算することにより、前記出力音声波形を生成するステップを含む、請求項12に記載の声質変換方法。
  14. 前記単位波形抽出ステップは、
    前記入力音声波形の音節核を抽出するステップと、
    抽出された前記音節核の各々に対し、声道の影響を除去して音声が発生された際の声門気流の体積速度波形を検出するための逆フィルタを適用するステップと、
    前記逆フィルタが適用された後の前記音節核の各々から前記声帯波の単位波形を抽出するステップとを含む、請求項1〜請求項13のいずれかに記載の声質変換方法。
  15. 前記単位波形を抽出するステップは、前記音節核の中央部に存在する、前記体積速度波形の極小部分を起点とし、そこから当該音節核を含む所定領域の基本周波数により定まる周期の1周期分だけ遡った部分までを前記単位波形として抽出するステップを含む、請求項14に記載の声質変換生成方法。
  16. 前記波形を抽出するステップに先立って、前記声門気流の体積速度波形を所定の正規化方法にしたがって正規化するステップをさらに含む、請求項14又は請求項15に記載の声質変換方法。
  17. 前記先頭から所定個数の主成分表現は、第1主成分から第4主成分によるものである、請求項1〜請求項16のいずれかに記載の声質変換方法。
  18. コンピュータにより実行されると、請求項1〜請求項17のいずれかに記載の全てのステップを実現するようにコンピュータを動作させるように構成された、コンピュータプログラム。
  19. 請求項18に記載のコンピュータプログラムによりプログラムされたコンピュータ。
  20. 請求項18に記載のコンピュータプログラムを記録した、コンピュータ読取可能な記録媒体。
JP2003430209A 2003-12-25 2003-12-25 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ Expired - Fee Related JP4177751B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003430209A JP4177751B2 (ja) 2003-12-25 2003-12-25 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003430209A JP4177751B2 (ja) 2003-12-25 2003-12-25 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ

Publications (3)

Publication Number Publication Date
JP2005189483A JP2005189483A (ja) 2005-07-14
JP2005189483A5 JP2005189483A5 (ja) 2005-08-25
JP4177751B2 true JP4177751B2 (ja) 2008-11-05

Family

ID=34788644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003430209A Expired - Fee Related JP4177751B2 (ja) 2003-12-25 2003-12-25 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ

Country Status (1)

Country Link
JP (1) JP4177751B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101606190B (zh) 2007-02-19 2012-01-18 松下电器产业株式会社 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法
CN101578659B (zh) * 2007-05-14 2012-01-18 松下电器产业株式会社 音质转换装置及音质转换方法
JP4970371B2 (ja) * 2008-07-16 2012-07-04 株式会社東芝 情報処理装置
WO2011151956A1 (ja) * 2010-06-04 2011-12-08 パナソニック株式会社 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム

Also Published As

Publication number Publication date
JP2005189483A (ja) 2005-07-14

Similar Documents

Publication Publication Date Title
EP1667108B1 (en) Speech synthesis system, speech synthesis method, and program product
WO2014062521A1 (en) Emotion recognition using auditory attention cues extracted from users voice
CN108538308B (zh) 基于语音的口型和/或表情模拟方法及装置
Alku et al. Closed phase covariance analysis based on constrained linear prediction for glottal inverse filtering
JP4568826B2 (ja) 声門閉鎖区間検出装置および声門閉鎖区間検出プログラム
Raitio et al. Deep neural network based trainable voice source model for synthesis of speech with varying vocal effort.
JP2019008206A (ja) 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP2018180334A (ja) 感情認識装置、方法およびプログラム
Narendra et al. Estimation of the glottal source from coded telephone speech using deep neural networks
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
JP4177751B2 (ja) 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ
JP3174777B2 (ja) 信号処理方法および装置
Prabhu et al. EMOCONV-Diff: Diffusion-Based Speech Emotion Conversion for Non-Parallel and in-the-Wild Data
Airaksinen et al. Quadratic programming approach to glottal inverse filtering by joint norm-1 and norm-2 optimization
Buza et al. Voice signal processing for speech synthesis
Athanasopoulos et al. 3D immersive karaoke for the learning of foreign language pronunciation
Alku et al. Parameterization of the voice source by combining spectral decay and amplitude features of the glottal flow
Hasan et al. An approach to voice conversion using feature statistical mapping
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP4226831B2 (ja) 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体
JP2012058293A (ja) 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム
Savran et al. Speaker-independent 3D face synthesis driven by speech and text
WO2018043708A1 (ja) 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム
KR20080065775A (ko) 구화 교육용 발성 시각화 시스템

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050405

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080805

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080822

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130829

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees