JPH07104792A - 声質変換方法 - Google Patents
声質変換方法Info
- Publication number
- JPH07104792A JPH07104792A JP5247184A JP24718493A JPH07104792A JP H07104792 A JPH07104792 A JP H07104792A JP 5247184 A JP5247184 A JP 5247184A JP 24718493 A JP24718493 A JP 24718493A JP H07104792 A JPH07104792 A JP H07104792A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- conversion
- input
- speaker
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【目的】 音声の品質を保ちつつ、声質を制御する声質
変換方法を提供する。 【構成】 入力音声信号をスペクトル分析するステップ
41と、ステップ41で得られたLPCパラメータを、
予め作成しておいた入力話者コードブック14に基づい
てベクトル量子化するステップ42と、ステップ42で
得られたコードベクトルに対応する変換規則を、入力話
者学習用音声データ13の特徴を示す第1〜第4のフォ
ルマントF1〜F4と変換対象話者音声データ23の特
徴を示す第1〜第4のフォルマントF’1〜F’4とを
対応付けたスペクトル変換規則33から選択し、この変
換規則を用いて、ステップ41で得られた入力音声信号
のFFTパラメータ(スペクトル)を変換するステップ
43とからなる。
変換方法を提供する。 【構成】 入力音声信号をスペクトル分析するステップ
41と、ステップ41で得られたLPCパラメータを、
予め作成しておいた入力話者コードブック14に基づい
てベクトル量子化するステップ42と、ステップ42で
得られたコードベクトルに対応する変換規則を、入力話
者学習用音声データ13の特徴を示す第1〜第4のフォ
ルマントF1〜F4と変換対象話者音声データ23の特
徴を示す第1〜第4のフォルマントF’1〜F’4とを
対応付けたスペクトル変換規則33から選択し、この変
換規則を用いて、ステップ41で得られた入力音声信号
のFFTパラメータ(スペクトル)を変換するステップ
43とからなる。
Description
【0001】
【産業上の利用分野】本発明は、入力話者の音声を、所
望する話者の声質を持つ音声に変換する声質変換方法に
関する。
望する話者の声質を持つ音声に変換する声質変換方法に
関する。
【0002】
【従来の技術】従来より、音声の声質変換方法として、
線形予測分析・合成方式(以後、LPC(Linear Predi
ctive Coding)分析・合成方式と称す)に基づいて、音
声スペクトル包絡特性を表す各種パラメータを算出し、
これらのパラメータを変更することにより音声の声質を
変更する方法や、変換元の話者(以後、入力話者と称
す)と変換先の話者(以後、変換対象話者と称す)との
音声波形またはスペクトルの対応関係を予め求めてお
き、その対応関係に従って、入力話者によって発生され
た音声を、変換対象話者の音声へ変換する方法等が知ら
れている。
線形予測分析・合成方式(以後、LPC(Linear Predi
ctive Coding)分析・合成方式と称す)に基づいて、音
声スペクトル包絡特性を表す各種パラメータを算出し、
これらのパラメータを変更することにより音声の声質を
変更する方法や、変換元の話者(以後、入力話者と称
す)と変換先の話者(以後、変換対象話者と称す)との
音声波形またはスペクトルの対応関係を予め求めてお
き、その対応関係に従って、入力話者によって発生され
た音声を、変換対象話者の音声へ変換する方法等が知ら
れている。
【0003】ここでは、LPC分析・合成方式に基づく
声質変換方法の概略を説明する。従来のLPC分析・合
成方式に基づく方法では、声帯から唇までの声道の特徴
を表す線形予測係数(以後、LPCパラメータと称
す)、音源(声帯の振動)を表すパルスやローセンバー
グ波等のパラメータを、入力話者および変換対象話者に
ついて採取し、両者間の各パラメータの対応関係を、適
当なサンプルデータから実験的または経験的に把握して
声質の変換規則を決定する。
声質変換方法の概略を説明する。従来のLPC分析・合
成方式に基づく方法では、声帯から唇までの声道の特徴
を表す線形予測係数(以後、LPCパラメータと称
す)、音源(声帯の振動)を表すパルスやローセンバー
グ波等のパラメータを、入力話者および変換対象話者に
ついて採取し、両者間の各パラメータの対応関係を、適
当なサンプルデータから実験的または経験的に把握して
声質の変換規則を決定する。
【0004】そして、入力話者の入力音声を変換する際
には、入力音声信号から上記各パラメータを算出し、予
め決定された上記変換規則に従って各パラメータを変換
し、再合成することにより、出力される音声の声質を、
変換対象話者のものに変換する。上述したLPC分析・
合成方式に基づく声質変換方法の詳細は、例えば、D.G.
CHILDERS and Ke WU,”VOICE CONVERSION”(Speech C
ommunication 8 (1989) pp.147-158)に記載されてい
る。
には、入力音声信号から上記各パラメータを算出し、予
め決定された上記変換規則に従って各パラメータを変換
し、再合成することにより、出力される音声の声質を、
変換対象話者のものに変換する。上述したLPC分析・
合成方式に基づく声質変換方法の詳細は、例えば、D.G.
CHILDERS and Ke WU,”VOICE CONVERSION”(Speech C
ommunication 8 (1989) pp.147-158)に記載されてい
る。
【0005】
【発明が解決しようとする課題】ところで、上述した従
来の声質変換方法に用いられる変換規則は、適当なサン
プルデータから実験的または経験的に決定されたもので
あるため、入力話者が発する任意の入力音声を適切に変
換できるという保証は無い。
来の声質変換方法に用いられる変換規則は、適当なサン
プルデータから実験的または経験的に決定されたもので
あるため、入力話者が発する任意の入力音声を適切に変
換できるという保証は無い。
【0006】また、入力話者が実際に発する音声におい
て、LPCパラメータと音源パルスを表すパラメータ間
には複雑な相関関係があり、それらを全て考慮した変換
規則を決定することは極めて困難である。このため、従
来の声質変換方法を用いて声質変換を行った場合、変換
された音声において、音韻が変化してしまう等の品質劣
化が発生することがあるという問題があった。本発明
は、上述した事情に鑑みて為されたものであり、音声の
品質を保ちつつ、声質を制御する声質変換方法を提供す
ることを目的とする。
て、LPCパラメータと音源パルスを表すパラメータ間
には複雑な相関関係があり、それらを全て考慮した変換
規則を決定することは極めて困難である。このため、従
来の声質変換方法を用いて声質変換を行った場合、変換
された音声において、音韻が変化してしまう等の品質劣
化が発生することがあるという問題があった。本発明
は、上述した事情に鑑みて為されたものであり、音声の
品質を保ちつつ、声質を制御する声質変換方法を提供す
ることを目的とする。
【0007】
【課題を解決するための手段】本発明による声質変換方
法は、入力話者による入力音声を、前記入力話者と異な
る変換対象話者の声質を有する音声に変換する声質変換
方法において、前記入力音声の波形をスペクトル分析す
るスペクトル分析過程と、前記スペクトル分析過程で得
られた分析結果を、予め作成しておいた入力話者のコー
ドブックに基づいてベクトル量子化するベクトル量子化
過程と、前記ベクトル量子化過程で得られたコードベク
トルに対応する変換規則を、前記入力音声の特徴と前記
変換対象話者の音声の特徴とを統計的な手法を用いて対
応付けたスペクトル変換規則から選択し、この変換規則
を用いて、前記スペクトル分析過程で得られた前記入力
音声の波形のスペクトルを変換するスペクトル変換過程
とからなり、前記スペクトル変換過程で変換されたスペ
クトルに応じた音声が出力されることを特徴としてい
る。
法は、入力話者による入力音声を、前記入力話者と異な
る変換対象話者の声質を有する音声に変換する声質変換
方法において、前記入力音声の波形をスペクトル分析す
るスペクトル分析過程と、前記スペクトル分析過程で得
られた分析結果を、予め作成しておいた入力話者のコー
ドブックに基づいてベクトル量子化するベクトル量子化
過程と、前記ベクトル量子化過程で得られたコードベク
トルに対応する変換規則を、前記入力音声の特徴と前記
変換対象話者の音声の特徴とを統計的な手法を用いて対
応付けたスペクトル変換規則から選択し、この変換規則
を用いて、前記スペクトル分析過程で得られた前記入力
音声の波形のスペクトルを変換するスペクトル変換過程
とからなり、前記スペクトル変換過程で変換されたスペ
クトルに応じた音声が出力されることを特徴としてい
る。
【0008】
【作用】上記方法によれば、スペクトル分析の結果は、
入力話者のコードブックに基づいてベクトル量子化さ
れ、このベクトル量子化で得られたコードベクトルに対
応する変換規則が、スペクトル変換規則から選択されて
入力音声の波形に適用される。前記変換規則は、入力音
声の特徴と変換対象話者の音声の特徴とを統計的な手法
を用いて対応付けたものであり、入力音声に対して適応
的に選択される。このため、音声の品質を保ちつつ、声
質を制御することが可能となる。
入力話者のコードブックに基づいてベクトル量子化さ
れ、このベクトル量子化で得られたコードベクトルに対
応する変換規則が、スペクトル変換規則から選択されて
入力音声の波形に適用される。前記変換規則は、入力音
声の特徴と変換対象話者の音声の特徴とを統計的な手法
を用いて対応付けたものであり、入力音声に対して適応
的に選択される。このため、音声の品質を保ちつつ、声
質を制御することが可能となる。
【0009】
【実施例】以下、図面を参照して、本発明の一実施例に
ついて説明する。図1(a)は、本発明の一実施例によ
る声質変換方法の一部手順を示すフローチャートであ
る。この図に示す手順は、音声信号を効率良く表現する
ために、音声信号の特徴を示すパラメータ(以後、音声
特徴量と称す)を算出し、算出された音声特徴量を統計
的に分類し、コードブックと呼ばれる分類表を作成する
というものである。なお、音声特徴量としては、LPC
分析によるLPCパラメータやFFT(fast Fourier t
ransform )分析によるスペクトル密度等があるが、こ
こではLPCパラメータを用いた例について説明する。
ついて説明する。図1(a)は、本発明の一実施例によ
る声質変換方法の一部手順を示すフローチャートであ
る。この図に示す手順は、音声信号を効率良く表現する
ために、音声信号の特徴を示すパラメータ(以後、音声
特徴量と称す)を算出し、算出された音声特徴量を統計
的に分類し、コードブックと呼ばれる分類表を作成する
というものである。なお、音声特徴量としては、LPC
分析によるLPCパラメータやFFT(fast Fourier t
ransform )分析によるスペクトル密度等があるが、こ
こではLPCパラメータを用いた例について説明する。
【0010】図1(a)において、まず、ステップ11
では、入力話者により発生された入力音声に対応する入
力話者学習用音声データ13に対して、前述したLPC
分析処理が施され、LPCパラメータが算出される。L
PC分析は、統計的に正確さを期すため、充分に多くの
入力話者学習用音声データ13に対して施される。次
に、ステップ12では、収集されたLPCパラメータに
対して、クラスタリング(分類)が行われる。クラスタ
リングの手法としては、代表的な方法であるLBG(Li
nde-Buzo-Gray )アルゴリズム等がある。LBGアルゴ
リズムの詳細は、例えば、Linde ら、”An algorithm f
or Vector Quantization Design ”(IEEECOM-28(1980-
01))に記載されている。
では、入力話者により発生された入力音声に対応する入
力話者学習用音声データ13に対して、前述したLPC
分析処理が施され、LPCパラメータが算出される。L
PC分析は、統計的に正確さを期すため、充分に多くの
入力話者学習用音声データ13に対して施される。次
に、ステップ12では、収集されたLPCパラメータに
対して、クラスタリング(分類)が行われる。クラスタ
リングの手法としては、代表的な方法であるLBG(Li
nde-Buzo-Gray )アルゴリズム等がある。LBGアルゴ
リズムの詳細は、例えば、Linde ら、”An algorithm f
or Vector Quantization Design ”(IEEECOM-28(1980-
01))に記載されている。
【0011】上述した手順を経て、入力話者コードブッ
ク14が作成される。図1(b)は入力話者コードブッ
ク14の構成を示す概念図であり、この図に示すよう
に、入力話者コードブック14は、通常256〜512
程度のコードベクトル15から構成される。各コードベ
クトル15において、16はコードベクトル番号であ
り、例えば、1〜256の自然数が順に割り当てられ
る。17は入力話者学習用音声データ13に対応するス
ペクトル特徴量であり、ここでは、数個のLPCパラメ
ータで構成されている。
ク14が作成される。図1(b)は入力話者コードブッ
ク14の構成を示す概念図であり、この図に示すよう
に、入力話者コードブック14は、通常256〜512
程度のコードベクトル15から構成される。各コードベ
クトル15において、16はコードベクトル番号であ
り、例えば、1〜256の自然数が順に割り当てられ
る。17は入力話者学習用音声データ13に対応するス
ペクトル特徴量であり、ここでは、数個のLPCパラメ
ータで構成されている。
【0012】次に、スペクトル変換規則を決定する際に
使用されるマッピングコードブック28を作成する過程
を、図2を参照して説明する。マッピングコードブック
28は、入力話者の音声信号と変換対象話者の音声信号
とを統計的に対応付けるものである。まず、ステップ2
1において、変換対象話者学習用音声データ23から変
換対象話者コードブック22が作成される。この作成手
順は、図1(a)に示す手順と同一であるので、その説
明を省略する。
使用されるマッピングコードブック28を作成する過程
を、図2を参照して説明する。マッピングコードブック
28は、入力話者の音声信号と変換対象話者の音声信号
とを統計的に対応付けるものである。まず、ステップ2
1において、変換対象話者学習用音声データ23から変
換対象話者コードブック22が作成される。この作成手
順は、図1(a)に示す手順と同一であるので、その説
明を省略する。
【0013】次に、ステップ24,24では、入力話者
および変換対象話者コードブック14,22に基づい
て、入力話者学習用音声データ13および変換対象話者
学習用音声データ23それぞれに、LPC分析およびベ
クトル量子化処理が施される。ここで、ベクトル量子化
処理とは、各音声データ13,23をLPC分析して得
られたLPCパラメータに、最も似かよっているスペク
トル特徴量17を有するコードベクトル15を各コード
ブック14,22から抽出し、抽出されたコードベクト
ル15中のスペクトル特徴量17を出力する処理であ
る。ベクトル量子化の詳細については、例えば、古井貞
煕著、「デジタル音声処理」に記載されている。
および変換対象話者コードブック14,22に基づい
て、入力話者学習用音声データ13および変換対象話者
学習用音声データ23それぞれに、LPC分析およびベ
クトル量子化処理が施される。ここで、ベクトル量子化
処理とは、各音声データ13,23をLPC分析して得
られたLPCパラメータに、最も似かよっているスペク
トル特徴量17を有するコードベクトル15を各コード
ブック14,22から抽出し、抽出されたコードベクト
ル15中のスペクトル特徴量17を出力する処理であ
る。ベクトル量子化の詳細については、例えば、古井貞
煕著、「デジタル音声処理」に記載されている。
【0014】上述したベクトル量子化処理により、変換
対象話者コードベクトル系列25および入力話者コード
ベクトル系列26が得られる。次に、ステップ27で
は、入力話者コードベクトル系列26および変換対象話
者コードベクトル系列25から、両者を対応付けるマッ
ピングコードベクトルが生成される。マッピングコード
ベクトルは複数生成され、これらのマッピングコードベ
クトルからマッピングコードブック28が作成される。
対象話者コードベクトル系列25および入力話者コード
ベクトル系列26が得られる。次に、ステップ27で
は、入力話者コードベクトル系列26および変換対象話
者コードベクトル系列25から、両者を対応付けるマッ
ピングコードベクトルが生成される。マッピングコード
ベクトルは複数生成され、これらのマッピングコードベ
クトルからマッピングコードブック28が作成される。
【0015】マッピングコードベクトルの生成方法とし
ては、各入力話者コードベクトル系列26毎に、対応す
る複数の変換対象話者コードベクトル系列25を集計
し、重み付け平均化により生成する公知の方法を用い
る。この方法の詳細は、例えば、阿部ら、”Voice Conv
ersion through vector quantization”(JASJ(E) 11,2
(1990) pp.71-76)に記載されている。
ては、各入力話者コードベクトル系列26毎に、対応す
る複数の変換対象話者コードベクトル系列25を集計
し、重み付け平均化により生成する公知の方法を用い
る。この方法の詳細は、例えば、阿部ら、”Voice Conv
ersion through vector quantization”(JASJ(E) 11,2
(1990) pp.71-76)に記載されている。
【0016】こうして作成されたマッピングコードブッ
ク28を用いて、スペクトル変換規則33を作成する過
程を、図3を参照して説明する。スペクトル変換規則3
3は、音声の個人性に関係する特徴量の一つであるフォ
ルマント周波数を変換する規則である。図3において、
まず、ステップ31,31では、入力話者コードブック
14中の各コードベクトル15と、マッピングコードブ
ック28中の各マッピングコードベクトルとに、それぞ
れフォルマント分析を施す。これにより、各ベクトルに
対するフォルマント周波数が求められる。
ク28を用いて、スペクトル変換規則33を作成する過
程を、図3を参照して説明する。スペクトル変換規則3
3は、音声の個人性に関係する特徴量の一つであるフォ
ルマント周波数を変換する規則である。図3において、
まず、ステップ31,31では、入力話者コードブック
14中の各コードベクトル15と、マッピングコードブ
ック28中の各マッピングコードベクトルとに、それぞ
れフォルマント分析を施す。これにより、各ベクトルに
対するフォルマント周波数が求められる。
【0017】フォルマント周波数の分析手法は多々あ
り、例えば、LPC極抽出に基づく方法を簡便に用いる
ことができる。フォルマント周波数の分析手法の詳細
は、例えば、板倉ら、「統計的手法による音声スペクト
ル密度とホルマント周波数の推定」(信学論、(1970),5
3-A,1,pp.35-42)に記載されている。
り、例えば、LPC極抽出に基づく方法を簡便に用いる
ことができる。フォルマント周波数の分析手法の詳細
は、例えば、板倉ら、「統計的手法による音声スペクト
ル密度とホルマント周波数の推定」(信学論、(1970),5
3-A,1,pp.35-42)に記載されている。
【0018】次に、ステップ32では、スペクトル変換
規則33が求められる。具体的には、まず、図4に示す
ように、入力話者コードブック14中のコードベクトル
15における第1〜第4フォルマントF1〜F4を求め
る。次に、このコードベクトル15に対応するマッピン
グコードベクトルを、マッピングコードブック28から
検索し、当該マッピングコードベクトルから変換対象話
者に対応するコードベクトルを抽出する。そして、抽出
されたコードベクトルにおける第1〜第4フォルマント
F’1〜F’4を求め、それぞれ、上記第1〜第4のフ
ォルマントF1〜F4と対応させる。両者の対応付け
は、自動的に、あるいは手作業で行われる。
規則33が求められる。具体的には、まず、図4に示す
ように、入力話者コードブック14中のコードベクトル
15における第1〜第4フォルマントF1〜F4を求め
る。次に、このコードベクトル15に対応するマッピン
グコードベクトルを、マッピングコードブック28から
検索し、当該マッピングコードベクトルから変換対象話
者に対応するコードベクトルを抽出する。そして、抽出
されたコードベクトルにおける第1〜第4フォルマント
F’1〜F’4を求め、それぞれ、上記第1〜第4のフ
ォルマントF1〜F4と対応させる。両者の対応付け
は、自動的に、あるいは手作業で行われる。
【0019】次に、第1〜第4のフォルマントF1〜F
4に対応する周波数ω1,ω2,ω3,ω4と、第1〜
第4のフォルマントF’1〜F’4に対応する周波数
ω’1,ω’2,ω’3,ω’4をスペクトル変換規則
33に記録する。ここで、音韻種別によっては第4フォ
ルマントが存在しない場合があり、その際は、第4フォ
ルマントについては記録しない。
4に対応する周波数ω1,ω2,ω3,ω4と、第1〜
第4のフォルマントF’1〜F’4に対応する周波数
ω’1,ω’2,ω’3,ω’4をスペクトル変換規則
33に記録する。ここで、音韻種別によっては第4フォ
ルマントが存在しない場合があり、その際は、第4フォ
ルマントについては記録しない。
【0020】こうして、スペクトル変換規則33が作成
される。スペクトル変換規則33の一例を図5に示す。
この図に示すように、スペクトル変換規則33は、複数
のレコードから構成され、各レコードには、1〜256
の自然数であるスペクトル変換規則番号34が割り当て
られている。このスペクトル変換規則番号34は、入力
話者コードブック14中のコードベクトル番号16と1
対1で対応するように割り当てられている。
される。スペクトル変換規則33の一例を図5に示す。
この図に示すように、スペクトル変換規則33は、複数
のレコードから構成され、各レコードには、1〜256
の自然数であるスペクトル変換規則番号34が割り当て
られている。このスペクトル変換規則番号34は、入力
話者コードブック14中のコードベクトル番号16と1
対1で対応するように割り当てられている。
【0021】また、各レコードには、第1〜第4のフォ
ルマント別に、対応する周波数が記録されている。例え
ば、スペクトル変換規則番号が「1」であるレコードで
は、第1のフォルマントについて、周波数ω1(71
0)と周波数ω’1(815)とが対応付けられて記録
されている。
ルマント別に、対応する周波数が記録されている。例え
ば、スペクトル変換規則番号が「1」であるレコードで
は、第1のフォルマントについて、周波数ω1(71
0)と周波数ω’1(815)とが対応付けられて記録
されている。
【0022】上述した過程を経て作成された、スペクト
ル変換規則33を用いて、入力音声信号を声質の異なる
変換音声信号に変換する過程を、図6を参照して説明す
る。図6において、まず、ステップ41では、入力音声
信号に対して、スペクトル分析処理が行われる。スペク
トル分析処理は、LPC分析処理およびFFT分析処理
からなり、入力音声信号に応じたLPCパラメータおよ
びFFTパラメータ(スペクトル)が得られる。
ル変換規則33を用いて、入力音声信号を声質の異なる
変換音声信号に変換する過程を、図6を参照して説明す
る。図6において、まず、ステップ41では、入力音声
信号に対して、スペクトル分析処理が行われる。スペク
トル分析処理は、LPC分析処理およびFFT分析処理
からなり、入力音声信号に応じたLPCパラメータおよ
びFFTパラメータ(スペクトル)が得られる。
【0023】次に、ステップ42では、ステップ41で
得られたLPCパラメータを、予め作成しておいた入力
話者コードブック14に基づいてベクトル量子化する。
これにより、入力音声信号に対応するコードベクトルが
得られる。次に、ステップ43では、ステップ41で得
られたFFTパラメータを変換する。この変換過程を以
下に説明する。
得られたLPCパラメータを、予め作成しておいた入力
話者コードブック14に基づいてベクトル量子化する。
これにより、入力音声信号に対応するコードベクトルが
得られる。次に、ステップ43では、ステップ41で得
られたFFTパラメータを変換する。この変換過程を以
下に説明する。
【0024】具体的には、まず、ステップ42で得られ
たコードベクトルに対応するレコードを、予め作成して
おいたスペクトル変換規則33から抽出する。そして、
抽出されたレコードに表される変換規則に従って、ステ
ップ41で得られたFFTパラメータ(スペクトル)の
フォルマント周波数を変換する。フォルマント周波数の
変換方法の詳細は、水野ら、「制御自由度の高いフォル
マント周波数変換法」(音講論集、pp.319-340)に記載
されているため、ここでは、その概略を説明するにとど
める。
たコードベクトルに対応するレコードを、予め作成して
おいたスペクトル変換規則33から抽出する。そして、
抽出されたレコードに表される変換規則に従って、ステ
ップ41で得られたFFTパラメータ(スペクトル)の
フォルマント周波数を変換する。フォルマント周波数の
変換方法の詳細は、水野ら、「制御自由度の高いフォル
マント周波数変換法」(音講論集、pp.319-340)に記載
されているため、ここでは、その概略を説明するにとど
める。
【0025】本実施例の変換方法では、入力音声信号を
1ピッチ単位で切り出し、LPC極分析によって入力音
声のフォルマントを抽出する。そして、あるフォルマン
トの周波数を変換する際には、当該フォルマントのスペ
クトル密度と、当該フォルマントにおいて所望するスペ
クトル密度との差を、繰り返し処理によって一定値以下
に抑えつつ、所望するフォルマント周波数が変換された
全極型スペクトル特性を決定する。次に、こうして得ら
れた全極型スペクトル特性を有する全極型フィルタを構
成し、所望するフォルマント周波数特性が得られるまで
繰り返し原音声に対して作用させて、所望するフォルマ
ント周波数に音声を変換する。
1ピッチ単位で切り出し、LPC極分析によって入力音
声のフォルマントを抽出する。そして、あるフォルマン
トの周波数を変換する際には、当該フォルマントのスペ
クトル密度と、当該フォルマントにおいて所望するスペ
クトル密度との差を、繰り返し処理によって一定値以下
に抑えつつ、所望するフォルマント周波数が変換された
全極型スペクトル特性を決定する。次に、こうして得ら
れた全極型スペクトル特性を有する全極型フィルタを構
成し、所望するフォルマント周波数特性が得られるまで
繰り返し原音声に対して作用させて、所望するフォルマ
ント周波数に音声を変換する。
【0026】次に、ステップ44では、ステップ43で
スペクトル変換されて得られるFFTパラメータ(スペ
クトル)から、音声信号をIFFTにより合成し、変換
音声信号を出力する。この変換音声信号は、変換対象話
者の声質を有したものとなる。
スペクトル変換されて得られるFFTパラメータ(スペ
クトル)から、音声信号をIFFTにより合成し、変換
音声信号を出力する。この変換音声信号は、変換対象話
者の声質を有したものとなる。
【0027】以上説明したように、入力話者コードブッ
ク14中のコードベクトル15における第1〜第4フォ
ルマントF1〜F4と、このコードベクトル15に対応
するマッピングコードベクトルにおける第1〜第4フォ
ルマントF’1〜F’4とが対応付けられている。ま
た、上記マッピングコードベクトルは、入力話者コード
ブック14中の各コードベクトル15に対応して重み付
け平均化された変換対象話者コードブック22から生成
されている。したがって、上記スペクトル変換規則33
を用いることにより、入力音声に対して適応的な変換を
行うことができる。これにより、変換音声信号は高品質
なものとなることが保証される。
ク14中のコードベクトル15における第1〜第4フォ
ルマントF1〜F4と、このコードベクトル15に対応
するマッピングコードベクトルにおける第1〜第4フォ
ルマントF’1〜F’4とが対応付けられている。ま
た、上記マッピングコードベクトルは、入力話者コード
ブック14中の各コードベクトル15に対応して重み付
け平均化された変換対象話者コードブック22から生成
されている。したがって、上記スペクトル変換規則33
を用いることにより、入力音声に対して適応的な変換を
行うことができる。これにより、変換音声信号は高品質
なものとなることが保証される。
【0028】
【発明の効果】以上説明したように、本発明によれば、
スペクトル分析の結果は、入力話者のコードブックに基
づいてベクトル量子化され、このベクトル量子化で得ら
れたコードベクトルに対応する変換規則が、スペクトル
変換規則から選択されて入力音声の波形に適用される。
前記変換規則は、入力音声の特徴と変換対象話者の音声
の特徴とを統計的な手法を用いて対応付けたものであ
り、入力音声に対して適応的に選択される。したがっ
て、音声の品質を保ちつつ、声質を制御することができ
るという効果がある。
スペクトル分析の結果は、入力話者のコードブックに基
づいてベクトル量子化され、このベクトル量子化で得ら
れたコードベクトルに対応する変換規則が、スペクトル
変換規則から選択されて入力音声の波形に適用される。
前記変換規則は、入力音声の特徴と変換対象話者の音声
の特徴とを統計的な手法を用いて対応付けたものであ
り、入力音声に対して適応的に選択される。したがっ
て、音声の品質を保ちつつ、声質を制御することができ
るという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例による声質変換方法を説明す
るための図である。
るための図である。
【図2】マッピングコードブック28の作成過程を示す
図である。
図である。
【図3】スペクトル変換規則33の作成過程を示す図で
ある。
ある。
【図4】スペクトル変換規則33を説明するための図で
ある。
ある。
【図5】スペクトル変換規則33の構成を示す概念図で
ある。
ある。
【図6】スペクトル変換規則33を用いた声質変換過程
を示す図である。
を示す図である。
14 入力話者コードブック 22 変換対象話者コードブック 28 マッピングコードブック 33 スペクトル変換規則
Claims (2)
- 【請求項1】 入力話者による入力音声を、前記入力話
者と異なる変換対象話者の声質を有する音声に変換する
声質変換方法において、 前記入力音声の波形をスペクトル分析するスペクトル分
析過程と、 前記スペクトル分析過程で得られた分析結果を、予め作
成しておいた入力話者のコードブックに基づいてベクト
ル量子化するベクトル量子化過程と、 前記ベクトル量子化過程で得られたコードベクトルに対
応する変換規則を、前記入力音声の特徴と前記変換対象
話者の音声の特徴とを統計的な手法を用いて対応付けた
スペクトル変換規則から選択し、この変換規則を用い
て、前記スペクトル分析過程で得られた前記入力音声の
波形のスペクトルを変換するスペクトル変換過程とから
なり、 前記スペクトル変換過程で変換されたスペクトルに応じ
た音声が出力されることを特徴とする声質変換方法。 - 【請求項2】 前記入力話者のコードブックは、前記入
力話者による学習用音声の波形をスペクトル分析し、そ
の分析結果であるコードベクトルを統計的に分類してな
り、 前記スペクトル変換規則は、 前記入力話者コードブックを用いて表現されるスペクト
ル特徴量と、前記学習用音声と発声内容同一の学習用音
声を前記変換対象話者に発声させ、この学習用音声の波
形をスペクトル分析し、その分析結果をベクトル量子化
することにより得られた変換対象話者のコードブックと
を順次対応付け、 前記スペクトル特徴量と、 前記対応付けの結果を用いて、前記入力話者のコードブ
ックのコードベクトル毎に前記変換対象話者コードブッ
クを平均化して得られたマッピングコードブックで表現
されるスペクトル特徴量とを対応付けてなる変換規則か
ら構成されることを特徴とする請求項1に記載の声質変
換方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24718493A JP3282693B2 (ja) | 1993-10-01 | 1993-10-01 | 声質変換方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24718493A JP3282693B2 (ja) | 1993-10-01 | 1993-10-01 | 声質変換方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07104792A true JPH07104792A (ja) | 1995-04-21 |
JP3282693B2 JP3282693B2 (ja) | 2002-05-20 |
Family
ID=17159695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24718493A Expired - Fee Related JP3282693B2 (ja) | 1993-10-01 | 1993-10-01 | 声質変換方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3282693B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282267A (ja) * | 2000-03-29 | 2001-10-12 | Mega Chips Corp | 音声処理システム及び音声処理方法 |
JP2006330343A (ja) * | 2005-05-26 | 2006-12-07 | Casio Comput Co Ltd | 声質変換装置、及びプログラム |
US7228273B2 (en) | 2001-12-14 | 2007-06-05 | Sega Corporation | Voice control method |
WO2007063827A1 (ja) * | 2005-12-02 | 2007-06-07 | Asahi Kasei Kabushiki Kaisha | 声質変換システム |
JP2008116534A (ja) * | 2006-11-01 | 2008-05-22 | Yamaha Corp | 音声通信装置 |
US7379873B2 (en) | 2002-07-08 | 2008-05-27 | Yamaha Corporation | Singing voice synthesizing apparatus, singing voice synthesizing method and program for synthesizing singing voice |
CN110663080A (zh) * | 2017-02-13 | 2020-01-07 | 法国国家科研中心 | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 |
-
1993
- 1993-10-01 JP JP24718493A patent/JP3282693B2/ja not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282267A (ja) * | 2000-03-29 | 2001-10-12 | Mega Chips Corp | 音声処理システム及び音声処理方法 |
US7228273B2 (en) | 2001-12-14 | 2007-06-05 | Sega Corporation | Voice control method |
US7379873B2 (en) | 2002-07-08 | 2008-05-27 | Yamaha Corporation | Singing voice synthesizing apparatus, singing voice synthesizing method and program for synthesizing singing voice |
JP2006330343A (ja) * | 2005-05-26 | 2006-12-07 | Casio Comput Co Ltd | 声質変換装置、及びプログラム |
WO2007063827A1 (ja) * | 2005-12-02 | 2007-06-07 | Asahi Kasei Kabushiki Kaisha | 声質変換システム |
US8099282B2 (en) | 2005-12-02 | 2012-01-17 | Asahi Kasei Kabushiki Kaisha | Voice conversion system |
JP2008116534A (ja) * | 2006-11-01 | 2008-05-22 | Yamaha Corp | 音声通信装置 |
CN110663080A (zh) * | 2017-02-13 | 2020-01-07 | 法国国家科研中心 | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 |
JP2020507819A (ja) * | 2017-02-13 | 2020-03-12 | サントル ナシオナル ドゥ ラ ルシェルシェサイアンティフィク(セエヌエールエス) | スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3282693B2 (ja) | 2002-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7035791B2 (en) | Feature-domain concatenative speech synthesis | |
US6240384B1 (en) | Speech synthesis method | |
US8438033B2 (en) | Voice conversion apparatus and method and speech synthesis apparatus and method | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
Kim | Singing voice analysis/synthesis | |
JP3282693B2 (ja) | 声質変換方法 | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
CA2671068C (en) | Multicodebook source-dependent coding and decoding | |
JP3281266B2 (ja) | 音声合成方法及び装置 | |
JP3281281B2 (ja) | 音声合成方法及び装置 | |
JPH11242498A (ja) | 音声のピッチ符号化方法及び音声のピッチ符号化装置並びに音声のピッチ符号化プログラムが記録された記録媒体 | |
JPH0764599A (ja) | 線スペクトル対パラメータのベクトル量子化方法とクラスタリング方法および音声符号化方法並びにそれらの装置 | |
JPH1195796A (ja) | 音声合成方法 | |
JP2539351B2 (ja) | 音声合成方法 | |
JP6234134B2 (ja) | 音声合成装置 | |
JP2002221998A (ja) | 音響パラメータ符号化、復号化方法、装置及びプログラム、音声符号化、復号化方法、装置及びプログラム | |
JPH10247097A (ja) | 自然発話音声波形信号接続型音声合成装置 | |
JP3199338B2 (ja) | フォルマント抽出方法 | |
JP3092169B2 (ja) | 音声合成装置 | |
JPS61215599A (ja) | Lspパタンマツチングボコ−ダ | |
JPS61259300A (ja) | 音声合成方式 | |
JPH0258640B2 (ja) | ||
JP2009237015A (ja) | 音声素片接続装置及びプログラム | |
JPH11184499A (ja) | 音声符号化方法および音声符号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |