JP2002215198A - 声質変換装置および声質変換方法およびプログラム記憶媒体 - Google Patents
声質変換装置および声質変換方法およびプログラム記憶媒体Info
- Publication number
- JP2002215198A JP2002215198A JP2001007615A JP2001007615A JP2002215198A JP 2002215198 A JP2002215198 A JP 2002215198A JP 2001007615 A JP2001007615 A JP 2001007615A JP 2001007615 A JP2001007615 A JP 2001007615A JP 2002215198 A JP2002215198 A JP 2002215198A
- Authority
- JP
- Japan
- Prior art keywords
- conversion
- voice
- envelope
- spectrum
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
よび声質変換方法およびプログラム記憶媒体を提供す
る。 【解決手段】 母音および子音のスペクトル包絡変換テ
ーブル109a,109bから、変換元話者の入力音声を
構成する音素の母音,子音に対応するスペクトル包絡変
換テーブルを変換テーブル選択部108により選択す
る。選択されたスペクトル包絡変換テーブルに基づい
て、変換元話者の入力音声を構成する音素間のスペクト
ル包絡変換テーブルを音素間変換テーブル推定部107
により推定する。上記選択されたスペクトル包絡変換テ
ーブルと、推定された音素間のスペクトル包絡変換テー
ブルとに基づいて、変換元話者の入力音声からスペクト
ル包絡抽出部101により抽出されたスペクトル包絡を
スペクトル包絡変換部102により変換し、変換された
スペクトル包絡から変換先話者の声質の音声を音声合成
部103により合成する。
Description
した音声を別のある話者の音声に変換する声質変換装置
および声質変換方法およびプログラム記憶媒体に関す
る。
ペクトル包絡を表現するパラメータ(例えば線形予測係
数)のセットをベクトルと考え、変換元話者と変換先話
者のベクトルに対してベクトル量子化を行い、2話者の
コードブック間の対応付けを行うコードブックマッピン
グを用いたものがある(特開平7−104792号公報
参照)。
クトル包絡からホルマントピークを抽出し、2話者のホ
ルマントピーク間の包絡成分を(N+1)等分してN点の
代表値を作成した後、それらの代表値を対応付けるよう
な変換テーブルを5母音に対して作成し、その変換テー
ブルにより声質を変換するものがある(特開平9−24
4694号公報参照)。この第2の声質変換装置では、
変換される部分が母音である場合にはそのままの変換テ
ーブルが用いられ、変換部分が母音間のわたりの部分で
ある場合には前後母音の変換テーブルの線形補間から得
られる変換テーブルが用いられる。
声質変換装置では、コードブックの学習およびコードブ
ック間の対応付けに際し、大量の発声データが必要とな
り、学習時間が長く多くの記憶容量を確保しなければな
らないという問題がある。また、上記第2の声質変換装
置では、ホルマントピーク間の包絡成分を変換の対象と
しており、ホルマントピークの検出が比較的簡単な母音
および母音間のわたりに関しては対応できるが、ホルマ
ントピークの検出が難しい子音や子音を含むわたり区間
が存在する場合には適用するのが難しいという問題があ
る。このように、上記第2声質変換装置は、子音の処理
や音素間のわたり区間の処理(特に子音を含むわたりの
部分に関しての処理)が行われず、そのため、その部分
でスペクトル包絡の時間的な変化が急激に起こることに
より変換後の音声に歪が生じるという問題がある。
ータを必要とすることなく、変換後の音声を低歪化で
き、音質のよい声質変換ができる声質変換装置および声
質変換方法およびプログラム記憶媒体を提供することに
ある。
め、この発明の声質変換装置は、変換元話者の音声から
変換先話者の音声に変換する声質変換装置において、上
記変換元話者の音声から変換先話者の音声に変換するた
めの母音のスペクトル包絡変換規則および子音のスペク
トル包絡変換規則が予め記憶されたスペクトル包絡変換
規則記憶部と、上記スペクトル包絡変換規則記憶部に記
憶された上記母音のスペクトル包絡変換規則および上記
子音のスペクトル包絡変換規則から、上記変換元話者の
入力音声を構成する音素の母音および子音に対応するス
ペクトル包絡変換規則を選択する変換規則選択部と、上
記変換規則選択部により選択された上記変換元話者の入
力音声を構成する音素の母音および子音に対応するスペ
クトル包絡変換規則に基づいて、上記変換元話者の入力
音声を構成する音素間のスペクトル包絡変換規則を推定
する音素間変換規則推定部と、上記変換元話者の入力音
声からスペクトル包絡を抽出するスペクトル包絡抽出部
と、上記変換規則選択部により選択された上記変換元話
者の入力音声を構成する音素の母音および子音に対応す
るスペクトル包絡変換規則と、上記音素間変換規則推定
部により推定された上記変換元話者の入力音声を構成す
る音素間のスペクトル包絡変換規則とに基づいて、上記
スペクトル包絡抽出部により上記変換元話者の入力音声
から抽出されたスペクトル包絡を上記変換先話者の音声
のスペクトル包絡に変換するスペクトル包絡変換部と、
上記スペクトル包絡変換部により変換されたスペクトル
包絡から音声を合成する音声合成部とを備えたことを特
徴としている。
換元話者の音声から変換先話者の音声に変換するために
母音のスペクトル包絡変換規則および子音のスペクトル
包絡変換規則を予め作成する。例えば、変換元話者と変
換先話者がそれぞれ発声した音声を構成する音素の母
音,子音に基づいて、線形予測分析等を用いてスペクト
ル包絡変換規則を作成する。そうして、作成された母音
のスペクトル包絡変換規則および子音のスペクトル包絡
変換規則をスペクトル包絡変換規則記憶部に記憶する。
そして、上記スペクトル包絡変換規則記憶部に記憶され
た母音のスペクトル包絡変換規則および子音のスペクト
ル包絡変換規則の中から、変換元話者の入力音声を構成
する音素の母音および子音に対応するスペクトル包絡変
換規則を変換規則選択部により選択する。上記変換規則
選択部により選択された変換元話者の入力音声を構成す
る音素の母音および子音に対応するスペクトル包絡変換
規則に基づいて、変換元話者の入力音声を構成する音素
間のスペクトル包絡変換規則を音素間変換規則推定部に
より子音とその前後の母音のそれぞれのスペクトル包絡
変換テーブルとの線形補間等を用いて推定する。また、
上記変換元話者の入力音声からスペクトル包絡抽出部に
よりスペクトル包絡を抽出する。そうして、上記変換規
則選択部により選択された変換元話者の入力音声を構成
する音素の母音および子音に対応するスペクトル包絡変
換規則と、音素間変換規則推定部により推定された変換
元話者の入力音声を構成する音素間のスペクトル包絡変
換規則とに基づいて、上記スペクトル包絡抽出部により
変換元話者の音声から抽出されたスペクトル包絡をスペ
クトル包絡変換部により変換先話者の音声のスペクトル
包絡に変換した後、その変換されたスペクトル包絡から
音声合成部により変換先話者の声質の音声を合成する。
母音への音素間のわたり区間に対して音素間変換規則推
定部により推定されたスペクトル包絡変換規則を用いて
スペクトル包絡変換を行うことによって、スペクトル包
絡を時間的に滑らかに変化させて、変換後の音声を低歪
化でき、音質のよい声質変換処理を行うことができる。
変換元話者の入力音声を構成する音素およびその音素の
開始時刻と終了時刻を表す音声ラベル情報を付与する音
声ラベル付与部と、上記音声ラベル付与部により付与さ
れた上記音声ラベル情報を記憶する音声ラベル情報記憶
部と、上記音声ラベル情報記憶部に記憶された上記音声
ラベル情報および所定の規則に基づいて音素間のわたり
区間を決定し、上記入力音声を構成する音素のスペクト
ル包絡の変換を行う区間を制御する変換ラベルを作成す
る変換ラベル作成部とを備え、上記変換規則選択部は、
上記変換ラベル作成部により作成された変換ラベルに基
づいて、上記スペクトル包絡変換規則記憶部から上記変
換元話者の入力音声を構成する音素の母音および子音に
対応するスペクトル包絡変換規則を選択することを特徴
としている。
記音声ラベル付与部により付与された上記変換元話者の
入力音声を構成する音素およびその音素の開始時刻と終
了時刻を表す音声ラベル情報を音声ラベル情報記憶部に
記憶し、その音声ラベル情報記憶部に記憶された音声ラ
ベル情報および所定の規則に基づいて音素間のわたり区
間を決定し、上記変換ラベル作成部によって、変換元話
者の入力音声を構成する音素のスペクトル包絡の変換を
行う区間を制御する変換ラベルを作成する。そうして、
上記変換ラベル作成部により作成された変換ラベルに基
づいて、上記変換規則選択部は、上記スペクトル包絡変
換規則記憶部から上記変換元話者の入力音声を構成する
音素の母音および子音に対応するスペクトル包絡変換規
則を選択する。したがって、上記変換元話者の入力音声
から声質変換に最適なスペクトル包絡変換規則を得るこ
とができる。
変換ラベル作成部の上記所定の規則として、音素中心間
で上記音素間のわたり区間を決定するモードと音素境界
の周辺のみで上記音素間のわたり区間を決定するモード
のいずれか一方を上記変換ラベル作成部に指示するモー
ド切り替え部を備えることを特徴としている。
記モード切り替え部によって、上記変換ラベル作成部の
所定の規則として、音素中心間で上記音素間のわたり区
間を決定するモードと音素境界の周辺のみで上記音素間
のわたり区間を決定するモードのいずれか一方を上記変
換ラベル作成部に指示することによって、最適な音質に
調整することができる。
子音のスペクトル包絡変換規則が、全ての子音に対して
同じスペクトル包絡変換規則、有声子音,無声子音のグ
ループ毎に作成されたスペクトル包絡変換規則、また
は、音素の音響的特性でカテゴリ分けされたグループ毎
のスペクトル包絡変換規則のうちのいずれか1つである
ことを特徴としている。
記子音のスペクトル包絡変換規則として、全ての子音に
対して同じスペクトル包絡変換規則、有声子音,無声子
音のグループ毎に作成されたスペクトル包絡変換規則、
または、音素の音響的特性でカテゴリ分けされたグルー
プ毎のスペクトル包絡変換規則のうちのいずれか1つを
用いることによって、少ない変換規則で子音のスペクト
ル包絡を変換することができる。
話者の音声から変換先話者の音声に変換する声質変換方
法において、上記変換元話者の音声から変換先話者の音
声に変換するための母音のスペクトル包絡変換規則およ
び子音のスペクトル包絡変換規則をスペクトル包絡変換
規則記憶部に記憶するスペクトル包絡変換規則記憶ステ
ップと、上記スペクトル包絡変換規則記憶ステップにお
いて上記スペクトル包絡変換規則記憶部に記憶された母
音のスペクトル包絡変換規則および子音のスペクトル包
絡変換規則から、上記変換元話者の入力音声を構成する
音素の母音および子音に対応するスペクトル包絡変換規
則を選択する変換規則選択ステップと、上記変換規則選
択ステップにおいて選択された上記変換元話者の入力音
声を構成する音素の母音および子音に対応するスペクト
ル包絡変換規則に基づいて、上記変換元話者の入力音声
を構成する音素間のスペクトル包絡変換規則を推定する
音素間変換規則推定ステップと、上記変換元話者の入力
音声からスペクトル包絡を抽出するスペクトル包絡抽出
ステップと、上記変換規則選択ステップにおいて選択さ
れた上記変換元話者の入力音声を構成する音素の母音お
よび子音に対応するスペクトル包絡変換規則と、上記音
素間変換規則推定ステップにおいて推定された上記変換
元話者の入力音声を構成する音素間のスペクトル包絡変
換規則とに基づいて、上記スペクトル包絡抽出ステップ
において上記変換元話者の入力音声から抽出されたスペ
クトル包絡を上記変換先話者の音声のスペクトル包絡に
変換するスペクトル包絡変換ステップと、上記スペクト
ル包絡変換ステップにおいて変換されたスペクトル包絡
から音声を合成する音声合成ステップとを有することを
特徴としている。
者の音声から変換先話者の音声に変換するために母音の
スペクトル包絡変換規則および子音のスペクトル包絡変
換規則を予め作成する。例えば、変換元話者と変換先話
者がそれぞれ発声した音声を構成する音素の母音,子音
に基づいて、線形予測分析等を用いてスペクトル包絡変
換規則を作成する。そうして、作成された母音のスペク
トル包絡変換規則および子音のスペクトル包絡変換規則
をスペクトル包絡変換規則記憶ステップにおいてスペク
トル包絡変換規則記憶部に記憶する。そして、上記スペ
クトル包絡変換規則記憶部に記憶された母音のスペクト
ル包絡変換規則および子音のスペクトル包絡変換規則の
中から、変換元話者の入力音声を構成する音素の母音お
よび子音に対応するスペクトル包絡変換規則を変換規則
選択ステップで選択する。上記変換規則選択ステップで
選択された変換元話者の入力音声を構成する音素の母音
および子音に対応するスペクトル包絡変換規則に基づい
て、変換元話者の入力音声を構成する音素間のスペクト
ル包絡変換規則を音素間変換規則推定ステップにおいて
子音とその前後の母音のそれぞれのスペクトル包絡変換
テーブルとの線形補間等を用いて推定する。また、上記
変換元話者の入力音声からスペクトル包絡抽出ステップ
においてスペクトル包絡を抽出する。そうして、上記変
換規則選択ステップにおいて選択された変換元話者の入
力音声を構成する音素の母音および子音に対応するスペ
クトル包絡変換規則と、音素間変換規則推定ステップに
おいて推定された変換元話者の入力音声を構成する音素
間のスペクトル包絡変換規則とに基づいて、スペクトル
包絡抽出ステップにおいて変換元話者の音声から抽出さ
れたスペクトル包絡をスペクトル包絡変換ステップにお
いて変換先話者の音声のスペクトル包絡に変換した後、
その変換されたスペクトル包絡から音声合成ステップで
変換先話者の声質の音声を合成する。
母音への音素間のわたり区間に対して、音素間変換規則
推定ステップにおいて推定されたスペクトル包絡変換規
則を用いてスペクトル包絡変換を行うことによって、ス
ペクトル包絡を時間的に滑らかに変化させて、変換後の
音声を低歪化でき、音質のよい声質変換処理を行うこと
ができる。
上記声質変換方法を実行する制御プログラムを記憶した
ことを特徴としている。
れた制御プログラムをマイクロコンピュータ等の情報処
理装置に読み込んで、その制御プログラムを実行するこ
とによって、母音から子音、子音から母音への音素間の
わたり区間に対して推定されたスペクトル包絡変換規則
を用いてスペクトル包絡変換を行うことによって、スペ
クトル包絡を時間的に滑らかに変化させて、変換後の音
声を低歪化でき、音質のよい声質変換処理を行うことが
できる。
よび声質変換方法およびプログラム記憶媒体を図示の実
施の形態により詳細に説明する。
装置の基本構成を示すブロック図であり、101は変換
元話者の入力音声からスペクトル包絡を抽出するスペク
トル包絡抽出部、102は上記スペクトル包絡抽出部1
01により抽出されたスペクトル包絡を変換するスペク
トル包絡変換部、103は上記スペクトル包絡変換部1
02により変換されたスペクトル包絡から変換先話者の
音声を合成する音声合成部、104は音声ラベル情報を
与える音声ラベル付与部、105は上記音声ラベル付与
部104により与えられる上記音声ラベル情報を記憶す
る音声ラベル情報記憶部、106は上記音声ラベル情報
記憶部105に記憶された上記音声ラベル情報に基づい
てスペクトル包絡を変換するための制御情報を表す変換
ラベルを作成する変換ラベル作成部、107は変換元話
者の入力音声を構成する音素間のスペクトル包絡変換テ
ーブルを推定する音素間変換規則推定部としての音素間
変換テーブル推定部、108は上記変換ラベル作成部1
06により作成された変換ラベルに基づいて、後述する
スペクトル包絡変換テーブル記憶部109からスペクト
ル包絡変換テーブルを選択する変換規則選択部としての
変換テーブル選択部、109は学習済みの母音のスペク
トル包絡変換規則としての母音スペクトル包絡変換テー
ブル109aおよび子音のスペクトル包絡変換規則とし
ての子音スペクトル包絡変換テーブル109bが記憶さ
れたスペクトル包絡変換規則記憶部としてのスペクトル
包絡変換テーブル記憶部である。
スペクトル包絡変換テーブル109aおよび子音のスペ
クトル包絡変換規則としての子音スペクトル包絡変換テ
ーブル109bと、音素間変換テーブル推定部107に
より推定された変換元話者の入力音声を構成する音素間
のスペクトル包絡変換テーブルとに基づいて、スペクト
ル包絡抽出部101により抽出されたスペクトル包絡を
変換先話者の音声を合成するためのスペクトル包絡に変
換する。
ード切り替え部201を付加した構成を示すブロック図
である。このモード切り替え部201は、音素中心モー
ドであるか音素境界モードであるかを変換ラベル作成部
106に音素間のわたり区間を決定するための規則とし
て指示する。
音声ラベル付与部104として変換元話者の音声を認識
する音声認識部301を用いた場合のブロック図であ
る。以下、この発明の実施の形態として図3に示す声質
変換装置について説明する。
この発明の特徴である母音と子音のわたり区間に関する
処理について説明する。
音声から変換先話者の音声に変換するための5母音のス
ペクトル包絡変換テーブルおよび子音のスペクトル包絡
変換テーブルを作成し、それらのスペクトル包絡テーブ
ルを用いた声質変換を行う。
憶部109に記憶される母音スペクトル包絡変換テーブ
ル109aと子音スペクトル包絡変換テーブル109bの
作成手順を示している。
先話者が5母音(/a/,/i/,/u/,/e/,/o/)を発声し、
それぞれ発声した各母音からスペクトル包絡抽出部40
1,402において線形予測分析により線形予測係数を
求める。ここで、線形予測係数に対してフーリエ変換を
行うことにより入力音声のパワースペクトルに対する包
絡成分を抽出する。これら抽出したスペクトル包絡に対
してDP(Dynamic Programming)マッチング部403で
は、それぞれの母音間でスペクトル包絡のDPマッチン
グを行うことにより5母音に対してスペクトル包絡の対
応を取り,各々のスペクトル包絡変換テーブルを作成す
る(DPマッチングを用いた周波数軸の非線形変換につ
いては特開平4−147300号公報を参照)。このよ
うにして作成された各母音のスペクトル包絡変換テーブ
ルを母音スペクトル包絡変換テーブル109aとしてス
ペクトル包絡変換テーブル記憶部109に記憶する。
クトル包絡が一定して得られないため、全ての子音に対
して同じ無変換を表すスペクトル包絡変換テーブルや子
音を有声子音と無声子音などの複数のカテゴリに分けて
母音と同様の処理によりそのカテゴリ毎の変換テーブル
を作成する。そうして作成された子音のスペクトル包絡
変換テーブルを、母音のスペクトル包絡変換テーブルと
同様に子音スペクトル包絡変換テーブル109bとして
スペクトル包絡変換テーブル記憶部109に記憶する。
成のための発声は必ずしも人間が行う必要はなく、人間
が発声する代わりに音声合成の技術を用いて作成された
音声など、スペクトル包絡の抽出できる音声であれば変
換テーブルの作成は可能である。
ブル(109a,109b)を用いて、変換元話者の音声を
変換先話者の音声に声質変換を行う手順について、図3
を参照しながら説明する。ここでは説明のために入力音
声として雨(/ame/)を用いる。
声認識器301によって発話音声の認識処理が行われ
る。認識処理の出力は、表1に示すように、時間とその
音素を表す音声ラベル情報となる。表1の第3列は音素
を表しており、第1列はその音素の開始時刻(msec)を表
し、第2列は音素の終了時刻(msec)を表している。例え
ば2行目は、400(msec)から599(msec)が音素/m/
であることを示している。
音声ラベル情報記憶部105に与えられて記憶される。
この実施形態では、人間による発話音声を変換している
ため、認識処理によりラベル情報を与えたが、テキスト
音声合成などの合成音声を作成する場合には、その発声
内容を指定するのが一般的であるため、種々の合成音声
に対して声質の変換を行う場合には、認識処理を行わ
ず、音声合成時の音素情報そのものを用いることができ
る。
切り替え部201によって与えられるモード情報と音声
ラベル情報から、実際にスペクトル包絡の変換を行う区
間を制御する変換ラベルを作成する。
変換ラベルの作成方法を説明する図である。上記モード
切り替え部201により音素中心モードが選択された場
合、図5に示す変換ラベル1のように、音声ラベル情報
から各音素の中心時刻を計算し、音素中心間の区間に対
してスペクトル包絡変換テーブルの推定を行うように変
換ラベルを作成する。
音素境界モードの場合、図5の変換ラベル2のように、
各音素の終了時刻前の数msecから開始時刻後の数msecの
間に対してスペクトル包絡変換テーブルの推定を行うよ
うに変換ラベルを作成する。なお、変換ラベル2の場合
に対しては任意に変換区間を設定することもできる。こ
のようにして得られた変換区間の情報は、表2に示すよ
うな時刻とそのスペクトル包絡変換テーブルで表され、
変換テーブル選択部108に与えられる。
クトル包絡変換テーブルの開始時刻,終了時刻を夫々示
しており、第3,第4列目はその各時刻のスペクトル包
絡変換テーブルを表している。例えば2行目は、200
(msec)から499(msec)の間にスペクトル包絡変換テー
ブルがaからmに遷移することを示している。
ラベル作成部106で与えられた変換ラベルにより、遷
移前半のスペクトル包絡変換テーブルと遷移後半のスペ
クトル包絡変換テーブルを選択する。このとき、母音の
スペクトル包絡変換テーブルは、そのまま同じ母音のス
ペクトル包絡変換テーブルが選ばれ、子音のスペクトル
包絡変換テーブルに関しては、無変換を表す変換テーブ
ルやその他いくつかの変換テーブルの中からその子音の
含まれるグループの変換テーブルが選ばれる。この実施
形態では、子音のスペクトル包絡変換テーブルとして、
全ての子音に対して同じ無変換を表すスペクトル包絡変
換テーブルを選んだが、子音のスペクトル包絡変換テー
ブルとしては、例えば、子音を有声子音と無声子音等の
複数のカテゴリに分けて、そのカテゴリ毎に作成された
スペクトル包絡変換テーブルや、音素の音響的特性でカ
テゴリ分けされたグループ毎のスペクトル包絡変換テー
ブルをもっている場合には、それらの中から最適なスペ
クトル包絡変換テーブルを選択してもよい。
包絡変換テーブルは、音素間変換テーブル推定部107
に与えられる。上記音素間変換テーブル推定部107で
は、2つ時刻のスペクトル包絡変換テーブルから、処理
を行う単位であるフレームに対して、その区間の各フレ
ーム時刻におけるスペクトル包絡変換テーブルを推定す
る。
推定方法を示している。上記音素間変換テーブル推定部
107(図3に示す)は、最初に変換テーブル選択部10
8(図3に示す)から与えられた情報に基づき、遷移前半
のスペクトル包絡変換テーブルおよび遷移後半のスペク
トル包絡変換テーブルをセットする。図6では、遷移前
半のスペクトル包絡変換テーブルが/a/のスペクトル包
絡変換テーブル601となり、遷移後半のスペクトル包
絡変換テーブルが/m/のスペクトル包絡変換テーブル6
02(この実施形態では無変換)となっている。このと
き、時刻taと時刻tmとの間のわたり区間の各フレーム
時刻t1,t2におけるスペクトル包絡変換テーブルは、
2つのスペクトラム包絡変換テーブルの対応する周波数
での値同士を直線で結び、直線上の時刻t1,t2に対応
する時刻のデータの補間によって作成される(時刻t1の
変換テーブル603,時刻t2の変換テーブル604)。
図6に示すように、母音から子音へのわたり区間におい
ても、スペクトル包絡が滑らかに変換されるようにスペ
クトル包絡変換テーブルが作成されるため、スペクトル
包絡変換後の音声に不連続感(ノイズ)は生じない。この
ようにして、音素間のわたり区間に対するスペクトル包
絡変換テーブルを作成する。
テーブルを使用した声質変換全体の処理について説明を
行う。
包絡抽出部101によって、スペクトル包絡変換テーブ
ル作成時と同様の方法である線形予測分析により、その
スペクトル包絡と予測残差信号が抽出される。ここで得
られたスペクトル包絡は、スペクトル包絡変換部102
に送られ、変換先話者のスペクトル包絡にむけて変換さ
れる。上記スペクトル包絡変換部102では、入力され
たスペクトル包絡に対して、非線形の変換テーブルを用
いて、周波数方向に非線形変換を行う。
り、入力されたスペクトル包絡は、非線形の変換テーブ
ル701によって周波数方向に変換される(図7に示す
破線は無変換を表す変換テーブル702である)。上記
各変換テーブルは、変換元話者と変換先話者の周波数の
対応を示しており、変換元話者の各周波数における値は
変換先話者の対応する周波数に変換される。
変換テーブル701によって変換先話者の対応する周波
数b1に変換される。このとき、a1−b1、a2−b2、
a3−b3の変換のように変換テーブルが無変換を表す傾
き1の直線702より上部にある場合は、変換前スペク
トル包絡703と変換後スペクトル包絡704を比べて
分かるようにスペクトル包絡は高周波数方向にシフトす
る。一方、a4−b4、a5−b5、a6−b6の変換のよう
に変換テーブルが無変換を表す傾き1の直線702より
下部にある場合は、そのスペクトル包絡は低周波数方向
にシフトする。
絡は、非線形のスペクトル包絡変換テーブルを用いて周
波数方向に変換される。このとき、上記変換テーブル推
定部107では、音素間のわたり区間のスペクトル包絡
変換テーブルは滑らかに変形しながらスペクトル包絡変
換部102に与えられるので、スペクトル包絡変換結果
も同様に時間的に滑らかに変形される。ここまで、変換
テーブルという表現を用いたが、変換関数など、任意の
スペクトル包絡変換規則によってスペクトル包絡の変換
を行う場合に対しても同様の処理を行うことができる。
の操作によって変換された変換後スペクトル包絡に対し
て音声信号を合成する。この音声信号の合成方法として
は、例えば、逆フーリエ変換を行うことで線形予測係数
を計算し、得られた線形予測係数とスペクトル包絡抽出
部101で得られる予測残差信号から変換先話者の音声
を出力する。
音素間変換テーブル推定部107により、母音から子
音、子音から母音への音素間のわたり区間に対して推定
されたスペクトル包絡変換テーブルを用いてスペクトル
包絡変換部102によりスペクトル包絡変換を行うこと
によって、スペクトル包絡を時間的に滑らかに変化させ
て、変換後の音声を低歪化でき、音質のよい声質変換処
理を行うことができる。
て、音声認識部301により認識された変換元話者の入
力音声の音声ラベル情報および所定の規則に基づいて音
素間のわたり区間を決定して変換ラベルを作成し、その
変換ラベルに基づいて、上記変換規則選択部108によ
って、スペクトル包絡変換テーブル記憶部109から変
換元話者の入力音声を構成する音素の母音および子音に
対応するスペクトル包絡変換テーブルを選択するので、
変換元話者の入力音声から声質変換に最適なスペクトル
包絡変換テーブルを得ることができる。
て、音素中心間でその音素間のわたり区間を決定する音
素中心モードと音素境界の周辺のみで音素間のわたり区
間を決定する音素境界モードのいずれか一方を変換ラベ
ル作成部106に指示することによって、最適な音質に
調整することができる。
ブル109bとして、全ての子音に対して同じスペクト
ル包絡変換テーブル、有声子音,無声子音のグループ毎
に作成されたスペクトル包絡変換テーブル、または、音
素の音響的特性でカテゴリ分けされたグループ毎のスペ
クトル包絡変換規則のうちのいずれか1つを用いること
によって、大量の発声データを必要とすることなく、母
音に比べて一定なスペクトルが得にくい子音について適
切な変換テーブルを用いることができる。
ての機能は、プログラム記憶媒体に記憶された音質変換
方法を実行するプログラムによって実現される。上記プ
ログラム記憶媒体は、本体側と分離可能に構成され、磁
気テープやカセットテープ等のテープ系、フロッピー
(登録商標)ディスク,ハードディスク等の磁気ディス
クやCD−ROM(コンパクトディスク−リード・オン
リー・メモリー),MO(光磁気)ディスク,MD(ミニディ
スク),DVD(デジタル・バーサタイル・ディスク)等の
光ディスクのディスク系、IC(集積回路)カードや光カ
ード等のカード系、マスクROM,EPROM(紫外線
消去型ROM),EEPROM(電気的消去型ROM),フ
ラッシュROM等の半導体メモリ系を含めた固定的にプ
ログラムを坦持する媒体である。
質変換装置および声質変換方法およびプログラム記憶媒
体によれば、母音から子音、子音から母音へのわたり区
間に対して、子音とその前後の母音のそれぞれのスペク
トル包絡変換テーブルとの線形補間等により推定された
音素間のわたり区間のスペクトル包絡変換テーブルを用
いてスペクトル包絡変換を行うことによって、スペクト
ル包絡が時間的に滑らかに変化し、音質のよい声質変換
処理を行うことができる。
置の基本構成を説明するブロック図である。
を付加した構成を示すブロック図である。
付与部に変換元話者の発声を認識する音声認識部を用い
た場合のブロック図である。
を説明する図である。
る。
の作成法を説明する図である。
る図である。
Claims (6)
- 【請求項1】 変換元話者の音声から変換先話者の音声
に変換する声質変換装置において、 上記変換元話者の音声から変換先話者の音声に変換する
ための母音のスペクトル包絡変換規則および子音のスペ
クトル包絡変換規則が予め記憶されたスペクトル包絡変
換規則記憶部と、 上記スペクトル包絡変換規則記憶部に記憶された上記母
音のスペクトル包絡変換規則および上記子音のスペクト
ル包絡変換規則から、上記変換元話者の入力音声を構成
する音素の母音および子音に対応するスペクトル包絡変
換規則を選択する変換規則選択部と、 上記変換規則選択部により選択された上記変換元話者の
入力音声を構成する音素の母音および子音に対応するス
ペクトル包絡変換規則に基づいて、上記変換元話者の入
力音声を構成する音素間のスペクトル包絡変換規則を推
定する音素間変換規則推定部と、 上記変換元話者の入力音声からスペクトル包絡を抽出す
るスペクトル包絡抽出部と、 上記変換規則選択部により選択された上記変換元話者の
入力音声を構成する音素の母音および子音に対応するス
ペクトル包絡変換規則と、上記音素間変換規則推定部に
より推定された上記変換元話者の入力音声を構成する音
素間のスペクトル包絡変換規則とに基づいて、上記スペ
クトル包絡抽出部により上記変換元話者の入力音声から
抽出されたスペクトル包絡を上記変換先話者の音声のス
ペクトル包絡に変換するスペクトル包絡変換部と、 上記スペクトル包絡変換部により変換されたスペクトル
包絡から音声を合成する音声合成部とを備えたことを特
徴とする声質変換装置。 - 【請求項2】 請求項1に記載の声質変換装置におい
て、 上記変換元話者の入力音声を構成する音素およびその音
素の開始時刻と終了時刻を表す音声ラベル情報を付与す
る音声ラベル付与部と、 上記音声ラベル付与部により付与された上記音声ラベル
情報を記憶する音声ラベル情報記憶部と、 上記音声ラベル情報記憶部に記憶された上記音声ラベル
情報および所定の規則に基づいて音素間のわたり区間を
決定し、上記入力音声を構成する音素のスペクトル包絡
の変換を行う区間を制御する変換ラベルを作成する変換
ラベル作成部とを備え、 上記変換規則選択部は、上記変換ラベル作成部により作
成された変換ラベルに基づいて、上記スペクトル包絡変
換規則記憶部から上記変換元話者の入力音声を構成する
音素の母音および子音に対応するスペクトル包絡変換規
則を選択することを特徴とする声質変換装置。 - 【請求項3】 請求項2に記載の声質変換装置におい
て、 上記変換ラベル作成部の上記所定の規則として、音素中
心間で上記音素間のわたり区間を決定するモードと音素
境界の周辺のみで上記音素間のわたり区間を決定するモ
ードのいずれか一方を上記変換ラベル作成部に指示する
モード切り替え部を備えることを特徴とする声質変換装
置。 - 【請求項4】 請求項1に記載の声質変換装置におい
て、 上記子音のスペクトル包絡変換規則は、全ての子音に対
して同じスペクトル包絡変換規則、有声子音,無声子音
のグループ毎に作成されたスペクトル包絡変換規則、ま
たは、音素の音響的特性でカテゴリ分けされたグループ
毎のスペクトル包絡変換規則のうちのいずれか1つであ
ることを特徴とする声質変換装置。 - 【請求項5】 変換元話者の音声から変換先話者の音声
に変換する声質変換方法において、 上記変換元話者の音声から変換先話者の音声に変換する
ための母音のスペクトル包絡変換規則および子音のスペ
クトル包絡変換規則をスペクトル包絡変換規則記憶部に
記憶するスペクトル包絡変換規則記憶ステップと、 上記スペクトル包絡変換規則記憶ステップにおいて上記
スペクトル包絡変換規則記憶部に記憶された母音のスペ
クトル包絡変換規則および子音のスペクトル包絡変換規
則から、上記変換元話者の入力音声を構成する音素の母
音および子音に対応するスペクトル包絡変換規則を選択
する変換規則選択ステップと、 上記変換規則選択ステップにおいて選択された上記変換
元話者の入力音声を構成する音素の母音および子音に対
応するスペクトル包絡変換規則に基づいて、上記変換元
話者の入力音声を構成する音素間のスペクトル包絡変換
規則を推定する音素間変換規則推定ステップと、 上記変換元話者の入力音声からスペクトル包絡を抽出す
るスペクトル包絡抽出ステップと、 上記変換規則選択ステップにおいて選択された上記変換
元話者の入力音声を構成する音素の母音および子音に対
応するスペクトル包絡変換規則と、上記音素間変換規則
推定ステップにおいて推定された上記変換元話者の入力
音声を構成する音素間のスペクトル包絡変換規則とに基
づいて、上記スペクトル包絡抽出ステップにおいて上記
変換元話者の入力音声から抽出されたスペクトル包絡を
上記変換先話者の音声のスペクトル包絡に変換するスペ
クトル包絡変換ステップと、 上記スペクトル包絡変換ステップにおいて変換されたス
ペクトル包絡から音声を合成する音声合成ステップとを
有することを特徴とする声質変換方法。 - 【請求項6】 請求項5に記載の声質変換方法を実行す
る制御プログラムを記憶したことを特徴とするプログラ
ム記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001007615A JP3703394B2 (ja) | 2001-01-16 | 2001-01-16 | 声質変換装置および声質変換方法およびプログラム記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001007615A JP3703394B2 (ja) | 2001-01-16 | 2001-01-16 | 声質変換装置および声質変換方法およびプログラム記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002215198A true JP2002215198A (ja) | 2002-07-31 |
JP3703394B2 JP3703394B2 (ja) | 2005-10-05 |
Family
ID=18875342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001007615A Expired - Fee Related JP3703394B2 (ja) | 2001-01-16 | 2001-01-16 | 声質変換装置および声質変換方法およびプログラム記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3703394B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006046761A1 (ja) * | 2004-10-27 | 2006-05-04 | Yamaha Corporation | ピッチ変換装置 |
WO2006093019A1 (ja) * | 2005-03-01 | 2006-09-08 | Japan Advanced Institute Of Science And Technology | 音声処理方法と装置及び記憶媒体並びに音声システム |
WO2007063827A1 (ja) | 2005-12-02 | 2007-06-07 | Asahi Kasei Kabushiki Kaisha | 声質変換システム |
US7349847B2 (en) | 2004-10-13 | 2008-03-25 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis apparatus and speech synthesis method |
US8010362B2 (en) | 2007-02-20 | 2011-08-30 | Kabushiki Kaisha Toshiba | Voice conversion using interpolated speech unit start and end-time conversion rule matrices and spectral compensation on its spectral parameter vector |
CN101751922B (zh) * | 2009-07-22 | 2011-12-07 | 中国科学院自动化研究所 | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 |
WO2011151956A1 (ja) * | 2010-06-04 | 2011-12-08 | パナソニック株式会社 | 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム |
US8311831B2 (en) | 2007-10-01 | 2012-11-13 | Panasonic Corporation | Voice emphasizing device and voice emphasizing method |
CN108417198A (zh) * | 2017-12-28 | 2018-08-17 | 中南大学 | 一种基于频谱包络和基音周期的男女语音转换方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101606190B (zh) | 2007-02-19 | 2012-01-18 | 松下电器产业株式会社 | 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法 |
-
2001
- 2001-01-16 JP JP2001007615A patent/JP3703394B2/ja not_active Expired - Fee Related
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7349847B2 (en) | 2004-10-13 | 2008-03-25 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis apparatus and speech synthesis method |
WO2006046761A1 (ja) * | 2004-10-27 | 2006-05-04 | Yamaha Corporation | ピッチ変換装置 |
US7490035B2 (en) | 2004-10-27 | 2009-02-10 | Yamaha Corporation | Pitch shifting apparatus |
US8065138B2 (en) | 2005-03-01 | 2011-11-22 | Japan Advanced Institute Of Science And Technology | Speech processing method and apparatus, storage medium, and speech system |
WO2006093019A1 (ja) * | 2005-03-01 | 2006-09-08 | Japan Advanced Institute Of Science And Technology | 音声処理方法と装置及び記憶媒体並びに音声システム |
JP2006243178A (ja) * | 2005-03-01 | 2006-09-14 | Japan Advanced Institute Of Science & Technology Hokuriku | 音声処理方法と装置及びプログラム並びに音声システム |
KR100931419B1 (ko) * | 2005-03-01 | 2009-12-11 | 글로리 가부시키가이샤 | 음성 처리 방법과 장치, 기억 매체 및 음성 시스템 |
WO2007063827A1 (ja) | 2005-12-02 | 2007-06-07 | Asahi Kasei Kabushiki Kaisha | 声質変換システム |
US8099282B2 (en) | 2005-12-02 | 2012-01-17 | Asahi Kasei Kabushiki Kaisha | Voice conversion system |
US8010362B2 (en) | 2007-02-20 | 2011-08-30 | Kabushiki Kaisha Toshiba | Voice conversion using interpolated speech unit start and end-time conversion rule matrices and spectral compensation on its spectral parameter vector |
US8311831B2 (en) | 2007-10-01 | 2012-11-13 | Panasonic Corporation | Voice emphasizing device and voice emphasizing method |
CN101751922B (zh) * | 2009-07-22 | 2011-12-07 | 中国科学院自动化研究所 | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 |
WO2011151956A1 (ja) * | 2010-06-04 | 2011-12-08 | パナソニック株式会社 | 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム |
JP5039865B2 (ja) * | 2010-06-04 | 2012-10-03 | パナソニック株式会社 | 声質変換装置及びその方法 |
CN108417198A (zh) * | 2017-12-28 | 2018-08-17 | 中南大学 | 一种基于频谱包络和基音周期的男女语音转换方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3703394B2 (ja) | 2005-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vergin et al. | Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition | |
JP4246792B2 (ja) | 声質変換装置および声質変換方法 | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
US20070213987A1 (en) | Codebook-less speech conversion method and system | |
JPH11126090A (ja) | 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体 | |
JP5039865B2 (ja) | 声質変換装置及びその方法 | |
JPH031200A (ja) | 規則型音声合成装置 | |
WO2006040908A1 (ja) | 音声合成装置及び音声合成方法 | |
KR101836430B1 (ko) | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
JP3703394B2 (ja) | 声質変換装置および声質変換方法およびプログラム記憶媒体 | |
US8990092B2 (en) | Voice recognition device | |
US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
Goronzy et al. | Is non-native pronunciation modelling necessary? | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
JP2001282300A (ja) | 声質変換装置および声質変換方法、並びに、プログラム記録媒体 | |
GB2313530A (en) | Speech Synthesizer | |
JP5375612B2 (ja) | 周波数軸伸縮係数推定装置とシステム方法並びにプログラム | |
JPH06214596A (ja) | 音声認識装置および話者適応化方法 | |
JP2013033103A (ja) | 声質変換装置および声質変換方法 | |
JP2536169B2 (ja) | 規則型音声合成装置 | |
JP3465334B2 (ja) | 音声対話装置及び音声対話方法 | |
JPH11109992A (ja) | 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置 | |
Ngo et al. | Toward a rule-based synthesis of vietnamese emotional speech | |
Atal | Speech technology in 2001: New research directions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050610 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050719 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080729 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090729 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100729 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110729 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |