JP2002215198A

JP2002215198A - 声質変換装置および声質変換方法およびプログラム記憶媒体

Info

Publication number: JP2002215198A
Application number: JP2001007615A
Authority: JP
Inventors: Kazuhiro Miki; 一浩三木; Tomokazu Morio; 智一森尾
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2001-01-16
Filing date: 2001-01-16
Publication date: 2002-07-31
Anticipated expiration: 2021-01-16
Also published as: JP3703394B2

Abstract

(57)【要約】【課題】音質のよい声質変換ができる声質変換装置お
よび声質変換方法およびプログラム記憶媒体を提供す
る。【解決手段】母音および子音のスペクトル包絡変換テ
ーブル１０９a,１０９bから、変換元話者の入力音声を
構成する音素の母音,子音に対応するスペクトル包絡変
換テーブルを変換テーブル選択部１０８により選択す
る。選択されたスペクトル包絡変換テーブルに基づい
て、変換元話者の入力音声を構成する音素間のスペクト
ル包絡変換テーブルを音素間変換テーブル推定部１０７
により推定する。上記選択されたスペクトル包絡変換テ
ーブルと、推定された音素間のスペクトル包絡変換テー
ブルとに基づいて、変換元話者の入力音声からスペクト
ル包絡抽出部１０１により抽出されたスペクトル包絡を
スペクトル包絡変換部１０２により変換し、変換された
スペクトル包絡から変換先話者の声質の音声を音声合成
部１０３により合成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、ある話者の発声
した音声を別のある話者の音声に変換する声質変換装置
および声質変換方法およびプログラム記憶媒体に関す
る。

【０００２】

【従来の技術】従来、第１の声質変換装置としては、ス
ペクトル包絡を表現するパラメータ(例えば線形予測係
数)のセットをベクトルと考え、変換元話者と変換先話
者のベクトルに対してベクトル量子化を行い、２話者の
コードブック間の対応付けを行うコードブックマッピン
グを用いたものがある(特開平７−１０４７９２号公報
参照)。

【０００３】また、第２の声質変換装置としては、スペ
クトル包絡からホルマントピークを抽出し、２話者のホ
ルマントピーク間の包絡成分を(Ｎ＋１)等分してＮ点の
代表値を作成した後、それらの代表値を対応付けるよう
な変換テーブルを５母音に対して作成し、その変換テー
ブルにより声質を変換するものがある(特開平９−２４
４６９４号公報参照)。この第２の声質変換装置では、
変換される部分が母音である場合にはそのままの変換テ
ーブルが用いられ、変換部分が母音間のわたりの部分で
ある場合には前後母音の変換テーブルの線形補間から得
られる変換テーブルが用いられる。

【０００４】

【発明が解決しようとする課題】ところが、上記第１の
声質変換装置では、コードブックの学習およびコードブ
ック間の対応付けに際し、大量の発声データが必要とな
り、学習時間が長く多くの記憶容量を確保しなければな
らないという問題がある。また、上記第２の声質変換装
置では、ホルマントピーク間の包絡成分を変換の対象と
しており、ホルマントピークの検出が比較的簡単な母音
および母音間のわたりに関しては対応できるが、ホルマ
ントピークの検出が難しい子音や子音を含むわたり区間
が存在する場合には適用するのが難しいという問題があ
る。このように、上記第２声質変換装置は、子音の処理
や音素間のわたり区間の処理(特に子音を含むわたりの
部分に関しての処理)が行われず、そのため、その部分
でスペクトル包絡の時間的な変化が急激に起こることに
より変換後の音声に歪が生じるという問題がある。

【０００５】そこで、この発明の目的は、大量の発声デ
ータを必要とすることなく、変換後の音声を低歪化で
き、音質のよい声質変換ができる声質変換装置および声
質変換方法およびプログラム記憶媒体を提供することに
ある。

【０００６】

【課題を解決するための手段】上記目的を達成するた
め、この発明の声質変換装置は、変換元話者の音声から
変換先話者の音声に変換する声質変換装置において、上
記変換元話者の音声から変換先話者の音声に変換するた
めの母音のスペクトル包絡変換規則および子音のスペク
トル包絡変換規則が予め記憶されたスペクトル包絡変換
規則記憶部と、上記スペクトル包絡変換規則記憶部に記
憶された上記母音のスペクトル包絡変換規則および上記
子音のスペクトル包絡変換規則から、上記変換元話者の
入力音声を構成する音素の母音および子音に対応するス
ペクトル包絡変換規則を選択する変換規則選択部と、上
記変換規則選択部により選択された上記変換元話者の入
力音声を構成する音素の母音および子音に対応するスペ
クトル包絡変換規則に基づいて、上記変換元話者の入力
音声を構成する音素間のスペクトル包絡変換規則を推定
する音素間変換規則推定部と、上記変換元話者の入力音
声からスペクトル包絡を抽出するスペクトル包絡抽出部
と、上記変換規則選択部により選択された上記変換元話
者の入力音声を構成する音素の母音および子音に対応す
るスペクトル包絡変換規則と、上記音素間変換規則推定
部により推定された上記変換元話者の入力音声を構成す
る音素間のスペクトル包絡変換規則とに基づいて、上記
スペクトル包絡抽出部により上記変換元話者の入力音声
から抽出されたスペクトル包絡を上記変換先話者の音声
のスペクトル包絡に変換するスペクトル包絡変換部と、
上記スペクトル包絡変換部により変換されたスペクトル
包絡から音声を合成する音声合成部とを備えたことを特
徴としている。

【０００７】上記構成の声質変換装置によれば、上記変
換元話者の音声から変換先話者の音声に変換するために
母音のスペクトル包絡変換規則および子音のスペクトル
包絡変換規則を予め作成する。例えば、変換元話者と変
換先話者がそれぞれ発声した音声を構成する音素の母
音,子音に基づいて、線形予測分析等を用いてスペクト
ル包絡変換規則を作成する。そうして、作成された母音
のスペクトル包絡変換規則および子音のスペクトル包絡
変換規則をスペクトル包絡変換規則記憶部に記憶する。
そして、上記スペクトル包絡変換規則記憶部に記憶され
た母音のスペクトル包絡変換規則および子音のスペクト
ル包絡変換規則の中から、変換元話者の入力音声を構成
する音素の母音および子音に対応するスペクトル包絡変
換規則を変換規則選択部により選択する。上記変換規則
選択部により選択された変換元話者の入力音声を構成す
る音素の母音および子音に対応するスペクトル包絡変換
規則に基づいて、変換元話者の入力音声を構成する音素
間のスペクトル包絡変換規則を音素間変換規則推定部に
より子音とその前後の母音のそれぞれのスペクトル包絡
変換テーブルとの線形補間等を用いて推定する。また、
上記変換元話者の入力音声からスペクトル包絡抽出部に
よりスペクトル包絡を抽出する。そうして、上記変換規
則選択部により選択された変換元話者の入力音声を構成
する音素の母音および子音に対応するスペクトル包絡変
換規則と、音素間変換規則推定部により推定された変換
元話者の入力音声を構成する音素間のスペクトル包絡変
換規則とに基づいて、上記スペクトル包絡抽出部により
変換元話者の音声から抽出されたスペクトル包絡をスペ
クトル包絡変換部により変換先話者の音声のスペクトル
包絡に変換した後、その変換されたスペクトル包絡から
音声合成部により変換先話者の声質の音声を合成する。

【０００８】このようにして、母音から子音、子音から
母音への音素間のわたり区間に対して音素間変換規則推
定部により推定されたスペクトル包絡変換規則を用いて
スペクトル包絡変換を行うことによって、スペクトル包
絡を時間的に滑らかに変化させて、変換後の音声を低歪
化でき、音質のよい声質変換処理を行うことができる。

【０００９】また、一実施形態の声質変換装置は、上記
変換元話者の入力音声を構成する音素およびその音素の
開始時刻と終了時刻を表す音声ラベル情報を付与する音
声ラベル付与部と、上記音声ラベル付与部により付与さ
れた上記音声ラベル情報を記憶する音声ラベル情報記憶
部と、上記音声ラベル情報記憶部に記憶された上記音声
ラベル情報および所定の規則に基づいて音素間のわたり
区間を決定し、上記入力音声を構成する音素のスペクト
ル包絡の変換を行う区間を制御する変換ラベルを作成す
る変換ラベル作成部とを備え、上記変換規則選択部は、
上記変換ラベル作成部により作成された変換ラベルに基
づいて、上記スペクトル包絡変換規則記憶部から上記変
換元話者の入力音声を構成する音素の母音および子音に
対応するスペクトル包絡変換規則を選択することを特徴
としている。

【００１０】上記実施形態の声質変換装置によれば、上
記音声ラベル付与部により付与された上記変換元話者の
入力音声を構成する音素およびその音素の開始時刻と終
了時刻を表す音声ラベル情報を音声ラベル情報記憶部に
記憶し、その音声ラベル情報記憶部に記憶された音声ラ
ベル情報および所定の規則に基づいて音素間のわたり区
間を決定し、上記変換ラベル作成部によって、変換元話
者の入力音声を構成する音素のスペクトル包絡の変換を
行う区間を制御する変換ラベルを作成する。そうして、
上記変換ラベル作成部により作成された変換ラベルに基
づいて、上記変換規則選択部は、上記スペクトル包絡変
換規則記憶部から上記変換元話者の入力音声を構成する
音素の母音および子音に対応するスペクトル包絡変換規
則を選択する。したがって、上記変換元話者の入力音声
から声質変換に最適なスペクトル包絡変換規則を得るこ
とができる。

【００１１】また、一実施形態の声質変換装置は、上記
変換ラベル作成部の上記所定の規則として、音素中心間
で上記音素間のわたり区間を決定するモードと音素境界
の周辺のみで上記音素間のわたり区間を決定するモード
のいずれか一方を上記変換ラベル作成部に指示するモー
ド切り替え部を備えることを特徴としている。

【００１２】上記実施形態の声質変換装置によれば、上
記モード切り替え部によって、上記変換ラベル作成部の
所定の規則として、音素中心間で上記音素間のわたり区
間を決定するモードと音素境界の周辺のみで上記音素間
のわたり区間を決定するモードのいずれか一方を上記変
換ラベル作成部に指示することによって、最適な音質に
調整することができる。

【００１３】また、一実施形態の声質変換装置は、上記
子音のスペクトル包絡変換規則が、全ての子音に対して
同じスペクトル包絡変換規則、有声子音,無声子音のグ
ループ毎に作成されたスペクトル包絡変換規則、また
は、音素の音響的特性でカテゴリ分けされたグループ毎
のスペクトル包絡変換規則のうちのいずれか１つである
ことを特徴としている。

【００１４】上記実施形態の声質変換装置によれば、上
記子音のスペクトル包絡変換規則として、全ての子音に
対して同じスペクトル包絡変換規則、有声子音,無声子
音のグループ毎に作成されたスペクトル包絡変換規則、
または、音素の音響的特性でカテゴリ分けされたグルー
プ毎のスペクトル包絡変換規則のうちのいずれか１つを
用いることによって、少ない変換規則で子音のスペクト
ル包絡を変換することができる。

【００１５】また、この発明の声質変換方法は、変換元
話者の音声から変換先話者の音声に変換する声質変換方
法において、上記変換元話者の音声から変換先話者の音
声に変換するための母音のスペクトル包絡変換規則およ
び子音のスペクトル包絡変換規則をスペクトル包絡変換
規則記憶部に記憶するスペクトル包絡変換規則記憶ステ
ップと、上記スペクトル包絡変換規則記憶ステップにお
いて上記スペクトル包絡変換規則記憶部に記憶された母
音のスペクトル包絡変換規則および子音のスペクトル包
絡変換規則から、上記変換元話者の入力音声を構成する
音素の母音および子音に対応するスペクトル包絡変換規
則を選択する変換規則選択ステップと、上記変換規則選
択ステップにおいて選択された上記変換元話者の入力音
声を構成する音素の母音および子音に対応するスペクト
ル包絡変換規則に基づいて、上記変換元話者の入力音声
を構成する音素間のスペクトル包絡変換規則を推定する
音素間変換規則推定ステップと、上記変換元話者の入力
音声からスペクトル包絡を抽出するスペクトル包絡抽出
ステップと、上記変換規則選択ステップにおいて選択さ
れた上記変換元話者の入力音声を構成する音素の母音お
よび子音に対応するスペクトル包絡変換規則と、上記音
素間変換規則推定ステップにおいて推定された上記変換
元話者の入力音声を構成する音素間のスペクトル包絡変
換規則とに基づいて、上記スペクトル包絡抽出ステップ
において上記変換元話者の入力音声から抽出されたスペ
クトル包絡を上記変換先話者の音声のスペクトル包絡に
変換するスペクトル包絡変換ステップと、上記スペクト
ル包絡変換ステップにおいて変換されたスペクトル包絡
から音声を合成する音声合成ステップとを有することを
特徴としている。

【００１６】上記声質変換方法によれば、上記変換元話
者の音声から変換先話者の音声に変換するために母音の
スペクトル包絡変換規則および子音のスペクトル包絡変
換規則を予め作成する。例えば、変換元話者と変換先話
者がそれぞれ発声した音声を構成する音素の母音,子音
に基づいて、線形予測分析等を用いてスペクトル包絡変
換規則を作成する。そうして、作成された母音のスペク
トル包絡変換規則および子音のスペクトル包絡変換規則
をスペクトル包絡変換規則記憶ステップにおいてスペク
トル包絡変換規則記憶部に記憶する。そして、上記スペ
クトル包絡変換規則記憶部に記憶された母音のスペクト
ル包絡変換規則および子音のスペクトル包絡変換規則の
中から、変換元話者の入力音声を構成する音素の母音お
よび子音に対応するスペクトル包絡変換規則を変換規則
選択ステップで選択する。上記変換規則選択ステップで
選択された変換元話者の入力音声を構成する音素の母音
および子音に対応するスペクトル包絡変換規則に基づい
て、変換元話者の入力音声を構成する音素間のスペクト
ル包絡変換規則を音素間変換規則推定ステップにおいて
子音とその前後の母音のそれぞれのスペクトル包絡変換
テーブルとの線形補間等を用いて推定する。また、上記
変換元話者の入力音声からスペクトル包絡抽出ステップ
においてスペクトル包絡を抽出する。そうして、上記変
換規則選択ステップにおいて選択された変換元話者の入
力音声を構成する音素の母音および子音に対応するスペ
クトル包絡変換規則と、音素間変換規則推定ステップに
おいて推定された変換元話者の入力音声を構成する音素
間のスペクトル包絡変換規則とに基づいて、スペクトル
包絡抽出ステップにおいて変換元話者の音声から抽出さ
れたスペクトル包絡をスペクトル包絡変換ステップにお
いて変換先話者の音声のスペクトル包絡に変換した後、
その変換されたスペクトル包絡から音声合成ステップで
変換先話者の声質の音声を合成する。

【００１７】このようにして、母音から子音、子音から
母音への音素間のわたり区間に対して、音素間変換規則
推定ステップにおいて推定されたスペクトル包絡変換規
則を用いてスペクトル包絡変換を行うことによって、ス
ペクトル包絡を時間的に滑らかに変化させて、変換後の
音声を低歪化でき、音質のよい声質変換処理を行うこと
ができる。

【００１８】また、この発明のプログラム記憶媒体は、
上記声質変換方法を実行する制御プログラムを記憶した
ことを特徴としている。

【００１９】上記プログラム記憶媒体によれば、記憶さ
れた制御プログラムをマイクロコンピュータ等の情報処
理装置に読み込んで、その制御プログラムを実行するこ
とによって、母音から子音、子音から母音への音素間の
わたり区間に対して推定されたスペクトル包絡変換規則
を用いてスペクトル包絡変換を行うことによって、スペ
クトル包絡を時間的に滑らかに変化させて、変換後の音
声を低歪化でき、音質のよい声質変換処理を行うことが
できる。

【００２０】

【発明の実施の形態】以下、この発明の声質変換装置お
よび声質変換方法およびプログラム記憶媒体を図示の実
施の形態により詳細に説明する。

【００２１】図１はこの発明の実施の一形態の声質変換
装置の基本構成を示すブロック図であり、１０１は変換
元話者の入力音声からスペクトル包絡を抽出するスペク
トル包絡抽出部、１０２は上記スペクトル包絡抽出部１
０１により抽出されたスペクトル包絡を変換するスペク
トル包絡変換部、１０３は上記スペクトル包絡変換部１
０２により変換されたスペクトル包絡から変換先話者の
音声を合成する音声合成部、１０４は音声ラベル情報を
与える音声ラベル付与部、１０５は上記音声ラベル付与
部１０４により与えられる上記音声ラベル情報を記憶す
る音声ラベル情報記憶部、１０６は上記音声ラベル情報
記憶部１０５に記憶された上記音声ラベル情報に基づい
てスペクトル包絡を変換するための制御情報を表す変換
ラベルを作成する変換ラベル作成部、１０７は変換元話
者の入力音声を構成する音素間のスペクトル包絡変換テ
ーブルを推定する音素間変換規則推定部としての音素間
変換テーブル推定部、１０８は上記変換ラベル作成部１
０６により作成された変換ラベルに基づいて、後述する
スペクトル包絡変換テーブル記憶部１０９からスペクト
ル包絡変換テーブルを選択する変換規則選択部としての
変換テーブル選択部、１０９は学習済みの母音のスペク
トル包絡変換規則としての母音スペクトル包絡変換テー
ブル１０９aおよび子音のスペクトル包絡変換規則とし
ての子音スペクトル包絡変換テーブル１０９bが記憶さ
れたスペクトル包絡変換規則記憶部としてのスペクトル
包絡変換テーブル記憶部である。

【００２２】上記スペクトル包絡変換部１０２は、母音
スペクトル包絡変換テーブル１０９aおよび子音のスペ
クトル包絡変換規則としての子音スペクトル包絡変換テ
ーブル１０９bと、音素間変換テーブル推定部１０７に
より推定された変換元話者の入力音声を構成する音素間
のスペクトル包絡変換テーブルとに基づいて、スペクト
ル包絡抽出部１０１により抽出されたスペクトル包絡を
変換先話者の音声を合成するためのスペクトル包絡に変
換する。

【００２３】また、図２は図１に示す声質変換装置にモ
ード切り替え部２０１を付加した構成を示すブロック図
である。このモード切り替え部２０１は、音素中心モー
ドであるか音素境界モードであるかを変換ラベル作成部
１０６に音素間のわたり区間を決定するための規則とし
て指示する。

【００２４】次に、図３は、図２に示す声質変換装置の
音声ラベル付与部１０４として変換元話者の音声を認識
する音声認識部３０１を用いた場合のブロック図であ
る。以下、この発明の実施の形態として図３に示す声質
変換装置について説明する。

【００２５】まず、全体の処理について説明する前に、
この発明の特徴である母音と子音のわたり区間に関する
処理について説明する。

【００２６】上記声質変換装置では、予め変換元話者の
音声から変換先話者の音声に変換するための５母音のス
ペクトル包絡変換テーブルおよび子音のスペクトル包絡
変換テーブルを作成し、それらのスペクトル包絡テーブ
ルを用いた声質変換を行う。

【００２７】図４は上記スペクトル包絡変換テーブル記
憶部１０９に記憶される母音スペクトル包絡変換テーブ
ル１０９aと子音スペクトル包絡変換テーブル１０９bの
作成手順を示している。

【００２８】図４に示すように、変換元話者および変換
先話者が５母音(/a/,/ｉ/,/ｕ/,/ｅ/,/ｏ/)を発声し、
それぞれ発声した各母音からスペクトル包絡抽出部４０
１,４０２において線形予測分析により線形予測係数を
求める。ここで、線形予測係数に対してフーリエ変換を
行うことにより入力音声のパワースペクトルに対する包
絡成分を抽出する。これら抽出したスペクトル包絡に対
してＤＰ(Dynamic Programming)マッチング部４０３で
は、それぞれの母音間でスペクトル包絡のＤＰマッチン
グを行うことにより５母音に対してスペクトル包絡の対
応を取り，各々のスペクトル包絡変換テーブルを作成す
る(ＤＰマッチングを用いた周波数軸の非線形変換につ
いては特開平４−１４７３００号公報を参照)。このよ
うにして作成された各母音のスペクトル包絡変換テーブ
ルを母音スペクトル包絡変換テーブル１０９aとしてス
ペクトル包絡変換テーブル記憶部１０９に記憶する。

【００２９】また、子音については、母音に比べてスペ
クトル包絡が一定して得られないため、全ての子音に対
して同じ無変換を表すスペクトル包絡変換テーブルや子
音を有声子音と無声子音などの複数のカテゴリに分けて
母音と同様の処理によりそのカテゴリ毎の変換テーブル
を作成する。そうして作成された子音のスペクトル包絡
変換テーブルを、母音のスペクトル包絡変換テーブルと
同様に子音スペクトル包絡変換テーブル１０９bとして
スペクトル包絡変換テーブル記憶部１０９に記憶する。

【００３０】このとき、スペクトル包絡変換テーブル作
成のための発声は必ずしも人間が行う必要はなく、人間
が発声する代わりに音声合成の技術を用いて作成された
音声など、スペクトル包絡の抽出できる音声であれば変
換テーブルの作成は可能である。

【００３１】このようにして音素毎に作られた変換テー
ブル(１０９a,１０９b)を用いて、変換元話者の音声を
変換先話者の音声に声質変換を行う手順について、図３
を参照しながら説明する。ここでは説明のために入力音
声として雨(/ame/)を用いる。

【００３２】まず、入力された変換元話者の音声は、音
声認識器３０１によって発話音声の認識処理が行われ
る。認識処理の出力は、表１に示すように、時間とその
音素を表す音声ラベル情報となる。表１の第３列は音素
を表しており、第１列はその音素の開始時刻(msec)を表
し、第２列は音素の終了時刻(msec)を表している。例え
ば２行目は、４００(msec)から５９９(msec)が音素/ｍ/
であることを示している。

【００３３】

【表１】

【００３４】このようにして得られた音声ラベル情報が
音声ラベル情報記憶部１０５に与えられて記憶される。
この実施形態では、人間による発話音声を変換している
ため、認識処理によりラベル情報を与えたが、テキスト
音声合成などの合成音声を作成する場合には、その発声
内容を指定するのが一般的であるため、種々の合成音声
に対して声質の変換を行う場合には、認識処理を行わ
ず、音声合成時の音素情報そのものを用いることができ
る。

【００３５】上記変換ラベル作成部１０６では、モード
切り替え部２０１によって与えられるモード情報と音声
ラベル情報から、実際にスペクトル包絡の変換を行う区
間を制御する変換ラベルを作成する。

【００３６】図５は上記変換ラベル作成部１０６による
変換ラベルの作成方法を説明する図である。上記モード
切り替え部２０１により音素中心モードが選択された場
合、図５に示す変換ラベル１のように、音声ラベル情報
から各音素の中心時刻を計算し、音素中心間の区間に対
してスペクトル包絡変換テーブルの推定を行うように変
換ラベルを作成する。

【００３７】一方、上記モード切り替え部２０１により
音素境界モードの場合、図５の変換ラベル２のように、
各音素の終了時刻前の数msecから開始時刻後の数msecの
間に対してスペクトル包絡変換テーブルの推定を行うよ
うに変換ラベルを作成する。なお、変換ラベル２の場合
に対しては任意に変換区間を設定することもできる。こ
のようにして得られた変換区間の情報は、表２に示すよ
うな時刻とそのスペクトル包絡変換テーブルで表され、
変換テーブル選択部１０８に与えられる。

【００３８】

【表２】

【００３９】上記表２において、第１,第２列目はスペ
クトル包絡変換テーブルの開始時刻,終了時刻を夫々示
しており、第３,第４列目はその各時刻のスペクトル包
絡変換テーブルを表している。例えば２行目は、２００
(msec)から４９９(msec)の間にスペクトル包絡変換テー
ブルがaからｍに遷移することを示している。

【００４０】上記変換テーブル選択部１０８では、変換
ラベル作成部１０６で与えられた変換ラベルにより、遷
移前半のスペクトル包絡変換テーブルと遷移後半のスペ
クトル包絡変換テーブルを選択する。このとき、母音の
スペクトル包絡変換テーブルは、そのまま同じ母音のス
ペクトル包絡変換テーブルが選ばれ、子音のスペクトル
包絡変換テーブルに関しては、無変換を表す変換テーブ
ルやその他いくつかの変換テーブルの中からその子音の
含まれるグループの変換テーブルが選ばれる。この実施
形態では、子音のスペクトル包絡変換テーブルとして、
全ての子音に対して同じ無変換を表すスペクトル包絡変
換テーブルを選んだが、子音のスペクトル包絡変換テー
ブルとしては、例えば、子音を有声子音と無声子音等の
複数のカテゴリに分けて、そのカテゴリ毎に作成された
スペクトル包絡変換テーブルや、音素の音響的特性でカ
テゴリ分けされたグループ毎のスペクトル包絡変換テー
ブルをもっている場合には、それらの中から最適なスペ
クトル包絡変換テーブルを選択してもよい。

【００４１】こうして得られた２つの音素のスペクトル
包絡変換テーブルは、音素間変換テーブル推定部１０７
に与えられる。上記音素間変換テーブル推定部１０７で
は、２つ時刻のスペクトル包絡変換テーブルから、処理
を行う単位であるフレームに対して、その区間の各フレ
ーム時刻におけるスペクトル包絡変換テーブルを推定す
る。

【００４２】図６は上記スペクトル包絡変換テーブルの
推定方法を示している。上記音素間変換テーブル推定部
１０７(図３に示す)は、最初に変換テーブル選択部１０
８(図３に示す)から与えられた情報に基づき、遷移前半
のスペクトル包絡変換テーブルおよび遷移後半のスペク
トル包絡変換テーブルをセットする。図６では、遷移前
半のスペクトル包絡変換テーブルが/a/のスペクトル包
絡変換テーブル６０１となり、遷移後半のスペクトル包
絡変換テーブルが/ｍ/のスペクトル包絡変換テーブル６
０２(この実施形態では無変換)となっている。このと
き、時刻ｔaと時刻ｔmとの間のわたり区間の各フレーム
時刻ｔ1,ｔ2におけるスペクトル包絡変換テーブルは、
２つのスペクトラム包絡変換テーブルの対応する周波数
での値同士を直線で結び、直線上の時刻ｔ1,ｔ2に対応
する時刻のデータの補間によって作成される(時刻ｔ1の
変換テーブル６０３,時刻ｔ2の変換テーブル６０４)。
図６に示すように、母音から子音へのわたり区間におい
ても、スペクトル包絡が滑らかに変換されるようにスペ
クトル包絡変換テーブルが作成されるため、スペクトル
包絡変換後の音声に不連続感(ノイズ)は生じない。この
ようにして、音素間のわたり区間に対するスペクトル包
絡変換テーブルを作成する。

【００４３】次に、上記推定されたスペクトル包絡変換
テーブルを使用した声質変換全体の処理について説明を
行う。

【００４４】変換元話者の発声した音声は、スペクトル
包絡抽出部１０１によって、スペクトル包絡変換テーブ
ル作成時と同様の方法である線形予測分析により、その
スペクトル包絡と予測残差信号が抽出される。ここで得
られたスペクトル包絡は、スペクトル包絡変換部１０２
に送られ、変換先話者のスペクトル包絡にむけて変換さ
れる。上記スペクトル包絡変換部１０２では、入力され
たスペクトル包絡に対して、非線形の変換テーブルを用
いて、周波数方向に非線形変換を行う。

【００４５】図７は上記非線形変換の方法を示してお
り、入力されたスペクトル包絡は、非線形の変換テーブ
ル７０１によって周波数方向に変換される(図７に示す
破線は無変換を表す変換テーブル７０２である)。上記
各変換テーブルは、変換元話者と変換先話者の周波数の
対応を示しており、変換元話者の各周波数における値は
変換先話者の対応する周波数に変換される。

【００４６】例えば、変換元話者の周波数ａ1の値は、
変換テーブル７０１によって変換先話者の対応する周波
数ｂ1に変換される。このとき、ａ1−ｂ1、ａ2−ｂ2、
ａ3−ｂ3の変換のように変換テーブルが無変換を表す傾
き１の直線７０２より上部にある場合は、変換前スペク
トル包絡７０３と変換後スペクトル包絡７０４を比べて
分かるようにスペクトル包絡は高周波数方向にシフトす
る。一方、ａ4−ｂ4、ａ5−ｂ5、ａ6−ｂ6の変換のよう
に変換テーブルが無変換を表す傾き１の直線７０２より
下部にある場合は、そのスペクトル包絡は低周波数方向
にシフトする。

【００４７】このようにして、与えられたスペクトル包
絡は、非線形のスペクトル包絡変換テーブルを用いて周
波数方向に変換される。このとき、上記変換テーブル推
定部１０７では、音素間のわたり区間のスペクトル包絡
変換テーブルは滑らかに変形しながらスペクトル包絡変
換部１０２に与えられるので、スペクトル包絡変換結果
も同様に時間的に滑らかに変形される。ここまで、変換
テーブルという表現を用いたが、変換関数など、任意の
スペクトル包絡変換規則によってスペクトル包絡の変換
を行う場合に対しても同様の処理を行うことができる。

【００４８】そして、上記音声合成部１０３では、以上
の操作によって変換された変換後スペクトル包絡に対し
て音声信号を合成する。この音声信号の合成方法として
は、例えば、逆フーリエ変換を行うことで線形予測係数
を計算し、得られた線形予測係数とスペクトル包絡抽出
部１０１で得られる予測残差信号から変換先話者の音声
を出力する。

【００４９】このように、上記声質変換装置によれば、
音素間変換テーブル推定部１０７により、母音から子
音、子音から母音への音素間のわたり区間に対して推定
されたスペクトル包絡変換テーブルを用いてスペクトル
包絡変換部１０２によりスペクトル包絡変換を行うこと
によって、スペクトル包絡を時間的に滑らかに変化させ
て、変換後の音声を低歪化でき、音質のよい声質変換処
理を行うことができる。

【００５０】また、上記変換ラベル作成部１０６によっ
て、音声認識部３０１により認識された変換元話者の入
力音声の音声ラベル情報および所定の規則に基づいて音
素間のわたり区間を決定して変換ラベルを作成し、その
変換ラベルに基づいて、上記変換規則選択部１０８によ
って、スペクトル包絡変換テーブル記憶部１０９から変
換元話者の入力音声を構成する音素の母音および子音に
対応するスペクトル包絡変換テーブルを選択するので、
変換元話者の入力音声から声質変換に最適なスペクトル
包絡変換テーブルを得ることができる。

【００５１】また、上記モード切り替え部２０１によっ
て、音素中心間でその音素間のわたり区間を決定する音
素中心モードと音素境界の周辺のみで音素間のわたり区
間を決定する音素境界モードのいずれか一方を変換ラベ
ル作成部１０６に指示することによって、最適な音質に
調整することができる。

【００５２】また、上記子音のスペクトル包絡変換テー
ブル１０９bとして、全ての子音に対して同じスペクト
ル包絡変換テーブル、有声子音,無声子音のグループ毎
に作成されたスペクトル包絡変換テーブル、または、音
素の音響的特性でカテゴリ分けされたグループ毎のスペ
クトル包絡変換規則のうちのいずれか１つを用いること
によって、大量の発声データを必要とすることなく、母
音に比べて一定なスペクトルが得にくい子音について適
切な変換テーブルを用いることができる。

【００５３】上記実施の形態における音質変換装置とし
ての機能は、プログラム記憶媒体に記憶された音質変換
方法を実行するプログラムによって実現される。上記プ
ログラム記憶媒体は、本体側と分離可能に構成され、磁
気テープやカセットテープ等のテープ系、フロッピー
（登録商標）ディスク,ハードディスク等の磁気ディス
クやＣＤ−ＲＯＭ(コンパクトディスク−リード・オン
リー・メモリー),ＭＯ(光磁気)ディスク,ＭＤ(ミニディ
スク),ＤＶＤ(デジタル・バーサタイル・ディスク)等の
光ディスクのディスク系、ＩＣ(集積回路)カードや光カ
ード等のカード系、マスクＲＯＭ,ＥＰＲＯＭ（紫外線
消去型ＲＯＭ),ＥＥＰＲＯＭ(電気的消去型ＲＯＭ),フ
ラッシュＲＯＭ等の半導体メモリ系を含めた固定的にプ
ログラムを坦持する媒体である。

【００５４】

【発明の効果】以上より明らかなように、この発明の声
質変換装置および声質変換方法およびプログラム記憶媒
体によれば、母音から子音、子音から母音へのわたり区
間に対して、子音とその前後の母音のそれぞれのスペク
トル包絡変換テーブルとの線形補間等により推定された
音素間のわたり区間のスペクトル包絡変換テーブルを用
いてスペクトル包絡変換を行うことによって、スペクト
ル包絡が時間的に滑らかに変化し、音質のよい声質変換
処理を行うことができる。

【図面の簡単な説明】

【図１】図１はこの発明の実施の一形態の声質変換装
置の基本構成を説明するブロック図である。

【図２】図２は上記声質変換装置にモード切り替え部
を付加した構成を示すブロック図である。

【図３】図３は図２に示す声質変換装置の音声ラベル
付与部に変換元話者の発声を認識する音声認識部を用い
た場合のブロック図である。

【図４】図４はスペクトル包絡変換テーブルの作成法
を説明する図である。

【図５】図５は変換ラベルの作成法を説明する図であ
る。

【図６】図６は音素間のスペクトル包絡変換テーブル
の作成法を説明する図である。

【図７】図７はスペクトル包絡の非線形変換を説明す
る図である。

【符号の説明】

１０１…スペクトル包絡抽出部、１０２…スペクトル包絡変換部、１０３…音声合成部、１０４…音声ラベル付与部、１０５…音声ラベル情報記憶部、１０６…音声ラベル作成部、１０７…音素間変換テーブル推定部、１０８…変換テーブル選択部、１０９…スペクトル包絡変換テーブル記憶部、１０９a…母音スペクトル包絡変換テーブル、１０９b…子音スペクトル包絡変換テーブル、２０１…モード切り替え部、３０１…音声認識部。

Claims

【特許請求の範囲】

【請求項１】変換元話者の音声から変換先話者の音声
に変換する声質変換装置において、上記変換元話者の音声から変換先話者の音声に変換する
ための母音のスペクトル包絡変換規則および子音のスペ
クトル包絡変換規則が予め記憶されたスペクトル包絡変
換規則記憶部と、上記スペクトル包絡変換規則記憶部に記憶された上記母
音のスペクトル包絡変換規則および上記子音のスペクト
ル包絡変換規則から、上記変換元話者の入力音声を構成
する音素の母音および子音に対応するスペクトル包絡変
換規則を選択する変換規則選択部と、上記変換規則選択部により選択された上記変換元話者の
入力音声を構成する音素の母音および子音に対応するス
ペクトル包絡変換規則に基づいて、上記変換元話者の入
力音声を構成する音素間のスペクトル包絡変換規則を推
定する音素間変換規則推定部と、上記変換元話者の入力音声からスペクトル包絡を抽出す
るスペクトル包絡抽出部と、上記変換規則選択部により選択された上記変換元話者の
入力音声を構成する音素の母音および子音に対応するス
ペクトル包絡変換規則と、上記音素間変換規則推定部に
より推定された上記変換元話者の入力音声を構成する音
素間のスペクトル包絡変換規則とに基づいて、上記スペ
クトル包絡抽出部により上記変換元話者の入力音声から
抽出されたスペクトル包絡を上記変換先話者の音声のス
ペクトル包絡に変換するスペクトル包絡変換部と、上記スペクトル包絡変換部により変換されたスペクトル
包絡から音声を合成する音声合成部とを備えたことを特
徴とする声質変換装置。
【請求項２】請求項１に記載の声質変換装置におい
て、上記変換元話者の入力音声を構成する音素およびその音
素の開始時刻と終了時刻を表す音声ラベル情報を付与す
る音声ラベル付与部と、上記音声ラベル付与部により付与された上記音声ラベル
情報を記憶する音声ラベル情報記憶部と、上記音声ラベル情報記憶部に記憶された上記音声ラベル
情報および所定の規則に基づいて音素間のわたり区間を
決定し、上記入力音声を構成する音素のスペクトル包絡
の変換を行う区間を制御する変換ラベルを作成する変換
ラベル作成部とを備え、上記変換規則選択部は、上記変換ラベル作成部により作
成された変換ラベルに基づいて、上記スペクトル包絡変
換規則記憶部から上記変換元話者の入力音声を構成する
音素の母音および子音に対応するスペクトル包絡変換規
則を選択することを特徴とする声質変換装置。
【請求項３】請求項２に記載の声質変換装置におい
て、上記変換ラベル作成部の上記所定の規則として、音素中
心間で上記音素間のわたり区間を決定するモードと音素
境界の周辺のみで上記音素間のわたり区間を決定するモ
ードのいずれか一方を上記変換ラベル作成部に指示する
モード切り替え部を備えることを特徴とする声質変換装
置。
【請求項４】請求項１に記載の声質変換装置におい
て、上記子音のスペクトル包絡変換規則は、全ての子音に対
して同じスペクトル包絡変換規則、有声子音,無声子音
のグループ毎に作成されたスペクトル包絡変換規則、ま
たは、音素の音響的特性でカテゴリ分けされたグループ
毎のスペクトル包絡変換規則のうちのいずれか１つであ
ることを特徴とする声質変換装置。
【請求項５】変換元話者の音声から変換先話者の音声
に変換する声質変換方法において、上記変換元話者の音声から変換先話者の音声に変換する
ための母音のスペクトル包絡変換規則および子音のスペ
クトル包絡変換規則をスペクトル包絡変換規則記憶部に
記憶するスペクトル包絡変換規則記憶ステップと、上記スペクトル包絡変換規則記憶ステップにおいて上記
スペクトル包絡変換規則記憶部に記憶された母音のスペ
クトル包絡変換規則および子音のスペクトル包絡変換規
則から、上記変換元話者の入力音声を構成する音素の母
音および子音に対応するスペクトル包絡変換規則を選択
する変換規則選択ステップと、上記変換規則選択ステップにおいて選択された上記変換
元話者の入力音声を構成する音素の母音および子音に対
応するスペクトル包絡変換規則に基づいて、上記変換元
話者の入力音声を構成する音素間のスペクトル包絡変換
規則を推定する音素間変換規則推定ステップと、上記変換元話者の入力音声からスペクトル包絡を抽出す
るスペクトル包絡抽出ステップと、上記変換規則選択ステップにおいて選択された上記変換
元話者の入力音声を構成する音素の母音および子音に対
応するスペクトル包絡変換規則と、上記音素間変換規則
推定ステップにおいて推定された上記変換元話者の入力
音声を構成する音素間のスペクトル包絡変換規則とに基
づいて、上記スペクトル包絡抽出ステップにおいて上記
変換元話者の入力音声から抽出されたスペクトル包絡を
上記変換先話者の音声のスペクトル包絡に変換するスペ
クトル包絡変換ステップと、上記スペクトル包絡変換ステップにおいて変換されたス
ペクトル包絡から音声を合成する音声合成ステップとを
有することを特徴とする声質変換方法。
【請求項６】請求項５に記載の声質変換方法を実行す
る制御プログラムを記憶したことを特徴とするプログラ
ム記憶媒体。