JPH10312195A

JPH10312195A - 話者音質変換方法および話者音質変換装置

Info

Publication number: JPH10312195A
Application number: JP9122711A
Authority: JP
Inventors: Sunao Aizawa; 直相澤; Hiroshi Hasegawa; 浩長谷川; Mitsuhiro Inazumi; 満広稲積; Yasunaga Miyazawa; 康永宮沢
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1997-05-13
Filing date: 1997-05-13
Publication date: 1998-11-24
Anticipated expiration: 2017-05-13
Also published as: JP3695059B2

Abstract

(57)【要約】【課題】話者声質変換を行う際、話者声質変換後の音
声の品質向上を図るとともに、話者声質変換を行うため
の計算量を削減する。【解決手段】話者声質変換後の音声の品質向上を図る
手段の一例として、変換前話者（話者Ａ）が発話する変
換対象音声のＬＰＣ係数を、移動ベクトルに基づいて変
換後話者（話者Ｂ）のＬＰＣ係数空間に変換したとき、
前記移動ベクトルに基づいて変換後話者のＬＰＣ係数空
間に変換されたＬＰＣ係数に最も距離の近い変換後話者
の特徴データを求め、求められた変換後話者のＬＰＣ係
数を、前記変換すべき音声の変換後ＬＰＣ係数として用
い、その変換後ＬＰＣ係数と前記変換前話者の音声デー
タから得られる単位波形対応のパルスとを基に音声合成
する。また、計算量削減する手法として、ＬＰＣ係数空
間をコードブック化して複数の領域分割し、処理対象の
ＬＰＣ係数が存在する領域またはそれに近接する領域内
において距離計算を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は入力話者の音声を或
る特定の話者の音声に変換して出力するための話者声質
変換方法および話者声質変換装置に関する。

【０００２】

【従来の技術】話者声質変換というのは、ある話者の入
力音声を他の話者の音声の声質に変換して出力すること
である。この話者声質変換技術の一例を、図７を用いて
説明する。

【０００３】ここでは、話者Ａの音声を話者Ｂの音声に
変換する例について説明する。まず、話者Ａと話者Ｂ
に、話者声質変換用の単語を幾つか発話してもらいその
音声特徴データを得る。

【０００４】図７は話者Ａと話者Ｂの音声特徴データ空
間を示すもので、たとえば、話者声質変換用の単語とし
て、「おはよう」、「ただいま」などの幾つかの単語に
ついて話者Ａと話者Ｂが発話して得られた各単語ごとの
音声特徴ベクトル列が示されている。

【０００５】これら各単語ごとの特徴ベクトル列はスペ
クトル包絡パラメータで表される特徴ベクトルで構成さ
れている。この特徴ベクトルは、たとえば、話者Ａの発
話した「おはよう」という単語について考えると、話者
Ａの発話した音声をディジタル変換したあと、１フレー
ムごとに（１フレームは２５msec程度、シフト量は１０
msec）音声分析してその音声分析して得られたＬＰＣ
（Ｌinear ＰredictiveＣoding）係数が一般的である。

【０００６】このようにして、話者Ａが予め用意された
話者声質変換用の幾つかの単語それぞれについて発話
し、それぞれの単語ごとの特徴ベクトル列（以下、ＬＰ
Ｃ係数列という）を得る。同様に、話者Ａが発話する単
語と同じ単語についてを話者Ｂが発話して、それぞれの
単語ごとのＬＰＣ係数列を得る。

【０００７】図７において、ＬＰＣ係数列Ａ１は話者Ａ
が発話して得られた「おはよう」のＬＰＣ係数列である
ものとし、ＬＰＣ係数ａ１１，ａ１２，・・・，ａ１６
で構成されているものとする。また、ＬＰＣ係数列Ａ２
は話者Ａが発話して得られた「ただいま」のＬＰＣ係数
列であるものとし、ＬＰＣ係数ａ２１，ａ２２，・・
・，ａ２５で構成されているものとする。この話者Ａの
特徴データ空間（以下、ＬＰＣ係数空間という）には、
その他の話者声質変換用の幾つかの単語に対するそれぞ
れのＬＰＣ係数列が存在している。

【０００８】同様に、ＬＰＣ係数列Ｂ１は話者Ｂが発話
して得られた「おはよう」のＬＰＣ係数列であり、ＬＰ
Ｃ係数ｂ１１，ｂ１２，・・・，ｂ１６で構成されてい
るものとする。また、ＬＰＣ係数列Ｂ２は話者Ｂが発話
して得られた「ただいま」のＬＰＣ係数列であり、ＬＰ
Ｃ係数ｂ２１，ｂ２２，・・・，ｂ２７で構成されてい
るものとする。この話者ＢのＬＰＣ係数空間には、話者
ＡのＬＰＣ係数空間と同様、その他の話者声質変換用の
幾つかの単語に対するそれぞれの特徴ベクトル列が存在
している。

【０００９】なお、この図７では図面を簡略化するため
に、４つの話者声質変換用の単語のＬＰＣ係数列Ａ１〜
Ａ４、Ｂ１〜Ｂ４のみが示されているが、実際には、話
者声質変換用の単語として用いられたすべてのＬＰＣ係
数列が存在し、それぞれのＬＰＣ係数列を構成するＬＰ
Ｃ係数がそれぞれの空間内に多数散在することになる。

【００１０】たとえば、話者声質変慣用の単語として５
０単語用意されているとすれば、それぞれの単語に対応
するＬＰＣ係数列が存在し、１つの単語が２５フレーム
程度であるとすれば、１単語につき２５個のＬＰＣ係数
で構成され、全体では、５０×２５＝１２５０のＬＰＣ
係数が散在することになる。なお、図７では図面を簡略
化するために１つの単語のＬＰＣ係数を数個程度として
いる。また、図中、それぞれの話者声質変換用の単語の
ＬＰＣ係数列を構成するＬＰＣ係数は、白丸で示されて
いる。

【００１１】また、話者声質変換用の単語としては、な
るべく少ない単語数で幅広いＬＰＣ係数が得られるよう
な単語が予め選ばれている。

【００１２】そして、話者Ａの「おはよう」のＬＰＣ係
数列を構成する各ＬＰＣ係数と話者Ｂの「おはよう」の
ＬＰＣ係数列を構成する各ＬＰＣ係数とをＤＰマッチン
グなどにより対応付けを行って、話者Ａの「おはよう」
を構成する各ＬＰＣ係数に対するそれぞれの移動ベクト
ルを求めておく。同様にして、「おはよう」以外の話者
声質変換用の各単語について話者Ａと話者Ｂのそれぞれ
の単語ごとにＬＰＣ係数を対応付けし、それぞれの単語
を構成するＬＰＣ係数に対するそれぞれの移動ベクトル
を求めておく。

【００１３】今、話者声質変換用単語ではない単語、つ
まり、他の話者の音声に変換しようとする単語（これを
変換対象単語という）として、たとえば「こんにちは」
を話者Ａが発話すると、その変換対象単語をディジタル
信号に変換した後、１フレームごとに音声分析して、そ
のフレームのＬＰＣ係数と１フレームを構成する幾つか
の単位波形対応のパルス列を得る。そして、「こんにち
は」の各フレームにおけるＬＰＣ係数がａｕ１，ａｕ
２，・・・，ａｕ６であったとする。この変換対象単語
のＬＰＣ係数は、図中、黒丸で示す。

【００１４】この話者Ａの発話した変換対象単語のＬＰ
Ｃ係数列Ａｕが話者ＡのＬＰＣ係数空間上で図７に示す
ような位置であったとすると、それぞれのＬＰＣ係数に
近い距離に位置する話者Ａの話者声質変換用単語のＬＰ
Ｃ係数を幾つか（ここでは、説明を簡単にするために３
つとする）選ぶ。

【００１５】この図７の場合、まず、変換対象単語の１
フレーム目のＬＰＣ係数ａｕ１に近い３つのＬＰＣ係数
を選ぶ。このとき選ばれた３つのＬＰＣ係数をａ１６，
ａ２１，ａ３１とする。

【００１６】ところで、これら選ばれた３つのＬＰＣ係
数ａ１６，ａ２１，ａ３１は、前述したように、それぞ
れ話者ＢのＬＰＣ係数空間の対応するＬＰＣ係数に対す
る移動ベクトルが求められており、それぞれの移動ベク
トルを、ｖ１，ｖ２，ｖ３とする。なお、この移動ベク
トルは、対応づけられた話者ＡのＬＰＣ係数と話者Ｂの
ＬＰＣ係数により、移動ベクトル＝話者ＢのＬＰＣ係数−話者ＡのＬＰＣ係数・・・（１）で求められる。

【００１７】そして、これら選ばれた３つのＬＰＣ係数
の移動ベクトルｖ１，ｖ２，ｖ３を用いて、変換対象単
語における１フレーム目のＬＰＣ係数ａｕ１に対する移
動ベクトルｖｕ１を求める。

【００１８】この変換すべき単語における１フレーム目
のＬＰＣ係数の移動ベクトルｖｕ１の求め方の一例とし
ては、この場合、３つの移動ベクトルｖ１，ｖ２，ｖ３
の平均を求めて、その平均値を変換すべき単語における
１フレーム目のＬＰＣ係数の移動ベクトルｖｕ１とす
る。なお、この移動ベクトルｖｕ１は、距離に応じた重
み付けを行って求めるようにしてもよい。

【００１９】そして、求められた移動ベクトルｖｕ１
を、変換対象単語における１フレーム目のＬＰＣ係数ａ
ｕ１にプラスすることで話者ＢのＬＰＣ係数空間にマッ
ピングし、そのマッピングされたＬＰＣ係数をｂｕ１と
する。

【００２０】以上の処理を各フレームごとに行い、各フ
レームごとの変換後のＬＰＣ係数を得る。このような処
理を行うことにより、変換対象単語のＬＰＣ係数列Ａｕ
は変換後のＬＰＣ係数列Ｂｕに変換される。

【００２１】また、変換後の各フレームのＬＰＣ係数と
入力単語の音声から得られたパルス列を用いて音声合成
すると、話者声質変換された音声が合成される。これに
より、話者Ａが発話した「こんにちは」という単語が、
話者Ａの抑揚を有し、話者Ｂの声質となって出力される
ことになる。

【００２２】以上のように、話者Ａが発話して得られた
各フレームごとのＬＰＣ係数を、話者ＢのＬＰＣ係数空
間にマッピングすることにより、変換後の各ＬＰＣ係数
が得られ、この変換後のＬＰＣ係数と話者Ａのパルス列
を用いて音声合成すると、話者Ａが発話した単語が、話
者Ａの抑揚を有し、声質は話者Ｂの声質となって出力さ
れることになる。

【００２３】

【発明が解決しようとする課題】しかしながら、以上説
明したような方法での話者声質変換では、合成された音
声の品質に問題が多い。つまり、従来の話者声質変換で
は、前述した例で説明すると、話者ＡのＬＰＣ係数を移
動ベクトルを用いて話者ＢのＬＰＣ係数空間にマッピン
グする処理を行い、そのマッピングされたＬＰＣ係数を
用いて音声合成を行うようにしている。

【００２４】音声合成を行う際、その音声を構成するＬ
ＰＣ係数列の中に、本来望ましい値から若干ずれたＬＰ
Ｃ係数が含まれていると、単位波形（音声は短い区間で
観察すると数十msecほどの殆ど同じ波形の繰り返しとな
っている。ここでは、繰り返される最小単位を単位波形
と呼ぶことにする）が減衰せずに音が発散したり、異常
音が混合したりして品質の悪い音声となる問題がある。

【００２５】したがって、前述した従来の方法のよう
に、移動ベクトルを用いて話者ＢのＬＰＣ係数空間にマ
ッピングし、そのマッピングされたＬＰＣ係数を用いて
音声合成を行う方法では、変換後のＬＰＣ係数は移動ベ
クトルによって大きく左右され、変換後のＬＰＣ係数と
して望ましい値からずれたものとなる場合もある。この
ように望ましい値からずれたＬＰＣ係数を用いて音声合
成をすると、聴くに耐えられない音声となってしまう場
合もある。

【００２６】また、従来の方法では、移動ベクトルを用
いて話者ＢのＬＰＣ係数空間にマッピングされたＬＰＣ
係数を用いての音声合成であり、話者Ｂの音声そのもの
から得られたＬＰＣ係数を用いていないので、音声合成
された声質は、変換すべき話者（この場合は話者Ｂ）の
音声にかけ離れたものとなってしまうおそれもあり、良
好な話者声質変換が行えないという問題もある。

【００２７】さらに、従来の方法では、処理を行うため
のアルゴリズムは計算量がきわめて多いという問題があ
る。つまり、従来の方法では、入力された単語の有る１
つのＬＰＣ係数の移動ベクトルを求める際、話者ＡのＬ
ＰＣ係数空間内において、変換対象単語のＬＰＣ係数に
近い幾つかのＬＰＣ係数を見つける処理を行うが、その
距離を求めるための計算量がきわめて多くなる。たとえ
ば、話者声質変換用の単語として、前述したように、５
０単語用意し、それぞれの単語のフレーム数が平均的に
２５フレーム程度あるとすれば、ＬＰＣ係数空間には、
１２５０個のＬＰＣ係数が存在することになり、この１
２５０個のＬＰＣ係数すべてとの間で距離を求める必要
が生じるため、計算量が多く処理に時間を要する問題が
ある。

【００２８】そこで、本発明は、話者声質変換を行う
際、変換後の音声を実用に十分耐えうる良好な音質と
し、かつ、変換すべき声質に近い声質とすることを可能
とし、加えて、計算量の大幅な削減を図れ処理の高速化
を図ることを目的としている。

【００２９】

【課題を解決するための手段】本発明の話者声質変換方
法は、或る話者（変換前話者という）の音声を他の話者
（変換後話者という）の音声の声質に変換する際に、変
換前話者と変換後話者がそれぞれ発話する複数の話者性
変換用単語の音声データを所定時間のフレーム単位で分
析してそれぞれのフレームごとに特徴データを求め、変
換前話者特徴データと変換後話者の特徴データとの対応
付けを行い、その対応付けにより変換前話者のそれぞれ
の特徴データごとに変換後話者の対応する特徴データに
対する移動ベクトルを予め求めておき、この移動ベクト
ルに基づいて変換前話者が発話する変換対象音声を変換
後話者の特徴データ空間に変換して、変換後の特徴デー
タを求め、その変換後の特徴データと前記変換前話者の
変換対象音声データから得られる単位波形対応のパルス
列とに基づいて音声合成を行う話者声質変換方法におい
て、まず、第１の手法として、前記変換前話者が発話す
る変換対象音声の特徴データを、前記移動ベクトルに基
づいて変換後話者の特徴データ空間に変換したとき、前
記移動ベクトルに基づいて変換後話者の特徴データ空間
に変換された特徴データに距離の近い変換後話者の特徴
データを求め、求められた変換後話者の特徴データを、
前記変換すべき音声の変換後特徴データとして用い、そ
の変換後特徴データと前記変換前話者の変換対象音声デ
ータから得られる単位波形対応のパルス列とを基に音声
合成することを特徴としている。

【００３０】また、本発明の話者声質変換方法は、第２
の手法として、前記変換前話者が発話して得られた変換
対象音声波形の単位波形ごとの波高値と、前記変換後の
特徴データと前記変換前話者の発話する変換対象音声の
分析結果から得られる単位波形対応のパルス列とに基づ
いて音声合成された合成波形における単位波形ごとの波
高値との比を求め、その比により得られた係数を前記単
位波形対応のパルス列に乗算し、係数が乗算されたパル
ス列と前記変換後の特徴データとを用いて音声合成する
ことを特徴としている。

【００３１】また、本発明の話者声質変換方法は、第３
の手法として、前記変換前話者が発話した変換対象音声
波形の或るフレームにおける単位波形対応のインパルス
応答波形と、音声合成後の合成波形の前記或るフレーム
と同一フレームの単位波形対応のインパルス応答波形と
を比較し、連続する数個のフレームに対応するそれぞれ
のインパルス応答波形の時間に対する変化量が一定以上
の差を有する場合は、変換対象音声波形のインパルス応
答波形の特に大きく変化するフレームの特徴データとし
て、当該フレームの前または後のフレームにおける変換
後の特徴データを用い、この特徴データと前記変換前話
者の変換対象音声データから得られる単位波形対応のパ
ルス列とを基に音声合成することを特徴としている。

【００３２】また、本発明の話者声質変換方法は、第４
の手法として、変換前話者が発話した変換対象音声から
得られるフレームごとの特徴データで構成される特徴デ
ータ列軌道と、各特徴データを前記移動ベクトルにより
変換後話者の特徴データ空間に変換したときの特徴デー
タ列軌道とを比較する。そして、変換前の特徴データ列
軌道および変換後の特徴データ列軌道それぞれにおい
て、時間に対する特徴データの変化量を調べ、変換前の
特徴データ列軌道に対して変換後の特徴データ列軌道の
或るフレームに対応する特徴データに一定以上の変化が
あった場合、その一定以上の変化のあったフレームの変
換前の特徴データに近い特徴データを持ったフレームを
変換前のフレーム列の中から探し、そのフレームの特徴
データに対する移動ベクトルを、前記一定以上変化した
フレームの変換前の特徴データの移動ベクトルとして用
いて、変換後話者の特徴データ空間に変換し、変換後の
特徴データを得る。そして、この特徴データと前記変換
前話者の音声データから得られる単位波形対応のパルス
列とを基に音声合成することを特徴としている。

【００３３】また、本発明の話者声質変換方法は、第５
の手法（その１）として、前記移動ベクトルに基づいて
変換前話者が発話して得られた変換対象音声データを変
換後話者の特徴データ空間に変換する処理を行う際、変
換前話者の特徴データ空間にて、変換前話者が発話する
変換対象音声データの或るフレームにおける特徴データ
の近傍の特徴データを探し、その近傍の特徴データに対
する移動ベクトルを用いて変換すべき特徴データを変換
後話者の特徴データ空間に変換する場合、近傍の特徴デ
ータまでの距離が予め定めた基準値以上か否かを判断
し、その距離が基準値以上の場合は、変換前の前記変換
すべき特徴データを変換後の特徴データとして用いるこ
とを特徴としている。

【００３４】また、本発明の話者声質変換方法は、第５
の手法（その２）として、前記変換前話者が発話する変
換対象単語の特徴データを、前記予め求められた移動ベ
クトルに基づいて変換後話者の特徴データ空間に変換し
たとき、前記予め求められた移動ベクトルに基づいて変
換後話者の特徴データ空間に変換された特徴データに距
離の近い変換後話者の特徴データを求め、求められた変
換後話者の特徴データを、変換後の特徴データとして用
いる場合、前記距離が予め定めた基準値以上か否かを判
断し、距離が基準値以上の場合は、変換前の前記変換対
象特徴データを変換後の特徴データとして用いることを
特徴としている。

【００３５】また、本発明の話者声質変換方法は、前記
変換前話者の特徴データ空間にて、変換前話者が発話し
て得られた変換対象音声データの或るフレームにおける
特徴データの近傍の特徴データを探し、その近傍の特徴
データの移動ベクトルを用いて前記変換対象音声の特徴
データを変換後話者の特徴データ空間に変換する際の近
傍の特徴データを求める処理、または、前記変換前話者
が発話して得られた変換対象音声の特徴データを、前記
移動ベクトルに基づいて変換後話者の特徴データ空間に
変換したとき、その特徴データの近傍の変換後話者の特
徴データを求める処理を行う場合、前記変換前話者の特
徴データ空間および変換後話者の特徴データ空間をそれ
ぞれコードブック化して複数の領域に分割しておき、前
記変換対象音声の特徴データ近傍の特徴データを求める
際、前記変換対象特徴データの属する領域またはその領
域に近接する領域内に存在する特徴データのみとの間で
距離計算を行うことを特徴としている。

【００３６】なお、本発明は以上の第１〜第５の手法は
それぞれを単独で採用してもよく、あるいは、第１〜第
５の手法を任意に組み合わせることもかのうであり、さ
らに、すべてを組み合わせて処理するようにしてもよ
い。

【００３７】また、本発明の話者声質変換装置は、ある
話者（変換前話者という）の音声を他の話者（変換後話
者という）の音声の声質に変換する際に、変換前話者と
変換後話者がそれぞれ発話する複数の話者性変換用単語
の音声データを所定時間のフレーム単位で分析してそれ
ぞれのフレームごとに特徴データを求め、変換前話者特
徴データと変換後話者の特徴データとの対応付けを行
い、その対応付けにより変換前話者のそれぞれの特徴デ
ータごとに変換後話者の対応する特徴データに対する移
動ベクトルを予め求めておき、この移動ベクトルに基づ
いて変換前話者が発話する変換対象音声を変換後話者の
特徴データ空間に変換して、変換後の特徴データを求
め、その変換後の特徴データと前記変換前話者の変換対
象音声データから得られる単位波形対応のパルス列とに
基づいて音声合成を行う話者声質変換装置において、前
記変換対象音声データを所定時間のフレーム単位で分析
してそれぞれのフレームごとに話者声質変換用特徴デー
タと、単位波形対応のパルス列を出力する分析部と、前
記変換前話者が複数の話者声質変換用音声を発話するこ
とにより得られたそれぞれの音声を構成する各フレーム
ごとの特徴データを記憶する変換前話者特徴データ記憶
部と、前記変換後話者が複数の話者声質変換用音声を発
話することにより得られたそれぞれの音声を構成する各
フレームごとの特徴データを記憶する変換後話者特徴デ
ータ記憶部と、話者声質変換による合成音の品質改善を
行うための処理プログラムが格納される処理プログラム
記憶部と、話者声質変換の全般的な処理および前記処理
プログラム記憶部に格納された内容に基づく処理を行う
制御部と、この制御部から出力される変換後の特徴デー
タと、前記分析部から出力される変換前話者の変換対象
音声データから得られた単位波形対応のパルス列とを基
に音声合成する音声合成部とを少なくとも有することを
特徴としている。

【００３８】このような話者声質変換装置において、前
記予め設定されたプログラムに従って制御部が行う処理
は、前記分析部から出力される変換前話者が発話して得
られた変換対象音声の特徴データを、前記移動ベクトル
に基づいて変換後話者の特徴データ空間に変換する際、
前記移動ベクトルに基づいて変換後話者の特徴データ空
間に変換された特徴データに距離の近い変換後話者の特
徴データを求め、求められた変換後話者の特徴データを
変換後の特徴データとして前記音声合成部に出力するよ
うにしている。

【００３９】また、前記予め設定された処理プログラム
に従って制御部が行う処理は、変換対象音声に対する変
換後の特徴データとして、前記変換前話者が発話して得
られた変換対象音声波形の単位波形ごとの波高値と、前
記変換後の特徴データと前記変換前話者の発話する変換
対象音声の分析結果から得られる単位波形対応のパルス
列とに基づいて音声合成された合成波形における単位波
形ごとの波高値との比を求め、その比により得られた係
数を前記単位波形対応のパルス列に乗算し、係数が乗算
されたパルス列と前記変換後の特徴データとを前記音声
合成部に出力するようにしている。

【００４０】また、前記予め設定された処理プログラム
に従って制御部が行う処理は、前記変換前話者が発話し
た変換対象音声波形の或るフレームにおける単位波形対
応のインパルス応答波形と、音声合成後の合成波形の前
記或るフレームと同一フレームの単位波形対応のインパ
ルス応答波形とを比較し、連続する数個のフレームに対
応するそれぞれのインパルス応答波形の時間に対する変
化量が一定以上の差を有する場合は、変換対象音声波形
のインパルス応答波形の特に大きく変化するフレームの
特徴データとして、当該フレームの前または後のフレー
ムにおける変換後の特徴データを用い、この特徴データ
を前記音声合成部に出力するようにしている。

【００４１】また、前記予め設定された処理プログラム
に従って制御部が行う処理は、前記変換前話者が発話し
た変換対象音声から得られるフレームごとの特徴データ
で構成される特徴データ列軌道と、各特徴データを前記
移動ベクトルにより変換後話者の特徴データ空間に変換
したときの特徴データ列軌道とを比較し、変換前の特徴
データ列軌道および変換後の特徴データ列軌道それぞれ
において、時間に対する特徴データの変化量を調べ、変
換前の特徴データ列軌道に対して変換後の特徴データ列
軌道の或るフレームに対応する特徴データに一定以上の
変化があった場合、その一定以上の変化のあったフレー
ムの変換前の特徴データに近い特徴データを持ったフレ
ームを変換前のフレーム列の中から探し、そのフレーム
の特徴データに対する移動ベクトルを、前記一定以上変
化したフレームの変換前の特徴データの移動ベクトルと
して用いて、変換後話者の特徴データ空間に変換し、変
換後の特徴データを得て、この特徴データを前記音声合
成部に出力するようにしている。

【００４２】また、前記予め設定された処理プログラム
に従って制御部が行う処理は、前記移動ベクトルに基づ
いて変換前話者が発話する変換対象音声データを変換後
話者の特徴データ空間に変換する処理を行う際、変換前
話者の特徴データ空間にて、変換前話者が発話する音声
データの或るフレームにおける特徴データの近傍の特徴
データを探し、その近傍の特徴データに対する移動ベク
トルを用いて変換すべき特徴データを変換後話者の特徴
データ空間に変換する場合、近傍の特徴データまでの距
離が予め定めた基準値以上か否かを判断し、その距離が
基準値以上の場合は、変換前の前記変換すべき特徴デー
タを変換後の特徴データとして用い、その特徴データを
前記音声合成部に出力するようにしている。

【００４３】また、前記予め設定された処理プログラム
に従って制御部が行う処理は、前記変換前話者が発話す
る変換対象単語の特徴データを、前記予め求められた移
動ベクトルに基づいて変換後話者の特徴データ空間に変
換したとき、前記予め求められた移動ベクトルに基づい
て変換後話者の特徴データ空間に変換された特徴データ
に距離の近い変換後話者の特徴データを求め、求められ
た変換後話者の特徴データを、変換後の特徴データとし
て用いる場合、前記距離が予め定めた基準値以上か否か
を判断し、距離が基準値以上の場合は、変換前の前記変
換対象特徴データを変換後の特徴データとして用い前記
変換後の特徴データとして、変換前話者が発話する変換
すべき単語の特徴デ、その特徴データを前記音声合成部
に出力するようにしている。

【００４４】なお、このような話者声質変換装置におい
て、処理プログラム記憶部は前記したすべての処理を行
うためのそれぞれの処理プログラムすべてを格納して、
いずれか１つを選択して処理を行うようにしてもよく、
あるいは幾つかを組み合わせて処理を行うようにしても
よく、すべての処理プログラムを行わせるようにしても
よい。また、必要な処理プログラムだけを持つようにし
てもよい。

【００４５】また、前記した話者声質変換装置におい
て、前記変換対象音声データを所定時間のフレーム単位
で分析してそれぞれのフレームごとに話者声質変換用特
徴データと、単位波形対応のパルスを出力する分析部
と、前記変換前話者が複数の話者声質変換用音声を発話
することにより得られたそれぞれの音声を構成する各フ
レームごとの特徴データを記憶する変換前話者特徴デー
タ記憶部と、前記変換後話者が複数の話者声質変換用音
声を発話することにより得られたそれぞれの音声を構成
する各フレームごとの特徴データを記憶する変換後話者
特徴データ記憶部と、話者声質変換による合成音の品質
改善を行うための処理プログラムが格納される処理プロ
グラム記憶部と、話者声質変換の全般的な処理および前
記処理プログラム記憶部に格納された内容に基づく処理
を行う制御部と、この制御部から出力される変換後の特
徴データと、前記分析部から出力される変換前話者の変
換対象音声データから得られた単位波形対応のパルス列
とを基に音声合成する音声合成部とを少なくとも有し、
前記制御部が、前記変換前話者特徴データ記憶部に記憶
されている変換前話者の特徴データ空間にて、変換前話
者が発話して得られた変換対象音声データの或るフレー
ムにおける特徴データの近傍の特徴データを探し、その
近傍の特徴データの移動ベクトルを用いて前記変換すべ
き音声の特徴データを変換後話者の特徴データ空間に変
換する際の近傍の特徴データを求める処理、または、前
記変換前話者が発話して得られた変換対象音声の特徴デ
ータを、前記移動ベクトルに基づいて変換後話者の特徴
データ空間に変換したとき、その特徴データの近傍の変
換後話者の特徴データを求める処理を行う場合、前記変
換前話者の特徴データ空間および変換後話者の特徴デー
タ空間をそれぞれコードブック化して複数の領域に分割
しておき、前記変換対象音声の特徴データ近傍の特徴デ
ータを求める処理を行う際、前記変換対象特徴データの
属する領域またはその領域に近接する領域内に存在する
特徴データのみとの間で距離計算を行うようにすること
を特徴としている。

【００４６】このように本発明は、幾つかの手法を用い
て話者声質変換後の音声の品質を向上させるとともに、
話者声質変換処理を行うためのアルゴリズムの計算量を
削減しようとするものである。

【００４７】まず、移動ベクトルに基づいて変換後話者
の特徴データ空間に変換された特徴データに距離の近い
変換後話者の特徴データを求め、求められた変換後話者
の特徴データを、前記変換対象音声に対する変換後の特
徴データとして用いることにより、変換後の特徴データ
は、変換後話者の特徴データそのものとなるので、変換
後の話者により近い声質とすることができ、また、特徴
データの値が発振を引き起こしたりするような不適切な
ものとなることが少ないので、音質の改善も図れ、耳障
りな音となるのを防止することができる。

【００４８】また、前記変換前話者が発話して得られた
変換対象音声波形の単位波形に相当する区間ごとの波高
値と、音声合成された合成波形における単位波形に相当
する区間ごとの波高値との比を求め、その比により得ら
れた係数を前記単位波形対応のパルスに乗算し、係数が
乗算されたパルスと前記変換後の特徴データとを用いて
音声合成するようにしているので、音声合成後のエンベ
ローブに生じる凹凸を修正することができ、変換前話者
が発話して得られた変換対象音声波形のエンベローブと
音声合成後の合成波形のエンベローブを同じ様に滑らか
なものとすることができる、これにより、喉に何かが絡
まったようなゴロゴロした音声となるのを防止でき、良
好な音質の音声とすることができる。

【００４９】また、前記変換前話者が発話した変換対象
音声波形の或るフレームにおける単位波形対応のインパ
ルス応答波形と、音声合成後の合成波形の前記或るフレ
ームと同一フレームの単位波形対応のインパルス応答波
形とを比較し、連続する数個のフレームに対応するそれ
ぞれのインパルス応答波形の時間に対する変化量が一定
以上の差を有する場合は、変換対象音声波形のインパル
ス応答波形の特に大きく変化するフレームの特徴データ
として、当該フレームの前または後のフレームにおける
変換後の特徴データを用い、この特徴データと前記変換
前話者の音声データから得られる単位波形対応のパルス
列とを基に音声合成するようにしている。これは変換後
の特徴データが不適切であるためであり、このような不
適切な特徴データに対しては、前後のフレームのＬＰＣ
係数を用いる。これによって、音声合成後の合成波形の
或る一部が前後の波形と大きく異なるというようなこと
を防止でき、これによっても音質の改善を図ることがで
きる。

【００５０】また、前記変換前話者が発話した変換対象
音声から得られるフレームごとの特徴データで構成され
る特徴データ列軌道と、各特徴データを前記移動ベクト
ルにより変換後話者の特徴データ空間に変換したときの
特徴データ列軌道とを比較し、変換前の特徴データ列軌
道および変換後の特徴データ列軌道それぞれにおいて、
時間に対する特徴データの変化量を調べ、変換前の特徴
データ列軌道に対して変換後の特徴データ列軌道の或る
フレームに対応する特徴データに一定以上の変化があっ
た場合、その一定以上の変化のあったフレームの変換前
の特徴データに近い特徴データを持ったフレームを探
し、そのフレームの特徴データに対する移動ベクトル
を、前記一定以上変化したフレームの変換前の特徴デー
タの移動ベクトルとして用いて、変換後話者の特徴デー
タ空間に変換し、変換後の特徴データを得て、この特徴
データと前記変換前話者の音声データから得られる単位
波形対応のパルスとを基に音声合成するようにしてい
る。これは前述同様、変換後の特徴データが不適切であ
るためであり、このような不適切な特徴データに対して
は、前後のフレームの移動ベクトルを用いて変換後話者
特徴データ区間に変換する。これによって、変換後の特
徴データ列軌道が急激に変化することがなくなり、これ
によっても音質の改善を図ることができる。

【００５１】また、前記移動ベクトルに基づいて変換前
話者が発話する音声データを変換後話者の特徴データ空
間に変換する処理を行う際、変換前話者の特徴データ空
間において、変換前話者が発話する入力単語の特徴デー
タに対する近傍の幾つかの特徴データとの距離の和が基
準値以上であるか否かの判定を行うとともに、変換後話
者の特徴データ空間において、変換後の特徴データと最
近傍の特徴データとの距離が基準値以上であるか否かの
判定を行う。そして、これらの２つの判定を行った結
果、２つのうちいずれかの判定処理において基準値以上
であると判定された場合は、その処理対象のフレームに
おける変換後の特徴データとして、変換前話者が発話し
た音声の同じフレームの特徴データを用いる。このよう
に、この第５の手法は、音声合成するために望ましい変
換後のＬＰＣ係数が見つからないような場合には、変換
後の特徴データとして原音声の特徴データを瞬間的にそ
のまま用いるようにする。これは、変換後話者の特徴デ
ータ空間で適切な特徴データが見つからない場合の処置
である。適切な特徴データでない特徴データを用いて音
声合成すると不自然な音質となるおそれがある。したが
って、このような場合には、変換前の特徴データをその
まま用いる。これにより、適正でない値に変換された特
徴データを用いて音声合成されたときに耳障りな合成音
となるのを防止することができ、音質の改善が図れる。
これは子音のように、特徴データの変動が大きい場合に
特に有効となるものである。

【００５２】また、本発明は、以上の各手法を単独で用
いてもそれぞれの効果が得られるが、必要に応じて、幾
つかを組み合わせるようにしてもよく、また、すべてを
組み合わせるようにしてもよい。このように、それぞれ
の手法を組み合わせることによって、より一層の効果が
得られる。

【００５３】また、本発明では、変換前話者の特徴デー
タ空間および変換後話者の特徴データ空間をそれぞれコ
ードブック化して複数の領域に分割しておき、前記変換
すべき音声の特徴データ近傍の特徴データを求める処理
を行う際、前記変換すべき特徴データの属する領域また
はその領域に近接する領域内に存在する特徴データのみ
との間で距離計算を行うことにより、距離計算を行うた
めの計算量を大幅に削減することができ、処理の高速化
が図れる。

【００５４】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照しながら説明する。

【００５５】本発明は、大きく分けると２つの要素を含
む。その１つは話者声質変換後の合成音声の品質を向上
させる手法であり、もう１つは、話者声質変換を行うた
めのアルゴリズムの計算量を削減する手法である。

【００５６】（第１の実施の形態）この第１の実施の形
態では、話者声質変換後の合成音声の品質を向上させる
手法について幾つかの具体例を用いて以下に説明する。

【００５７】図１はその第１の手法を説明する図であ
り、ここで示される話者Ａと話者Ｂの音声データ空間は
前述の従来技術で用いた図７と基本的には同じである。
つまり、話者Ａが予め用意された話者声質変換用の幾つ
かの単語（５０単語程度）それぞれについて発話し、そ
れぞれの単語ごとの特徴ベクトル列を得る。同様に、話
者Ａが発話する単語と同じ単語についてを話者Ｂが発話
して、それぞれの単語ごとのＬＰＣ係数列を得る。

【００５８】図７において、ＬＰＣ係数列Ａ１は話者Ａ
が発話して得られた「おはよう」のＬＰＣ係数列である
ものとし、ＬＰＣ係数ａ１１，ａ１２，・・・，ａ１６
で構成されているものとする。また、ＬＰＣ係数列Ａ２
は話者Ａが発話して得られた「ただいま」のＬＰＣ係数
列であるものとし、ＬＰＣ係数ａ２１，ａ２２，・・
・，ａ２７で構成されているものとする。この話者Ａの
ＬＰＣ係数空間には、その他の話者声質変換用の幾つか
の単語に対するそれぞれのＬＰＣ係数列が存在してい
る。

【００５９】同様に、ＬＰＣ係数列Ｂ１は話者Ｂが発話
して得られた「おはよう」のＬＰＣ係数列であり、ＬＰ
Ｃ係数ｂ１１，ｂ１２，・・・，ｂ１６で構成されてい
るものとする。また、ＬＰＣ係数列Ｂ２は話者Ｂが発話
して得られた「ただいま」のＬＰＣ係数列であり、ＬＰ
Ｃ係数ｂ２１，ｂ２２，・・・，ｂ２５で構成されてい
るものとする。この話者ＢのＬＰＣ係数空間には、話者
ＡのＬＰＣ係数空間と同様、その他の話者声質変換用の
幾つかの単語に対するそれぞれのＬＰＣ係数列が存在し
ている。

【００６０】なお、この図１では図面を簡略化するため
に、４つの話者性変換用の単語のＬＰＣ係数列Ａ１〜Ａ
４、Ｂ１〜Ｂ４のみが示されているが、実際には、話者
声質変換用の単語として用いられたすべてのＬＰＣ係数
列が有り、それぞれのＬＰＣ係数列を構成するＬＰＣ係
数がそれぞれの空間内に多数散在することになる。

【００６１】たとえば、話者声質変換用の単語として５
０単語用意されているとすれば、それぞれの単語に対応
する特徴ベクトル列が存在し、１つの単語が２５フレー
ム程度であるとすれば、１単語につき２５個のＬＰＣ係
数で構成され、全体では、５０×２５＝１２５０のＬＰ
Ｃ係数が散在することになる。なお、図１では図面を簡
略化するために１つの単語のＬＰＣ係数を数個程度とし
ている。

【００６２】また、話者声質変換用の単語としては、な
るべく少ない単語数で幅広いＬＰＣ係数が得られるよう
な単語が予め選ばれている。

【００６３】そして、話者Ａの「おはよう」のＬＰＣ係
数列を構成する各ＬＰＣ係数と話者Ｂの「おはよう」の
ＬＰＣ係数列を構成する各ＬＰＣ係数とをＤＰマッチン
グなどにより対応付けを行って、話者Ａの「おはよう」
を構成する各ＬＰＣ係数に対するそれぞれの移動ベクト
ルを求めておく。同様にして、「おはよう」以外の話者
声質変換用の各単語について話者Ａと話者Ｂのそれぞれ
の単語ごとにＬＰＣ係数を対応付けし、それぞれの単語
を構成するＬＰＣ係数に対するそれぞれの移動ベクトル
を求めておく。

【００６４】今、話者Ａが変換対象単語（たとえば「こ
んにちは」）を発話すると、その変換対象単語をディジ
タル信号に変換した後、１フレームごとに音声分析し
て、そのフレームのＬＰＣ係数と１フレームを構成する
幾つかの単位波形対応のパルス列を得る。そして、「こ
んにちは」の各フレームにおけるＬＰＣ係数がａｕ１，
ａｕ２，・・・，ａｕ６であったとする。

【００６５】この話者Ａの発話した変換対象単語の特徴
ベクトル列Ａｕが話者ＡのＬＰＣ係数空間上で図１に示
すような位置であったとすると、それぞれのＬＰＣ係数
に近い距離に位置する話者Ａの話者声質変換用単語のＬ
ＰＣ係数を幾つか（ここでは、説明を簡単にするために
３つとする）選ぶ。

【００６６】この図１の場合、まず、変換すべき入力単
語の１フレーム目のＬＰＣ係数ａｕ１に近い３つのＬＰ
Ｃ係数を選ぶ。このとき選ばれた３つのＬＰＣ係数をａ
１６，ａ２１，ａ３１とする。

【００６７】ところで、これら選ばれた３つのＬＰＣ係
数ａ１６，ａ２１，ａ３１は、前述したように、それぞ
れ話者ＢのＬＰＣ係数空間の対応するＬＰＣ係数に対す
る移動ベクトルが求められており、それぞれの移動ベク
トルを、ｖ１，ｖ２，ｖ３とする。

【００６８】そして、これら選ばれた３つのＬＰＣ係数
の移動ベクトルｖ１，ｖ２，ｖ３とを用いて、変換対象
単語における１フレーム目のＬＰＣ係数ａｕ１に対する
移動ベクトルｖｕ１を求める。

【００６９】この変換対象単語における１フレーム目の
ＬＰＣ係数の移動ベクトルｖｕ１の求め方の一例として
は、この場合、３つの移動ベクトルｖ１，ｖ２，ｖ３の
平均を求めて、その平均値を変換対象単語における１フ
レーム目のＬＰＣ係数の移動ベクトルｖｕ１とする。な
お、この移動ベクトルｖｕ１は、単なる平均ではなく、
変換対象入力単語の１フレーム目のＬＰＣ係数ａｕ１
と、３つのＬＰＣ係数ａ１６，ａ２１，ａ３１とのそれ
ぞれの距離に応じた重み付けを行って１フレーム目のＬ
ＰＣ係数に対する移動ベクトルｖｕ１を求めるようにし
てもよい。

【００７０】そして、求められた移動ベクトルｖｕ１
を、変換対象単語における１フレーム目のＬＰＣ係数ａ
ｕ１にプラスすることで、話者ＢのＬＰＣ係数空間にお
けるＬＰＣ係数を得る。こうして求められた話者ＢのＬ
ＰＣ係数空間におけるＬＰＣ係数をｂｕ１とする。

【００７１】ここまでは従来の処理と同様である。本発
明は、以上のようにして求められた話者ＢのＬＰＣ係数
空間における話者Ａの発話した変換対象単語の各フレー
ムごとのＬＰＣ係数に対し、以下のような処理を行う。

【００７２】まず、１フレーム目のＬＰＣ係数ｂｕ１が
求められると、このＬＰＣ係数ｂｕ１の近傍（この実施
の形態では最も近い位置）に存在する話者ＢのＬＰＣ係
数を距離計算によって求める。求められたＬＰＣ係数を
ｂ１０とする。

【００７３】以上の処理を各フレームごとに行う。すな
わち、話者ＡのＬＰＣ係数空間において、変換対象単語
の２フレーム目のＬＰＣ係数ａｕ２に近い３つのＬＰＣ
係数を選び、選ばれた３つのＬＰＣ係数のそれぞれの移
動ベクトルを用いて、そのＬＰＣ係数ａｕ２に対する移
動ベクトルｖｕ２を求める。

【００７４】そして、求められた移動ベクトルｖｕ２
を、そのＬＰＣ係数ａｕ２にプラスすることで、話者Ｂ
のＬＰＣ係数空間におけるＬＰＣ係数を得る。こうして
求められた話者Ｂの音声データ空間におけるＬＰＣ係数
をｂｕ２とする。そして、話者ＢのＬＰＣ係数空間にお
ける２フレーム目のＬＰＣ係数ｂｕ２に最も近い話者Ｂ
のＬＰＣ係数を距離計算によって求め、求められたＬＰ
Ｃ係数をｂ２０とする。

【００７５】同様にして、３フレーム以降の話者ＡのＬ
ＰＣ係数（ＬＰＣ係数ａｕ３，ａｕ４，ａｕ５）が、話
者Ｂの音声データ空簡にそれぞれの移動ベクトルを用い
てマッピングして得られたＬＰＣ係数（ＬＰＣ係数ｂｕ
３，ｂｕ４，ｂｕ５）それぞれについて、それぞれのＬ
ＰＣ係数ｂｕ３，ｂｕ４，ｂｕ５に最も近い話者ＢのＬ
ＰＣ係数を求める。

【００７６】以上のようにして求められた「こんにち
は」に対する話者ＢのＬＰＣ係数空間におけるＬＰＣ係
数列がｂｕ１０，ｂｕ２０，・・・，ｂｕ５０であると
する。

【００７７】このＬＰＣ係数列ｂｕ１０，ｂｕ２０，・
・・，ｂｕ５０は、話者Ａが発話した「こんにちは」と
いう音声を、話者ＢのＬＰＣ係数空間に変換して得られ
たＬＰＣ係数列であり、このＬＰＣ係数列を構成するそ
れぞれのＬＰＣ係数ｂｕ１０，ｂｕ２０，・・・，ｂｕ
５０は、もともと話者Ｂが、幾つかの話者声質変換用の
単語について発話した音声から得られたＬＰＣ係数であ
る。

【００７８】このように、本発明では、話者Ａの音声の
ＬＰＣ係数を、移動ベクトルを用いて話者ＢのＬＰＣ係
数空間にマッピングしたとき、そのマッピングして得ら
れたＬＰＣ係数を話者ＢのＬＰＣ係数空間にもともと存
在する話者ＢのＬＰＣ係数に変換するようにしている。

【００７９】こうして得られた各フレームごとの変換後
のＬＰＣ係数（話者ＢのＬＰＣ係数空間にもともと存在
するＬＰＣ係数のいずれか）と、話者Ａが発話した変換
対象音声の音声データから得られた単位波形対応のパル
ス列を用いて音声合成する。

【００８０】このように、話者Ａの変換対象音声から得
られたＬＰＣ係数を、話者ＢのＬＰＣ係数空間に変換し
た後の変換後のＬＰＣ係数は、もともと話者Ｂが、幾つ
かの話者声質変換用の単語について発話した音声から得
られたＬＰＣ係数のうちのいずれかのＬＰＣ係数とな
る。したがって、変換後のＬＰＣ係数は音質に悪影響を
与えるような値となることはなく、良好な音質が得ら
れ、また、もともと話者Ｂの音声から得られたＬＰＣ係
数を用いているので、話者声質変換も良好に行われる。

【００８１】次に合成音声の品質改善のために本発明が
行う第２の手法を説明する。

【００８２】一般に、話者声質変換後に音声合成された
波形のエンベローブ（包絡線）は、原波形（変換前の音
声波形）のエンベローブに比べて滑らかさに欠けた凹凸
の激しいものとなる傾向にある。図２（ａ）は原波形、
同図（ｂ）は合成音声の波形を示すもので、原波形のエ
ンベローブ１１は滑らかな曲線を描いているのに対し、
合成音声では弦は径の同じ部分には無い急激に突出した
部分ｐ１や急激に立ち下がった部分ｐ２などが存在し、
これによりそのエンベローブ１２の凹凸が激しくなる。

【００８３】このように、合成音声のエンベローブが滑
らかでなく凹凸が激しいと、その音声は喉に何かが絡ま
ったようなゴロゴロした音声（うがいをしながら喋った
ときのような音声）となる。

【００８４】これに対処するために、本発明では、以下
のような処理を行う。

【００８５】音声合成を行う場合、話者声質変換後のＬ
ＰＣ係数と単位波形ごとのパルス列を用いて１フレーム
単位で音声合成を行う。したがって、各フレームごとの
単位波形ごとに原波形と音声合成後の波形の各単位波形
ごとの最大波高値を求める。

【００８６】図２（ａ）は話者の発話した或る単語の音
声波形（原波形）を示すもので、同図（ｂ）は合成後の
波形を示すものである。このような音声波形において、
ある１フレームのそれぞれの単位波形に相当する区間ご
とに最大波高値を求める。そして、それぞれの単位波形
に相当する区間ごとに、係数α＝原波形の最大波高値／合成波形の最大波高値・・・（２）を求める。このようにして求められた係数αを用いて、
その単位波形に対応するパルスをα倍する。そして、α
倍されたパルスとそのフレームにおけるＬＰＣ係数を用
いて再度音声合成を行う。

【００８７】このような音声波形において、図２
（ａ），（ｂ）に示す音声波形の或る１フレームについ
て考える。今、その１フレームを構成するそれぞれの単
位波形に相当する区間をｘ１、ｘ２，ｘ３とすると、区
間ｘ１における原波形の最大波高値と、区間ｘ１におけ
る合成波形の最大波高値を調べて、前記（２）式により
係数α（α１とする）を求めたとき、係数α１＝0.5と
求められたとする。つまり、区間ｘ１において、合成波
形の最大波高値が原波形の最大波高値に対して２倍とな
っている部分が存在していることになる。したがって、
これを補正するために、図２（ｃ）に示すように、区間
ｘ１に対応するパルスＩＰ１の振幅をα１倍（0.5倍）
する。なお、図２（ｃ）は図２（ａ），（ｂ）の或る１
部（１フレームに相当する部分）を示すもので、図２
（ｃ）の時間軸の単位と、図２（ａ），（ｂ）の時間軸
の単位とは異なる。

【００８８】同様にして、次に区間ｘ２における原波形
の最大波高値と区間ｘ２における合成波形の最大波高値
を調べて、前記（２）式により係数α（α２とする）を
求めたとき、係数α２＝２と求められたとする。つま
り、区間ｘ２において、合成波形の最大波高値が原波形
の最大波高値に対して１／２倍となっている部分が存在
していることになる。したがって、これを補正するため
に、区間ｘ２に対応するパルスＩＰ２の振幅をα２倍
（２倍）する。

【００８９】さらに、区間ｘ３における原波形の最大波
高値と区間ｘ３における合成波形の最大波高値を調べ
て、前記（２）式により係数α（α３とする）を求めた
とき、係数α２＝１と求められたとする。つまり、区間
ｘ３においては、合成波形の最大波高値と原波形の最大
波高値とが同じであるということであり、この場合は、
区間ｘ３に対応するパルスＩＰ３の振幅をα３倍（１
倍）する。

【００９０】以上の処理を各フレーム単位に単位波形に
相当する区間ごとに行い、それぞれの単位波形に対応す
るパルスの振幅をそれぞれの区間ごとに求められた係数
αを用いて補正する。

【００９１】このようにして補正されたパルス列を用い
るとともに各フレームごとのＬＰＣ係数を用いて音声合
成する。つまり、この第２の手法は、まず最初に、求め
られた各フレームごとのＬＰＣ係数とパルス列を用いて
合成波形を作り、その合成波形と原波形を比較して、前
記（２）式により各単位波形に相当する区間ごとの係数
αを求める。そして、この係数αにより各単位波形対応
のパルスの振幅を補正して、振幅が補正されたパルス列
を作る。次に、この補正されたパルス列と各フレームご
とのＬＰＣ係数を用いて音声合成する。

【００９２】このような処理を行うことにより、合成さ
れた音声波形は、原波形と同じような滑らかな曲線を描
くエンベローブを持つ波形とすることができる。これに
より、喉に何かが絡まったようなゴロゴロした音声とな
るのを防止でき、良好な音質の音声とすることができ
る。

【００９３】なお、この第２の手法は、前述した従来の
話者声質変換処理にそのまま単独に用いても好結果が期
待できるが、前記した第１の手法法を行って得られた合
成波形に対して行えば、より一層、良好な話者声質変換
が可能となるとともに、音質をより高品質なものとする
ことができる。

【００９４】次に合成音声の品質改善のために本発明が
行う第３の手法を説明する。

【００９５】前述したように、話者Ａの音声から得られ
たＬＰＣ係数を、移動ベクトルを用いて話者Ｂの音声デ
ータ空間にマッピングして話者Ｂの音声データ空間上に
おけるＬＰＣ係数を求める場合、必ずしも適正なＬＰＣ
係数が得られるとは限らず、むしろ、望ましくないＬＰ
Ｃ係数となってしまうことも多い。

【００９６】このようなＬＰＣ係数よって音声合成され
た合成波形の各フレームごとのインパルス応答波形の時
間に対する変化量（時間軸上で連続する２つのフレーム
のインパルス応答波形同志を重ねたときの縦軸方向の差
の絶対値の合計）は、原波形のそれと比較したとき、極
端なずれが生じている場合がある。

【００９７】たとえば、原波形の各フレームごとのイン
パルス応答波形の時間に対する変化量がそれほど大きく
ないにも係わらず、図３（ａ）に示すように、合成波形
の各フレームごとの単位波形対応のインパルス応答波形
の時間に対する変化量が大きい場合がある。

【００９８】図３（ａ）は音声合成後の１フレーム目、
２フレーム目、３フレーム目、４フレーム目の各フレー
ムにおける単位波形対応のインパルス応答波形ｈ１，ｈ
２，ｈ３，ｈ４を示すもので、前後関係から判断して、
明らかに３フレーム目のインパルス応答波形だけが他の
フレームのインパルス応答波形に比べて大きく異なって
いることがわかる。

【００９９】このように、前後関係から判断してインパ
ルス応答波形が前後のフレームのインパルス応答波形と
明らかに異なっていると判断した場合には、本発明で
は、合成を行うためのＬＰＣ係数としては、その直前の
フレームあるいは直後のフレームで用いたＬＰＣ係数を
用いて音声合成を行うようにする。たとえば、直前のフ
レーム（２フレーム目）がＬＰＣ係数ｂｕ２を用いたと
すると、インパルス応答波形が前後に比べて大きく変化
した３フレーム目においても２フレーム目と同じＬＰＣ
係数ｂｕ２を用いる。

【０１００】このようにして、インパルス応答波形が前
後に比べて大きく変化したフレームに対しては、そのフ
レームの直前あるいは直後のフレームで用いたＬＰＣ係
数を用いて合成を行う。これにより、図３（ｂ）に示す
ように、３フレーム目のインパルス応答波形ｈ３は２フ
レーム目のインパルス応答波形ｈ２と同じような波形と
なり、全体的に、原波形に近い音声合成波形を得ること
ができ、良好な音質を得ることができる。

【０１０１】また、この第３の方法の他の方法として
は、前後関係から見て明らかに異なる波形があった場
合、前後のフレームのインパルス応答波形の平均を計算
し、その平均のインパルス応答波形で置き換えるように
してもよい。このような処理を行うことによっても、全
体的に、原波形に近い音声合成波形を得ることができ、
良好な音質を得ることができる。

【０１０２】なお、この第３の手法は、前述した従来の
話者声質変換処理にそのまま単独で用いても良好な結果
が得られるが、前述の第１の手法と組み合わせるように
してもよく、また、第２の手法と組み合わせるようにし
てよく、さらには、第１、第２の手法の両方とこの第３
の手法すべてを組み合わせるようにしてもよい。

【０１０３】次に合成音声の品質改善のために本発明が
行う第４の手法を説明する。

【０１０４】この第４の手法は、話者ＡのＬＰＣ係数空
間におけるある変換対象単語のＬＰＣ係数列の軌道と、
その変換対象単語のＬＰＣ係数を、話者ＢのＬＰＣ空間
に変換後のＬＰＣ係数列の軌道とを比較したとき、変換
後のＬＰＣ係数列の軌道に変換前のＬＰＣ係数列の軌道
には無い凹凸があったときにこれを修正処理するもので
ある。このように、変換後のＬＰＣ係数列の軌道に、変
換前のＬＰＣ係数列の軌道には無い凹凸が存在すると、
それにより合成された合成音は音質が劣化したものとな
る。これに対処するため以下のような処理を行う。

【０１０５】図４は話者Ａの発話したある変換対象単語
から得られたＬＰＣ係数の軌道Ｌａと、そのＬＰＣ係数
を話者ＢのＬＰＣ空間に変換した変換後のＬＰＣ係数の
軌道Ｌｂを示すものである。図４からもわかるように一
般に、変換後のＬＰＣ係数列の軌道Ｌｂと変換前のＬＰ
Ｃ係数の軌道Ｌａはある程度は異なるが、変換前のＬＰ
Ｃ係数列の軌道Ｌａには無い凸部５１が存在している。
この凸部５１が音質の劣化に大きく影響するため、この
部分を修正する必要がある。この修正処理について以下
に説明する。なお、図４において白丸で示される点はそ
れぞれのＬＰＣ係数空間に存在する話者声質変換用単語
のＬＰＣ係数の一部を示している。

【０１０６】まず、時間に対するＬＰＣ係数の変化量
（ベクトル量をスカラ量に変換）を変換前のＬＰＣ係数
の軌道Ｌａと変換後のＬＰＣ係数の軌道Ｌｂからそれぞ
れ調べる。

【０１０７】そして、両方の変化量の推移を調べ、極端
な変化があった場合は、そのフレームについて次のよう
な処理を行う。

【０１０８】今、そのフレームをここでは３番目のフレ
ームであるとする。そして、変換前のＬＰＣ係数列軌道
Ｌａにおける３番目のフレームのＬＰＣ係数に近いＬＰ
Ｃ係数を持ったフレームを探す。その探索されたフレー
ムが極端な変化のあったフレームの直前のフレーム（２
番目のフレーム）であったとすると、その２番目のフレ
ームのＬＰＣ係数に対する移動ベクトルを用いて変換前
の３番目のフレームのＬＰＣ係数を、話者ＢのＬＰＣ係
数空間にマッピングする。これを図４により説明する。

【０１０９】つまり、変換前のＬＰＣ係数列軌道Ｌａを
構成するＬＰＣ係数が、１フレーム目から順に、ａｕ１
０，ａｕ２０，・・・，ａｕ７０であるとし、２番目の
フレームのＬＰＣ係数の移動ベクトルをｖｕ２０とすれ
ば、処理対象である３番目のフレームのＬＰＣ係数ａｕ
３０に対しても、ＬＰＣ係数ａｕ２０の移動ベクトルｖ
ｕ２０を用いて、話者ＢのＬＰＣ係数空間にマッピング
する。

【０１１０】このような処理を行うことにより、前後の
フレームと大きくかけ離れた値となったフレームのＬＰ
Ｃ係数を補正することができ、局部的な軌道のずれを修
正することができ、変換後の合成音の品質の向上するこ
とができる。

【０１１１】なお、この第４の手法は、前述した従来の
話者声質変換処理にそのまま単独で用いても良好な結果
が得られるが、前述の第１〜第３の手法と任意に組み合
わせるようにしてもよく、また、第１、第２、第３の手
法のすべてとこの第４の手法を組み合わせるようにして
もよい。

【０１１２】次に合成音声の品質改善のために本発明が
行う第５の手法を説明する。

【０１１３】この第５の手法は、特に子音部における変
換後のＬＰＣ係数が大きく変化してしまうような場合に
適した処理である。

【０１１４】一般に、母音については、ＬＰＣ係数空間
（この場合、話者ＢのＬＰＣ係数空間）に、変換後の音
声として望ましいＬＰＣ係数が存在する場合が多いが、
子音については望ましいＬＰＣ係数が存在しない場合も
多い。このような場合、話者ＢのＬＰＣ係数空間で無理
矢理に変換後のＬＰＣ係数を見つけ、そのＬＰＣ係数で
音声合成を行うと不自然な合成音となるおそれがある。
これに対処するために、以下の様な処理を行う。

【０１１５】まず、前述の第１の手法を行う場合につい
て説明する。この第１の手法は、話者ＡのＬＰＣ係数空
間において、変換対象単語の或るフレームのＬＰＣ係数
に近い３つのＬＰＣ係数を選び、選ばれた３つのＬＰＣ
係数のそれぞれの移動ベクトルをもとに、変換すべき単
語におけるそのＬＰＣ係数に対する移動ベクトルを求
め、その求められた移動ベクトルを変換すべきＬＰＣ係
数にプラスすることで話者ＢのＬＰＣ係数空間における
ＬＰＣ係数を得る。こうして求められた話者ＢのＬＰＣ
係数空間におけるＬＰＣ係数に対し、最も近い話者Ｂの
ＬＰＣ係数を距離計算によって求め、求められたＬＰＣ
係数を変換後のＬＰＣ係数として用いる。

【０１１６】このようにして変換後のＬＰＣ係数（話者
Ｂがもともと発話して得られたＬＰＣ係数）を求める
が、この変換後のＬＰＣ係数を求める際、話者ＢのＬＰ
Ｃ係数空間における最近傍のＬＰＣ係数を変換後のＬＰ
Ｃ係数として採用する。このとき、最近傍とされるＬＰ
Ｃ係数が、変換後のＬＰＣ係数として望ましいものか否
かを判定する必要がある。

【０１１７】さらに、前段階の処理として、話者ＡのＬ
ＰＣ係数空間において、変換対象単語の或るフレームの
ＬＰＣ係数に近い３つのＬＰＣ係数を選ぶ処理を行う
が、この３つのＬＰＣ係数との距離が離れすぎていない
かどうかの判定を行う必要もある。以下に、これらの判
定方法を説明する。

【０１１８】まず、第５の手法（その１）として、入力
音声により得られたＬＰＣ係数と話者ＡのＬＰＣ係数空
間における近傍の幾つかのＬＰＣ係数（この実施に形態
では、３つのＬＰＣ係数）との距離を求める際、その距
離が適正か否かを判定する。

【０１１９】この判定方法としては、たとえば、図１に
示されるように、変換すべき入力単語の１フレーム目の
ＬＰＣ係数をａｕ１としたとき、そのＬＰＣ係数に近い
３つのＬＰＣ係数として、ａ１６，ａ２１，ａ３１が選
ばれたとする。そして、ＬＰＣ係数ａｕ１とａ１６との
距離がｄ１，ＬＰＣ係数ａｕ１とａ２１との距離がｄ
２、ＬＰＣ係数ａｕ１とａ３１との距離がｄ３とする
と、これらの距離の和（ｄ１＋ｄ２＋ｄ３）が予め求め
られている基準値より大きいか否かを調べる。

【０１２０】この基準値は、他のフレームにおいて各フ
レームごとに既に求められた３つのＬＰＣ係数との距離
の和の平均値を求め、その平均値に基づいて基準値を設
定する。たとえば、平均値の５倍の距離を基準値として
設定し、前述のそれぞれの距離の和がその基準値より大
きいか否かを判定する。

【０１２１】次に第５の手法（その２）について説明す
る。この第５の手法（その２）は、変換後のＬＰＣ係数
を求める際、話者ＢのＬＰＣ係数空間における最近傍の
ＬＰＣ係数を変換後のＬＰＣ係数として採用するが、最
近傍とされるＬＰＣ係数が、変換後のＬＰＣ係数として
望ましいものか否かを判定する。

【０１２２】この判定方法としては、たとえば、図１に
示されるように、変換後の１フレーム目のＬＰＣ係数を
ｂｕ１としたとき、そのＬＰＣ係数に最近傍のＬＰＣ係
数としてＬＰＣ係数ｂ１０が選ばれたとする。そして、
ＬＰＣ係数ｂｕ１とｂ１０との距離がｄ１０とすると、
この距離のｄ１０が予め求められている基準値より大き
いか否かを調べる。

【０１２３】この基準値は、既に変換されたフレームに
おいて各フレームごとに求められたＬＰＣ係数と最近傍
のＬＰＣ係数との距離の平均を求め、その平均値に基づ
いて基準値を設定する。たとえば、平均値の５倍の距離
を基準値として設定し、前述の距離ｄ１０がその基準値
より大きいか否かを判定する。

【０１２４】このようにして、話者ＡのＬＰＣ係数空間
において、話者Ａが発話する入力単語のＬＰＣ係数に対
する近傍の幾つかのＬＰＣ係数との距離の和が基準値以
上であるか否かの判定を行うとともに、話者ＢのＬＰＣ
係数空間において、変換後のＬＰＣ係数と最近傍のＬＰ
Ｃ係数との距離が基準値以上であるか否かの判定を行
う。

【０１２５】そして、これらの２つの判定を行った結
果、２つのうちいずれかの判定処理において基準値以上
であると判定された場合は、その処理対象のフレームに
おける変換後のＬＰＣ係数として、原音声（話者Ａが発
話した音声）の同じフレームのＬＰＣ係数を用いる。

【０１２６】たとえば、原音声の或るフレームのＬＰＣ
係数を話者ＢのＬＰＣ係数空間にマッピングして、その
最近傍として選ばれたＬＰＣ係数が、基準値以上である
と判定された場合は、その最近傍のＬＰＣ係数を変換後
のＬＰＣ係数として用いないで、原音声の同じフレーム
のＬＰＣ係数をそのまま変換後のＬＰＣ係数とし、その
ＬＰＣ係数を用いて音声合成を行うようにする。

【０１２７】また、話者ＡのＬＰＣ係数空間において、
原音声の或るフレームのＬＰＣ係数とその近傍の幾つか
のＬＰＣ係数を選ぶ際に、それらの距離の和が基準値以
上であると判定された場合も、その原音声の同じフレー
ムのＬＰＣ係数をそのまま変換後のＬＰＣ係数とし、そ
のＬＰＣ係数を用いて音声合成を行うようにする。

【０１２８】このように、この第５の手法は、音声合成
するために望ましい変換後のＬＰＣ係数が見つからない
ような場合の処理であり、ごく短い時間以内（50msec程
度以内）でこのような状況が生じた場合、変換後のＬＰ
Ｃ係数として原音声のＬＰＣ係数を瞬間的にそのまま用
いるようにする。

【０１２９】このような処理は、子音において特に有効
である。子音は波形が大きく変化するために、その中の
瞬間的な１フレーム程度のＬＰＣ係数に、原音声のＬＰ
Ｃ係数をそのまま用いて音声合成しても、聴感上は殆ど
問題とならない。むしろ、適正でない値に変換されたＬ
ＰＣ係数を用いて音声合成すると、耳障りな合成音とな
る場合が多く、その方が問題である。

【０１３０】以上、第１から第５の手法について説明し
たが、これらの方法を採用することにより、音質の改善
が図れ（第１から第５の手法）、また、適正な話者声質
変換が行える（特に第１の手法）。これにより、高品質
な合成音を得ることができる。なお、これら、第１から
第５の手法は、それらを単独で用いても効果が得られる
が、使用する機器の特性などを考慮し、必要に応じて選
択的に組み合わせてもよく、また、すべてを組み合わせ
るようにしてもよい。

【０１３１】図５は以上説明した各種の手法を行うため
の装置構成例を示すもので、入力された音声をＡ／Ｄ変
換するＡ／Ｄ変換部６１、Ａ／Ｄ変換された音声データ
を周波数分析する分析部６２、この分析部６２により得
られたＬＰＣ係数を入力してそのＬＰＣ係数を話者声質
変換するために前述したような種々の処理を行う話者声
質変換制御部６３、この話者声質変換制御部６３からの
変換後のＬＰＣ係数と前記分析部６２による分析結果か
ら得られたパルス列を用いて音声合成する音声合成部６
４、この音声合成部６４からの音声データをＤ／Ａ変換
するＤ／Ａ変換部６５などから構成されている。

【０１３２】前記話者声質変換制御部６３は、前述した
第１〜第５の手法を予め設定された処理プログラムに基
づいて行うもので、第１〜第５の手法を行うための処理
プログラムを格納した第１〜第５の処理プログラム記憶
部（ＲＯＭ）６３１〜６３５とこれらの処理プログラム
に基づいた制御を行う制御部６３６、前述した話者Ａの
ＬＰＣ係数空間に対応する話者ＡのＬＰＣ係数記憶部６
３７、前述した話者ＢのＬＰＣ係数空間に対応する話者
ＢのＬＰＣ係数記憶部６３８、前記パルスをα倍する乗
算部６３９などから構成されている。なお、乗算部６３
９は第２の手法を行ったとき得られる係数αをパルスに
掛け算するものであり、第２の手法を行わないときはα
＝１としておく。

【０１３３】前記第１の処理プログラム記憶部６３１に
は第１の手法を行うための処理プログラムが格納され、
第２の処理プログラム記憶部６３２には第２の手法を行
うための処理プログラムが格納され、第３の処理プログ
ラム記憶部６３３には第３の手法を行うための処理プロ
グラムが格納され、第４の処理プログラム記憶部６３４
には第４の手法を行うための処理プログラムが格納さ
れ、第５の処理プログラム記憶部６３５には第５の手法
を行うための処理プログラムが格納されている。

【０１３４】このような構成において、前記第１〜第５
の処理プログラム記憶部６３１〜６３５に基づいて制御
部６３６が行う処理は、前述した通りであるので、ここ
では、それらの処理についての説明は省略する。

【０１３５】また、第１〜第５の処理プログラム記憶部
６３１〜６３５はすべてを設けて、いずれか１つを選択
して処理を行う用意してもよく、あるいは幾つかを組み
合わせて処理を行うようにしてもよい。たとえば、本発
明を適用する機器の特性などに応じて、第１の処理プロ
グラム６３１のみを行わせたり、あるいは、第１の処理
プログラムと第２の処理プロラムを行わせたりというよ
うに、その機器にとって必要とする処理を行うようにす
ることもできる。勿論、第１〜第５の処理プログラムす
べてを行わせるようにしてもよい。また、機器によって
必要な処理プログラムだけを設定するようにしてもよ
い。たとえば、前記した第１の手法のみを行わせればよ
い場合には、始めから第１の処理プログラムだけを搭載
するということもできる。

【０１３６】（第２の実施の形態）前述した第１の実施
の形態では、変換後のＬＰＣ係数を用いて音声合成する
際の合成音声の品質向上を図る手法について説明した
が、この第２の実施の形態では、処理を行うためのアル
ゴリズムの計算量を削減する手法について説明する。こ
こで削減しようとする計算量は、話者ＡのＬＰＣ係数空
間において、話者Ａが発話した入力単語により得られた
ＬＰＣ係数の近傍の複数のＬＰＣ係数を見つけるための
距離計算の計算量と、話者ＢのＬＰＣ係数空間におい
て、最近傍のＬＰＣ係数を見つけるための距離計算の計
算量である。

【０１３７】たとえば、話者ＡのＬＰＣ係数区間におい
て、幾つかの近傍のＬＰＣ係数を見つけるための距離計
算は、前述の例では、話者Ａが発話して得られた音声デ
ータの１フレームごとに得られたＬＰＣ係数に対して、
話者ＡのＬＰＣ係数空間に存在する千個以上のＬＰＣ係
数すべてとの距離計算を行うことになり、膨大な計算量
となる。これは話者ＢのＬＰＣ係数空間について最近傍
のＬＰＣ係数を見つける場合も同様である。

【０１３８】これに対処するために、この第２の実施の
形態では、話者ＡのＬＰＣ係数空間および話者ＢのＬＰ
Ｃ係数空間をそれぞれコードブック化して分割し、その
分割された領域内あるいは近接する領域内に存在するＬ
ＰＣ係数のみを距離計算対象とする。

【０１３９】まず、話者ＡのＬＰＣ係数空間および話者
ＢのＬＰＣ係数空間をそれぞれコードブック化して幾つ
かの領域に分割しておく。このコードブック化する処理
について図６を参照して簡単に説明する。ここでは、話
者ＡのＬＰＣ係数空間を例にとって説明する。

【０１４０】この話者ＡのＬＰＣ係数区間には、ここで
は、５０単語×２５フレームの１２５０個のＬＰＣ係数
が散在しているものとする（ＬＰＣ係数を点で示す）。
まず、図６（ａ）に示すように、これらのＬＰＣ係数の
うち、最も距離の遠い２つのＬＰＣ係数（ａ１、ａｚと
する）を選び、他のＬＰＣ係数がこれら２つのどちらに
近いかによって、２つのグループＧ１１，Ｇ１２に分割
する（２つに分割する境界線を破線で示す）。これら２
つのグループＧ１１，Ｇ１２において重心（ａｍ，ａｎ
とする）を求め、今度は、これらの重心のどちらに近い
かによって、２つのグループに分ける。そして、新たな
グループで重心を求め、それらのＬＰＣ係数のどちらに
近いかによって２つのグループに分ける。このような処
理を繰り返し行い、境界線が動かなくなる（収束する）
まで行う。

【０１４１】そして、図６（ｂ）の状態で収束したとす
ると、今度は、収束した状態の２つのグループ（Ｇ２
１，Ｇ２２とする）それぞれに存在するＬＰＣ係数のな
かで、最も距離の遠い２つのＬＰＣ係数をそれぞれ選
び、他のＬＰＣ係数がこれら２つのどちらに近いかによ
って、２つのグループに分割する。たとえば、グループ
Ｇ２１について考えると、最も遠い２つのＬＰＣ係数を
求めグループＧ２１の中のＬＰＣ係数がこれら２つのＬ
ＰＣ係数の中でどちらに近いかで、２つのグループに分
割する。そして、これら２つのグループにおいて重心の
ＬＰＣ係数を求め、今度は、これらの重心のどちらに近
いかによって、２つのグループに分ける。そして、新た
なグループで重心を求め、それらの重心のどちらに近い
かによって２つのグループに分ける。このような処理を
繰り返し行い、境界線が動かなくなる（収束する）まで
行う。グループＧ２２についても同様の処理を行う。

【０１４２】以上のような処理を繰り返し行うことで、
それぞれのＬＰＣ係数空間は幾つかの領域に分割されて
行く。実際のコードブックは、たとえば、２５６個とい
うような領域に分割されたものとなるが、この実施の形
態を行うには、数十の領域に分割すればよい。ただし、
こここでは説明を簡単にするために、図６（ｃ）のよう
に領域Ｚ１〜Ｚ８に分割されたものとする。

【０１４３】本発明では、このようにコードブック化処
理を行って分割された領域内あるいは近接する領域内に
存在するＬＰＣ係数のみを距離計算対象とする。今、話
者Ａの発話した音声の或るフレームのＬＰＣ係数ａｕ１
が、たとえば、領域Ａ２内であったとすると、このＬＰ
Ｃ係数ａｕ１に対する幾つかの近傍点のＬＰＣ係数を見
つける場合、その領域Ｚ２内あるいは、領域Ｚ２に近接
する領域Ｚ１，Ｚ３内に存在するＬＰＣ係数のみを距離
計算の対象とする。なお、このような処理は、話者Ｂの
ＬＰＣ係数空間における最近傍のＬＰＣ係数を見つける
ための処理にも適用する。

【０１４４】このように限られた領域内に存在するＬＰ
Ｃ係数のみを距離計算の対象とすることにより、距離計
算処理を大幅に削減することが可能となり、処理速度の
高速化が図れる。

【０１４５】この第２の実施の形態を行うための装置構
成は、前述の第１の実施の形態にて説明した図５を用い
ることにより対応できる。ただし、この場合、話者Ａの
ＬＰＣ係数空間に対応する話者ＡのＬＰＣ係数記憶部６
３７、話者ＢのＬＰＣ係数空間に対応する話者ＢのＬＰ
Ｃ係数記憶部６３８の内容を、それぞれコードブック化
して幾つかの領域に分割しておき、入力音声から得られ
たＬＰＣ係数の領域内あるいは近接する領域内に存在す
るＬＰＣ係数のみを距離計算対象とするという処理を行
う。

【０１４６】なお、以上説明した実施の形態は、本発明
の好適な実施の形態の例であるが、これに限定されるも
のではなく、本発明の要旨を逸脱しない範囲で、種々変
形実施可能である。たとえば、前述の実施の形態では、
特徴ベクトルとしてＬＰＣ係数を用いて話者声質変換を
行ったが、これに限らず、ＰＡＲＣＯＲ係数でも同様の
処理が可能である。また、本発明の処理を行う処理プロ
グラムは、フロッピィディスク、光ディスク、ハードデ
ィスクなどの記憶媒体に記憶させておくことができ、本
発明は、それらの記憶媒体をも含むものであり、また、
ネットワークからデータを得る形式でもよい。

【０１４７】

【発明の効果】以上説明したように本発明は、幾つかの
手法を用いて話者声質変換後の合成音声の品質を向上さ
せるとともに、話者声質変換処理を行うためのアルゴリ
ズムの計算量を削減しようとするものである。

【０１４８】まず、話者声質変換後の合成音声の品質改
善を図るための第１の手法として、移動ベクトルに基づ
いて変換後話者の特徴データ空間に変換された特徴デー
タに距離の近い変換後話者の特徴データを求め、求めら
れた変換後話者の特徴データを、前記変換対象音声に対
する変換後の特徴データとして用いるようにしている。
これにより、変換後の特徴データは、変換後話者の特徴
データそのものとなるので、変換後の話者により近い声
質とすることができ、また、特徴データの値が発振を引
き起こすような不適当なものとなることが少ないので、
音質の改善も図れ、耳障りな音となるのを防止すること
ができる。

【０１４９】また、話者声質変換後の合成音声の品質改
善を図るための第２の手法として、前記変換前話者が発
話して得られた変換対象音声波形の単位波形に相当する
区間ごとの波高値と、音声合成された合成波形における
単位波形に相当する区間ごとの波高値との比を求め、そ
の比により得られた係数を前記単位波形対応のパルス列
に乗算し、係数が乗算されたパルス列と前記変換後の特
徴データとを用いて音声合成するようにしているので、
音声合成後のエンベローブに生じる凹凸を修正すること
ができ、音声合成後の合成波形のエンベローブを変換前
話者が発話して得られた音声波形のエンベローブと同じ
様に滑らかなものとすることができる、これにより、喉
に何かが絡まったようなゴロゴロした音声となるのを防
止でき、良好な音質の音声とすることができる。

【０１５０】また、話者声質変換後の合成音声の品質改
善を図るための第３の手法として、前記変換前話者が発
話した変換対象音声波形の或るフレームにおける単位波
形対応のインパルス応答波形と、音声合成後の合成波形
の前記フレームと同一フレームの単位波形対応のインパ
ルス応答波形とを比較し、連続する数個のフレームに対
応するそれぞれのインパルス応答波形の時間に対する変
化量が一定以上の差を有する場合は、変換対象音声波形
のインパルス応答波形の特に大きく変化するフレームの
特徴データとして、当該フレームの前または後のフレー
ムにおける変換後の特徴データを用い、この特徴データ
と前記変換前話者の変換対象音声データから得られる単
位波形対応のパルス列とを基に音声合成するようにして
いる。これによって、音声合成後の合成波形が同じ時間
軸上における前後のフレームの波形と大きく異なるとい
うようなことがなくなり、これによっても音質の改善を
図ることができる。

【０１５１】また、話者性変換後の合成音声の品質改善
を図るための第４の手法として、前記変換前話者が発話
した変換対象音声から得られるフレームごとの特徴デー
タで構成される特徴データ列軌道と、各特徴データを前
記移動ベクトルにより変換後話者の特徴データ空間に変
換したときの特徴データ列軌道とを比較し、変換前の特
徴データ列軌道および変換後の特徴データ列軌道それぞ
れにおいて、時間に対する特徴データの変化量を調べ、
変換前の特徴データ列軌道に対して変換後の特徴データ
列軌道の特徴データに一定以上の変化があった場合、そ
の一定以上の変化のあったフレームの変換前の特徴デー
タに近い特徴データを持ったフレームを探し、そのフレ
ームの特徴データに対する移動ベクトルを、前記一定以
上変化したフレームの変換前の特徴データの移動ベクト
ルとして用いて、変換後話者の特徴データ空間に変換
し、変換後の特徴データを得て、この特徴データと前記
変換前話者の音声データから得られる単位波形対応のパ
ルスとを基に音声合成するようにしている。これによ
り、変換後の特徴データが前後のフレームと大きくかけ
離れた値となるのを防止でき、変換後の特徴データ列軌
道が急激に変化することがなくなり、これによっても音
質の改善を図ることができる。

【０１５２】また、話者声質変換後の合成音声の品質改
善を図るための第５の手法として、変換前話者の特徴デ
ータ空間において、変換前話者が発話する変換対象音声
の特徴データに対する近傍の幾つかの特徴データとの距
離の和が基準値以上であるか否かの判定を行うととも
に、変換後話者のＬＰＣ係数空間において、変換後の特
徴データと最近傍の特徴データとの距離が基準値以上で
あるか否かの判定を行う。そして、これらの２つの判定
を行った結果、２つのうちいずれかの判定処理において
基準値以上であると判定された場合は、その処理対象の
フレームにおける変換後の特徴データとして、変換前話
者が発話した変換対象音声の同じフレームの特徴データ
を用いる。このように、この第５の手法は、音声合成す
るために望ましい変換後のＬＰＣ係数が見つからないよ
うな場合には、変換後の特徴データとして原音声の特徴
データを瞬間的にそのまま用いるようにする。これによ
り、適正でない値に変換されたＬＰＣ係数を用いて音声
合成されたときに耳障りな合成音となるのを防止するこ
とができ、音質の改善が図れる。これは子音のように、
特徴データの変動が大きい場合に特に有効となるもので
ある。

【０１５３】また、本発明は、以上の各手法を単独で用
いてもそれぞれの効果が得られるが、必要に応じて、幾
つかを任意に組み合わせるようにしてもよく、すべてを
組み合わせるようにしてもよい。このように、それぞれ
の手法を組み合わせることによって、より一層の効果が
得られる。

【０１５４】また、本発明では、変換前話者の特徴デー
タ空間および変換後話者の特徴データ空間をそれぞれコ
ードブック化して複数の領域に分割しておき、前記変換
対象音声の特徴データ近傍の特徴データを求める処理を
行う際、前記変換すべき特徴データの属する領域または
その領域に近接する領域内に存在する特徴データのみと
の間で距離計算を行うことにより、距離計算を行うため
の計算量を大幅に削減することができ、処理の高速化が
図れる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態における第１の手法
を、変換前話者（話者Ａ）のＬＰＣ係数空間と変換後話
者（話者Ｂ）のＬＰＣ係数空間を用いて説明する図。

【図２】本発明の第１の実施の形態における第２の手法
を、原波形と音声合成後の波形を用いて説明する図。

【図３】本発明の第１の実施の形態における第３の手法
を、音声合成後の単位波形対応のインパルス応答波形を
用いて説明する図。

【図４】本発明の第１の実施の形態における第４の手法
を、変換前話者（話者Ａ）のＬＰＣ係数空間と変換後話
者（話者Ｂ）のＬＰＣ係数空間におけるＬＰＣ係数列軌
道を用いて説明する図。

【図５】本発明の第１の実施の形態を実現するための装
置構成例を示すブロック図。

【図６】本発明の第２の実施の形態である計算量削減を
行うために変換前話者（話者Ａ）のＬＰＣ係数空間およ
び変換後話者（話者Ｂ）のＬＰＣ係数空間をコードブッ
ク化して領域に分割する処理を説明する図。

【図７】従来の話者声質変換処理を説明する手法を、変
換前話者（話者Ａ）のＬＰＣ係数空間と変換後話者（話
者Ｂ）のＬＰＣ係数空間を用いて説明する図。

【符号の説明】

Ａｕ話者Ａによる変換対象単語のＬＰＣ係数列ａｕ１，ａｕ２，・・・，ａｕ５話者Ａの変換対象単
語のＬＰＣ係数ｂｕ１，ｂｕ２，・・・，ｂｕ５変換対象単語の変換
後のＬＰＣ係数ｐ１，ｐ２エンベローブの凹凸部ｘ１，ｘ２，ｘ３単位は径に相当する区間Ｌａ話者Ａの変換対象単語のＬＰＣ係数列軌道Ｌｂ変換対象単語の変換後のＬＰＣ係数列軌道５１ＬＰＣ係数列軌道における局部的な軌道のずれ６１Ａ／Ｄ変換部６２分析部６３話者声質変換制御部６４音声合成部６５Ｄ／Ａ変換部６３１第１の処理プログラム記憶部６３２第２の処理プログラム記憶部６３３第３の処理プログラム記憶部６３４第４の処理プログラム記憶部６３５第５の処理プログラム記憶部６３６制御部６３７話者ＡのＬＰＣ係数記憶部６３８話者ＢのＬＰＣ係数記憶部６３９乗算部（×α）６４０

───────────────────────────────────────────────────── フロントページの続き (72)発明者宮沢康永長野県諏訪市大和３丁目３番５号セイコーエプソン株式会社内

Claims

【特許請求の範囲】

【請求項１】ある話者（変換前話者という）の音声を
他の話者（変換後話者という）の音声の声質に変換する
際に、変換前話者と変換後話者がそれぞれ発話する複数
の話者性変換用単語の音声データを所定時間のフレーム
単位で分析してそれぞれのフレームごとに特徴データを
求め、変換前話者特徴データと変換後話者の特徴データ
との対応付けを行い、その対応付けにより変換前話者の
それぞれの特徴データごとに変換後話者の対応する特徴
データに対する移動ベクトルを予め求めておき、この移
動ベクトルに基づいて変換前話者が発話する変換対象音
声を変換後話者の特徴データ空間に変換して、変換後の
特徴データを求め、その変換後の特徴データと前記変換
前話者の変換対象音声データから得られる単位波形対応
のパルス列とに基づいて音声合成を行う話者声質変換方
法において、前記変換前話者が発話する変換対象音声の特徴データ
を、前記移動ベクトルに基づいて変換後話者の特徴デー
タ空間に変換したとき、前記移動ベクトルに基づいて変
換後話者の特徴データ空間に変換された特徴データに距
離の近い変換後話者の特徴データを求め、求められた変
換後話者の特徴データを、前記変換対象音声の変換後特
徴データとして用い、その変換後特徴データと前記変換
前話者の変換対象音声データから得られる単位波形対応
のインパルス列とを基に音声合成することを特徴とする
話者声質変換方法。
【請求項２】ある話者（変換前話者という）の音声を
他の話者（変換後話者という）の音声の声質に変換する
際に、変換前話者と変換後話者がそれぞれ発話する複数
の話者性変換用単語の音声データを所定時間のフレーム
単位で分析してそれぞれのフレームごとに特徴データを
求め、変換前話者特徴データと変換後話者の特徴データ
との対応付けを行い、その対応付けにより変換前話者の
それぞれの特徴データごとに変換後話者の対応する特徴
データに対する移動ベクトルを予め求めておき、この移
動ベクトルに基づいて変換前話者が発話する変換対象音
声を変換後話者の特徴データ空間に変換して、変換後の
特徴データを求め、その変換後の特徴データと前記変換
前話者の変換対象音声データから得られる単位波形対応
のパルス列とに基づいて音声合成を行う話者声質変換方
法において、前記変換前話者が発話して得られた変換対象音声波形の
単位波形ごとの波高値と、前記変換後の特徴データと前
記変換前話者の発話した変換対象音声の分析結果から得
られる単位波形対応のパルス列とに基づいて音声合成さ
れた合成波形における単位波形ごとの波高値との比を求
め、その比により得られた係数を前記単位波形対応のパ
ルス列に乗算し、係数が乗算されたパルス列と前記変換
後の特徴データとを用いて音声合成することを特徴とす
る話者声質変換方法。
【請求項３】前記変換対象音声に対する変換後の特徴
データとして、変換前話者が発話する変換対象音声の特
徴データを、前記移動ベクトルに基づいて変換後話者の
特徴データ空間に変換したとき、前記移動ベクトルに基
づいて変換後話者の特徴データ空間に変換された特徴デ
ータに距離の近い変換後話者の特徴データを求め、求め
られた変換後話者の特徴データを用いることを特徴とす
る請求項２記載の話者声質変換方法。
【請求項４】ある話者（変換前話者という）の音声を
他の話者（変換後話者という）の音声の声質に変換する
際に、変換前話者と変換後話者がそれぞれ発話する複数
の話者性変換用単語の音声データを所定時間のフレーム
単位で分析してそれぞれのフレームごとに特徴データを
求め、変換前話者特徴データと変換後話者の特徴データ
との対応付けを行い、その対応付けにより変換前話者の
それぞれの特徴データごとに変換後話者の対応する特徴
データに対する移動ベクトルを予め求めておき、この移
動ベクトルに基づいて変換前話者が発話する変換対象音
声を変換後話者の特徴データ空間に変換して、変換後の
特徴データを求め、その変換後の特徴データと前記変換
前話者の変換対象音声データから得られる単位波形対応
のパルス列とに基づいて音声合成を行う話者声質変換方
法において、前記変換前話者が発話した変換対象音声波形の或るフレ
ームにおける単位波形対応のインパルス応答波形と、音
声合成後の合成波形の前記或るフレームと同一フレーム
の単位波形対応のインパルス応答波形とを比較し、連続
する数個のフレームに対応するそれぞれのインパルス応
答波形の時間に対する変化量が一定以上の差を有する場
合は、変換対象音声波形のインパルス応答波形の特に大
きく変化するフレームの特徴データとして、当該フレー
ムの前または後のフレームにおける変換後の特徴データ
を用い、この特徴データと前記変換前話者の変換対象音
声データから得られる単位波形対応のパルス列とを基に
音声合成することを特徴とする話者声質変換方法。
【請求項５】前記変換対象音声に対する変換後の特徴
データとして、変換前話者が発話する変換対象音声の特
徴データを、前記移動ベクトルに基づいて変換後話者の
特徴データ空間に変換したとき、前記移動ベクトルに基
づいて変換後話者の特徴データ空間に変換された特徴デ
ータに距離の近い変換後話者の特徴データを求め、求め
られた変換後話者の特徴データを用いることを特徴とす
る請求項４記載の話者声質変換方法。
【請求項６】前記変換前話者が発話して得られた変換
対象音声波形の単位波形ごとの波高値と、前記変換後の
特徴データと前記変換前話者の発話する変換対象音声の
音声分析結果から得られる単位波形対応のパルス列とに
基づいて音声合成された合成波形における単位波形ごと
の波高値との比を求め、その比により得られた係数を前
記単位波形対応のパルス列に乗算し、係数が乗算された
パルス列と前記変換後の特徴データとを用いて音声合成
することを特徴とする請求項４または５記載の話者声質
変換方法。
【請求項７】ある話者（変換前話者という）の音声を
他の話者（変換後話者という）の音声の声質に変換する
際に、変換前話者と変換後話者がそれぞれ発話する複数
の話者性変換用単語の音声データを所定時間のフレーム
単位で分析してそれぞれのフレームごとに特徴データを
求め、変換前話者特徴データと変換後話者の特徴データ
との対応付けを行い、その対応付けにより変換前話者の
それぞれの特徴データごとに変換後話者の対応する特徴
データに対する移動ベクトルを予め求めておき、この移
動ベクトルに基づいて変換前話者が発話する変換対象音
声を変換後話者の特徴データ空間に変換して、変換後の
特徴データを求め、その変換後の特徴データと前記変換
前話者の変換対象音声データから得られる単位波形対応
のパルス列とに基づいて音声合成を行う話者声質変換方
法において、変換前話者が発話した変換対象音声から得られるフレー
ムごとの特徴データで構成される特徴データ列軌道と、
各特徴データを前記移動ベクトルにより変換後話者の特
徴データ空間に変換したときの特徴データ列軌道とを比
較し、変換前の特徴データ列軌道および変換後の特徴デ
ータ列軌道それぞれにおいて、時間に対する特徴データ
の変化量を調べ、変換前の特徴データ列軌道に対して変
換後の特徴データ列軌道の或るフレームに対応する特徴
データに一定以上の変化があった場合、その一定以上の変化のあったフレームの変換前の特徴デ
ータに近い特徴データを持ったフレームを変換前のフレ
ーム列の中から探し、そのフレームの特徴データに対す
る移動ベクトルを、前記一定以上変化したフレームの変
換前の特徴データの移動ベクトルとして用いて、変換後
話者の特徴データ空間に変換し、変換後の特徴データを
得て、この特徴データと前記変換前話者の変換対象音声
データから得られる単位波形対応のパルス列とを基に音
声合成することをすることを特徴とする話者声質変換方
法。
【請求項８】前記変換対象音声に対する変換後の特徴
データとして、変換前話者が発話する変換対象音声の特
徴データを、前記移動ベクトルに基づいて変換後話者の
特徴データ空間に変換したとき、前記移動ベクトルに基
づいて変換後話者の特徴データ空間に変換された特徴デ
ータに距離の近い変換後話者の特徴データを求め、求め
られた変換後話者の特徴データを用いることを特徴とす
る請求項７記載の話者声質変換方法。
【請求項９】前記変換前話者が発話して得られた変換
対象音声波形の単位波形ごとの波高値と、前記変換後の
特徴データと前記変換前話者の発話した変換対象音声の
分析結果から得られる単位波形対応のパルス列とに基づ
いて音声合成された合成波形における単位波形ごとの波
高値との比を求め、その比により得られた係数を前記単
位波形対応のパルス列に乗算し、係数が乗算されたパル
ス列と前記変換後の特徴データとを用いて音声合成する
ことを特徴とする請求項７または８記載の話者声質変換
方法。
【請求項１０】前記変換前話者が発話した変換対象音
声波形の或るフレームにおける単位波形対応のインパル
ス応答波形と、音声合成後の合成波形の前記或るフレー
ムと同一フレームの単位波形対応のインパルス応答波形
とを比較し、連続する数個のフレームに対応するそれぞ
れのインパルス応答波形の時間に対する変化量が一定以
上の差を有する場合は、変換対象音声波形のインパルス
応答波形の特に大きく変化するフレームの特徴データと
して、当該フレームの前または後のフレームにおける変
換後の特徴データを用い、この特徴データ列と前記変換
前話者の変換対象音声データから得られる単位波形対応
のパルス列とを基に音声合成することを特徴とする請求
項７〜９のいずれかに記載の話者声質変換方法。
【請求項１１】ある話者（変換前話者という）の音声
を他の話者（変換後話者という）の音声の声質に変換す
る際に、変換前話者と変換後話者がそれぞれ発話する複
数の話者性変換用単語の音声データを所定時間のフレー
ム単位で分析してそれぞれのフレームごとに特徴データ
を求め、変換前話者特徴データと変換後話者の特徴デー
タとの対応付けを行い、その対応付けにより変換前話者
のそれぞれの特徴データごとに変換後話者の対応する特
徴データに対する移動ベクトルを予め求めておき、この
移動ベクトルに基づいて変換前話者が発話する変換対象
音声を変換後話者の特徴データ空間に変換して、変換後
の特徴データを求め、その変換後の特徴データと前記変
換前話者の変換対象音声データから得られる単位波形対
応のパルス列とに基づいて音声合成を行う話者声質変換
方法において、前記移動ベクトルに基づいて変換前話者が発話する変換
対象音声データを変換後話者の特徴データ空間に変換す
る処理を行う際、変換前話者の特徴データ空間にて、変
換前話者が発話する変換対象音声データの或るフレーム
における特徴データの近傍の特徴データを探し、その近
傍の特徴データに対する移動ベクトルを用いて変換対象
特徴データを変換後話者の特徴データ空間に変換する場
合、近傍の特徴データまでの距離が予め定めた基準値以
上か否かを判断し、その距離が基準値以上の場合は、変
換前の前記変換対象特徴データを変換後の特徴データと
して用いることを特徴とする話者声質変換方法。
【請求項１２】前記変換対象音声に対する変換後の特
徴データとして、変換前話者が発話する変換対象音声の
特徴データを、前記移動ベクトルに基づいて変換後話者
の特徴データ空間に変換したとき、前記移動ベクトルに
基づいて変換後話者の特徴データ空間に変換された特徴
データに距離の近い変換後話者の特徴データを求め、求
められた変換後話者の特徴データを用いることを特徴と
する請求項１１記載の話者声質変換方法。
【請求項１３】前記変換前話者が発話して得られた変
換対象音声波形の単位波形ごとの波高値と、前記変換後
の特徴データと前記変換前話者の発話する変換対象音声
の分析結果から得られる単位波形対応のパルス列とに基
づいて音声合成された合成波形における単位波形ごとの
波高値との比を求め、その比により得られた係数を前記
単位波形対応のパルス列に乗算し、係数が乗算されたパ
ルス列と前記変換後の特徴データとを用いて音声合成す
ることを特徴とする請求項１１または１２記載の話者声
質変換方法。
【請求項１４】前記変換前話者が発話した変換対象音
声波形の或るフレームにおける単位波形対応のインパル
ス応答波形と、音声合成後の合成波形の前記或るフレー
ムと同一フレームの単位波形対応のインパルス応答波形
とを比較し、連続する数個のフレームに対応するそれぞ
れのインパルス応答波形の時間に対する変化量が一定以
上の差を有する場合は、変換対象音声波形のインパルス
応答波形の特に大きく変化するフレームの特徴データと
して、当該フレームの前または後のフレームにおける変
換後の特徴データを用い、この特徴データと前記変換前
話者の発話する変換対象音声データから得られる単位波
形対応のパルス列とを基に音声合成することを特徴とす
る請求項１１〜１３のいずれかに記載の話者声質変換方
法。
【請求項１５】前記変換前話者が発話した変換対象音
声から得られるフレームごとの特徴データで構成される
特徴データ列軌道と、各特徴データを前記移動ベクトル
により変換後話者の特徴データ空間に変換したときの特
徴データ列軌道とを比較し、変換前の特徴データ列軌道
および変換後の特徴データ列軌道それぞれにおいて、時
間に対する特徴データの変化量を調べ、変換前の特徴デ
ータ列軌道に対して変換後の特徴データ列軌道の或るフ
レームに対応する特徴データに一定以上の変化があった
場合、その一定以上の変化のあったフレームの変換前の特徴デ
ータに近い特徴データを持ったフレームを変換前のフレ
ーム列の中から探し、そのフレームの特徴データに対す
る移動ベクトルを、前記一定以上変化したフレームの変
換前の特徴データの移動ベクトルとして用いて、変換後
話者の特徴データ空間に変換し、変換後の特徴データを
得て、この特徴データと前記変換前話者の発話する変換
対象音声データから得られる単位波形対応のパルス列と
を基に音声合成することをすることを特徴とする請求項
１１〜１４のいずれかに記載の話者声質変換方法。
【請求項１６】ある話者（変換前話者という）の音声
を他の話者（変換後話者という）の音声の声質に変換す
る際に、変換前話者と変換後話者がそれぞれ発話する複
数の話者性変換用単語の音声データを所定時間のフレー
ム単位で分析してそれぞれのフレームごとに特徴データ
を求め、変換前話者特徴データと変換後話者の特徴デー
タとの対応付けを行い、その対応付けにより変換前話者
のそれぞれの特徴データごとに変換後話者の対応する特
徴データに対する移動ベクトルを予め求めておき、この
移動ベクトルに基づいて変換前話者が発話する変換対象
音声を変換後話者の特徴データ空間に変換して、変換後
の特徴データを求め、その変換後の特徴データと前記変
換前話者の変換対象音声データから得られる単位波形対
応のパルス列とに基づいて音声合成を行う話者声質変換
方法において、前記変換前話者が発話する変換対象単語の特徴データ
を、前記移動ベクトルに基づいて変換後話者の特徴デー
タ空間に変換したとき、その変換された特徴データに距
離の近い変換後話者の特徴データを求め、求められた変
換後話者の特徴データを、変換後の特徴データとして用
いる場合、前記距離が予め定めた基準値以上か否かを判
断し、距離が基準値以上の場合は、変換前の前記特徴デ
ータを変換後の特徴データとして用いることを特徴とす
る話者声質変換方法。
【請求項１７】前記変換前話者が発話して得られた変
換対象音声波形の単位波形ごとの波高値と、前記変換後
の特徴データと前記変換前話者が発話した変換対象音声
の分析結果から得られる単位波形対応のパルス列とに基
づいて音声合成された合成波形における単位波形ごとの
波高値との比を求め、その比により得られた係数を前記
単位波形対応のパルス列に乗算し、係数が乗算されたパ
ルス列と前記変換後の特徴データとを用いて音声合成す
ることを特徴とする請求項１６記載の話者声質変換方
法。
【請求項１８】前記変換前話者が発話した変換対象音
声波形の或るフレームにおける単位波形対応のインパル
ス応答波形と、音声合成後の合成波形の前記或るフレー
ムと同一フレームの単位波形対応のインパルス応答波形
とを比較し、連続する数個のフレームに対応するそれぞ
れのインパルス応答波形の時間に対する変化量が一定以
上の差を有する場合は、変換対象音声波形のインパルス
応答波形の特に大きく変化するフレームの特徴データと
して、当該フレームの前または後のフレームにおける変
換後の特徴データを用い、この特徴データと前記変換前
話者の変換対象音声データから得られる単位波形対応の
パルス列とを基に音声合成することを特徴とする請求項
１６または１７のいずれかに記載の話者声質変換方法。
【請求項１９】前記変換前話者が発話した変換対象音
声から得られるフレームごとの特徴データで構成される
特徴データ列軌道と、各特徴データを前記移動ベクトル
により変換後話者の特徴データ空間に変換したときの特
徴データ列軌道とを比較し、変換前の特徴データ列軌道
および変換後の特徴データ列軌道それぞれにおいて、時
間に対する特徴データの変化量を調べ、変換前の特徴デ
ータ列軌道に対して変換後の特徴データ列軌道の或るフ
レームに対応する特徴データに一定以上の変化があった
場合、その一定以上の変化のあったフレームの変換前の特徴デ
ータに近い特徴データを持ったフレームを変換前のフレ
ーム列の中から探し、そのフレームの特徴データに対す
る移動ベクトルを、前記一定以上変化したフレームの変
換前の特徴データの移動ベクトルとして用いて、変換後
話者の特徴データ空間に変換し、変換後の特徴データを
得て、この特徴データと前記変換前話者の変換対象音声
データから得られる単位波形対応のパルス列とを基に音
声合成することをすることを特徴とする請求項１６〜１
８のいずれかに記載の話者声質変換方法。
【請求項２０】ある話者（変換前話者という）の音声
を他の話者（変換後話者という）の音声の声質に変換す
る際に、変換前話者と変換後話者がそれぞれ発話する複
数の話者性変換用単語の音声データを所定時間のフレー
ム単位で分析してそれぞれのフレームごとに特徴データ
を求め、変換前話者特徴データと変換後話者の特徴デー
タとの対応付けを行い、その対応付けにより変換前話者
のそれぞれの特徴データごとに変換後話者の対応する特
徴データに対する移動ベクトルを予め求めておき、この
移動ベクトルに基づいて変換前話者が発話する変換対象
音声を変換後話者の特徴データ空間に変換して、変換後
の特徴データを求め、その変換後の特徴データと前記変
換前話者の変換対象音声データから得られる単位波形対
応のパルス列とに基づいて音声合成を行う話者声質変換
方法において、前記変換前話者の特徴データ空間にて、変換前話者が発
話して得られた変換対象音声データの或るフレームにお
ける特徴データの近傍の特徴データを探し、その近傍の
特徴データの移動ベクトルを用いて前記変換対象音声の
特徴データを変換後話者の特徴データ空間に変換する際
の近傍の特徴データを求める処理、または、前記変換前
話者が発話して得られた変換対象音声の特徴データを、
前記移動ベクトルに基づいて変換後話者の特徴データ空
間に変換したとき、その特徴データの近傍の変換後話者
の特徴データを求める処理を行う場合、前記変換前話者の特徴データ空間および変換後話者の特
徴データ空間をそれぞれコードブック化して複数の領域
に分割しておき、前記変換対象音声の特徴データ近傍の
特徴データを求める際、前記変換対象特徴データの属す
る領域またはその領域に近接する領域内に存在する特徴
データのみとの間で距離計算を行うことを特徴とする話
者声質変換方法。
【請求項２１】ある話者（変換前話者という）の音声
を他の話者（変換後話者という）の音声の声質に変換す
る際に、変換前話者と変換後話者がそれぞれ発話する複
数の話者性変換用単語の音声データを所定時間のフレー
ム単位で分析してそれぞれのフレームごとに特徴データ
を求め、変換前話者特徴データと変換後話者の特徴デー
タとの対応付けを行い、その対応付けにより変換前話者
のそれぞれの特徴データごとに変換後話者の対応する特
徴データに対する移動ベクトルを予め求めておき、この
移動ベクトルに基づいて変換前話者が発話する変換対象
音声を変換後話者の特徴データ空間に変換して、変換後
の特徴データを求め、その変換後の特徴データと前記変
換前話者の変換対象音声データから得られる単位波形対
応のパルス列とに基づいて音声合成を行う話者声質変換
装置において、前記変換対象音声データを所定時間のフレーム単位で分
析してそれぞれのフレームごとに話者声質変換用特徴デ
ータと単位波形対応のパルスを出力する分析部と、前記変換前話者が複数の話者声質変換用音声を発話する
ことにより得られたそれぞれの音声データを構成する各
フレームごとの特徴データを記憶する変換前話者特徴デ
ータ記憶部と、前記変換後話者が複数の話者声質変換用音声を発話する
ことにより得られたそれぞれの音声データを構成する各
フレームごとの特徴データを記憶する変換後話者特徴デ
ータ記憶部と、話者声質変換による合成音の品質改善を行うための処理
プログラムが格納される処理プログラム記憶部と、話者声質変換の全般的な処理および前記処理プログラム
記憶部に格納された内容に基づく処理を行う制御部と、この制御部から出力される変換後の特徴データと、前記
分析部から出力される変換前話者の発話する変換対象音
声データから得られた単位波形対応のパルスとを基に音
声合成する音声合成部と、を少なくとも有することを特徴とする話者声質変換装
置。
【請求項２２】前記予め設定されたプログラムに従っ
て制御部が行う処理は、前記分析部から出力される変換
前話者が発話して得られた変換対象音声の特徴データ
を、前記移動ベクトルに基づいて変換後話者の特徴デー
タ空間に変換する際、前記移動ベクトルに基づいて変換
後話者の特徴データ空間に変換された特徴データに距離
の近い変換後話者の特徴データを求め、求められた変換
後話者の特徴データを変換後の特徴データとして前記音
声合成部に出力することを特徴とする請求項２１記載の
話者声質変換装置。
【請求項２３】前記予め設定されたプログラムに従っ
て制御部が行う処理は、変換対象音声に対する変換後の
特徴データとして、前記変換前話者が発話して得られた
変換対象音声波形の単位波形ごとの波高値と、前記変換
後の特徴データと前記変換前話者の発話する変換対象音
声の分析結果から得られる単位波形対応のパルス列とに
基づいて音声合成された合成波形における単位波形ごと
の波高値との比を求め、その比により得られた係数を前
記単位波形対応のパルス列に乗算し、係数が乗算された
パルス列と前記変換後の特徴データとを前記音声合成部
に出力することを特徴とする請求項２１または２２記載
の話者声質変換装置。
【請求項２４】前記予め設定されたプログラムに従っ
て制御部が行う処理は、前記変換前話者が発話した変換
対象音声波形の或るフレームにおける単位波形対応のイ
ンパルス応答波形と、音声合成後の合成波形の前記或る
フレームと同一フレームの単位波形対応のインパルス応
答波形とを比較し、連続する数個のフレームに対応する
それぞれのインパルス応答波形の時間に対する変化量が
一定以上の差を有する場合は、変換対象音声波形のイン
パルス応答波形の特に大きく変化するフレームの特徴デ
ータとして、当該フレームの前または後のフレームにお
ける変換後の特徴データを用い、この特徴データを前記
音声合成部に出力することを特徴とする請求項２１〜２
３のいずれかに記載の話者声質変換装置。
【請求項２５】前記予め設定されたプログラムに従っ
て制御部が行う処理は、前記変換前話者が発話した変換
対象音声から得られるフレームごとの特徴データで構成
される特徴データ列軌道と、各特徴データを前記移動ベ
クトルにより変換後話者の特徴データ空間に変換したと
きの特徴データ列軌道とを比較し、変換前の特徴データ
列軌道および変換後の特徴データ列軌道それぞれにおい
て、時間に対する特徴データの変化量を調べ、変換前の
特徴データ列軌道に対して変換後の特徴データ列軌道の
或るフレームに対応する特徴データに一定以上の変化が
あった場合、その一定以上の変化のあったフレームの変
換前の特徴データに近い特徴データを持ったフレームを
変換前のフレーム列の中から探し、そのフレームの特徴
データに対する移動ベクトルを、前記一定以上変化した
フレームの変換前の特徴データの移動ベクトルとして用
いて、変換後話者の特徴データ空間に変換し、変換後の
特徴データを得て、この特徴データを前記音声合成部に
出力することを特徴とする請求項２１〜２４のいずれか
に記載の話者声質変換装置。
【請求項２６】前記予め設定されたプログラムに従っ
て制御部が行う処理は、前記移動ベクトルに基づいて変
換前話者が発話する変換対象音声データを変換後話者の
特徴データ空間に変換する処理を行う際、変換前話者の
特徴データ空間にて、変換前話者が発話する音声データ
の或るフレームにおける特徴データの近傍の特徴データ
を探し、その近傍の特徴データに対する移動ベクトルを
用いて変換すべき特徴データを変換後話者の特徴データ
空間に変換する場合、近傍の特徴データまでの距離が予
め定めた基準値以上か否かを判断し、その距離が基準値
以上の場合は、変換前の前記変換すべき特徴データを変
換後の特徴データとして用い、その特徴データを前記音
声合成部に出力することを特徴とする請求項２１〜２５
のいずれかに記載の話者声質変換装置。
【請求項２７】前記予め設定されたプログラムに従っ
て制御部が行う処理は、前記変換前話者が発話する変換
対象単語の特徴データを、前記移動ベクトルに基づいて
変換後話者の特徴データ空間に変換したとき、その変換
された特徴データに距離の近い変換後話者の特徴データ
を求め、求められた変換後話者の特徴データを、変換後
の特徴データとして用いる場合、前記距離が予め定めた
基準値以上か否かを判断し、距離が基準値以上の場合
は、変換前の前記特徴データを変換後の特徴データとし
て用い、その特徴データを前記音声合成部に出力するこ
とを特徴とする請求項２２〜２６のいずれかに記載の話
者声質変換装置。
【請求項２８】ある話者（変換前話者という）の音声
を他の話者（変換後話者という）の音声の声質に変換す
る際に、変換前話者と変換後話者がそれぞれ発話する複
数の話者性変換用単語の音声データを所定時間のフレー
ム単位で分析してそれぞれのフレームごとに特徴データ
を求め、変換前話者特徴データと変換後話者の特徴デー
タとの対応付けを行い、その対応付けにより変換前話者
のそれぞれの特徴データごとに変換後話者の対応する特
徴データに対する移動ベクトルを予め求めておき、この
移動ベクトルに基づいて変換前話者が発話する変換対象
音声を変換後話者の特徴データ空間に変換して、変換後
の特徴データを求め、その変換後の特徴データと前記変
換前話者の変換対象音声データから得られる単位波形対
応のパルス列とに基づいて音声合成を行う話者声質変換
装置において、前記変換対象音声データを所定時間のフレーム単位で分
析してそれぞれのフレームごとに話者声質変換用特徴デ
ータと単位波形対応のパルスを出力する分析部と、前記変換前話者が複数の話者声質変換用音声を発話する
ことにより得られたそれぞれの音声データを構成する各
フレームごとの特徴データを記憶する変換前話者特徴デ
ータ記憶部と、前記変換後話者が複数の話者声質変換用音声を発話する
ことにより得られたそれぞれの音声データを構成する各
フレームごとの特徴データを記憶する変換後話者特徴デ
ータ記憶部と、話者声質変換による合成音の品質改善を行うための処理
プログラムが格納される処理プログラム記憶部と、話者声質変換の全般的な処理および前記処理プログラム
記憶部に格納された内容に基づく処理を行う制御部と、この制御部から出力される変換後の特徴データと、前記
分析部から出力される変換前話者の変換対象音声データ
から得られた単位波形対応のパルスとを基に音声合成す
る音声合成部と、を少なくとも有し、前記制御部が、前記変換前話者特徴データ記憶部に記憶
されている変換前話者の特徴データ空間にて、変換前話
者が発話して得られた変換対象音声データの或るフレー
ムにおける特徴データの近傍の特徴データを探し、その
近傍の特徴データの移動ベクトルを用いて前記変換対象
音声の特徴データを変換後話者の特徴データ空間に変換
する際の近傍の特徴データを求める処理、または、前記
変換前話者が発話して得られた変換対象音声の特徴デー
タを、前記移動ベクトルに基づいて変換後話者の特徴デ
ータ空間に変換したとき、その特徴データの近傍の変換
後話者の特徴データを求める処理を行う場合、前記変換前話者の特徴データ空間および変換後話者の特
徴データ空間をそれぞれコードブック化して複数の領域
に分割しておき、前記変換対象音声の特徴データ近傍の
特徴データを求める処理を行う際、前記変換対象特徴デ
ータの属する領域またはその領域に近接する領域内に存
在する特徴データのみとの間で距離計算を行うことを特
徴とする話者声質変換装置。