JP2709926B2

JP2709926B2 - 声質変換方法

Info

Publication number: JP2709926B2
Application number: JP62255498A
Authority: JP
Inventors: 匡伸阿部; 清宏鹿野; 哲中村; 尚夫桑原
Original assignee: 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date: 1987-10-09
Filing date: 1987-10-09
Publication date: 1998-02-04
Anticipated expiration: 2013-02-04
Also published as: JPH0197997A

Description

【発明の詳細な説明】［産業上の利用分野］この発明は声質変換方法に関し、特に、ベクトル量子
化を用いた声質変換に関するものであり、規則合成シス
テムの多様化を可能とするような声質変換方法に関す
る。［従来の技術および発明が解決しようとする問題点］人間の声は個々の個人によってのみ発声されるもので
あり、個人性を有している。音声における個人性は、音
声のスペクトル，パワー，ピッチ周波数などに混在一体
となって含まれている。しかしながら、従来の技術で
は、これらのパラメータのうち、ごく一部のもの、たと
えばスペクトルパラメータの中のホルマント周波数や、
スペクトル全体の傾きなどを制御し、声質を変換してい
た。これらの技術では、大雑把な声質変換（たとえば男
女声変換）しかできない。また、大雑把な声質変換を行
なうにしても、声質を特徴づけるパラメータの変換規則
の求め方は確立されておらず、試行錯誤の繰返しによっ
て行なうヒューリステツイクな手順を必要とするという
問題点があった。それゆえに、この発明の主たる目的は、ベクトル量子
化を用いて個人のスペクトル空間を表現し、この空間の
対応づけにより声質の変換を行なうことのできるような
声質変換方法を提供することである。［問題点を解決するための手段］この発明は音声をディジタル化し、ディジタル信号処
理を行なってパラメータ値を抽出し、このパラメータ値
を変化させて音声の声質変換を行なう声質変換方法にお
いて、基準話者とターゲット話者のそれぞれの音声のパ
ワー，ピッチ周波数およびスペクトルの３種類のうちの
少なくとも１つについてセパレートベクトル量子化を行
なってコードブックを生成し、基準話者とターゲット話
者の両者間のコードブックのベクトルの対応をとるため
にDPマッチングの対応づけによるヒストグラムを作成
し、パワーおよびスペクトルに対してヒストグラムを重
みとしたターゲット話者の特徴ベクトルの線形結合で基
準話者の特徴ベクトルを置換え、基準話者と標準話者と
を対応づけして声質の変換を行なうようにしたものであ
る。請求項２に係る発明では、請求項１のヒストグラムを
用いて対応づけを求める際に、ピッチ周波数に対して、
ヒストグラムが最大となるターゲット話者の特徴ベクト
ルをそれに対応する基準話者の特徴ベクトルで置換える
ことにより、声質変換を行なう。［作用］この発明に係る声質変換方法はベクトル量子化が音声
スペクトルを効率よく表現できる手法であることに鑑
み、基準話者とターゲット話者のそれぞれの音声のパワ
ー，ピッチ周波数およびスペクトルの３種類のうちの少
なくとも１つについてセパレートベクトル量子化を行な
ってコードブックを生成し、基準話者とターゲット話者
の両者間のコードブックのベクトルの対応をとるために
DPマッチングの対応づけによるヒストグラムを作成し、
パワーおよびスペクトルに対してヒストグラムを重みと
したターゲット話者の特徴ベクトルの線形結合で基準話
者の特徴ベクトルを置換え、基準話者と標準話者とを対
応づけして声質の変換を行なう。［発明の実施例］第１図はこの発明が適用される声質変換装置の概略ブ
ロック図である。第１図において、声質変換装置はアンプ１とローパス
フィルタ２とA/D変換器３と処理装置４とから構成され
る。アンプ１は入力された音声信号を増幅するものであ
り、ローパスフィルタ２は増幅された音声信号から折返
し雑音を除去するものである。A/D変換器３は音声信号
を12kHzのサンプリング信号により、16ビットのディジ
タル信号に変換するものである。処理装置４はコンピュ
ータ５と磁気ディスク６と端末類７とプリンタ８とを含
む。コンピュータ５はA/D変換器３から入力された音声
のディジタル信号に基づいて、後述の第２図ないし第５
図に示した手法を用いて声質変換を行なうものである。第２図ないし第５図はこの発明の一実施例の音声の入
力から声質変換された音声を出力するまでの全体の流れ
を示すフロー図であり、特に、第２図はセパレートコー
ドブックの作成手順を示し、第３図および第４図は変換
コードブックの作成手順を示し、第５図は声質変換合成
手順について示す。次に、第１図ないし第５図を参照して、この発明の一
実施例の具体的な動作について説明する。この実施例に
おける声質変換方法は、セパレートコードブックの作成
と変換コードブックの作成と声質変換合成の３つのステ
ップからなっている。まず、第２図を参照して、セパレートコードブックの
作成手順について説明する。音声に含まれる個人性は、
パワー，ピッチ周波数およびスペクトルに含まれてお
り、声質変換を行なうためには、これらのパラメータを
適切に制御しなければならない。そこで、個人性をうま
く表現するために、これらのパラメータ別にクラスタリ
ングを行なってコードブックを作成する。まず、入力さ
れた音声はアンプ１で増幅され、ローパスフィルタ２に
よって折返し雑音が除去された後、ステップ101におい
て、A/D変換器３によってディジタル信号に変換され
る。その後、ステップ102において、LPC分析が施され、パ
ワー，ピッチ周波数およびスペクトル情報（自己相関係
数,LPCケプストラム係数）の３種のパラメータが得られ
る。これらのパラメータを充分多く収集した後に、ステ
ップ103,104および105においてクラスタリングを行な
う。クラスタリングは、LBGアルゴリズムで行なわれる
が、この際使用される距離尺度は、下記の式で示すごと
く、パワーについては第（１）式，ピッチ周波数につい
ては第（２）式，スペクトル情報については第（３）式
のWLR尺度を用いる。 Dpower＝P/P′＋Ｐ′/P−２ …（１） Dpitch＝ｆ−ｆ′ …（２） Dspectrum＝Σ［｛Ｃ（ｎ）−Ｃ′（ｎ）｝ ×｛Ｒ（ｎ）−Ｒ′（ｎ）｝］ …（３）ここで、Ｐは話者Ａのパワーであり、Ｐ′は話者Ｂの
パワーであり、ｆは話者Ａのピッチ周波数であり、ｆ′
は話者Ｂのピッチ周波数であり、Ｃは話者Ａのケプスト
ラム係数であり、Ｃ′は話者Ｂのケプストラム係数であ
り、Ｒは話者Ａの自己相関係数であり、Ｒ′は話者Ｂの
自己相関係数である。なお、上述のLBGアルゴリズムについては、Linde,Buz
o,Gray;“An algorithm for Vector Quantization
Design"IEEE COM−28（1980−01）に詳細に記載され
ている。また、WLR尺度は、音声の特徴を協調する尺度
であり、単語音声の認識において高い性能を示すもので
あり、杉山，鹿野による“ピークに重みをおいてLPCス
ペクトルマッチング尺度”電子通信学界論文（Ａ）J64
−A5（1981−05）に記載されている。上述の第（１）式ないし（３）式に基づいて、ステッ
プ106のパワーコードブック，ステップ107のピッチ周波
数のコードブックおよびステップ108のスペクトル情報
のコードブックが求まる。次に、第３図および第４図を参照して、変換コードブ
ックの作成手順について説明する。変換コードブックの
作成は、話者Ａおよび話者Ｂが発声した学習用の単語セ
ットを用いて行なう。話者Ａの音声は、ステップ201に
おいて、前述の第２図に示したセパレートコードブック
の作成手順に従って求めたセパレートコードブックを用
いて、パワー，ピッチ周波数およびスペクトル別にセパ
レート量子化される。次に、量子化された符号を用い
て、ステップ202において、話者Ａから話者Ｂへの変換
コードブックＢ′を作成する。この作成手順について
は、後で説明する。ステップ203においては、コードブ
ックＢ′をコードブックＡと入替えることによって、話
者Ｂへの変換を行なう。ステップ205では、コードブッ
クＢ′で表現された特徴量とコードブックＢで表現され
た特徴量とが比較される。ステップ204において、比較
結果が或るしきい値を超えていることを判別すると、ス
テップ206において、変換コードブックＢ′が完成した
ものとし、ステップ205においてしきい値に達していな
いことを判別すると、再びステップ202に戻り、上述の
動作を繰返し行なう。次に、第４図を参照して、変換コードブックＢ′を求
める手順について説明する。まず、ステップ301および3
02において、話者Ａおよび話者Ｂのそれぞれの音声にLP
C分析を施し、パワー，ピッチ周波数およびスペクトル
パラメータを求める。次に、ステップ303および304にお
いて、スペクトルパラメータをベクトル量子化し、ステ
ップ305および306でパワーをスカラー量子化し、ステッ
プ307および308においてピッチ周波数をスカラー量子化
する。話者Ａおよび話者Ｂの発声した音声の時間対応をとる
ために、スペクトルパラメータを用いて、ステップ309
においてDouble Split法によるDPマッチングを行な
う。ここで得られた時間対応の情報をもとにして、ステ
ップ310,311および312において、各特徴量について話者
Ａと話者Ｂの対応関係を求め、ヒストグラムを作成す
る。スペクトルパラメータおよびパワーの変換コードブ
ックは、このヒストグラムを重みとした話者Ｂの特徴ベ
クトルの線形結合で求める。また、ピッチ周波数の変換
コードブックは、このヒストグラムの最大値を与える話
者Ｂの特徴ベクトルで作成する。次に、第５図を参照して、コードブックを用いた声質
合成変換方法について説明する。話者Ａの音声は、ステ
ップ401においてLPC分析され、パワー，ピッチ周波数お
よびスペクトルパラメータが抽出される。次に、前述の第２図で求めた話者Ａのセパレートコー
ドブックを用いて、ステップ402においてスペクトルパ
ラメータがベクトル量子化され、ステップ403において
パワーがスカラー量子化され、ステップ404においてピ
ッチ周波数がスカラー量子化される。これらの量子化さ
れたパラメータを復号化する過程において、前述の第３
図で説明した変換コードブックが使用される。すなわ
ち、ステップ405において、話者Ａから話者Ｂへのスペ
クトル変換コードブックを用い、ステップ406におい
て、パワー変換コードブックを用い、ステップ407では
ピッチ周波数変換コードブックを用いる。そして、変換
された各パラメータを用いてステップ408において構成
される。［発明の効果］以上のように、この発明によれば、基準話者とターゲ
ット話者のそれぞれの音声のパワー，ピッチ周波数およ
びスペクトルの３種類のうちの少なくとも１つについて
セパレートベクトル量子化を行なってコードブックを生
成し、基準話者とターゲット話者の両者間のコードブッ
クのベクトルの対応をとるためにDPマッチングの対応づ
けによるヒストグラムを作成し、パワーおよびスペクト
ルに対してヒストグラムを重みとしたターゲット話者の
特徴ベクトルの線形結合で基準話者の特徴ベクトルを置
換え、基準話者と標準話者とを対応づけして声質の変換
を行なうようにしたので、スペクトル情報全体の特徴を
うまく制御することができ、スペクトルの情報の一部の
みを制御する従来の方法に比べて、詳細な声質変換が可
能となる。しかも、音声に含まれる個人性を各個人ごと
のコードブックによって表現するようにしたが、このコ
ードブックの作成アルゴリズムは既に確立されており、
不特定多数の音声の個人性を得ることが容易となる。さ
らに、個人のコードブックが作成されれば、この発明に
よるアルゴリズムに従って容易に声質変換が可能とな
る。

【図面の簡単な説明】第１図はこの発明が適用される声質変換装置の概略ブロ
ック図である。第２図はセパレートコードブックの作成
手順を示すフロー図である。第３図および第４図は変換
コードブックの作成手順を示すフロー図である。第５図
は性質変換合成手順を説明するためのフロー図である。図において、１はアンプ、２はローパスフィルタ、３は
A/D変換器、４は処理装置、５はコンピュータを示す。

───────────────────────────────────────────────────── フロントページの続き (72)発明者中村哲京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール自動翻訳電話研究所内 (72)発明者桑原尚夫京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール自動翻訳電話研究所内 (56)参考文献特開昭61−166600（ＪＰ，Ａ) 特開昭61−261799（ＪＰ，Ａ) 特開昭59−101700（ＪＰ，Ａ) 特公昭56−51637（ＪＰ，Ｂ２)

Claims

(57)【特許請求の範囲】１．音声をディジタル化し、ディジタル信号処理を行な
ってパラメータ値を抽出し、このパラメータ値を変化さ
せて音声の声質変換を行なう声質変換方法において、基準話者とターゲット話者のそれぞれの音声のパワー，
ピッチ周波数およびスペクトルの３種類のうちの少なく
とも１つに対してセパレートベクトル量子化を行なって
コードブックを生成し、前記基準話者とターゲット話者の両者間のコードブック
のベクトルの対応をとるためにDPマッチングの対応づけ
によるヒストグラムを作成し、パワーおよびスペクトル
に対してヒストグラムを重みとしたターゲット話者の特
徴ベクトルの線形結合で基準話者の特徴ベクトルを置換
え、前記基準話者と標準話者とを対応づけして声質の変
換を行なうことを特徴とする、声質変換方法。２．前記ヒストグラムを用いて対応づけを求める際に、
ピッチ周波数に対して、ヒストグラムが最大となるター
ゲット話者の特徴ベクトルをそれに対応する基準話者の
特徴ベクトルで置き換えることにより、声質変換を行な
うことを特徴とする、特許請求の範囲第１項記載の声質
変換方法。