JP2709926B2 - 声質変換方法 - Google Patents

声質変換方法

Info

Publication number
JP2709926B2
JP2709926B2 JP62255498A JP25549887A JP2709926B2 JP 2709926 B2 JP2709926 B2 JP 2709926B2 JP 62255498 A JP62255498 A JP 62255498A JP 25549887 A JP25549887 A JP 25549887A JP 2709926 B2 JP2709926 B2 JP 2709926B2
Authority
JP
Japan
Prior art keywords
speaker
voice
codebook
conversion
voice quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62255498A
Other languages
English (en)
Other versions
JPH0197997A (ja
Inventor
匡伸 阿部
清宏 鹿野
哲 中村
尚夫 桑原
Original Assignee
株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール自動翻訳電話研究所 filed Critical 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority to JP62255498A priority Critical patent/JP2709926B2/ja
Publication of JPH0197997A publication Critical patent/JPH0197997A/ja
Application granted granted Critical
Publication of JP2709926B2 publication Critical patent/JP2709926B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は声質変換方法に関し、特に、ベクトル量子
化を用いた声質変換に関するものであり、規則合成シス
テムの多様化を可能とするような声質変換方法に関す
る。 [従来の技術および発明が解決しようとする問題点] 人間の声は個々の個人によってのみ発声されるもので
あり、個人性を有している。音声における個人性は、音
声のスペクトル,パワー,ピッチ周波数などに混在一体
となって含まれている。しかしながら、従来の技術で
は、これらのパラメータのうち、ごく一部のもの、たと
えばスペクトルパラメータの中のホルマント周波数や、
スペクトル全体の傾きなどを制御し、声質を変換してい
た。これらの技術では、大雑把な声質変換(たとえば男
女声変換)しかできない。また、大雑把な声質変換を行
なうにしても、声質を特徴づけるパラメータの変換規則
の求め方は確立されておらず、試行錯誤の繰返しによっ
て行なうヒューリステツイクな手順を必要とするという
問題点があった。 それゆえに、この発明の主たる目的は、ベクトル量子
化を用いて個人のスペクトル空間を表現し、この空間の
対応づけにより声質の変換を行なうことのできるような
声質変換方法を提供することである。 [問題点を解決するための手段] この発明は音声をディジタル化し、ディジタル信号処
理を行なってパラメータ値を抽出し、このパラメータ値
を変化させて音声の声質変換を行なう声質変換方法にお
いて、基準話者とターゲット話者のそれぞれの音声のパ
ワー,ピッチ周波数およびスペクトルの3種類のうちの
少なくとも1つについてセパレートベクトル量子化を行
なってコードブックを生成し、基準話者とターゲット話
者の両者間のコードブックのベクトルの対応をとるため
にDPマッチングの対応づけによるヒストグラムを作成
し、パワーおよびスペクトルに対してヒストグラムを重
みとしたターゲット話者の特徴ベクトルの線形結合で基
準話者の特徴ベクトルを置換え、基準話者と標準話者と
を対応づけして声質の変換を行なうようにしたものであ
る。 請求項2に係る発明では、請求項1のヒストグラムを
用いて対応づけを求める際に、ピッチ周波数に対して、
ヒストグラムが最大となるターゲット話者の特徴ベクト
ルをそれに対応する基準話者の特徴ベクトルで置換える
ことにより、声質変換を行なう。 [作用] この発明に係る声質変換方法はベクトル量子化が音声
スペクトルを効率よく表現できる手法であることに鑑
み、基準話者とターゲット話者のそれぞれの音声のパワ
ー,ピッチ周波数およびスペクトルの3種類のうちの少
なくとも1つについてセパレートベクトル量子化を行な
ってコードブックを生成し、基準話者とターゲット話者
の両者間のコードブックのベクトルの対応をとるために
DPマッチングの対応づけによるヒストグラムを作成し、
パワーおよびスペクトルに対してヒストグラムを重みと
したターゲット話者の特徴ベクトルの線形結合で基準話
者の特徴ベクトルを置換え、基準話者と標準話者とを対
応づけして声質の変換を行なう。 [発明の実施例] 第1図はこの発明が適用される声質変換装置の概略ブ
ロック図である。 第1図において、声質変換装置はアンプ1とローパス
フィルタ2とA/D変換器3と処理装置4とから構成され
る。アンプ1は入力された音声信号を増幅するものであ
り、ローパスフィルタ2は増幅された音声信号から折返
し雑音を除去するものである。A/D変換器3は音声信号
を12kHzのサンプリング信号により、16ビットのディジ
タル信号に変換するものである。処理装置4はコンピュ
ータ5と磁気ディスク6と端末類7とプリンタ8とを含
む。コンピュータ5はA/D変換器3から入力された音声
のディジタル信号に基づいて、後述の第2図ないし第5
図に示した手法を用いて声質変換を行なうものである。 第2図ないし第5図はこの発明の一実施例の音声の入
力から声質変換された音声を出力するまでの全体の流れ
を示すフロー図であり、特に、第2図はセパレートコー
ドブックの作成手順を示し、第3図および第4図は変換
コードブックの作成手順を示し、第5図は声質変換合成
手順について示す。 次に、第1図ないし第5図を参照して、この発明の一
実施例の具体的な動作について説明する。この実施例に
おける声質変換方法は、セパレートコードブックの作成
と変換コードブックの作成と声質変換合成の3つのステ
ップからなっている。 まず、第2図を参照して、セパレートコードブックの
作成手順について説明する。音声に含まれる個人性は、
パワー,ピッチ周波数およびスペクトルに含まれてお
り、声質変換を行なうためには、これらのパラメータを
適切に制御しなければならない。そこで、個人性をうま
く表現するために、これらのパラメータ別にクラスタリ
ングを行なってコードブックを作成する。まず、入力さ
れた音声はアンプ1で増幅され、ローパスフィルタ2に
よって折返し雑音が除去された後、ステップ101におい
て、A/D変換器3によってディジタル信号に変換され
る。 その後、ステップ102において、LPC分析が施され、パ
ワー,ピッチ周波数およびスペクトル情報(自己相関係
数,LPCケプストラム係数)の3種のパラメータが得られ
る。これらのパラメータを充分多く収集した後に、ステ
ップ103,104および105においてクラスタリングを行な
う。クラスタリングは、LBGアルゴリズムで行なわれる
が、この際使用される距離尺度は、下記の式で示すごと
く、パワーについては第(1)式,ピッチ周波数につい
ては第(2)式,スペクトル情報については第(3)式
のWLR尺度を用いる。 Dpower=P/P′+P′/P−2 …(1) Dpitch=f−f′ …(2) Dspectrum=Σ[{C(n)−C′(n)} ×{R(n)−R′(n)}] …(3) ここで、Pは話者Aのパワーであり、P′は話者Bの
パワーであり、fは話者Aのピッチ周波数であり、f′
は話者Bのピッチ周波数であり、Cは話者Aのケプスト
ラム係数であり、C′は話者Bのケプストラム係数であ
り、Rは話者Aの自己相関係数であり、R′は話者Bの
自己相関係数である。 なお、上述のLBGアルゴリズムについては、Linde,Buz
o,Gray;“An algorithm for Vector Quantization
Design"IEEE COM−28(1980−01)に詳細に記載され
ている。また、WLR尺度は、音声の特徴を協調する尺度
であり、単語音声の認識において高い性能を示すもので
あり、杉山,鹿野による“ピークに重みをおいてLPCス
ペクトルマッチング尺度”電子通信学界論文(A)J64
−A5(1981−05)に記載されている。 上述の第(1)式ないし(3)式に基づいて、ステッ
プ106のパワーコードブック,ステップ107のピッチ周波
数のコードブックおよびステップ108のスペクトル情報
のコードブックが求まる。 次に、第3図および第4図を参照して、変換コードブ
ックの作成手順について説明する。変換コードブックの
作成は、話者Aおよび話者Bが発声した学習用の単語セ
ットを用いて行なう。話者Aの音声は、ステップ201に
おいて、前述の第2図に示したセパレートコードブック
の作成手順に従って求めたセパレートコードブックを用
いて、パワー,ピッチ周波数およびスペクトル別にセパ
レート量子化される。次に、量子化された符号を用い
て、ステップ202において、話者Aから話者Bへの変換
コードブックB′を作成する。この作成手順について
は、後で説明する。ステップ203においては、コードブ
ックB′をコードブックAと入替えることによって、話
者Bへの変換を行なう。ステップ205では、コードブッ
クB′で表現された特徴量とコードブックBで表現され
た特徴量とが比較される。ステップ204において、比較
結果が或るしきい値を超えていることを判別すると、ス
テップ206において、変換コードブックB′が完成した
ものとし、ステップ205においてしきい値に達していな
いことを判別すると、再びステップ202に戻り、上述の
動作を繰返し行なう。 次に、第4図を参照して、変換コードブックB′を求
める手順について説明する。まず、ステップ301および3
02において、話者Aおよび話者Bのそれぞれの音声にLP
C分析を施し、パワー,ピッチ周波数およびスペクトル
パラメータを求める。次に、ステップ303および304にお
いて、スペクトルパラメータをベクトル量子化し、ステ
ップ305および306でパワーをスカラー量子化し、ステッ
プ307および308においてピッチ周波数をスカラー量子化
する。 話者Aおよび話者Bの発声した音声の時間対応をとる
ために、スペクトルパラメータを用いて、ステップ309
においてDouble Split法によるDPマッチングを行な
う。ここで得られた時間対応の情報をもとにして、ステ
ップ310,311および312において、各特徴量について話者
Aと話者Bの対応関係を求め、ヒストグラムを作成す
る。スペクトルパラメータおよびパワーの変換コードブ
ックは、このヒストグラムを重みとした話者Bの特徴ベ
クトルの線形結合で求める。また、ピッチ周波数の変換
コードブックは、このヒストグラムの最大値を与える話
者Bの特徴ベクトルで作成する。 次に、第5図を参照して、コードブックを用いた声質
合成変換方法について説明する。話者Aの音声は、ステ
ップ401においてLPC分析され、パワー,ピッチ周波数お
よびスペクトルパラメータが抽出される。 次に、前述の第2図で求めた話者Aのセパレートコー
ドブックを用いて、ステップ402においてスペクトルパ
ラメータがベクトル量子化され、ステップ403において
パワーがスカラー量子化され、ステップ404においてピ
ッチ周波数がスカラー量子化される。これらの量子化さ
れたパラメータを復号化する過程において、前述の第3
図で説明した変換コードブックが使用される。すなわ
ち、ステップ405において、話者Aから話者Bへのスペ
クトル変換コードブックを用い、ステップ406におい
て、パワー変換コードブックを用い、ステップ407では
ピッチ周波数変換コードブックを用いる。そして、変換
された各パラメータを用いてステップ408において構成
される。 [発明の効果] 以上のように、この発明によれば、基準話者とターゲ
ット話者のそれぞれの音声のパワー,ピッチ周波数およ
びスペクトルの3種類のうちの少なくとも1つについて
セパレートベクトル量子化を行なってコードブックを生
成し、基準話者とターゲット話者の両者間のコードブッ
クのベクトルの対応をとるためにDPマッチングの対応づ
けによるヒストグラムを作成し、パワーおよびスペクト
ルに対してヒストグラムを重みとしたターゲット話者の
特徴ベクトルの線形結合で基準話者の特徴ベクトルを置
換え、基準話者と標準話者とを対応づけして声質の変換
を行なうようにしたので、スペクトル情報全体の特徴を
うまく制御することができ、スペクトルの情報の一部の
みを制御する従来の方法に比べて、詳細な声質変換が可
能となる。しかも、音声に含まれる個人性を各個人ごと
のコードブックによって表現するようにしたが、このコ
ードブックの作成アルゴリズムは既に確立されており、
不特定多数の音声の個人性を得ることが容易となる。さ
らに、個人のコードブックが作成されれば、この発明に
よるアルゴリズムに従って容易に声質変換が可能とな
る。
【図面の簡単な説明】 第1図はこの発明が適用される声質変換装置の概略ブロ
ック図である。第2図はセパレートコードブックの作成
手順を示すフロー図である。第3図および第4図は変換
コードブックの作成手順を示すフロー図である。第5図
は性質変換合成手順を説明するためのフロー図である。 図において、1はアンプ、2はローパスフィルタ、3は
A/D変換器、4は処理装置、5はコンピュータを示す。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中村 哲 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール自 動翻訳電話研究所内 (72)発明者 桑原 尚夫 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール自 動翻訳電話研究所内 (56)参考文献 特開 昭61−166600(JP,A) 特開 昭61−261799(JP,A) 特開 昭59−101700(JP,A) 特公 昭56−51637(JP,B2)

Claims (1)

  1. (57)【特許請求の範囲】 1.音声をディジタル化し、ディジタル信号処理を行な
    ってパラメータ値を抽出し、このパラメータ値を変化さ
    せて音声の声質変換を行なう声質変換方法において、 基準話者とターゲット話者のそれぞれの音声のパワー,
    ピッチ周波数およびスペクトルの3種類のうちの少なく
    とも1つに対してセパレートベクトル量子化を行なって
    コードブックを生成し、 前記基準話者とターゲット話者の両者間のコードブック
    のベクトルの対応をとるためにDPマッチングの対応づけ
    によるヒストグラムを作成し、パワーおよびスペクトル
    に対してヒストグラムを重みとしたターゲット話者の特
    徴ベクトルの線形結合で基準話者の特徴ベクトルを置換
    え、前記基準話者と標準話者とを対応づけして声質の変
    換を行なうことを特徴とする、声質変換方法。 2.前記ヒストグラムを用いて対応づけを求める際に、
    ピッチ周波数に対して、ヒストグラムが最大となるター
    ゲット話者の特徴ベクトルをそれに対応する基準話者の
    特徴ベクトルで置き換えることにより、声質変換を行な
    うことを特徴とする、特許請求の範囲第1項記載の声質
    変換方法。
JP62255498A 1987-10-09 1987-10-09 声質変換方法 Expired - Fee Related JP2709926B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62255498A JP2709926B2 (ja) 1987-10-09 1987-10-09 声質変換方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62255498A JP2709926B2 (ja) 1987-10-09 1987-10-09 声質変換方法

Publications (2)

Publication Number Publication Date
JPH0197997A JPH0197997A (ja) 1989-04-17
JP2709926B2 true JP2709926B2 (ja) 1998-02-04

Family

ID=17279584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62255498A Expired - Fee Related JP2709926B2 (ja) 1987-10-09 1987-10-09 声質変換方法

Country Status (1)

Country Link
JP (1) JP2709926B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04158397A (ja) * 1990-10-22 1992-06-01 A T R Jido Honyaku Denwa Kenkyusho:Kk 声質変換方式
JP2001282267A (ja) * 2000-03-29 2001-10-12 Mega Chips Corp 音声処理システム及び音声処理方法
JP2002229599A (ja) 2001-02-02 2002-08-16 Nec Corp 音声符号列の変換装置および変換方法
JP4432893B2 (ja) * 2004-12-15 2010-03-17 ヤマハ株式会社 声質判定装置、声質判定方法、および声質判定プログラム
GB2424560B (en) * 2005-02-15 2009-04-29 David Llewellyn Rees User interface for systems with automatic conversion from text to an acoustic representation
JP4840082B2 (ja) * 2006-11-01 2011-12-21 ヤマハ株式会社 音声通信装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5651637A (en) * 1979-10-04 1981-05-09 Toray Eng Co Ltd Gear inspecting device
JPS61261799A (ja) * 1985-05-16 1986-11-19 株式会社リコー 不特定話者用コ−ドブツク作成方法

Also Published As

Publication number Publication date
JPH0197997A (ja) 1989-04-17

Similar Documents

Publication Publication Date Title
US10535336B1 (en) Voice conversion using deep neural network with intermediate voice training
JP3680380B2 (ja) 音声符号化方法及び装置
JP3707154B2 (ja) 音声符号化方法及び装置
JP4005154B2 (ja) 音声復号化方法及び装置
JP3707153B2 (ja) ベクトル量子化方法、音声符号化方法及び装置
JP3707116B2 (ja) 音声復号化方法及び装置
JP2779886B2 (ja) 広帯域音声信号復元方法
US4661915A (en) Allophone vocoder
JP2956548B2 (ja) 音声帯域拡大装置
Siegel A procedure for using pattern classification techniques to obtain a voiced/unvoiced classifier
Wu et al. The NU Non-Parallel Voice Conversion System for the Voice Conversion Challenge 2018.
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
JPH01997A (ja) ベクトル量子化を用いた音声認識方式
JPH08123484A (ja) 信号合成方法および信号合成装置
JPH01998A (ja) スペクトログラムの正規化方法
JP2709926B2 (ja) 声質変換方法
Veldhuis et al. On the computation of the Kullback-Leibler measure for spectral distances
JPH09244694A (ja) 声質変換方法
Davidson et al. Multiple-stage vector excitation coding of speech waveforms
JP3354252B2 (ja) 音声認識装置
JPH0764599A (ja) 線スペクトル対パラメータのベクトル量子化方法とクラスタリング方法および音声符号化方法並びにそれらの装置
JP2880508B2 (ja) 音声の規則合成装置
JPH01211799A (ja) 多言語を扱う音声の規則合成装置
Sathiarekha et al. A survey on the evolution of various voice conversion techniques
CN117765959B (zh) 一种基于音高的语音转换模型训练方法及语音转换系统

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees