JP2000259164A - 音声データ作成装置および声質変換方法 - Google Patents

音声データ作成装置および声質変換方法

Info

Publication number
JP2000259164A
JP2000259164A JP11059632A JP5963299A JP2000259164A JP 2000259164 A JP2000259164 A JP 2000259164A JP 11059632 A JP11059632 A JP 11059632A JP 5963299 A JP5963299 A JP 5963299A JP 2000259164 A JP2000259164 A JP 2000259164A
Authority
JP
Japan
Prior art keywords
spectrum
data
frequency
band
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11059632A
Other languages
English (en)
Other versions
JP4468506B2 (ja
Inventor
Takeshi Iwaki
健 岩木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP05963299A priority Critical patent/JP4468506B2/ja
Publication of JP2000259164A publication Critical patent/JP2000259164A/ja
Application granted granted Critical
Publication of JP4468506B2 publication Critical patent/JP4468506B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 素片データに基づいて声質変換の素片データ
を作成し、スペクトル操作しても高品質な合成音にでき
る音声データ作成装置および声質変換方法の提供。 【解決手段】 声質変換装置10は、素片辞書12から読み
出した素片データをスペクトル抽出部14で周波数帯域デ
ータに変換する。この周波数帯域を第1のスペクトル群
とし、新たな声質変換によるスペクトル帯域を第2のス
ペクトル群とする。基準点設定部16で両スペクトル群の
対応付け基準となる周波数を設定し、帯域分割部18で設
定したスペクトル帯域を帯域分割し周波数の対応付け関
係(補間)を決める。スペクトル生成部20は、この対応
付けに基づき第2のスペクトル群の周波数データをマッ
ピングしFFT 分析部22に供給する。FFT 分析部22は各帯
域の周波数データに逆FFT 処理を行い新たな素片データ
を生成している。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声データ作成装
置および声質変換方法に関し、たとえば、音声素片デー
タを声質変換して他の音声素片データを自動的に作成す
る音声データ作成装置および音声素片データの声質変換
を行う手順の声質変換方法等に用い、特にテキスト音声
変換を行う装置や方法とともに用いて好適なものであ
る。
【0002】
【従来の技術】日本語のテキスト文章を音声に変換して
出力するテキスト音声変換には、テキスト解析、パラメ
ータ生成および音声合成の処理が順次行われる。テキス
ト解析では、たとえば、入力される漢字かな混じり文を
用意した単語辞書と参照して形態素解析を行われる。形
態素解析によって、入力された文の読み、アクセント、
およびイントネーション等が決定される。この決定され
た各種の情報から韻律記号付き発音記号、いわゆる中間
言語が生成される。
【0003】また、パラメータ生成では、ピッチ周波数
パターンおよび音韻継続時間等の設定が行われる。音声
合成では、これらの処理で得られたデータを用いて音声
に合成する処理が行われる。これまで、音声合成の処理
には、たとえば、線形予測法等が用いられてきている。
【0004】線形予測法に用いられる声道情報と音源情
報とは、本来、相互に関連がある情報である。しかしな
がら、線形予測法では、これらの情報を分離して扱われ
る。これにより、合成される音声の品質低下が生じてし
まっていた。そこで、近年、声道情報と音源情報とを分
離することなく、原音声波形をそのまま利用して高品質
の合成音を得る手法が提案されてきている。
【0005】ところが、音声合成処理は、保持している
素片データを重畳するだけであることから、合成音の声
質を変更できない。このような声質を変更する場合に
は、複数の合成音を出力しようとした際に、複数の発声
者から作成した複数の素片データが予め保持されていな
ければならない。この素片データの作成する際には、各
発声者の音声波形の形状に大きく依存する詳細なパラメ
ータ設定を個々に行う必要がある。この設定の必要性
は、素片データの作成処理を自動化する上での大きな問
題になっている。
【0006】また、一層変化に富んだ豊かな合成音を提
供する場合、素片データサイズが大きくなる傾向があ
る。このような音声合成装置は、システム構成の規模が
当然大きくなり、実現する上での問題になる。このよう
な問題を考慮して音声の声質変換に関する提案がされて
いる。
【0007】ここで、具体的なその音声合成の声質変換
に関する主な手法を記載する。この手法には、時間領域
での声質変換処理と周波数領域での声質変換処理とがあ
る。前者の手法は、同一音韻の複数の音声データを用い
て徐々に音声を変化させる音声モーフィングを行い、新
たにこれら音声データで合成される音声の中間的な特徴
を有する音声を得る方法である。この方法の一例には、
たとえば、特開平9-50295 号公報がある。また、後者の
手法は、ある周波数帯域で、ある音声のスペクトルデー
タを他者のスペクトルデータで置き換えて、新たなスペ
クトルデータを得る方法である。この方法の一例には、
たとえば、阿部匡伸,「基本周波数とスペクトルの漸次
変形による音声モーフィング」,日本音響学会講演論文
集2-1-8,p259-260, 1995 がある。
【0008】
【発明が解決しようとする課題】ところで、前述した手
法のうち、前者の手法の例では、音声のモーフィングの
際に対応の基準となる特徴点を音声波形の中にある位置
に設定する必要がある。しかしながら、波形のゆらぎの
影響によりこの特徴点を安定に求めることが難しい。ま
た、この特徴点の対応付けにおいて、波形形状が時間と
ともに変化する場合、すなわち、たとえば、モーフィン
グを行う該当区間内に存在する波形のピークの個数が変
化する場合、この対応付けが不適当に行われてしまう虞
れがある。
【0009】また、後者の手法の例では、高周波数での
スペクトルデータと低周波数でのスペクトルデータとを
異なる音声データから作成することから、これら2つの
スペクトルデータの接続処理による合成音は、品質低下
が避けられない。
【0010】このように様々な音声の声質変換する方法
が提案されてきているが、高品質な声質変換方法、特
に、素片作成方法はまだ確立されていない。
【0011】本発明はこのような従来技術の欠点を解消
し、保持する素片データに基づいて声質変換の素片デー
タを作成し、スペクトル操作しても高品質な合成音を出
力することのできる音声データ作成装置および声質変換
方法を提供することを目的とする。
【0012】
【課題を解決するための手段】本発明は上述の課題を解
決するために、複数の音声信号が素片データ化され所定
の順序で記憶手段に配されており、この記憶手段から供
給される音声の素片データに声質変換を施して新たな音
声の素片データを作成する音声データ作成装置におい
て、記憶手段から読み出した素片データを周波数的にス
ペクトル分析するスペクトル分析手段と、スペクトル分
析手段で分析した素片データの周波数帯域を第1のスペ
クトル群にし、新たな声質変換によるスペクトル帯域を
第2のスペクトル群にして両スペクトル群の対応付けの
基準となる周波数を設定する基準設定手段と、この基準
設定手段で設定したスペクトル帯域を帯域分割するとと
もに、第1および第2のスペクトル群の周波数関係を対
応付ける帯域分割手段と、この帯域分割手段により得ら
れた関係の対応付けおよびスペクトル分析手段からのス
ペクトルを用いて、第2のスペクトル群の周波数データ
を生成するスペクトル生成手段と、このスペクトル生成
手段からの周波数データに逆スペクトル分析を施す逆変
換手段とを含み、逆変換手段から得られた素片データを
変換データ記憶手段に供給して格納することを特徴とす
る。
【0013】ここで、帯域分割手段は、生成した第1お
よび第2のスペクトル群の区間内を単調増加関数で補間
することが好ましい。これにより補間が容易になる。
【0014】スペクトル生成手段は、周波数の対応付け
の関係だけから、第1のスペクトル群内のスペクトルの
伸縮を行い、第2のスペクトル群の周波数データを作成
する変換スペクトル作成手段と、分割した第1のスペク
トル群の各帯域毎にスペクトルのパワーを算出するとと
もに、この第1のスペクトル群内のスペクトルパワーに
よって変換スペクトル作成手段のスペクトルの大きさを
調整するパワー調整手段とを含むことが望ましい。素片
データへの声質変換による強調・抑圧をなくすことがで
きる。
【0015】パワー調整手段は、第1および第2のスペ
クトル群内のパワースペクトル面積が同じになるように
調整するとよい。
【0016】本発明の音声データ作成装置は、スペクト
ル分析手段で素片データを周波数領域のデータに変換す
る。素片データを用いることにより、音源成分と声道成
分との分離しないで新たな素片データを生成することに
なる。そして、素片データを周波数領域のスペクトルデ
ータに変換することにより、時間領域で生じる不適当な
対応付けを回避できる。ここで、この周波数帯域は、第
1のスペクトル群とし、新たな声質変換によるスペクト
ル帯域を第2のスペクトル群とする。この両スペクトル
群の対応付けの基準となる周波数は基準設定手段で設定
し、帯域分割手段で設定したスペクトル帯域を帯域分割
して周波数の対応付け関係を明らかにする。実際にスペ
クトル生成手段では、この対応付けに基づいて第2のス
ペクトル群の周波数データ、すなわち声質変換したスペ
クトルデータを生成する。逆変換手段ではこの各帯域の
周波数データに逆スペクトル分析して時間領域の素片デ
ータに変換することにより、安定に高品質な声質変換を
自動的に行って新たな変換素片データを生成することが
でき、得られた変換素片データを変換データ記憶手段に
格納することができる。
【0017】また、本発明は複数の音声信号を素片デー
タ化し所定の順序で用意した記憶手段に配し、この記憶
手段から供給される音声の素片データに声質変換を施し
て新たな音声の素片データを作成する声質変換方法にお
いて、記憶手段から読み出した素片データを周波数的に
スペクトル分析するスペクトル分析工程と、スペクトル
分析工程で分析した素片データの周波数帯域を第1のス
ペクトル群にし、新たな声質変換によるスペクトル帯域
を第2のスペクトル群にして両スペクトル群の対応付け
の基準となる周波数を設定する基準入力工程と、この基
準入力工程で設定したスペクトル帯域を帯域分割すると
ともに、第1および第2のスペクトル群の周波数関係を
対応付ける帯域分割工程と、この帯域分割工程により得
られた関係の対応付けおよびスペクトル分析工程からの
スペクトルを用いて、第2のスペクトル群の周波数デー
タを生成するスペクトル生成工程と、このスペクトル生
成工程からの周波数データに逆スペクトル分析を施す逆
変換工程とを含み、逆変換工程により得られた素片デー
タを別途用意した記憶手段に供給して格納することを特
徴とする。
【0018】ここで、帯域分割工程は、生成した第1お
よび第2のスペクトル群の区間内を単調増加関数で補間
することが好ましい。
【0019】スペクトル生成工程は、周波数の対応付け
の関係だけから、第1のスペクトル群内のスペクトルの
伸縮を行い、第2のスペクトル群の周波数データを作成
する変換スペクトル作成工程と、分割した第1のスペク
トル群の各帯域毎にスペクトルのパワーを算出するとと
もに、この第1のスペクトル群内のスペクトルパワーに
応じて変換スペクトル作成工程で得られたスペクトルの
大きさを調整するパワー調整工程とを含むことが望まし
い。
【0020】パワー調整工程は、第1および第2のスペ
クトル群内のパワースペクトル面積が同じになるように
調整するとよい。
【0021】本発明の声質変換方法は、まず、素片デー
タを周波数領域のデータに変換する。素片データを用い
ることにより、音源成分と声道成分との分離しないで扱
い、新たな素片データを生成している。そして、素片デ
ータを周波数領域のスペクトルデータに変換することに
より、時間領域で生じる不適当な対応付けを回避してい
る。ここで、この周波数帯域は、第1のスペクトル群と
し、新たな声質変換によるスペクトル帯域を第2のスペ
クトル群とする。この両スペクトル群の対応付けの基準
となる周波数を設定した後、スペクトル帯域を帯域分割
する周波数の対応付け関係を明らかにする。実際にこの
対応付けに基づいて第2のスペクトル群の周波数データ
に声質変換を施す。すなわち声質変換したスペクトルデ
ータは、第2のスペクトル群の周波数データを対応付け
により帯域の幅を変えることになる。得られた各帯域の
周波数データに逆スペクトル分析して時間領域の素片デ
ータに変換することにより、安定に高品質な声質変換を
自動的に行って新たな変換素片データを生成している。
【0022】
【発明の実施の形態】次に添付図面を参照して本発明に
よる音声データ作成装置および声質変換方法の一実施例
を詳細に説明する。
【0023】本実施例では、音声データ作成装置を適用
した声質変換装置10について図1〜図11を参照しながら
説明する。声質変換装置10には、図1に示すように素片
辞書12、スペクトル抽出部14、基準点設定部16、帯域分
割部18、スペクトル生成部20、FFT 分析部22および変換
素片辞書24が備えられている。声質変換装置10におい
て、図1に図示していないが上述した各部は、システム
制御部により、たとえばデータ読出し/書込みや分析処
理等のタイミング動作が制御されている。
【0024】素片辞書12は、磁気ディスクや光磁気ディ
スクのようなディスク状記録媒体である。記録媒体に
は、大量のサンプリングした音声素片が所定の規則に応
じて記憶されている。また、素片辞書12には、記憶され
ている音声素片データを迅速に読み出せるようなデータ
構造に記憶させた、いわゆるデータベースが構築されて
いる。より高品質な合成音を得るためには、自然波形素
片辞書を用いるとよい。
【0025】スペクトル抽出部14には、図2に示すよう
にバッファメモリ14a 、第1演算部14b および第2演算
部14c が備えられている。バッファメモリ14a は、音声
素片データを一時的に格納しておくメモリである。第1
演算部14b は、高速フーリエ変換(FFT )を行う演算機
能部である。リアルタイムでのスペクトル分析が要求さ
れるような場合、この演算をハードウェアで行うように
構成することも可能である。第2演算部14c は、後述す
るように第1演算部14b で算出された実部と虚部の値に
基づいてパワースペクトルおよび位相項を算出する。
【0026】基準点設定部16は、データ入力デバイスで
ある。データは、たとえばキーボードを介して帯域分割
する点での変換前と変換後の周波数の数値を直接的に入
力したり、ポインティングデバイスを用いる場合、変換
前と変換後の周波数軸で囲まれた面の一点をクリックし
て設定するようにしてもよい。このようにして設定する
と、帯域の対応関係の理解が視覚的に容易になる(図3
を参照)。この設定される基準点が帯域分割基準点であ
る。
【0027】帯域分割部18は、音声素片データの周波数
帯域範囲を複数に分割し、かつ帯域の変換前後の周波数
の対応関係付けを行う。この関係付けは、定義した各周
波数帯域の区間内を単調増加関数で補間して行う。たと
えば、図3に示すように、記号×の2点を入力される
と、帯域分割部18は、この2点の入力により音声周波数
の範囲を3つの周波数帯域に分割する。このとき、周波
数の低い帯域から順に帯域No.0, 帯域No.1, および帯域
No.2と定義する。周波数帯域範囲は0 〜11.025kHz とし
て横軸に変換前の周波数、縦軸に変換後の周波数をと
る。図3から明らかなように帯域毎の変換に着目する
と、音声素片データの2kHz以下の成分はそのままで、2k
Hzを越える成分に声質変換を施すことを示している。帯
域No.1の2 〜8kHzは、新たな素片の2 〜4kHzに対応さ
せ、帯域No.2の8 〜11.025kHz は、4 〜11.025kHz に対
応させる。対応関係は、帯域毎の線形補間によって行
う。このようにして、元のスペクトルデータの周波数を
変換しないで用いる範囲と新たな声質用の素片データを
作成する周波数範囲の関係が作られる。前者の範囲は、
主に合成音の音韻性を決定付けると考えられている低次
ホルマント成分が存在する区間である。これに対して、
後者の範囲は、個々人の音声の特徴が現れるスペクトル
の高域成分に対応し、この範囲をスペクトル変換するこ
とにより声質を変更する。
【0028】スペクトル生成部20は、帯域分割部18の対
応関係にあった、帯域をそれぞれ線形補間し、スペクト
ル成分をマッピングして新たなスペクトル成分を生成す
る。ただし、このマッピングは、音声信号の有声部分に
対して行われ、無声音部分にはマッピング処理を行わ
ず、そのまま元の音声データを用いることは言うまでも
ない。また、補間は、線形補間に限定されるものでな
く、単調増加関数による非線型な対応付けでもよい。具
体的な生成については後段で詳述する。
【0029】FFT 分析部22は、スペクトル抽出部14で行
ったフーリエ変換と逆の変換、すなわち逆フーリエ変換
を行う。この変換を施すことにより、周波数領域のデー
タを時間領域の音声素片データに戻す。また、変換素片
辞書24は、素片辞書12と同じデータ構造を有するディス
ク状記録媒体である。変換素片辞書24は、FFT 分析部22
からの音声素片データを格納する。このように構成して
保持している音声素片データに声質変換を施して高品質
な新たな音声素片データを作成している。
【0030】次に声質変換装置10の動作を説明する。最
初に、素片辞書12から音声素片データを読み出す。読み
出した音声素片データは、スペクトル抽出部14のバッフ
ァメモリ14a に供給される。一時的に音声素片データを
格納した後、第1演算部14bに出力する。第1演算部14b
では、FFT 処理を施して供給された音声素片データを
時間領域から周波数領域に変換する。この変換により、
スペクトル領域のデータ系列を生成する。このとき得ら
れる実部:x(i)と虚部:y(i)とにそれぞれ分けて第2演
算部14c に供給する。供給されたこれらの値を用いて、
パワースペクトル算出部140cは、パワースペクトルpow
(i)を式(1)
【0031】
【数1】 から算出する。
【0032】また、位相項算出部142cは、位相項arg(i)
を式(2)
【0033】
【数2】 arg(i)=tan-1{y(i)/x(i)} ・・・(2) から算出する。算出結果はスペクトル生成部20に供給す
る。
【0034】ところで、基準点設定部16では、帯域分割
基準点が入力される。帯域分割部18では、この入力によ
り定義された各周波数帯域の区間を単調増加関数で補間
する。説明の簡単化のために単調増加関数として1次関
数を用いる。1次関数は、帯域分割基準点を図3と同じ
に設定して、帯域No.0では周波数 0と2kHzの区間、帯域
No.1では2kHzと8kHzの区間および帯域No.2では8kHzと1
1.025kHz の区間をそれぞれ直線補間している(図4の
破線を参照)。この関係を表した周波数対応表が図4で
ある。たとえば、帯域No.1内の周波数f1を変換する場
合、周波数対応表の矢印の順に見て変換後の周波数TF
算出してもよい。また、実際に直線補間の一次関数の変
数に周波数f1を代入して算出してもよい。このようにし
て新たに作成する声質変換する周波数TFが対応付けられ
ることが判る。
【0035】実際に読み出した音声素片データに対する
声質変換は、スペクトル生成部20で供給されるスペクト
ル成分を周波数対応に応じたマッピング処理により行わ
れる。作成された声質変換スペクトルデータがFFT 分析
部22に供給される。FFT 分析部22では、供給されたデー
タに逆FFT 変換を施して新たな声質変換素片を得る。逆
FFT 変換は、FFT 変換の処理とまったくの逆処理であ
る。この変換処理を終了することにより一連の声質変換
処理は終了する。そして、このようにして得られた新た
な音声素片データは、変換素片辞書24に格納される。こ
の格納処理により音声データ作成処理が終了する。
【0036】この一連の動作により音声素片データを新
たな声質の音声素片データに容易に変換することができ
る。声質変換装置10において、より具体的に格納されて
いる素片辞書12の男性の音声「a 」に声質変換を施し
た。この声質変換の前後で音声「a 」がどのように変換
されるかを比較してみる。ここで、図5には変換前の音
声波形「a 」の合成波形(上段)とそのパワースペクト
ル波形(下段)を示し、図6には、変換後の合成波形
(上段)とそのパワースペクトル波形(下段)を示す。
ここでも、帯域分割基準点は、図3の設定と同じにして
いる。図5および図6の上段の合成波形を比較して、波
形形状に大きな違いは見られないことが判る。これは、
合成音の音韻性および自然性が保たれていることを示し
ている。しかしながら、下段のパワースペクトルは、図
6に示すように周波数3000Hz以上の高域成分の形状が連
続的な形で大きく変形させられていることが判る。この
合成音を聴取してみると、元の音声素片データによる合
成音と異なる声質の合成音が高品質に得られた。
【0037】次に声質変換装置10の変形例について図7
を参照しながら説明する。ここで、前述の実施例と同じ
部分には、同一の名称および参照符号を付して説明を省
略する。本実施例の声質変換装置10は、スペクトル生成
部20にパワースペクトルを調整する機能が追加されてい
る。スペクトル生成部20には、変換スペクトル作成部20
a およびパワー調整部20b が備えられている。変換スペ
クトル作成部20a は、前述の実施例のスペクトル作成部
20でのスペクトルの変換をマッピング処理に基づいて行
っている。
【0038】たとえば、帯域分割基準点を4つ設定した
場合、周波数範囲 0〜11.025kHz (=f4)を図8に示す
ように周波数f0〜f3と元の音声素片データをほぼ等分割
する。このとき、先の実施例(周波数0 〜周波数f1)と
同様に声質変換しない帯域No.0を、たとえば周波数0 〜
周波数f0=TF0 =2kHzに設定する。これに対して、周波
数2kHz<f ≦11.025kHz (=f4)の帯域分割は、この周
波数範囲内での変換後の周波数の分割順序が保たれてい
れば任意に設定してよい(図8の変換後の周波数TF1
TF3 を参照)。このような設定のため変換後の帯域幅
は、図8の帯域No.1〜帯域No.4に示すように、一定にな
らず、高域成分が抑圧される。
【0039】これに加えて、パワースペクトルには一般
に、-6dB/oct程度で減衰する特性がある(図9の細い実
線)。図8の周波数対応関係にある新たな声質変換スペ
クトルデータのパワースペクトルを作成すると、そのパ
ワースペクトルの減衰特性は望ましくない強調や抑圧を
受けた特性を示す。この減衰特性は全周波数範囲にわた
って周波数対応を関係付ける単調増加関数を見ると、帯
域毎に直線補間する1次関数がそれぞれ異なることによ
る非線型性によって生じる。この結果、得られる合成音
は、ローパスフィルタを通したような、こもった音に聞
える。実際の減衰特性を調べて見ると、図9から明らか
なように周波数0 〜11.025kHz までの帯域範囲のうち、
たとえば、2kHz〜8kHz近傍のパワースペクトル成分が大
きな抑圧を受けている。特に、周波数2kHz〜4kHzの減衰
特性が大きく、-18dB/oct になっている(図9の太い実
線を参照)。この減衰特性の落込み方が顕著で、一般の
-6dB/octの減衰特性と比較して見ると、周波数4kHzのパ
ワーレベルは周波数8kHzでのレベルとほぼ同等なほどま
で抑圧を受けている。一方、周波数4kHz〜11.025kHz の
間の減衰特性は、-2.6dB/octと小さい。
【0040】パワー調整部20b は、変換スペクトル作成
部20a で得られた声質変換スペクトルデータのうち、こ
のような望ましくない抑圧・強調等による成分を除去す
るようにパワースペクトルの大きさだけを調整する。こ
の調整により、パワースペクトル生成の中での望ましく
ない強調や抑制を調整する。このときパワー調整部20b
は、位相項に対して何も処理しない。パワー調整部20b
は、声質変換したスペクトルデータに対するパワースペ
クトルを作成するとともに、スペクトル抽出部14で算出
した元々の音声素片データに対するパワースペクトルと
この作成したパワースペクトルとを比較する。これらの
パワースペクトルの差が大きくなる場合に、スペクトル
変換による意図しないスペクトル形状の強調・抑制を、
変換後の帯域パワースペクトルを帯域前のパワースペク
トルで正規化することにより調整する。このパワースペ
クトルを調整するために帯域の両端には余弦関数を用い
て不連続にならないようにスムージングを施している。
ここで、余弦関数を用いてスムージング化したが、余弦
関数に限定されるものでなく、連続で滑らかな関数であ
ればよい。
【0041】具体的なパワースペクトルの調整について
説明する。図4と同様に帯域分割基準点が2入力の場
合、図10に示すように、周波数2kHz〜8kHzと周波数8kHz
〜11.025kHz の2つの帯域における元々のパワースペク
トルP30, P32がある。パワー調整部20b は、元々のパワ
ースペクトルP30, P32を用いて、声質変換したスペクト
ルデータのパワースペクトルA30, A32の大きさを調整
し、変換前と変換後の対応するパワースペクトル(の面
積)をそれぞれ同じにする。たとえば、帯域2kHz〜8kHz
まで変換前の帯域パワースペクトルを正規化すると、倍
率 m=A30/P30 〜1.2 が得られる。この場合、この倍率
分だけ面積を抑えるように、たとえば余弦関数を用いて
平滑化して面積を同一化する。同様に、8kHz〜11.025kH
z までの正規化により倍率 m=A32/P32 〜0.8 が得られ
る。この帯域では余弦関数を用いて面積を増やすように
平滑化が行われる。これらの処理により、望ましくない
抑圧・強調等を除くことができる。これにより、パワー
調整部20b は声質変換したスペクトルデータを元の音声
素片データのパワースペクトル減衰特性に準じた減衰特
性にすることができる。
【0042】たとえば、素片辞書12から読み出した音声
素片をスペクトル抽出部14でFFT 処理し得られるパワー
スペクトルは、二点鎖線で示す-6dB/octに沿っているこ
とが判る(図11(a) を参照)。スペクトル生成部20の変
換スペクトル作成部20a で帯域分割基準点により分割さ
れた帯域毎に声質変換に伴うマッピング処理を行うと、
パワースペクトルは帯域毎に大きく変化する。図11(a)
と図11(b) との特性を比べると、大体3kHz〜5kHzで大き
くレベルが低下している。これは声質変換処理によって
望ましくない抑圧を受けたことを示している。この抑圧
を除くようにパワー調整部20b は、帯域毎に変換前後の
面積を同一にする調整を行う。調整の結果、図11(c) に
示すように中域のパワースペクトルに大幅な改善が見ら
れた。得られる合成音は、帯域分割基準点で帯域分割し
てマッピングすることによる声質変換の効果をより素直
に反映して自然で明瞭になった。
【0043】ところで、本実施例は、音源成分と声道成
分とを分離しない素片を基にして声質変換を行って新た
な素片の作成の試みを示したが、この他PSE 素片等のよ
うに音源成分を除去した素片を基に声質変換したスペク
トルの生成を行うこともできる。声質変換装置10は、た
とえば、原音声のピッチを変化させ、声の高さを変更す
る、いわゆる音声ピッチ変換装置のように、種々の音声
出力装置に適用することも可能である。
【0044】以上のように構成することにより、たとえ
ば音声のモーフィングを行う際に生じて問題になる不適
当な対応付けを回避し、周波数領域で声質変換を行わな
い大域と声質変換を行う帯域とを帯域分割基準点で分
け、声質変換する帯域には周波数の対応付けに応じた変
換を行い、得られた第2のスペクトル群に逆FFT 処理を
施して新たな音声素片データを生成することにより、ス
ペクトル操作による劣化の少ない、高品質な音声素片デ
ータを作成することができる。これにより、これまでな
かった高品質な声質変換による音声素片の自動的な作成
法を確立することができる。
【0045】
【発明の効果】このように本発明の音声データ作成装置
によれば、スペクトル分析手段で記憶手段から読み出し
た素片データを周波数領域のデータに変換する。素片デ
ータを用いることにより、音源成分と声道成分との分離
しないで新たな素片データを生成することになる。そし
て、素片データを周波数領域のスペクトルデータに変換
することにより、時間領域で生じる不適当な対応付けも
回避できる。ここで、この周波数帯域は、第1のスペク
トル群とし、新たな声質変換によるスペクトル帯域を第
2のスペクトル群とする。基準設定手段でのこの両スペ
クトル群の対応付けの基準となる周波数の設定、帯域分
割手段での設定したスペクトル帯域を帯域分割して周波
数の対応付け関係を明らかにして、実際にスペクトル生
成手段でこの対応付けに基づいて第2のスペクトル群の
周波数データ、すなわち声質変換したスペクトルデータ
を生成する。逆変換手段ではこの各帯域の周波数データ
に逆スペクトル分析して時間領域の素片データに変換し
て、安定に高品質な声質変換を自動的に行って新たな変
換素片データを生成することができ、得られた変換素片
データを変換データ記憶手段に格納する。これにより、
スペクトル操作による劣化の少ない、高品質な音声素片
データを作成することができる。
【0046】また、本発明の声質変換方法によれば、ま
ず、素片データを周波数領域のデータに変換する。素片
データを用いて音源成分と声道成分との分離しないで扱
い、新たな素片データを生成し、素片データを周波数領
域のスペクトルデータに変換することにより、時間領域
で生じる不適当な対応付けを回避する。ここで、この周
波数帯域を第1のスペクトル群とし、新たな声質変換に
よるスペクトル帯域を第2のスペクトル群とする。この
両スペクトル群の対応付けの基準となる周波数を設定し
た後、スペクトル帯域を帯域分割する周波数の対応付け
関係を明らかにする。実際にこの対応付けに基づいて第
2のスペクトル群の周波数データに声質変換を施す。得
られた各帯域の周波数データに逆スペクトル分析して時
間領域の素片データに変換して、安定に高品質な声質変
換を自動的に行って新たな変換素片データを生成してい
る。これにより、これまでなかった高品質な声質変換に
よる音声素片の自動的な作成法を確立することができ
る。
【図面の簡単な説明】
【図1】本発明に係る音声データ作成装置を声質変換装
置に適用した際の概略的な構成を示すブロック図であ
る。
【図2】図1のスペクトル抽出部の構成を示すブロック
図である。
【図3】図1の基準点設定部および帯域分割部で行う周
波数変換の対応関係を説明する模式図である。
【図4】図3の周波数対応関係を示す周波数対応表(声
質変換)の例を説明する図である。
【図5】図4の声質変換前での音声素片データの合成波
形とパワースペクトルを示すグラフである。
【図6】図4の声質変換後での音声素片データの合成波
形とパワースペクトルを示すグラフである。
【図7】図1の声質変換装置の変形例の構成を示すブロ
ック図である。
【図8】声質変換装置における周波数変換での高域成分
の抑圧を説明する模式図である。
【図9】声質変換の有無に応じて得られるパワースペク
トルの減衰特性を表す図である。
【図10】図9の声質変換した際に生じるパワースペク
トルの減衰特性を改善する方法を説明する模式図であ
る。
【図11】音声素片データに施す処理がスペクトル抽
出、声質変換、およびパワー調整して得られたパワース
ペクトルを表すグラフである。
【符号の説明】
10 声質変換装置 12 素片辞書 14 スペクトル抽出部 16 基準点設定部 18 帯域分割部 20 スペクトル生成部 22 FFT 分析部 24 変換素片辞書 14a バッファメモリ 14b 第1演算部 14c 第2演算部 20a 変換スペクトル作成部 20b パワー調整部 140c パワースペクトル算出部 142c 位相項算出部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 複数の音声信号が素片データ化され所定
    の順序で記憶手段に配されており、該記憶手段から供給
    される音声の素片データに声質変換を施して新たな音声
    の素片データを作成する音声データ作成装置において、
    該装置は、 前記記憶手段から読み出した素片データを周波数的にス
    ペクトル分析するスペクトル分析手段と、 前記スペクトル分析手段で分析した素片データの周波数
    帯域を第1のスペクトル群にし、新たな声質変換による
    スペクトル帯域を第2のスペクトル群にして両スペクト
    ル群の対応付けの基準となる周波数を設定する基準設定
    手段と、 該基準設定手段で設定したスペクトル帯域を帯域分割す
    るとともに、前記第1および前記第2のスペクトル群の
    周波数関係を対応付ける帯域分割手段と、 該帯域分割手段により得られた関係の対応付けおよび前
    記スペクトル分析手段からのスペクトルを用いて、前記
    第2のスペクトル群の周波数データを生成するスペクト
    ル生成手段と、 該スペクトル生成手段からの周波数データに逆スペクト
    ル分析を施す逆変換手段とを含み、 前記逆変換手段から得られた素片データを変換データ記
    憶手段に供給して格納することを特徴とする音声データ
    作成装置。
  2. 【請求項2】 請求項1に記載の装置において、前記帯
    域分割手段は、生成した第1および前記第2のスペクト
    ル群の区間内を単調増加関数で補間することを特徴とす
    る音声データ作成装置。
  3. 【請求項3】 請求項1に記載の装置において、前記ス
    ペクトル生成手段は、前記周波数の対応付けの関係だけ
    から、前記第1の群内のスペクトルの伸縮を行い、前記
    第2のスペクトル群の周波数データを作成する変換スペ
    クトル作成手段と、 前記分割した第1のスペクトル群の各帯域毎にスペクト
    ルのパワーを算出するとともに、該第1のスペクトル群
    内のスペクトルパワーによって前記変換スペクトル作成
    手段のスペクトルの大きさを調整するパワー調整手段と
    を含むことを特徴とする音声データ作成装置。
  4. 【請求項4】 請求項3に記載の装置において、前記パ
    ワー調整手段は、前記第1および前記第2のスペクトル
    群内のパワースペクトル面積が同じになるように調整す
    ることを特徴とする音声データ作成装置。
  5. 【請求項5】 複数の音声信号を素片データ化し所定の
    順序で用意した記憶手段に配し、該記憶手段から供給さ
    れる音声の素片データに声質変換を施して新たな音声の
    素片データを作成する声質変換方法において、該方法
    は、 前記記憶手段から読み出した素片データを周波数的にス
    ペクトル分析するスペクトル分析工程と、 前記スペクトル分析工程で分析した素片データの周波数
    帯域を第1のスペクトル群にし、新たな声質変換による
    スペクトル帯域を第2のスペクトル群にして両スペクト
    ル群の対応付けの基準となる周波数を設定する基準入力
    工程と、 該基準入力工程で設定したスペクトル帯域を帯域分割す
    るとともに、前記第1および前記第2のスペクトル群の
    周波数関係を対応付ける帯域分割工程と、 該帯域分割工程により得られた関係の対応付けおよび前
    記スペクトル分析工程からのスペクトルを用いて、前記
    第2のスペクトル群の周波数データを生成するスペクト
    ル生成工程と、 該スペクトル生成工程からの周波数データに逆スペクト
    ル分析を施す逆変換工程とを含み、 前記逆変換工程により得られた素片データを別途用意し
    た記憶手段に供給して格納することを特徴とする声質変
    換方法。
  6. 【請求項6】 請求項5に記載の装置において、前記帯
    域分割工程は、前記生成した第1および第2のスペクト
    ル群の区間内を単調増加関数で補間することを特徴とす
    る声質変換方法。
  7. 【請求項7】 請求項5に記載の装置において、前記ス
    ペクトル生成工程は、前記周波数の対応付けの関係だけ
    から、前記第1のスペクトル群内のスペクトルの伸縮を
    行い、前記第2のスペクトル群の周波数データを作成す
    る変換スペクトル作成工程と、 前記分割した第1のスペクトル群の各帯域毎にスペクト
    ルのパワーを算出するとともに、該第1のスペクトル群
    内のスペクトルパワーに応じて前記変換スペクトル作成
    工程で得られたスペクトルの大きさを調整するパワー調
    整工程とを含むことを特徴とする声質変換方法。
  8. 【請求項8】 請求項7に記載の装置において、前記パ
    ワー調整工程は、前記第1および前記第2のスペクトル
    群内のパワースペクトル面積が同じになるように調整す
    ることを特徴とする声質変換方法。
JP05963299A 1999-03-08 1999-03-08 音声データ作成装置および声質変換方法 Expired - Lifetime JP4468506B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05963299A JP4468506B2 (ja) 1999-03-08 1999-03-08 音声データ作成装置および声質変換方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05963299A JP4468506B2 (ja) 1999-03-08 1999-03-08 音声データ作成装置および声質変換方法

Publications (2)

Publication Number Publication Date
JP2000259164A true JP2000259164A (ja) 2000-09-22
JP4468506B2 JP4468506B2 (ja) 2010-05-26

Family

ID=13118815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05963299A Expired - Lifetime JP4468506B2 (ja) 1999-03-08 1999-03-08 音声データ作成装置および声質変換方法

Country Status (1)

Country Link
JP (1) JP4468506B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006046761A1 (ja) * 2004-10-27 2006-05-04 Yamaha Corporation ピッチ変換装置
JP2007240564A (ja) * 2006-03-04 2007-09-20 Yamaha Corp 歌唱合成装置および歌唱合成プログラム
US20090041418A1 (en) * 2007-08-08 2009-02-12 Brant Candelore System and Method for Audio Identification and Metadata Retrieval
WO2009022454A1 (ja) * 2007-08-10 2009-02-19 Panasonic Corporation 音声分離装置、音声合成装置および声質変換装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006046761A1 (ja) * 2004-10-27 2006-05-04 Yamaha Corporation ピッチ変換装置
US7490035B2 (en) 2004-10-27 2009-02-10 Yamaha Corporation Pitch shifting apparatus
JP4840141B2 (ja) * 2004-10-27 2011-12-21 ヤマハ株式会社 ピッチ変換装置
JP2007240564A (ja) * 2006-03-04 2007-09-20 Yamaha Corp 歌唱合成装置および歌唱合成プログラム
US20090041418A1 (en) * 2007-08-08 2009-02-12 Brant Candelore System and Method for Audio Identification and Metadata Retrieval
US9996612B2 (en) * 2007-08-08 2018-06-12 Sony Corporation System and method for audio identification and metadata retrieval
WO2009022454A1 (ja) * 2007-08-10 2009-02-19 Panasonic Corporation 音声分離装置、音声合成装置および声質変換装置
US8255222B2 (en) 2007-08-10 2012-08-28 Panasonic Corporation Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus

Also Published As

Publication number Publication date
JP4468506B2 (ja) 2010-05-26

Similar Documents

Publication Publication Date Title
JP3815347B2 (ja) 歌唱合成方法と装置及び記録媒体
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
JP6024191B2 (ja) 音声合成装置および音声合成方法
JPS63285598A (ja) 音素接続形パラメ−タ規則合成方式
JP6821970B2 (ja) 音声合成装置および音声合成方法
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
KR100457414B1 (ko) 음성합성방법, 음성합성장치 및 기록매체
JP4214842B2 (ja) 音声合成装置及び音声合成方法
JP2003108178A (ja) 音声合成装置及び音声合成用素片作成装置
US20010029454A1 (en) Speech synthesizing method and apparatus
JP4468506B2 (ja) 音声データ作成装置および声質変換方法
JP2003345400A (ja) ピッチ変換装置、ピッチ変換方法及びプログラム
JP2904279B2 (ja) 音声合成方法および装置
JPH09319391A (ja) 音声合成方法
JP2612867B2 (ja) 音声ピッチ変換方法
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JP3444396B2 (ja) 音声合成方法、その装置及びプログラム記録媒体
JPH07261798A (ja) 音声分析合成装置
JPH09179576A (ja) 音声合成方法
JPH09510554A (ja) 言語合成
US6044345A (en) Method and system for coding human speech for subsequent reproduction thereof
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JP2001312300A (ja) 音声合成装置
JP2002244693A (ja) 音声合成装置および音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060202

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20090107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090323

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100225

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3