JP4468506B2 - Voice data creation device and voice quality conversion method - Google Patents

Voice data creation device and voice quality conversion method Download PDF

Info

Publication number
JP4468506B2
JP4468506B2 JP05963299A JP5963299A JP4468506B2 JP 4468506 B2 JP4468506 B2 JP 4468506B2 JP 05963299 A JP05963299 A JP 05963299A JP 5963299 A JP5963299 A JP 5963299A JP 4468506 B2 JP4468506 B2 JP 4468506B2
Authority
JP
Japan
Prior art keywords
spectrum
band
frequency
conversion
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP05963299A
Other languages
Japanese (ja)
Other versions
JP2000259164A (en
Inventor
健 岩木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lapis Semiconductor Co Ltd
Original Assignee
Oki Semiconductor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Semiconductor Co Ltd filed Critical Oki Semiconductor Co Ltd
Priority to JP05963299A priority Critical patent/JP4468506B2/en
Publication of JP2000259164A publication Critical patent/JP2000259164A/en
Application granted granted Critical
Publication of JP4468506B2 publication Critical patent/JP4468506B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声データ作成装置および声質変換方法に関し、たとえば、音声素片データを声質変換して他の音声素片データを自動的に作成する音声データ作成装置および音声素片データの声質変換を行う手順の声質変換方法等に用い、特にテキスト音声変換を行う装置や方法とともに用いて好適なものである。
【0002】
【従来の技術】
日本語のテキスト文章を音声に変換して出力するテキスト音声変換には、テキスト解析、パラメータ生成および音声合成の処理が順次行われる。テキスト解析では、たとえば、入力される漢字かな混じり文を用意した単語辞書と参照して形態素解析を行われる。形態素解析によって、入力された文の読み、アクセント、およびイントネーション等が決定される。この決定された各種の情報から韻律記号付き発音記号、いわゆる中間言語が生成される。
【0003】
また、パラメータ生成では、ピッチ周波数パターンおよび音韻継続時間等の設定が行われる。音声合成では、これらの処理で得られたデータを用いて音声に合成する処理が行われる。これまで、音声合成の処理には、たとえば、線形予測法等が用いられてきている。
【0004】
線形予測法に用いられる声道情報と音源情報とは、本来、相互に関連がある情報である。しかしながら、線形予測法では、これらの情報を分離して扱われる。これにより、合成される音声の品質低下が生じてしまっていた。そこで、近年、声道情報と音源情報とを分離することなく、原音声波形をそのまま利用して高品質の合成音を得る手法が提案されてきている。
【0005】
ところが、音声合成処理は、保持している素片データを重畳するだけであることから、合成音の声質を変更できない。このような声質を変更する場合には、複数の合成音を出力しようとした際に、複数の発声者から作成した複数の素片データが予め保持されていなければならない。この素片データの作成する際には、各発声者の音声波形の形状に大きく依存する詳細なパラメータ設定を個々に行う必要がある。この設定の必要性は、素片データの作成処理を自動化する上での大きな問題になっている。
【0006】
また、一層変化に富んだ豊かな合成音を提供する場合、素片データサイズが大きくなる傾向がある。このような音声合成装置は、システム構成の規模が当然大きくなり、実現する上での問題になる。このような問題を考慮して音声の声質変換に関する提案がされている。
【0007】
ここで、具体的なその音声合成の声質変換に関する主な手法を記載する。この手法には、時間領域での声質変換処理と周波数領域での声質変換処理とがある。前者の手法は、同一音韻の複数の音声データを用いて徐々に音声を変化させる音声モーフィングを行い、新たにこれら音声データで合成される音声の中間的な特徴を有する音声を得る方法である。この方法の一例には、たとえば、特開平9-50295 号公報がある。また、後者の手法は、ある周波数帯域で、ある音声のスペクトルデータを他者のスペクトルデータで置き換えて、新たなスペクトルデータを得る方法である。この方法の一例には、たとえば、阿部匡伸,「基本周波数とスペクトルの漸次変形による音声モーフィング」,日本音響学会講演論文集2-1-8, p259-260, 1995 がある。
【0008】
【発明が解決しようとする課題】
ところで、前述した手法のうち、前者の手法の例では、音声のモーフィングの際に対応の基準となる特徴点を音声波形の中にある位置に設定する必要がある。しかしながら、波形のゆらぎの影響によりこの特徴点を安定に求めることが難しい。また、この特徴点の対応付けにおいて、波形形状が時間とともに変化する場合、すなわち、たとえば、モーフィングを行う該当区間内に存在する波形のピークの個数が変化する場合、この対応付けが不適当に行われてしまう虞れがある。
【0009】
また、後者の手法の例では、高周波数でのスペクトルデータと低周波数でのスペクトルデータとを異なる音声データから作成することから、これら2つのスペクトルデータの接続処理による合成音は、品質低下が避けられない。
【0010】
このように様々な音声の声質変換する方法が提案されてきているが、高品質な声質変換方法、特に、素片作成方法はまだ確立されていない。
【0011】
本発明はこのような従来技術の欠点を解消し、保持する素片データに基づいて声質変換の素片データを作成し、スペクトル操作しても高品質な合成音を出力することのできる音声データ作成装置および声質変換方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明は上述の課題を解決するために、複数の音声信号が素片データ化され所定の順序で記憶手段に配されており、この記憶手段から供給される音声の素片データに声質変換を施して新たな音声の素片データを作成する音声データ作成装置において、記憶手段から読み出した素片データを周波数的にスペクトル分析するスペクトル分析手段と、スペクトル分析手段で分析した素片データの周波数帯域を第1のスペクトル群にし、新たな声質変換によるスペクトル帯域を第2のスペクトル群にして両スペクトル群の対応付けの基準となる周波数を設定する基準設定手段と、この基準設定手段で設定したスペクトル帯域を帯域分割するとともに、第1および第2のスペクトル群の周波数関係を対応付ける帯域分割手段と、この帯域分割手段により得られた関係の対応付けおよびスペクトル分析手段からのスペクトルを用いて、第2のスペクトル群の周波数データを生成するスペクトル生成手段と、このスペクトル生成手段からの周波数データに逆スペクトル分析を施す逆変換手段とを含み、逆変換手段から得られた素片データを変換データ記憶手段に供給して格納することを特徴とする。
【0013】
ここで、帯域分割手段は、生成した第1および第2のスペクトル群の区間内を単調増加関数で補間することが好ましい。これにより補間が容易になる。
【0014】
スペクトル生成手段は、周波数の対応付けの関係だけから、第1のスペクトル群内のスペクトルの伸縮を行い、第2のスペクトル群の周波数データを作成する変換スペクトル作成手段と、分割した第1のスペクトル群の各帯域毎にスペクトルのパワーを算出するとともに、この第1のスペクトル群内のスペクトルパワーによって変換スペクトル作成手段のスペクトルの大きさを調整するパワー調整手段とを含むことが望ましい。素片データへの声質変換による強調・抑圧をなくすことができる。
【0015】
パワー調整手段は、第1および第2のスペクトル群内のパワースペクトル面積が同じになるように調整するとよい。
【0016】
本発明の音声データ作成装置は、スペクトル分析手段で素片データを周波数領域のデータに変換する。素片データを用いることにより、音源成分と声道成分との分離しないで新たな素片データを生成することになる。そして、素片データを周波数領域のスペクトルデータに変換することにより、時間領域で生じる不適当な対応付けを回避できる。ここで、この周波数帯域は、第1のスペクトル群とし、新たな声質変換によるスペクトル帯域を第2のスペクトル群とする。この両スペクトル群の対応付けの基準となる周波数は基準設定手段で設定し、帯域分割手段で設定したスペクトル帯域を帯域分割して周波数の対応付け関係を明らかにする。実際にスペクトル生成手段では、この対応付けに基づいて第2のスペクトル群の周波数データ、すなわち声質変換したスペクトルデータを生成する。逆変換手段ではこの各帯域の周波数データに逆スペクトル分析して時間領域の素片データに変換することにより、安定に高品質な声質変換を自動的に行って新たな変換素片データを生成することができ、得られた変換素片データを変換データ記憶手段に格納することができる。
【0017】
また、本発明は複数の音声信号を素片データ化し所定の順序で用意した記憶手段に配し、この記憶手段から供給される音声の素片データに声質変換を施して新たな音声の素片データを作成する声質変換方法において、記憶手段から読み出した素片データを周波数的にスペクトル分析するスペクトル分析工程と、スペクトル分析工程で分析した素片データの周波数帯域を第1のスペクトル群にし、新たな声質変換によるスペクトル帯域を第2のスペクトル群にして両スペクトル群の対応付けの基準となる周波数を設定する基準入力工程と、この基準入力工程で設定したスペクトル帯域を帯域分割するとともに、第1および第2のスペクトル群の周波数関係を対応付ける帯域分割工程と、この帯域分割工程により得られた関係の対応付けおよびスペクトル分析工程からのスペクトルを用いて、第2のスペクトル群の周波数データを生成するスペクトル生成工程と、このスペクトル生成工程からの周波数データに逆スペクトル分析を施す逆変換工程とを含み、逆変換工程により得られた素片データを別途用意した記憶手段に供給して格納することを特徴とする。
【0018】
ここで、帯域分割工程は、生成した第1および第2のスペクトル群の区間内を単調増加関数で補間することが好ましい。
【0019】
スペクトル生成工程は、周波数の対応付けの関係だけから、第1のスペクトル群内のスペクトルの伸縮を行い、第2のスペクトル群の周波数データを作成する変換スペクトル作成工程と、分割した第1のスペクトル群の各帯域毎にスペクトルのパワーを算出するとともに、この第1のスペクトル群内のスペクトルパワーに応じて変換スペクトル作成工程で得られたスペクトルの大きさを調整するパワー調整工程とを含むことが望ましい。
【0020】
パワー調整工程は、第1および第2のスペクトル群内のパワースペクトル面積が同じになるように調整するとよい。
【0021】
本発明の声質変換方法は、まず、素片データを周波数領域のデータに変換する。素片データを用いることにより、音源成分と声道成分との分離しないで扱い、新たな素片データを生成している。そして、素片データを周波数領域のスペクトルデータに変換することにより、時間領域で生じる不適当な対応付けを回避している。ここで、この周波数帯域は、第1のスペクトル群とし、新たな声質変換によるスペクトル帯域を第2のスペクトル群とする。この両スペクトル群の対応付けの基準となる周波数を設定した後、スペクトル帯域を帯域分割する周波数の対応付け関係を明らかにする。実際にこの対応付けに基づいて第2のスペクトル群の周波数データに声質変換を施す。すなわち声質変換したスペクトルデータは、第2のスペクトル群の周波数データを対応付けにより帯域の幅を変えることになる。得られた各帯域の周波数データに逆スペクトル分析して時間領域の素片データに変換することにより、安定に高品質な声質変換を自動的に行って新たな変換素片データを生成している。
【0022】
【発明の実施の形態】
次に添付図面を参照して本発明による音声データ作成装置および声質変換方法の一実施例を詳細に説明する。
【0023】
本実施例では、音声データ作成装置を適用した声質変換装置10について図1〜図11を参照しながら説明する。声質変換装置10には、図1に示すように素片辞書12、スペクトル抽出部14、基準点設定部16、帯域分割部18、スペクトル生成部20、FFT 分析部22および変換素片辞書24が備えられている。声質変換装置10において、図1に図示していないが上述した各部は、システム制御部により、たとえばデータ読出し/書込みや分析処理等のタイミング動作が制御されている。
【0024】
素片辞書12は、磁気ディスクや光磁気ディスクのようなディスク状記録媒体である。記録媒体には、大量のサンプリングした音声素片が所定の規則に応じて記憶されている。また、素片辞書12には、記憶されている音声素片データを迅速に読み出せるようなデータ構造に記憶させた、いわゆるデータベースが構築されている。より高品質な合成音を得るためには、自然波形素片辞書を用いるとよい。
【0025】
スペクトル抽出部14には、図2に示すようにバッファメモリ14a 、第1演算部14b および第2演算部14c が備えられている。バッファメモリ14a は、音声素片データを一時的に格納しておくメモリである。第1演算部14b は、高速フーリエ変換(FFT )を行う演算機能部である。リアルタイムでのスペクトル分析が要求されるような場合、この演算をハードウェアで行うように構成することも可能である。第2演算部14c は、後述するように第1演算部14b で算出された実部と虚部の値に基づいてパワースペクトルおよび位相項を算出する。
【0026】
基準点設定部16は、データ入力デバイスである。データは、たとえばキーボードを介して帯域分割する点での変換前と変換後の周波数の数値を直接的に入力したり、ポインティングデバイスを用いる場合、変換前と変換後の周波数軸で囲まれた面の一点をクリックして設定するようにしてもよい。このようにして設定すると、帯域の対応関係の理解が視覚的に容易になる(図3を参照)。この設定される基準点が帯域分割基準点である。
【0027】
帯域分割部18は、音声素片データの周波数帯域範囲を複数に分割し、かつ帯域の変換前後の周波数の対応関係付けを行う。この関係付けは、定義した各周波数帯域の区間内を単調増加関数で補間して行う。たとえば、図3に示すように、記号×の2点を入力されると、帯域分割部18は、この2点の入力により音声周波数の範囲を3つの周波数帯域に分割する。このとき、周波数の低い帯域から順に帯域No.0, 帯域No.1, および帯域No.2と定義する。周波数帯域範囲は0 〜11.025kHz として横軸に変換前の周波数、縦軸に変換後の周波数をとる。図3から明らかなように帯域毎の変換に着目すると、音声素片データの2kHz以下の成分はそのままで、2kHzを越える成分に声質変換を施すことを示している。帯域No.1の2 〜8kHzは、新たな素片の2 〜4kHzに対応させ、帯域No.2の8 〜11.025kHz は、4 〜11.025kHz に対応させる。対応関係は、帯域毎の線形補間によって行う。このようにして、元のスペクトルデータの周波数を変換しないで用いる範囲と新たな声質用の素片データを作成する周波数範囲の関係が作られる。前者の範囲は、主に合成音の音韻性を決定付けると考えられている低次ホルマント成分が存在する区間である。これに対して、後者の範囲は、個々人の音声の特徴が現れるスペクトルの高域成分に対応し、この範囲をスペクトル変換することにより声質を変更する。
【0028】
スペクトル生成部20は、帯域分割部18の対応関係にあった、帯域をそれぞれ線形補間し、スペクトル成分をマッピングして新たなスペクトル成分を生成する。ただし、このマッピングは、音声信号の有声部分に対して行われ、無声音部分にはマッピング処理を行わず、そのまま元の音声データを用いることは言うまでもない。また、補間は、線形補間に限定されるものでなく、単調増加関数による非線型な対応付けでもよい。具体的な生成については後段で詳述する。
【0029】
FFT 分析部22は、スペクトル抽出部14で行ったフーリエ変換と逆の変換、すなわち逆フーリエ変換を行う。この変換を施すことにより、周波数領域のデータを時間領域の音声素片データに戻す。また、変換素片辞書24は、素片辞書12と同じデータ構造を有するディスク状記録媒体である。変換素片辞書24は、FFT 分析部22からの音声素片データを格納する。このように構成して保持している音声素片データに声質変換を施して高品質な新たな音声素片データを作成している。
【0030】
次に声質変換装置10の動作を説明する。最初に、素片辞書12から音声素片データを読み出す。読み出した音声素片データは、スペクトル抽出部14のバッファメモリ14a に供給される。一時的に音声素片データを格納した後、第1演算部14b に出力する。第1演算部14b では、FFT 処理を施して供給された音声素片データを時間領域から周波数領域に変換する。この変換により、スペクトル領域のデータ系列を生成する。このとき得られる実部:x(i)と虚部:y(i)とにそれぞれ分けて第2演算部14c に供給する。供給されたこれらの値を用いて、パワースペクトル算出部140cは、パワースペクトルpow(i)を式(1)
【0031】
【数1】

Figure 0004468506
から算出する。
【0032】
また、位相項算出部142cは、位相項arg(i)を式(2)
【0033】
【数2】
arg(i)=tan-1{y(i)/x(i)} ・・・(2)
から算出する。算出結果はスペクトル生成部20に供給する。
【0034】
ところで、基準点設定部16では、帯域分割基準点が入力される。帯域分割部18では、この入力により定義された各周波数帯域の区間を単調増加関数で補間する。説明の簡単化のために単調増加関数として1次関数を用いる。1次関数は、帯域分割基準点を図3と同じに設定して、帯域No.0では周波数 0と2kHzの区間、帯域No.1では2kHzと8kHzの区間および帯域No.2では8kHzと11.025kHz の区間をそれぞれ直線補間している(図4の破線を参照)。この関係を表した周波数対応表が図4である。たとえば、帯域No.1内の周波数f1を変換する場合、周波数対応表の矢印の順に見て変換後の周波数TFを算出してもよい。また、実際に直線補間の一次関数の変数に周波数f1を代入して算出してもよい。このようにして新たに作成する声質変換する周波数TFが対応付けられることが判る。
【0035】
実際に読み出した音声素片データに対する声質変換は、スペクトル生成部20で供給されるスペクトル成分を周波数対応に応じたマッピング処理により行われる。作成された声質変換スペクトルデータがFFT 分析部22に供給される。FFT 分析部22では、供給されたデータに逆FFT 変換を施して新たな声質変換素片を得る。逆FFT 変換は、FFT 変換の処理とまったくの逆処理である。この変換処理を終了することにより一連の声質変換処理は終了する。そして、このようにして得られた新たな音声素片データは、変換素片辞書24に格納される。この格納処理により音声データ作成処理が終了する。
【0036】
この一連の動作により音声素片データを新たな声質の音声素片データに容易に変換することができる。声質変換装置10において、より具体的に格納されている素片辞書12の男性の音声「a 」に声質変換を施した。この声質変換の前後で音声「a 」がどのように変換されるかを比較してみる。ここで、図5には変換前の音声波形「a 」の合成波形(上段)とそのパワースペクトル波形(下段)を示し、図6には、変換後の合成波形(上段)とそのパワースペクトル波形(下段)を示す。ここでも、帯域分割基準点は、図3の設定と同じにしている。図5および図6の上段の合成波形を比較して、波形形状に大きな違いは見られないことが判る。これは、合成音の音韻性および自然性が保たれていることを示している。しかしながら、下段のパワースペクトルは、図6に示すように周波数3000Hz以上の高域成分の形状が連続的な形で大きく変形させられていることが判る。この合成音を聴取してみると、元の音声素片データによる合成音と異なる声質の合成音が高品質に得られた。
【0037】
次に声質変換装置10の変形例について図7を参照しながら説明する。ここで、前述の実施例と同じ部分には、同一の名称および参照符号を付して説明を省略する。本実施例の声質変換装置10は、スペクトル生成部20にパワースペクトルを調整する機能が追加されている。スペクトル生成部20には、変換スペクトル作成部20a およびパワー調整部20b が備えられている。変換スペクトル作成部20a は、前述の実施例のスペクトル作成部20でのスペクトルの変換をマッピング処理に基づいて行っている。
【0038】
たとえば、帯域分割基準点を4つ設定した場合、周波数範囲 0〜11.025kHz (=f4)を図8に示すように周波数f0〜f3と元の音声素片データをほぼ等分割する。このとき、先の実施例(周波数0 〜周波数f1)と同様に声質変換しない帯域No.0を、たとえば周波数0 〜周波数f0=TF0 =2kHzに設定する。これに対して、周波数2kHz<f ≦11.025kHz (=f4)の帯域分割は、この周波数範囲内での変換後の周波数の分割順序が保たれていれば任意に設定してよい(図8の変換後の周波数TF1 〜TF3 を参照)。このような設定のため変換後の帯域幅は、図8の帯域No.1〜帯域No.4に示すように、一定にならず、高域成分が抑圧される。
【0039】
これに加えて、パワースペクトルには一般に、-6dB/oct程度で減衰する特性がある(図9の細い実線)。図8の周波数対応関係にある新たな声質変換スペクトルデータのパワースペクトルを作成すると、そのパワースペクトルの減衰特性は望ましくない強調や抑圧を受けた特性を示す。この減衰特性は全周波数範囲にわたって周波数対応を関係付ける単調増加関数を見ると、帯域毎に直線補間する1次関数がそれぞれ異なることによる非線型性によって生じる。この結果、得られる合成音は、ローパスフィルタを通したような、こもった音に聞える。実際の減衰特性を調べて見ると、図9から明らかなように周波数0 〜11.025kHz までの帯域範囲のうち、たとえば、2kHz〜8kHz近傍のパワースペクトル成分が大きな抑圧を受けている。特に、周波数2kHz〜4kHzの減衰特性が大きく、-18dB/oct になっている(図9の太い実線を参照)。この減衰特性の落込み方が顕著で、一般の-6dB/octの減衰特性と比較して見ると、周波数4kHzのパワーレベルは周波数8kHzでのレベルとほぼ同等なほどまで抑圧を受けている。一方、周波数4kHz〜11.025kHz の間の減衰特性は、-2.6dB/octと小さい。
【0040】
パワー調整部20b は、変換スペクトル作成部20a で得られた声質変換スペクトルデータのうち、このような望ましくない抑圧・強調等による成分を除去するようにパワースペクトルの大きさだけを調整する。この調整により、パワースペクトル生成の中での望ましくない強調や抑制を調整する。このときパワー調整部20b は、位相項に対して何も処理しない。パワー調整部20b は、声質変換したスペクトルデータに対するパワースペクトルを作成するとともに、スペクトル抽出部14で算出した元々の音声素片データに対するパワースペクトルとこの作成したパワースペクトルとを比較する。これらのパワースペクトルの差が大きくなる場合に、スペクトル変換による意図しないスペクトル形状の強調・抑制を、変換後の帯域パワースペクトルを帯域前のパワースペクトルで正規化することにより調整する。このパワースペクトルを調整するために帯域の両端には余弦関数を用いて不連続にならないようにスムージングを施している。ここで、余弦関数を用いてスムージング化したが、余弦関数に限定されるものでなく、連続で滑らかな関数であればよい。
【0041】
具体的なパワースペクトルの調整について説明する。図4と同様に帯域分割基準点が2入力の場合、図10に示すように、周波数2kHz〜8kHzと周波数8kHz〜11.025kHz の2つの帯域における元々のパワースペクトルP30, P32がある。パワー調整部20b は、元々のパワースペクトルP30, P32を用いて、声質変換したスペクトルデータのパワースペクトルA30, A32の大きさを調整し、変換前と変換後の対応するパワースペクトル(の面積)をそれぞれ同じにする。たとえば、帯域2kHz〜8kHzまで変換前の帯域パワースペクトルを正規化すると、倍率 m=A30/P30 〜1.2 が得られる。この場合、この倍率分だけ面積を抑えるように、たとえば余弦関数を用いて平滑化して面積を同一化する。同様に、8kHz〜11.025kHz までの正規化により倍率 m=A32/P32 〜0.8 が得られる。この帯域では余弦関数を用いて面積を増やすように平滑化が行われる。これらの処理により、望ましくない抑圧・強調等を除くことができる。これにより、パワー調整部20b は声質変換したスペクトルデータを元の音声素片データのパワースペクトル減衰特性に準じた減衰特性にすることができる。
【0042】
たとえば、素片辞書12から読み出した音声素片をスペクトル抽出部14でFFT 処理し得られるパワースペクトルは、二点鎖線で示す-6dB/octに沿っていることが判る(図11(a) を参照)。スペクトル生成部20の変換スペクトル作成部20a で帯域分割基準点により分割された帯域毎に声質変換に伴うマッピング処理を行うと、パワースペクトルは帯域毎に大きく変化する。図11(a) と図11(b) との特性を比べると、大体3kHz〜5kHzで大きくレベルが低下している。これは声質変換処理によって望ましくない抑圧を受けたことを示している。この抑圧を除くようにパワー調整部20b は、帯域毎に変換前後の面積を同一にする調整を行う。調整の結果、図11(c) に示すように中域のパワースペクトルに大幅な改善が見られた。得られる合成音は、帯域分割基準点で帯域分割してマッピングすることによる声質変換の効果をより素直に反映して自然で明瞭になった。
【0043】
ところで、本実施例は、音源成分と声道成分とを分離しない素片を基にして声質変換を行って新たな素片の作成の試みを示したが、この他PSE 素片等のように音源成分を除去した素片を基に声質変換したスペクトルの生成を行うこともできる。声質変換装置10は、たとえば、原音声のピッチを変化させ、声の高さを変更する、いわゆる音声ピッチ変換装置のように、種々の音声出力装置に適用することも可能である。
【0044】
以上のように構成することにより、たとえば音声のモーフィングを行う際に生じて問題になる不適当な対応付けを回避し、周波数領域で声質変換を行わない大域と声質変換を行う帯域とを帯域分割基準点で分け、声質変換する帯域には周波数の対応付けに応じた変換を行い、得られた第2のスペクトル群に逆FFT 処理を施して新たな音声素片データを生成することにより、スペクトル操作による劣化の少ない、高品質な音声素片データを作成することができる。これにより、これまでなかった高品質な声質変換による音声素片の自動的な作成法を確立することができる。
【0045】
【発明の効果】
このように本発明の音声データ作成装置によれば、スペクトル分析手段で記憶手段から読み出した素片データを周波数領域のデータに変換する。素片データを用いることにより、音源成分と声道成分との分離しないで新たな素片データを生成することになる。そして、素片データを周波数領域のスペクトルデータに変換することにより、時間領域で生じる不適当な対応付けも回避できる。ここで、この周波数帯域は、第1のスペクトル群とし、新たな声質変換によるスペクトル帯域を第2のスペクトル群とする。基準設定手段でのこの両スペクトル群の対応付けの基準となる周波数の設定、帯域分割手段での設定したスペクトル帯域を帯域分割して周波数の対応付け関係を明らかにして、実際にスペクトル生成手段でこの対応付けに基づいて第2のスペクトル群の周波数データ、すなわち声質変換したスペクトルデータを生成する。逆変換手段ではこの各帯域の周波数データに逆スペクトル分析して時間領域の素片データに変換して、安定に高品質な声質変換を自動的に行って新たな変換素片データを生成することができ、得られた変換素片データを変換データ記憶手段に格納する。これにより、スペクトル操作による劣化の少ない、高品質な音声素片データを作成することができる。
【0046】
また、本発明の声質変換方法によれば、まず、素片データを周波数領域のデータに変換する。素片データを用いて音源成分と声道成分との分離しないで扱い、新たな素片データを生成し、素片データを周波数領域のスペクトルデータに変換することにより、時間領域で生じる不適当な対応付けを回避する。ここで、この周波数帯域を第1のスペクトル群とし、新たな声質変換によるスペクトル帯域を第2のスペクトル群とする。この両スペクトル群の対応付けの基準となる周波数を設定した後、スペクトル帯域を帯域分割する周波数の対応付け関係を明らかにする。実際にこの対応付けに基づいて第2のスペクトル群の周波数データに声質変換を施す。得られた各帯域の周波数データに逆スペクトル分析して時間領域の素片データに変換して、安定に高品質な声質変換を自動的に行って新たな変換素片データを生成している。これにより、これまでなかった高品質な声質変換による音声素片の自動的な作成法を確立することができる。
【図面の簡単な説明】
【図1】本発明に係る音声データ作成装置を声質変換装置に適用した際の概略的な構成を示すブロック図である。
【図2】図1のスペクトル抽出部の構成を示すブロック図である。
【図3】図1の基準点設定部および帯域分割部で行う周波数変換の対応関係を説明する模式図である。
【図4】図3の周波数対応関係を示す周波数対応表(声質変換)の例を説明する図である。
【図5】図4の声質変換前での音声素片データの合成波形とパワースペクトルを示すグラフである。
【図6】図4の声質変換後での音声素片データの合成波形とパワースペクトルを示すグラフである。
【図7】図1の声質変換装置の変形例の構成を示すブロック図である。
【図8】声質変換装置における周波数変換での高域成分の抑圧を説明する模式図である。
【図9】声質変換の有無に応じて得られるパワースペクトルの減衰特性を表す図である。
【図10】図9の声質変換した際に生じるパワースペクトルの減衰特性を改善する方法を説明する模式図である。
【図11】音声素片データに施す処理がスペクトル抽出、声質変換、およびパワー調整して得られたパワースペクトルを表すグラフである。
【符号の説明】
10 声質変換装置
12 素片辞書
14 スペクトル抽出部
16 基準点設定部
18 帯域分割部
20 スペクトル生成部
22 FFT 分析部
24 変換素片辞書
14a バッファメモリ
14b 第1演算部
14c 第2演算部
20a 変換スペクトル作成部
20b パワー調整部
140c パワースペクトル算出部
142c 位相項算出部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice data creation device and a voice quality conversion method, for example, a voice data creation apparatus and voice quality conversion of voice segment data for automatically creating other voice segment data by voice quality conversion of voice segment data. It is suitable for use in a voice quality conversion method or the like of a procedure to be performed, and particularly in conjunction with an apparatus or method for performing text-to-speech conversion.
[0002]
[Prior art]
In text-to-speech conversion in which a Japanese text is converted into speech and output, text analysis, parameter generation, and speech synthesis are sequentially performed. In text analysis, for example, morphological analysis is performed with reference to a word dictionary prepared with input kanji-kana mixed sentences. The reading, accent, intonation, etc. of the input sentence are determined by morphological analysis. From the determined information, phonetic symbols with prosodic symbols, so-called intermediate languages, are generated.
[0003]
In parameter generation, settings such as a pitch frequency pattern and a phoneme duration are performed. In speech synthesis, a process for synthesizing a speech using data obtained by these processes is performed. Until now, for example, a linear prediction method has been used for speech synthesis processing.
[0004]
The vocal tract information and the sound source information used in the linear prediction method are inherently related information. However, in the linear prediction method, these pieces of information are handled separately. As a result, the quality of the synthesized voice is degraded. Therefore, in recent years, there has been proposed a method for obtaining a high-quality synthesized sound using the original speech waveform as it is without separating the vocal tract information and the sound source information.
[0005]
However, since the speech synthesis process only superimposes the stored segment data, the voice quality of the synthesized speech cannot be changed. When such a voice quality is changed, when a plurality of synthesized sounds are to be output, a plurality of segment data created from a plurality of speakers must be held in advance. When creating the segment data, it is necessary to individually set detailed parameters that greatly depend on the shape of the speech waveform of each speaker. The necessity of this setting is a big problem in automating the process of creating segment data.
[0006]
In addition, when providing rich synthetic sounds that are more varied, the segment data size tends to increase. Such a speech synthesizer naturally has a large system configuration, which is a problem in realization. In consideration of such problems, proposals relating to voice quality conversion have been made.
[0007]
Here, the main method regarding the voice quality conversion of the specific speech synthesis will be described. This method includes a voice quality conversion process in the time domain and a voice quality conversion process in the frequency domain. The former method is a method of performing speech morphing that gradually changes speech using a plurality of speech data of the same phoneme, and obtaining speech having intermediate characteristics of speech newly synthesized with these speech data. An example of this method is, for example, JP-A-9-50295. The latter method is a method of obtaining new spectrum data by replacing spectrum data of a certain voice with spectrum data of another person in a certain frequency band. Examples of this method include, for example, Abe Nobunobu, “Speech Morphing by Gradual Deformation of Fundamental Frequency and Spectrum”, Acoustical Society of Japan Proceedings 2-1-8, p259-260, 1995.
[0008]
[Problems to be solved by the invention]
By the way, in the example of the former method among the methods described above, it is necessary to set a feature point serving as a reference for correspondence at the time of speech morphing at a position in the speech waveform. However, it is difficult to stably obtain this feature point due to the influence of waveform fluctuations. In addition, in this feature point association, when the waveform shape changes with time, that is, for example, when the number of waveform peaks in the corresponding section to be morphed changes, this association is inappropriately performed. There is a risk of being broken.
[0009]
In the latter method, the high-frequency spectrum data and the low-frequency spectrum data are created from different audio data. Therefore, the synthesized sound produced by the connection processing of these two spectrum data avoids deterioration in quality. I can't.
[0010]
Various voice quality conversion methods have been proposed in this way, but a high quality voice quality conversion method, particularly a segment creation method has not yet been established.
[0011]
The present invention eliminates the disadvantages of the prior art, creates segment data for voice quality conversion based on the segment data held, and can output high-quality synthesized sound even if spectrum operation is performed. An object is to provide a creation device and a voice quality conversion method.
[0012]
[Means for Solving the Problems]
In order to solve the above-mentioned problems, the present invention converts a plurality of audio signals into segment data and distributes them to the storage means in a predetermined order. Voice quality conversion is performed on the speech segment data supplied from the storage means. In the speech data creation device for creating new speech segment data, the spectrum analysis means for frequency-analyzing the segment data read from the storage means, and the frequency band of the segment data analyzed by the spectrum analysis means Is set as the first spectrum group, the spectrum band set by the new voice quality conversion is set as the second spectrum group, and a reference setting means for setting a frequency as a reference for correspondence between both spectrum groups, and a spectrum set by the reference setting means Band dividing means for dividing the band into bands and associating the frequency relationship of the first and second spectrum groups with the band dividing means A spectrum generating means for generating frequency data of the second spectrum group by using the correlation between the determined relationships and the spectrum from the spectrum analyzing means, and an inverse converting means for performing inverse spectrum analysis on the frequency data from the spectrum generating means The segment data obtained from the inverse conversion means is supplied to the conversion data storage means and stored therein.
[0013]
Here, it is preferable that the band dividing means interpolates the generated first and second spectrum group sections with a monotonically increasing function. This facilitates interpolation.
[0014]
The spectrum generation means includes a conversion spectrum creation means for creating a frequency data of the second spectrum group by expanding and contracting the spectrum in the first spectrum group based only on the association relationship of the frequencies, and the divided first spectrum. It is desirable to include a power adjusting unit that calculates the spectrum power for each band of the group and adjusts the spectrum size of the converted spectrum generating unit by the spectrum power in the first spectrum group. Emphasis and suppression by voice quality conversion to segment data can be eliminated.
[0015]
The power adjustment means may be adjusted so that the power spectrum areas in the first and second spectrum groups are the same.
[0016]
The voice data creation device of the present invention converts the segment data into frequency domain data by the spectrum analysis means. By using the segment data, new segment data is generated without separating the sound source component and the vocal tract component. Then, by converting the segment data into spectrum data in the frequency domain, inappropriate association that occurs in the time domain can be avoided. Here, this frequency band is a first spectrum group, and a spectrum band by a new voice quality conversion is a second spectrum group. The frequency that is the reference for the association between the two spectrum groups is set by the reference setting means, and the spectrum band set by the band dividing means is band-divided to clarify the frequency correlation. Actually, the spectrum generation means generates frequency data of the second spectrum group, that is, spectrum data subjected to voice quality conversion based on this association. The inverse conversion means performs inverse spectrum analysis on the frequency data of each band and converts it to segment data in the time domain, thereby automatically performing stable and high quality voice quality conversion to generate new converted segment data. Therefore, the obtained conversion piece data can be stored in the conversion data storage means.
[0017]
In addition, the present invention converts a plurality of speech signals into segment data and arranges them in a storage means prepared in a predetermined order, and performs voice quality conversion on speech segment data supplied from the storage means to create a new speech segment. In the voice quality conversion method for creating data, a spectrum analysis step for frequency-analyzing the segment data read from the storage means, and a frequency band of the segment data analyzed in the spectrum analysis step as a first spectrum group, A reference input step of setting a spectrum band by a voice quality conversion as a second spectrum group and setting a frequency as a reference for correspondence between the two spectrum groups, and dividing the spectrum band set in the reference input step into a first band And a band dividing step for associating the frequency relationship of the second spectrum group, and correspondence and scanning of the relationship obtained by the band dividing step. Including a spectrum generation step of generating frequency data of the second spectrum group using the spectrum from the spectrum analysis step, and an inverse conversion step of performing an inverse spectrum analysis on the frequency data from the spectrum generation step. The segment data obtained by the above is supplied and stored in a separately prepared storage means.
[0018]
Here, it is preferable that the band dividing step interpolates the generated first and second spectrum group sections with a monotonically increasing function.
[0019]
The spectrum generation step includes the conversion spectrum creation step of creating the frequency data of the second spectrum group by expanding and contracting the spectrum in the first spectrum group only from the relationship of the frequency correspondence, and the divided first spectrum A power adjustment step of calculating the power of the spectrum for each band of the group and adjusting the magnitude of the spectrum obtained in the conversion spectrum creation step in accordance with the spectrum power in the first spectrum group. desirable.
[0020]
The power adjustment step may be adjusted so that the power spectrum areas in the first and second spectrum groups are the same.
[0021]
The voice quality conversion method of the present invention first converts segment data into frequency domain data. By using the segment data, the sound source component and the vocal tract component are handled without being separated, and new segment data is generated. Then, by converting the segment data into spectrum data in the frequency domain, inappropriate association that occurs in the time domain is avoided. Here, this frequency band is a first spectrum group, and a spectrum band by a new voice quality conversion is a second spectrum group. After setting a frequency that is a reference for the association between the two spectrum groups, the association relationship between the frequencies for dividing the spectrum band is clarified. Actually, the voice quality conversion is performed on the frequency data of the second spectrum group based on this association. That is, the spectrum data subjected to voice quality conversion changes the band width by associating the frequency data of the second spectrum group. By performing inverse spectrum analysis on the obtained frequency data of each band and converting it to segment data in the time domain, stable and high quality voice quality conversion is automatically performed to generate new converted segment data .
[0022]
DETAILED DESCRIPTION OF THE INVENTION
Next, an embodiment of an audio data creation device and a voice quality conversion method according to the present invention will be described in detail with reference to the accompanying drawings.
[0023]
In this embodiment, a voice quality conversion device 10 to which a voice data creation device is applied will be described with reference to FIGS. As shown in FIG. 1, the voice quality conversion apparatus 10 includes a segment dictionary 12, a spectrum extraction unit 14, a reference point setting unit 16, a band division unit 18, a spectrum generation unit 20, an FFT analysis unit 22, and a conversion segment dictionary 24. Is provided. In the voice quality conversion apparatus 10, although not shown in FIG. 1, the above-described units are controlled by the system control unit for timing operations such as data reading / writing and analysis processing, for example.
[0024]
The segment dictionary 12 is a disk-shaped recording medium such as a magnetic disk or a magneto-optical disk. A large number of sampled speech segments are stored in the recording medium according to a predetermined rule. In the unit dictionary 12, a so-called database is constructed in which the stored speech unit data is stored in a data structure that can be read quickly. In order to obtain a higher quality synthesized sound, a natural waveform segment dictionary may be used.
[0025]
As shown in FIG. 2, the spectrum extraction unit 14 includes a buffer memory 14a, a first calculation unit 14b, and a second calculation unit 14c. The buffer memory 14a is a memory that temporarily stores speech segment data. The first calculation unit 14b is a calculation function unit that performs fast Fourier transform (FFT). When real-time spectrum analysis is required, it is possible to perform the calculation by hardware. The second calculation unit 14c calculates a power spectrum and a phase term based on the real part and imaginary part values calculated by the first calculation unit 14b as will be described later.
[0026]
The reference point setting unit 16 is a data input device. For data, for example, when the frequency values before and after conversion at the point of band division are input directly via a keyboard, or when using a pointing device, the surface is surrounded by the frequency axis before and after conversion. You may make it set by clicking one point. Setting in this way makes it easier to understand the band correspondence visually (see FIG. 3). This set reference point is a band division reference point.
[0027]
The band dividing unit 18 divides the frequency band range of the speech unit data into a plurality of parts and associates the frequencies before and after the band conversion. This association is performed by interpolating the defined frequency band intervals with a monotonically increasing function. For example, as shown in FIG. 3, when two points of symbol x are inputted, the band dividing unit 18 divides the range of the audio frequency into three frequency bands by inputting these two points. At this time, band No. 0, band No. 1, and band No. 2 are defined in order from the lowest frequency band. The frequency band range is 0 to 11.025 kHz. The horizontal axis represents the frequency before conversion, and the vertical axis represents the frequency after conversion. As is apparent from FIG. 3, focusing on the conversion for each band, it shows that the voice quality conversion is applied to the component exceeding 2 kHz while the component of 2 kHz or less of the speech segment data is kept as it is. Band No. 1 2-8 kHz corresponds to the new unit 2-4 kHz, and band No. 2 8-11.025 kHz corresponds to 4-11.025 kHz. The correspondence is performed by linear interpolation for each band. In this way, the relationship between the range used without converting the frequency of the original spectral data and the frequency range for creating new voice quality segment data is created. The former range is a section in which a low-order formant component, which is considered to mainly determine the phonological properties of the synthesized sound, exists. On the other hand, the latter range corresponds to a high frequency component of a spectrum in which individual voice characteristics appear, and the voice quality is changed by performing spectrum conversion on this range.
[0028]
The spectrum generating unit 20 linearly interpolates each band, which corresponds to the correspondence relationship of the band dividing unit 18, and maps the spectrum component to generate a new spectrum component. However, it goes without saying that this mapping is performed on the voiced portion of the audio signal, mapping processing is not performed on the unvoiced sound portion, and the original audio data is used as it is. In addition, the interpolation is not limited to linear interpolation, and may be nonlinear association by a monotonically increasing function. Specific generation will be described in detail later.
[0029]
The FFT analysis unit 22 performs a transformation opposite to the Fourier transformation performed by the spectrum extraction unit 14, that is, an inverse Fourier transformation. By performing this conversion, the frequency domain data is converted back to the time domain speech segment data. The conversion segment dictionary 24 is a disc-shaped recording medium having the same data structure as the segment dictionary 12. The conversion segment dictionary 24 stores the speech segment data from the FFT analysis unit 22. Voice quality conversion is performed on the speech segment data configured and held in this way to create new high-quality speech segment data.
[0030]
Next, the operation of the voice quality conversion device 10 will be described. First, speech segment data is read from the segment dictionary 12. The read speech segment data is supplied to the buffer memory 14a of the spectrum extraction unit 14. After temporarily storing the speech segment data, it is output to the first calculation unit 14b. The first computing unit 14b converts the speech unit data supplied after performing the FFT processing from the time domain to the frequency domain. By this conversion, a data series in the spectral region is generated. The real part: x (i) and the imaginary part: y (i) obtained at this time are separately supplied to the second arithmetic unit 14c. Using these supplied values, the power spectrum calculation unit 140c converts the power spectrum pow (i) to equation (1).
[0031]
[Expression 1]
Figure 0004468506
Calculate from
[0032]
Further, the phase term calculation unit 142c converts the phase term arg (i) into the equation (2)
[0033]
[Expression 2]
arg (i) = tan -1 {y (i) / x (i)} (2)
Calculate from The calculation result is supplied to the spectrum generation unit 20.
[0034]
By the way, the reference point setting unit 16 receives a band division reference point. The band dividing unit 18 interpolates the section of each frequency band defined by this input with a monotonically increasing function. In order to simplify the explanation, a linear function is used as a monotonically increasing function. In the linear function, the band division reference point is set to the same as in FIG. 3, the frequency 0 and 2 kHz sections for band No. 0, the sections 2 kHz and 8 kHz for band No. 1, and 8 kHz and 11.025 for band No. 2. Each section of kHz is linearly interpolated (see the broken line in FIG. 4). A frequency correspondence table showing this relationship is shown in FIG. For example, frequency f in band No.1 1 Is converted, the frequency T after conversion is viewed in the order of the arrows in the frequency correspondence table. F May be calculated. In addition, the frequency f 1 May be calculated by substituting. The newly created frequency T for voice conversion to be created F Are associated with each other.
[0035]
Voice quality conversion for the actually read speech segment data is performed by mapping the spectrum component supplied by the spectrum generation unit 20 according to the frequency correspondence. The created voice quality conversion spectrum data is supplied to the FFT analysis unit 22. The FFT analysis unit 22 performs inverse FFT conversion on the supplied data to obtain a new voice quality conversion segment. Inverse FFT conversion is exactly the reverse of the FFT conversion process. By ending this conversion processing, a series of voice quality conversion processing ends. The new speech segment data obtained in this way is stored in the conversion segment dictionary 24. The voice data creation process is completed by this storage process.
[0036]
Through this series of operations, the speech unit data can be easily converted into speech unit data of a new voice quality. In the voice quality conversion apparatus 10, voice quality conversion was performed on the male voice “a” in the segment dictionary 12 stored more specifically. Compare how the voice “a” is converted before and after this voice quality conversion. Here, FIG. 5 shows a synthesized waveform (upper) of the speech waveform “a” before conversion and its power spectrum waveform (lower), and FIG. 6 shows a synthesized waveform (upper) after conversion and its power spectrum waveform. (Lower) is shown. Again, the band division reference point is the same as the setting of FIG. Comparing the synthesized waveforms in the upper part of FIGS. 5 and 6, it can be seen that there is no significant difference in the waveform shape. This indicates that the phoneme and naturalness of the synthesized sound are maintained. However, in the lower power spectrum, as shown in FIG. 6, it can be seen that the shape of the high frequency component having a frequency of 3000 Hz or more is greatly deformed in a continuous form. When listening to this synthesized sound, a synthesized sound with a voice quality different from the synthesized sound based on the original speech segment data was obtained with high quality.
[0037]
Next, a modification of the voice quality conversion device 10 will be described with reference to FIG. Here, the same parts as those in the above-described embodiment are denoted by the same names and reference numerals, and description thereof is omitted. In the voice quality conversion apparatus 10 of the present embodiment, a function for adjusting the power spectrum is added to the spectrum generation unit 20. The spectrum generation unit 20 includes a conversion spectrum creation unit 20a and a power adjustment unit 20b. The converted spectrum creating unit 20a performs spectrum conversion in the spectrum creating unit 20 of the above-described embodiment based on the mapping process.
[0038]
For example, when four band division reference points are set, the frequency range is 0 to 11.025 kHz (= f Four ) As shown in FIG. 0 ~ F Three And the original speech segment data are divided into approximately equal parts. At this time, the previous embodiment (frequency 0 to frequency f 1 ) No.0, for example, frequency 0 to frequency f 0 = T F0 Set to 2 kHz. On the other hand, frequency 2kHz <f ≤ 11.025kHz (= f Four ) May be arbitrarily set as long as the frequency division order after conversion within this frequency range is maintained (frequency T after conversion in FIG. 8). F1 ~ T F3 See). Due to such setting, the bandwidth after conversion is not constant, as shown in band No. 1 to band No. 4 in FIG. 8, and the high frequency component is suppressed.
[0039]
In addition to this, the power spectrum generally has a characteristic of attenuation at about -6 dB / oct (the thin solid line in FIG. 9). When the power spectrum of the new voice quality conversion spectrum data having the frequency correspondence relationship of FIG. 8 is created, the attenuation characteristic of the power spectrum shows a characteristic that has undergone undesirable emphasis or suppression. This attenuation characteristic is caused by non-linearity due to different linear functions for linear interpolation for each band when looking at a monotonically increasing function relating frequency correspondence over the entire frequency range. As a result, the resultant synthesized sound can be heard as a muffled sound that has passed through a low-pass filter. Examining the actual attenuation characteristics, as is clear from FIG. 9, for example, the power spectrum component in the vicinity of 2 kHz to 8 kHz in the band range from 0 to 11.025 kHz is greatly suppressed. In particular, the attenuation characteristic at a frequency of 2 kHz to 4 kHz is large and is -18 dB / oct (see the thick solid line in FIG. 9). The fall of this attenuation characteristic is remarkable, and when compared with the general attenuation characteristic of -6 dB / oct, the power level of the frequency 4 kHz is suppressed to a level almost equal to the level at the frequency 8 kHz. On the other hand, the attenuation characteristic between frequency 4kHz and 11.025kHz is as small as -2.6dB / oct.
[0040]
The power adjustment unit 20b adjusts only the magnitude of the power spectrum so as to remove such undesirable components due to suppression / enhancement from the voice quality conversion spectrum data obtained by the conversion spectrum creation unit 20a. This adjustment adjusts undesired enhancement and suppression in the generation of the power spectrum. At this time, the power adjustment unit 20b does not process anything for the phase term. The power adjustment unit 20b creates a power spectrum for the spectrum data subjected to voice quality conversion, and compares the power spectrum for the original speech segment data calculated by the spectrum extraction unit 14 with the created power spectrum. When the difference between these power spectra becomes large, unintentional spectral shape enhancement / suppression by spectral conversion is adjusted by normalizing the converted band power spectrum with the power spectrum before the band. In order to adjust this power spectrum, smoothing is applied to both ends of the band using a cosine function so as not to be discontinuous. Here, smoothing is performed using a cosine function, but the function is not limited to the cosine function, and may be a continuous and smooth function.
[0041]
Specific power spectrum adjustment will be described. As in FIG. 4, when the band division reference point has two inputs, as shown in FIG. 10, the original power spectrum P in two bands of frequency 2 kHz to 8 kHz and frequency 8 kHz to 11.025 kHz. 30 , P 32 There is. The power adjustment unit 20b is configured to use the original power spectrum P 30 , P 32 The power spectrum A of the spectral data converted using voice 30 , A 32 Is adjusted so that the corresponding power spectra before and after conversion are the same. For example, when normalizing the band power spectrum before conversion from 2 kHz to 8 kHz, the magnification m = A 30 / P 30 ~ 1.2 is obtained. In this case, the area is equalized by smoothing using, for example, a cosine function so as to suppress the area by this magnification. Similarly, magnification m = A by normalization from 8kHz to 11.025kHz 32 / P 32 ~ 0.8 is obtained. In this band, smoothing is performed to increase the area using a cosine function. By these processes, undesirable suppression / emphasis can be removed. As a result, the power adjustment unit 20b can make the spectrum data subjected to voice quality conversion into an attenuation characteristic according to the power spectrum attenuation characteristic of the original speech segment data.
[0042]
For example, it can be seen that the power spectrum obtained by performing the FFT processing on the speech segment read out from the segment dictionary 12 by the spectrum extraction unit 14 is along −6 dB / oct indicated by a two-dot chain line (FIG. 11 (a)). reference). When mapping processing accompanying voice quality conversion is performed for each band divided by the band division reference point in the conversion spectrum creation unit 20a of the spectrum generation unit 20, the power spectrum changes greatly for each band. Comparing the characteristics of FIG. 11 (a) and FIG. 11 (b), the level is greatly reduced at about 3 kHz to 5 kHz. This indicates that undesired suppression was received by the voice quality conversion process. The power adjustment unit 20b performs adjustment to make the area before and after conversion the same for each band so as to eliminate this suppression. As a result of the adjustment, as shown in FIG. 11 (c), a significant improvement was observed in the mid-range power spectrum. The resultant synthesized sound became more natural and clear, more directly reflecting the voice quality conversion effect obtained by performing band division and mapping at the band division reference point.
[0043]
By the way, in this embodiment, an attempt was made to create a new segment by performing voice quality conversion based on a segment that does not separate a sound source component and a vocal tract component. It is also possible to generate a spectrum subjected to voice quality conversion based on the segment from which the sound source component is removed. The voice quality conversion device 10 can also be applied to various audio output devices such as a so-called audio pitch conversion device that changes the pitch of the original voice and changes the pitch of the voice.
[0044]
By configuring as described above, for example, an inappropriate association that occurs when performing speech morphing is avoided, and a global band that does not perform voice quality conversion in a frequency domain and a band that performs voice quality conversion are band-divided. By dividing the reference points and converting the voice quality into a band that corresponds to the frequency mapping, the second spectrum group obtained is subjected to inverse FFT processing to generate new speech segment data. It is possible to create high quality speech segment data that is less degraded by operation. As a result, it is possible to establish a method for automatically generating speech segments by high-quality voice quality conversion, which has never existed before.
[0045]
【The invention's effect】
As described above, according to the audio data creation apparatus of the present invention, the segment data read from the storage means by the spectrum analysis means is converted into frequency domain data. By using the segment data, new segment data is generated without separating the sound source component and the vocal tract component. Then, by converting the segment data into spectrum data in the frequency domain, inappropriate association occurring in the time domain can be avoided. Here, this frequency band is a first spectrum group, and a spectrum band by a new voice quality conversion is a second spectrum group. The frequency setting as a reference for the correspondence between the two spectrum groups in the reference setting means, the spectral band set in the band dividing means is band-divided to clarify the frequency correspondence, and the spectrum generating means actually Based on this association, frequency data of the second spectrum group, that is, spectrum data subjected to voice quality conversion is generated. The inverse conversion means performs inverse spectrum analysis on the frequency data of each band and converts it to time domain segment data, and automatically performs stable and high quality voice quality conversion to generate new converted segment data. The obtained conversion segment data is stored in the conversion data storage means. Thereby, it is possible to create high-quality speech segment data with little deterioration due to spectrum operation.
[0046]
Also, according to the voice quality conversion method of the present invention, first, segment data is converted into frequency domain data. Using the segment data without separating the sound source component from the vocal tract component, generating new segment data, and converting the segment data into spectrum data in the frequency domain, resulting in inappropriate time domain Avoid mapping. Here, this frequency band is set as the first spectrum group, and the spectrum band by the new voice quality conversion is set as the second spectrum group. After setting a frequency that is a reference for the association between the two spectrum groups, the association relationship between the frequencies for dividing the spectrum band is clarified. Actually, the voice quality conversion is performed on the frequency data of the second spectrum group based on this association. The obtained frequency data of each band is subjected to inverse spectrum analysis and converted into segment data in the time domain, and high quality voice quality conversion is automatically performed stably to generate new converted segment data. As a result, it is possible to establish a method for automatically generating speech segments by high-quality voice quality conversion, which has never existed before.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a schematic configuration when an audio data creation device according to the present invention is applied to a voice quality conversion device.
FIG. 2 is a block diagram showing a configuration of a spectrum extraction unit in FIG. 1;
FIG. 3 is a schematic diagram for explaining a correspondence relationship of frequency conversion performed by a reference point setting unit and a band dividing unit in FIG. 1;
4 is a diagram for explaining an example of a frequency correspondence table (voice quality conversion) showing the frequency correspondence relationship of FIG. 3; FIG.
5 is a graph showing a synthesized waveform and power spectrum of speech segment data before voice quality conversion in FIG. 4; FIG.
6 is a graph showing a synthesized waveform and power spectrum of speech segment data after the voice quality conversion of FIG. 4;
7 is a block diagram showing a configuration of a modified example of the voice quality conversion device of FIG. 1; FIG.
FIG. 8 is a schematic diagram for explaining suppression of high frequency components in frequency conversion in the voice quality conversion apparatus.
FIG. 9 is a diagram illustrating attenuation characteristics of a power spectrum obtained according to the presence or absence of voice quality conversion.
10 is a schematic diagram for explaining a method for improving attenuation characteristics of a power spectrum generated when voice quality conversion is performed in FIG. 9; FIG.
FIG. 11 is a graph showing a power spectrum obtained by performing spectrum extraction, voice quality conversion, and power adjustment on processing performed on speech element data.
[Explanation of symbols]
10 Voice quality conversion device
12 fragment dictionary
14 Spectrum extractor
16 Reference point setting section
18 Band division
20 Spectrum generator
22 FFT analyzer
24 conversion fragment dictionary
14a Buffer memory
14b First operation part
14c Second operation unit
20a Conversion spectrum generator
20b Power adjustment unit
140c power spectrum calculator
142c Phase term calculator

Claims (4)

複数の音声信号が素片データ化され所定の順序で記憶手段に配されており、該記憶手段から供給される音声の素片データに声質変換を施して新たな音声の素片データを作成する音声データ作成装置において、該装置は、
前記記憶手段から読み出した素片データを周波数的にスペクトル分析するスペクトル分析手段と、
前記スペクトル分析手段で分析した素片データの周波数帯域を、音声変換前における第1のスペクトル群に設定し、新たな声質変換によるスペクトル帯域を、音声変換後における第2のスペクトル群に設定して両スペクトル群の対応付けの基準となる周波数を設定する基準設定手段と、
該基準設定手段で設定したスペクトル帯域を帯域分割するとともに、前記第1および前記第2のスペクトル群の周波数関係を対応付ける帯域分割手段と、
該帯域分割手段により得られた関係の対応付けおよび前記スペクトル分析手段からのスペクトルを用いて、前記第2のスペクトル群の周波数データを生成するスペクトル生成手段と、
該スペクトル生成手段からの周波数データに逆スペクトル分析を施す逆変換手段とを含み、
前記スペクトル生成手段は、さらに、前記周波数の対応付けの関係だけから、前記第1の群内のスペクトルの伸縮を行い、前記第2のスペクトル群の周波数データを作成する変換スペクトル作成手段と、
前記分割した第1のスペクトル群の各帯域毎にスペクトルのパワーを算出するとともに、該第1のスペクトル群内のスペクトルパワーによって前記変換スペクトル作成手段のスペクトルの大きさを調整するパワー調整手段とを含み、
該パワー調整手段は、前記第1のスペクトル群における帯域それぞれのパワースペクトルの面積と、前記第1のスペクトル群における帯域それぞれに対応する前記第2のスペクトル群におけるパワースペクトル面積が同じになるように調整し、
該装置は、前記逆変換手段から得られた素片データを変換データ記憶手段に供給して格納することを特徴とする音声データ作成装置。
A plurality of speech signals are converted into segment data and arranged in a predetermined order in the storage means, and voice quality conversion is performed on the speech segment data supplied from the storage means to create new speech segment data. In the audio data creation device, the device includes:
Spectrum analysis means for frequency-analyzing the fragment data read from the storage means;
The frequency band of the segment data analyzed by the spectrum analysis means is set to the first spectrum group before the voice conversion, and the spectrum band by the new voice quality conversion is set to the second spectrum group after the voice conversion. A reference setting means for setting a frequency that is a reference for correspondence between both spectrum groups;
Band dividing means for dividing the spectrum band set by the reference setting means and associating the frequency relationship of the first and second spectrum groups;
Spectrum generating means for generating frequency data of the second spectrum group by using the correlation of the relationship obtained by the band dividing means and the spectrum from the spectrum analyzing means;
Inverse transform means for performing inverse spectrum analysis on the frequency data from the spectrum generation means,
The spectrum generation means further performs conversion spectrum creation means for creating the frequency data of the second spectrum group by performing expansion and contraction of the spectrum in the first group only from the association relationship of the frequencies,
A power adjusting means for calculating the power of the spectrum for each band of the divided first spectrum group and adjusting the magnitude of the spectrum of the converted spectrum creating means by the spectrum power in the first spectrum group; Including
The power adjusting means, the area of the first band each of the power spectrum in spectrum groups, as the area of the power spectrum in the second spectral group corresponding to the band, respectively, in the first spectral group is the same Adjust to
The apparatus supplies the segment data obtained from the inverse conversion means to the conversion data storage means for storage.
請求項1に記載の装置において、前記帯域分割手段は、生成した前記第1および前記第2のスペクトル群の区間内を単調増加関数で補間することを特徴とする音声データ作成装置。  2. The apparatus according to claim 1, wherein the band dividing means interpolates the generated first and second spectrum groups with a monotonically increasing function. 複数の音声信号を素片データ化し所定の順序で用意した記憶手段に配し、該記憶手段から供給される音声の素片データに声質変換を施して新たな音声の素片データを作成する声質変換方法において、該方法は、
前記記憶手段から読み出した素片データを周波数的にスペクトル分析するスペクトル分析工程と、
前記スペクトル分析工程で分析した素片データの周波数帯域を、音声変換前における第1のスペクトル群に設定し、新たな声質変換によるスペクトル帯域を、音声変換後における第2のスペクトル群に設定して両スペクトル群の対応付けの基準となる周波数を設定する基準入力工程と、
該基準入力工程で設定したスペクトル帯域を帯域分割するとともに、前記第1および前記第2のスペクトル群の周波数関係を対応付ける帯域分割工程と、
該帯域分割工程により得られた関係の対応付けおよび前記スペクトル分析工程からのスペクトルを用いて、前記第2のスペクトル群の周波数データを生成するスペクトル生成工程と、
該スペクトル生成工程からの周波数データに逆スペクトル分析を施す逆変換工程とを含み、
前記スペクトル生成工程は、前記周波数の対応付けの関係だけから、前記第1のスペクトル群内のスペクトルの伸縮を行い、前記第2のスペクトル群の周波数データを作成する変換スペクトル作成工程と、
前記分割した第1のスペクトル群の各帯域毎にスペクトルのパワーを算出するとともに、該第1のスペクトル群内のスペクトルパワーに応じて前記変換スペクトル作成工程で得られたスペクトルの大きさを調整するパワー調整工程とを含み、
前記パワー調整工程は、前記第1のスペクトル群における帯域それぞれのパワースペクトルの面積と、前記第1のスペクトル群における帯域それぞれに対応する前記第2のスペクトル群におけるパワースペクトルの面積とを同じになるように調整し、
該方法は、前記逆変換工程により得られた素片データを別途用意した記憶手段に供給して格納することを特徴とする声質変換方法。
Voice quality for generating a new voice segment data by converting a plurality of voice signals into segment data, arranging them in storage means prepared in a predetermined order, and performing voice quality conversion on the voice segment data supplied from the storage means In the conversion method, the method comprises:
A spectral analysis step of performing spectral analysis on the frequency of the fragment data read from the storage means;
The frequency band of the segment data analyzed in the spectrum analysis step is set to the first spectrum group before the voice conversion, and the spectrum band by the new voice quality conversion is set to the second spectrum group after the voice conversion. A reference input step for setting a frequency to be a reference for correspondence between both spectrum groups;
A band dividing step of dividing the spectrum band set in the reference input step and associating the frequency relationship of the first and second spectrum groups;
A spectrum generation step of generating frequency data of the second spectrum group using the association of the relationship obtained by the band dividing step and the spectrum from the spectrum analysis step;
An inverse transform step of performing an inverse spectrum analysis on the frequency data from the spectrum generation step,
The spectrum generation step performs the expansion and contraction of the spectrum in the first spectrum group only from the association relationship of the frequency, and the conversion spectrum creation step of creating the frequency data of the second spectrum group,
The spectrum power is calculated for each band of the divided first spectrum group, and the magnitude of the spectrum obtained in the converted spectrum creation step is adjusted according to the spectrum power in the first spectrum group. Power adjustment process,
In the power adjustment step, the power spectrum area of each band in the first spectrum group is the same as the power spectrum area in the second spectrum group corresponding to each band in the first spectrum group. Adjust so that
In this method, the segment data obtained by the inverse transformation step is supplied to and stored in a separately prepared storage means.
請求項3に記載の方法において、前記帯域分割工程は、前記生成した第1および第2のスペクトル群の区間内を単調増加関数で補間することを特徴とする声質変換方法。  4. The voice quality conversion method according to claim 3, wherein in the band dividing step, the generated first and second spectrum groups are interpolated with a monotonically increasing function.
JP05963299A 1999-03-08 1999-03-08 Voice data creation device and voice quality conversion method Expired - Lifetime JP4468506B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05963299A JP4468506B2 (en) 1999-03-08 1999-03-08 Voice data creation device and voice quality conversion method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05963299A JP4468506B2 (en) 1999-03-08 1999-03-08 Voice data creation device and voice quality conversion method

Publications (2)

Publication Number Publication Date
JP2000259164A JP2000259164A (en) 2000-09-22
JP4468506B2 true JP4468506B2 (en) 2010-05-26

Family

ID=13118815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05963299A Expired - Lifetime JP4468506B2 (en) 1999-03-08 1999-03-08 Voice data creation device and voice quality conversion method

Country Status (1)

Country Link
JP (1) JP4468506B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE515021T1 (en) 2004-10-27 2011-07-15 Yamaha Corp TONE CONVERSION DEVICE
JP4839891B2 (en) * 2006-03-04 2011-12-21 ヤマハ株式会社 Singing composition device and singing composition program
US9996612B2 (en) * 2007-08-08 2018-06-12 Sony Corporation System and method for audio identification and metadata retrieval
WO2009022454A1 (en) * 2007-08-10 2009-02-19 Panasonic Corporation Voice isolation device, voice synthesis device, and voice quality conversion device

Also Published As

Publication number Publication date
JP2000259164A (en) 2000-09-22

Similar Documents

Publication Publication Date Title
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
EP2881947B1 (en) Spectral envelope and group delay inference system and voice signal synthesis system for voice analysis/synthesis
JP2003255998A (en) Singing synthesizing method, device, and recording medium
WO2009034167A1 (en) Audio signal transforming
JP2001282278A (en) Voice information processor, and its method and storage medium
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
JP2018004870A (en) Speech synthesis device and speech synthesis method
KR100457414B1 (en) Speech synthesis method, speech synthesizer and recording medium
JP3450237B2 (en) Speech synthesis apparatus and method
Roebel A shape-invariant phase vocoder for speech transformation
O'Brien et al. Concatenative synthesis based on a harmonic model
JP2018077283A (en) Speech synthesis method
US6832192B2 (en) Speech synthesizing method and apparatus
JP4468506B2 (en) Voice data creation device and voice quality conversion method
US20090326951A1 (en) Speech synthesizing apparatus and method thereof
JP4274852B2 (en) Speech synthesis method and apparatus, computer program and information storage medium storing the same
Acero Source-filter models for time-scale pitch-scale modification of speech
Al-Radhi et al. A continuous vocoder using sinusoidal model for statistical parametric speech synthesis
JP4963345B2 (en) Speech synthesis method and speech synthesis program
JP6834370B2 (en) Speech synthesis method
JP3727885B2 (en) Speech segment generation method, apparatus and program, and speech synthesis method and apparatus
JPH07261798A (en) Voice analyzing and synthesizing device
Bonada et al. Improvements to a sample-concatenation based singing voice synthesizer
JP2018077280A (en) Speech synthesis method
Min et al. A hybrid approach to synthesize high quality Cantonese speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060202

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20090107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090323

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100225

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3