JP2003066982A - 音声合成装置および音声合成方法、並びに、プログラム記録媒体 - Google Patents
音声合成装置および音声合成方法、並びに、プログラム記録媒体Info
- Publication number
- JP2003066982A JP2003066982A JP2001261327A JP2001261327A JP2003066982A JP 2003066982 A JP2003066982 A JP 2003066982A JP 2001261327 A JP2001261327 A JP 2001261327A JP 2001261327 A JP2001261327 A JP 2001261327A JP 2003066982 A JP2003066982 A JP 2003066982A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- voice quality
- quality conversion
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
で複数声質に対応する。 【解決手段】 素片記憶部3には、音声素片のスペクト
ル形状をLPCやLPC係数やLSP係数として保持し
てデータ容量の削減を図る。声質変換部5のLSP係数
変形部は、素片選択部4で選択された音声素片のLSP
係数を、声質変換パラメータ入部2からの声質変換パラ
メータk,pに応じた度合と方向とで線形型または非線
型の周波数変換を少ない処理量で行う。声質変換部5の
LSP次数変換部は、線形変換でk>1の場合には、ナ
イキスト周波数πよりも大きくなった次数のLSP係数
を削除する。こうして、合成フィルタの安定性が損なわ
れないようにする。また、非線形変換でp<1の場合に
は、pに基づく個分だけ高次数側のLSP係数を削除す
る。こうして、高周波数領域が不自然に強調されたり合
成フィルタの動作が不安定になるのを防止する。
Description
を入力して音声データに変換する音声合成装置および音
声合成方法、並びに、音声合成処理プログラムを記録し
たプログラム記録媒体に関する。
する方法として、音声素片を複数声質分用意し、上記音
声素片を切り換えて合成する素片切り換え法と、一つの
音声素片のデータからスペクトル変換等を用いて異なる
声質の合成音声を得る声質変換法とがある。そして、後
者の声質変換法は、データ量の大きな音声素片を複数持
つ必要が無く、声質変換のパラメータによって連続的に
様々な声質の音声を合成する事ができるため効率的であ
る。
量子化を用いる方法やスペクトル領域での変換関数を用
いる方法がある。上記ベクトル量子化を用いる方法で
は、一般にある話者の音声で作成した代表スペクトルパ
ラメータの集合であるコードブックから他の話者のコー
ドブックヘのマッピングを求め、入力話者の声を短い時
間に区切ったフレーム毎に量子化し、量子化コードを変
換して異なる話者の声で再生する。このように、上記ベ
クトル量子化を用いる方法は、声質変換そのものを目的
とした装置で用いられる。従って、音声合成に用いる場
合には、コードブックを声質分だけ複数持つ必要があ
り、あまり効率的な方法とは言えない。
では、フレーム毎のスペクトルにおける周波数軸を変形
させることによって、ホルマントを移動したり、周波数
毎のエネルギーを変化させることによって声質を変化さ
せる。そのために自由度が高く、変換関数のパラメータ
のみを記憶するだけで声質変換が可能であるため、音声
合成装置として利用し易い。しかしながら、その一方で
は、周波数軸の変換には計算量の多いフーリエ変換の処
理が複数回必要となる。
トルの表現としては、線スペクトル対(LSP)を用いる
方法が一般によく知られている。LSP係数は、線形予
測係数(LPC係数)から求めることができる。そして、
LSPの各係数は周波数軸上の位置を表現しており、L
SP係数の密度の高い周波数域はスペクトルのエネルギ
ーの集中を表し、スペクトルのピークは音声のフォルマ
ントに対応している。したがって、LSP係数の変形
は、フォルマントの周波数方向の移動を行うのに適して
いるとされている。このことから、LSP係数を線形に
伸縮することによってフォルマント位置が線形に伸縮す
ることは容易に推察できる。
いたスぺクトルの変形は、合成に用いる合成フィルタの
安定性を損なう場合がある。そのため、従来において
は、LSP係数によるスペクトルの操作として実際に応
用されるのは、時間的に離散的なスペクトル間を内挿す
る目的やスペクトルを安定化させる目的のために、隣接
するLSP係数の距離を離したりあるいはピークを強調
するために隣接するLSP係数の距離を調節したりする
用途が殆どである。
ウム音声の修復の為にLSPを用いる方法が述べられて
いる。ヘリウム内では音速が通常の空気よりも早いため
に、フォルマントが高い周波数へ移動する。また、高圧
のヘリウム内で作業する人の音声は非線型なフォルマン
トの移動が起こる。上記公報においては、LSP係数を
非線型に低域側へ移動する際に、移動後のLSP係数が
虚数にならないように移動後のLSP係数を修正するこ
とが開示されている。
600号公報に開示されているようなLSP係数に対す
るスペクトルの変形は、場合によっては合成用フィルタ
の安定性を損なう場合がある。その場合には、合成波形
が発振して合成音声に異音が出力される。
フトする場合には、LSP係数を線形に伸張することが
考えられる。ところが、その場合、当然ながら、LSP
係数はナイキスト周波数(サンプリング周波数の1/2の
周波数)よりも高くなってしまう場合があり、合成用フ
ィルタの安定性を失うことになる。それを防止するため
に、折れ線の形状を有する変換関数あるいは非線型の変
換関数を用いて、高域のフォルマントが上記ナイキスト
周波数へ漸近し、ナイキスト周波数を超えないように変
換する方法が考えられる。但し、この方法によると、低
域側のLSP係数の間隔が広くなり、高域側のLSP係
数の間隔が狭くなることになる。その結果、高域側のス
ペクトルが相対的に強くなってしまう。さらに、高域側
の強いスペクトルを変換した場合には、合成フィルタの
安定性を損なう場合もある。
ヘシフトする場合には、LSP係数が線形に縮小される
ことによって、低域のLSP係数の間隔が接近すること
になる。その場合には、合成フィルタの特性が不安定と
なることがある。
0号公報においては、このようなLSP係数に対してス
ペクトルの変形を行った場合に合成用フィルタの安定性
が損なわれることの対策に付いては、一切述べられては
いないのである。
片データ容量と少ない処理量とによって複数の声質に対
応できる音声素片を用いた音声合成装置及び音声合成方
法、並びに、音声合成処理プログラムを記録したプログ
ラム記録媒体を提供することにある。
め、第1の発明は、少なくともテキスト情報あるいは音
素情報が入力されるテキスト入力手段と,声質変換パラ
メータが入力される声質変換パラメータ入力手段と,音
声素片データが格納される素片記憶手段と,入力された
テキスト情報または音素情報に応じて上記音声素片デー
タを選択する素片選択手段と,上記選択された音声素片
データの声質を入力された声質変換パラメータに応じて
変換する声質変換手段と,声質が変換された音声素片デ
ータに基づいて音声波形を合成する波形合成手段を有す
る音声合成装置において、上記素片記憶手段に記憶され
ている音声素片データはLSP係数あるいはLSPに変
換可能なスペクトル情報であり、上記声質変換手段は,
上記入力された声質変換パラメータに応じて,上記選択
された音声素片から求められるLSP係数を周波数方向
に線形にあるいは非線形に拡張あるいは伸縮して,ホル
マント位置を周波数方向に移動することによって声質を
変化させる係数変形手段を備えていることを特徴として
いる。
れている音声素片データはLSP係数で表現されてい
る。こうして、上記音声素片データの容量の削減が図ら
れる。また、声質変換手段の係数変形手段によって、選
択された音声素片のLSP係数が、入力された声質変換
パラメータに応じて周波数方向に線形にあるいは非線形
に拡張あるいは伸縮され、ホルマント位置が周波数方向
に移動されて声質が変化される。その際におけるLSP
係数の拡張あるいは伸縮は、LSP係数として圧縮され
たスペクトル情報を用いて少ない処理量で行われる。
声合成装置において、上記声質変換手段は、上記係数変
形手段によって周波数方向に拡張あるいは伸縮されたL
SP係数のLSP次数を、上記入力された声質変換パラ
メータに応じて変化させる次数変化手段を備えている。
次数変化手段によって、例えば、線形変換関数による高
域側への周波数変換が行われた場合には、ナイキスト周
波数πよりも大きくなった次数のLSP係数が削除され
る。こうして、LSP係数がナイキスト周波数πを超え
ないようにして、合成フィルタの安定性が損なわれるこ
とが防止される。また、非線形変換関数による高域側へ
の周波数変換が行われた場合には、声質変換パラメータ
に基づいて高次数側からLSP係数が削除される。こう
して、高周波数領域におけるLSP係数間の距離が小さ
くなって不自然に強調されたり、合成フィルタの動作不
安定によって出力波形が発振したりすることが防止され
る。
声合成装置において、上記波形合成手段によって合成さ
れた音声波形の周波数スペクトルの特性を上記入力され
た声質変換パラメータに応じて変更して、上記合成され
た音声波形の不自然な周波数スペクトルの偏りを補正す
るスペクトル補正手段を備えている。
おいて、例えば、非線形変換関数による高域側への周波
数変換が行われた場合は、合成された音声波形の高域が
スペクトル補正手段によって抑制される。一方、低域側
への周波数変換が行われた場合は、合成された音声波形
の低域がスペクトル補正手段によって抑制される。こう
して、不自然なスペクトルの偏りの補正が行われるので
ある。
声合成装置において、上記素片記憶手段に記憶されてい
る音声素片データは、予め、フォルマント位置が標準の
位置よりも低周波数側に移動されている。
には、低域側に存在する低次のLSP係数が略線形に縮
小される。その場合、低次のLSP係数間の距離が近づ
くので合成フィルタが不安定になり、低周波数側への変
換の範囲が限られることになる。この実施例によれば、
予め、フォルマント位置が標準よりも低周波数側に移動
されている。したがって、合成フィルタが不安定になり
易い低域側へのフォルマント移動量が少なくなり、より
広い範囲の周波数変換が可能になる。
ら少なくともテキスト情報あるいは音素情報を入力し,
入力されたテキスト情報または音素情報に応じて素片選
択手段によって素片記憶手段から音声素片データを選択
し,上記選択された音声素片データの声質を声質変換手
段によって声質変換パラメータ入力手段から入力された
声質変換パラメータに応じて変換し,声質が変換された
音声素片データに基づいて波形合成手段によって音声波
形を合成する音声合成方法において、上記素片記憶手段
には上記音声素片データとしてLSP係数あるいはLS
Pに変換可能なスペクトル情報を記憶し、上記声質変換
手段による声質の変換は,上記入力された声質変換パラ
メータに応じて,上記選択された音声素片から求められ
るLSP係数を周波数方向に線形にあるいは非線形に拡
張あるいは伸縮して,ホルマント位置を周波数方向に移
動させることによって行われることを特徴としている。
P係数で表現されているので、上記音声素片データの容
量の削減が図られる。また、選択された音声素片のLS
P係数が拡張あるいは伸縮され、ホルマント位置が周波
数方向に移動されて声質が変化される。その際における
拡張あるいは伸縮は、LSP係数で圧縮されたスペクト
ル情報を用いて少ない処理量で行われる。
声合成方法において、上記声質変換手段による声質の変
換では、上記周波数方向に拡張あるいは伸縮されたLS
P係数のLSP次数を、上記入力された声質変換パラメ
ータに応じて変化させる。
数による高域側への周波数変換が行われた場合には、ナ
イキスト周波数πよりも大きくなった次数のLSP係数
が削除される。こうして、合成フィルタの安定性が損な
われることが防止される。また、非線形変換関数による
高域側への周波数変換が行われた場合には、声質変換パ
ラメータに基づいて高次数側からLSP係数が削除され
る。こうして、高周波数領域におけるLSP係数間の距
離が小さくなって不自然に強調されたり、合成フィルタ
の動作不安定によって出力波形が発振したりすることが
防止される。
声合成方法において、上記波形合成手段によって合成さ
れた音声波形の周波数スペクトルの特性をスペクトル補
正手段によって上記入力された声質変換パラメータに応
じて変更し、上記合成された音声波形の不自然な周波数
スペクトルの偏りを補正する。
関数による高域側への周波数変換が行われた場合には、
合成された音声波形の高域が抑制される。一方、低域側
への周波数変換が行われた場合には、合成された音声波
形の低域が抑制される。こうして、不自然なスペクトル
の偏りの補正が行われる。
声合成方法において、上記素片記憶手段に記憶する音声
素片データは、予め、フォルマント位置を標準の位置よ
りも低周波数側に移動しておく。
位置が標準よりも低周波数側に移動されている。したが
って、合成フィルタが不安定になり易い低域側へのフォ
ルマント移動量が少なくなり、より広い範囲の周波数変
換が可能になる。
は、コンピュータまたはDSP(ディジタル・シグナル・
プロセッサ)を、上記第1の発明におけるテキスト入力
手段,声質変換パラメータ入力手段,素片記憶手段,素片
選択手段,声質変換手段,係数変形手段および波形合成手
段として機能させる音声合成処理プログラムが記録され
たことを特徴としている。
と同様に、音声素片データのスペクトルの拡張または伸
縮によってホルマント位置を周波数方向に移動して声質
を変化する際に、音声素片データがLSP係数で表現さ
れているので、上記音声素片データの容量の削減が図ら
れ、少ない処理量でのホルマント位置の移動が行われ
る。
ログラム記録媒体において、上記記録された音声合成処
理プログラムは、更に、上記コンピュータまたはDSP
を上記第1の発明における次数変化手段として機能させ
るプログラムを含んでいる。
と同様に、例えば、線形変換関数による高域側への周波
数変換の場合には、ナイキスト周波数πよりも大きい次
数のLSP係数が削除されて、合成フィルタの安定性が
損なわれないようにする。また、非線形変換関数による
高域側への周波数変換の場合には、高次数側のLSP係
数が削除されて、高周波数領域が不自然に強調された
り、合成フィルタの不安定動作によって出力波形が発振
したりすることが防止される。
ログラム記録媒体において、上記記録された音声合成処
理プログラムは、更に、上記コンピュータまたはDSP
を上記第1の発明におけるスペクトル補正手段として機
能させるプログラムを含んでいる。
合と同様に、例えば、非線形変換関数による高域側への
周波数変換が行われた場合には、合成された音声波形の
高域が抑制される。一方、低域側への周波数変換が行わ
れた場合には、合成された音声波形の低域が抑制され
る。こうして、不自然なスペクトルの偏りの補正が行わ
れる。
態により詳細に説明する。図1は、本実施の形態の音声
合成装置におけるブロック図である。本音声合成装置
は、テキスト入力部1,声質変換パラメータ入力部2,素
片記憶部3,素片選択部4,声質変換部5および波形合成
部6で概略構成される。
ータとして、音声合成したい言葉の内容を示すテキスト
情報あるいは音素情報と、アクセントや発話全体の抑揚
を示す韻律情報とが入力される。また、声質変換パラメ
ータ入力部2からは、使用者あるいはテキストデータの
提供者の操作によって、出力音声の声質を指定するため
の声質変換パラメータが入力される。
毎に音声素片データが記憶されている。音声素片の単位
としては、子音+母音(CV)や母音+子音+母音(VC
V)がある。あるいは、単語のような長い音節系列を単
位としても差し支えない。音声素片の内容は、短い時間
単位に区切ったフレーム毎のスペクトル形状とパワーの
情報とに分割して保持することで、情報を圧縮するのが
一般的である。上記スペクトル形状の記憶形態として
は、線形予測係数(LPC)や、LPCから求まるケプス
トラム係数,反射係数あるいはLSP係数として保持す
ることによって、記憶容量の削減を図るのである。ある
いは、周波数毎のパワー(パワースペクトル)や零位相化
した1ピッチの波形として保持してもよい。
ト入力部1に入力された音素列情報に基づいて最適な音
声素片を選択し、選択した音声素片の情報を出力する。
その場合、音声素片が音節で構成されている場合には、
上記入力された音素列情報を音節毎に区切り、この区切
られた各音節に対応した音声素片を素片記憶部3から選
択することになる。また、音声素片がVCVで構成され
ている場合には、上記入力された音素列情報の各母音の
夫々を前半と後半とに分割してVCVの連続へと変換
し、この変換された各VCVに対応した音声素片を素片
記憶部3から選択することになる。
素片選択部4によって選択された音声素片の情報からス
ペクトル情報が読み出され、必要ならばLSP係数への
変換が行われる。そして、得られたLSP係数に対して
線形型あるいは非線型の周波数変換が行われた後、再び
元のスペクトル情報へ変換されて出力される。尚、上記
選択された音声素片のスペクトル情報(パラメータ)がL
SP係数で表現されている場合には、上述のLSP係数
への変換およびLSP係数から元のスペクトル情報への
変換は不要である。
れて声質が変化された音声素片のスペクトル情報と、上
記選択された音声素片の情報から読み出されたフレーム
毎の声の大きさおよび声の高さと、テキスト入力部1か
ら入力された韻律情報とに基づいて、波形合成部6によ
って、音声波形が合成されるのである。
具体的且つ一般的な例を上げて説明する。
情報がLSP係数である場合には、LSP合成フィルタ
を用いて、あるいは、一旦LPC係数へ変換してIIR
(全極型)合成フィルタを用いて、インパルス応答を求め
る。そして、このインパルス応答を1ピッチ波形とす
る。また、スペクトル情報が周波数スペクトルである場
合には、フーリエ変換によって1ピッチ波形を合成す
る。次に、上記パワー情報に基づく声の大きさに応じ
て、1ピッチ波形のパワーを調整する。最後に、声の高
さから計算されるピッチ間隔で位置をずらしながら、上
記パワーが設定された1ピッチ波形を重畳する。こうし
て、音声波形が合成されるのである。
情報に対する線形あるいは非線型な周波数変換につい
て、図2および図3を用いて更に詳しく説明する。図2
は、声質変換部5の具体的な構成を示す。この声質変換
部5は、スペクトルパラメータとしてLSP係数をその
まま用いるものであり、LSP係数を線形型あるいは非
線型の関数を用いて周波数変換を行うLSP係数変形部
7と、周波数変換されたLSP係数や声質変換パラメー
タに応じてLSP次数を調整するLSP次数変換部8と
から構成されている。
波数変換を行う際の変換関数の一例を示す。横軸は入力
LSP係数の周波数Fiであり、縦軸は変換後の出力L
SP係数の周波数Foである。図3において、「A」は線
形変換関数であり、その場合における変換式は、 Fo=W(Fi)=k*Fi+c …(1) で表すことができる。この変換式によるLSP係数「lsp
(i)」の周波数変換は、次式で表わされる。 lsp'(i)=W(lsp(i)) (i=1,2,3,…,N) …(2) ここで、「k」は1前後の実数値であり、声質変換パラメ
ータ入部2から上述した声質変換パラメータとして入力
指定される。また、「c」は0でも良いが、声質変換パラ
メータkが1より小さい場合には、極端にLSP係数が
小さくならないように、小さな値あるいはlsp(1)を与え
ることも効果がある。
大きい(例えば1.2)場合には、周波数変換によってフ
ォルマントが高周波数側へ移動するが、それに伴ってL
SP係数の一部がナイキスト周波数πを超えてしまう。
その場合には、合成フィルタが安定に動作できず、1ピ
ッチ波形が合成できないことになる。これを防ぐため
に、本実施の形態においては、声質変換部5のLSP次
数変換部8によって、ナイキスト周波数πよりも大きく
なった次数のLSP係数については削除して、LSPの
次数を少なくするのである。こうすることで、安定して
合成フィルタが動作することができるのである。
場合における変換式は、 Fo=W(Fi)=π*(Fi/π)**p …(3) で表すことができる。ここで、「**」は累乗を表わす。ま
た、「p」は1前後の実数値であり、声質変換パラメータ
入部2から上記声質変換パラメータとして入力指定され
る。
(例えば0.9)場合には、周波数変換によってフォルマ
ントが高い周波数へ移動する。この周波数変換では、変
換後のLSP係数がナイキスト周波数πを超えることは
ない。ところが、高い周波数領域ではLSP係数間の距
離が小さくなって、スぺクトルの高域が不自然に強調さ
れた音声が合成されてしまう。さらに、スぺクトルの高
域部分のパワーが強い音声素片の場合には、合成フィル
タの動作が不安定になって出力波形が発振してしまう。
SP次数変換部8によって、本来N次であるLSP係数
を高い方からm個削減して、次数を(N−m)とすること
によって不自然な強調や発振を押さえることができるの
である。ここで、「m」の求め方の一例を次式に示す。 m=N*(1−p) (0<p≦1) …(4) 尚、mの求め方は必ずしもこの限りではない。
示すような累乗で表わされる変換関数を用いると、累乗
の計算処理が多くなってしまう。そこで、計算処理の多
い累乗を避けるために、折れ線で表わされる変換関数を
用いても差し支えない。
テキスト音声合成を行うに際して、素片記憶部3に、C
VやVCVや音素系列を単位とした音声素片のフレーム
毎のスペクトル形状とパワーの情報とに分けて保持して
いる。その際に、上記スペクトル形状は、LPCやLP
C係数やLSP係数として保持することによって、記憶
容量の削減を図ることができる。
変形部7によって、素片選択部4によって選択された音
声素片のLSP係数を線形型または非線型の周波数変換
を行う。その際に、声質変換パラメータ入部2からの声
質変換パラメータ「k」,「p」に応じた度合で、高周波数
側または低周波数側への周波数変換を行う。さらに、L
SP次数変換部8によって、上記周波数変換されたLS
P係数の次数を調整する。その際に、上記線形変換関数
による周波数変換であって声質変換パラメータkが1よ
り大きい場合には、ナイキスト周波数πよりも大きくな
った次数のLSP係数を削除するのである。こうするこ
とによって、LSP係数がナイキスト周波数を超えるこ
とを防止でき、合成フィルタの安定性が損なわれること
を防止できるのである。
換であって声質変換パラメータpが1より小さい場合に
は、声質変換パラメータpに基づいて上述の式(4)で求
められるm個分だけ高次数側からLSP係数を削除する
のである。こうすることによって、高周波数領域におけ
るLSP係数間の距離が小さくなって不自然に強調され
たり、合成フィルタの動作が不安定になって出力波形が
発振したりすることを防止できるのである。
はLPCやLPC係数やLSP係数として圧縮されて素
片記憶部3に記憶されている。したがって、上述の周波
数変換やLSP係数の次数調整を、少ない処理量で行う
ことができるのである。
における音声合成装置のブロック図である。図4におい
て、テキスト入力部11,声質変換パラメータ入力部1
2,素片記憶部13,素片選択部14,声質変換部15お
よび波形合成部16は、図1に示す上記第1実施の形態
の音声合成装置におけるテキスト入力部1,声質変換パ
ラメータ入力部2,素片記憶部3,素片選択部4,声質変
換部5および波形合成部6と同じである。
型変換関数による不自然なスペクトルの偏りを補正する
ものであり、フィルタで構成される。このフィルタは、
低次数のFIR(全零型)フィルタでよい。そして、声質
変換部15において、非線型変換関数による周波数変換
を行う際に、声質変換パラメータ入力部12からの声質
変換パラメータ係数pが1より大きい場合には、高域を
押さえるように作用するのである。
の場合に高域を抑制し、1<p<2の場合に低域を抑制
するフィルタとなり、不自然なスペクトルの偏りに補正
が働くのである。
LSP次数変換部によるLSP次数の調整と、スペクト
ル補正部17による不自然なスペクトルの偏りの補正と
の両方を併用してもよいし、片方だけを行うようにして
も差し支えない。
移動する場合には、低域側に存在する低次のLSP係数
は略線形に拡張する。その際に、低次のLSP係数間の
距離が広くなるために、低域側で合成フィルタが不安定
になることはない。また、高域側では、先に述べたよう
に、次数を削減することによって合成フィルタの安定性
を保つことが可能である。
側に移動する場合には、低域側に存在する低次のLSP
係数を略線形に縮小するのであるが、その際に、低域側
において何れの係数を削除するかを決定するのが困難で
あるため、容易に次数を削減するすることができない。
そのため、低次のLSP係数間の距離が近づくことにな
り、合成フィルタが不安定になる。したがって、低い周
波数側への変換は、その範囲が限られることになる。
速フーリエ変換)を用いたスペクトル形状の変換技術を
用いれば、合成フィルタの安定性を保って変換すること
ができる。しかしながら、計算量が多いために、実時間
で行うことができるのは、処理能力の大きなコンピュー
タやDSPに限られてしまう。
タを予め作成して素片記憶部3,13に記憶させる際
に、音声素片のフォルマント位置を標準よりも低い周波
数側にずらして作成しておくのである。こうすることに
よって、スペクトルの周波数変換の際に、合成フィルタ
が不安定になり易い低域側へのフォルマント移動量を少
なくすることができ、より広い範囲の周波数変換が可能
になるのである。
は、上記声質変換部5,15による周波数変換および次
数の調整の対象として、周波数スペクトルをLSP係数
で表現したものを用いているが、この発明はこれに限定
されるものではない。要は、低処理量で周波数方向に変
化し易いパラメータであればよいのである。
2の実施の形態における音声合成装置を、コンピュータ
を用いて実現する際の具体的なハードウェア構成を示
す。入力装置21は、テキスト入力部1,11および声
質変換パラメータ入力部2,12の具体的構成であっ
て、シリアル通信やネットワーク通信あるいはキーボー
ド等によって読み上げ対象となるテキストや声質変換パ
ラメータを入力する。記憶媒体22は、音声合成処理プ
ログラムや素片データを記録したCD(コンパクトディ
スク)‐ROM(リード・オンリ・メモリ)やフロツピーデ
ィスクやフラッシュメモリ等である。記憶装置23は、
記憶媒体22から読み出された上記音声合成処理プログ
ラムや音声素片データが書き込まれたハードディスクや
フラッシュメモリ等の記憶装置であり、上記素片記憶部
3,13の具体的構成である。
音声合成処理に必要な一次記憶に用いられる。処理装置
25は、素片選択部4・14,声質変換部5・15,波形合
成部6・16およびスペクトル補正部17の具体構成で
あって、記憶媒体22に記憶されたあるいは記憶装置2
3に読み込まれた音声合成プログラムに従って音声合成
の処理を行うCPU(中央演算処理装置)やDSP等であ
る。出力装置26は、合成された音声を出力するための
D/A変換器,アンプおよびスピーカ等で構成される。
けるテキスト入力部1・11,声質変換パラメータ入力部
2・12,素片選択部4・14,声質変換部5・15,波形合
成部6・16およびスペクトル補正部17としての機能
は、記憶媒体22等のプログラム記録媒体に記録された
音声合成処理プログラムによって実現される。上記各実
施の形態における上記プログラム記録媒体は、RAM2
4とは別体に設けられたROMでなるプログラムメディ
アである。あるいは、外部補助記憶装置に装着されて読
み出されるプログラムメディアであってもよい。尚、何
れの場合においても、上記プログラムメディアから音声
合成処理プログラムを読み出すプログラム読み出し手段
は、上記プログラムメディアに直接アクセスして読み出
す構成を有していてもよいし、記憶装置23に設けられ
たプログラム記憶エリア(図示せず)にダウンロードし、
上記プログラム記憶エリアにアクセスして読み出す構成
を有していてもよい。尚、上記プログラムメディアから
記憶装置23の上記プログラム記憶エリアにダウンロー
ドするためのダウンロードプログラムは、予め本体装置
に格納されているものとする。
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD‐ROM,MO(光
磁気)ディスク,MD(ミニディスク),DVD(ディジタル
ビデオディスク)等の光ディスクのディスク系、IC(集
積回路)カードや光カード等のカード系、マスクROM,
EPROM(紫外線消去型ROM),EEPROM(電気的
消去型ROM),フラッシュROM等の半導体メモリ系を
含めた、固定的にプログラムを坦持する媒体である。
装置は、入力装置21としてモデムを備えて、インター
ネットを含む通信ネットワークと接続可能な構成を有し
ている場合には、上記プログラムメディアは、通信ネッ
トワークからのダウンロード等によって流動的にプログ
ラムを坦持する媒体であっても差し支えない。尚、その
場合における上記通信ネットワークからダウンロードす
るためのダウンロードプログラムは、予め本体装置に格
納されているものとする。あるいは、別の記録媒体から
インストールされるものとする。
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
音声合成装置は、上記素片記憶手段には音声素片データ
としてLSP係数を記憶したので、上記音声素片データ
の容量を削減することができる。さらに、声質変換手段
の係数変形手段によって、選択された音声素片のLSP
係数を、入力された声質変換パラメータに応じて周波数
方向に線形・非線形に拡張あるいは伸縮し、ホルマント
位置を周波数方向に移動することによって声質を変化さ
せるので、LSP係数として圧縮されたスペクトル情報
による少ない処理量で声質を変化させることができる。
ータの容量や処理量の増加を少なく押さえて、入力され
た声質変換パラメータに従って、1種類の音声素片デー
タから様々な声質の音声を合成することができるのであ
る。
質変換手段の次数変化手段で、上記周波数方向に拡張あ
るいは伸縮されたLSP係数のLSP次数を、上記入力
された声質変換パラメータに応じて変化させるので、例
えば、高域側への線形な周波数変換が行われた場合に
は、ナイキスト周波数πを越えた次数のLSP係数を削
除して、合成フィルタの安定性が損なわれるのを防止で
きる。さらに、高域側への非線形な周波数変換が行われ
た場合には、高次数側のLSP係数を削除して、LSP
係数間が狭くなることによる高周波数領域の不自然な強
調や合成フィルタの動作不安定による出力波形の発振を
防止できる。
を最適に調整することによって、スペクトルの変化範囲
が広くなり、より変化に富んだ声質の合成音声を得るこ
とが可能になる。
トル補正手段によって、上記波形合成手段で合成された
音声波形の周波数スペクトルの特性を、上記入力された
声質変換パラメータに応じて変更して、上記合成音声波
形の不自然な周波数スペクトルの偏りを補正するので、
例えば、上記声質変換手段で高域側への非線形な周波数
変換が行われた場合には高域が抑制される。一方、低域
側への非線形な周波数変換が行われた場合には低域が抑
制される。こうして、不自然なスペクトルの偏りの補正
が行われるのである。
クトルの偏りを波形合成後に補正することによって、L
SP係数を用いた声質変換においても自然な音質の合成
音声を得ることができる。
片記憶手段には、予め、フォルマント位置を標準の位置
よりも低周波数側に移動した音声素片データを記憶して
いるので、合成フィルタが不安定になり易い低域側への
フォルマント移動量を少なくしつつ、低周波数側へのス
ペクトル変化幅を広げることができる。したがって、よ
り広い範囲の周波数変換を可能にし、変化に富んだ音声
合成を得ることが可能になる。
素片記憶手段には音声素片データとしてLSP係数を記
憶したので、上記音声素片データの容量を削減すること
ができる。さらに、選択された音声素片のLSP係数を
周波数方向に拡張あるいは伸縮し、ホルマント位置を周
波数方向に移動して声質を変化させるので、LSP係数
として圧縮されたスペクトル情報による少ない処理量
で、声質を変化させることができる。
質変換手段による声質の変換において、上記周波数方向
に拡張あるいは伸縮されたLSP係数のLSP次数を、
上記入力された声質変換パラメータに応じて変化させる
ので、例えば、高域側への線形的な周波数変換の場合に
は、ナイキスト周波数πを越えた次数のLSP係数を削
除して、合成フィルタの安定性が損なわれることを防止
できる。さらに、高域側への非線形的な周波数変換の場
合には、高次数側からLSP係数を削除して、LSP係
数間が狭くなることによる高周波数領域の不自然な強調
や、合成フィルタの不安定動作による出力波形の発振を
防止できる。
形合成手段で合成された音声波形の周波数スペクトルの
特性を、スペクトル補正手段によって、上記入力された
声質変換パラメータに応じて変更して合成音声波形の不
自然な周波数スペクトルの偏りを補正するので、例え
ば、高域側への非線形な周波数変換の場合には合成音声
波形の高域を抑制する一方、低域側への非線形な周波数
変換の場合には合成音声波形の低域を抑制できる。こう
して、不自然なスペクトルの偏りの補正を行うことがで
きるのである。
片記憶手段に記憶する音声素片データのフォルマント位
置を、予め、標準の位置よりも低周波数側に移動してお
くので、合成フィルタが不安定になり易い低域側へのフ
ォルマント移動量を少なくしつつ、より広い範囲の周波
数変換を可能にする。
は、コンピュータあるいはDSPを、上記第1の発明に
おけるテキスト入力手段,声質変換パラメータ入力手段,
素片記憶手段,素片選択手段,声質変換手段,係数変形手
段および波形合成手段として機能させる音声合成処理プ
ログラムを記録しているので、上記第1の発明の場合と
同様に、上記素片記憶手段における記憶容量の削減を図
り、少ない処理量での声質変換を行うことができる。
上記記録された音声合成処理プログラムに、更に、上記
コンピュータあるいはDSPを上記第1の発明における
次数変化手段として機能させるプログラムを含めたの
で、上記第1の発明の場合と同様に、合成フィルタの安
定性が損なわれないようにしたり、高周波数領域が不自
然に強調されないようにしたり、合成フィルタの不安定
動作による出力波形の発振を防止したりできる。
上記記録された音声合成処理プログラムに、更に、上記
コンピュータあるいはDSPを上記第1の発明における
スペクトル補正手段として機能させるプログラムを含め
たので、上記第1の発明の場合と同様に、合成された音
声波形の高域を抑制したり、低域を抑制したりして、不
自然なスペクトルの偏りの補正を行うことができる。
である。
す図である。
変換を行う際の変換関数の一例を示す図である。
ある。
ュータで実現する際のハードウェア構成を示す図であ
る。
Claims (11)
- 【請求項1】 少なくともテキスト情報あるいは音素情
報が入力されるテキスト入力手段と、声質変換パラメー
タが入力される声質変換パラメータ入力手段と、音声素
片データが格納される素片記憶手段と、入力されたテキ
スト情報または音素情報に応じて上記音声素片データを
選択する素片選択手段と、上記選択された音声素片デー
タの声質を入力された声質変換パラメータに応じて変換
する声質変換手段と、声質が変換された音声素片データ
に基づいて音声波形を合成する波形合成手段を有する音
声合成装置において、 上記素片記憶手段に記憶されている音声素片データは線
スペクトル対係数あるいは線スペクトル対に変換可能な
スペクトル情報であり、 上記声質変換手段は、上記入力された声質変換パラメー
タに応じて、上記選択された音声素片から求められる線
スペクトル対係数を周波数方向に線形にあるいは非線形
に拡張あるいは伸縮して、ホルマント位置を周波数方向
に移動することによって声質を変化させる係数変形手段
を備えていることを特徴とする音声合成装置。 - 【請求項2】 請求項1に記載の音声合成装置におい
て、 上記声質変換手段は、上記係数変形手段によって周波数
方向に拡張あるいは伸縮された線スペクトル対係数の線
スペクトル対次数を、上記入力された声質変換パラメー
タに応じて変化させる次数変化手段を備えていることを
特徴とする音声合成装置。 - 【請求項3】 請求項1あるいは請求項2に記載の音声
合成装置において、 上記波形合成手段によって合成された音声波形の周波数
スペクトルの特性を上記入力された声質変換パラメータ
に応じて変更して、上記合成された音声波形の不自然な
周波数スペクトルの偏りを補正するスペクトル補正手段
を備えたことを特徴とする音声合成装置。 - 【請求項4】 請求項1乃至請求項3の何れか一つに記
載の音声合成装置において、 上記素片記憶手段に記憶されている音声素片データは、
予め、フォルマント位置が標準の位置よりも低周波数側
に移動されていることを特徴とする音声合成装置。 - 【請求項5】 テキスト入力手段から少なくともテキス
ト情報あるいは音素情報を入力し、入力されたテキスト
情報または音素情報に応じて素片選択手段によって素片
記憶手段から音声素片データを選択し、上記選択された
音声素片データの声質を声質変換手段によって声質変換
パラメータ入力手段から入力された声質変換パラメータ
に応じて変換し、声質が変換された音声素片データに基
づいて波形合成手段によって音声波形を合成する音声合
成方法において、 上記素片記憶手段には、上記音声素片データとして線ス
ペクトル対係数あるいは線スペクトル対に変換可能なス
ペクトル情報を記憶し、 上記声質変換手段による声質の変換は、上記入力された
声質変換パラメータに応じて、上記選択された音声素片
から求められる線スペクトル対係数を周波数方向に線形
にあるいは非線形に拡張あるいは伸縮して、ホルマント
位置を周波数方向に移動させることによって行われるこ
とを特徴とする音声合成方法。 - 【請求項6】 請求項5に記載の音声合成方法におい
て、 上記声質変換手段による声質の変換では、上記周波数方
向に拡張あるいは伸縮された線スペクトル対係数の線ス
ペクトル対次数を、上記入力された声質変換パラメータ
に応じて変化させることを特徴とする音声合成方法。 - 【請求項7】 請求項5あるいは請求項6に記載の音声
合成方法において、 上記波形合成手段によって合成された音声波形の周波数
スペクトルの特性をスペクトル補正手段によって上記入
力された声質変換パラメータに応じて変更し、上記合成
された音声波形の不自然な周波数スペクトルの偏りを補
正することを特徴とする音声合成方法。 - 【請求項8】 請求項5乃至請求項7の何れか一つに記
載の音声合成方法において、 上記素片記憶手段に記憶する音声素片データは、予め、
フォルマント位置を標準の位置よりも低周波数側に移動
しておくことを特徴とする音声合成方法。 - 【請求項9】 コンピュータあるいはディジタル・シグ
ナル・プロセッサを、 請求項1におけるテキスト入力手段,声質変換パラメー
タ入力手段,素片記憶手段,素片選択手段,声質変換手段,
係数変形手段および波形合成手段として機能させる音声
合成処理プログラムが記録されたことを特徴とするコン
ピュータ読出し可能なプログラム記録媒体。 - 【請求項10】 請求項9に記載のプログラム記録媒体
において、 上記記録された音声合成処理プログラムは、更に、上記
コンピュータあるいはディジタル・シグナル・プロセッサ
を請求項2における次数変化手段として機能させるプロ
グラムを含んでいることを特徴とするプログラム記録媒
体。 - 【請求項11】 請求項9あるいは請求項10に記載の
プログラム記録媒体において、 上記記録された音声合成処理プログラムは、更に、上記
コンピュータあるいはディジタル・シグナル・プロセッサ
を請求項3におけるスペクトル補正手段として機能させ
るプログラムを含んでいることを特徴とするプログラム
記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001261327A JP4408596B2 (ja) | 2001-08-30 | 2001-08-30 | 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001261327A JP4408596B2 (ja) | 2001-08-30 | 2001-08-30 | 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003066982A true JP2003066982A (ja) | 2003-03-05 |
JP2003066982A5 JP2003066982A5 (ja) | 2005-11-24 |
JP4408596B2 JP4408596B2 (ja) | 2010-02-03 |
Family
ID=19088392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001261327A Expired - Fee Related JP4408596B2 (ja) | 2001-08-30 | 2001-08-30 | 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4408596B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7349847B2 (en) | 2004-10-13 | 2008-03-25 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis apparatus and speech synthesis method |
JP2010032599A (ja) * | 2008-07-25 | 2010-02-12 | Yamaha Corp | 音声処理装置およびプログラム |
US7912719B2 (en) | 2004-05-11 | 2011-03-22 | Panasonic Corporation | Speech synthesis device and speech synthesis method for changing a voice characteristic |
JP2012063501A (ja) * | 2010-09-15 | 2012-03-29 | Yamaha Corp | 音声処理装置 |
JP2012083722A (ja) * | 2010-09-15 | 2012-04-26 | Yamaha Corp | 音声処理装置 |
JP2016153820A (ja) * | 2015-02-20 | 2016-08-25 | ヤマハ株式会社 | 音声処理装置 |
CN113241082A (zh) * | 2021-04-22 | 2021-08-10 | 杭州朗和科技有限公司 | 变声方法、装置、设备和介质 |
-
2001
- 2001-08-30 JP JP2001261327A patent/JP4408596B2/ja not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7912719B2 (en) | 2004-05-11 | 2011-03-22 | Panasonic Corporation | Speech synthesis device and speech synthesis method for changing a voice characteristic |
US7349847B2 (en) | 2004-10-13 | 2008-03-25 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis apparatus and speech synthesis method |
JP2010032599A (ja) * | 2008-07-25 | 2010-02-12 | Yamaha Corp | 音声処理装置およびプログラム |
US8315855B2 (en) | 2008-07-25 | 2012-11-20 | Yamaha Corporation | Voice processing apparatus and method |
JP2012063501A (ja) * | 2010-09-15 | 2012-03-29 | Yamaha Corp | 音声処理装置 |
JP2012083722A (ja) * | 2010-09-15 | 2012-04-26 | Yamaha Corp | 音声処理装置 |
US9343060B2 (en) | 2010-09-15 | 2016-05-17 | Yamaha Corporation | Voice processing using conversion function based on respective statistics of a first and a second probability distribution |
JP2016153820A (ja) * | 2015-02-20 | 2016-08-25 | ヤマハ株式会社 | 音声処理装置 |
CN113241082A (zh) * | 2021-04-22 | 2021-08-10 | 杭州朗和科技有限公司 | 变声方法、装置、设备和介质 |
CN113241082B (zh) * | 2021-04-22 | 2024-02-20 | 杭州网易智企科技有限公司 | 变声方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4408596B2 (ja) | 2010-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7120584B2 (en) | Method and system for real time audio synthesis | |
JP4945586B2 (ja) | 信号帯域拡張装置 | |
US8121834B2 (en) | Method and device for modifying an audio signal | |
JPH10124088A (ja) | 音声帯域幅拡張装置及び方法 | |
JP2000305582A (ja) | 音声合成装置 | |
JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
JP4408596B2 (ja) | 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 | |
JP4225128B2 (ja) | 規則音声合成装置及び規則音声合成方法 | |
US7596497B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JPH10124089A (ja) | 音声信号処理装置及び方法、並びに、音声帯域幅拡張装置及び方法 | |
JP3513071B2 (ja) | 音声合成方法及び音声合成装置 | |
JP2003066983A (ja) | 音声合成装置および音声合成方法、並びに、プログラム記録媒体 | |
US7130799B1 (en) | Speech synthesis method | |
JPH09510554A (ja) | 言語合成 | |
JPH11249676A (ja) | 音声合成装置 | |
JP2615856B2 (ja) | 音声合成方法とその装置 | |
JP4826580B2 (ja) | 音声信号の再生方法及び装置 | |
CA2409308C (en) | Method and system for real time audio synthesis | |
JP2003330482A (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム | |
JPH0756590A (ja) | 音声合成装置、音声合成方法及び記録媒体 | |
JP3949346B2 (ja) | 音声合成方法及び装置 | |
JP3515268B2 (ja) | 音声合成装置 | |
JP2001312300A (ja) | 音声合成装置 | |
JP3567477B2 (ja) | 発声変形音声認識装置 | |
JP2004206144A (ja) | 基本周波数パタン生成方法、及びプログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051005 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051005 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080603 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091110 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121120 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121120 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131120 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |