JP4408596B2 - 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 - Google Patents
音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 Download PDFInfo
- Publication number
- JP4408596B2 JP4408596B2 JP2001261327A JP2001261327A JP4408596B2 JP 4408596 B2 JP4408596 B2 JP 4408596B2 JP 2001261327 A JP2001261327 A JP 2001261327A JP 2001261327 A JP2001261327 A JP 2001261327A JP 4408596 B2 JP4408596 B2 JP 4408596B2
- Authority
- JP
- Japan
- Prior art keywords
- voice quality
- speech
- voice
- quality conversion
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、テキストデータを入力して音声データに変換する音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体に関する。
【0002】
【従来の技術】
複数の声質の合成音声を切り換えて合成する方法として、音声素片を複数声質分用意し、上記音声素片を切り換えて合成する素片切り換え法と、一つの音声素片のデータからスペクトル変換等を用いて異なる声質の合成音声を得る声質変換法とがある。そして、後者の声質変換法は、データ量の大きな音声素片を複数持つ必要が無く、声質変換のパラメータによって連続的に様々な声質の音声を合成する事ができるため効率的である。
【0003】
従来の声質変換の方法としては、ベクトル量子化を用いる方法やスペクトル領域での変換関数を用いる方法がある。上記ベクトル量子化を用いる方法では、一般にある話者の音声で作成した代表スペクトルパラメータの集合であるコードブックから他の話者のコードブックヘのマッピングを求め、入力話者の声を短い時間に区切ったフレーム毎に量子化し、量子化コードを変換して異なる話者の声で再生する。このように、上記ベクトル量子化を用いる方法は、声質変換そのものを目的とした装置で用いられる。従って、音声合成に用いる場合には、コードブックを声質分だけ複数持つ必要があり、あまり効率的な方法とは言えない。
【0004】
また、スペクトルの変換関数を用いる方法では、フレーム毎のスペクトルにおける周波数軸を変形させることによって、フォルマントを移動したり、周波数毎のエネルギーを変化させることによって声質を変化させる。そのために自由度が高く、変換関数のパラメータのみを記憶するだけで声質変換が可能であるため、音声合成装置として利用し易い。しかしながら、その一方では、周波数軸の変換には計算量の多いフーリエ変換の処理が複数回必要となる。
【0005】
スペクトル形状を変化させるためのスペクトルの表現としては、線スペクトル対(LSP)を用いる方法が一般によく知られている。LSP係数は、線形予測係数(LPC係数)から求めることができる。そして、LSPの各係数は周波数軸上の位置を表現しており、LSP係数の密度の高い周波数域はスペクトルのエネルギーの集中を表し、スペクトルのピークは音声のフォルマントに対応している。したがって、LSP係数の変形は、フォルマントの周波数方向の移動を行うのに適しているとされている。このことから、LSP係数を線形に伸縮することによってフォルマント位置が線形に伸縮することは容易に推察できる。
【0006】
しかしながら、実際には、LSP係数を用いたスぺクトルの変形は、合成に用いる合成フィルタの安定性を損なう場合がある。そのため、従来においては、LSP係数によるスペクトルの操作として実際に応用されるのは、時間的に離散的なスペクトル間を内挿する目的やスペクトルを安定化させる目的のために、隣接するLSP係数の距離を離したりあるいはピークを強調するために隣接するLSP係数の距離を調節したりする用途が殆どである。
【0007】
特開平1‐147600号公報には、ヘリウム音声の修復の為にLSPを用いる方法が述べられている。ヘリウム内では音速が通常の空気よりも早いために、フォルマントが高い周波数へ移動する。また、高圧のヘリウム内で作業する人の音声は非線型なフォルマントの移動が起こる。上記公報においては、LSP係数を非線型に低域側へ移動する際に、移動後のLSP係数が虚数にならないように移動後のLSP係数を修正することが開示されている。
【0008】
【発明が解決しようとする課題】
上記特開平1‐147600号公報に開示されているようなLSP係数に対するスペクトルの変形は、場合によっては合成用フィルタの安定性を損なう場合がある。その場合には、合成波形が発振して合成音声に異音が出力される。
【0009】
例として、フォルマントを高周波数側にシフトする場合には、LSP係数を線形に伸張することが考えられる。ところが、その場合、当然ながら、LSP係数はナイキスト周波数(サンプリング周波数の1/2の周波数)よりも高くなってしまう場合があり、合成用フィルタの安定性を失うことになる。それを防止するために、折れ線の形状を有する変換関数あるいは非線型の変換関数を用いて、高域のフォルマントが上記ナイキスト周波数へ漸近し、ナイキスト周波数を超えないように変換する方法が考えられる。但し、この方法によると、低域側のLSP係数の間隔が広くなり、高域側のLSP係数の間隔が狭くなることになる。その結果、高域側のスペクトルが相対的に強くなってしまう。さらに、高域側の強いスペクトルを変換した場合には、合成フィルタの安定性を損なう場合もある。
【0010】
また、逆に、フォルマントを低い周波数側ヘシフトする場合には、LSP係数が線形に縮小されることによって、低域のLSP係数の間隔が接近することになる。その場合には、合成フィルタの特性が不安定となることがある。
【0011】
しかしながら、上記特開平1‐147600号公報においては、このようなLSP係数に対してスペクトルの変形を行った場合に合成用フィルタの安定性が損なわれることの対策に付いては、一切述べられてはいないのである。
【0012】
そこで、この発明の目的は、少ない音声素片データ容量と少ない処理量とによって複数の声質に対応できる音声素片を用いた音声合成装置,声質変換装置,音声合成方法,声質変換方法,音声合成処理プログラム,声質変換処理プログラムおよびプログラム記録媒体を提供することにある。
【0013】
【課題を解決するための手段】
上記目的を達成するため、第1の発明は、
少なくともテキスト情報あるいは音素情報が入力されるテキスト入力手段と、声質変換パラメータが入力される声質変換パラメータ入力手段と、音声素片データが格納される素片記憶手段と、入力されたテキスト情報または音素情報に応じて上記音声素片データを選択する素片選択手段と、上記選択された音声素片データの声質を入力された声質変換パラメータに応じて変換する声質変換手段と、声質が変換された音声素片データに基づいて音声波形を合成する波形合成手段を有する音声合成装置において、
上記素片記憶手段に記憶されている音声素片データはLSP係数あるいはLSPに変換可能なスペクトル情報であり、
上記声質変換手段は、
上記入力された声質変換パラメータに応じて、上記選択された音声素片から求められるLSP係数を周波数方向に拡張あるいは伸縮して、フォルマント位置を周波数方向に移動することによって声質を変化させる係数変形手段と、
上記係数変形手段によって周波数方向に拡張あるいは伸縮されたLSP係数のLSP次数を、上記入力された声質変換パラメータに応じて変化させる次数変化手段と
を備えていることを特徴としている。
【0014】
上記構成によれば、素片記憶手段に記憶されている音声素片データはLSP係数で表現されている。こうして、上記音声素片データの容量の削減が図られる。また、声質変換手段の係数変形手段によって、選択された音声素片のLSP係数が、入力された声質変換パラメータに応じて周波数方向に拡張あるいは伸縮され、フォルマント位置が周波数方向に移動されて声質が変化される。その際におけるLSP係数の拡張あるいは伸縮は、LSP係数として圧縮されたスペクトル情報を用いて少ない処理量で行われる。
【0015】
さらに、上記声質変換手段の次数変化手段によって、例えば、線形変換関数による高域側への周波数変換が行われた場合には、ナイキスト周波数πよりも大きくなった次数のLSP係数が削除される。こうして、LSP係数がナイキスト周波数πを超えないようにして、合成フィルタの安定性が損なわれることが防止される。また、非線形変換関数による高域側への周波数変換が行われた場合には、声質変換パラメータに基づいて高次数側からLSP係数が削除される。こうして、高周波数領域におけるLSP係数間の距離が小さくなって不自然に強調されたり、合成フィルタの動作不安定によって出力波形が発振したりすることが防止される。
【0016】
また、1実施例では、上記第1の発明の音声合成装置において、上記波形合成手段によって合成された音声波形の周波数スペクトルの特性を上記入力された声質変換パラメータに応じて変更して、上記合成された音声波形の不自然な周波数スペクトルの偏りを補正するスペクトル補正手段を備えている。
【0017】
この実施例によれば、上記声質変換手段において、例えば、非線形変換関数による高域側への周波数変換が行われた場合は、合成された音声波形の高域がスペクトル補正手段によって抑制される。一方、低域側への周波数変換が行われた場合は、合成された音声波形の低域がスペクトル補正手段によって抑制される。こうして、不自然なスペクトルの偏りの補正が行われるのである。
【0018】
また、1実施例では、上記第1の発明の音声合成装置において、上記素片記憶手段に記憶されている音声素片データは、予め、フォルマント位置が標準の位置よりも低周波数側に移動されている。
【0019】
フォルマントを低周波数側に移動する場合には、低域側に存在する低次のLSP係数が略線形に縮小される。その場合、低次のLSP係数間の距離が近づくので合成フィルタが不安定になり、低周波数側への変換の範囲が限られることになる。この実施例によれば、予め、フォルマント位置が標準よりも低周波数側に移動されている。したがって、合成フィルタが不安定になり易い低域側へのフォルマント移動量が少なくなり、より広い範囲の周波数変換が可能になる。
【0020】
また、第2の発明は、
少なくともテキスト情報あるいは音素情報が入力されるテキスト入力手段と、声質変換パラメータが入力される声質変換パラメータ入力手段と、音声素片データが格納される素片記憶手段と、入力されたテキスト情報または音素情報に応じて上記音声素片データを選択する素片選択手段と、上記選択された音声素片データの声質を入力された声質変換パラメータに応じて変換する声質変換手段を有する声質変換装置において、
上記素片記憶手段に記憶されている音声素片データはLSP係数あるいはLSPに変換可能なスペクトル情報であり、
上記声質変換手段は、
上記入力された声質変換パラメータに応じて、上記選択された音声素片から求められるLSP係数を周波数方向に拡張あるいは伸縮して、フォルマント位置を周波数方向に移動することによって声質を変化させる係数変形手段と、
上記係数変形手段によって周波数方向に拡張あるいは伸縮されたLSP係数のLSP次数を、上記入力された声質変換パラメータに応じて変化させる次数変化手段と
を備えていることを特徴としている。
【0021】
上記構成によれば、素片記憶手段に記憶されている音声素片データはLSP係数で表現されている。こうして、上記音声素片データの容量の削減が図られる。また、声質変換手段の係数変形手段によって、選択された音声素片のLSP係数が、入力された声質変換パラメータに応じて周波数方向に拡張あるいは伸縮され、フォルマント位置が周波数方向に移動されて声質が変化される。その際におけるLSP係数の拡張あるいは伸縮は、LSP係数として圧縮されたスペクトル情報を用いて少ない処理量で行われる。
【0022】
さらに、上記声質変換手段の次数変化手段によって、例えば、線形変換関数による高域側への周波数変換が行われた場合には、ナイキスト周波数πよりも大きくなった次数のLSP係数が削除される。こうして、LSP係数がナイキスト周波数πを超えないようにして、合成フィルタの安定性が損なわれることが防止される。また、非線形変換関数による高域側への周波数変換が行われた場合には、声質変換パラメータに基づいて高次数側からLSP係数が削除される。こうして、高周波数領域におけるLSP係数間の距離が小さくなって不自然に強調されたり、合成フィルタの動作不安定によって出力波形が発振したりすることが防止される。
【0023】
また、第3の発明は、
テキスト入力手段から少なくともテキスト情報あるいは音素情報を入力し、入力されたテキスト情報または音素情報に応じて素片選択手段によって素片記憶手段から音声素片データを選択し、上記選択された音声素片データの声質を声質変換手段によって声質変換パラメータ入力手段から入力された声質変換パラメータに応じて変換し、声質が変換された音声素片データに基づいて波形合成手段によって音声波形を合成する音声合成方法において、
上記素片記憶手段には、上記音声素片データとしてLSP係数あるいはLSPに変換可能なスペクトル情報を記憶し、
上記声質変換手段による声質の変換は、上記入力された声質変換パラメータに応じて、上記選択された音声素片から求められるLSP係数を周波数方向に拡張あるいは伸縮して、フォルマント位置を周波数方向に移動させることによって行われ、
上記声質変換手段による声質の変換では、上記周波数方向に拡張あるいは伸縮されたLSP係数のLSP次数を、上記入力された声質変換パラメータに応じて変化させる
ことを特徴としている。
【0024】
上記構成によれば、音声素片データはLSP係数で表現されているので、上記音声素片データの容量の削減が図られる。また、選択された音声素片のLSP係数が拡張あるいは伸縮され、フォルマント位置が周波数方向に移動されて声質が変化される。その際における拡張あるいは伸縮は、LSP係数で圧縮されたスペクトル情報を用いて少ない処理量で行われる。
【0025】
さらに、上記声質変換手段による声質の変換では、上記周波数方向に拡張あるいは伸縮されたLSP係数のLSP次数を、上記入力された声質変換パラメータに応じて変化させるので、例えば、線形変換関数による高域側への周波数変換が行われた場合には、ナイキスト周波数πよりも大きくなった次数のLSP係数が削除される。こうして、合成フィルタの安定性が損なわれることが防止される。また、非線形変換関数による高域側への周波数変換が行われた場合には、声質変換パラメータに基づいて高次数側からLSP係数が削除される。こうして、高周波数領域におけるLSP係数間の距離が小さくなって不自然に強調されたり、合成フィルタの動作不安定によって出力波形が発振したりすることが防止される。
【0026】
また、1実施例では、上記第2の発明の音声合成方法において、上記波形合成手段によって合成された音声波形の周波数スペクトルの特性をスペクトル補正手段によって上記入力された声質変換パラメータに応じて変更し、上記合成された音声波形の不自然な周波数スペクトルの偏りを補正する。
【0027】
この実施例によれば、例えば、非線形変換関数による高域側への周波数変換が行われた場合には、合成された音声波形の高域が抑制される。一方、低域側への周波数変換が行われた場合には、合成された音声波形の低域が抑制される。こうして、不自然なスペクトルの偏りの補正が行われる。
【0028】
また、1実施例では、上記第2の発明の音声合成方法において、上記素片記憶手段に記憶する音声素片データは、予め、フォルマント位置を標準の位置よりも低周波数側に移動しておく。
【0029】
この実施例によれば、予め、フォルマント位置が標準よりも低周波数側に移動されている。したがって、合成フィルタが不安定になり易い低域側へのフォルマント移動量が少なくなり、より広い範囲の周波数変換が可能になる。
【0030】
また、第4の発明は、
テキスト入力手段から少なくともテキスト情報あるいは音素情報を入力し、入力されたテキスト情報または音素情報に応じて素片選択手段によって素片記憶手段から音声素片データを選択し、上記選択された音声素片データの声質を声質変換手段によって声質変換パラメータ入力手段から入力された声質変換パラメータに応じて変換する声質変換方法において、
上記素片記憶手段には、上記音声素片データとしてLSP係数あるいはLSPに変換可能なスペクトル情報を記憶し、
上記声質変換手段による声質の変換は、上記入力された声質変換パラメータに応じて、上記選択された音声素片から求められるLSP係数を周波数方向に拡張あるいは伸縮して、フォルマント位置を周波数方向に移動させることによって行われ、
上記声質変換手段による声質の変換では、上記周波数方向に拡張あるいは伸縮されたLSP係数のLSP次数を、上記入力された声質変換パラメータに応じて変化させる
ことを特徴としている。
【0031】
上記構成によれば、音声素片データはLSP係数で表現されているので、上記音声素片データの容量の削減が図られる。また、選択された音声素片のLSP係数が拡張あるいは伸縮され、フォルマント位置が周波数方向に移動されて声質が変化される。その際における拡張あるいは伸縮は、LSP係数で圧縮されたスペクトル情報を用いて少ない処理量で行われる。
【0032】
さらに、上記声質変換手段による声質の変換では、上記周波数方向に拡張あるいは伸縮されたLSP係数のLSP次数を、上記入力された声質変換パラメータに応じて変化させるので、例えば、線形変換関数による高域側への周波数変換が行われた場合には、ナイキスト周波数πよりも大きくなった次数のLSP係数が削除される。こうして、合成フィルタの安定性が損なわれることが防止される。また、非線形変換関数による高域側への周波数変換が行われた場合には、声質変換パラメータに基づいて高次数側からLSP係数が削除される。こうして、高周波数領域におけるLSP係数間の距離が小さくなって不自然に強調されたり、合成フィルタの動作不安定によって出力波形が発振したりすることが防止される。
【0033】
また、第5の発明の音声合成処理プログラムは、コンピュータまたはDSP(ディジタル・シグナル・プロセッサ)を、上記第1の発明におけるテキスト入力手段,声質変換パラメータ入力手段,素片記憶手段,素片選択手段,声質変換手段,係数変形手段,次数変化手段および波形合成手段として機能させることを特徴としている。
【0034】
上記構成によれば、上記第1の発明の場合と同様に、音声素片データのスペクトルの拡張または伸縮によってフォルマント位置を周波数方向に移動して声質を変化する際に、音声素片データがLSP係数で表現されているので、上記音声素片データの容量の削減が図られ、少ない処理量でのフォルマント位置の移動が行われる。
【0035】
また、第6の発明の音質変換処理プログラムは、コンピュータまたはDSP(ディジタル・シグナル・プロセッサ)を、上記第2の発明におけるテキスト入力手段,声質変換パラメータ入力手段,素片記憶手段,素片選択手段,声質変換手段,係数変形手段および次数変化手段として機能させることを特徴としている。
【0036】
上記構成によれば、上記第2の発明の場合と同様に、音声素片データのスペクトルの拡張または伸縮によってフォルマント位置を周波数方向に移動して声質を変化する際に、音声素片データがLSP係数で表現されているので、上記音声素片データの容量の削減が図られ、少ない処理量でのフォルマント位置の移動が行われる。
【0037】
また、第7の発明のプログラム記録媒体は、上記第5の発明の音声合成処理プログラムが記録されたことを特徴としている。
【0038】
また、第8の発明のプログラム記録媒体は、上記第6の発明の声質変換処理プログラムが記録されたことを特徴としている。
【0039】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。図1は、本実施の形態の音声合成装置におけるブロック図である。本音声合成装置は、テキスト入力部1,声質変換パラメータ入力部2,素片記憶部3,素片選択部4,声質変換部5および波形合成部6で概略構成される。
【0040】
上記テキスト入力部1からは、テキストデータとして、音声合成したい言葉の内容を示すテキスト情報あるいは音素情報と、アクセントや発話全体の抑揚を示す韻律情報とが入力される。また、声質変換パラメータ入力部2からは、使用者あるいはテキストデータの提供者の操作によって、出力音声の声質を指定するための声質変換パラメータが入力される。
【0041】
上記素片記憶部3には、音声の細かな単位毎に音声素片データが記憶されている。音声素片の単位としては、子音+母音(CV)や母音+子音+母音(VCV)がある。あるいは、単語のような長い音節系列を単位としても差し支えない。音声素片の内容は、短い時間単位に区切ったフレーム毎のスペクトル形状とパワーの情報とに分割して保持することで、情報を圧縮するのが一般的である。上記スペクトル形状の記憶形態としては、線形予測係数(LPC)や、LPCから求まるケプストラム係数,反射係数あるいはLSP係数として保持することによって、記憶容量の削減を図るのである。あるいは、周波数毎のパワー(パワースペクトル)や零位相化した1ピッチの波形として保持してもよい。
【0042】
そうすると、上記素片選択部4は、テキスト入力部1に入力された音素列情報に基づいて最適な音声素片を選択し、選択した音声素片の情報を出力する。その場合、音声素片が音節で構成されている場合には、上記入力された音素列情報を音節毎に区切り、この区切られた各音節に対応した音声素片を素片記憶部3から選択することになる。また、音声素片がVCVで構成されている場合には、上記入力された音素列情報の各母音の夫々を前半と後半とに分割してVCVの連続へと変換し、この変換された各VCVに対応した音声素片を素片記憶部3から選択することになる。
【0043】
そして、上記声質変換部5によって、上記素片選択部4によって選択された音声素片の情報からスペクトル情報が読み出され、必要ならばLSP係数への変換が行われる。そして、得られたLSP係数に対して線形型あるいは非線型の周波数変換が行われた後、再び元のスペクトル情報へ変換されて出力される。尚、上記選択された音声素片のスペクトル情報(パラメータ)がLSP係数で表現されている場合には、上述のLSP係数への変換およびLSP係数から元のスペクトル情報への変換は不要である。
【0044】
こうして線形あるいは非線型な変形が行われて声質が変化された音声素片のスペクトル情報と、上記選択された音声素片の情報から読み出されたフレーム毎の声の大きさおよび声の高さと、テキスト入力部1から入力された韻律情報とに基づいて、波形合成部6によって、音声波形が合成されるのである。
【0045】
以下、上記音声波形の合成方法について、具体的且つ一般的な例を上げて説明する。
【0046】
すなわち、先ず、各フレームのスペクトル情報がLSP係数である場合には、LSP合成フィルタを用いて、あるいは、一旦LPC係数へ変換してIIR(全極型)合成フィルタを用いて、インパルス応答を求める。そして、このインパルス応答を1ピッチ波形とする。また、スペクトル情報が周波数スペクトルである場合には、フーリエ変換によって1ピッチ波形を合成する。次に、上記パワー情報に基づく声の大きさに応じて、1ピッチ波形のパワーを調整する。最後に、声の高さから計算されるピッチ間隔で位置をずらしながら、上記パワーが設定された1ピッチ波形を重畳する。こうして、音声波形が合成されるのである。
【0047】
次に、上記声質変換部5によるスペクトル情報に対する線形あるいは非線型な周波数変換について、図2および図3を用いて更に詳しく説明する。図2は、声質変換部5の具体的な構成を示す。この声質変換部5は、スペクトルパラメータとしてLSP係数をそのまま用いるものであり、LSP係数を線形型あるいは非線型の関数を用いて周波数変換を行うLSP係数変形部7と、周波数変換されたLSP係数や声質変換パラメータに応じてLSP次数を調整するLSP次数変換部8とから構成されている。
【0048】
図3は、上記LSP係数変形部7による周波数変換を行う際の変換関数の一例を示す。横軸は入力LSP係数の周波数Fiであり、縦軸は変換後の出力LSP係数の周波数Foである。図3において、「A」は線形変換関数であり、その場合における変換式は、
Fo=W(Fi)=k*Fi+c …(1)
で表すことができる。この変換式によるLSP係数「lsp(i)」の周波数変換は、次式で表わされる。
lsp'(i)=W(lsp(i)) (i=1,2,3,…,N) …(2)
ここで、「k」は1前後の実数値であり、声質変換パラメータ入部2から上述した声質変換パラメータとして入力指定される。また、「c」は0でも良いが、声質変換パラメータkが1より小さい場合には、極端にLSP係数が小さくならないように、小さな値あるいはlsp(1)を与えることも効果がある。
【0049】
また、上記声質変換パラメータkが1より大きい(例えば1.2)場合には、周波数変換によってフォルマントが高周波数側へ移動するが、それに伴ってLSP係数の一部がナイキスト周波数πを超えてしまう。その場合には、合成フィルタが安定に動作できず、1ピッチ波形が合成できないことになる。これを防ぐために、本実施の形態においては、声質変換部5のLSP次数変換部8によって、ナイキスト周波数πよりも大きくなった次数のLSP係数については削除して、LSPの次数を少なくするのである。こうすることで、安定して合成フィルタが動作することができるのである。
【0050】
また、「B」は非線形変換関数であり、その場合における変換式は、
Fo=W(Fi)=π*(Fi/π)**p …(3)
で表すことができる。ここで、「**」は累乗を表わす。また、「p」は1前後の実数値であり、声質変換パラメータ入部2から上記声質変換パラメータとして入力指定される。
【0051】
上記声質変換パラメータpが1より小さい(例えば0.9)場合には、周波数変換によってフォルマントが高い周波数へ移動する。この周波数変換では、変換後のLSP係数がナイキスト周波数πを超えることはない。ところが、高い周波数領域ではLSP係数間の距離が小さくなって、スぺクトルの高域が不自然に強調された音声が合成されてしまう。さらに、スぺクトルの高域部分のパワーが強い音声素片の場合には、合成フィルタの動作が不安定になって出力波形が発振してしまう。
【0052】
このような場合も、上記声質変換部5のLSP次数変換部8によって、本来N次であるLSP係数を高い方からm個削減して、次数を(N−m)とすることによって不自然な強調や発振を押さえることができるのである。ここで、「m」の求め方の一例を次式に示す。
m=N*(1−p) (0<p≦1) …(4)
尚、mの求め方は必ずしもこの限りではない。
【0053】
また、上記非線型変換関数として、「B」に示すような累乗で表わされる変換関数を用いると、累乗の計算処理が多くなってしまう。そこで、計算処理の多い累乗を避けるために、折れ線で表わされる変換関数を用いても差し支えない。
【0054】
以上のごとく、本実施の形態においては、テキスト音声合成を行うに際して、素片記憶部3に、CVやVCVや音素系列を単位とした音声素片のフレーム毎のスペクトル形状とパワーの情報とに分けて保持している。その際に、上記スペクトル形状は、LPCやLPC係数やLSP係数として保持することによって、記憶容量の削減を図ることができる。
【0055】
そして、上記声質変換部5は、LSP係数変形部7によって、素片選択部4によって選択された音声素片のLSP係数を線形型または非線型の周波数変換を行う。その際に、声質変換パラメータ入部2からの声質変換パラメータ「k」,「p」に応じた度合で、高周波数側または低周波数側への周波数変換を行う。さらに、LSP次数変換部8によって、上記周波数変換されたLSP係数の次数を調整する。その際に、上記線形変換関数による周波数変換であって声質変換パラメータkが1より大きい場合には、ナイキスト周波数πよりも大きくなった次数のLSP係数を削除するのである。こうすることによって、LSP係数がナイキスト周波数を超えることを防止でき、合成フィルタの安定性が損なわれることを防止できるのである。
【0056】
また、上記非線形変換関数による周波数変換であって声質変換パラメータpが1より小さい場合には、声質変換パラメータpに基づいて上述の式(4)で求められるm個分だけ高次数側からLSP係数を削除するのである。こうすることによって、高周波数領域におけるLSP係数間の距離が小さくなって不自然に強調されたり、合成フィルタの動作が不安定になって出力波形が発振したりすることを防止できるのである。
【0057】
その際に、上記音声素片のスペクトル情報はLPCやLPC係数やLSP係数として圧縮されて素片記憶部3に記憶されている。したがって、上述の周波数変換やLSP係数の次数調整を、少ない処理量で行うことができるのである。
【0058】
<第2実施の形態>
図4は、本実施の形態における音声合成装置のブロック図である。図4において、テキスト入力部11,声質変換パラメータ入力部12,素片記憶部13,素片選択部14,声質変換部15および波形合成部16は、図1に示す上記第1実施の形態の音声合成装置におけるテキスト入力部1,声質変換パラメータ入力部2,素片記憶部3,素片選択部4,声質変換部5および波形合成部6と同じである。
【0059】
スペクトル補正部17は、先に述べた非線型変換関数による不自然なスペクトルの偏りを補正するものであり、フィルタで構成される。このフィルタは、低次数のFIR(全零型)フィルタでよい。そして、声質変換部15において、非線型変換関数による周波数変換を行う際に、声質変換パラメータ入力部12からの声質変換パラメータ係数pが1より大きい場合には、高域を押さえるように作用するのである。
【0060】
ここで、上記1次のFIRフィルタを
y(t)=x(t)−b*x(t−1) …(5)
但し、b=M*(p−1)(M:正の実数)
とすると、p=1の場合にフラットであり、0<p<1の場合に高域を抑制し、1<p<2の場合に低域を抑制するフィルタとなり、不自然なスペクトルの偏りに補正が働くのである。
【0061】
その場合に、上記声質変換部15におけるLSP次数変換部によるLSP次数の調整と、スペクトル補正部17による不自然なスペクトルの偏りの補正との両方を併用してもよいし、片方だけを行うようにしても差し支えない。
【0062】
ところで、フォルマントを高い周波数側に移動する場合には、低域側に存在する低次のLSP係数は略線形に拡張する。その際に、低次のLSP係数間の距離が広くなるために、低域側で合成フィルタが不安定になることはない。また、高域側では、先に述べたように、次数を削減することによって合成フィルタの安定性を保つことが可能である。
【0063】
ところが、上記フォルマントを低い周波数側に移動する場合には、低域側に存在する低次のLSP係数を略線形に縮小するのであるが、その際に、低域側において何れの係数を削除するかを決定するのが困難であるため、容易に次数を削減するすることができない。そのため、低次のLSP係数間の距離が近づくことになり、合成フィルタが不安定になる。したがって、低い周波数側への変換は、その範囲が限られることになる。
【0064】
尚、上記LPC係数を用いずにFFT(高速フーリエ変換)を用いたスペクトル形状の変換技術を用いれば、合成フィルタの安定性を保って変換することができる。しかしながら、計算量が多いために、実時間で行うことができるのは、処理能力の大きなコンピュータやDSPに限られてしまう。
【0065】
これらの点を考慮して、上記音声素片データを予め作成して素片記憶部3,13に記憶させる際に、音声素片のフォルマント位置を標準よりも低い周波数側にずらして作成しておくのである。こうすることによって、スペクトルの周波数変換の際に、合成フィルタが不安定になり易い低域側へのフォルマント移動量を少なくすることができ、より広い範囲の周波数変換が可能になるのである。
【0066】
尚、上記第1,第2実施の形態においては、上記声質変換部5,15による周波数変換および次数の調整の対象として、周波数スペクトルをLSP係数で表現したものを用いているが、この発明はこれに限定されるものではない。要は、低処理量で周波数方向に変化し易いパラメータであればよいのである。
【0067】
<第3実施の形態>
図5は、上記第1,第2の実施の形態における音声合成装置を、コンピュータを用いて実現する際の具体的なハードウェア構成を示す。入力装置21は、テキスト入力部1,11および声質変換パラメータ入力部2,12の具体的構成であって、シリアル通信やネットワーク通信あるいはキーボード等によって読み上げ対象となるテキストや声質変換パラメータを入力する。記憶媒体22は、音声合成処理プログラムや素片データを記録したCD(コンパクトディスク)‐ROM(リード・オンリ・メモリ)やフロツピーディスクやフラッシュメモリ等である。記憶装置23は、記憶媒体22から読み出された上記音声合成処理プログラムや音声素片データが書き込まれたハードディスクやフラッシュメモリ等の記憶装置であり、上記素片記憶部3,13の具体的構成である。
【0068】
RAM(ランダム・アクセス・メモリ)24は音声合成処理に必要な一次記憶に用いられる。処理装置25は、素片選択部4・14,声質変換部5・15,波形合成部6・16およびスペクトル補正部17の具体構成であって、記憶媒体22に記憶されたあるいは記憶装置23に読み込まれた音声合成プログラムに従って音声合成の処理を行うCPU(中央演算処理装置)やDSP等である。出力装置26は、合成された音声を出力するためのD/A変換器,アンプおよびスピーカ等で構成される。
【0069】
ところで、上記第1,第2実施の形態におけるテキスト入力部1・11,声質変換パラメータ入力部2・12,素片選択部4・14,声質変換部5・15,波形合成部6・16およびスペクトル補正部17としての機能は、記憶媒体22等のプログラム記録媒体に記録された音声合成処理プログラムによって実現される。上記各実施の形態における上記プログラム記録媒体は、RAM24とは別体に設けられたROMでなるプログラムメディアである。あるいは、外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから音声合成処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、記憶装置23に設けられたプログラム記憶エリア(図示せず)にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアから記憶装置23の上記プログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0070】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD‐ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタルビデオディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0071】
また、上記各実施の形態における音声合成装置は、入力装置21としてモデムを備えて、インターネットを含む通信ネットワークと接続可能な構成を有している場合には、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【0072】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0073】
【発明の効果】
以上より明らかなように、第1の発明の音声合成装置は、上記素片記憶手段には音声素片データとしてLSP係数を記憶したので、上記音声素片データの容量を削減することができる。さらに、声質変換手段の係数変形手段によって、選択された音声素片のLSP係数を、入力された声質変換パラメータに応じて周波数方向に拡張あるいは伸縮し、フォルマント位置を周波数方向に移動することによって声質を変化させるので、LSP係数として圧縮されたスペクトル情報による少ない処理量で声質を変化させることができる。
【0074】
すなわち、この発明によれば、音声素片データの容量や処理量の増加を少なく押さえて、入力された声質変換パラメータに従って、1種類の音声素片データから様々な声質の音声を合成することができるのである。
【0075】
さらに、上記声質変換手段の次数変化手段で、上記周波数方向に拡張あるいは伸縮されたLSP係数のLSP次数を、上記入力された声質変換パラメータに応じて変化させるので、例えば、高域側への線形な周波数変換が行われた場合には、ナイキスト周波数πを越えた次数のLSP係数を削除して、合成フィルタの安定性が損なわれるのを防止できる。さらに、高域側への非線形な周波数変換が行われた場合には、高次数側のLSP係数を削除して、LSP係数間が狭くなることによる高周波数領域の不自然な強調や合成フィルタの動作不安定による出力波形の発振を防止できる。
【0076】
さらに、周波数変換後のLSP係数の次数を最適に調整することによって、スペクトルの変化範囲が広くなり、より変化に富んだ声質の合成音声を得ることが可能になる。
【0077】
また、1実施例の音声合成装置は、スペクトル補正手段によって、上記波形合成手段で合成された音声波形の周波数スペクトルの特性を、上記入力された声質変換パラメータに応じて変更して、上記合成音声波形の不自然な周波数スペクトルの偏りを補正するので、例えば、上記声質変換手段で高域側への非線形な周波数変換が行われた場合には高域が抑制される。一方、低域側への非線形な周波数変換が行われた場合には低域が抑制される。こうして、不自然なスペクトルの偏りの補正が行われるのである。
【0078】
すなわち、周波数変換によって生じたスペクトルの偏りを波形合成後に補正することによって、LSP係数を用いた声質変換においても自然な音質の合成音声を得ることができる。
【0079】
また、1実施例の音声合成装置は、上記素片記憶手段には、予め、フォルマント位置を標準の位置よりも低周波数側に移動した音声素片データを記憶しているので、合成フィルタが不安定になり易い低域側へのフォルマント移動量を少なくしつつ、低周波数側へのスペクトル変化幅を広げることができる。したがって、より広い範囲の周波数変換を可能にし、変化に富んだ音声合成を得ることが可能になる。
【0080】
また、第2の発明の音質変換装置は、上記素片記憶手段には音声素片データとしてLSP係数を記憶したので、上記音声素片データの容量を削減することができる。さらに、声質変換手段の係数変形手段によって、選択された音声素片のLSP係数を、入力された声質変換パラメータに応じて周波数方向に拡張あるいは伸縮し、フォルマント位置を周波数方向に移動することによって声質を変化させるので、LSP係数として圧縮されたスペクトル情報による少ない処理量で声質を変化させることができる。
【0081】
すなわち、この発明によれば、音声素片データの容量や処理量の増加を少なく押さえて、入力された声質変換パラメータに従って、1種類の音声素片データから様々な声質の音声を合成することができるのである。
【0082】
さらに、上記声質変換手段の次数変化手段で、上記周波数方向に拡張あるいは伸縮されたLSP係数のLSP次数を、上記入力された声質変換パラメータに応じて変化させるので、例えば、高域側への線形な周波数変換が行われた場合には、ナイキスト周波数πを越えた次数のLSP係数を削除して、合成フィルタの安定性が損なわれるのを防止できる。さらに、高域側への非線形な周波数変換が行われた場合には、高次数側のLSP係数を削除して、LSP係数間が狭くなることによる高周波数領域の不自然な強調や合成フィルタの動作不安定による出力波形の発振を防止できる。
【0083】
さらに、周波数変換後のLSP係数の次数を最適に調整することによって、スペクトルの変化範囲が広くなり、より変化に富んだ声質を得ることが可能になる。
【0084】
また、第3の発明の音声合成方法は、上記素片記憶手段には音声素片データとしてLSP係数を記憶したので、上記音声素片データの容量を削減することができる。さらに、選択された音声素片のLSP係数を周波数方向に拡張あるいは伸縮し、フォルマント位置を周波数方向に移動して声質を変化させるので、LSP係数として圧縮されたスペクトル情報による少ない処理量で、声質を変化させることができる。
【0085】
さらに、上記声質変換手段による声質の変換において、上記周波数方向に拡張あるいは伸縮されたLSP係数のLSP次数を、上記入力された声質変換パラメータに応じて変化させるので、例えば、高域側への線形的な周波数変換の場合には、ナイキスト周波数πを越えた次数のLSP係数を削除して、合成フィルタの安定性が損なわれることを防止できる。さらに、高域側への非線形的な周波数変換の場合には、高次数側からLSP係数を削除して、LSP係数間が狭くなることによる高周波数領域の不自然な強調や、合成フィルタの不安定動作による出力波形の発振を防止できる。
【0086】
また、1実施例の音声合成方法は、上記波形合成手段で合成された音声波形の周波数スペクトルの特性を、スペクトル補正手段によって、上記入力された声質変換パラメータに応じて変更して合成音声波形の不自然な周波数スペクトルの偏りを補正するので、例えば、高域側への非線形な周波数変換の場合には合成音声波形の高域を抑制する一方、低域側への非線形な周波数変換の場合には合成音声波形の低域を抑制できる。こうして、不自然なスペクトルの偏りの補正を行うことができるのである。
【0087】
また、1実施例の音声合成方法は、上記素片記憶手段に記憶する音声素片データのフォルマント位置を、予め、標準の位置よりも低周波数側に移動しておくので、合成フィルタが不安定になり易い低域側へのフォルマント移動量を少なくしつつ、より広い範囲の周波数変換を可能にする。
【0088】
また、第4の発明の音質変換方法は、上記素片記憶手段には音声素片データとしてLSP係数を記憶したので、上記音声素片データの容量を削減することができる。さらに、選択された音声素片のLSP係数を周波数方向に拡張あるいは伸縮し、フォルマント位置を周波数方向に移動して声質を変化させるので、LSP係数として圧縮されたスペクトル情報による少ない処理量で、声質を変化させることができる。
【0089】
さらに、上記声質変換手段による声質の変換において、上記周波数方向に拡張あるいは伸縮されたLSP係数のLSP次数を、上記入力された声質変換パラメータに応じて変化させるので、例えば、高域側への線形的な周波数変換の場合には、ナイキスト周波数πを越えた次数のLSP係数を削除して、合成フィルタの安定性が損なわれることを防止できる。さらに、高域側への非線形的な周波数変換の場合には、高次数側からLSP係数を削除して、LSP係数間が狭くなることによる高周波数領域の不自然な強調や、合成フィルタの不安定動作による出力波形の発振を防止できる。
【0090】
また、第5の発明の音声合成処理プログラムは、コンピュータあるいはDSPを、上記第1の発明におけるテキスト入力手段,声質変換パラメータ入力手段,素片記憶手段,素片選択手段,声質変換手段,係数変形手段,次数変化手段および波形合成手段として機能させるので、上記第1の発明の場合と同様に、上記素片記憶手段における記憶容量の削減を図り、少ない処理量での声質変換を行うことができる。
【0091】
また、第6の発明の音質変換処理プログラムは、コンピュータあるいはDSPを、上記第2の発明におけるテキスト入力手段,声質変換パラメータ入力手段,素片記憶手段,素片選択手段,声質変換手段,係数変形手段および次数変化手段として機能させるので、上記第2の発明の場合と同様に、上記素片記憶手段における記憶容量の削減を図り、少ない処理量での声質変換を行うことができる。
【0092】
また、第7の発明のプログラム記録媒体は、上記第5の発明の音声合成処理プログラムが記録されているので、上記第1の発明の場合と同様に、上記素片記憶手段における記憶容量の削減を図り、少ない処理量での声質変換を行うことができる。
【0093】
また、第8の発明のプログラム記録媒体は、上記第6の発明の声質変換処理プログラムが記録されているので、上記第2の発明の場合と同様に、上記素片記憶手段における記憶容量の削減を図り、少ない処理量での声質変換を行うことができる。
【図面の簡単な説明】
【図1】 この発明の音声合成装置におけるブロック図である。
【図2】 図1における声質変換部の具体的な構成を示す図である。
【図3】 図2におけるLSP係数変形部による周波数変換を行う際の変換関数の一例を示す図である。
【図4】 図1とは異なる音声合成装置のブロック図である。
【図5】 図1および図4に示す音声合成装置をコンピュータで実現する際のハードウェア構成を示す図である。
【符号の説明】
1,11…テキスト入力部、
2,12…声質変換パラメータ入力部、
3,13…素片記憶部、
4,14…素片選択部、
5,15…声質変換部、
6,16…波形合成部、
7…LSP係数変形部、
8…LSP次数変換部、
17…スペクトル補正部、
21…入力装置、
22…記憶媒体、
23…記憶装置、
24…RAM、
25…処理装置、
26…出力装置。
Claims (12)
- 少なくともテキスト情報あるいは音素情報が入力されるテキスト入力手段と、声質変換パラメータが入力される声質変換パラメータ入力手段と、音声素片データが格納される素片記憶手段と、入力されたテキスト情報または音素情報に応じて上記音声素片データを選択する素片選択手段と、上記選択された音声素片データの声質を入力された声質変換パラメータに応じて変換する声質変換手段と、声質が変換された音声素片データに基づいて音声波形を合成する波形合成手段を有する音声合成装置において、
上記素片記憶手段に記憶されている音声素片データは線スペクトル対係数あるいは線スペクトル対に変換可能なスペクトル情報であり、
上記声質変換手段は、
上記入力された声質変換パラメータに応じて、上記選択された音声素片から求められる線スペクトル対係数を周波数方向に拡張あるいは伸縮して、フォルマント位置を周波数方向に移動することによって声質を変化させる係数変形手段と、
上記係数変形手段によって周波数方向に拡張あるいは伸縮された線スペクトル対係数の線スペクトル対次数を、上記入力された声質変換パラメータに応じて変化させる次数変化手段と
を備えていることを特徴とする音声合成装置。 - 請求項1に記載の音声合成装置において、
上記波形合成手段によって合成された音声波形の周波数スペクトルの特性を上記入力された声質変換パラメータに応じて変更して、上記合成された音声波形の不自然な周波数スペクトルの偏りを補正するスペクトル補正手段
を備えていることを特徴とする音声合成装置。 - 請求項1あるいは請求項2に記載の音声合成装置において、
上記素片記憶手段に記憶されている音声素片データは、予め、フォルマント位置が標準の位置よりも低周波数側に移動されている
ことを特徴とする音声合成装置。 - 少なくともテキスト情報あるいは音素情報が入力されるテキスト入力手段と、声質変換パラメータが入力される声質変換パラメータ入力手段と、音声素片データが格納される素片記憶手段と、入力されたテキスト情報または音素情報に応じて上記音声素片データを選択する素片選択手段と、上記選択された音声素片データの声質を入力された声質変換パラメータに応じて変換する声質変換手段を有する声質変換装置において、
上記素片記憶手段に記憶されている音声素片データは線スペクトル対係数あるいは線スペクトル対に変換可能なスペクトル情報であり、
上記声質変換手段は、
上記入力された声質変換パラメータに応じて、上記選択された音声素片から求められる線スペクトル対係数を周波数方向に拡張あるいは伸縮して、フォルマント位置を周波数方向に移動することによって声質を変化させる係数変形手段と、
上記係数変形手段によって周波数方向に拡張あるいは伸縮された線スペクトル対係数の線スペクトル対次数を、上記入力された声質変換パラメータに応じて変化させる次数変化手段と
を備えていることを特徴とする声質変換装置。 - テキスト入力手段から少なくともテキスト情報あるいは音素情報を入力し、入力されたテキスト情報または音素情報に応じて素片選択手段によって素片記憶手段から音声素片データを選択し、上記選択された音声素片データの声質を声質変換手段によって声質変換パラメータ入力手段から入力された声質変換パラメータに応じて変換し、声質が変換された音声素片データに基づいて波形合成手段によって音声波形を合成する音声合成方法において、
上記素片記憶手段には、上記音声素片データとして線スペクトル対係数あるいは線スペクトル対に変換可能なスペクトル情報を記憶し、
上記声質変換手段による声質の変換は、上記入力された声質変換パラメータに応じて、上記選択された音声素片から求められる線スペクトル対係数を周波数方向に拡張あるいは伸縮して、フォルマント位置を周波数方向に移動させることによって行われ、
上記声質変換手段による声質の変換では、上記周波数方向に拡張あるいは伸縮された線スペクトル対係数の線スペクトル対次数を、上記入力された声質変換パラメータに応じて変化させる
ことを特徴とする音声合成方法。 - 請求項5に記載の音声合成方法において、
上記波形合成手段によって合成された音声波形の周波数スペクトルの特性をスペクトル補正手段によって上記入力された声質変換パラメータに応じて変更し、上記合成された音声波形の不自然な周波数スペクトルの偏りを補正する
ことを特徴とする音声合成方法。 - 請求項5あるいは請求項6に記載の音声合成方法において、
上記素片記憶手段に記憶する音声素片データは、予め、フォルマント位置を標準の位置よりも低周波数側に移動させておく
ことを特徴とする音声合成方法。 - テキスト入力手段から少なくともテキスト情報あるいは音素情報を入力し、入力されたテキスト情報または音素情報に応じて素片選択手段によって素片記憶手段から音声素片データを選択し、上記選択された音声素片データの声質を声質変換手段によって声質変換パラメータ入力手段から入力された声質変換パラメータに応じて変換する声質変換方法において、
上記素片記憶手段には、上記音声素片データとして線スペクトル対係数あるいは線スペクトル対に変換可能なスペクトル情報を記憶し、
上記声質変換手段による声質の変換は、上記入力された声質変換パラメータに応じて、上記選択された音声素片から求められる線スペクトル対係数を周波数方向に拡張あるいは伸縮してフォルマント位置を周波数方向に移動させることによって行われ、
上記声質変換手段による声質の変換では、上記周波数方向に拡張あるいは伸縮された線スペクトル対係数の線スペクトル対次数を、上記入力された声質変換パラメータに応じて変化させる
ことを特徴とする声質変換方法。 - コンピュータあるいはディジタル・シグナル・プロセッサを、
請求項1におけるテキスト入力手段,声質変換パラメータ入力手段,素片記憶手段,素片選択手段,声質変換手段,係数変形手段,次数変化手段および波形合成手段
として機能させることを特徴とする音声合成処理プログラム。 - コンピュータあるいはディジタル・シグナル・プロセッサを、
請求項4におけるテキスト入力手段,声質変換パラメータ入力手段,素片記憶手段,素片選択手段,声質変換手段,係数変形手段および次数変化手段
として機能させることを特徴とする声質変換処理プログラム。 - 請求項9に記載の音声合成処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
- 請求項10に記載の声質変換処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001261327A JP4408596B2 (ja) | 2001-08-30 | 2001-08-30 | 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001261327A JP4408596B2 (ja) | 2001-08-30 | 2001-08-30 | 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003066982A JP2003066982A (ja) | 2003-03-05 |
JP2003066982A5 JP2003066982A5 (ja) | 2005-11-24 |
JP4408596B2 true JP4408596B2 (ja) | 2010-02-03 |
Family
ID=19088392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001261327A Expired - Fee Related JP4408596B2 (ja) | 2001-08-30 | 2001-08-30 | 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4408596B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7912719B2 (en) | 2004-05-11 | 2011-03-22 | Panasonic Corporation | Speech synthesis device and speech synthesis method for changing a voice characteristic |
JP4025355B2 (ja) | 2004-10-13 | 2007-12-19 | 松下電器産業株式会社 | 音声合成装置及び音声合成方法 |
JP5282469B2 (ja) * | 2008-07-25 | 2013-09-04 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP5573529B2 (ja) * | 2010-09-15 | 2014-08-20 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP5961950B2 (ja) * | 2010-09-15 | 2016-08-03 | ヤマハ株式会社 | 音声処理装置 |
JP6565206B2 (ja) * | 2015-02-20 | 2019-08-28 | ヤマハ株式会社 | 音声処理装置および音声処理方法 |
CN113241082B (zh) * | 2021-04-22 | 2024-02-20 | 杭州网易智企科技有限公司 | 变声方法、装置、设备和介质 |
-
2001
- 2001-08-30 JP JP2001261327A patent/JP4408596B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003066982A (ja) | 2003-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7120584B2 (en) | Method and system for real time audio synthesis | |
US8121834B2 (en) | Method and device for modifying an audio signal | |
JP3563772B2 (ja) | 音声合成方法及び装置並びに音声合成制御方法及び装置 | |
US11289066B2 (en) | Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning | |
JP2006309162A (ja) | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム | |
JP4408596B2 (ja) | 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 | |
JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
US7765103B2 (en) | Rule based speech synthesis method and apparatus | |
US7596497B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP3513071B2 (ja) | 音声合成方法及び音声合成装置 | |
JPH06236197A (ja) | ピッチパターン生成装置 | |
JP6011039B2 (ja) | 音声合成装置および音声合成方法 | |
JP4468506B2 (ja) | 音声データ作成装置および声質変換方法 | |
JP2003066983A (ja) | 音声合成装置および音声合成方法、並びに、プログラム記録媒体 | |
JPH11249676A (ja) | 音声合成装置 | |
JP7200483B2 (ja) | 音声処理方法、音声処理装置およびプログラム | |
JP3515268B2 (ja) | 音声合成装置 | |
JP3897654B2 (ja) | 音声合成方法および装置 | |
JP4630038B2 (ja) | 音声波形データベース構築方法、この方法を実施する装置およびプログラム | |
JP2003330482A (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム | |
JP2001312300A (ja) | 音声合成装置 | |
CA2409308C (en) | Method and system for real time audio synthesis | |
JP3949346B2 (ja) | 音声合成方法及び装置 | |
JP3904871B2 (ja) | 歌唱音声合成における韻律生成方法及び韻律生成プログラム、そのプログラムを記録した記録媒体 | |
JP2004206144A (ja) | 基本周波数パタン生成方法、及びプログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051005 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051005 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080603 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091110 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121120 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121120 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131120 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |