JP4747434B2 - 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム - Google Patents
音声合成方法、音声合成装置、半導体装置及び音声合成プログラム Download PDFInfo
- Publication number
- JP4747434B2 JP4747434B2 JP2001119231A JP2001119231A JP4747434B2 JP 4747434 B2 JP4747434 B2 JP 4747434B2 JP 2001119231 A JP2001119231 A JP 2001119231A JP 2001119231 A JP2001119231 A JP 2001119231A JP 4747434 B2 JP4747434 B2 JP 4747434B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- sample
- conversion
- waveform
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 22
- 238000001308 synthesis method Methods 0.000 title claims description 14
- 238000003786 synthesis reaction Methods 0.000 title claims description 9
- 239000004065 semiconductor Substances 0.000 title claims description 6
- 238000005070 sampling Methods 0.000 claims abstract description 219
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000006243 chemical reaction Methods 0.000 claims description 160
- 238000013139 quantization Methods 0.000 claims description 124
- 239000000872 buffer Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Description
【発明の属する技術分野】
本発明は、音声合成方法、音声合成装置、音声合成装置を搭載した半導体装置及び音声合成プログラムに関するものである。
【0002】
【従来の技術】
従来より、音声合成装置においては、音声の生成モデルに沿って有声音と無声音を別々の手法で生成するということがよく行なわれる。例えば、ボコーダにおいて有声音の生成にはピッチ周波数に従ったパルスを入力とし、無声音の生成には白色雑音を使うなどの手法である。このような処理をディジタル信号処理で行なう場合、有声音と無声音を同じ出力デバイスから出力しようとすると、有声音を生成するサンプリング周波数と無声音を生成するサンプリング周波数には、出力デバイスの出力サンプリング周波数と同じ値が用いられる。
【0003】
実際に人間が発声した音声波形を観測すると、無声音に比べて有声音は比較的低い周波数にパワーの多くが集中している。したがって、無声音を生成するのに充分な程度にサンプリング周波数を設定すると、有声音にとってはそのサンプリング周波数は高過ぎであり、例えば波形編集方式の音声合成においては波形素片の保持に必要以上の記憶容量が必要になるという問題点があった。有声音の波形素片は無声音の波形素片に比べて記憶容量の多くを占めることが多いので、このような記憶容量の増大は小型化を要求される音声合成装置にとっては大きな問題となる。
【0004】
そこで、有声音と無声音のサンプリング周波数を別々に設定する方法として、無声子音部の波形の読み出しを行なうクロック周波数を音質データに従って変化させる音声合成装置が開示されている(特開昭60−113299号公報)。また、低いサンプリング周波数で音声素片を保持しておき、音声合成時にデータを補間することによってサンプリング周波数を見かけ上高くすることにより、良質の合成音声を得る音声合成装置が開示されている(特開昭58−219599号公報)。
【0005】
【発明が解決しようとする課題】
以上のように、有声音と無声音のサンプリング周波数に同一の値を用いる従来の音声合成装置では、無声音を生成するのに充分な程度にサンプリング周波数を設定すると、記憶容量が増大するという問題点があった。
また、特開昭60−113299号公報に開示された音声合成装置では、入力される音質データに応じて無声子音部の音質が変化してしまうという問題点があった。
さらに、特開昭58−219599号公報に開示された音声合成装置では、低いサンプリング周波数で音声素片を保持するため、高い周波数成分の音声がカットされる可能性があった。
本発明は、上記課題を解決するためになされたもので、記憶容量を増大させることなく、高品質の音声合成を実現することができる音声合成方法、音声合成装置、半導体装置及び音声合成プログラムを提供することを目的とする。
【0006】
【課題を解決するための手段】
本発明の音声合成方法は、入力テキストから生成される発音情報に基づいて有声音波形を生成する有声音生成手順と、前記発音情報に基づいて無声音波形を生成する無声音生成手順と、前記有声音波形のサンプリング周波数を出力のサンプリング周波数に変換する有声音サンプリング変換手順と、前記無声音波形のサンプリング周波数を前記出力のサンプリング周波数に変換する無声音サンプリング変換手順とを実行し、前記有声音生成手順は、無声音部分と有声音部分が時間的に重なる場合には、重なる区間の前記発音情報の有声音部分のみからなる有声音波形を生成し、前記無声音生成手順は、無声音部分と有声音部分が時間的に重なる場合には、重なる区間の前記発音情報の無声音部分のみからなる無声音波形を生成することを特徴とするものである。このように、有声音のサンプリング周波数を出力のサンプリング周波数に変換し、無声音のサンプリング周波数を出力のサンプリング周波数に変換することにより、有声音と無声音のそれぞれについて最適なサンプリング周波数を設定することができる。また、有声音のサンプリング周波数及び無声音のサンプリング周波数を出力のサンプリング周波数と独立に設定できるので、出力デバイスの要求するサンプリング周波数によらずに、最適なサンプリング周波数を使うことができる。
また、本発明の音声合成方法の1構成例は、前記有声音波形及び前記無声音波形の1サンプル毎の生成タイミングを前記出力のサンプリング周波数上で管理し、前記有声音波形の生成タイミングを前記有声音波形のサンプリング周波数上のタイミングに変換して、この変換した生成タイミングで1サンプルずつ前記有声音生成手順による有声音波形生成を行い、前記無声音波形の生成タイミングを前記無声音波形のサンプリング周波数上のタイミングに変換して、この変換した生成タイミングで1サンプルずつ前記無声音生成手順による無声音波形生成を行うようにしたものである。
【0007】
また、本発明の音声合成方法の1構成例は、前記サンプリング周波数の変換前後でサンプル点が一致する時刻を時刻量子化の先頭時刻とし、この先頭時刻から次の先頭時刻までの時間を時刻量子化幅とし、前記先頭時刻からサンプリング周波数変換後の各サンプルが確定するまでの待ち時間を時刻量子化遅延としたとき、前記時刻量子化幅の中で生成される予定の前記変換後の各サンプルに対応する前記発音情報と前記時刻量子化遅延とをこの時刻量子化幅の先頭時刻で決定し、前記有声音生成手順では、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の前記有声音波形を生成し、前記無声音生成手順では、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の前記無声音波形を生成するようにしたものである。
また、本発明の音声合成方法の1構成例は、サンプリング周波数変換前の前記有声音波形又は前記無声音波形のサンプル点から対応する変換後のサンプル点までの遅延時間を、この変換後のサンプルに対応する前記時刻量子化遅延に加えるようにしたものである。
【0008】
また、本発明の音声合成装置は、入力テキストから生成される発音情報に基づいて有声音波形を生成する有声音生成部(21)と、前記発音情報に基づいて無声音波形を生成する無声音生成部(22)と、前記有声音波形のサンプリング周波数を出力のサンプリング周波数に変換する有声音サンプリング変換部(31)と、前記無声音波形のサンプリング周波数を前記出力のサンプリング周波数に変換する無声音サンプリング変換部(32)とを有し、前記有声音生成部は、無声音部分と有声音部分が時間的に重なる場合には、重なる区間の前記発音情報の有声音部分のみからなる有声音波形を生成し、前記無声音生成部は、無声音部分と有声音部分が時間的に重なる場合には、重なる区間の前記発音情報の無声音部分のみからなる無声音波形を生成することを特徴とするものである。
また、本発明の音声合成装置の1構成例は、前記有声音波形及び前記無声音波形の1サンプル毎の生成タイミングを前記出力のサンプリング周波数上で管理し、前記有声音波形のサンプリング周波数上で前記有声音波形の生成タイミングを示す情報を前記有声音生成部に出力すると共に、前記無声音波形のサンプリング周波数上で前記無声音波形の生成タイミングを示す情報を前記無声音生成部に出力するタイミング制御部(51)を有し、前記有声音生成部(21a)は、前記有声音波形の生成タイミングで1サンプルずつ前記有声音波形を生成し、前記無声音生成部(22a)は、前記無声音波形の生成タイミングで1サンプルずつ前記無声音波形を生成するものである。
【0009】
また、本発明の音声合成装置の1構成例は、前記サンプリング周波数の変換前後でサンプル点が一致する時刻を時刻量子化の先頭時刻とし、この先頭時刻から次の先頭時刻までの時間を時刻量子化幅とし、前記先頭時刻からサンプリング周波数変換後の各サンプルが確定するまでの待ち時間を時刻量子化遅延としたとき、前記時刻量子化幅の中で生成される予定の前記変換後の各サンプルに対応する前記発音情報と前記時刻量子化遅延とをこの時刻量子化幅の先頭時刻で決定して、前記有声音生成部及び前記無声音生成部に出力するタイミング制御部(51)を有し、前記有声音生成部(21a)は、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の前記有声音波形を生成し、前記無声音生成部(22a)は、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の前記無声音波形を生成するものである。
また、本発明の音声合成装置の1構成例において、前記有声音サンプリング変換部(31b)は、前記サンプリング周波数の変換前後でサンプル点が一致する時刻を時刻量子化の先頭時刻とし、この先頭時刻から次の先頭時刻までの時間を時刻量子化幅とし、前記先頭時刻からサンプリング周波数変換後の各サンプルが確定するまでの待ち時間を時刻量子化遅延としたとき、前記時刻量子化幅の中で生成される予定の前記変換後の各サンプルに対応する前記発音情報と前記時刻量子化遅延とをこの時刻量子化幅の先頭時刻で決定して、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を前記有声音生成部に出力し、前記無声音サンプリング変換部(32b)は、前記時刻量子化幅の中で生成される予定の前記変換後の各サンプルに対応する前記発音情報と前記時刻量子化遅延とをこの時刻量子化幅の先頭時刻で決定して、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を前記無声音生成部に出力し、前記有声音生成部(21b)は、前記有声音サンプリング変換部から発音情報が入力されたとき、この発音情報から前記有声音波形を生成し、前記無声音生成部(22b)は、前記無声音サンプリング変換部から発音情報が入力されたとき、この発音情報から前記無声音波形を生成するものである。
また、本発明の音声合成装置の1構成例は、サンプリング周波数変換前の前記有声音波形又は前記無声音波形のサンプル点から対応する変換後のサンプル点までの遅延時間を、この変換後のサンプルに対応する前記時刻量子化遅延に加えるものである。
【0010】
また、本発明の半導体装置は、前記音声合成装置を内蔵したものである。
また、本発明の音声合成プログラムは、入力テキストから生成される発音情報に基づいて有声音波形を生成する有声音生成手順と、前記発音情報に基づいて無声音波形を生成する無声音生成手順と、前記有声音波形のサンプリング周波数を出力のサンプリング周波数に変換する有声音サンプリング変換手順と、前記無声音波形のサンプリング周波数を前記出力のサンプリング周波数に変換する無声音サンプリング変換手順とをコンピュータに実行させ、前記有声音生成手順は、無声音部分と有声音部分が時間的に重なる場合には、重なる区間の前記発音情報の有声音部分のみからなる有声音波形を生成し、前記無声音生成手順は、無声音部分と有声音部分が時間的に重なる場合には、重なる区間の前記発音情報の無声音部分のみからなる無声音波形を生成することを特徴とするものである。
また、本発明の音声合成プログラムの1構成例は、前記有声音波形及び前記無声音波形の1サンプル毎の生成タイミングを前記出力のサンプリング周波数上で管理し、前記有声音波形の生成タイミングを前記有声音波形のサンプリング周波数上のタイミングに変換して、この変換した生成タイミングで1サンプルずつ前記有声音生成手順による有声音波形生成を行い、前記無声音波形の生成タイミングを前記無声音波形のサンプリング周波数上のタイミングに変換して、この変換した生成タイミングで1サンプルずつ前記無声音生成手順による無声音波形生成を行うようにしたものである。
【0011】
また、本発明の音声合成プログラムの1構成例は、前記サンプリング周波数の変換前後でサンプル点が一致する時刻を時刻量子化の先頭時刻とし、この先頭時刻から次の先頭時刻までの時間を時刻量子化幅とし、前記先頭時刻からサンプリング周波数変換後の各サンプルが確定するまでの待ち時間を時刻量子化遅延としたとき、前記時刻量子化幅の中で生成される予定の前記変換後の各サンプルに対応する前記発音情報と前記時刻量子化遅延とをこの時刻量子化幅の先頭時刻で決定し、前記有声音生成手順では、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の前記有声音波形を生成し、前記無声音生成手順では、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の前記無声音波形を生成するようにしたものである。
また、本発明の音声合成プログラムの1構成例は、サンプリング周波数変換前の前記有声音波形又は前記無声音波形のサンプル点から対応する変換後のサンプル点までの遅延時間を、この変換後のサンプルに対応する前記時刻量子化遅延に加えるようにしたものである。
【0012】
【発明の実施の形態】
[第1の実施の形態]
以下、本発明の実施の形態について図面を参照して詳細に説明する。図1は本発明の第1の実施の形態となる音声合成装置の構成を示すブロック図である。入力部11は、発声すべき文字列を示す入力テキスト1を入力とし、音韻列など音声生成に必要な情報(以下、発音情報2とする)を生成して 有声音生成部21と無声音生成部22に送る。
【0013】
有声音生成部21は、発音情報2を入力とし、発音情報2中の有声音の部分だけからなる合成音波形(以下、有声音波形とする)3を生成する。このときに生成する有声音波形3のサンプリング周波数を、以下では有声サンプリング周波数(略称Fsv)と呼称する。実際の発声ではしばしば有声音部分、無声音部分、無音部分が交互に現われるが、その中の有声音部分だけをここで生成する。なお、有声音部分と無声音部分が時間的に重なるような制御を行なう音声合成装置もあるが、その場合はここでは重なる区間の有声音部分だけを生成する。
【0014】
有声音サンプリング変換部31は、有声音波形3のサンプリング周波数Fsvを出力デバイスのサンプリング周波数に変換した有声音波形5を生成する。この出力のサンプリング周波数を、以下では出力サンプリング周波数Fsoと呼称する。ここでの周波数変換には、例えばポリフェーズフィルタによるサンプリング変換などを用いる。Fsv=Fsoの場合はサンプリング周波数を変換する必要は無いので、有声音サンプリング変換部31は単に入力を出力に素通しをするだけで良い。
【0015】
無声音生成部22は、発音情報2を入力とし、発音情報2中の無声音の部分だけからなる合成音波形(以下、無声音波形とする)4を生成する。このときに生成する無声音波形4のサンプリング周波数を、以下では無声サンプリング周波数(略称Fsu)と呼称する。前記有声音生成部21の場合と同様に、有声音部分と無声音部分が時間的に重なる場合には、重なる区間の無声音部分だけを生成する。
【0016】
無声音サンプリング変換部32は、無声音波形4のサンプリング周波数Fsuを出力サンプリング周波数Fsoに変換した無声音波形6を生成する。Fsu=Fsoの場合、無声音サンプリング変換部32は単に入力を出力に素通しをするだけで良い。
【0017】
出力部41は、前記出力サンプリング周波数Fsoに変換された有声音波形5と、前記出力サンプリング周波数Fsoに変換された無声音波形6とを合わせて、1つの合成音声波形7として出力する。
【0018】
本実施の形態によれば、有声音と無声音を別々に生成するため、そのタイミングを一致させる必要がある。有声音と無声音のタイミングを一致させるには、例えば発音情報2に各音素等の区切り毎の時刻情報を含めておいて、有声音生成部21と無声音生成部22がそれぞれその時刻情報に従って音声を生成し、有声音生成部21と無声音生成部22を同時に動かし始めることで満たすことが可能である。
【0019】
[第2の実施の形態]
図2は本発明の第2の実施の形態となる音声合成装置の構成を示すブロック図であり、図1と同一の構成には同一の符号を付してある。本実施の形態では、第1の実施の形態の構成に加えて、タイミング制御部51を設けている。本実施の形態においては、入力部11が生成した発音情報2は、タイミング制御部51に送られる。
【0020】
タイミング制御部51は、発音情報2を入力とし、発音情報2および有声音生成部21aに対する1サンプルごとの生成タイミング情報52を出力すると共に、発音情報2および無声音生成部22aに対する1サンプルごとの生成タイミング情報53を出力する。また、タイミング制御部51は、必要であれば有声音生成部21aと無声音生成部22aが使用するクロックを生成する。
【0021】
音声波形の生成自体は、有声音がFsvのサンプリング周波数、無声音がFsuのサンプリング周波数でそれぞれ行なわれるが、タイミング制御部51はこれらサンプリングのタイミングを周波数Fso上で一括して管理する。タイミング制御部51の動作周波数Fsoのクロックは、出力部41がD/Aコンバータであるならばそこから受け取ってもよいし、逆にタイミング制御部51が周波数Fsoのクロックを生成して出力部41に供給することもできる。
【0022】
有声音生成部21aは、タイミング制御部51から出力される1サンプル毎の生成タイミング情報52に従って、発音情報2から1サンプルずつ有声音波形3を生成する。同様に、無声音生成部22aは、タイミング制御部51から出力される1サンプル毎の生成タイミング情報53に従って、発音情報2から1サンプルずつ無声音波形4を生成する。
【0023】
本実施の形態におけるタイミング例を図3に示す。ここでは、有声音サンプリング周波数Fsv=10000Hz、無声音サンプリング周波数Fsu=20000Hz、出力サンプリング周波数Fso=40000Hzとし、先頭から100msec、200msec、300msec、800msecの各時点で 有声音のピッチ駆動が行なわれ、また先頭から400msecの時点で長さ450msecの無声音の駆動が行なわれるものとする。
【0024】
タイミング制御部51は、常に出力周波数Fso上で4サンプル毎に有声サンプリング周波数Fsvのクロックを1出力し、同様にFso上で2サンプル毎に無声サンプリング周波数Fsuのクロックを1出力する。また、タイミング制御部51は、図3(a)、図3(c)に示すように、Fso上で先頭から4000サンプル(Fsv上で1000サンプル)後の時点でピッチAの駆動を行わせるべく生成タイミング情報52を有声音生成部21aに出力し、Fso上で8000サンプル(Fsv上で2000サンプル)後の時点でピッチBの駆動を行わせるべく生成タイミング情報52を有声音生成部21aに出力し、Fso上で12000サンプル(Fsv上で3000サンプル)後の時点でピッチCの駆動を行わせるべく生成タイミング情報52を有声音生成部21aに出力する。
【0025】
続いて、タイミング制御部51は、Fso上で先頭から16000サンプル(Fsu上で8000サンプル)後の時点で無声音Dの駆動を行わせるべく生成タイミング情報53を無声音生成部22aに出力する。さらに、タイミング制御部51は、Fso上で先頭から32000サンプル(Fsv上で8000サンプル)後の時点で有声音Eの駆動を行わせるべく生成タイミング情報52を有声音生成部21aに出力する。
【0026】
以上により、有声音生成部21aと無声音生成部22aが生成する音声波形は、それぞれ出力周波数Fsoに同期して生成される。有声音サンプリング変換部31、無声音サンプリング変換部32及び出力部41の動作は第1の実施の形態と同じである。
【0027】
[第3の実施の形態]
次に、本発明の第3の実施の形態について説明する。本実施の形態においても、音声合成装置の構成は第2の実施の形態と同様であるので、図2の符号を用いて説明する。本実施の形態では、タイミング制御部51による有声音生成部21a及び無声音生成部22aの制御方法が第2の実施の形態と異なる。
【0028】
有声音サンプリング変換部31および無声音サンプリング変換部32において内部バッファを用いたサンプリング変換を行う場合、そのバッファのために動作の時刻量子化と遅延が生じる。1例として、Fsv=15000HzかつFso=20000Hzの場合に、インタポレーションレート4かつデシメーションレート3のポリフェーズフィルタによるサンプリング変換を有声音サンプリング変換部31で行う場合を考える。
【0029】
このときのサンプリング変換フィルタ(有声音サンプリング変換部31)の入力と出力の因果関係を図4に示す。ここで使用するサンプリング変換方法では、図4(a)におけるサンプルaと図4(b)におけるサンプルA、サンプルdとサンプルEのように、入力(サンプリング周波数の変換前)と出力(変換後)のサンプル点が一致する時刻が存在する。このサンプル点の一致を動作の時刻量子化と定義する。そして、入力と出力のサンプル点が一致してから次に一致するまでの時間(図4におけるサンプルAとサンプルEの間隔)を時刻量子化幅Qと定義する。本実施の形態では、この時刻量子化幅Q単位で完結してサンプリング変換を行なう構成について説明する。
【0030】
出力のサンプルAとBは、入力のサンプルaが入力された時点で確定するが、出力のサンプルCは、入力のサンプルaが入力されてから、入力のサンプルbが入力されるまで時間d(t(C))=t(b)−t(a)だけ待たないと確定しない。同様に、出力のサンプルDは、入力のサンプルaが入力されてから、入力のサンプルcが入力されるまで時間d(t(D))=t(c)−t(a)だけ待たないと確定しない。時刻量子化幅Qの先頭から出力のサンプルXが確定するまでの待ち時間d(t(X))を時刻量子化遅延と定義する。
【0031】
タイミング制御部51が、ある出力のサンプル点Xにおいてピッチ駆動を行なうと判断したとき、前述のように時刻量子化幅Qの先頭から時刻量子化遅延d(t(X))だけ遅れた時刻で駆動する必要がある。この時刻は、サンプル点Xより後にはならないので、時刻量子化幅Qの先頭時刻でまとめて処理するのが簡単である。
【0032】
そのため、タイミング制御部51は、時刻量子化幅Qの先頭時刻(サンプルA)において、この先頭時刻から始まる時刻量子化幅Qの中の各サンプルA,B,C,Dで必要なアクションがあるかどうかをまとめて検出し、必要なアクションがある場合、各サンプルA,B,C,Dに対応する発音情報と時刻量子化遅延とを決定する。必要なアクションとしては、有声音のピッチ駆動や無声音の駆動などがある。
【0033】
図4の例の場合、サンプルA,Bに対応して発音情報(入力のサンプルaを生成するための発音情報)と時刻量子化遅延d(t(A)),d(t(B))とが決定され、サンプルCに対応して発音情報(サンプルbを生成するための発音情報)と時刻量子化遅延d(t(C))とが決定され、サンプルDに対応して発音情報(サンプルcを生成するための発音情報)と時刻量子化遅延d(t(D))とが決定される。
【0034】
タイミング制御部51は、以上のような各出力サンプル毎の発音情報と時刻量子化遅延のペアを時刻量子化幅Qの先頭時刻でまとめて出力する。出力のサンプルXに対応する入力のサンプルx(サンプリング周波数変換前の有声音)を生成する有声音生成部21aは、前記先頭時刻からサンプルXに対応する時刻量子化遅延d(t(X))だけ経過した時刻において、サンプルXに対応する発音情報を用いてサンプルxの有声音を生成する。例えば、先頭時刻から時刻量子化遅延d(t(C))だけ経過した時刻において、有声音生成部21aは、サンプルCに対応する発音情報を用いてサンプルbの有声音を生成する。
【0035】
また、図4の例では、有声音の場合についてのみ記載しているが、タイミング制御部51は、各出力サンプル毎の発音情報と時刻量子化遅延のペアを無声音についても同様に決定し、時刻量子化幅Qの先頭時刻でまとめて出力する。出力のサンプルYに対応する入力のサンプルy(サンプリング周波数変換前の無声音)を生成する無声音生成部22aは、前記先頭時刻からサンプルYに対応する時刻量子化遅延d(t(Y))だけ経過した時刻において、サンプルYに対応する発音情報を用いてサンプルyの無声音を生成する。有声音サンプリング変換部31、無声音サンプリング変換部32及び出力部41の動作は第2の実施の形態と同じである。
以上により、有声サンプリング周波数Fsv及び無声サンプリング周波数Fsuと出力サンプリング周波数Fso間でのタイミングを合わせることができる。
【0036】
[第4の実施の形態]
図5は本発明の第4の実施の形態となる音声合成装置の構成を示すブロック図であり、図1、図2と同一の構成には同一の符号を付してある。本実施の形態は、タイミング制御部51から制御する代わりに、有声音サンプリング変換部31bから有声音生成部21bを制御し、無声音サンプリング変換部32bから無声音生成部22bを制御することにより、第3の実施の形態と同様の効果を得るものである。
【0037】
前記時刻量子化幅Qと時刻量子化遅延d(t(X))の値は、有声音サンプリング変換部31および無声音サンプリング変換部32の構成に依存する。そこで、有声音サンプリング変換部31bは、タイミング制御部51から出力されるサンプル単位の発音情報を、時刻量子化幅Qを出力(周波数Fso)でのサンプル数に換算した時間だけバッファリングする。
【0038】
そして、有声音サンプリング変換部31bは、バッファが一杯になった時点を時刻量子化幅Qの先頭時刻と見なし、サンプル毎の各発音情報について時刻量子化遅延d(t(X))を計算し、前記バッファが一杯になった時点から時刻量子化遅延d(t(X))が経過したとき、対応する発音情報2’を有声音生成部21bに出力する。
【0039】
第3の実施の形態で説明した図4を用いて説明すると、有声音サンプリング変換部31bは、サンプルaに対応する発音情報を時刻量子化幅Qの先頭で出力し、サンプルbに対応する発音情報を先頭からd(t(C))が経過した時刻t(b)で出力し、サンプルcに対応する発音情報を先頭からd(t(D))が経過した時刻t(c)で出力する。
【0040】
同様に、無声音サンプリング変換部32bは、タイミング制御部51からのサンプル単位の発音情報を、時刻量子化幅Qを出力(周波数Fso)でのサンプル数に換算した時間だけバッファリングする。そして、無声音サンプリング変換部32bは、バッファが一杯になった時点を時刻量子化幅Qの先頭時刻と見なし、サンプル毎の各発音情報について時刻量子化遅延d(t(X))を計算し、前記バッファが一杯になった時点から時刻量子化遅延d(t(X))が経過したとき、対応する発音情報を無声音生成部22bに出力する。
【0041】
有声音生成部21bは、有声音サンプリング変換部31bから1サンプル毎の発音情報2’が入力されると、この発音情報2’から有声音波形3を生成する。同様に、無声音生成部22bは、無声音サンプリング変換部32bから1サンプル毎の発音情報2’が入力されると、この発音情報2’から無声音波形4を生成する。
【0042】
続いて、有声音サンプリング変換部31bは、有声音波形3のサンプリング周波数Fsvを出力サンプリング周波数Fsoに変換した有声音波形5を生成する。無声音サンプリング変換部32bは、無声音波形4のサンプリング周波数Fsuを出力サンプリング周波数Fsoに変換した無声音波形6を生成する。出力部41の動作は第1の実施の形態と同じである。
【0043】
以上により、第3の実施の形態と同様の効果を得ることができる。本実施の形態によれば、常に有声音サンプリング変換部31において時刻量子化幅Qだけの遅延が生じるが、音声合成においては問題にならないことが多い。また、先頭の時刻量子化幅Q区間では、無音を出力すれば良い。
【0044】
[第5の実施の形態]
第3、第4の実施の形態によれば、時刻量子化幅Q内での時刻量子化遅延d(t(X))を考慮することによって、有声サンプリング周波数Fsv及び無声サンプリング周波数Fsuと出力サンプリング周波数Fso間でのタイミングを合わせることができた。
しかし、実際には図6に示すように、有声サンプリング周波数Fsvと出力サンプリング周波数Fsoの間でのサンプル点は、時刻量子化幅Qの端点を除いて一致しておらず、出力される合成音声にジッタが現われる可能性がある。
【0045】
例えば、入力のサンプルaと出力のサンプルBとの間には、遅延時間e(t(B))が存在し、サンプルbと変換後のサンプルCとの間には、遅延時間e(t(C))が存在し、サンプルcと変換後のサンプルDとの間には、遅延時間e(t(D))が存在する。
【0046】
そこで、第3の実施の形態の構成において、入力のサンプルxの時刻t(x)から出力のサンプルXの時刻t(X)までの遅延時間e(t(X))を時刻量子化遅延d(t(X))に加えるようにする。すなわち、タイミング制御部51は、各出力サンプルX毎の発音情報と時刻量子化遅延d(t(X))+遅延時間e(t(X))のペアを時刻量子化幅Qの先頭時刻でまとめて出力する。このような処理を有声音と無声音のそれぞれについて行えばよい。これにより、遅延時間e(t(X))の影響を除去し、合成音声に現れるジッタを抑制することができる。
【0047】
同様に、第4の実施の形態においても、遅延時間e(t(X))を時刻量子化遅延d(t(X))に加えるようにする。すなわち、有声音サンプリング変換部31bは、サンプル毎の各発音情報について時刻量子化遅延d(t(X))+遅延時間e(t(X))を計算し、バッファが一杯になった時点から時刻量子化遅延d(t(X))+遅延時間e(t(X))が経過したとき、対応する発音情報2’を有声音生成部21bに出力する。無声音サンプリング変換部32bについても同様である。
【0048】
1サンプル以内での時間遅れを解決する方法として、特開平9−319390号公報に開示されているような方法もあるが、ここでは有声音サンプリング変換部31b、無声音サンプリング変換部32bにおいて、入力のサンプル点からの遅延時間e(t(X))に相当する位相回転分を畳み込んだフィルタ係数を用意してそれを駆動することで、全体の計算量をそれほど増加させずにe(t(X))の影響を反映させることができる。フィルタ係数に畳み込む代わりに、有声音生成部21b、無声音生成部22bにおいて前記位相回転分を織り込んだ波形を生成することもできる。これは、特に波形編集方式の音声合成を行なう場合に有効である。
【0049】
なお、第1〜第5の実施の形態で説明した音声合成装置を、半導体装置(コンピュータチップ)に搭載してもよい。
また、第1〜第5の実施の形態で説明した音声合成装置は、コンピュータで実現することができる。このコンピュータは、中央処理装置(CPU)、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、表示装置やキーボードあるいは外部記憶装置とのインタフェースをとるための回路などを備えた周知の構成のものでよい。
【0050】
CPUは、ROM若しくはRAMに記憶されたプログラム、又はキーボードから入力されたコマンドに従って処理を実行する。また、CPUは、外部記憶装置にデータを書き込んだり、外部記憶装置からデータを読み出したりすることができる。このようなコンピュータにおいて、本発明の音声合成方法を実現させるための音声合成装置プログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカード等の記録媒体に記録された状態で提供される。この記録媒体を外部記憶装置に挿入すると、記録媒体に書き込まれたプログラムが読み取られ、コンピュータに転送される。そして、CPUは、読み込んだプログラムをRAM等に書き込む。こうして、CPUは、第1〜第5の実施の形態で説明したような処理を実行する。
【0051】
【発明の効果】
本発明によれば、有声音のサンプリング周波数を出力のサンプリング周波数に変換する有声音サンプリング変換手順と、無声音のサンプリング周波数を出力のサンプリング周波数に変換する無声音サンプリング変換手順とを実行することにより、有声音と無声音のそれぞれについて別個に最適なサンプリング周波数を設定することができ、有声音と無声音が集中する帯域輻の違いを解決することができる。その結果、音声合成に用いる波形素片サイズの低減を図ることができ、有声音と無声音のサンプリング周波数に同一の値を用いる従来の音声合成装置のような記憶容量の無駄を省くことができ、計算量の低減を図ることができる。また、有声音と無声音のそれぞれについて最適なサンプリング周波数を設定できることから、高品質な合成音声を得ることができる。さらに、有声音のサンプリング周波数及び無声音のサンプリング周波数を出力のサンプリング周波数と独立に設定できるので、出力デバイスの要求するサンプリング周波数によらずに、最適なサンプリング周波数を使うことができる。
【0052】
また、有声音及び無声音の1サンプル毎の生成タイミングを出力のサンプリング周波数上で管理し、有声音の生成タイミングを有声音のサンプリング周波数上のタイミングに変換して、この変換した生成タイミングで1サンプルずつ有声音生成手順による有声音生成を行い、無声音の生成タイミングを無声音のサンプリング周波数上のタイミングに変換して、この変換した生成タイミングで1サンプルずつ無声音生成手順による無声音生成を行うことにより、有声音を生成するタイミングと無声音を生成するタイミングを出力のサンプリング周波数に同期させることができる。
【0053】
また、サンプリング周波数の変換前後でサンプル点が一致する時刻を時刻量子化の先頭時刻とし、この先頭時刻から次の先頭時刻までの時間を時刻量子化幅とし、先頭時刻からサンプリング周波数変換後の各サンプルが確定するまでの待ち時間を時刻量子化遅延としたとき、時刻量子化幅の中で生成される予定の変換後の各サンプルに対応する発音情報と時刻量子化遅延とをこの時刻量子化幅の先頭時刻で決定し、有声音生成手順では、先頭時刻から変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の有声音を生成し、無声音生成手順では、先頭時刻から変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の無声音を生成することにより、有声音のサンプリング周波数及び無声音のサンプリング周波数と出力のサンプリング周波数との間のタイミングを合わせることができる。
【0054】
また、サンプリング周波数変換前の有声音又は無声音のサンプル点から対応する変換後のサンプル点までの遅延時間を、この変換後のサンプルに対応する時刻量子化遅延に加えることにより、遅延時間の影響を除去し、合成音声に現れるジッタを抑制することができる。
【図面の簡単な説明】
【図1】 本発明の第1の実施の形態となる音声合成装置の構成を示すブロック図である。
【図2】 本発明の第2の実施の形態となる音声合成装置の構成を示すブロック図である。
【図3】 本発明の第2の実施の形態における音声合成装置の動作を示すタイミングチャート図である。
【図4】 本発明の第3の実施の形態におけるサンプリング変換部の動作を示すタイミングチャート図である。
【図5】 本発明の第4の実施の形態となる音声合成装置の構成を示すブロック図である。
【図6】 本発明の第5の実施の形態における音声合成装置の動作を示すタイミングチャート図である。
【符号の説明】
1…入力テキスト、2…発音情報、3、5…有声音波形、4、6…無声音波形、7…合成音声波形、11…入力部、21、21a、21b…有声音生成部、22、22a、22b…無声音生成部、31、31b…有声音サンプリング変換部、32、32b…無声音サンプリング変換部、41…出力部、51…タイミング制御部、52…タイミング情報(有声音用)、53…タイミング情報(無声音用)。
Claims (14)
- 入力テキストから生成される発音情報に基づいて有声音波形を生成する有声音生成手順と、
前記発音情報に基づいて無声音波形を生成する無声音生成手順と、
前記有声音波形のサンプリング周波数を出力のサンプリング周波数に変換する有声音サンプリング変換手順と、
前記無声音波形のサンプリング周波数を前記出力のサンプリング周波数に変換する無声音サンプリング変換手順とを実行し、
前記有声音生成手順は、無声音部分と有声音部分が時間的に重なる場合には、重なる区間の前記発音情報の有声音部分のみからなる有声音波形を生成し、
前記無声音生成手順は、無声音部分と有声音部分が時間的に重なる場合には、重なる区間の前記発音情報の無声音部分のみからなる無声音波形を生成することを特徴とする音声合成方法。 - 請求項1記載の音声合成方法において、
前記有声音波形及び前記無声音波形の1サンプル毎の生成タイミングを前記出力のサンプリング周波数上で管理し、前記有声音波形の生成タイミングを前記有声音波形のサンプリング周波数上のタイミングに変換して、この変換した生成タイミングで1サンプルずつ前記有声音生成手順による有声音波形生成を行い、前記無声音波形の生成タイミングを前記無声音波形のサンプリング周波数上のタイミングに変換して、この変換した生成タイミングで1サンプルずつ前記無声音生成手順による無声音波形生成を行うことを特徴とする音声合成方法。 - 請求項1記載の音声合成方法において、
前記サンプリング周波数の変換前後でサンプル点が一致する時刻を時刻量子化の先頭時刻とし、この先頭時刻から次の先頭時刻までの時間を時刻量子化幅とし、前記先頭時刻からサンプリング周波数変換後の各サンプルが確定するまでの待ち時間を時刻量子化遅延としたとき、前記時刻量子化幅の中で生成される予定の前記変換後の各サンプルに対応する前記発音情報と前記時刻量子化遅延とをこの時刻量子化幅の先頭時刻で決定し、
前記有声音生成手順では、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の前記有声音波形を生成し、
前記無声音生成手順では、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の前記無声音波形を生成することを特徴とする音声合成方法。 - 請求項3記載の音声合成方法において、
サンプリング周波数変換前の前記有声音波形又は前記無声音波形のサンプル点から対応する変換後のサンプル点までの遅延時間を、この変換後のサンプルに対応する前記時刻量子化遅延に加えることを特徴とする音声合成方法。 - 入力テキストから生成される発音情報に基づいて有声音波形を生成する有声音生成部と、
前記発音情報に基づいて無声音波形を生成する無声音生成部と、
前記有声音波形のサンプリング周波数を出力のサンプリング周波数に変換する有声音サンプリング変換部と、
前記無声音波形のサンプリング周波数を前記出力のサンプリング周波数に変換する無声音サンプリング変換部とを有し、
前記有声音生成部は、無声音部分と有声音部分が時間的に重なる場合には、重なる区間の前記発音情報の有声音部分のみからなる有声音波形を生成し、
前記無声音生成部は、無声音部分と有声音部分が時間的に重なる場合には、重なる区間の前記発音情報の無声音部分のみからなる無声音波形を生成することを特徴とする音声合成装置。 - 請求項5記載の音声合成装置において、
前記有声音波形及び前記無声音波形の1サンプル毎の生成タイミングを前記出力のサンプリング周波数上で管理し、前記有声音波形のサンプリング周波数上で前記有声音波形の生成タイミングを示す情報を前記有声音生成部に出力すると共に、前記無声音波形のサンプリング周波数上で前記無声音波形の生成タイミングを示す情報を前記無声音生成部に出力するタイミング制御部を有し、
前記有声音生成部は、前記有声音波形の生成タイミングで1サンプルずつ前記有声音波形を生成し、
前記無声音生成部は、前記無声音波形の生成タイミングで1サンプルずつ前記無声音波形を生成することを特徴とする音声合成装置。 - 請求項5記載の音声合成装置において、
前記サンプリング周波数の変換前後でサンプル点が一致する時刻を時刻量子化の先頭時刻とし、この先頭時刻から次の先頭時刻までの時間を時刻量子化幅とし、前記先頭時刻からサンプリング周波数変換後の各サンプルが確定するまでの待ち時間を時刻量子化遅延としたとき、前記時刻量子化幅の中で生成される予定の前記変換後の各サンプルに対応する前記発音情報と前記時刻量子化遅延とをこの時刻量子化幅の先頭時刻で決定して、前記有声音生成部及び前記無声音生成部に出力するタイミング制御部を有し、
前記有声音生成部は、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の前記有声音波形を生成し、
前記無声音生成部は、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の前記無声音波形を生成することを特徴とする音声合成装置。 - 請求項5記載の音声合成装置において、
前記有声音サンプリング変換部は、前記サンプリング周波数の変換前後でサンプル点が一致する時刻を時刻量子化の先頭時刻とし、この先頭時刻から次の先頭時刻までの時間を時刻量子化幅とし、前記先頭時刻からサンプリング周波数変換後の各サンプルが確定するまでの待ち時間を時刻量子化遅延としたとき、前記時刻量子化幅の中で生成される予定の前記変換後の各サンプルに対応する前記発音情報と前記時刻量子化遅延とをこの時刻量子化幅の先頭時刻で決定して、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を前記有声音生成部に出力し、
前記無声音サンプリング変換部は、前記時刻量子化幅の中で生成される予定の前記変換後の各サンプルに対応する前記発音情報と前記時刻量子化遅延とをこの時刻量子化幅の先頭時刻で決定して、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を前記無声音生成部に出力し、
前記有声音生成部は、前記有声音サンプリング変換部から発音情報が入力されたとき、この発音情報から前記有声音波形を生成し、
前記無声音生成部は、前記無声音サンプリング変換部から発音情報が入力されたとき、この発音情報から前記無声音波形を生成することを特徴とする音声合成装置。 - 請求項7又は8記載の音声合成装置において、
サンプリング周波数変換前の前記有声音波形又は前記無声音波形のサンプル点から対応する変換後のサンプル点までの遅延時間を、この変換後のサンプルに対応する前記時刻量子化遅延に加えることを特徴とする音声合成装置。 - 請求項5−9の何れかに記載の音声合成装置を内蔵したことを特徴とする半導体装置。
- 入力テキストから生成される発音情報に基づいて有声音波形を生成する有声音生成手順と、
前記発音情報に基づいて無声音波形を生成する無声音生成手順と、
前記有声音波形のサンプリング周波数を出力のサンプリング周波数に変換する有声音サンプリング変換手順と、
前記無声音波形のサンプリング周波数を前記出力のサンプリング周波数に変換する無声音サンプリング変換手順とをコンピュータに実行させ、
前記有声音生成手順は、無声音部分と有声音部分が時間的に重なる場合には、重なる区間の前記発音情報の有声音部分のみからなる有声音波形を生成し、
前記無声音生成手順は、無声音部分と有声音部分が時間的に重なる場合には、重なる区間の前記発音情報の無声音部分のみからなる無声音波形を生成することを特徴とする音声合成プログラム。 - 請求項11記載の音声合成プログラムにおいて、
前記有声音波形及び前記無声音波形の1サンプル毎の生成タイミングを前記出力のサンプリング周波数上で管理し、前記有声音波形の生成タイミングを前記有声音波形のサンプリング周波数上のタイミングに変換して、この変換した生成タイミングで1サンプルずつ前記有声音生成手順による有声音波形生成を行い、前記無声音波形の生成タイミングを前記無声音波形のサンプリング周波数上のタイミングに変換して、この変換した生成タイミングで1サンプルずつ前記無声音生成手順による無声音波形生成を行うことを特徴とする音声合成プログラム。 - 請求項11記載の音声合成プログラムにおいて、
前記サンプリング周波数の変換前後でサンプル点が一致する時刻を時刻量子化の先頭時刻とし、この先頭時刻から次の先頭時刻までの時間を時刻量子化幅とし、前記先頭時刻からサンプリング周波数変換後の各サンプルが確定するまでの待ち時間を時刻量子化遅延としたとき、前記時刻量子化幅の中で生成される予定の前記変換後の各サンプルに対応する前記発音情報と前記時刻量子化遅延とをこの時刻量子化幅の先頭時刻で決定し、
前記有声音生成手順では、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の前記有声音波形を生成し、
前記無声音生成手順では、前記先頭時刻から前記変換後のサンプルに対応する時刻量子化遅延だけ経過した時刻において、この変換後のサンプルに対応する発音情報を用いて、このサンプルに対応する変換前の前記無声音波形を生成することを特徴とする音声合成プログラム。 - 請求項13記載の音声合成プログラムにおいて、
サンプリング周波数変換前の前記有声音波形又は前記無声音波形のサンプル点から対応する変換後のサンプル点までの遅延時間を、この変換後のサンプルに対応する前記時刻量子化遅延に加えることを特徴とする音声合成プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001119231A JP4747434B2 (ja) | 2001-04-18 | 2001-04-18 | 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム |
US10/124,250 US7249020B2 (en) | 2001-04-18 | 2002-04-18 | Voice synthesizing method using independent sampling frequencies and apparatus therefor |
US11/534,350 US7418388B2 (en) | 2001-04-18 | 2006-09-22 | Voice synthesizing method using independent sampling frequencies and apparatus therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001119231A JP4747434B2 (ja) | 2001-04-18 | 2001-04-18 | 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002311980A JP2002311980A (ja) | 2002-10-25 |
JP4747434B2 true JP4747434B2 (ja) | 2011-08-17 |
Family
ID=18969484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001119231A Expired - Fee Related JP4747434B2 (ja) | 2001-04-18 | 2001-04-18 | 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム |
Country Status (2)
Country | Link |
---|---|
US (2) | US7249020B2 (ja) |
JP (1) | JP4747434B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050120300A1 (en) * | 2003-09-25 | 2005-06-02 | Dictaphone Corporation | Method, system, and apparatus for assembly, transport and display of clinical data |
US7783474B2 (en) * | 2004-02-27 | 2010-08-24 | Nuance Communications, Inc. | System and method for generating a phrase pronunciation |
US20100057473A1 (en) * | 2008-08-26 | 2010-03-04 | Hongwei Kong | Method and system for dual voice path processing in an audio codec |
CN110709922B (zh) * | 2017-06-28 | 2023-05-26 | 雅马哈株式会社 | 歌唱音生成装置及方法、记录介质 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4214125A (en) * | 1977-01-21 | 1980-07-22 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
JPS5685799A (en) | 1979-12-14 | 1981-07-13 | Sony Corp | Voice pitch converter |
US4330689A (en) * | 1980-01-28 | 1982-05-18 | The United States Of America As Represented By The Secretary Of The Navy | Multirate digital voice communication processor |
US4392018A (en) * | 1981-05-26 | 1983-07-05 | Motorola Inc. | Speech synthesizer with smooth linear interpolation |
JPS58219599A (ja) | 1982-06-15 | 1983-12-21 | 日本電気株式会社 | 音声合成装置 |
US4700391A (en) * | 1983-06-03 | 1987-10-13 | The Variable Speech Control Company ("Vsc") | Method and apparatus for pitch controlled voice signal processing |
JPS60112299A (ja) | 1983-11-22 | 1985-06-18 | Toshiba Corp | X線発生装置 |
JPS60113299A (ja) | 1983-11-24 | 1985-06-19 | 日本電気株式会社 | 音声合成装置 |
JP2797348B2 (ja) * | 1988-11-28 | 1998-09-17 | 松下電器産業株式会社 | 音声符号化・復号化装置 |
JPH03237695A (ja) * | 1990-02-14 | 1991-10-23 | Sanyo Electric Co Ltd | 音声記録再生装置 |
DE69231266T2 (de) * | 1991-08-09 | 2001-03-15 | Koninkl Philips Electronics Nv | Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium |
JPH05143097A (ja) | 1991-11-26 | 1993-06-11 | Matsushita Electric Works Ltd | 音声合成システム |
US5704007A (en) * | 1994-03-11 | 1997-12-30 | Apple Computer, Inc. | Utilization of multiple voice sources in a speech synthesizer |
JPH08152900A (ja) | 1994-11-28 | 1996-06-11 | Sony Corp | 音声合成方法及び音声合成装置 |
JPH08254998A (ja) * | 1995-03-17 | 1996-10-01 | Ido Tsushin Syst Kaihatsu Kk | 音声符号化/復号化装置 |
JPH09319390A (ja) | 1996-05-30 | 1997-12-12 | Toshiba Corp | 音声合成方法及び装置 |
US5890115A (en) * | 1997-03-07 | 1999-03-30 | Advanced Micro Devices, Inc. | Speech synthesizer utilizing wavetable synthesis |
US5903866A (en) * | 1997-03-10 | 1999-05-11 | Lucent Technologies Inc. | Waveform interpolation speech coding using splines |
JPH10301599A (ja) * | 1997-04-30 | 1998-11-13 | Nec Corp | 音声合成装置 |
JPH1173735A (ja) * | 1997-08-28 | 1999-03-16 | Nippon Columbia Co Ltd | ディジタルオーディオ信号処理方法並びにディジ タルオーディオ信号処理装置 |
JPH1195797A (ja) | 1997-09-24 | 1999-04-09 | Toshiba Corp | 音声合成装置及び方法 |
EP0945852A1 (en) * | 1998-03-25 | 1999-09-29 | BRITISH TELECOMMUNICATIONS public limited company | Speech synthesis |
US6138092A (en) * | 1998-07-13 | 2000-10-24 | Lockheed Martin Corporation | CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency |
US6539355B1 (en) * | 1998-10-15 | 2003-03-25 | Sony Corporation | Signal band expanding method and apparatus and signal synthesis method and apparatus |
CA2354871A1 (en) * | 1998-11-13 | 2000-05-25 | Lernout & Hauspie Speech Products N.V. | Speech synthesis using concatenation of speech waveforms |
US6754630B2 (en) * | 1998-11-13 | 2004-06-22 | Qualcomm, Inc. | Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation |
JP2000206996A (ja) | 1999-01-13 | 2000-07-28 | Sony Corp | 受信装置及び方法、通信装置及び方法 |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
-
2001
- 2001-04-18 JP JP2001119231A patent/JP4747434B2/ja not_active Expired - Fee Related
-
2002
- 2002-04-18 US US10/124,250 patent/US7249020B2/en not_active Expired - Fee Related
-
2006
- 2006-09-22 US US11/534,350 patent/US7418388B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7249020B2 (en) | 2007-07-24 |
US20020156631A1 (en) | 2002-10-24 |
JP2002311980A (ja) | 2002-10-25 |
US7418388B2 (en) | 2008-08-26 |
US20070016424A1 (en) | 2007-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3294604B2 (ja) | 波形の加算重畳による音声合成のための処理装置 | |
JP3563772B2 (ja) | 音声合成方法及び装置並びに音声合成制御方法及び装置 | |
JPS62160495A (ja) | 音声合成装置 | |
WO2002054383A1 (fr) | Dispositif de synthese vocale de texte et support d'enregistrement de programme | |
JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
JP4747434B2 (ja) | 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム | |
JP2761552B2 (ja) | 音声合成方法 | |
JP2001282276A (ja) | 音声合成方法、装置および記憶媒体 | |
JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
JP5164041B2 (ja) | 音声合成装置、音声合成方法、及びプログラム | |
JP3089940B2 (ja) | 音声合成装置 | |
JPH1078791A (ja) | ピッチ変換器 | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JP2987089B2 (ja) | 音声素片作成方法および音声合成方法とその装置 | |
JPH08160991A (ja) | 音声素片作成方法および音声合成方法、装置 | |
WO2023182291A1 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP5089473B2 (ja) | 音声合成装置及び音声合成方法 | |
JPS5880699A (ja) | 音声合成方式 | |
JPS61122700A (ja) | 合成音声発声速度制御方式 | |
JP2002244693A (ja) | 音声合成装置および音声合成方法 | |
JP2580123B2 (ja) | 音声合成装置 | |
JP2614436B2 (ja) | 音声合成装置 | |
JPS60113299A (ja) | 音声合成装置 | |
JPH04280B2 (ja) | ||
JPH03203800A (ja) | 音声合成方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080310 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100819 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101201 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110419 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110502 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140527 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |