JP3728173B2 - 音声合成方法、装置および記憶媒体 - Google Patents

音声合成方法、装置および記憶媒体 Download PDF

Info

Publication number
JP3728173B2
JP3728173B2 JP2000099531A JP2000099531A JP3728173B2 JP 3728173 B2 JP3728173 B2 JP 3728173B2 JP 2000099531 A JP2000099531 A JP 2000099531A JP 2000099531 A JP2000099531 A JP 2000099531A JP 3728173 B2 JP3728173 B2 JP 3728173B2
Authority
JP
Japan
Prior art keywords
power
unit
speech
value
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000099531A
Other languages
English (en)
Other versions
JP2001282276A (ja
Inventor
雅章 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000099531A priority Critical patent/JP3728173B2/ja
Priority to US09/821,671 priority patent/US6832192B2/en
Publication of JP2001282276A publication Critical patent/JP2001282276A/ja
Application granted granted Critical
Publication of JP3728173B2 publication Critical patent/JP3728173B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声合成方法および装置に関し、特に音声合成時における合成音声のパワー制御に関わるものである。
【0002】
【従来の技術】
所望の合成音声を得るための音声合成方法には、音素やCV・VCあるいはVCV等の音韻を単位とした音声素片を編集、接続して合成音声を生成する方法が知られている。図10は音声素片単位であるCV・VC、VCV(C:子音,V:母音)を説明する図である。図10に示されるように、CV・VCは各音素内に素片境界を置いた単位であり、VCVは母音内に素片境界を置いた単位である。
【0003】
【発明が解決しようとする課題】
図11は、1音声素片の継続時間長や基本周波数を変更する方法の一例を模式的に示した図である。図11の上段に示す1音声素片の音声波形は、中段に示す複数個の窓関数によって複数個の微細素片に分割される。このとき、有声音部(音声波形の後半部にある有声音の領域)では、原音声のピッチ間隔に同期した時間幅を有する窓関数を用いる。一方、無声音部(音声波形の前半部にある無声音の領域)では、適当な時間幅(一般には、有声音部の窓関数よりも長い時間幅を有する)の窓関数を用いる。
【0004】
このようにして得た複数個の微細素片を繰り返したり、間引いたり、間隔を変更したりすることによって、合成音声の継続時間長や基本周波数を変更することができる。例えば、合成音声の継続時間長を短縮する場合には、微細素片を間引けばよく、合成音声の継続時間長を伸長する場合には、微細素片を繰り返せばよい。また、合成音声の基本周波数を上げる場合には、有声音部の微細素片の間隔を詰めればよく、合成音声の基本周波数を下げる場合には、有声音部の微細素片の間隔を広げればよい。このような繰り返し、間引き、間隔変更を施して得た複数個の微細素片を重畳することにより、所望の継続時間長、基本周波数を有する合成音声を得ることができる。
【0005】
また、このような合成音声に対するパワー制御は以下のように行われる。すなわち、所望の平均パワーを持つ合成音声は、音声素片の平均パワーの推定値p0(目標とする平均パワーに対応する)と上記手順によって得られた合成音声の平均パワーpとを求め、上記手順によって得られた合成音声に(p/p01/2を乗ずることにより得られる。つまり、1音声素片単位にパワー制御を実行する。
【0006】
しかしながら、上記のパワー制御方法には以下の問題点がある。
【0007】
まず第一の問題点としてパワー制御の単位と音声素片の単位とのミスマッチの問題がある。
安定したパワー制御を行うためには、ある程度長い時間を単位としてパワー制御を行う必要がある。また、パワー制御単位内では、パワー変動が少ないことも必要である。これらの条件を満たすパワー制御の単位には、音素あるいは音素に類した単位がある。しかしながら、上述したCV・VCあるいはVCV といった単位では、変動の激しい音素境界を素片内部に持つため、素片内部でのパワー変動が大きくなり、パワー制御の単位としては不適当である。
【0008】
有声音部と無声音部ではパワーの値に大きな差がある。原則的には音素種別から有声音/無声音の別は一意に定まるため、音素毎にパワーの平均値を推定すれば、この差が問題になることはないことになる。しかし、詳細に調べると、音素種別と有声音/無声音の関係には例外があり、ミスマッチが生じることがある。また、音素境界と有声音/無声音境界が数msecから十数msec程度ずれる場合もある。これは、音素種別および音素境界が、主に声道形状によって定められるものであるのに対し、有声音/無声音は声帯振動の有無によるためである。
【0009】
本発明は、上記の問題に鑑みてなされたものであり、その目的は、音声素片内のパワー変動が大きくなるような音韻単位を波形編集の単位としても適切なパワー制御を行うことを可能にすることにある。
【0010】
【課題を解決するための手段】
上記の目的を達成するための本発明の一態様による音声合成方法は例えば以下の構成を備える。すなわち、
所定単位の音声素片を音素境界で分割して部分素片を取得する分割工程と、
前記分割工程で得られた全ての部分素片の各々について合成音声出力時の目標とすべきパワー値を推定する推定工程と、
前記部分素片の各々について、前記推定工程で推定された部分素片のパワー値に基づいて当該部分素片のパワー値を変更する変更工程と、
前記変更工程で変更された部分素片を用いて合成音声を生成する生成工程とを備える。
【0011】
また、上記の目的を達成するための本発明の他の態様によれる音声合成装置は以下の構成を備える。すなわち、
所定単位の音声素片を音素境界で分割して部分素片を取得する分割手段と、
前記分割手段で得られた全ての部分素片の各々について合成音声出力時の目標とすべきパワー値を推定する推定手段と、
前記部分素片の各々について、前記推定手段で推定された部分素片のパワー値に基づいて当該部分素片のパワー値を変更する変更手段と、
前記変更手段で変更された部分素片を用いて合成音声を生成する生成手段とを備える。
【0012】
更に、本発明の他の態様によれば、上記の音声合成方法をコンピュータに実現させるための制御プログラムを格納した記憶媒体が提供される。
【0013】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態を説明する。
【0014】
[第1の実施形態]
図1は本実施形態による音声合成装置のハードウェア構成を示すブロック図である。図1において、11は数値演算・制御等の処理を行なう中央処理装置であり、図2のフローチャートで後述する制御を実現する。12はRAM、ROM等の記憶装置であり、図2のフローチャートで後述する制御を中央処理装置11に実現させるために必要な制御プログラムや一時的データが格納される。13はディスク装置等の外部記憶装置であり、本実施形態の音声合成処理を制御する制御プログラムやユーザの操作を受けるためのグラフィカルユーザインタフェースを制御する制御プログラムを保持する。
【0015】
14は表示器、スピーカ等からなる出力装置であり、合成された音声はスピーカから出力される。また、表示器には、ユーザの操作を受け付けるグラフィカルユーザインタフェースを表示する。このグラフィカルユーザインタフェースは、中央処理装置11によって制御される。ただし、本発明は他の装置やプログラムに対して合成音声を出力するべく組み込むことも可能であり、この場合の出力は他の装置或いはプログラムの入力となる。15はキーボード等の入力装置であり、ユーザの操作を所定の制御コマンドに変換して中央処理装置11に供給する。中央処理装置11は、この制御コマンドの内容に応じて、音声合成の対象となるテキスト(日本語や他の言語からなる)を指定し、そのテキストを音声合成ユニット17に供給する。ただし、本発明は他の装置やプログラムの一部として組み込まれることも可能であり、この場合の入力は他の装置やプログラムを通じて間接的に行われることになる。16は内部バスであり、図1で示された上述の各構成を接続する。17は音声合成ユニットである。音声合成ユニット17は、素片辞書18を用いて、入力したテキストから音声を合成する。但し、素片辞書18は、外部記憶装置13が保持するように構成してもよい。
【0016】
以上のハードウェア構成を備えた本実施形態の音声合成ユニット17の動作を以下に説明する。
【0017】
図2は本実施形態による音声合成ユニット17の手順を示すフローチャートである。まず、ステップS1において、入力したテキストに対して言語解析と音響処理を施し、そのテキストを表す音韻系列とその音韻系列の音韻情報(モーラ数、モーラ位置、アクセント型等)とを生成する。次に、1音韻単位(合成単位ともいう)の音声素片を表す音声波形データを素片辞書18から読み出す。ここで、音韻の単位は、CV・VC、VCV等の音素境界を含む単位である。次に、ステップS2において、ステップS1において取得した音声素片を音素境界を境界として分割する。ステップS2の分割によって得られた素片を部分素片uiと呼ぶことにする。例えば、音声素片がVCVであるならば3個、CV・VCならば2個の部分素片に分割されることになる。次に、ステップS3においてループカウンタiを0に初期化する。
【0018】
続くステップS4において、部分素片uiのパワー推定に必要な推定要因を取得する。本例では、図3に示されるように、部分素片uiの音素種別、合成対象語のアクセント型及びモーラ数、合成対象語中における部分素片uiの置かれる位置(モーラ位置に相当する)等が推定要因として用いられる。これらの推定要因は、ステップS1で得た音韻情報に含まれる。ステップS5では、部分素片uiが有声音の素片か無声音の素片かを判定するための情報(図4)を取得する。すなわち、ステップS1で取得した音声素片に対応する素片IDとその音声素片の部分素片番号(ループカウンタiが対応する)とから対応する有声音無声音フラグを取得する。図4に示す情報は、素片辞書18が保持する。
【0019】
次に、ステップS6において、ステップS5で得た有声音無声音フラグに基づいて、部分素片uiが有声音の素片か無声音の素片かを判断して処理を分岐する。すなわち、部分素片uiが有声音の場合はステップS7に処理を移し、uiが無声音の場合にはステップS9に処理を移す。
【0020】
ステップS7では、上述のステップS4で得られた各推定要因に基づいて、有声音パワー推定用のパラメータ値を取得する。例えば、数量化I類による推定を行う場合には、有声音パワー推定用に学習された数量化I類の係数表(図5)から、ステップS4で得られた推定要因に対応するパラメータ値を取得する。そして、ステップS8において、ステップS7で得られたパラメータ値に基づいて合成音ターゲットとなるパワーpを推定し、ステップS11に移る。尚、図5に示す情報は、素片辞書18が保持する。
【0021】
一方、部分素片uiが無声音であった場合は、ステップS9において、上述のステップS4で得られた各推定要因に基づいて、無声音パワー推定用のパラメータ値を取得する。例えば、数量化I類による推定を行う場合には、無声音パワー推定用に学習された数量化I類の係数表(図6)から、ステップS4で得られた推定要因に対応するパラメータ値を取得する。そして、ステップS10において、ステップS9で得られたパラメータ値に基づいて合成音ターゲットとなるパワーpを推定し、ステップS11に移る。尚、図5に示す情報は、素片辞書18が保持する。
【0022】
ステップS11では、素片辞書18に記憶された部分素片uiに対応するパワー基準値qを取得する。次に、ステップS12において、ステップS8あるいはステップS10で推定された推定値pと、ステップS11で取得されたパワー基準値qとから振幅変更倍率siを計算する。ここで、p、qともにパワー次元の値ならば、
i=(p/q)1/2となる。
【0023】
その後、ステップS13において、ループカウンタiの値に1を加える。次に、ステップS14において、ループカウンタiが1音素単位の部分素片の総数に等しいかどうかを判定し、等しくない場合にはステップS4に戻り、次の部分素片に対して上述の処理を行う。そして、ループカウンタiが、部分素片の総数に等しい場合には、ステップS15に処理を移す。ステップS15では、ステップS12で求めた振幅変更倍率siを用いて、各音声素片の部分素片毎にパワー制御を行う。更に、その他の韻律情報(継続時間長や基本周波数)を用いて、各音声波形に対して波形編集操作を行う。更に、これらの音声素片を接続することにより入力したテキストに対応した合成音を得る。この合成音は、出力装置14のスピーカから出力される。ステップS15は、PSOLA(Pitch-Synchronous Overlap Add method「ピッチ同期波形重畳法」)を用いて、各音声素片の波形編集を行う。
【0024】
以上のように、第1の実施形態によれば、1つ以上の音素境界を含む音声素片を音素境界で分割して部分素片を取得し、各部分素片が有声音か無声音かに応じてパワー推定値を計算することができる。これにより、CV・VCやVCVのように音声素片内のパワー変動が大きくなるような音韻単位を波形編集の単位としても適切なパワー制御を行うことができ、高品位な合成音声を生成することができる。
【0025】
[第2の実施形態]
第1の実施形態において、パワー推定用の要因は有声音/無声音に関わらず同じものとしたが、有声音/無声音によってパワー推定用の要因を分けることも可能である。図7は第2の実施形態による音声合成処理の手順を説明するフローチャートである。図7において第1の実施形態(図2)と同様の処理を行うステップには同一のステップ番号を付し、ここではそれらの説明を省略する。
【0026】
第1の実施形態ではステップS4において有声音/無声音に関わらず同一のパワー推定用の要因を取得したが、第2の実施形態では、ステップS4を廃し、ステップS16とステップS17で有声音・無声音のそれぞれに応じたパワー推定要因を取得する。すなわち、ステップS6において部分素片uiが有声音であると判定された場合は、ステップS16において有声音用のパワー推定要因を取得し、ステップS7ではこの有声音用のパワー推定要因に対応するパラメータ値を図5のテーブルから取得する。一方、ステップS6において、部分素片uiが無声音であると判定された場合は、ステップS17において無声音用のパワー推定要因を取得し、ステップS9ではこの無声音用のパワー推定要因に対応するパラメータ値を図6のテーブルから取得する。
【0027】
以上のように、第2の実施形態によれば、有声音部と無声音部とで更に適切なパワー制御を行うことができる。
【0028】
[第3の実施形態]
第1及び第2の実施形態において、部分素片のパワー基準値qとして任意の値を用いることが可能であるが、その一例として音素パワーを用いることができる。本実施形態では、部分素片のパワー基準値qとして音素パワーを用いる場合における素片辞書作成の処理を説明する。図8は、音声合成ユニット17における素片辞書作成の処理手順を説明するフローチャートである。また、図9は図8のフローチャートによる素片辞書作成処理を説明する図である。
【0029】
まず、ステップS21において素片辞書18に登録すべき発声(図9の(a)、(b))を取得する。次に、ステップS22において、上記ステップS21で取得した発声を音素に分割する(図9の(c))。次に、ステップS23においてループカウンタiを0に初期化する。
【0030】
ステップS24において、i番目の音素uiの有声音/無声音の別を判定する。そして、ステップS25において、ステップS24の判定結果に基づいて処理を分岐する。すなわち、ステップS24において当該音素uiが有声音であると判定されたならばステップS26に処理を移し、無声音であると判定されたならばステップS28に処理を移す。
【0031】
ステップS26では、i番目の音素の有声音部の平均パワーを計算する。そしてステップS27において、ステップS26で計算された有声音部平均パワーをパワー基準値として設定し、ステップS30に処理を移す。一方、ステップS28では、i番目の音素の無声音部の平均パワーを計算する。そして、ステップS29において、ステップS28で計算された無声音部平均パワーをパワー基準値として設定し、ステップS30に処理を移す。
【0032】
ステップS30では、ループカウンタiの値に1を加える。そして、ステップS31において、ループカウンタiが音素の総数に等しいか判定し、等しくない場合には、次の音素について上述の処理を繰り返すべく、ステップS24に処理を戻す。一方、ステップS31でループカウンタiが音素数に等しいと判定された場合は、本処理を終了する。以上の処理により、図9の(d)の如く各音素の有声音・無声音が判定され、図9の(e)に示す如く音素パワー基準値が設定される。
【0033】
そして、上述のステップS11においては、例えば、CV・VC単位の音声素片「t.a」を部分素片/t/と/a/に分割した場合には、/t/のパワー基準値qとして「893」が、/a/のパワー基準値qとして「2473」が用いられることになる(図9の(e)〜(g))。
【0034】
なお、上記第3の実施形態において、ステップS29において、無声音部の平均パワーに1より大きな値を乗じた値をパワー基準値とすることにより、合成時の無声音のパワーを更に抑える効果が得られる。これは、上述したステップS12における変更倍率の値が小さくなるからである。
【0035】
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0036】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0037】
【発明の効果】
以上説明したように、本発明によれば、CV・VCやVCVのように音声素片内のパワー変動が大きくなるような音韻単位を波形編集の単位としても適切なパワー制御を行うことができ、高品位な合成音声を生成することができる。
【図面の簡単な説明】
【図1】第1の実施形態による音声合成装置のハードウェア構成を示すブロック図である。
【図2】本実施形態による音声合成処理の手順を示すフローチャートである。
【図3】部分素片のパワー推定に必要な要因の例を示す図である。
【図4】部分素片が有声音の素片か無声音の素片かを判定するために参照するテーブルのデータ構成例を示す図である。
【図5】有声音パワー推定用に学習された数量化I類の係数表の例を示す図である。
【図6】無声音パワー推定用に学習された数量化I類の係数表の例を示す図である。
【図7】第2の実施形態による音声合成処理の手順を説明するフローチャートである。
【図8】第3の実施形態による素片辞書作成の処理手順を説明するフローチャートである。
【図9】図8のフローチャートによる素片辞書作成処理を説明する図である。
【図10】音声素片単位であるCV・VC、VCVを説明する図である。
【図11】音声波形を微細素片に分割する方法を模式的に示した図である。

Claims (21)

  1. 所定単位の音声素片を音素境界で分割して部分素片を取得する分割工程と、
    前記分割工程で得られた全ての部分素片の各々について合成音声出力時の目標とすべきパワー値を推定する推定工程と、
    前記部分素片の各々について、前記推定工程で推定された部分素片のパワー値に基づいて当該部分素片のパワー値を変更する変更工程と、
    前記変更工程で変更された部分素片を用いて合成音声を生成する生成工程とを備えることを特徴とする音声合成方法。
  2. 前記変更工程は、前記部分素片の各々について、
    対応するパワー基準値を取得し、
    前記推定工程で推定されたパワー値前記取得されたパワー基準値の比から振幅変更倍率を計算し、
    前記計算された振幅変更倍率に従って当該部分素片の振幅を変更することにより前記推定されたパワー値への変更を行うことを特徴とする請求項1に記載の音声合成方法。
  3. 前記変更工程は、前記推定工程で推定したパワー値をp、前記取得したパワー基準値をqとした場合に、
    s=(p/q)1/2
    によって求まるsを振幅変更倍率として、当該部分素片の振幅値を変更することを特徴とする請求項2に記載の音声合成方法。
  4. 前記推定工程は、
    前記部分素片の各々について有声音であるか無声音であるかを判定する判定工程を更に備え、
    有声音であると判定された場合には有声音素片用のパラメータ値でパワー値を推定し、無声音であると判定された場合には無声音素片用のパラメータ値でパワー値を推定することを特徴とする請求項1に記載の音声合成方法。
  5. 前記推定工程は、
    各部分素片毎に前記判定工程による有声音であるか無声音であるかの判定結果に従ってパワー推定用要因を獲得する獲得工程を更に備え、
    前記判定工程の判定結果に応じて、前記獲得されたパワー推定用要因に対応するパラメータ値を取得してパワー値を推定することを特徴とする請求項4に記載の音声合成方法。
  6. 前記獲得工程は、前記判定工程の判定結果に応じて、当該部分素片の音素種別、当該部分素片の合成対象語におけるモーラ位置、合成対象語のモーラ数及びアクセント型を含むパワー推定用要因群の中から使用すべきパワー推定用要因を獲得することを特徴とする請求項5に記載の音声合成方法。
  7. 前記獲得工程は、前記判定工程によって有声音であると判定された場合は有声音用のパワー推定用要因を獲得し、無声音であると判定された場合は無声音用のパワー推定用要因を獲得することを特徴とする請求項6に記載の音声合成方法。
  8. 無声音の部分素片に対応するパワー基準値が当該無声音の平均パワーに1より大きい値を乗じた値に設定されていることを特徴とする請求項4乃至7のいずれかに記載の音声合成方法。
  9. 前記音声合成単位がCV/VCであることを特徴とする請求項1乃至8のいずれかに記載の音声合成方法。
  10. 前記音声合成単位がVCVであることを特徴とする請求項1乃至8のいずれかに記載の音声合成方法。
  11. 所定単位の音声素片を音素境界で分割して部分素片を取得する分割手段と、
    前記分割手段で得られた全ての部分素片の各々について合成音声出力時の目標とすべきパワー値を推定する推定手段と、
    前記部分素片の各々について、前記推定手段で推定された部分素片のパワー値に基づいて当該部分素片のパワー値を変更する変更手段と、
    前記変更手段で変更された部分素片を用いて合成音声を生成する生成手段とを備えることを特徴とする音声合成装置。
  12. 前記変更手段は、前記部分素片の各々について、
    対応するパワー基準値を取得し、
    前記推定手段で推定されたパワー値前記取得されたパワー基準値の比から振幅変更倍率を計算し、
    前記計算された振幅変更倍率に従って当該部分素片の振幅を変更することにより前記推定されたパワー値への変更を行うことを特徴とする請求項11に記載の音声合成装置。
  13. 前記変更手段は、前記推定手段で推定したパワー値をp、前記取得したパワー基準値をqとした場合に、
    s=(p/q)1/2
    によって求まるsを振幅変更倍率として、当該部分素片の振幅値を変更することを特徴とする請求項12に記載の音声合成装置。
  14. 前記推定手段は、
    前記部分素片の各々について有声音であるか無声音であるかを判定する判定手段を更に備え、
    有声音であると判定された場合には有声音素片用のパラメータ値でパワー値を推定し、無声音であると判定された場合には無声音素片用のパラメータ値でパワー値を推定することを特徴とする請求項11に記載の音声合成装置。
  15. 前記推定手段は、
    各部分素片毎に前記判定手段による有声音であるか無声音であるかの判定結果に従ってパワー推定用要因を獲得する獲得手段を更に備え、
    前記判定手段の判定結果に応じて、前記獲得されたパワー推定用要因に対応するパラメータ値を取得してパワー値を推定することを特徴とする請求項14に記載の音声合成装置。
  16. 前記獲得手段は、前記判定手段の判定結果に応じて、当該部分素片の音素種別、当該部分素片の合成対象語におけるモーラ位置、合成対象語のモーラ数及びアクセント型を含むパワー推定要因群の中から使用すべきパワー推定用要因を獲得することを特徴とする請求項15に記載の音声合成装置。
  17. 前記獲得手段は、前記判定手段によって有声音であると判定された場合は有声音用のパワー推定用要因を獲得し、無声音であると判定された場合は無声音用のパワー推定用要因を獲得することを特徴とする請求項16に記載の音声合成装置。
  18. 無声音の部分素片に対応するパワー基準値が当該無声音の平均パワーに1より大きい値を乗じた値に設定されていることを特徴とする請求項14乃至17のいずれかに記載の音声合成装置。
  19. 前記音声合成単位がCV/VCであることを特徴とする請求項11乃至18のいずれかに記載の音声合成装置。
  20. 前記音声合成単位がVCVであることを特徴とする請求項11乃至18のいずれかに記載の音声合成装置。
  21. 請求項1乃至10のいずれかに記載の方法をコンピュータに実現させるための制御プログラムを格納する記憶媒体。
JP2000099531A 2000-03-31 2000-03-31 音声合成方法、装置および記憶媒体 Expired - Fee Related JP3728173B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000099531A JP3728173B2 (ja) 2000-03-31 2000-03-31 音声合成方法、装置および記憶媒体
US09/821,671 US6832192B2 (en) 2000-03-31 2001-03-29 Speech synthesizing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000099531A JP3728173B2 (ja) 2000-03-31 2000-03-31 音声合成方法、装置および記憶媒体

Publications (2)

Publication Number Publication Date
JP2001282276A JP2001282276A (ja) 2001-10-12
JP3728173B2 true JP3728173B2 (ja) 2005-12-21

Family

ID=18613871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000099531A Expired - Fee Related JP3728173B2 (ja) 2000-03-31 2000-03-31 音声合成方法、装置および記憶媒体

Country Status (2)

Country Link
US (1) US6832192B2 (ja)
JP (1) JP3728173B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3912913B2 (ja) * 1998-08-31 2007-05-09 キヤノン株式会社 音声合成方法及び装置
JP4407305B2 (ja) * 2003-02-17 2010-02-03 株式会社ケンウッド ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
US20050038647A1 (en) * 2003-08-11 2005-02-17 Aurilab, Llc Program product, method and system for detecting reduced speech
US20050096909A1 (en) * 2003-10-29 2005-05-05 Raimo Bakis Systems and methods for expressive text-to-speech
US20050222844A1 (en) * 2004-04-01 2005-10-06 Hideya Kawahara Method and apparatus for generating spatialized audio from non-three-dimensionally aware applications
JP4483450B2 (ja) * 2004-07-22 2010-06-16 株式会社デンソー 音声案内装置、音声案内方法およびナビゲーション装置
JP4551803B2 (ja) 2005-03-29 2010-09-29 株式会社東芝 音声合成装置及びそのプログラム
US20070129945A1 (en) * 2005-12-06 2007-06-07 Ma Changxue C Voice quality control for high quality speech reconstruction
US9641481B2 (en) * 2014-02-21 2017-05-02 Htc Corporation Smart conversation method and electronic device using the same
US10726828B2 (en) 2017-05-31 2020-07-28 International Business Machines Corporation Generation of voice data as data augmentation for acoustic model training

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5220629A (en) * 1989-11-06 1993-06-15 Canon Kabushiki Kaisha Speech synthesis apparatus and method
JPH0573100A (ja) 1991-09-11 1993-03-26 Canon Inc 音声合成方法及びその装置
JP3450411B2 (ja) 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2001117576A (ja) * 1999-10-15 2001-04-27 Pioneer Electronic Corp 音声合成方法

Also Published As

Publication number Publication date
US20010029454A1 (en) 2001-10-11
JP2001282276A (ja) 2001-10-12
US6832192B2 (en) 2004-12-14

Similar Documents

Publication Publication Date Title
JP3728172B2 (ja) 音声合成方法および装置
JP4469883B2 (ja) 音声合成方法及びその装置
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2011028230A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
JP4632384B2 (ja) 音声情報処理装置及びその方法と記憶媒体
JP2009047957A (ja) ピッチパターン生成方法及びその装置
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP3576840B2 (ja) 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
JP3450237B2 (ja) 音声合成装置および方法
JP3912913B2 (ja) 音声合成方法及び装置
JP3583929B2 (ja) ピッチパタン変形方法及びその記録媒体
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4525162B2 (ja) 音声合成装置及びそのプログラム
JP4963345B2 (ja) 音声合成方法及び音声合成プログラム
JP3785892B2 (ja) 音声合成装置及び記録媒体
JP4454780B2 (ja) 音声情報処理装置とその方法と記憶媒体
JP2000310996A (ja) 音声合成装置および音韻継続時間長の制御方法
JP3081300B2 (ja) 残差駆動型音声合成装置
JP3963141B2 (ja) 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体
JP6191094B2 (ja) 音声素片切出装置
JP2001350491A (ja) 音声処理方法および装置
JP2003330482A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP3853923B2 (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041210

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20041210

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20041210

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041210

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20050223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050930

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091007

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091007

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101007

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101007

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111007

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111007

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121007

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131007

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees