JP4476656B2 - 音声合成装置および音声合成プログラム - Google Patents

音声合成装置および音声合成プログラム Download PDF

Info

Publication number
JP4476656B2
JP4476656B2 JP2004078335A JP2004078335A JP4476656B2 JP 4476656 B2 JP4476656 B2 JP 4476656B2 JP 2004078335 A JP2004078335 A JP 2004078335A JP 2004078335 A JP2004078335 A JP 2004078335A JP 4476656 B2 JP4476656 B2 JP 4476656B2
Authority
JP
Japan
Prior art keywords
speech synthesis
synthesis unit
waveform generation
smoothing
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004078335A
Other languages
English (en)
Other versions
JP2005266294A (ja
Inventor
正 山浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004078335A priority Critical patent/JP4476656B2/ja
Publication of JP2005266294A publication Critical patent/JP2005266294A/ja
Application granted granted Critical
Publication of JP4476656B2 publication Critical patent/JP4476656B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

この発明は、連続する2つの音声合成単位間の波形生成パラメータを平滑化して連結することにより音声合成を行う音声合成装置および音声合成プログラムに関するものである。
従来の音声合成装置は、連続する2つの音声合成単位間の波形生成パラメータを平滑化して連結する際に、固定ピッチ数あるいは固定フレーム数の区間長において平滑化処理を行っていた(例えば特許文献1〜3参照)。
特開昭56−168700号公報 特開平08−072897号公報 特開平11−224096号公報
従来の従来の音声合成装置では、連続する2つの音声合成単位間の波形パラメータを平滑化する際、本来は変化の大きい有声部分から無声部分への連結であっても、また、変化の小さい有声部分から有声部分への連結であっても、2つの音声合成単位間の波形生成パラメータの平滑化を同一の固定的な区間長で行うことになる。そのため、変化が大きい方が望ましい部分において不要に平滑化されると、合成音声の自然性が劣化したり、また、変化が小さい方が望ましい部分において平滑化が不十分なために合成音声に不連続が発生したりするという問題があった。また、従来は、連結する2つの音声合成単位の波形パラメータ間の距離の大小によらず、音声合成単位間の波形生成パラメータの平滑化を同一の固定的な区間長で行うようにしている。そのため、2つの音声合成単位の波形パラメータ間の距離が大きい場合には平滑化区間における合成音声波形の急変により異音が発生したり、2つの音声合成単位の波形パラメータ間の距離が小さい場合には不要な波形パラメータ平滑化により合成音声の自然性が劣化したりするという問題があった。
この発明は、上記のような課題を解決するためになされたもので、連続する2つの音声合成単位間の波形パラメータを平滑化して連結する際の合成音声の自然性劣化および異音の発生を軽減できる音声合成装置および音声合成プログラムを得ることを目的とする。
この発明に係る音声合成装置は、複数の音声合成単位を予め格納しておく音声合成単位辞書と、入力された音韻系列と韻律情報に対して音声合成単位辞書に格納された音声合成単位との適合度合いを示す選択尺度に基づいて音声合成単位辞書から当該音韻系列と韻律情報に適合する音声合成単位の系列を選択する音声合成単位選択手段と、選択された音声合成単位の系列を一時的に蓄え、1音声合成単位の遅延を与えて出力する遅延手段と、選択された音声合成単位と遅延が与えられた音声合成単位とからなる連続する2つの音声合成単位それぞれの音韻の組み合せに基づいて、当該2つの音声合成単位の波形生成パラメータを平滑化するための平滑化区間長を決定する平滑化区間長決定手段と、決定された平滑化区間長で2つの音声合成単位の波形生成パラメータを平滑化して連結した波形生成パラメータを生成する波形生成パラメータ平滑化手段と、連結した波形生成パラメータから合成音声の波形を生成する波形生成手段とを備えたものである。
この発明によれば、2つの音声合成単位の波形生成パラメータを連結する際に、求めた最適な平滑化区間長で平滑化するようにしたので、連結する際の合成音声の自然性劣化および異音の発生を軽減でき、高品質な合成音声を生成できる効果がある。
実施の形態1.
図1はこの発明の実施の形態1による音声合成装置の構成を示すブロック図である。図において、音声合成装置は、音声合成単位辞書11、音声合成単位選択手段12、遅延手段13、平滑化区間長決定手段14、波形生成パラメータ平滑化手段15および波形生成手段16を備えている。
音声合成単位辞書11は、複数の音声合成単位を予め格納しておく手段である。音声合成単位選択手段12は、入力された音韻系列と韻律情報に適合する音声合成単位の系列を音声合成単位辞書11から選択する手段である。遅延手段13は、入力された音声合成単位の情報を一時的に蓄え、1音声合成単位の遅延を与えて出力する手段である。平滑化区間長決定手段14は、選択された音声合成単位と遅延が与えられた音声合成単位とからなる連続する2つの音声合成単位の音韻情報に基づいて、当該2つの音声合成単位間の波形生成パラメータを平滑化するための平滑化区間長を決定する手段である。波形生成パラメータ平滑化手段15は、決定された平滑化区間長で2つの音声合成単位の波形生成パラメータを平滑化して連結した波形生成パラメータを出力する手段である。波形生成手段16は、連結した波形生成パラメータから合成音声の波形を生成する手段である。
平滑化区間長決定手段14は、図2に示すように、平滑化区間長テーブル17および平滑化区間長読み出し手段18を備えている。平滑化区間長テーブル17は、2つの音韻特徴の組み合わせ毎に最適な平滑化区間長を予め記述したものである。
平滑化区間長読み出し手段18は、入力された2つの音声合成単位AとBの音韻特徴の組み合わせに応じて平滑化区間長テーブル17から平滑化区間長を読み出す手段である。
次に、音声合成装置の動作について説明する。
まず、音声合成単位辞書11には、複数の音声合成単位を、例えば音韻情報と波形生成パラメータの情報として表し、予め格納しておく。ここで音声合成単位は、例えばCV(Consonant-Vowel)やVCV(Vowel-Consonant-Vowel)、CVC(Consonant-Vowel-Consonant)、これらの音韻連鎖を拡張した単位など、音声合成装置の設計時に設定した任意の単位でよい。また、波形生成パラメータは、例えばPSOLA(Pitch-Synchronous Overlap ADD)法により合成音声の波形生成を行う場合は窓掛けして切り出したピッチ波形であり、また、LPC(Linear Predictive Coefficient;線形予測係数)合成法により合成音声の波形生成を行う場合はLPCやPARCOR(PARtial auto-CORrelation;偏自己相関係数)、LSP(Liner Spectrum Pair;線スペクトル対)などの特徴パラメータであるなど、合成音声の波形生成法に対応して任意のパラメータでよい。
音声合成単位選択手段12は、入力された音韻系列・韻律情報に対して、例えば音声合成単位のピッチ周波数パターンや音韻継続時間長、連結する音声合成単位間のピッチ周波数の差異あるいはスペクトル形状やピッチ波形形状の差異などを評価尺度として、規定の選択尺度に基づいて音声合成単位辞書11から最適な音声合成単位の系列を選択し、選択された音声合成単位の系列を遅延手段13、平滑化区間長決定手段14および波形生成パラメータ平滑化手段15に対し順次出力する。遅延手段13は、入力された音声合成単位を一時的に蓄え、1音声合成単位の遅延を与えて平滑化区間長決定手段14に出力する。すなわち、平滑化区間長決定手段14には、遅延手段13および音声合成単位選択手段12からの音声合成単位が、連続する2つの音声合成単位として入力されることになる。
平滑化区間長テーブル17の例は図3に示されるが、音韻の組み合わせと最適な平滑化区間長との関係を示している。平滑化区間長テーブル17は、連結する2つの音声合成単位Aの終端の音韻αと、音声合成単位Bの始端の音韻βとの組み合わせ毎に最適な平滑化区間長lαβを記述している。この音韻の組み合わせ毎の平滑化区間長lαβは、ピッチ数やフレーム数などの任意の単位で規定し、例えば合成音声の不連続感や自然性などの観点で主観評価実験を行い最適な値を求めるなどして、予め設定しておく。なお、図3では音韻の組み合わせの分類を詳細に行っているが、例えば破裂性の子音p、t、kについては同一の平滑化区間長とするなど、同様な特徴を有する音韻をまとめた群を作成し、群毎の組み合わせに対して平滑化区間長を設定してもよい。このような群毎に平滑化区間長を設定することにより、平滑化区間長テーブル17を記憶するメモリ容量を小さくすることができる。
平滑化区間長読み出し手段18は、入力された音声合成単位Aの終端の音韻αと音声合成単位Bの始端の音韻βとの組み合わせに対応する平滑化区間長lαβを平滑化区間長テーブル17より読み出し、出力する。波形生成パラメータ平滑化手段15は、遅延手段13から入力された音声合成単位Aの波形生成パラメータと音声合成単位選択手段12から入力された音声合成単位Bの波形生成パラメータとを、平滑化区間長決定手段14から入力された平滑化区間長lαβの区間で平滑化して連結し、連結した波形生成パラメータを波形生成手段16に出力する。波形生成手段16は、入力された波形生成パラメータから音声波形を生成し、合成音声として出力する。
以上のように、この実施の形態1によれば、連続する2つの音声合成単位間の特徴として、音韻特徴を用い、この音韻特徴に基づいて、該2つの音声合成単位間の波形生成パラメータを平滑化するための平滑化区間長を最適に決定するようにしたので、音声合成単位を連結する部分における合成音声の不連続感や自然性の劣化を軽減し、高品質な合成音声を生成することができる効果が得られる。
実施の形態2.
図4はこの発明の実施の形態2による音声合成装置の構成を示すブロック図である。図において、図1と同一および相当する部分は同一符号を付して示し、原則としてその説明を省略する。実施の形態2の音声合成装置では、平滑化区間長決定手段19の動作が実施の形態1のものと異なる。
平滑化区間長決定手段19は、連続する2つの音声合成単位の波形生成パラメータ間の距離から波形生成パラメータを平滑化するための平滑化区間長を決定する手段で、図5に示されるように、波形生成パラメータ距離計算手段20および平滑化区間長計算手段21を備えている。波形生成パラメータ距離計算手段20は、音声合成単位Aと音声合成単位Bとの波形生成パラメータ間の距離を計算する手段である。平滑化区間長計算手段21は、計算された波形生成パラメータ間の距離から平滑化区間長を計算する手段である。
次に、平滑化区間長決定手段19の動作について説明する。
波形生成パラメータ距離計算手段20は、連結する2つの音声合成単位Aの終端の波形生成パラメータと音声合成Bの始端の波形生成パラメータとの距離Dを計算し、その計算した距離Dを平滑化区間長計算手段21に出力する。ここで、波形生成パラメータ間の距離Dは、例えば窓掛けして切り出したピッチ波形を波形生成パラメータとするPSOLA法により合成音声の波形生成を行う場合には、2つの波形の誤差信号のパワーとし、また、LPCやPARCOR、LSPなどの特徴パラメータを波形生成パラメータとするLPC合成法により波形生成を行う場合には、2つの特徴パラメータ間の距離や、特徴パラメータから求められるスペクトル包絡間のスペクトル間距離とするなど、波形生成パラメータに対応して適宜定義してよい。
平滑化区間長計算手段21は、入力された波形生成パラメータ間の距離Dから、例えば図6に示す処理フローに従って平滑化区間長Lを決定し、出力する。
平滑化区間長計算手段21の動作を説明すると、まず、入力された波形生成パラメータ間の距離Dを予め定めた閾値THと比較する(ステップST201)。波形生成パラメータ間の距離Dが閾値THより小さい場合には長さlを平滑化区間長Lとして決定し(ステップST202)、平滑化区間長計算手段21の動作を終了する。一方、ステップST201において波形生成パラメータ間の距離Dが閾値TH以上の場合、長さlを平滑化区間長Lとして決定し(ステップST203)、平滑化区間長計算手段21の動作を終了する。ここで、長さl、lは、波形生成パラメータ間の距離Dが大きい場合には平滑化区間長Lを長くして音声合成単位の接続部における不連続感を軽減するように、l<lとする。また、この長さl、lはピッチ数やフレーム数などの任意の単位で規定し、例えば合成音声の不連続感と自然性などの観点で主観評価実験を行い最適な値を求めるなどして、予め設定しておく。
なお、平滑化区間長Lは、図6の処理では、長さl、lの2段階の値をとるとしているが、3段階以上の多段階の値をとるようにしてもよい。このように多段階に平滑化区間長を設定する場合には、波形生成パラメータ間の距離Dに応じてより詳細な平滑化区間長の制御をすることができるので、音声合成単位を連結する部分における合成音声の不連続感や自然性の劣化をより軽減し、高品質な合成音声を生成することができる。
また、図6の処理では、連結する音声合成単位の組み合わせに依らず閾値TH、平滑化区間長l、lを固定的に用いているが、例えば音声合成単位Aの終端の音韻αと音声合成単位Bの始端の音韻βとの組み合わせ毎に最適な閾値THαβ、平滑化区間長lαβ、lαβを設定してもよい。このように音声合成単位の組み合わせ毎に閾値、平滑化区間長を設定する場合には、本来は変化の大きい有声部から無声部への連結において過度な平滑化により自然性が劣化したり、本来は変化の小さい有声部から有声部への連結において十分な平滑化が行われず不連続感が残ったりするなどの問題を回避することができ、高品質な合成音声を生成することができる。
以上のように、この実施の形態2によれば、連続する2つの音声合成単位間の特徴として、波形生成パラメータ間の距離を用い、この距離に基づいて、2つの音声合成単位間の波形生成パラメータを平滑化するための平滑化区間長を決定するようにしたので、音声合成単位を連結する部分における合成音声の不連続感や自然性の劣化を軽減し、高品質な合成音声を生成することができる効果が得られる。
実施の形態3.
図7はこの発明の実施の形態3による音声合成装置の構成を示すブロック図である。図において、図1と同一および相当する部分は同一符号を付して示し、原則としてその説明を省略する。実施の形態3の音声合成装置では、平滑化区間長決定手段22の動作が実施の形態1および実施の形態2のものと異なる。
平滑化区間決定手段22は、平滑化区間内の単位時間当たりの波形生成パラメータの変化量が所定の値以下となるように音声合成単位間の波形生成パラメータを平滑化するための平滑化区間長を決定する手段で、図8に示すように、波形生成パラメータ距離計算手段20および平滑化区間長計算手段23を備えている。波形生成パラメータ距離計算手段20は、音声合成単位Aと音声合成単位Bとの波形生成パラメータ間の距離を計算する手段である。平滑化区間長計算手段23は、平滑化区間内の単位時間当たりの波形生成パラメータの変化量が所定の値以下となる平滑化区間長を計算する手段である。
次に、平滑化区間長決定手段22の動作について説明する。
波形生成パラメータ距離計算手段20は、連結する2つの音声合成単位Aの終端の波形生成パラメータと音声合成Bの始端の波形生成パラメータとの距離Dを計算し、その距離Dを平滑化区間長計算手段23に出力する。ここで、波形生成パラメータ間の距離Dは、例えば窓掛けして切り出したピッチ波形を波形生成パラメータとするPSOLA法により合成音声の波形生成を行う場合には2つの波形の誤差信号のパワーとし、また、LPCやPARCOR、LSPなどの特徴パラメータを波形生成パラメータとするLPC合成法により波形生成を行う場合には2つの特徴パラメータ間の距離や、特徴パラメータから求められるスペクトル包絡間のスペクトル間距離とするなど、波形生成パラメータに対応して適宜定義してよい。
平滑化区間長計算手段23は、入力された波形生成パラメータ間の距離Dから、例えば式(1)に従って平滑化区間長Lを決定し、出力する。
L=D/ΔTH (1)
ここで、式(1)におけるΔTHは、ピッチやフレームなどの任意の単位で規定した1単位当たりの波形生成パラメータの変化量の閾値であり、例えば合成音声の不連続感と自然性などの観点で主観評価実験を行い最適な値を求めるなどして、予め設定しておく。
なお、式(1)では連結する音声合成単位の組み合わせによらず単一の閾値ΔTHを用いているが、例えば音声合成単位Aの終端の音韻αと音声合成単位Bの始端の音韻βとの組み合わせ毎に最適な閾値ΔTHαβを設定してもよい。このように音声合成単位の組み合わせ毎に閾値を設定する場合、本来は変化の大きい有声部から無声部への連結において過度な平滑化により自然性が劣化したり、また本来は変化の小さい有声部から有声部への連結において十分な平滑化が行われず不連続感が残ったりするなどの問題を回避することができ、高品質な合成音声を生成することができる。
以上のように、この実施の形態3によれば、連続する2つの音声合成単位間の特徴として、平滑化区間内の単位時間当たりの波形生成パラメータの変化量を用い、この変化量が所定の値以下となるように音声合成単位間の波形生成パラメータを平滑化するようにしたので、音声合成単位を連結する部分における合成音声の不連続感を軽減し、高品質な合成音声を生成することができる効果が得られる。
実施の形態4.
図9は実施の形態4による音声合成装置の構成を示すブロック図である。図において、図1と同一および相当する部分は同一符号を付して示し、原則としてその説明を省略する。実施の形態4の音声合成装置では、音声合成単位選択手段24および平滑化区間長決定手段25の動作が上記他の実施の形態のものと異なる。
音声合成単位選択手段24は、入力された音韻系列・韻律情報に適合する音声合成単位を音声合成単位辞書11より選択し、また音声合成単位を選択した際の選択尺度を出力する手段である。平滑化区間長決定手段25は、音声合成単位を選択した際の選択尺度に基づいて、2つの音声合成単位の波形生成パラメータを平滑化するための平滑化区間長を決定する手段で、図10に示すように、平滑化区間長計算手段26を備えている。すなわち、平滑化区間長決定手段25では、決定する平滑化区間長を、平滑化区間長計算手段26により、入力された選択尺度に応じて計算する。
次に、この実施の形態4の特徴とする動作について説明する。
音声合成単位選択手段24は、入力された音韻系列・韻律情報に対して、例えば音声合成単位のピッチ周波数パターンや音韻継続時間長、連結する音声合成単位間のピッチ周波数の差異やスペクトル形状・ピッチ波形形状の差異などを評価尺度として、規定の選択尺度に基づき音声合成単位辞書11から最適な音声合成単位の系列を選択し、選択された音声合成単位の系列を遅延手段13と波形生成パラメータ平滑化手段15に順次出力する。それと共に、その選択された音声合成単位に対する選択尺度を平滑化区間長決定手段25に出力する。平滑化区間長決定手段25では、平滑化区間長計算手段26により、入力された選択尺度D’から、例えば図11に示す処理フローに従って平滑化区間長Lを計算し、波形生成パラメータ平滑化手段15へ出力する。したがって、波形生成パラメータ生成手段15は、この他の実施の形態と同様、遅延手段13から入力された音声合成単位Aの波形生成パラメータと音声合成単位選択手段24から入力された音声合成単位Bの波形生成パラメータとをこの平滑化区間長Lの区間で平滑化して連結し、連結した波形生成パラメータを波形生成手段16に出力する。
図11に従って、平滑化区間長決定手段25の詳細な動作について説明する。
まず、入力された選択尺度D’を予め定めた閾値THと比較する(ステップST401)。選択尺度D’が閾値THより小さい場合には長さlを平滑化区間長Lとして決定し(ステップST402)、平滑化区間長計算手段26の動作を終了する。一方、ステップST401において、選択尺度D’が閾値TH以上の場合、長さlを平滑化区間長Lとして決定し(ステップST403)、平滑化区間長計算手段26の動作を終了する。ここで、長さl、lは、選択尺度D’が大きい場合には平滑化区間長Lを長くして音声合成単位の接続部における不連続感を軽減するように、l<lとする。この長さl、lはピッチ数やフレーム数などの任意の単位で規定し、例えば合成音声の不連続感と自然性などの観点で主観評価実験を行い最適な値を求めるなどして、予め設定しておく。
なお、図11では平滑化区間長Lは長さl、lの2段階の値をとるとしているが、3段階以上の多段階の値をとるとしてもよい。このように多段階に平滑化区間長を設定した場合には、選択尺度D’に応じてより詳細な平滑化区間長の制御をすることができるので、音声合成単位を連結する部分における合成音声の不連続感や自然性の劣化をより軽減し、高品質な合成音声を生成することができる。
また、図11では連結する音声合成単位の組み合わせに依らず閾値TH、平滑化区間長l、lを固定的に用いているが、例えば音声合成単位Aの終端の音韻αと音声合成単位Bの始端の音韻βとの組み合わせ毎に最適な閾値THαβ、平滑化区間長lαβ、lαβを設定してもよい。このように音声合成単位の組み合わせ毎に閾値、平滑化区間長を設定した場合には、本来は変化の大きい有声部から無声部への連結において過度な平滑化により自然性が劣化したり、また、本来は変化の小さい有声部から有声部への連結において十分な平滑化が行われず不連続感が残ったりするなどの問題を回避することができ、高品質な合成音声を生成することができる。
以上のように、この実施の形態4によれば、音声合成単位辞書から最適な音声合成単位の系列を選択した際に用いた選択尺度に基づいて音声合成単位間の波形生成パラメータを平滑化するための平滑化区間長を決定するようにしたので、音声合成単位を連結する部分における合成音声の不連続感や自然性の劣化を軽減し、高品質な合成音声を生成することができる効果が得られる。
この発明に係る音声合成装置について上記各実施の形態により説明してきたが、これらの音声合成装置はコンピュータとそれにインストールする処理プログラムにより実現できるものでもある。
この発明の実施の形態1による音声合成装置の構成を示すブロック図である。 この音声合成装置に係る平滑化区間長決定手段の構成を示すブロック図である。 この音声合成装置に係る平滑化区間長テーブルの例を示す説明図である。 この発明の実施の形態2による音声合成装置の構成を示すブロック図である。 この発明の実施の形態2に係る平滑化区間長決定手段の構成を示すブロック図である。 この発明の実施の形態2に係る平滑化区間長計算手段の処理手順を示すフローチャートである。 この発明の実施の形態3による音声合成装置の構成を示すブロック図である。 この発明の実施の形態3に係る平滑化区間長決定手段の構成を示すブロック図である。 この発明の実施の形態4による音声合成装置の構成を示すブロック図である。 この発明の実施の形態4に係る平滑化区間長決定手段の構成を示すブロック図である。 この発明の実施の形態4に係る平滑化区間長計算手段の処理手順を示すフローチャートである。
符号の説明
11 音声合成単位辞書、12,24 音声合成単位選択手段、13 遅延手段、14,19,22,25 平滑化区間長決定手段、15 波形生成パラメータ平滑化手段、16 波形生成手段、17 平滑化区間長テーブル、18 平滑化区間長読み出し手段、20 波形生成パラメータ距離計算手段、21,23,26 平滑化区間長計算手段。

Claims (8)

  1. 複数の音声合成単位を予め格納しておく音声合成単位辞書と、
    入力された音韻系列と韻律情報に対して前記音声合成単位辞書に格納された音声合成単位との適合度合いを示す選択尺度に基づいて前記音声合成単位辞書から当該音韻系列と韻律情報に適合する音声合成単位の系列を選択する音声合成単位選択手段と、
    選択された音声合成単位の系列を一時的に蓄え、1音声合成単位の遅延を与えて出力する遅延手段と、
    前記選択された音声合成単位と遅延が与えられた音声合成単位とからなる連続する2つの音声合成単位それぞれの音韻の組み合せに基づいて、当該2つの音声合成単位の波形生成パラメータを平滑化するための平滑化区間長を決定する平滑化区間長決定手段と、
    決定された平滑化区間長で前記2つの音声合成単位の波形生成パラメータを平滑化して連結した波形生成パラメータを生成する波形生成パラメータ平滑化手段と、
    連結した波形生成パラメータから合成音声の波形を生成する波形生成手段とを備えた音声合成装置。
  2. 複数の音声合成単位を予め格納しておく音声合成単位辞書と、
    入力された音韻系列と韻律情報に対して前記音声合成単位辞書に格納された音声合成単位との適合度合いを示す選択尺度に基づいて前記音声合成単位辞書から当該音韻系列と韻律情報に適合する音声合成単位の系列を選択する音声合成単位選択手段と、
    選択された音声合成単位の系列を一時的に蓄え、1音声合成単位の遅延を与えて出力する遅延手段と、
    前記選択された音声合成単位と遅延が与えられた音声合成単位とからなる連続する2つの音声合成単位の波形生成パラメータ間の距離が大きい場合には、当該2つの音声合成単位の波形生成パラメータを平滑化するための平滑化区間長を長くする平滑化区間長決定手段と、
    決定された平滑化区間長で前記2つの音声合成単位の波形生成パラメータを平滑化して連結した波形生成パラメータを生成する波形生成パラメータ平滑化手段と、
    連結した波形生成パラメータから合成音声の波形を生成する波形生成手段とを備えた音声合成装置。
  3. 複数の音声合成単位を予め格納しておく音声合成単位辞書と、
    入力された音韻系列と韻律情報に対して前記音声合成単位辞書に格納された音声合成単位との適合度合いを示す選択尺度に基づいて前記音声合成単位辞書から当該音韻系列と韻律情報に適合する音声合成単位の系列を選択する音声合成単位選択手段と、
    選択された音声合成単位の系列を一時的に蓄え、1音声合成単位の遅延を与えて出力する遅延手段と、
    前記選択された音声合成単位と遅延が与えられた音声合成単位とからなる連続する2つの音声合成単位の波形生成パラメータ間の距離の単位時間当たりの変化量が所定の値以下となるように、当該2つの音声合成単位の波形生成パラメータを平滑化するための平滑化区間長を決定する平滑化区間長決定手段と、
    決定された平滑化区間長で前記2つの音声合成単位の波形生成パラメータを平滑化して連結した波形生成パラメータを生成する波形生成パラメータ平滑化手段と、
    連結した波形生成パラメータから合成音声の波形を生成する波形生成手段とを備えた音声合成装置。
  4. 複数の音声合成単位を予め格納しておく音声合成単位辞書と、
    入力された音韻系列と韻律情報に対して前記音声合成単位辞書に格納された音声合成単位との適合度合いを示す選択尺度に基づいて前記音声合成単位辞書から当該音韻系列と韻律情報に適合する音声合成単位の系列を選択する音声合成単位選択手段と、
    選択された音声合成単位の系列を一時的に蓄え、1音声合成単位の遅延を与えて出力する遅延手段と、
    前記音声合成単位の系列を選択した際に用いた前記選択尺度が大きい場合には、前記選択された音声合成単位と遅延が与えられた音声合成単位とからなる連続する2つの音声合成単位の波形生成パラメータを平滑化するための平滑化区間長を長くする平滑化区間長決定手段と、
    決定された平滑化区間長で前記2つの音声合成単位の波形生成パラメータを平滑化して連結した波形生成パラメータを生成する波形生成パラメータ平滑化手段と、
    連結した波形生成パラメータから合成音声の波形を生成する波形生成手段とを備えた音声合成装置。
  5. 入力された音韻系列と韻律情報に対して音声合成単位辞書に格納された音声合成単位との適合度合いを示す選択尺度に基づいて、複数の音声合成単位を予め格納された音声合成単位辞書から当該音韻系列と韻律情報に適合する音声合成単位の系列を選択し、
    選択された音声合成単位の系列に1音声合成単位の遅延を与えた音声合成単位を生成し、
    前記選択された音声合成単位と遅延が与えられた音声合成単位とからなる連続する2つの音声合成単位それぞれの音韻の組み合せに基づいて、当該2つの音声合成単位の波形生成パラメータを平滑化する平滑化区間長を決定し、
    決定された平滑化区間長で前記2つの音声合成単位の波形生成パラメータを平滑化して連結した波形生成パラメータを生成し、
    連結した波形生成パラメータから合成音声の波形を生成する処理を実行させるコンピュータの音声合成プログラム。
  6. 入力された音韻系列と韻律情報に対して音声合成単位辞書に格納された音声合成単位との適合度合いを示す選択尺度に基づいて、複数の音声合成単位を予め格納された音声合成単位辞書から当該音韻系列と韻律情報に適合する音声合成単位の系列を選択し、
    選択された音声合成単位の系列に1音声合成単位の遅延を与えた音声合成単位を生成し、
    前記選択された音声合成単位と遅延が与えられた音声合成単位とからなる連続する2つの音声合成単位の波形生成パラメータ間の距離が大きい場合には、当該2つの音声合成単位の波形生成パラメータを平滑化する平滑化区間長を長くし、
    決定された平滑化区間長で前記2つの音声合成単位の波形生成パラメータを平滑化して連結した波形生成パラメータを生成し、
    連結した波形生成パラメータから合成音声の波形を生成する処理を実行させるコンピュータの音声合成プログラム。
  7. 入力された音韻系列と韻律情報に対して音声合成単位辞書に格納された音声合成単位との適合度合いを示す選択尺度に基づいて、複数の音声合成単位を予め格納された音声合成単位辞書から当該音韻系列と韻律情報に適合する音声合成単位の系列を選択し、
    選択された音声合成単位の系列に1音声合成単位の遅延を与えた音声合成単位を生成し、
    前記選択された音声合成単位と遅延が与えられた音声合成単位とからなる連続する2つの音声合成単位の波形生成パラメータ間の距離の単位時間当たりの変化量が所定の値以下となるように、当該2つの音声合成単位の波形生成パラメータを平滑化する平滑化区間長を決定し、
    決定された平滑化区間長で前記2つの音声合成単位の波形生成パラメータを平滑化して連結した波形生成パラメータを生成し、
    連結した波形生成パラメータから合成音声の波形を生成する処理を実行させるコンピュータの音声合成プログラム。
  8. 入力された音韻系列と韻律情報に対して音声合成単位辞書に格納された音声合成単位との適合度合いを示す選択尺度に基づいて、複数の音声合成単位を予め格納された音声合成単位辞書から当該音韻系列と韻律情報に適合する音声合成単位の系列を選択し、
    選択された音声合成単位の系列に1音声合成単位の遅延を与えた音声合成単位を生成し、
    前記音声合成単位の系列を選択した際に用いた前記選択尺度が大きい場合には、前記選択された音声合成単位と遅延が与えられた音声合成単位とからなる連続する2つの音声合成単位の波形生成パラメータを平滑化するための平滑化区間長を長くし、
    決定された平滑化区間長で前記2つの音声合成単位の波形生成パラメータを平滑化して連結した波形生成パラメータを生成し、
    連結した波形生成パラメータから合成音声の波形を生成する処理を実行させるコンピュータの音声合成プログラム。
JP2004078335A 2004-03-18 2004-03-18 音声合成装置および音声合成プログラム Expired - Lifetime JP4476656B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004078335A JP4476656B2 (ja) 2004-03-18 2004-03-18 音声合成装置および音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004078335A JP4476656B2 (ja) 2004-03-18 2004-03-18 音声合成装置および音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2005266294A JP2005266294A (ja) 2005-09-29
JP4476656B2 true JP4476656B2 (ja) 2010-06-09

Family

ID=35090910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004078335A Expired - Lifetime JP4476656B2 (ja) 2004-03-18 2004-03-18 音声合成装置および音声合成プログラム

Country Status (1)

Country Link
JP (1) JP4476656B2 (ja)

Also Published As

Publication number Publication date
JP2005266294A (ja) 2005-09-29

Similar Documents

Publication Publication Date Title
JP4469883B2 (ja) 音声合成方法及びその装置
JP3361066B2 (ja) 音声合成方法および装置
JP3913770B2 (ja) 音声合成装置および方法
US7016841B2 (en) Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
JP3563772B2 (ja) 音声合成方法及び装置並びに音声合成制御方法及び装置
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
US20090326951A1 (en) Speech synthesizing apparatus and method thereof
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP5983604B2 (ja) 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム
JP5930738B2 (ja) 音声合成装置及び音声合成方法
JP2009133890A (ja) 音声合成装置及びその方法
JP4476656B2 (ja) 音声合成装置および音声合成プログラム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2006337476A (ja) 音声合成方法および装置
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JPH0247700A (ja) 音声合成方法および装置
JPH0380300A (ja) 音声合成方法
JP2008139573A (ja) 声質変換方法、声質変換プログラム、声質変換装置
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JPH1097268A (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070213

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071016

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100302

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100310

R150 Certificate of patent or registration of utility model

Ref document number: 4476656

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140319

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term