JPH09244693A - 音声合成方法及び装置 - Google Patents

音声合成方法及び装置

Info

Publication number
JPH09244693A
JPH09244693A JP8049774A JP4977496A JPH09244693A JP H09244693 A JPH09244693 A JP H09244693A JP 8049774 A JP8049774 A JP 8049774A JP 4977496 A JP4977496 A JP 4977496A JP H09244693 A JPH09244693 A JP H09244693A
Authority
JP
Japan
Prior art keywords
pitch
voice
waveform
pattern
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8049774A
Other languages
English (en)
Inventor
Takahiko Niimura
貴彦 新村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP8049774A priority Critical patent/JPH09244693A/ja
Publication of JPH09244693A publication Critical patent/JPH09244693A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声合成装置において、音声モーフィング等
の音声変換を行う際の合成音声の明瞭性を向上させる。 【解決手段】 声質の異なる二種以上の入力音声をそれ
ぞれ音韻毎に区切り、対応する音韻毎に各入力音声を合
成することで新たな音声を得る。その際、前処理部10
で、文章を音韻単位に区切り、各音韻単位に属するピッ
チパターンをパターン検出部11で求める。特徴点特定
部12では、ピッチパターンの特徴点、例えば極値のピ
ッチ波形を入力音声毎に対応して特定する。波形加工部
13では、対応するピッチ波形毎に合成処理を行って各
音韻の合成処理を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声合成技術に関
し、例えば、ある人物の音声を別人の音声へと変えてい
く音声モーフィング技術に関する。
【0002】
【従来の技術】音声合成技術は、駅構内でのアナウンス
や機械による文章朗読等に広く用いられている。近年
は、マルチメディア技術の台頭により、音声の表現力を
より高めることが要求されてきており、例えば音声モー
フィング処理等に代表される、声質変換という高度な技
術が求められている。
【0003】音声モーフィング処理とは、画像処理技術
において、ある人物の顔画像を徐々に別人の画像に変え
ていく過程を表現する画像モーフィング技術を音声に適
用したもので、ある人物の声質を別人の声質へと変えて
いく過程を表現するものである。以下、音声モーフィン
グという場合、一の人間の声質を他の人間の声質に徐々
に変えていくことをいうものとする。従来より、このよ
うな音声モーフィングは少なからず提案されており、例
えば入力音声を音韻毎に区切って時間軸上で音声のスペ
クトグラム成分を線形に変化させるものが知られてい
る。この技術において、読み上げ対象となる文を、最初
は人物Aの音声により読み上げ、文の後半部は人物Bの
音声に声質を変える場合の処理を以下に示す。
【0004】まず、人物A,Bのそれぞれに予め読み上
げ対象の文を読み上げてもらい、そのピッチ波形を格納
しておく。そして、読み上げ文の前半部は人物A、後半
部は人物Bのピッチ波形をそのまま用い、 中間部に
は、人物A,Bのピッチ波形を合成して得られる合成音
声を用いて音声モーフィング処理を行う。
【0005】この処理の具体例を図8及び図9を用いて
説明する。図8では「東京地方は多少雲が多いものの晴
れ間も出ています」という文の読み上げの際に、音声モ
ーフィング処理を行う場合の例を示すものである。この
図に示されるように、文の前半部は人物Aの音声をその
まま用い、変換部分となる中間部、即ち「多い(おお
い)」にあたる部分は合成音声により読み上げ、後半部
を人物Bの音声をそのまま用いている。
【0006】図9に示されるように、上記音声の合成処
理においては、まず人物の音韻(/o/,/o/,/i/)毎に音
声を区切り、それぞれ実線矢印で示されるように、ピッ
チ波形の対応をとる。そして、対応するピッチ波形を足
し合わせて、破線矢印で示される合成ピッチ波形を得
る。次に、各音韻毎に、単純にピッチ波形の周波数の平
均値を計算して点ピッチ周波数を求める。そして、人物
A,Bの点ピッチ周波数の平均値を合成音のピッチ波形
の周波数として設定する。さらに、合成したピッチ波形
を、もとの語順に従って接続して合成音声を得る。
【0007】
【発明が解決しようとする課題】上述した従来の音声モ
ーフィング処理においては、各音韻毎に合成音声のピッ
チ波形の周波数を算出している。この周波数は、ピッチ
波形の間隔(時間長)の逆数となる。具体的には、図1
0(a),(b)に示されるように、人物A,Bの音韻
のピッチ波形毎に、図中の丸印で示される周波数をそれ
ぞれ求め、さらに、図中の点線で示されるように、それ
ぞれ点ピッチ周波数を算出している。合成音声のピッチ
波形毎の周波数は、図10(c)に示されるように、人
物A,Bの点ピッチ周波数の平均値を用い、各音韻につ
いて固定値としている。しかし、従来の音声モーフィン
グ処理では、音韻をつなげて文章読み上げを行った場合
に、その明瞭性が損なわれてしまうという難点が生じて
いた。
【0008】本発明の課題は、例えば音声モーフィング
等の声質変換を行う際の合成音声の明瞭性を向上させる
技術を提供することにある。
【0009】
【課題を解決するための手段】本発明者らによる検証の
結果、従来の方法で明瞭性が劣るのは、音韻毎の点ピッ
チ周波数が固定値であり、点ピッチ周波数の変化が単調
となる点に起因することが判明した。そこで、本発明で
は、音韻内での点ピッチ周波数を変化させる、改良され
た音声合成方法及び装置を創案した。
【0010】即ち、本発明の音声合成方法では、声質の
異なる二種の入力音声をそれぞれ所定区間単位で区切
り、個々の区間単位に対応するピッチ波形を組み合わせ
て合成音を生成する。その際、個々の入力音声に属する
前記区間単位内のピッチパターンの変化傾向を検出する
過程と、検出したピッチパターンの変化傾向の特徴点を
区間単位毎に特定するとともに、各入力音声毎に、それ
ぞれ特定された特徴点のピッチ波形及び特徴点間のピッ
チ波形に基づく新たなピッチパターンを生成する過程
と、を含むことを特徴とする。
【0011】上記方法の後続処理としては、前記生成さ
れた新たなピッチパターンに対応する元のピッチパター
ンに所定係数を乗じて新たなピッチ波形を生成する過程
が挙げられる。
【0012】本発明の他の音声合成方法は、互いに声質
の異なる第一及び第二の入力音声に対し、第一の入力音
声から第二の入力音声へのモーフィング処理を行う方法
であって、前記第一及び第二の入力音声をそれぞれ所定
区間単位で区切り、個々の区間単位内のピッチパターン
の変化傾向を検出する過程と、検出したピッチパターン
の変化傾向の特徴点を区間単位毎に特定するとともに、
各入力音声毎に、それぞれ特定された特徴点のピッチ波
形及び特徴点間のピッチ波形に基づく新たなピッチパタ
ーンを生成する過程と、生成された新たなピッチパター
ンに対応する元のピッチパターンに所定係数を乗じてモ
ーフィング処理に用いるピッチ波形を生成する過程とを
含み、前記第二の入力音声に対する前記係数をモーフィ
ングが進むにつれて大きくすることを特徴とする。
【0013】上記各方法の好ましい態様としては、前記
特徴点を個々の区間単位におけるピッチパターンの極値
とする。また、前記新たなピッチパターンにおける特徴
点間のピッチ波形を、前記入力音声のピッチ波形の数を
もとに補間する。
【0014】このようにして生成される音声は、元の入
力音声のピッチパターンを反映して変化するものとな
り、合成音の明瞭性が従来よりも向上する。特に、特徴
点として、個々の区間単位におけるピッチ周波数の極値
を用いることで、もとの音声の特徴が一層反映された音
声が生成される。さらに、新たなピッチパターンにおけ
る特徴点間のピッチ波形を補間することで、元の入力音
声の特徴を残しつつ、新たなピッチ波形が生成可能とな
る。
【0015】本発明は、また、上記各方法を実施する上
で好適となる音声合成装置をも提供する。この装置は、
声質の異なる二種の入力音声をそれぞれ所定区間単位で
区切る前処理部と、この前処理部で区切られた個々の区
間単位内のピッチパターンの変化傾向を検出するパター
ン検出部と、このパターン検出部で検出したピッチパタ
ーンの変化傾向の特徴点を区間単位毎に特定する特徴点
特定部と、この特徴点特定部により各入力音声毎に特定
された特徴点のピッチ波形及び特徴点間のピッチ波形に
基づく新たなピッチ波形を生成する波形加工部と、を有
し、この新たなピッチ波形を組み合わせて合成音を生成
することを特徴とする。
【0016】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。この実施形態では、従来例
と同様、「東京地方は多少雲が多いものの晴れ間もでて
います」という文章を例として説明する。
【0017】予め、この文章を人物A,Bにそれぞれ読
み上げてもらい、その音声を入力音声としてそれぞれ格
納しておく。この文章の前半の読み上げには、人物Aの
音声をそのまま用い、後半の読み上げには、人物Bの音
声をそのまま用いる。一方、この文章の中間部である
「多い」の読み上げには、人物A,Bの音声から生成さ
れる音声を用い、人物Aから人物Bへの声質の変換を行
う。その際、中間部の音声は、図1に示す構成の音声合
成装置により合成した。
【0018】この音声合成装置は、入力音声の波形を所
定区間単位、例えば音韻を区間単位として区切る前処理
部10と、個々の区間単位(音韻)内のピッチパターン
の変化傾向を検出するパターン検出部11、検出したピ
ッチパターンの変化傾向の特徴点を区間単位毎に特定す
る特徴点特定部12と、各入力音声毎に特定されたた特
徴点のピッチ波形及び特徴点間のピッチ波形に基づく新
たなピッチパターンを生成するとともに、新たなピッチ
パターンに対応する元のピッチパターンに所定係数、例
えばある倍率数値を乗じて新たなピッチ波形を生成する
波形加工部13とを備えている。
【0019】この実施形態では、図2(a),(c)に
示される人物A,Bの音韻に基づいて同(b)に示され
る合成音の音韻を得るため、上記ピッチパターンの変化
傾向を特定するための特徴点として、ピッチパターンの
極値を用いた。また、合成されたピッチ波形の周波数と
して、もとの各ピッチ波形の周波数の平均値を用いた。
【0020】以下、本実施形態による処理を、図3〜図
6をも参照して説明する。図3は、音声合成装置の全体
的な処理概要を示すフローチャートであり、まず、前処
理部10において、人物A,Bそれぞれの音声波形のう
ち、「多い」に相当する部分を音韻毎に区切る(S10
1)。音韻毎に区切られた音声波形を図4に示す。図4
(a)は人物Aの音声波形、同(b)は人物Bの音声波
形である。次に、パターン検出部11において、各音声
波形から、ピッチ波形毎の周波数を求める(S10
2)。これはピッチ波形の間隔から容易に算出すること
ができる。
【0021】その後、特徴点特定部12において、音韻
の中で周波数が極値をとるピッチ波形を、人物A,Bの
各音声波形毎に対応をとって特定する(S103、S1
04)。図5はこの様子を示すもので、(a),(b)
は人物Aの音韻のピッチパターン及びそのピッチ波形、
(d),(c)は人物Bの音韻のピッチパターン及びそ
のピッチ波形である。この例では人物Aのピッチ波形1
と人物Bのピッチ波形1、人物Aのピッチ波形3と人物
Bのピッチ波形5、及び人物Aのピッチ波形7と人物B
のピッチ波形9とがそれぞれ対応している。なお、他の
ピッチ波形に関しては、後述するように、もとの時系列
の順に、適宜各ピッチ波形同士を対応させる(S10
5)。
【0022】次に、対応するピッチ波形を加算し、もと
のピッチ波形の周波数の平均値を求めて合成ピッチ波形
の周波数を決定する(S106)。この実施形態におい
ては、図6に示されるように、各ピッチ波形に窓関数を
かけたうえで加算することで、合成音声のピッチ波形を
得た。また、振幅を正規化するため、振幅幅には係数で
ある”0.5”を乗算した。
【0023】波形加工部13では、公知のピッチ波形重
畳法を用いて、上述のようにして得られた合成ピッチ波
形を、その周波数の間隔で並べ、図7に示される合成音
を得る。このようにして、1つ1つのピッチ波形に対し
て、それぞれ独立に周波数が与えられる。
【0024】以上のように、本実施形態の音声合成装置
では、音韻を構成するピッチ波形毎にそれぞれ周波数が
与えられているので、音韻内での周波数が従来のように
一定となってしまうことはない。特に、この音声合成装
置においては、周波数が極値をとるピッチ波形同士を対
応させるようにしているので、各ピッチ波形における周
波数が平均化されてしまうこともなく、周波数の高低差
を損なうことなく合成音声を得ることができる。
【0025】なお、この音声合成装置においては、ピッ
チパターンが極値となるピッチ波形以外の各波形は、以
下のように対応させることで補間した。まず、人物A,
Bの音韻のピッチ波形毎に周波数を計算し、ピッチパタ
ーンの極値を求める。図5(a),(d)に示されるよ
うに、この例においては、人物Aのピッチ波形は、1、
3、7本目で極値をとり、人物Bのピッチ波形は、1、
5、9本目で極値をとる。これら各ピッチ波形を、極値
をとるピッチ波形によって、人物Aのピッチ波形は3本
と4本に、人物Bの場合は5本と4本に、それぞれグル
ープ分けする。
【0026】この際、人物Aの3本のピッチ波形と人物
Bの5本のピッチ波形とを対応させるには、波形数の多
いほうを分母、少ないほうを分子にして分数を決め、”
1”から”5”までをかける。端数は切り捨て、”1”
未満は”1”にする。これにより、人物A,Bによるピ
ッチ波形の対応をとることができる。同様にして、人物
Aの4本のピッチ波形と人物Bの4本のピッチ波形とを
対応させる。以下、その具体的対応を示す。
【0027】まず、人物Bの1本目のピッチ波形は、1
×3/5=0.6なので人物Aの1本目のピッチ波形に
対応させる。同様に、人物Bの2本目のピッチ波形は2
×3/5=1.2なので人物Aの1本目、人物Bの3本
目のピッチ波形は3×3/5=1.8なので人物Aの1
本目、人物Bの4本目のピッチ波形は4×3/5=2.
4なので人物Aの2本目、人物Bの5本目のピッチ波形
は5×3/5=3.0なので人物Aの3本目、にそれぞ
れ対応させる。
【0028】次に、人物Bの6本目(Bの第二グループ
の一本目)のピッチ波形は1×4/4=1なので人物A
の4本目(Aの第二グループの一本目)に対応させる。
人物Bの7本目のピッチ波形は2×4/4=2なので人
物Aの5本目、人物Bの8本目のピッチ波形は3×4/
4=3なので人物Aの6本目、人物Bの9本目のピッチ
波形は4×4/4=4なので人物Aの7本目にそれぞれ
対応させる。こうして、極値の対応を残したままで人物
Aの音声と人物Bの音声との対応をとることができる。
【0029】なお、このような各波形の対応のさせ方に
ついては、特に限定がない。例えば、上記例では端数を
切り捨てとしたが、端数を切り上げとしてもよいのはい
うまでもない。また、この例では人物Aの声質から人物
Bの声質への変形ステップが一ステップとなっている
が、複数ステップにより声質を変形させてもよい。ま
た、この実施形態では、もとのピッチ波形の点ピッチ周
波数の単純平均値を合成音における周波数としている
が、この周波数として、人物A,Bの点ピッチ周波数の
加重平均値を用いてもよい。例えば人物Bの入力音声に
対する上記係数をモーフィングが進むにつれて大きくな
るようにしてもよい。このようにして、合成音の前半は
人物Aの周波数の影響を強くし、後半は人物Bの周波数
の影響を強くすることで、人物Aから人物Bへの音声モ
ーフィングをより一層滑らかに行うことも可能である。
【0030】
【発明の効果】以上の説明から明らかなように、本発明
によれば、音韻内での点ピッチ周波数が一定となってし
まうことはなく、従って、音韻の明瞭性が従来よりも向
上する効果がある。特に、ピッチパターンの極値となる
ピッチ波形同士を対応させて波形加工を行うようにした
ので、周波数の高いもの同士、低いもの同士でピッチ波
形の合成がなされる。従って、周波数が高いピッチ波形
と低いピッチ波形とが合成されることによる周波数の平
均化現象が起こることもなくなり、音声の明瞭性が一層
向上する。
【0031】また、音韻の周波数変化を利用して音声合
成を行っているので、顔の動画像と組み合わせたとき
に、話者の唇の動きと細かな同期を取りやすくなる効果
もある。
【図面の簡単な説明】
【図1】本発明の一実施形態の音声合成装置の要部ブロ
ック構成図。
【図2】(a),(c)は人物A,Bの音声についての
音韻のピッチパターンを示すグラフ、(b)は合成音に
ついての音韻のピッチパターンを示すグラフ。
【図3】本実施形態による音声合成装置の処理概要を示
すフローチャート。
【図4】(a)は合成対象となる音韻についての人物A
の音声波形、(b)は人物Bの音声波形を示す説明図。
【図5】(a),(b)は人物Aについての音韻のピッ
チパターンとピッチ波形、(c),(d)は人物Bにつ
いての音韻のピッチパターンとピッチ波形を示す説明
図。
【図6】合成音のピッチ波形を得るまでの説明図。
【図7】合成された音声波形の説明図。
【図8】音声モーフィング処理の概要説明図。
【図9】従来例における音声合成処理の手順説明図。
【図10】(a),(b)は人物A,Bの音声について
の音韻のピッチパターンを示すグラフ、(c)は合成音
についての音韻のピッチパターンを示すグラフ。
【符号の説明】
10 前処理部 11 パターン検出部 12 特徴点特定部 13 波形加工部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 声質の異なる二種の入力音声をそれぞれ
    所定区間単位で区切り、個々の区間単位に対応するピッ
    チ波形を組み合わせて合成音を生成する方法であって、 個々の入力音声に属する前記区間単位内のピッチ波形の
    パターン(以下、ピッチパターン)の変化傾向を検出す
    る過程と、 検出したピッチパターンの変化傾向の特徴点を区間単位
    毎に特定するとともに、各入力音声毎に、それぞれ特定
    された特徴点のピッチ波形及び特徴点間のピッチ波形に
    基づく新たなピッチパターンを生成する過程と、 を含むことを特徴とする音声合成方法。
  2. 【請求項2】 前記生成された新たなピッチパターンに
    対応する元のピッチパターンに所定係数を乗じて新たな
    ピッチ波形を生成する過程を含むことを特徴とする請求
    項1記載の音声合成方法。
  3. 【請求項3】 互いに声質の異なる第一及び第二の入力
    音声に対し、第一の入力音声から第二の入力音声へのモ
    ーフィング処理を行う方法であって、 前記第一及び第二の入力音声をそれぞれ所定区間単位で
    区切り、個々の区間単位内のピッチパターンの変化傾向
    を検出する過程と、 検出したピッチパターンの変化傾向の特徴点を区間単位
    毎に特定するとともに、各入力音声毎に、それぞれ特定
    された特徴点のピッチ波形及び特徴点間のピッチ波形に
    基づく新たなピッチパターンを生成する過程と、 生成された新たなピッチパターンに対応する元のピッチ
    パターンに所定係数を乗じてモーフィング処理に用いる
    ピッチ波形を生成する過程とを含み、 前記第二の入力音声に対する前記係数をモーフィングが
    進むにつれて大きくすることを特徴とする音声合成方
    法。
  4. 【請求項4】 前記特徴点が個々の区間単位におけるピ
    ッチパターンの極値であることを特徴とする請求項1な
    いし3のいずれかの項記載の音声合成方法。
  5. 【請求項5】 前記新たなピッチパターンにおける特徴
    点間のピッチ波形を、前記入力音声のピッチ波形の数を
    もとに補間することを特徴とする請求項1ないし4のい
    ずれかの項記載の音声合成方法。
  6. 【請求項6】 声質の異なる二種の入力音声をそれぞれ
    所定区間単位で区切る前処理部と、 この前処理部で区切られた個々の区間単位内のピッチパ
    ターンの変化傾向を検出するパターン検出部と、 このパターン検出部で検出したピッチパターンの変化傾
    向の特徴点を区間単位毎に特定する特徴点特定部と、 この特徴点特定部により各入力音声毎に特定された特徴
    点のピッチ波形及び特徴点間のピッチ波形に基づく新た
    なピッチ波形を生成する波形加工部と、 を有し、この新たなピッチ波形を組み合わせて合成音を
    生成することを特徴とする音声合成装置。
JP8049774A 1996-03-07 1996-03-07 音声合成方法及び装置 Pending JPH09244693A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8049774A JPH09244693A (ja) 1996-03-07 1996-03-07 音声合成方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8049774A JPH09244693A (ja) 1996-03-07 1996-03-07 音声合成方法及び装置

Publications (1)

Publication Number Publication Date
JPH09244693A true JPH09244693A (ja) 1997-09-19

Family

ID=12840528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8049774A Pending JPH09244693A (ja) 1996-03-07 1996-03-07 音声合成方法及び装置

Country Status (1)

Country Link
JP (1) JPH09244693A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003088208A1 (en) * 2002-04-02 2003-10-23 Canon Kabushiki Kaisha Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
WO2005071664A1 (ja) * 2004-01-27 2005-08-04 Matsushita Electric Industrial Co., Ltd. 音声合成装置
JP2006178052A (ja) * 2004-12-21 2006-07-06 Advanced Telecommunication Research Institute International 音声発生装置およびそのためのコンピュータプログラム
US7249021B2 (en) 2000-12-28 2007-07-24 Sharp Kabushiki Kaisha Simultaneous plural-voice text-to-speech synthesizer
US7668717B2 (en) 2003-11-28 2010-02-23 Kabushiki Kaisha Toshiba Speech synthesis method, speech synthesis system, and speech synthesis program
WO2013011634A1 (ja) * 2011-07-19 2013-01-24 日本電気株式会社 波形処理装置、波形処理方法および波形処理プログラム
JP2014038208A (ja) * 2012-08-16 2014-02-27 Toshiba Corp 音声合成装置、方法及びプログラム
JP2015219430A (ja) * 2014-05-20 2015-12-07 日本電信電話株式会社 音声合成装置、その方法及びプログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7249021B2 (en) 2000-12-28 2007-07-24 Sharp Kabushiki Kaisha Simultaneous plural-voice text-to-speech synthesizer
WO2003088208A1 (en) * 2002-04-02 2003-10-23 Canon Kabushiki Kaisha Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
US7487093B2 (en) 2002-04-02 2009-02-03 Canon Kabushiki Kaisha Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
US7668717B2 (en) 2003-11-28 2010-02-23 Kabushiki Kaisha Toshiba Speech synthesis method, speech synthesis system, and speech synthesis program
US7856357B2 (en) 2003-11-28 2010-12-21 Kabushiki Kaisha Toshiba Speech synthesis method, speech synthesis system, and speech synthesis program
US7571099B2 (en) 2004-01-27 2009-08-04 Panasonic Corporation Voice synthesis device
WO2005071664A1 (ja) * 2004-01-27 2005-08-04 Matsushita Electric Industrial Co., Ltd. 音声合成装置
JP2006178052A (ja) * 2004-12-21 2006-07-06 Advanced Telecommunication Research Institute International 音声発生装置およびそのためのコンピュータプログラム
JP4720974B2 (ja) * 2004-12-21 2011-07-13 株式会社国際電気通信基礎技術研究所 音声発生装置およびそのためのコンピュータプログラム
WO2013011634A1 (ja) * 2011-07-19 2013-01-24 日本電気株式会社 波形処理装置、波形処理方法および波形処理プログラム
JPWO2013011634A1 (ja) * 2011-07-19 2015-02-23 日本電気株式会社 波形処理装置、波形処理方法および波形処理プログラム
US9443538B2 (en) 2011-07-19 2016-09-13 Nec Corporation Waveform processing device, waveform processing method, and waveform processing program
JP2014038208A (ja) * 2012-08-16 2014-02-27 Toshiba Corp 音声合成装置、方法及びプログラム
JP2015219430A (ja) * 2014-05-20 2015-12-07 日本電信電話株式会社 音声合成装置、その方法及びプログラム

Similar Documents

Publication Publication Date Title
EP2264696B1 (en) Voice converter with extraction and modification of attribute data
US5749073A (en) System for automatically morphing audio information
JPH06266390A (ja) 波形編集型音声合成装置
US20190251950A1 (en) Voice synthesis method, voice synthesis device, and storage medium
JP2002328695A (ja) テキストからパーソナライズ化音声を生成する方法
US20060004569A1 (en) Voice processing apparatus and program
JPH086592A (ja) 音声合成方法及び装置
US20050125227A1 (en) Speech synthesis method and speech synthesis device
EP0391545B1 (en) Speech synthesizer
JPH09244693A (ja) 音声合成方法及び装置
JP3576800B2 (ja) 音声分析方法、及びプログラム記録媒体
JPH05307399A (ja) 音声分析方式
US6832192B2 (en) Speech synthesizing method and apparatus
Kwon et al. Effective parameter estimation methods for an excitnet model in generative text-to-speech systems
CN113241054B (zh) 语音平滑处理模型生成方法、语音平滑处理方法及装置
US20220084492A1 (en) Generative model establishment method, generative model establishment system, recording medium, and training data preparation method
JPH09319391A (ja) 音声合成方法
Fierro et al. Extreme audio time stretching using neural synthesis
Wang et al. Beijing opera synthesis based on straight algorithm and deep learning
Nose et al. A style control technique for singing voice synthesis based on multiple-regression HSMM.
JPH07261798A (ja) 音声分析合成装置
JP2560277B2 (ja) 音声合成方式
JP2900454B2 (ja) 音声合成装置の音節データ作成方式
JP3967571B2 (ja) 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム
JP3292218B2 (ja) 音声メッセージ作成装置