JP2002244693A - 音声合成装置および音声合成方法 - Google Patents

音声合成装置および音声合成方法

Info

Publication number
JP2002244693A
JP2002244693A JP2001040574A JP2001040574A JP2002244693A JP 2002244693 A JP2002244693 A JP 2002244693A JP 2001040574 A JP2001040574 A JP 2001040574A JP 2001040574 A JP2001040574 A JP 2001040574A JP 2002244693 A JP2002244693 A JP 2002244693A
Authority
JP
Japan
Prior art keywords
waveform
pitch
low
waveforms
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001040574A
Other languages
English (en)
Inventor
Takahiro Kamai
孝浩 釜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2001040574A priority Critical patent/JP2002244693A/ja
Publication of JP2002244693A publication Critical patent/JP2002244693A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 波形重畳法でピッチを大きく変更しても音質
劣化を招かず、安定した音質を得ることが可能な音声合
成装置を提供する。 【構成】 素片作成部1002のピッチマーク付与部1
003、窓掛け部1004、波形重畳部1005によ
り、録音音声よりも低い基本周波数を持つ合成波形を作
成し、低域強調処理部1006で、前記合成波形に、基
本波付近の強調処理を施すことにより低域強調波形を作
成する。そして、音声合成部1011で、波形記憶部1
008に記憶された低域強調波形から、再びピッチ周期
毎に窓関数によって波形を切り出すことによって生成し
た低域強調ピッチ波形を、テキスト1010から生成し
たピッチ情報に従って、適切な時間間隔で重ね合わせて
再配置することにより、合成音声1015を得る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、任意のテキストを
音声に変換する音声合成技術に関する。
【0002】
【従来の技術】テキストを音声に変換する処理は、一般
に、三段階のプロセスからなる。一つ目のプロセスは、
言語処理と呼ばれ、形態素解析および構文解析を行うこ
とにより、入力されたテキストを、読みやアクセントの
情報に変換する。二つ目のプロセスは、韻律生成と呼ば
れ、アクセントの情報などをもとに、自然なイントネー
ションで音声合成するためのピッチパターンや音韻継続
時間長を生成する。三つ目のプロセスは、波形生成と呼
ばれ、韻律生成によって生成されたピッチパターンや音
韻継続時間長と、言語処理によって生成された読み情報
とに従って、音声波形を合成する。
【0003】この中で、波形生成のプロセスは、合成音
の音質を決定付けるものであり、様々な方式が提案され
ている。例えば、フォルマント合成方式(D. Klatt, “R
eview of text-to-speech conversion for English”,
J. Acoust. Soc. Am. 82(3),(1987.9))や、LPC合成
方式などがある。これらの方式では、声帯の振動に対応
する音源情報と、声道の伝達特性に対応する声道情報と
が分離されており、生成されたピッチパターンや音韻継
続時間長に従って、適切な波形を合成することが容易で
ある。しかし、音韻の特徴を表すためのスペクトル情報
が十分でないため、音韻明瞭度が低いという問題があ
る。
【0004】これに対して、録音された音声波形から短
い単位の波形を切り出しておき、それらを接続すること
により任意テキストの音声を合成する波形接続方式が、
考案されている。波形接続方式は、元の波形のスペクト
ルがそのまま合成音に現れるため、音韻明瞭度が高いと
いう利点がある。しかし、生成されたピッチパターンや
音韻継続時間長に合わせて音声を合成をすることが難し
い。
【0005】波形接続方式として、例えば、大量の波形
を記憶しておき、目的とするピッチパターンや音韻継続
時間長に近い波形を探し出す方法(A. Black, N. Campbe
ll,“Optimizing selection of units from speech dat
abase for concatenative synthesis”, Eurospeech95,
pp.581-584, (1995))があるが、大容量の波形記憶装置
が必要となるため、コストが高くなるという問題があ
る。
【0006】そこで、波形を、目的のピッチや時間長に
なるよう変形する方法が考案されている。例えば、PS
OLA(Pitch Synchronous Overlap Add)法(F. Charpen
tier, M. Stella, “Diphone synthesis using an over
-lapped technique for speech waveforms concatenati
on”, Proc. ICASSP, 2015-2018, Tokyo, 1986)と呼ば
れる方法は、あらかじめ、ピッチ周期に対応した基準位
置を波形にマークしておき、それらの基準位置を中心に
対称な窓関数を用いて波形を切り出し、元のピッチ周期
と異なる間隔で、切り出した波形を重ね合わせて再配置
する。これにより、高い音韻明瞭度を保ったままで、ピ
ッチや時間長を変換することができる。
【0007】窓関数に、元の波形のピッチ周期の2倍の
長さを持つHanning窓を用いることで、音韻を表現する
ためのスペクトル包絡特性を正確に保存できる。すなわ
ち、PSOLA法は、スペクトル包絡特性を保存したま
ま、ピッチや時間長を変更する方法と言える。
【0008】ちなみにPSOLA法では、元のピッチよ
りも高いピッチで合成したい場合は、パワーを保存する
ために、元のピッチではなく合成するピッチの周期の2
倍の窓長を用いる、としている。しかし、スペクトル包
絡を保存することを主眼に置く場合は、元のピッチ周期
の2倍の窓長が望ましい。このように、窓長の選び方に
は目的に応じて様々なバリエーションが考えられる。そ
こで、それらを総称して波形重畳法と呼ぶことにする。
【0009】
【発明が解決しようとする課題】波形重畳法で、ピッチ
を大きく変更すると、音質が劣化するという問題が生じ
る。劣化の要因はいくつかあるが、ピッチを上げる場合
と下げる場合とでは、主な要因が異なる。以下に、これ
らの場合のそれぞれについて、音質劣化の起こるメカニ
ズムについて述べる。
【0010】(ピッチ低下時の音質劣化)ピッチを低下
させた場合には、合成波形の基本波成分のエネルギーが
低下するため、音質劣化が発生する。図4(a)は、音
声波形の一例であり、図4(b)は、図4(a)の音声
波形の中央付近でのスペクトルである。図5(a)は、
図4(a)の波形の中央付近から窓掛けにより切り出し
たピッチ波形であり、図5(b)はそのスペクトルであ
る。
【0011】図4(b)と図5(b)とを比較すれば分
かるように、ピッチ波形のスペクトルは、音声波形のス
ペクトル包絡を保存し、高調波による影響が除去された
滑らかなスペクトルになっている。しかし、基本波以下
のスペクトルは、急速にエネルギが減衰している。この
ため、ピッチを下げた合成音は、この包絡特性に従って
低域エネルギが減衰し、音質に深刻な劣化を生じる。
【0012】図6(a)は、図5(a)のピッチ波形
を、元の周期よりも長い周期で重ね合わせて得られる音
声波形であり、図6(b)はそのスペクトルである。図
6(a)の音声波形は、ピッチが小さく変換されている
が、スペクトル包絡は保存されている。しかし、基本波
のレベルに着目すると、元の波形と比べて数dB低下し
ている。音声の基本波のレベルは、聴感上大きな影響を
及ぼし、レベルが低下すると明らかに音が痩せ細って聞
こえる。このため、元の音声波形のピッチが比較的高い
場合に、ピッチを低下させる方向での利用が多発し、音
質劣化が感じられることが多くなる。
【0013】(ピッチ上昇時の音質劣化)上記に説明し
たように、元の音声波形のピッチが高く、ピッチを下げ
る方向で利用した場合、すなわち、ピッチの高い音声波
形からピッチの低い音声を合成した場合、合成音は大き
く劣化する。従って、この逆に、ピッチの低い音声波形
からピッチの高い音声を合成する方が、スペクトル包絡
特性に優れ、音質には有利と言える。しかし、スペクト
ルの時間変化の点で、別の問題が発生する。
【0014】図13は、低いピッチの波形から高いピッ
チの波形を合成する際に、ピッチ波形が割り当てられる
様子を表している。通常はこのように、元の波形のスペ
クトル変化をトレースするように、合成時に配置される
場所に最も近い位置から、ピッチ波形が選択される。し
かし、元のピッチが低い場合、選ばれるピッチ波形に限
りがあるため、図13のように、同一のピッチ波形が繰
り返し用いられる。
【0015】こうして繰り返しが発生している間のスペ
クトルは一定となる。結果として、繰り返しを行いなが
らピッチ波形が交替するたびに、スペクトル変化は階段
的になり、聴感上も滑らかさが失われる。図14は、ス
ペクトルが階段的に変化する様子を表している。このよ
うな音声は、CELP符号化で低ビットレートに圧縮さ
れたような、ざらついた音質を生むことがある。
【0016】以上に説明したように、波形重畳法による
合成音声は、元の音声から大きくピッチを変更する場合
に音質劣化が発生し、滑らかで豊かな音質を得ることが
難しい。
【0017】本発明は上記の問題を解決するために、波
形重畳法を用いて音声波形のピッチを変更する際に、基
本波成分の減衰による音の痩せを防ぐことにより、安定
した音質を得ることが可能な、音声合成装置を提供する
ことを目的とする。
【0018】
【課題を解決するための手段】上記の課題を解決するた
め、本発明の第一の音声合成装置は、音声波形の有声区
間に、そのピッチ周期毎の一連の基準位置を付与する基
準位置付与部と、前記基準位置を中心に窓関数によって
波形を切り出すことによって一連のピッチ波形を生成す
る第一の窓掛け部と、前記ピッチ波形を元のピッチ周期
よりも長い時間間隔で重ね合わせて再配置することによ
り、前記音声波形よりも低い基本周波数を持つ合成波形
を作成する第一の波形重畳部と、前記合成波形に、基本
波付近の強調処理を施すことにより、低域強調波形を作
成する低域強調処理部と、前記低域強調波形から再びピ
ッチ周期毎に窓関数によって波形を切り出すことによっ
て一連の低域強調ピッチ波形を生成する第二の窓掛け部
と、前記低域強調ピッチ波形を所望の時間間隔で重ね合
わせて再配置することにより音声を合成する第二の波形
重畳部とを備えたことを特徴とする。
【0019】基本周波数とは、音声波形のスペクトルに
おいて、所定の間隔で現れるピーク(高調波)のうち、
最も低い周波数をいう。このように、波形重畳法により
音声波形よりも低い基本周波数を持つ合成波形を作成
し、この合成波形にその基本波付近の強調処理を施すこ
とにより、従来低いピッチの合成音を生成する時に問題
となっていた、基本波成分の減衰による音の痩せを防ぐ
ことができる。この結果、音質劣化を招くことなく滑ら
かで豊かな音質を得ることが可能な音声合成装置を提供
できる。
【0020】上記の目的を達成するために、本発明にか
かる第二の音声合成装置は、音声波形の有声区間に、そ
のピッチ周期毎の一連の基準位置を付与し、前記基準位
置を中心に窓関数によって波形を切り出すことによって
一連のピッチ波形を生成し、前記ピッチ波形を元のピッ
チ周期よりも長い時間間隔で重ね合わせて再配置するこ
とにより前記音声波形よりも低い基本周波数を持つ合成
波形を作成し、前記合成波形に基本波付近の強調処理を
施して作成した低域強調波形を記憶する波形記憶部と、
前記波形記憶部に記憶された低域強調波形に、ピッチ周
期毎の一連の基準位置を付与する基準位置付与部と、前
記基準位置を中心に窓関数によって波形を切り出すこと
によって一連の低域強調ピッチ波形を生成する窓掛け部
と、前記低域強調ピッチ波形を所望の時間間隔で重ね合
わせて再配置することにより音声を合成する波形重畳部
とを備えたことを特徴とする。
【0021】また、本発明にかかる第三の音声合成装置
は、音声波形の有声区間に、そのピッチ周期毎の一連の
基準位置を付与し、前記基準位置を中心に窓関数によっ
て波形を切り出すことによって一連のピッチ波形を生成
し、前記ピッチ波形を元のピッチ周期よりも長い時間間
隔で重ね合わせて再配置することにより前記音声波形よ
りも低い基本周波数を持つ合成波形を作成し、前記合成
波形に基本波付近の強調処理を施して作成した低域強調
波形に、ピッチ周期毎の一連の基準位置を付与して記憶
する波形記憶部と、前記波形記憶部に記憶された低域強
調波形から、前記基準位置を中心に窓関数によって波形
を切り出すことによって一連の低域強調ピッチ波形を生
成する窓掛け部と、前記低域強調ピッチ波形を所望の時
間間隔で重ね合わせて再配置することにより音声を合成
する波形重畳部とを備えたことを特徴とする。
【0022】また、本発明にかかる第四の音声合成装置
は、音声波形の有声区間に、そのピッチ周期毎の一連の
基準位置を付与し、前記基準位置を中心に窓関数によっ
て波形を切り出すことによって一連のピッチ波形を生成
し、前記ピッチ波形を元のピッチ周期よりも長い時間間
隔で重ね合わせて再配置することにより前記音声波形よ
りも低い基本周波数を持つ合成波形を作成し、前記合成
波形に基本波付近の強調処理を施して作成した低域強調
波形から、ピッチ周期毎の一連の基準位置を中心に窓関
数によって切り出した低域強調ピッチ波形を記憶する波
形記憶部と、前記低域強調ピッチ波形を所望の時間間隔
で重ね合わせて再配置することにより音声を合成する波
形重畳部とを備えたことを特徴とする。
【0023】上記第二〜第四の音声合成装置によれば、
第一の音声合成装置と同様に、基本波成分の減衰による
音の痩せを防ぐことができると共に、第二の音声合成装
置の場合は、低域強調処理までを行って得られた低域強
調波形を波形記憶部に記憶し、第三の音声合成装置の場
合は、ピッチ周期毎の一連の基準位置を付与した状態の
低域強調波形を波形記憶部に記憶し、第四の音声合成装
置の場合は、さらに窓掛けまでを行って得られた低域強
調波形を波形記憶部に記憶しており、この波形記憶部に
記憶されている波形を用いて音声合成を行う。従って、
音声合成時の演算量を従来よりも増大させることなく、
滑らかで豊かな音質の音声合成を行うことが可能とな
る。
【0024】また、本発明にかかる第五の音声合成装置
は、音声波形の有声区間に、そのピッチ周期毎の一連の
基準位置を付与する基準位置付与部と、前記基準位置を
中心に窓関数によって波形を切り出すことによって一連
のピッチ波形を生成する第一の窓掛け部と、Nを正の整
数とし、第一の波形重畳部および低域強調処理部の連結
をN系統備え、nを1以上の整数、kを0≦k<Nを満
たす整数とし、 mk(n)=N×n−(N−k) で表されるN個の数列に従って、第N系統における前記
第一の波形重畳部が、前記ピッチ波形のmk(n)番目
のみをそれらが本来存在した位置に重ね合わせて再配置
することにより、前記音声波形よりも低い基本周波数を
持つ合成波形を出力し、第N系統における前記低域強調
処理部が、同系統の前記第一の波形重畳部から出力され
る合成波形に、当該合成波形の基本波付近の強調処理を
施すことにより、低域強調波形を作成し、前記N系統の
低域強調処理部から出力されるN種類の低域強調波形か
ら、再びピッチ周期毎に窓関数によって波形を切り出す
ことによって、低域強調ピッチ波形を生成する第二の窓
掛け部と、前記N種類の低域強調ピッチ波形から、最も
近い時間位置にある低域強調ピッチ波形を選び出し、所
望の時間間隔で重ね合わせて再配置することにより音声
を合成する第二の波形重畳部とを備えたことを特徴とす
る。
【0025】これにより、前記第一〜第四の音声合成装
置と同様に、基本波成分の減衰による音の痩せを防ぐこ
とができるのみならず、高いピッチの合成を行う場合に
発生するスペクトルの段階的変化を抑えることができる
ので、滑らかな音質を保つことが可能となる。
【0026】また、本発明にかかる第六の音声合成装置
は、音声波形の有声区間に、そのピッチ周期毎の一連の
基準位置を付与し、前記基準位置を中心に窓関数によっ
て波形を切り出すことによって一連のピッチ波形を生成
し、Nを正の整数とし、nを1以上の整数、kを0≦k
<Nを満たす整数とし、 mk(n)=N×n−(N−k) で表されるN個の数列に従って、前記ピッチ波形のmk
(n)番目のみをそれらが本来存在した位置に重ね合わ
せて再配置することにより、前記音声波形よりも低い基
本周波数を持つN種類の合成波形を出力し、前記N種類
の合成波形に、各合成波形の基本波付近の強調処理を施
すことにより作成されたN種類の低域強調波形を記憶す
る波形記憶部と、前記N系統の低域強調処理部から出力
されるN種類の低域強調波形から、再びピッチ周期毎に
窓関数によって波形を切り出すことによって、低域強調
ピッチ波形を生成する窓掛け部と、前記N種類の低域強
調波形から、最も近い時間位置にある低域強調ピッチ波
形を選び出し、所望の時間間隔で重ね合わせて再配置す
ることにより音声を合成する波形重畳部とを備えたこと
を特徴とする。
【0027】また、本発明にかかる第七の音声合成装置
は、音声波形の有声区間に、そのピッチ周期毎の一連の
基準位置を付与し、前記基準位置を中心に窓関数によっ
て波形を切り出すことによって一連のピッチ波形を生成
し、Nを正の整数とし、nを1以上の整数、kを0≦k
<Nを満たす整数とし、 mk(n)=N×n−(N−k) で表されるN個の数列に従って、前記ピッチ波形のmk
(n)番目のみをそれらが本来存在した位置に重ね合わ
せて再配置することにより、前記音声波形よりも低い基
本周波数を持つN種類の合成波形を出力し、前記N種類
の合成波形に、各合成波形の基本波付近の強調処理を施
すことにより作成されたN種類の低域強調波形のそれぞ
れに、ピッチ周期毎の一連の基準位置を付与して記憶す
る波形記憶部と、前記N種類の低域強調波形のそれぞれ
から、前記基準位置を中心に窓関数によって波形を切り
出すことによって、低域強調ピッチ波形を生成する窓掛
け部と、前記N種類の低域強調波形から、最も近い時間
位置にある低域強調ピッチ波形を選び出し、所望の時間
間隔で重ね合わせて再配置することにより音声を合成す
る波形重畳部とを備えたことを特徴とする。
【0028】また、本発明にかかる第八の音声合成装置
は、音声波形の有声区間に、そのピッチ周期毎の一連の
基準位置を付与し、前記基準位置を中心に窓関数によっ
て波形を切り出すことによって一連のピッチ波形を生成
し、Nを正の整数とし、nを1以上の整数、kを0≦k
<Nを満たす整数とし、 mk(n)=N×n−(N−k) で表されるN個の数列に従って、前記ピッチ波形のmk
(n)番目のみをそれらが本来存在した位置に重ね合わ
せて再配置することにより、前記音声波形よりも低い基
本周波数を持つN種類の合成波形を出力し、前記N種類
の合成波形に、各合成波形の基本波付近の強調処理を施
すことにより作成されたN種類の低域強調波形のそれぞ
れから、ピッチ周期毎の一連の基準位置を中心に窓関数
によって切り出したN種類の低域強調ピッチ波形を記憶
する波形記憶部と、前記N種類の低域強調波形から、最
も近い時間位置にある低域強調ピッチ波形を選び出し、
所望の時間間隔で重ね合わせて再配置することにより音
声を合成する波形重畳部とを備えたことを特徴とする。
【0029】前記第六〜第八の音声合成装置によれば、
第五の音声合成装置と同様に、基本波成分の減衰による
音の痩せを防ぐことができるのみならず、高いピッチの
合成を行う場合に発生するスペクトルの段階的変化を抑
えることができるので、滑らかな音質を保つことが可能
となる。さらに、第六の音声合成装置の場合は、低域強
調処理までを行って得られた低域強調波形を波形記憶部
に記憶し、第七の音声合成装置の場合は、ピッチ周期毎
の一連の基準位置を付与した状態の低域強調波形を波形
記憶部に記憶し、第八の音声合成装置の場合は、さらに
窓掛けまでを行って得られた低域強調波形を波形記憶部
に記憶しており、この波形記憶部に記憶されている波形
を用いて音声合成を行う。従って、音声合成時の演算量
を従来よりも増大させることなく、滑らかで豊かな音質
の音声合成を行うことが可能となる。
【0030】上述の目的を達成するために、本発明にか
かる第一の音声合成方法は、音声波形の有声区間に、そ
のピッチ周期毎の一連の基準位置を付与し、前記基準位
置を中心に窓関数によって波形を切り出すことによって
一連のピッチ波形を生成し、前記ピッチ波形を元のピッ
チ周期よりも長い時間間隔で重ね合わせて再配置するこ
とにより、前記音声波形よりも低い基本周波数を持つ合
成波形を作成し、前記合成波形に基本波付近の強調処理
を施すことにより、低域強調波形を作成し、前記低域強
調波形から再びピッチ周期毎に窓関数によって波形を切
り出すことによって一連の低域強調ピッチ波形を生成
し、前記低域強調ピッチ波形を所望の時間間隔で重ね合
わせて再配置することにより音声を合成することを特徴
とする。
【0031】このように、波形重畳法により音声波形よ
りも低い基本周波数を持つ合成波形を作成し、この合成
波形にその基本波付近の強調処理を施すことにより、従
来低いピッチの合成音を生成する時に問題となってい
た、基本波成分の減衰による音の痩せを防ぐことがで
き、音質劣化を招くことなく滑らかで豊かな音質を得る
ことが可能となる。
【0032】また、本発明にかかる第二の音声合成方法
は、音声波形の有声区間に、そのピッチ周期毎の一連の
基準位置を付与し、前記基準位置を中心に窓関数によっ
て波形を切り出すことによって一連のピッチ波形を生成
し、Nを正の整数とし、nを1以上の整数、kを0≦k
<Nを満たす整数とし、 mk(n)=N×n−(N−k) で表されるN個の数列に従って、前記ピッチ波形のmk
(n)番目のみをそれらが本来存在した位置に重ね合わ
せて再配置することにより、前記音声波形よりも低い基
本周波数を持つN種類の合成波形を出力し、前記N種類
の合成波形に、各合成波形の基本波付近の強調処理を施
すことにより、N種類の低域強調波形を作成し、前記N
種類の低域強調波形から、再びピッチ周期毎に窓関数に
よって波形を切り出すことによって、低域強調ピッチ波
形を生成し、前記N種類の低域強調波形から、最も近い
時間位置にある低域強調ピッチ波形を選び出し、所望の
時間間隔で重ね合わせて再配置することにより音声を合
成することを特徴とする。
【0033】これにより、基本波成分の減衰による音の
痩せを防ぐことができるのみならず、高いピッチの合成
を行う場合に発生するスペクトルの段階的変化を抑える
ことができるので、滑らかな音質を保つことが可能とな
る。
【0034】
【発明の実施の形態】(実施の形態1)図1は、本発明
の第一の実施の形態にかかる音声合成システム(音声合
成装置)の構成を示すブロック図である。
【0035】本音声合成システムは、素片作成部100
2および音声合成部1011を備えている。素片作成部
1002には、ピッチマーク付与部1003、窓掛け部
1004、波形重畳部1005、低域強調処理部100
6、およびピッチマーク付与部1007が設けられてい
る。音声合成部1011には、波形記憶部1008、窓
掛け部1009、波形重畳部1014、韻律生成部10
13、および言語処理部1012が設けられている。
【0036】ピッチマーク付与部1003には、素片作
成部1002の外部に設けられた録音音声記憶部100
1からの出力が接続されている。ピッチマーク付与部1
003の出力は、窓掛け部1004に接続され、窓掛け
部1004の出力は、波形重畳部1005に接続されて
いる。波形重畳部1005の出力は、低域強調処理部1
006に接続されており、低域強調処理部1006の出
力は、ピッチマーク付与部1007に接続されている。
ピッチマーク付与部1007の出力は、音声合成部10
11内の波形記憶部1008に接続されている。
【0037】音声合成部1011において、波形記憶部
1008の出力は、窓掛け部1009に接続され、窓掛
け部1009の出力は、波形重畳部1014に接続され
ている。一方、言語処理部1012には、音声合成部1
011の外部からテキストが入力される。言語処理部1
012の出力は、韻律生成部1013に接続されてい
る。韻律生成部1013の出力は、波形重畳部1014
に接続されている。波形重畳部1014からは合成音声
が出力される。
【0038】ここで、素片作成部1002の動作につい
て説明する。
【0039】録音音声記憶部1001に録音されている
音声波形は、ピッチマーク付与部1003に入力され、
ピッチマーク付与部1003により、ピッチ周期毎の基
準位置すなわちピッチマークが付与される。この処理
は、本発明者らがすでに提案し、特開平11−1844
97号公報に開示された方法などで実現可能である。図
2の上段に、ピッチマークが付与された状態の音声波形
の一例を示す。図中に示す波線Pが、ピッチマークが付
与された位置を示す。
【0040】ピッチマークが付与された波形は、窓掛け
部1004に入力され、ピッチマークを中心に、ピッチ
周期の2倍の長さのHanning窓によって、ピッチ波形と
して切り出される。図2の中段に、窓掛け部1004に
よる窓掛けの様子を示す。図中の実線Wが、前記のHann
ing窓を示す。
【0041】こうして作成されたピッチ波形は、波形重
畳部1005に入力され、元のピッチよりも低いピッチ
になるように重ね合わせて再配置され、合成波形とな
る。図2の下段に、ピッチ波形を再配置して得られる合
成波形を示す。
【0042】こうして生成された合成波形は、低域強調
処理部1006に入力され、基本波付近のエネルギを強
調する処理を受ける。この低域強調処理部1006は、
一般によく知られているFIRディジタルフィルタなど
で実現可能である。低域強調された波形は、ピッチマー
ク付与部1007に入力され、ピッチマークが付与され
た後、波形記憶部1008に送られ、記憶される。
【0043】次に音声合成部1011の動作について説
明する。
【0044】言語処理部1012には、テキスト101
0が入力され、発音記号とアクセントなどの中間言語に
変換される。例えば、「日本人の強い自己主張」という
テキストは、「ニホンジ’ンノ/ツヨ’イ/ジコシュ’
チョー」という中間言語に変換される。この変換後の中
間言語例では、音韻をカタカナで表し、アクセント
を「’」で表す。また、「/」はアクセント句の区切り
である。アクセント句とは、抑揚の単位で、各アクセン
ト句の中には、アクセントが1個含まれるか全く含まれ
ないかのいずれかである。
【0045】このようにして作成された中間言語は、韻
律生成部1013に入力される。韻律生成部1013
は、入力した中間言語から、音韻種別、音韻継続時間
長、およびピッチ情報を生成し、波形重畳部1014に
入力する。波形重畳部1014は、音韻種別に従って、
波形記憶部1008から該当する波形を読み出す。この
とき、窓掛け部1009が、上記と同様の窓掛け処理を
行うことにより、図3に示すように、波形記憶部100
8に記憶された波形から、必要なピッチ波形を切り出し
て、波形重畳部1014へ送る。
【0046】波形重畳部1014は、必要なピッチ波形
を次々と受け取りながら、ピッチ情報に従って、図3に
示すように、それらの波形を適切な時間間隔で重ね合わ
せて配置する。また、波形重畳部1014は、音韻継続
時間長に従って、適宜ピッチ波形を繰り返したり間引い
たりして、時間長の制御を行う。こうして作成された波
形は、図3に示すように、合成音声1015として出力
される。
【0047】次に、低域強調処理部1006による低域
強調効果について、図を参照しながら説明する。図4
(a)は、録音音声記憶部1001に記憶されている音
声波形の一例であり、図4(b)は、その中央付近のス
ペクトルである。スペクトルから、この音声の基本周波
数は約230Hzであることが分かる。すなわち、23
0Hz付近に最も低い周波数のピークが存在し、その整
数倍の位置に、いくつものピークが観察される。これら
のピークを高調波と呼ぶ。また、高調波のうち最も低い
周波数(230Hz付近の物)のものを基本波と呼ぶ。
【0048】図5(a)は、図4(a)の波形の中央付
近から窓掛けにより切り出したピッチ波形であり、図5
(b)はそのスペクトルである。窓掛けには、ピッチ周
期の2倍の長さのHanning窓関数を用いている。図5
(b)のスペクトルは、図4(b)と異なり、高調波の
間が滑らかに結ばれた単純な形をしている。これは、図
4(b)のスペクトルの高調波の影響を除去した、いわ
ゆるスペクトル包絡に相当する。
【0049】このピッチ波形を所望の間隔で重ね合わせ
ながら配置すると、このスペクトル包絡を維持したま
ま、任意の基本周波数を持つ音声が合成できる。実際に
は、時間とともにピッチ波形を入れ替えながら合成しな
ければならないが、スペクトル変化の説明のため、ここ
では同一のピッチ波形を繰り返し用いる。
【0050】図6(a)は、図5(a)のピッチ波形
を、元のピッチ周期よりも広い間隔で重ね合わせて合成
した波形であり、図6(b)はそのスペクトルである。
合成された波形の基本周波数は、約115Hzである。
高調波のピークを結んだ形(スペクトル包絡)は、図5
(b)や図4(b)のものとよく似ている。すなわち、
波形重畳によってスペクトル包絡特性が保存されている
ことが分かる。
【0051】ここで、基本波のピークに注目すると、図
4(b)ではピークの高さが+4dB程あるのに対し、
図6(b)では−10dB程度に減衰している。基本波
の強さは、聴感上、非常に音質に影響すると言われてい
る。特に、基本波とその一つ上の高調波(第二高調波)
のエネルギの比が、声の音色を大きく支配すると言われ
る(D. Klatt,“Review of text-to-speech conversion
for English”, J. Acoust. Soc. Am. 82(3), (1987.
9))。
【0052】ここで、第二高調波のピーク値(H2)を
基本波のピーク値(H1)で割った値を比較すると(d
B値では引き算になる)、図4(b)では−12dBで
あるのに対し、図6(b)では+8dB程度となる。こ
のように第二高調波に比べて相対的に基本波のエネルギ
が小さくなることによって、低域の欠落した痩せ細った
音色になる。
【0053】そこで、図6(a)の波形に、信号処理に
よって、115Hz付近の強調処理を施す。図7(a)
は、強調処理後の波形であり、図7(b)は、そのスペ
クトルである。基本波のエネルギが、ほぼ図4(a)の
波形と同じ大きさに復活していることが分かる。この結
果、音色は、図6(a)の波形と比べて図4(a)に近
くなる。そこで、図7(a)の波形を使って音声合成を
行えば、低いピッチの合成を行う場合でも音が痩せるこ
とがなくなる。波形記憶部1008に図7(a)の波形
を記憶しておくことにより、低域強調処理の効果を生か
した音声合成が可能となる。
【0054】ここで、上記に説明した方法を用いずに、
図4(a)の波形に直接低域強調処理を施すことで、同
様の効果が得られないかという疑問が生じるが、図4
(a)の波形には、115Hz付近には高調波が存在し
ないため、強調処理自身が不可能である。そこで、基本
波を強調することも考えられるが、基本波を強調する
と、下記のように、別の問題が生じる。
【0055】図4(a)では、基本波は約230Hzで
あるから、その付近を強調するような信号処理を行った
とする。図8(a)は、図4(a)の波形に230Hz
付近の強調処理を行った波形であり、図8(b)はその
スペクトルである。この波形からピッチ波形を切り出
し、基本波が115Hzの波形を合成する。
【0056】図9(a)は、上記のように合成された波
形であり、図9(b)はそのスペクトルである。図9
(b)を図7(b)と比較することにより、図9(a)
の波形では、基本波は強調されておらず、その代わりに
第二高調波が強調されてしまっていることが分かる。そ
の結果、H2/H1を比較すると、図7(b)では−5
dB前後であるのに対し、図9(b)では+5dB前後
となっている。図4(a)のもとの波形では−12dB
であったから、図9(a)の波形は、図7(a)のよう
には、H2/H1を近づけることができないことを表し
ている。
【0057】上記のように、波形記憶部1008に記憶
された、図7(a)に示すような波形は、もともと高い
ピッチの波形から作成された素片波形であるにもかかわ
らず、目的とする低いピッチ周波数近辺にも十分なエネ
ルギを持っており、合成音は、低いピッチになるときも
基本波付近のエネルギ低下を招かずに、豊かな音質が得
られる。そして、この効果は、録音波形にあらかじめ低
域強調処理を行っても得られないものである。
【0058】なお、本実施形態では、素片作成部100
2においてピッチマークの付与まで行った低域強調波形
を、音声合成部の波形記憶部1008に記憶させる例を
説明したが、以下のような変形も可能である。
【0059】第一の変形例は、低域強調処理部1006
から出力される低域強調波形をピッチマークを付与しな
い状態で波形記憶部1008へ記憶するものとし、音声
合成部1011において、波形記憶部1008から取り
出した低域強調波形に対し、窓掛け処理の前にピッチマ
ーク付与を行う構成である。この場合、素片作成部10
02のピッチマーク付与部1007は不要となり、代わ
りに、音声合成部1011において、波形記憶部100
8と窓掛け部1009との間にピッチマーク付与部が配
置される。
【0060】第二の変形例は、素片作成部1002にお
いて、低域強調処理部1006から出力される低域強調
波形に、ピッチマーク付与部1007によりピッチマー
ク付与処理を行った後、さらに窓掛け処理までを行って
得られる低域強調波形を、波形記憶部1008に記憶す
る構成である。この場合、音声合成部1011における
窓掛け部1009は不要となり、代わりに、素片作成部
1002において、ピッチマーク付与部1007の後ろ
に窓掛け部が配置された構成となる。
【0061】なお、本実施形態の構成、および、前記の
第一・第二の変形例において、素片作成部1002は、
音声合成部1011とは別の装置として構成されていて
も構わない。このような構成をとる場合は、低域強調処
理の結果として得られた低域強調波形、または、この波
形にピッチマーク付与あるいはその後の窓掛け処理まで
を行って得られた低域強調波形を、データ伝送媒体また
はデータ記憶媒体等を介して音声合成部1011へ送
り、波形記憶部1008へ予め記憶させておけばよい。
この場合、音声合成処理の演算量を従来よりも増加させ
ることがない。
【0062】(実施の形態2)本発明の第二の実施の形
態にかかる音声合成システムについて、以下に説明す
る。図10に、本音声合成システムの構成を示す。本音
声合成システムは、素片作成部12002と、音声合成
部12011とを備えている。素片作成部12002に
は、ピッチマーク付与部1003、窓掛け部1004、
波形重畳部1005−1、1005−2、低域強調処理
部1006−1、1006−2、ピッチマーク付与部1
007−1、1007−2が設けられている。
【0063】ピッチマーク付与部1003には、素片作
成部1002の外部に設けられた録音音声記憶部100
1からの出力が接続されている。ピッチマーク付与部1
003の出力は、窓掛け部1004に接続され、窓掛け
部1004の出力は、波形重畳部1005−1および波
形重畳部1005−2に接続されている。
【0064】波形重畳部1005−1の出力は、低域強
調処理部1006−1に接続されており、低域強調処理
部1006−1の出力は、ピッチマーク付与部1007
−1に接続されている。波形重畳部1005−2の出力
は、低域強調処理部1006−2に接続されており、低
域強調処理部1006−2の出力は、ピッチマーク付与
部1007−2に接続されている。
【0065】ピッチマーク付与部1007−1およびピ
ッチマーク付与部1007−2の出力は、音声合成部1
2011内部に設けられた波形記憶部12008に接続
されている。
【0066】音声合成部12011内部には、上述した
波形記憶部12008のほか、窓掛け部12009、波
形重畳部12014、言語処理部1012、韻律生成部
1013が設けられている。
【0067】波形記憶部12008の出力は窓掛け部1
2009に接続され、窓掛け部12009の出力は波形
重畳部12014に接続されている。一方、言語処理部
1012には、音声合成部1011の外部から、テキス
ト1010が入力される。言語処理部1012の出力
は、韻律生成部1013に接続されている。韻律生成部
1013の出力は、波形重畳部12014に接続されて
いる。波形重畳部12014からは、合成音声1015
が出力される。
【0068】まず、素片作成部12002の動作につい
て説明する。
【0069】録音音声記憶部1001に録音されている
波形は、ピッチマーク付与部1003に入力され、ピッ
チマークが付与される。ピッチマークが付与された波形
は、窓掛け部1004に入力され、ピッチ波形として切
り出される。ピッチ波形は、以下の規則に従って、波形
重畳部1005−1あるいは波形重畳部1005−2に
入力される。すなわち、音声波形の先頭から数えて奇数
番目のピッチ波形は、波形重畳部1005−1に入力さ
れ、偶数番目のピッチ波形は、波形重畳部1005−2
に入力される。
【0070】そして、波形重畳部1005−1と波形重
畳部1005−2のそれぞれが、各ピッチ波形を、本来
存在した位置に重ね合わせて配置することによって、合
成波形を作成する。この様子を、図11に示す。それぞ
れの合成波形は、元の波形から一つおきにピッチ波形を
抜き出して合成されているため、その基本周波数は1/
2になっている。
【0071】次に、それぞれの合成波形が、低域強調処
理部1006−1および低域強調処理部1006−2に
入力され、基本波付近のエネルギに強調処理を受ける。
低域強調された波形は、ピッチマーク付与部1007−
1およびピッチマーク付与部1007−2にそれぞれ入
力され、ピッチマークが付与された後、波形記憶部12
008に記憶される。
【0072】次に、音声合成部12011の動作につい
て説明する。
【0073】言語処理部1012は、入力されたテキス
ト1010を、発音記号とアクセントなどの中間言語に
変換する。韻律生成部1013は、この中間言語から、
音韻種別、音韻継続時間長、およびピッチ情報を生成
し、波形重畳部12014に入力する。
【0074】波形重畳部12014は、音韻種別に従っ
て、波形記憶部12008から該当する波形を読み出
す。このとき、窓掛け部12009が、上記と同様の窓
掛け処理を行うことにより、波形記憶部12008に記
憶された波形から、必要なピッチ波形を切り出して、波
形重畳部12014へ送る。
【0075】波形重畳部12014は、必要なピッチ波
形を次々と受け取りながら、ピッチ情報に従って、それ
らの波形を適切な時間間隔で重ね合わせて配置する。ま
た、波形重畳部12014は、音韻継続時間長に従っ
て、適宜ピッチ波形を繰り返したり間引いたりして、時
間長の制御を行う。こうして作成された波形は、合成音
1015として出力される。
【0076】上記の一連の動作は、本発明の第一の実施
形態と類似しているが、以下の点で異なる。まず、波形
記憶部12008には、ピッチマーク付与部1007−
1およびピッチマーク付与部1007−2のそれぞれの
出力が記憶されているため、一つの音韻記号に対してこ
れら二つの波形が対応する。一方は、奇数番目のピッチ
波形のみからなり、もう一方は、偶数番目のピッチ波形
のみからなる。
【0077】波形重畳部12014は、ピッチ情報に従
って、必要な間隔でピッチ波形を配置しなければならな
いが、この時、図12に示すように、上記二つの波形か
ら、最も近い時間位置にあるピッチ波形を選び出す。
【0078】このように、本実施形態の音声合成システ
ムでは、二つの波形から適宜近いピッチ波形が選び出せ
るので、高いピッチの合成時にも、図13に示したよう
な同一ピッチ波形の繰り返しの発生が抑えられ、滑らか
な音が生成される。
【0079】また、言うまでもなく、本実施形態の音声
合成システムにおいても、波形に低域強調処理を行うた
め、低いピッチの合成時にも、基本波成分の減衰による
音の痩せが発生せず、常に安定した音質が得られる。
【0080】なお、本実施形態では、素片作成部120
02に、波形重畳部1005、低域強調処理部100
6、およびピッチマーク付与部1007からなる処理チ
ャンネルを2系統備えた構成である、この系統数をさら
に増やしても構わない。例えば3系統備えた場合、第一
系統は1,4,…,3n−2番目のピッチ波形、第二系
統は2,5,…,3n−1番目のピッチ波形、第三系統
は3,6,…,3n番目のピッチ波形(nは1以上の整
数)を扱うようにすればよい。これを一般的に表すと、
系統数をNとし、n,kを1以上の整数とした場合、第
k系統が扱うべきピッチ波形番号mk(n)は下記のよ
うに表せる。
【0081】mk(n)=N×n−(N−k) なお、本実施形態では、素片作成部12002において
ピッチマークの付与まで行った低域強調波形を、音声合
成部の波形記憶部12008に記憶させる例を説明した
が、以下のような変形も可能である。
【0082】第一の変形例は、低域強調処理部1006
−1等から出力される低域強調波形をピッチマークを付
与しない状態で波形記憶部12008へ記憶するものと
し、音声合成部12011において、波形記憶部120
08から取り出した低域強調波形に対し、窓掛け処理の
前にピッチマーク付与を行う構成である。この場合、素
片作成部12002のピッチマーク付与部1007−1
等は不要となり、代わりに、音声合成部12011にお
いて、波形記憶部12008と窓掛け部12009との
間にピッチマーク付与部が配置される。
【0083】第二の変形例は、素片作成部12002に
おいて、低域強調処理部1006−1等から出力される
低域強調波形に、ピッチマーク付与部1007−1等に
よりピッチマーク付与処理を行った後、さらに窓掛け処
理までを行って得られる低域強調波形を、波形記憶部1
2008に記憶する構成である。この場合、音声合成部
12011における窓掛け部12009は不要となり、
代わりに、素片作成部12002においてピッチマーク
付与部1007−1等の後ろに窓掛け部が配置された構
成となる。
【0084】なお、本実施形態の構成、および、前記の
第一・第二の変形例において、素片作成部12002
は、音声合成部12011とは別の装置として構成され
ていても構わない。このような構成をとる場合は、低域
強調処理の結果として得られた低域強調波形、または、
この波形にピッチマーク付与あるいはその後の窓掛け処
理までを行って得られた低域強調波形を、データ伝送媒
体またはデータ記憶媒体等を介して、音声合成部120
11へ送り、波形記憶部12008へ予め記憶させてお
けばよい。この場合、従来と比較して、音声合成処理の
演算量を増加させることがない。
【0085】
【発明の効果】以上に説明したように、本発明の第一お
よび第二の実施形態によれば、従来低いピッチの合成音
を生成する時に問題となっていた、基本波成分の減衰に
よる音の痩せを防ぐことができる。また、本発明の第二
の実施の形態によれば、従来高いピッチの合成音を生成
する時に問題となっていた、同一ピッチ波形の繰り返し
によるスペクトルの階段的変化を防ぎ、滑らかな音質を
保つことができる。
【0086】さらに、本発明の構成は、素片作成部に主
な処理が集中しているため、音声合成時に必要な演算量
は、従来の音声合成とほとんど変わらないという利点を
有する。
【図面の簡単な説明】
【図1】 本発明の第一の実施形態にかかる音声合成シ
ステムの構成を示すブロック図
【図2】 前記音声合成システムの素片作成部により、
音声波形から合成波形が得られる様子を示す説明図
【図3】 前記音声合成システムの音声合成部により、
低域強調波形から合成音声が得られる様子を示す説明図
【図4】 (a)は音声波形の一例を示す波形図、
(b)は(a)の音声波形の中央付近でのスペクトルを
示すグラフ
【図5】 (a)は、図4(a)の波形の中央付近から
窓掛けにより切り出したピッチ波形を示す波形図、
(b)は、そのスペクトルを示すグラフ
【図6】 (a)は、図5(a)のピッチ波形を、元の
周期よりも長い周期で重ね合わせて得られる音声波形を
示す波形図、(b)は、そのスペクトルを示すグラフ
【図7】 (a)は、低域強調処理後の波形を示す波形
図、(b)は、そのスペクトルを示すグラフ
【図8】 (a)は、本発明との比較例であり、図4
(a)の音声波形に、その基本周波数付近の強調処理を
行って得られる波形を示す波形図、(b)はそのスペク
トルを示すグラフ
【図9】 (a)は、本発明との比較例であり、図8
(a)の波形から切り出されたピッチ波形から合成され
る波形を示す波形図、(b)はそのスペクトルを示すグ
ラフ
【図10】 本発明の第二の実施形態にかかる音声合成
システムの構成を示すブロック図
【図11】 前記第二の実施形態にかかる音声合成シス
テムにおいて、二系統の波形重畳部のそれぞれが合成波
形を作成する様子を示す説明図
【図12】 前記第二の実施形態にかかる音声合成シス
テムにおいて、最終合成波形が生成される様子を示す説
明図
【図13】 従来の音声合成技術において、低いピッチ
の波形から高いピッチの波形を合成する時に、同一のピ
ッチ波形が繰り返し用いられる様子を示す説明図
【図14】 従来の音声合成技術により、スペクトルが
階段的に変化する様子を示す模式図
【符号の説明】
1001 録音音声記憶部 1002,12002 素片作成部 1003 ピッチマーク付与部 1004 窓掛け部 1005,1005−1,1005−2 波形重畳部 1006,1006−1,1006−2 低域強調処理
部 1007,1007−1,1007−2 ピッチマーク
付与部 1008,12008 波形記憶部 1009,12009 窓掛け部 1010 テキスト 1011,12011 音声合成部 1012 言語処理部 1013 韻律生成部 1014,12014 波形重畳部 1015 合成音声

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声波形の有声区間に、そのピッチ周期
    毎の一連の基準位置を付与する基準位置付与部と、 前記基準位置を中心に窓関数によって波形を切り出すこ
    とによって一連のピッチ波形を生成する第一の窓掛け部
    と、 前記ピッチ波形を元のピッチ周期よりも長い時間間隔で
    重ね合わせて再配置することにより、前記音声波形より
    も低い基本周波数を持つ合成波形を作成する第一の波形
    重畳部と、 前記合成波形に、基本波付近の強調処理を施すことによ
    り、低域強調波形を作成する低域強調処理部と、 前記低域強調波形から再びピッチ周期毎に窓関数によっ
    て波形を切り出すことによって一連の低域強調ピッチ波
    形を生成する第二の窓掛け部と、 前記低域強調ピッチ波形を所望の時間間隔で重ね合わせ
    て再配置することにより音声を合成する第二の波形重畳
    部とを備えたことを特徴とする音声合成装置。
  2. 【請求項2】 音声波形の有声区間に、そのピッチ周期
    毎の一連の基準位置を付与し、前記基準位置を中心に窓
    関数によって波形を切り出すことによって一連のピッチ
    波形を生成し、前記ピッチ波形を元のピッチ周期よりも
    長い時間間隔で重ね合わせて再配置することにより前記
    音声波形よりも低い基本周波数を持つ合成波形を作成
    し、前記合成波形に基本波付近の強調処理を施して作成
    した低域強調波形を記憶する波形記憶部と、 前記波形記憶部に記憶された低域強調波形に、ピッチ周
    期毎の一連の基準位置を付与する基準位置付与部と、 前記基準位置を中心に窓関数によって波形を切り出すこ
    とによって一連の低域強調ピッチ波形を生成する窓掛け
    部と、 前記低域強調ピッチ波形を所望の時間間隔で重ね合わせ
    て再配置することにより音声を合成する波形重畳部とを
    備えたことを特徴とする音声合成装置。
  3. 【請求項3】 音声波形の有声区間に、そのピッチ周期
    毎の一連の基準位置を付与し、前記基準位置を中心に窓
    関数によって波形を切り出すことによって一連のピッチ
    波形を生成し、前記ピッチ波形を元のピッチ周期よりも
    長い時間間隔で重ね合わせて再配置することにより前記
    音声波形よりも低い基本周波数を持つ合成波形を作成
    し、前記合成波形に基本波付近の強調処理を施して作成
    した低域強調波形に、ピッチ周期毎の一連の基準位置を
    付与して記憶する波形記憶部と、 前記波形記憶部に記憶された低域強調波形から、前記基
    準位置を中心に窓関数によって波形を切り出すことによ
    って一連の低域強調ピッチ波形を生成する窓掛け部と、 前記低域強調ピッチ波形を所望の時間間隔で重ね合わせ
    て再配置することにより音声を合成する波形重畳部とを
    備えたことを特徴とする音声合成装置。
  4. 【請求項4】 音声波形の有声区間に、そのピッチ周期
    毎の一連の基準位置を付与し、前記基準位置を中心に窓
    関数によって波形を切り出すことによって一連のピッチ
    波形を生成し、前記ピッチ波形を元のピッチ周期よりも
    長い時間間隔で重ね合わせて再配置することにより前記
    音声波形よりも低い基本周波数を持つ合成波形を作成
    し、前記合成波形に基本波付近の強調処理を施して作成
    した低域強調波形から、ピッチ周期毎の一連の基準位置
    を中心に窓関数によって切り出した低域強調ピッチ波形
    を記憶する波形記憶部と、 前記低域強調ピッチ波形を所望の時間間隔で重ね合わせ
    て再配置することにより音声を合成する波形重畳部とを
    備えたことを特徴とする音声合成装置。
  5. 【請求項5】 音声波形の有声区間に、そのピッチ周期
    毎の一連の基準位置を付与する基準位置付与部と、 前記基準位置を中心に窓関数によって波形を切り出すこ
    とによって一連のピッチ波形を生成する第一の窓掛け部
    と、 Nを正の整数とし、第一の波形重畳部および低域強調処
    理部の連結をN系統備え、 nを1以上の整数、kを0≦k<Nを満たす整数とし、 mk(n)=N×n−(N−k) で表されるN個の数列に従って、 第N系統における前記第一の波形重畳部が、前記ピッチ
    波形のmk(n)番目のみをそれらが本来存在した位置
    に重ね合わせて再配置することにより、前記音声波形よ
    りも低い基本周波数を持つ合成波形を出力し、 第N系統における前記低域強調処理部が、同系統の前記
    第一の波形重畳部から出力される合成波形に、当該合成
    波形の基本波付近の強調処理を施すことにより、低域強
    調波形を作成し、 前記N系統の低域強調処理部から出力されるN種類の低
    域強調波形から、再びピッチ周期毎に窓関数によって波
    形を切り出すことによって、低域強調ピッチ波形を生成
    する第二の窓掛け部と、 前記N種類の低域強調ピッチ波形から、最も近い時間位
    置にある低域強調ピッチ波形を選び出し、所望の時間間
    隔で重ね合わせて再配置することにより音声を合成する
    第二の波形重畳部とを備えたことを特徴とする音声合成
    装置。
  6. 【請求項6】 音声波形の有声区間に、そのピッチ周期
    毎の一連の基準位置を付与し、前記基準位置を中心に窓
    関数によって波形を切り出すことによって一連のピッチ
    波形を生成し、 Nを正の整数とし、nを1以上の整数、kを0≦k<N
    を満たす整数とし、 mk(n)=N×n−(N−k) で表されるN個の数列に従って、 前記ピッチ波形のmk(n)番目のみをそれらが本来存
    在した位置に重ね合わせて再配置することにより、前記
    音声波形よりも低い基本周波数を持つN種類の合成波形
    を出力し、前記N種類の合成波形に、各合成波形の基本
    波付近の強調処理を施すことにより作成されたN種類の
    低域強調波形を記憶する波形記憶部と、 前記N系統の低域強調処理部から出力されるN種類の低
    域強調波形から、再びピッチ周期毎に窓関数によって波
    形を切り出すことによって、低域強調ピッチ波形を生成
    する窓掛け部と、 前記N種類の低域強調波形から、最も近い時間位置にあ
    る低域強調ピッチ波形を選び出し、所望の時間間隔で重
    ね合わせて再配置することにより音声を合成する波形重
    畳部とを備えたことを特徴とする音声合成装置。
  7. 【請求項7】 音声波形の有声区間に、そのピッチ周期
    毎の一連の基準位置を付与し、前記基準位置を中心に窓
    関数によって波形を切り出すことによって一連のピッチ
    波形を生成し、 Nを正の整数とし、nを1以上の整数、kを0≦k<N
    を満たす整数とし、 mk(n)=N×n−(N−k) で表されるN個の数列に従って、 前記ピッチ波形のmk(n)番目のみをそれらが本来存
    在した位置に重ね合わせて再配置することにより、前記
    音声波形よりも低い基本周波数を持つN種類の合成波形
    を出力し、前記N種類の合成波形に、各合成波形の基本
    波付近の強調処理を施すことにより作成されたN種類の
    低域強調波形のそれぞれに、ピッチ周期毎の一連の基準
    位置を付与して記憶する波形記憶部と、 前記N種類の低域強調波形のそれぞれから、前記基準位
    置を中心に窓関数によって波形を切り出すことによっ
    て、低域強調ピッチ波形を生成する窓掛け部と、 前記N種類の低域強調波形から、最も近い時間位置にあ
    る低域強調ピッチ波形を選び出し、所望の時間間隔で重
    ね合わせて再配置することにより音声を合成する波形重
    畳部とを備えたことを特徴とする音声合成装置。
  8. 【請求項8】 音声波形の有声区間に、そのピッチ周期
    毎の一連の基準位置を付与し、前記基準位置を中心に窓
    関数によって波形を切り出すことによって一連のピッチ
    波形を生成し、 Nを正の整数とし、nを1以上の整数、kを0≦k<N
    を満たす整数とし、 mk(n)=N×n−(N−k) で表されるN個の数列に従って、 前記ピッチ波形のmk(n)番目のみをそれらが本来存
    在した位置に重ね合わせて再配置することにより、前記
    音声波形よりも低い基本周波数を持つN種類の合成波形
    を出力し、前記N種類の合成波形に、各合成波形の基本
    波付近の強調処理を施すことにより作成されたN種類の
    低域強調波形のそれぞれから、ピッチ周期毎の一連の基
    準位置を中心に窓関数によって切り出したN種類の低域
    強調ピッチ波形を記憶する波形記憶部と、 前記N種類の低域強調波形から、最も近い時間位置にあ
    る低域強調ピッチ波形を選び出し、所望の時間間隔で重
    ね合わせて再配置することにより音声を合成する波形重
    畳部とを備えたことを特徴とする音声合成装置。
  9. 【請求項9】 音声波形の有声区間に、そのピッチ周期
    毎の一連の基準位置を付与し、 前記基準位置を中心に窓関数によって波形を切り出すこ
    とによって一連のピッチ波形を生成し、 前記ピッチ波形を元のピッチ周期よりも長い時間間隔で
    重ね合わせて再配置することにより、前記音声波形より
    も低い基本周波数を持つ合成波形を作成し、 前記合成波形に基本波付近の強調処理を施すことによ
    り、低域強調波形を作成し、 前記低域強調波形から再びピッチ周期毎に窓関数によっ
    て波形を切り出すことによって一連の低域強調ピッチ波
    形を生成し、 前記低域強調ピッチ波形を所望の時間間隔で重ね合わせ
    て再配置することにより音声を合成することを特徴とす
    る音声合成方法。
  10. 【請求項10】 音声波形の有声区間に、そのピッチ周
    期毎の一連の基準位置を付与し、 前記基準位置を中心に窓関数によって波形を切り出すこ
    とによって一連のピッチ波形を生成し、 Nを正の整数とし、nを1以上の整数、kを0≦k<N
    を満たす整数とし、 mk(n)=N×n−(N−k) で表されるN個の数列に従って、 前記ピッチ波形のmk(n)番目のみをそれらが本来存
    在した位置に重ね合わせて再配置することにより、前記
    音声波形よりも低い基本周波数を持つN種類の合成波形
    を出力し、 前記N種類の合成波形に、各合成波形の基本波付近の強
    調処理を施すことにより、N種類の低域強調波形を作成
    し、 前記N種類の低域強調波形から、再びピッチ周期毎に窓
    関数によって波形を切り出すことによって、低域強調ピ
    ッチ波形を生成し、 前記N種類の低域強調波形から、最も近い時間位置にあ
    る低域強調ピッチ波形を選び出し、所望の時間間隔で重
    ね合わせて再配置することにより音声を合成することを
    特徴とする音声合成方法。
JP2001040574A 2001-02-16 2001-02-16 音声合成装置および音声合成方法 Withdrawn JP2002244693A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001040574A JP2002244693A (ja) 2001-02-16 2001-02-16 音声合成装置および音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001040574A JP2002244693A (ja) 2001-02-16 2001-02-16 音声合成装置および音声合成方法

Publications (1)

Publication Number Publication Date
JP2002244693A true JP2002244693A (ja) 2002-08-30

Family

ID=18903155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001040574A Withdrawn JP2002244693A (ja) 2001-02-16 2001-02-16 音声合成装置および音声合成方法

Country Status (1)

Country Link
JP (1) JP2002244693A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100343893C (zh) * 2002-09-17 2007-10-17 皇家飞利浦电子股份有限公司 用于稳定音信号合成的方法和文本到语音转换的合成系统
WO2009031219A1 (ja) * 2007-09-06 2009-03-12 Fujitsu Limited 音信号生成方法、音信号生成装置及びコンピュータプログラム
JP2015138187A (ja) * 2014-01-23 2015-07-30 日本放送協会 音声信号処理装置及び音声ピッチ変換プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100343893C (zh) * 2002-09-17 2007-10-17 皇家飞利浦电子股份有限公司 用于稳定音信号合成的方法和文本到语音转换的合成系统
WO2009031219A1 (ja) * 2007-09-06 2009-03-12 Fujitsu Limited 音信号生成方法、音信号生成装置及びコンピュータプログラム
US8280737B2 (en) 2007-09-06 2012-10-02 Fujitsu Limited Sound signal generating method, sound signal generating device, and recording medium
JP5141688B2 (ja) * 2007-09-06 2013-02-13 富士通株式会社 音信号生成方法、音信号生成装置及びコンピュータプログラム
JP2015138187A (ja) * 2014-01-23 2015-07-30 日本放送協会 音声信号処理装置及び音声ピッチ変換プログラム

Similar Documents

Publication Publication Date Title
JP2885372B2 (ja) 音声符号化方法
EP2140447B1 (en) System and method for hybrid speech synthesis
JPS62160495A (ja) 音声合成装置
US7249021B2 (en) Simultaneous plural-voice text-to-speech synthesizer
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
KR100457414B1 (ko) 음성합성방법, 음성합성장치 및 기록매체
JP4214842B2 (ja) 音声合成装置及び音声合成方法
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
US7558727B2 (en) Method of synthesis for a steady sound signal
JP2002244693A (ja) 音声合成装置および音声合成方法
JP4510631B2 (ja) 音声波形の連結を用いる音声合成
US7822599B2 (en) Method for synthesizing speech
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP3089940B2 (ja) 音声合成装置
JP3081300B2 (ja) 残差駆動型音声合成装置
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JP2577372B2 (ja) 音声合成装置および方法
JP2000259164A (ja) 音声データ作成装置および声質変換方法
JPH08160991A (ja) 音声素片作成方法および音声合成方法、装置
JPH0836397A (ja) 音声合成装置
JPH0572599B2 (ja)
JPH07210184A (ja) 音声編集合成装置
JPH0553595A (ja) 音声合成装置
JPH09244680A (ja) 韻律制御装置及び方法
JPH11224096A (ja) 音声合成方法及び音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071225

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080723