JPH0756590A - 音声合成装置、音声合成方法及び記録媒体 - Google Patents

音声合成装置、音声合成方法及び記録媒体

Info

Publication number
JPH0756590A
JPH0756590A JP5228156A JP22815693A JPH0756590A JP H0756590 A JPH0756590 A JP H0756590A JP 5228156 A JP5228156 A JP 5228156A JP 22815693 A JP22815693 A JP 22815693A JP H0756590 A JPH0756590 A JP H0756590A
Authority
JP
Japan
Prior art keywords
voice
unit
spectrum envelope
voice unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5228156A
Other languages
English (en)
Other versions
JP3622990B2 (ja
Inventor
Keiichi Yamada
敬一 山田
Yoshiaki Oikawa
芳明 及川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP22815693A priority Critical patent/JP3622990B2/ja
Publication of JPH0756590A publication Critical patent/JPH0756590A/ja
Application granted granted Critical
Publication of JP3622990B2 publication Critical patent/JP3622990B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】本発明は、音声合成装置、音声合成方法及び記
録媒体において、実際の人間の音声に比して違和感のな
い合成音を発声する。 【構成】音声単位記憶部におけるスペクトル包絡軌道が
正規化された音声単位データセツトを用いることによつ
て、時間軸上での単純な波形補間による合成方式に比
べ、補間処理を行うことなしに接続部をより滑らかに接
続していくことができ、人間の音声に近い高品質な任意
の合成音を得ることができる。

Description

【発明の詳細な説明】
【0001】
【目次】以下の順序で本発明を説明する。 産業上の利用分野 従来の技術 発明が解決しようとする課題 課題を解決するための手段(図1、図2、図6) 作用(図1、図2、図6) 実施例(図1〜図9) (1)第1実施例(図1〜図5) (2)第2実施例(図1、図5〜図9) (3)他の実施例 発明の効果
【0002】
【産業上の利用分野】本発明は音声合成装置、音声合成
方法及び記録媒体に関し、特に単音節又はそれ以上の音
節数からなる音声単位波形を同一音素内で編集合成する
波形編集型の音声合成装置に適用して好適なものであ
る。
【0003】
【従来の技術】従来、規則合成方式による音声合成装置
においては、入力された文字の系列を解析した後、所定
の規則に従つてパラメータを合成することにより、いか
なる言葉でも音声合成し得るようになされている。すな
わち規則合成方式による音声合成装置は、入力された文
字の系列を解析した後、所定の規則に従つて各文節ごと
にアクセントを検出し、各文節の並びから文字系列全体
としての抑揚、ポーズ等を表現するピツチパラメータを
合成する。
【0004】さらに音声合成装置は、同様に所定の規則
に従つて各文節を例えばCV/VC単位のような音声単
位に分割した後、そのスペクトラムを表現する合成パラ
メータを生成する。これによりピツチパラメータ及び合
成パラメータに基づいて合成音を発声するようになされ
ている。
【0005】またより高品質な音声を合成するために、
音声単位として周期性を有する有声部分については実音
声を分析処理し、その1周期にあたる音声波形データを
それぞれ保持し、また周期性を有さない無声部分につい
ては実音声をそのまま音声波形データとして保持し、合
成時にはこれらの音声波形データをピツチパラメータに
基づいて波形編集して合成音を生成する。
【0006】
【発明が解決しようとする課題】ところでこのような波
形編集の手法では、ピツチパラメータに基づいて音声単
位内の音声波形データを繰り返したり、あるいは間引く
ことによつてフレーム数を調整して音声を合成してい
る。ここで用いられる個々の音声単位は、それが抽出さ
れた実音声内での前後の音韻環境の影響を受けており、
その影響が合成音声内に表れてくる。
【0007】すなわちある音声単位では合成時における
音韻環境と、抽出された実音声内での音韻環境とが異な
る場合が生じ、合成音声の各音声単位を接続した場合に
は、実音声と比べて不自然な音声波形が生成され、周波
数領域での不連続性が原因となつて異聴等が発生する。
またCV/VC単位による音声合成のように音声単位を
同一音素内で接続する場合には、周波数領域での不連続
性が聴感上特に感知されやすく、合成音声の品質が劣化
しやすいという問題がある。
【0008】この問題を解決するために、従来の音声合
成装置では音声単位間の接続部分で補間処理を行うこと
が一般的である。補間処理の一つとして、音声波形デー
タの時間領域における線形補間があるが、補間波形はス
ペクトル的に補間されたものとは対応せず、合成された
音声のスペクトル特性は自然音声からかけ離れたものと
なることがある。
【0009】このため音声単位を構成する少なくとも一
つの音素に対して音声単位間の接続フレームにおける代
表的なスペクトル包絡特性を設定し、この各音素におけ
る代表的なスペクトル包絡特性を以て、音声単位内の音
声波形データのスペクトル包絡軌道を正規化する手法が
ある。この音声単位の正規化手法では、音声合成時の補
間処理を行うことなしに、音声単位間の接続部での周波
数領域の不連続性である接続歪みをほとんど解消するこ
とができ、人間の音声に近い高品質な合成音を得ること
ができる。
【0010】また一般的に人間の聴覚は音の周波数特性
を聞き分けるが、位相特性に対しては周波数特性ほどの
弁別能力はないと言われている。しかし上述したような
音声単位のスペクトル包絡軌道の正規化手法を用いた波
形編集による合成音声では、音声単位間の接続部分での
接続歪みがほとんどないために、合成音声の有声部にお
ける接続部分での位相特性の不連続性が、実音声に比べ
て聴感的に違和感を生じさせてる問題がある。
【0011】この問題の解決策として、音声単位内の有
声部の位相特性を零位相特性に整える方法がある。この
方法によつて得られる音声波形データは、波形データの
中心のサンプル点において左右対称な波形となる。従つ
て得られる音声波形データの半分のみを音声単位記憶部
に貯えればよく、この点で記憶データ容量の削減が可能
である。しかし音声合成時には半分のデータから対称な
音声波形データを生成する処理を必要とする。
【0012】本発明は以上の点を考慮してなされたもの
で、実際の人間の音声に比して違和感のない合成音を発
声することができる音声合成装置、音声合成方法及び記
録媒体を提案しようとするものである。
【0013】
【課題を解決するための手段】かかる課題を解決するた
めに本発明においては、音韻記号と韻律記号とに基づい
て所定の音韻規則及び韻律規則によつて韻律情報を設定
する音声合成規則部4と、音声波形データを必要フレー
ム数貯えた音声単位及び韻律情報に基づいて合成音を生
成する音声合成部5とを有する波形編集型の音声合成装
置1において、少なくとも一つの音素に対して、音声単
位間の接続フレームにおける代表的なスペクトル包絡特
性を設定し、その代表的なスペクトル包絡特性を以て音
声波形データのスペクトル包絡軌道を正規化した音声単
位を記憶する音声単位記憶部2を設けるようにした。
【0014】また本発明においては、少なくとも一つの
音素に対して設定された、音声単位間の接続フレームに
おける代表的なスペクトル包絡特性を以て、スペクトル
包絡軌道が正規化された音声波形データを必要数貯えた
音声単位を記憶する音声単位記憶部2と、音韻記号と韻
律記号とに基づいて所定の音韻規則及び韻律規則によつ
て韻律情報を設定する音声合成規則部4と、音声単位及
び韻律情報に基づいて合成音を生成する音声合成部5と
を有する波形編集型の音声合成装置1において、音声単
位記憶部2に貯えられている音声単位内の有声部分にお
いて、各フレームの音声波形データの位相特性を最小位
相特性に整えるようにした。
【0015】また本発明においては、音韻記号と韻律記
号とに基づいて所定の音韻規則及び韻律規則によつて韻
律情報を設定すると共に、音声波形データを必要フレー
ム数貯えた音声単位及び韻律情報に基づいて合成音を生
成する波形編集型の音声合成方法において、少なくとも
一つの音素に対して、音声単位間の接続フレームにおけ
る代表的なスペクトル包絡特性を設定し、その代表的な
スペクトル包絡特性を以て音声波形データのスペクトル
包絡軌道を正規化した音声単位を記憶するようにした。
【0016】また本発明においては、少なくとも一つの
音素に対して設定された音声単位間の接続フレームにお
ける代表的なスペクトル包絡特性を以て、スペクトル包
絡軌道が正規化された音声波形データを必要数貯えた音
声単位を記憶すると共に、音韻記号と韻律記号とに基づ
いて所定の音韻規則及び韻律規則によつて韻律情報を設
定し、音声単位及び韻律情報に基づいて合成音を生成す
る波形編集型の音声合成方法において、音声単位内の有
声部分において、各フレームの音声波形データの位相特
性を最小位相特性に整えるようにした。
【0017】
【作用】音声単位記憶部2におけるスペクトル包絡軌道
が正規化された音声単位データセツトを用いることによ
つて、時間軸上での単純な波形補間による合成方式に比
べ、補間処理を行うことなしに接続部をよりなめらかに
接続していくことができ、人間の音声に近い高品質な任
意の合成音を得ることができる。
【0018】また音声波形データのスペクトル包絡軌道
が正規化された音声単位による波形編集では、合成音声
の有声部における音声単位間の接続部分での位相特性の
不連続性から、実音声に比べて聴感的に違和感が生じ品
質の劣化が問題となるが、音声波形データの位相特性を
全て最小位相特性に整えることによつて、聴感上の違和
感を解消することが出来、より高品質な任意の合成音声
を得ることができる。
【0019】また、最小位相特性ということからその音
声波形データは、波形データの中心のサンプル点を原点
とした場合に、負の時間領域では波形振幅値が全て0で
あるので、音声単位記憶部2には音声波形データの正の
時間領域だけのデータを貯えれば良い。従つて零位相特
性の音声波形データと同様のデータ削減が可能である上
に、音声合成時には、零位相特性の音声波形データでは
必要な対称な音声波形を生成する処理が不用となり、合
成アルゴリズムを簡略化し得る。
【0020】
【実施例】以下図面について、本発明の一実施例を詳述
する。
【0021】(1)第1実施例 図1において、1は全体として演算処理装置構成の音声
合成装置を示し、音声単位記憶部2、文章解析部3、音
声合成規則部4及び音声合成部5に分割される。文章解
析部3は、所定の入力装置から入力されたテキスト入力
(文字の系列で表された文章等でなる)を所定の辞書を
基準にして解析し、仮名文字列に変換した後、単語、文
節毎に分解する。
【0022】すなわち日本語においては、英語のように
単語が分かち書きされていないことから、例えば「米国
産業界」のような言葉は、「米国/産業・界」、「米/
国産/業界」のように2種類以上に区分化し得る。この
ため文章解析部3は、辞書を参考にしながら、言葉の連
続関係及び単語の統計的性質を利用して、テキスト入力
を単語、文節毎に分解するようになされ、これにより単
語、文節の境界を検出するようになされている。さらに
文章解析部3は、各単語毎に基本アクセントを検出した
後、音声合成規則部4に出力する。
【0023】音声合成規則部4は、日本語の特徴に基づ
いて設定された所定の音韻規則に従つて、文章解析部3
の検出結果及びテキスト入力を処理するようになされて
いる。すなわち、日本語の自然な音声は、言語学的特性
に基づいて区別すると、約100程度の発声の単位に区
分することができる。例えば、「さくら」という単語を
発声の単位に区分すると、「sa」+「ak」+「ku」+
「ur」+「ra」の5つのCV/VC単位に分割すること
ができる。
【0024】さらに日本語は、単語が連続する場合、連
なつた後ろの語の語頭音節が濁音化したり(すなわち続
濁でなる)、語頭以外のガ行音が鼻音化したりして、単
語単体の場合と発声が変化する特徴がある。従つて音声
合成規則部4は、これら日本語の特徴に従つて音韻規則
が設定されるようになされ、その規則に従つてテキスト
入力を音韻記号列(すなわち上述の「sa」+「ak」+
「ku」+「ur」+「ra」等の連続する列でなる)に変換
するようになされている。さらに音声合成規則部4は、
この音韻記号列に基づいて、音声単位記憶部2から各音
声単位データをロードする。
【0025】ここで音声合成装置1は、波形編集の手法
を用いて合成音を発声するようになされ、音声単位記憶
部2からロードされるデータは、各CV/VC単位で表
される合成音を生成する際に用いられる波形データでな
る。この波形合成に用いる音声単位データは次のように
構成される。
【0026】すなわち音声単位データの有声部に関して
は、実音声の有声部分において1ピツチに対応する音声
波形データを必要なフレーム数だけ貯えたものからな
り、また音声単位データの無声部に関しては、実音声の
無声部分の波形を切り出してそのまま貯えたものからな
る。例えば音声単位データがCV/VC単位である場合
には、ある1つの音声単位CVは、その子音部Cが無声
子音である時には無声部分の切り出し波形と、1ピツチ
の音声波形の複数フレームからなる音声波形データから
構成され、また子音部Cが有声子音である時には1ピツ
チの音声波形からなる複数フレームの音声波形データか
ら構成される。
【0027】またこの音声単位データは、音声単位記憶
部2に貯えられている全ての音声単位データの集まりで
ある音声単位データセツト内において、図2に示すよう
なブロツクによつて、音声単位データ内の音声波形デー
タのスペクトル包絡軌道が正規化される。この音声波形
データのスペクトル包絡軌道の正規化処理の具体例を以
下に示す。
【0028】すなわちまず音声単位データセツトに含ま
れる少なくとも一つの音素に対して、音声単位間を接続
する場合の接続フレームにおける代表的なスペクトル包
絡特性を設定する。これはCV/VC単位による音声単
位データセツトについて、音素/a/ に対する代表的なス
ペクトル包絡特性を設定する場合には、/ak/、/as/、/k
a/、/sa/のように音素/a/ を含む音声単位データセツト
内の当該音声単位データ全てについて、音素/a/ が音声
単位データの前方音素となる場合にはその音声単位デー
タ内の前端フレームを対象の接続フレームとし、また音
素/a/ が音声単位データの後方音素となる場合には、そ
の音声単位データ内の後端フレームを対象の接続フレー
ムとして、対象の接続フレームの音声波形データのスペ
クトル包絡特性を求める。
【0029】このようにして求められた音声単位データ
全てにおけるスペクトル包絡特性から、そのスペクトル
包絡特性の空間内での重心であるセントロイドを求め、
これを音素/a/ における代表的なスペクトル包絡特性と
する。あるいはスペクトル包絡特性の空間内において求
められたセントロイドに最も近い位置にあるスペクトル
包絡特性を代表的なスペクトル包絡特性としても良い。
同様にして、スペクトル包絡軌道の正規化を行う他の音
素に対しても、その代表的なスペクトル包絡特性を設定
する。
【0030】次に音素に対して設定された代表的なスペ
クトル包絡特性を用いて、各音声単位データ内の音声波
形データのスペクトル包絡軌道の正規化を行う。この具
体的な方法は、音声単位データ/am/の場合では次のよう
になる。すなわち音声単位データ/am/内の各フレームに
おける音声波形データを周波数分析し、それぞれの音声
波形データのスペクトル包絡特性とスペクトル微細構造
特性を抽出する。
【0031】次に音素/a/ の代表的なスペクトル包絡特
性と、抽出された音声単位データ/am/内の前端フレーム
におけるスペクトル包絡特性との差分を計算して、これ
を前端フレームにおけるスペクトル包絡特性のギヤツプ
とし、また音素/m/ の代表的なスペクトル包絡特性と、
抽出された音声単位データ/am/内の後端フレームにおけ
るスペクトル包絡特性との差分を計算して、これを後端
フレームにおけるスペクトル包絡特性のギヤツプとす
る。
【0032】音声単位データ/am/内の音素/a/ と音素/m
/ との境界となるフレームを中心として、求められた両
端のフレームにおけるスペクトル包絡特性のギヤツプを
打ち消すように、音声単位データ/am/に対するスペクト
ル包絡軌道の正規化関数を設定する。図3はスペクトル
包絡軌道の正規化関数である。この正規化関数は、音声
単位データ内の音素境界に接するフレームでスペクトル
包絡特性の補正量が0となるように、音声単位データの
両端のスペクトル包絡特性のギヤツプを直線補間する関
数である。
【0033】また図4はスペクトル包絡軌道の正規化処
理である。設定された正規化関数を抽出された音声単位
データ/am/の各フレームのスペクトル包絡特性に適用す
ることで、両端のフレームにおけるスペクトル包絡特性
はそれぞれ音素/a/ と音素/m/ との代表的なスペクトル
包絡特性となり、しかも音声単位データ内では滑らかな
スペクトル包絡軌道が実現できる。
【0034】最後に音声単位データ/am/内の各フレーム
において、正規化されたスペクトル包絡情報と、周波数
分析によつて得られた原音声波形データの微細構造情報
とを用いて時間波形を求め、この時間波形を各フレーム
の音声波形データとする。このような手法による音声単
位データのスペクトル包絡軌道の正規化を、該当する音
声単位データ全てに対して行う。
【0035】音声合成規則部4は、音声単位記憶部2か
らロードされた音声単位データをテキスト入力に応じた
順序(以下このデータを合成波形データと呼ぶ)で合成
し、かくして抑揚のない状態で、テキスト入力を読み上
げた合成音声波形を得ることができる。さらに音声合成
規則部4は所定の韻律規則に基づいて、テキスト入力を
適当な長さで分割して、切れ目すなわちポーズを検出す
る。かくして図5に示すように、例えばテキスト入力と
して文章「きれいな花を山田さんからもらいました」が
入力された場合は(図5(A))、当該テキスト入力は
「きれいな」、「はなを」、「やまださんから」、「も
らいました」に分解された後、「はなを」及び「やまだ
さんから」の間にポーズが検出される(図5(B))。
【0036】さらに音声合成規則部4は、韻律規則及び
各単語の基本アクセントに基づいて、各文節のアクセン
トを検出する。すなわち日本語の文節単体のアクセント
は、感覚的に仮名文字を単位として(以下モーラと呼
ぶ)、高低の2レベルで表現することができる。このと
き文節の内容等に応じて、文節のアクセント位置を区別
することができる。例えば、端、箸、橋は、2モーラの
単語で、それぞれアクセントのない0型、アクセントの
位置が先頭のモーラにある1型、アクセントの位置が2
モーラ目にある2型に分類することができる。かくし
て、この実施例において音声合成規則部4は、テキスト
入力の各文節を、それぞれ1型、2型、0型、4型と分
類し(図5(C))、これにより文節単位でアクセント
及びポーズを検出する。
【0037】さらに音声合成規則部4は、アクセント及
びポーズの検出結果に基づいて、テキスト入力全体の抑
揚を表す基本ピツチパターンを生成する。すなわち日本
語において文節のアクセントは、感覚的に2レベルで表
し得るのに対し、実際の抑揚は、アクセントの位置から
徐々に低下する特徴がある(図5(D))。さらに日本
語においては、文節が連続して1つの文章になると、ポ
ーズから続くポーズに向かつて、抑揚が徐々に低下する
特徴がある(図5(E))。
【0038】従つて音声合成規則部4は、かかる日本語
の特徴に基づいて、テキスト入力全体の抑揚を表すパラ
メータを各モーラ毎に生成した後、人間が発声した場合
と同様に抑揚が滑らかに変化するように、モーラ間の補
間によりパラメータを設定する。かくして音声合成規則
部4は、テキスト入力に応じた順序で、各モーラのパラ
メータ及び補間したパラメータを合成し(以下ピツチパ
ターンと呼ぶ)、かくしてテキスト入力を読み上げた音
声の抑揚を表すピツチパターン(図5(F))を得るこ
とができる。
【0039】音声合成部5は、合成波形データ及びピツ
チパターンに基づいて波形合成処理を行ない合成音を生
成する。この波形合成処理は次のように行う。すなわち
合成音声の有声部においては、合成波形データ内の1ピ
ツチに対応した波形データをピツチパターンに基づいて
並べ重畳していく。また合成音声の無声部分において
は、合成波形データ内の切り出し波形をそのまま所望の
合成音声の波形とする。これによりピツチパターンの変
化に追従して抑揚の変化する合成音を得ることができ
る。
【0040】このように音声を合成するために用いる音
声単位データのスペクトル包絡軌道を正規化することに
よつて、高品質な合成音声が得られる波形重畳方式の音
声合成において、同一音素内における音声単位接続部で
の接続歪みがほとんど解消され、音声合成時における補
間処理を行うことなしに、音声単位データが滑らかに接
続された人間の音声に近い高品質な任意の合成音が得ら
れる。
【0041】以上の構成において、所定の入力装置から
入力されたテキスト入力は、文章解析部2で、所定の辞
書を基準にして解析され、単語、文節の境界及び基本ア
クセントが検出される。単語、文節の境界及び基本アク
セントの検出結果は、音声合成規則部4で、所定の音韻
規則に従つて処理され、抑揚のない状態でテキスト入力
を読み上げた音声を表す合成波形データが生成される。
【0042】さらに単語、文節の境界及び基本アクセン
トの検出結果は、音声合成規則部4で、所定の韻律規則
に従つて処理され、テキスト入力全体の抑揚を表すピツ
チパターンが生成される。ピツチパターンは合成波形デ
ータと共に音声合成部5に出力され、ここでピツチパタ
ーン及び合成波形データに基づいて合成音が生成され
る。
【0043】以上の構成によれば、高品質な合成音声が
得られる波形重畳方式の音声合成において、合成時にお
ける音声単位間の補間処理を行うことなしに滑らかに音
声単位が接続され、人間の音声に近い高品質な合成音声
を任意に生成することができる。
【0044】(2)第2実施例 この第2実施例の場合、音声単位データは音声単位記憶
部2に貯えられている全ての音声単位データの集まりで
ある音声単位データセツト内において、図6に示すよう
なブロツクによつて、音声単位データ内の音声波形デー
タのスペクトル包絡軌道が正規化されている。この音声
波形データのスペクトル包絡軌道の正規化処理の具体例
を以下に示す。
【0045】すなわちまず図2の場合と同様にして、音
声単位データセツトに含まれる少なくとも一つの音素に
対して、音声単位間を接続する場合の接続フレームにお
ける代表的なスペクトル包絡特性を設定する。これはC
V/VC単位による音声単位データセツトについて、音
素/a/ に対する代表的なスペクトル包絡特性を設定する
場合には、/ak/、/as/、/ka/、/sa/のように音素/a/ を
含む該当音声単位データ全てについて、音素/a/ が音声
単位データの前方音素となる場合にはその音声単位デー
タ内の前端フレームを対象の接続フレームとし、また音
素/a/ が音声単位データの後方音素となる場合には、そ
の音声単位データ内の後端フレームを対象の接続フレー
ムとして、対象の接続フレームの音声波形データのスペ
クトル包絡特性を求める。
【0046】このようにして求められた音声単位データ
全てにおけるスペクトル包絡特性から、そのスペクトル
包絡特性の空間内での重心であるセントロイドを求め、
これを音素/a/における代表的なスペクトル包絡特性と
する。あるいは、スペクトル包絡特性の空間内において
求められたセントロイドに最も近い位置にあるスペクト
ル包絡特性を代表的なスペクトル包絡特性としても良
い。同様にして、スペクトル包絡軌道の正規化を行う他
の音素に対しても、その代表的なスペクトル包絡特性を
設定する。
【0047】次に音素に対して設定された代表的なスペ
クトル包絡特性を用いて、各音声単位データ内の音声波
形データのスペクトル包絡軌道の正規化を行う。この具
体的な方法は、音声単位データ/am/の場合では次のよう
になる。すなわち音声単位データ/am/内の各フレームに
おける音声波形データ(図7(A))をケプストラム分
析し、該当する音声波形データのケプストラムc(n)(図
7(B))を求める(ここでn:-(N/2)≦ n<(N/2),N:ケ
プストラム分析のフレーム長)。この結果求められたケ
プストラムc(n)に対して任意の次数k (0 < k<(N/2)
、通常32次程度)を設定し、次式
【数1】 ようなケプストラム窓w1、w2によつてリフタリングを行
う。
【0048】この(3)式によつて、k 次よりも低次の
ケプストラム係数、つまり低ケフレンシー部c1(n) (図
7(C))が抽出される。この低ケフレンシー部は、周
波数領域では分析対象の音声波形データのスペクトル包
絡特性を表現する。また(4)式によつて、k 次以上の
ケプストラム係数、つまり高ケフレンシー部c2(n) (図
7(D))が抽出される。この高ケフレンシー部は、周
波数領域では分析対象の音声波形データの微細構造特性
を表現する。このようにして、分析対象の音声波形デー
タのスペクトル包絡特性と微細構造特性をケプストラム
によつて分離しそれぞれを抽出する。
【0049】次に音素/a/ の代表的なスペクトル包絡特
性のケプストラムを求め、(1)式のケプストラム窓に
よつて、低ケフレンシー部を取り出す。この音素/a/ の
代表的なスペクトル包絡特性を表すケプストラムと、抽
出された音声単位データ/am/内の前端フレームにおける
スペクトル包絡特性を表すケプストラムc1(n) との差分
を計算して、これを前端フレームにおけるスペクトル包
絡特性のケプストラム次元でのギヤツプとする。同様に
音素/m/ の代表的なスペクトル包絡特性を表すケプスト
ラムを求め、抽出された音声単位データ/am/内の後端フ
レームにおけるスペクトル包絡特性を表すケプストラム
c1(n) との差分を計算し、これを後端フレームにおける
スペクトル包絡特性のケプストラム次元でのギヤツプと
する。
【0050】音声単位データ/am/内の音素/a/ と音素/m
/ との境界となるフレームを中心として、求められた両
端のフレームにおけるスペクトル包絡特性のケプストラ
ム次元でのギヤツプを打ち消すように、音声単位データ
/am/ に対するスペクトル包絡軌道の正規化関数を設定
する。図4はスペクトル包絡軌道の正規化関数を周波数
領域で表現したものである。この正規化関数は、次式
【数2】 で表され、音声単位データ内の音素境界に接するフレー
ムでスペクトル包絡特性の補正量が0となるように、音
声単位データの両端のフレームにおける低次のケプスト
ラム係数の差、つまりスペクトル包絡特性のケプストラ
ム次元でのギヤツプを直線補間する関数である。
【0051】図8はスペクトル包絡軌道の正規化処理で
ある。設定された正規化関数を、抽出された音声単位デ
ータ/am/の各フレームのスペクトル包絡特性を表す低ケ
フレンシー部に適用することで、両端のフレームにおけ
るスペクトル包絡特性は、それぞれ音素/a/ と音素/m/
との代表的なスペクトル包絡特性となり、しかも音声単
位データ内では滑らかなスペクトル包絡軌道が実現でき
る。
【0052】次に音声単位データの/am/内の各フレーム
において、正規化されたスペクトル包絡情報を表す低ケ
フレンシー部c1'(n)(図7(E))と、ケプストラム分
析及び(2)式のケプストラム窓によつて抽出されてい
る原音声波形データの微細構造情報を表す高ケフレンシ
ー部c2(n) とを次式
【数3】 のようにして加算する。
【0053】この(6)式によつて得られるケプストラ
ムc'(n) は、分析対象の音声波形データの微細構造特性
と、正規化されたスペクトル包絡特性を合わせ持つ周波
数特性を表現する。求められたケプストラムc'(n) に対
して、ケプストラム分析における逆変換を行つて、スペ
クトル包絡特性が正規化された音声波形データを得る
が、この時点では音声波形データが最小位相信号となる
ために次のような処理を行う。
【0054】すなわち、ケプストラムc'(n) は零位相特
性であるが、次式
【数4】 によつて、c'(n) と同じ周波数特性であり、なおかつ最
小位相特性である複素ケプストラムc''(n)(図7
(F))が得られることが知られている(A. V. Oppenh
eim, "A Speech Analysis-Synthesis System Based on
Homomorphic Filtering", J. Acoust. Soc. Am., Vol.
45, pp. 458-465, Feb 1969 )。
【0055】最後に(7)式によつて求められる最小位
相の複素ケプストラム c''(n) を逆変換することによつ
て、正規化されたスペクトル包絡特性を持ち、なおかつ
最小位相信号である時間波形(図7(G))が得られ、
この時間波形を各フレームの音声波形データとする。上
述した手法による音声単位データのスペクトル包絡軌道
の正規化を、該当する音声単位データ全てに対して行
う。
【0056】音声合成規則部4は、音声単位記憶部2か
らロードされた音声単位データをテキスト入力に応じた
順序(以下このデータを合成波形データと呼ぶ)で合成
し、かくして抑揚のない状態で、テキスト入力を読み上
げた合成音声波形を得ることができる。さらに音声合成
規則部4は所定の韻律規則に基づいて、テキスト入力を
適当な長さで分割して、切れ目すなわちポーズを検出す
る。かくして図5に示すように、例えばテキスト入力と
して文章「きれいな花を山田さんからもらいました」が
入力された場合は(図5(A))、当該テキスト入力は
「きれいな」、「はなを」、「やまださんから」、「も
らいました」に分解された後、「はなを」及び「やまだ
さんから」の間にポーズが検出される(図5(B))。
【0057】さらに音声合成規則部4は、韻律規則及び
各単語の基本アクセントに基づいて、各文節のアクセン
トを検出する。すなわち日本語の文節単体のアクセント
は、感覚的に仮名文字を単位として(以下モーラと呼
ぶ)、高低の2レベルで表現することができる。このと
き文節の内容等に応じて、文節のアクセント位置を区別
することができる。例えば、端、箸、橋は、2モーラの
単語で、それぞれアクセントのない0型、アクセントの
位置が先頭のモーラにある1型、アクセントの位置が2
モーラ目にある2型に分類することができる。かくし
て、この実施例において音声合成規則部4は、テキスト
入力の各文節を、それぞれ1型、2型、0型、4型と分
類し(図5(C))、これにより文節単位でアクセント
及びポーズを検出する。
【0058】さらに音声合成規則部4は、アクセント及
びポーズの検出結果に基づいて、テキスト入力全体の抑
揚を表す基本ピツチパターンを生成する。すなわち日本
語において文節のアクセントは、感覚的に2レベルで表
し得るのに対し、実際の抑揚は、アクセントの位置から
徐々に低下する特徴がある(図5(D))。さらに日本
語においては、文節が連続して1つの文章になると、ポ
ーズから続くポーズに向かつて、抑揚が徐々に低下する
特徴がある(図5(E))。
【0059】従つて音声合成規則部4は、かかる日本語
の特徴に基づいて、テキスト入力全体の抑揚を表すパラ
メータを各モーラ毎に生成した後、人間が発声した場合
と同様に抑揚が滑らかに変化するように、モーラ間の補
間によりパラメータを設定する。かくして音声合成規則
部4は、テキスト入力に応じた順序で、各モーラのパラ
メータ及び補間したパラメータを合成し(以下ピツチパ
ターンと呼ぶ)、かくしてテキスト入力を読み上げた音
声の抑揚を表すピツチパターン(図5(F))を得るこ
とができる。
【0060】音声合成部5は、合成波形データ及びピツ
チパターンに基づいて波形合成処理を行ない合成音を生
成する。この波形合成処理は次のように行う。すなわち
合成音声の有声部においては、合成波形データ内の1ピ
ツチに対応した波形データをピツチパターンに基づいて
並べ重畳していく。また合成音声の無声部分において
は、合成波形データ内の切り出し波形をそのまま所望の
合成音声の波形とする。これによりピツチパターンの変
化に追従して抑揚の変化する合成音を得ることができ
る。
【0061】このように、スペクトル包絡軌道が正規化
された音声単位データにおいて、その有声部分の音声波
形データの位相特性を最小位相特性に整えることによつ
て、音声単位データ間の接続部分での位相特性が連続と
なり、聴感的な違和感が解消され、高品質な任意合成音
が得られる波形重畳方式において、より自然で滑らかな
音声単位データの接続が実現できる。
【0062】以上の構成において、所定の入力装置から
入力されたテキスト入力は、文章解析部2で、所定の辞
書を基準にして解析され、単語、文節の境界及び基本ア
クセントが検出される。単語、文節の境界及び基本アク
セントの検出結果は、音声合成規則部4で、所定の音韻
規則に従つて処理され、抑揚のない状態でテキスト入力
を読み上げた音声を表す合成波形データが生成される。
【0063】さらに単語、文節の境界及び基本アクセン
トの検出結果は、音声合成規則部4で、所定の韻律規則
に従つて処理され、テキスト入力全体の抑揚を表すピツ
チパターンが生成される。ピツチパターンは合成波形デ
ータと共に音声合成部5に出力され、ここでピツチパタ
ーン及び合成波形データに基づいて合成音が生成され
る。
【0064】以上の構成によれば、スペクトル包絡軌道
が正規化された音声単位データセツトを用いた波形重畳
方式の音声合成において、合成時における音声単位デー
タ間の位相特性のずれが解消され、人間の音声に近い高
品質な合成音声を任意に生成することができる。
【0065】(3)他の実施例 なお上述の第2実施例においては、音声単位データ内の
有声部分の音声波形データの位相特性を最小位相特性に
整える場合について述べたが、最小位相特性の複素ケプ
ストラムを求める(7)式の変わりに、次式
【数5】 を用いて最大位相特性の複素ケプストラムを求め、これ
によつて音声波形データの位相特性を最大位相特性に整
えるようにしても良い。
【0066】また上述の実施例においては、文章解析部
でテキスト入力を解析したが、これに代え音声合成装置
内には文章解析部を持たず、音声合成装置への直接の入
力として、音韻記号と韻律記号とが与えられるようにな
されても上述の実施例と同様の効果を実現できる。
【0067】さらに上述の実施例においては、音声単位
データに対するスペクトル包絡軌道の正規化処理を、音
声単位データ内の音素境界を中心にして全てのフレーム
に対して施す場合について述べたが、本発明はこれに限
らず、音声単位データの前端からの任意のフレーム数及
び後端からの任意のフレーム数のみに対して正規化処理
を施しても良い。
【0068】さらに上述の実施例においては、音声単位
データに対するスペクトル包絡軌道の正規化処理を、音
声単位データ全体に対して施す場合について述べたが、
本発明はこれに限らず、音声単位内の有声部分に対して
のみ正規化処理を施しても良い。
【0069】さらに上述の実施例においては、音声単位
データがCV/VC単位である場合について述べたが、
本発明はこれに限らず、音声単位データがVCV単位や
CVC単位、あるいはその両者のように、音声単位デー
タを同一音素内で接続する音声合成方式において、音声
単位データ内の音韻連鎖が任意の数であつたり、音声単
位データ内の音韻連鎖のパターンが任意である場合に
も、音声単位内の前端フレーム及び後端フレームを含む
音素に対してのみ正規化処理を施しても良い。
【0070】
【発明の効果】上述のように本発明によれば、高品質な
合成音声が得られる波形重畳方式の音声合成において、
音声合成時の音声単位間の補間処理を行うことなく、音
声単位接続部での接続歪みをほとんど解消することがで
き、人間の音声に近い高品質な合成音を任意に合成する
ことができる音声合成装置、音声合成装置及び記録媒体
を得ることができる。
【0071】さらに上述のように本発明によれば、スペ
クトル包絡軌道が正規化された音声単位データセツトを
用いた波形重畳方式の音声合成において、合成時におけ
る音声単位データ間の位相特性のずれが解消され、人間
の音声に近い高品質な合成音を任意に合成することがで
きる音声合成装置、音声合成装置及び記録媒体を得るこ
とができる。
【図面の簡単な説明】
【図1】本発明による音声合成装置の一実施例を示すブ
ロツク図である。
【図2】図1の音声合成装置における音声単位データセ
ツトの正規化処理の第1実施例を示すブロツク図であ
る。
【図3】音声単位データのスペクトル包絡軌道の正規化
関数を示す特性曲線図である。
【図4】音声単位データのスペクトル包絡軌道の正規化
処理の説明に供する特性曲線図である。
【図5】本発明の一実施例の動作として基本ピツチパタ
ーンの生成の説明に供する略線図である。
【図6】図1の音声合成装置における音声単位データセ
ツトの正規化処理の第2実施例を示すブロツク図であ
る。
【図7】図6の正規化処理の動作の説明に供する特性曲
線図である。
【図8】音声単位データのスペクトル包絡軌道の正規化
関数を周波数領域で表現して示す特性曲線図である。
【図9】音声単位データのスペクトル包絡軌道の正規化
処理の説明に供する特性曲線図である。
【符号の説明】
1……音声合成装置、2……音声単位記憶部、3……文
章解析部、4……音声合成規則部、5……音声合成部。

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】音韻記号と韻律記号とに基づいて所定の音
    韻規則及び韻律規則によつて韻律情報を設定する音声合
    成規則部と、音声波形データを必要フレーム数貯えた音
    声単位及び上記韻律情報に基づいて合成音を生成する音
    声合成部とを有する波形編集型の音声合成装置におい
    て、 少なくとも一つの音素に対して、上記音声単位間の接続
    フレームにおける代表的なスペクトル包絡特性を設定
    し、当該代表的なスペクトル包絡特性を以て上記音声波
    形データのスペクトル包絡軌道を正規化した上記音声単
    位を記憶する音声単位記憶部を具えることを特徴とする
    音声合成装置。
  2. 【請求項2】入力された文字の系列を解析して、単語、
    文節の境界及び基本アクセントを検出し、上記音韻記号
    と上記韻律記号とを生成する文章解析部を具えることを
    特徴とする請求項1に記載の音声合成装置。
  3. 【請求項3】上記音声単位の上記スペクトル包絡軌道の
    正規化を、上記音声単位の前端及び又は後端の任意数の
    フレームに対してのみ行うようにしたことを特徴とする
    請求項1又は請求項2に記載の音声合成装置。
  4. 【請求項4】上記音声単位の上記スペクトル包絡軌道の
    正規化を、上記音声単位内の有声部分に対してのみ行う
    ようにしたことを特徴とする請求項1、請求項2又は請
    求項3に記載の音声合成装置。
  5. 【請求項5】上記音声単位の上記スペクトル包絡軌道の
    正規化を、上記音声単位内の前端及び又は後端の接続フ
    レームを含む音素に対してのみ行うようにしたことを特
    徴とする請求項1、請求項2又は請求項3に記載の音声
    合成装置。
  6. 【請求項6】少なくとも一つの音素に対して設定され
    た、音声単位間の接続フレームにおける代表的なスペク
    トル包絡特性を以て、スペクトル包絡軌道が正規化され
    た音声波形データを必要数貯えた音声単位を記憶する音
    声単位記憶部と、音韻記号と韻律記号とに基づいて所定
    の音韻規則及び韻律規則によつて韻律情報を設定する音
    声合成規則部と、上記音声単位及び上記韻律情報に基づ
    いて合成音を生成する音声合成部とを有する波形編集型
    の音声合成装置において、 上記音声単位記憶部に貯えられている上記音声単位内の
    有声部分について、各フレームの上記音声波形データの
    位相特性を最小位相特性に整えるようにしたことを特徴
    とする音声合成装置。
  7. 【請求項7】上記音声単位記憶部に貯えられている上記
    音声単位内の有声部分について、各フレームの上記音声
    波形データの位相特性を最大位相特性に整えるようにし
    たことを特徴とする請求項6に記載の音声合成装置。
  8. 【請求項8】音韻記号と韻律記号とに基づいて所定の音
    韻規則及び韻律規則によつて韻律情報を設定すると共
    に、音声波形データを必要フレーム数貯えた音声単位及
    び上記韻律情報に基づいて合成音を生成する波形編集型
    の音声合成方法において、 少なくとも一つの音素に対して、上記音声単位間の接続
    フレームにおける代表的なスペクトル包絡特性を設定
    し、当該代表的なスペクトル包絡特性を以て上記音声波
    形データのスペクトル包絡軌道を正規化した音声単位を
    記憶するようにしたことを特徴とする音声合成方法。
  9. 【請求項9】入力された文字の系列を解析して、単語、
    文節の境界及び基本アクセントを検出し、上記音韻記号
    と上記韻律記号とを生成するようにしたことを特徴とす
    る請求項8に記載の音声合成方法。
  10. 【請求項10】上記音声単位の上記スペクトル包絡軌道
    の正規化を、上記音声単位の前端及び又は後端の任意数
    のフレームに対してのみ行うようにしたことを特徴とす
    る請求項8又は請求項9に記載の音声合成方法。
  11. 【請求項11】上記音声単位の上記スペクトル包絡軌道
    の正規化を、上記音声単位内の有声部分に対してのみ行
    うようにしたことを特徴とする請求項8、請求項9又は
    請求項10に記載の音声合成方法。
  12. 【請求項12】上記音声単位の上記スペクトル包絡軌道
    の正規化を、上記音声単位内の前端及び又は後端の接続
    フレームを含む音素に対してのみ行うようにしたことを
    特徴とする請求項8、請求項9、請求項10又は請求項
    11に記載の音声合成方法。
  13. 【請求項13】少なくとも一つの音素に対して設定され
    た音声単位間の接続フレームにおける代表的なスペクト
    ル包絡特性を以て、スペクトル包絡軌道が正規化された
    音声波形データを必要数貯えた音声単位を記憶すると共
    に、音韻記号と韻律記号とに基づいて所定の音韻規則及
    び韻律規則によつて韻律情報を設定し、上記音声単位及
    び上記韻律情報に基づいて合成音を生成する波形編集型
    の音声合成方法において、 上記音声単位内の有声部分において、各フレームの上記
    音声波形データの位相特性を最小位相特性に整えるよう
    にしたことを特徴とする音声合成方法。
  14. 【請求項14】上記音声単位内の有声部分において、各
    フレームの上記音声波形データの位相特性を最大位相特
    性に整えるようにしたことを特徴とする請求項13に記
    載の音声合成方法。
  15. 【請求項15】請求項8、請求項9、請求項10、請求
    項11、請求項12、請求項13又は請求項14に記載
    の音声合成方法を記録した記録媒体。
  16. 【請求項16】請求項8、請求項10、請求項11、請
    求項12、請求項13又は請求項14に記載の音声単位
    のデータを記録した記録媒体。
JP22815693A 1993-08-19 1993-08-19 音声合成装置及び方法 Expired - Fee Related JP3622990B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22815693A JP3622990B2 (ja) 1993-08-19 1993-08-19 音声合成装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22815693A JP3622990B2 (ja) 1993-08-19 1993-08-19 音声合成装置及び方法

Publications (2)

Publication Number Publication Date
JPH0756590A true JPH0756590A (ja) 1995-03-03
JP3622990B2 JP3622990B2 (ja) 2005-02-23

Family

ID=16872112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22815693A Expired - Fee Related JP3622990B2 (ja) 1993-08-19 1993-08-19 音声合成装置及び方法

Country Status (1)

Country Link
JP (1) JP3622990B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268699A (ja) * 2001-03-09 2002-09-20 Sony Corp 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
WO2011118207A1 (ja) * 2010-03-25 2011-09-29 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
JP2013015829A (ja) * 2011-06-07 2013-01-24 Yamaha Corp 音声合成装置
WO2016207950A1 (ja) * 2015-06-22 2016-12-29 パイオニア株式会社 シャント音解析装置、シャント音解析方法、コンピュータプログラム及び記録媒体

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57171398A (en) * 1981-04-14 1982-10-21 Nippon Electric Co Rule type sound synthetic device
JPS58100900A (ja) * 1981-12-11 1983-06-15 日本電気株式会社 任意語の音声合成方法
JPS61259300A (ja) * 1985-05-14 1986-11-17 株式会社リコー 音声合成方式
JPH02135931A (ja) * 1988-11-17 1990-05-24 Matsushita Electric Ind Co Ltd 信号処理方法
JPH03233500A (ja) * 1989-12-22 1991-10-17 Oki Electric Ind Co Ltd 音声合成方式およびこれに用いる装置
JPH05181491A (ja) * 1991-12-30 1993-07-23 Sony Corp 音声合成装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57171398A (en) * 1981-04-14 1982-10-21 Nippon Electric Co Rule type sound synthetic device
JPS58100900A (ja) * 1981-12-11 1983-06-15 日本電気株式会社 任意語の音声合成方法
JPS61259300A (ja) * 1985-05-14 1986-11-17 株式会社リコー 音声合成方式
JPH02135931A (ja) * 1988-11-17 1990-05-24 Matsushita Electric Ind Co Ltd 信号処理方法
JPH03233500A (ja) * 1989-12-22 1991-10-17 Oki Electric Ind Co Ltd 音声合成方式およびこれに用いる装置
JPH05181491A (ja) * 1991-12-30 1993-07-23 Sony Corp 音声合成装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268699A (ja) * 2001-03-09 2002-09-20 Sony Corp 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
WO2011118207A1 (ja) * 2010-03-25 2011-09-29 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
CN102822888A (zh) * 2010-03-25 2012-12-12 日本电气株式会社 话音合成器、话音合成方法和话音合成程序
JPWO2011118207A1 (ja) * 2010-03-25 2013-07-04 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
JP2013015829A (ja) * 2011-06-07 2013-01-24 Yamaha Corp 音声合成装置
WO2016207950A1 (ja) * 2015-06-22 2016-12-29 パイオニア株式会社 シャント音解析装置、シャント音解析方法、コンピュータプログラム及び記録媒体

Also Published As

Publication number Publication date
JP3622990B2 (ja) 2005-02-23

Similar Documents

Publication Publication Date Title
JPH031200A (ja) 規則型音声合成装置
JPH0632020B2 (ja) 音声合成方法および装置
JP2761552B2 (ja) 音声合成方法
JP2904279B2 (ja) 音声合成方法および装置
JP3622990B2 (ja) 音声合成装置及び方法
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
JPH0887297A (ja) 音声合成システム
Rama et al. Thirukkural: a text-to-speech synthesis system
JP3614874B2 (ja) 音声合成装置及び方法
JP3235747B2 (ja) 音声合成装置及び音声合成方法
JPH0580791A (ja) 音声規則合成装置および方法
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
US7130799B1 (en) Speech synthesis method
JP3883318B2 (ja) 音声素片作成方法及び装置
JPH09179576A (ja) 音声合成方法
JP2001100777A (ja) 音声合成方法及び装置
JP2703253B2 (ja) 音声合成装置
JP2900454B2 (ja) 音声合成装置の音節データ作成方式
JP2995774B2 (ja) 音声合成方式
Lehana et al. Improving quality of speech synthesis in Indian Languages
Krithiga et al. Improved Tamil Text to Speech Synthesis
JPH09292897A (ja) 音声合成装置
Mohanty et al. An Approach to Proper Speech Segmentation for Quality Improvement in Concatenative Text-To-Speech System for Indian Languages
Jung et al. On a pitch alteration technique of speech using the asymmetry weighted window
JPH03269599A (ja) 音声合成装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041021

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071203

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081203

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091203

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees