JP2573585B2 - 音声スペクトルパタン生成装置 - Google Patents

音声スペクトルパタン生成装置

Info

Publication number
JP2573585B2
JP2573585B2 JP61257488A JP25748886A JP2573585B2 JP 2573585 B2 JP2573585 B2 JP 2573585B2 JP 61257488 A JP61257488 A JP 61257488A JP 25748886 A JP25748886 A JP 25748886A JP 2573585 B2 JP2573585 B2 JP 2573585B2
Authority
JP
Japan
Prior art keywords
data
voice
unit
spectrum pattern
signal line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61257488A
Other languages
English (en)
Other versions
JPS63110497A (ja
Inventor
幸夫 三留
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP61257488A priority Critical patent/JP2573585B2/ja
Publication of JPS63110497A publication Critical patent/JPS63110497A/ja
Application granted granted Critical
Publication of JP2573585B2 publication Critical patent/JP2573585B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Light Guides In General And Applications Therefor (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、文字列などの音声を表す情報から規則によ
り音声を合成するのに用いる音声スペクトルパタン、即
ち音声のスペクトル包絡の時間変化パタンを生成する装
置に関する。
(従来の技術) 任意の文章や単語の読み等を表す文字列から音声を合
成するいわゆる音声の規則合成においては、音声合成す
べき文章などの読み等にもとづいて、音声スペクトルパ
タン、即ち音韻性に関わる音声のスペクトル包絡の時間
変化パタンを生成することが、明瞭で自然な合成音声を
生成するために重要である。ここに、読みなどを表す文
字列としては、音素系列、即ち音素(特定の子音や母
音)の系列としてあらわされるもの、例えば「こんにち
は」という言葉に対して、/k//o//N//n//i//ch//i//w//
a/というような系列が一般的である。ただし、これは概
念的なものであり、読みを表せるならばアルファベット
による音素系列に限るものではなく文字などを用いるこ
ともできる。また、上記の各音素は、それぞれある時間
にわたって継続するものである。例えば、初めの子音/k
/は50ミリ秒、次の母音/o/は100ミリ秒といったよう
に、この各音素の継続する時間の具体的数値を時間長デ
ータと呼ぶ。その値は、音素固有のものではなく、前後
の音素の違いや、発声の速度によって変化するものであ
る。
このような音声の規則合成におけるスペクトルパタン
の生成の例は、三留と伏木田による日本音響学会音声研
究会資料S85−31(1985.7)、「ホルマント、CV−VC型
規則合成」に示されている。これは、音声合成規則とし
て、時間長規則、ピッチ規則、ポーズ規則、パラメータ
編集規則などがあり、あらかじめ自然音声を分析して得
られたCV−VC(Cは子音Vは母音を表す)を単位とする
ホルマントパラメータを編集し、それをホルマント型音
声合成器に与えることで任意の音声を合成するものであ
る。ここにホルマントとは、フォルマントととも呼ば
れ、音声のスペクトルの特徴をあらわすパラメータで、
スペクトルのピークを意味している。これは声道、即ち
声帯の上部の喉から口の中までの音響的共振特性に対応
するものであり、共振周波数の低い方から第一ホルマン
ト、第二ホルマント等と呼ばれ、音声の音韻性や個人性
は第一から第三ないし第五程度までのホルマントで特徴
づけられるといわれている。
これらの諸規則の内、パラメータ編集規則は、合成す
べき音声の音素系列に基づいて、あらかじめ用意された
CV−VCを単位とするホルマントデータを編集してホルマ
ントの時間変化すなわちスペクトルパタンを生成し音声
を合成する規則である。
この例の場合は、単位となるCV−VC毎のスペクトルパ
タンはあらかじめ用意されており、CV−VCの番号を指定
することによってその単位部分のスペクトルパタンを生
成することができる。即ち、この場合、CV−VCの番号が
スペクトルパタン生成のためのパラメータ、即ち単位音
声番号となっている。このような例は他に、単位として
VCVやCVCを用いたり、編集するデータとしてホルマント
の代わりに、PARCORやLSPを用いたり、単位音声の波形
を用いるものなどが知られている。
一方、第二の従来例としては、プロシーディングス
アイシーエイエスエスピー82(Proceedings ICASSP 8
2、1982年音響・音声・信号処理国際会議論文集)の158
9ページから1592ページに示されたクラット(Klatt)に
よる論文「ザ クラットーク テキスト トゥー スピ
ーチ コンバージョン システム(The Klattalk Text
−to−Speech Conversion system)」がある。この例で
は、英語音声の音素の始端や終端におけるホルマント等
のターゲット値を与え、その間をなめらかに補間するホ
ルマント規則を有している。この場合、そのターゲット
値がスペクトルパタン生成のためのパラメータとなって
いる。
これらの例に共通するのは、入力の音声情報に対して
条件の適合する諸規則を適用し、単位音声番号を決定
し、それから音声スペクトルパタンを生成し音声を合成
することである。
(発明が解決しようとする問題点) しかしながら、このような従来の音声スペクトルパタ
ン生成装置においては、同一の文章あるいは単語など
は、常に同一の規則が適用されるため、常に同じように
発音されることになる。そのため、従来の音声スペクト
ルパタン生成装置によって生成されたスペクトルパタン
を用いて合成された合成音声は機械的で不自然な印象を
うけ、長時間聞くと疲れるといった問題があった。
単語や単文が長文の一部として現れる場合には、前後
関係が異なるならば、規則によっては少し異なって合成
される場合もある。しかし、単語などが句読点によって
区切られ単独で現れ、規則がその前後を考慮しないよう
な場合にはいつも同じ様に合成されることになる。
このような状況は、テキストが長くなればなるほど発
生する可能性が高くなり、不自然さが目立つことにな
る。
本発明の目的は、従来の音声スペクトルパタン生成装
置に若干の回路を追加した程度の簡単な構成で、より自
然な音声を合成し得る音声スペクトルパタン生成装置を
提供することにある。
(問題点を解決するための手段) 前述の問題点を解決するために、本発明は、入力され
た音素系列などの音声情報の各単位音声に対応する複数
のスペクトルパタンデータを記憶する手段と、該音声情
報の単位音声系列から各単位音声の単位音声番号を生成
する手段と、ランダムデータを発生する手段と、前記ラ
ンダムデータの値に応じて前記単位音声番号を変化させ
る手段とを備え、前記変化後の単位音声番号に基づき前
記記憶手段から前記スペクトルパタンデータを読み出
し、スペクトルパタンを生成することを特徴とする。
(作用) 本発明は、スペクトルパタンを生成するための単位発
声番号を従来と同様に決定し、その値をランダムに変化
させてスペクトルパタンを生成し音声を合成することに
より、機械的な合成音声の発生を避けようとするもので
ある。これは、実際に人間が同一の文章などを音読する
場合には、音色などは発声の度に確率的に揺らぐという
性質があり、それを実現することで自然性を向上させよ
うとするものである。そのために、ランダムデータを発
生する手段によって生成されたランダムデータに応じ
て、単位音声番号を変化させる手段により、従来と同様
に決定された単位音声番号を変化させその値に基づいて
スペクトルパタンを生成するのである。
このとき、あらかじめ実際に人間が発声した音声を分
析して、スペクトルに関連する単位音声番号の統計的な
分布を調べておき、その分布にもとづいて単位音声番号
の変化させる量を決定することにより、より自然な合成
音を生成することができる。
ランダムデータを発声する手段としては、従来から合
同法によるものやM系列によるもの等が知られており、
いずれの方法に基づくものでも利用可能である。
(実施例) 次に、図面を参照して本発明の実施例を説明する。
第1図は、本発明の一実施例のブロック図である。図
において、101は制御回路、102はデータ番号生成回路、
103は単位音声データメモリ、104はデータ編集回路、10
5は乱数発声回路、106は加算器である。本実施例のスペ
クトルパタン生成装置は、前記第一の従来例と同様に、
単音節やCV−VCなどの単位となる音声のスペクトルパタ
ンをあらかじめ用意しておき、これを編集することで任
意の音声のスペクトルパタンを生成するタイプのもので
ある。また、データ番号生成回路102が、入力された音
声情報に基づいて音声のスペクトルパタンを生成するた
めの単位音声番号を生成する手段に相当するものであ
り、単位音声データメモリ103とデータ編集回路104がス
ペクトルパタンを生成する手段に相当するものである。
単位音声データメモリ103には、各単位音声に対して
複数のスペクトルパタンデータが記憶されており、それ
ぞれに割り当てられたデータ番号を信号線118から与え
るとそのデータが信号線119から出力される。ここで、
同一の単位音声に対する複数のスペクトルパタンデータ
の番号は連続的に割り当てておく。即ち、単位音声デー
タメモリ103内には、一つの単位音声に対する異なった
スペクトルパタンデータがグループを成して記憶されて
いる。このように、記憶されているデータの内容は異な
るものの、単位音声データメモリ103の構成は、前述の
第一の従来例に於てあらかじめ用意しておくCV−VCのス
ペクトルパタンのデータを記憶しておくものと同様であ
る。
データ番号生成回路102は、信号線113から入力される
音素系列から、単位音声の系列を生成し、単位音声デー
タメモリ103内の、一つの単位音声に対する異なったス
ペクトルパタンデータのグループの先頭のデータの番号
を生成し、信号線116へ出力する。
データ編集回路104は、単位音声データメモリ103から
信号線119を介して送られる単位音声のスペクトルパタ
ンデータのうち、信号線115から入力される時間長デー
タの示す部分のみを用い、各単位音声間を補間すること
によってスペクトルパタンを生成する。
これら、データ番号生成回路102とデータ編集回路104
も、第一の従来例におけるものと同様の構成で実現でき
る。
乱数発声回路105は、制御回路101から指示がある毎
に、乱数を発生し信号線117を介して加算器106に送る。
このとき生成される乱数は、各単位音声ごとに記憶され
ているスペクトルパタンデータの個数をNとすると、0
から、(N−1)の値をとるものである。
加算器106では、データ番号生成回路102から送られ
る、一つの単位音声に対する異なったスペクトルパタン
データのグループの先頭のデータの番号に、乱数発生回
路105から送られる乱数を加算し、信号線118を介して単
位音声データメモリ103に送る。
制御回路101は、信号線111から音素系列と時間長デー
タが入力されると、音素系列を信号線113を介してデー
タ番号生成回路102に送りデータ番号を発生させ、時間
長データを信号線115を介してデータ編集回路104に送
る。更に、信号線114を介して乱数発生回路105に指示を
送り乱数を発生させる。こうして、データ番号生成回路
102で生成されたデータ番号に、乱数発生回路105で生成
された乱数が加算され、そのデータが単位音声データメ
モリ103から読み出され、データ編集回路104に於て編集
されてスペクトルパタンが生成され、信号線112から出
力される。
第2図は、本発明の変形例のブロック図である。図に
おいて、201は制御回路、202はホルマントターゲット値
生成回路、203はデータ補間回路、204はデータ分布値メ
モリ、205は乱数発生回路、206は乗算器、207は加算器
である。
ホルマントターゲット値生成回路202は、前述の第二
の従来例におけるものと同様に、制御回路201から信号
線213を介して送られる音素系列に基づいて、ホルマン
トターゲット値を生成し、信号線220に送出する。
データ補間回路203も、第二の従来例におけるものと
同様に、信号線216から送られる時間長データに基づい
て、信号線221から入力されるホルマントのターゲット
値の間を補間しスペクトルパタンを生成する。
データ分布値メモリ204には、各ホルマントデータの
ターゲット値の分布する最大値が記憶されていて、制御
回路201から信号線214を介して送られる指示に従って、
その分布の最大値を信号線217へと送り出す。
乱数発生回路205では、制御回路201から信号線215を
介して送られる指示に従って、絶対値が1以下の正負の
乱数が発生され信号線218へと送り出される。
乗算器206では、データ分布値メモリ204から送られる
データの分布の最大値に、乱数発生回路205から送られ
る乱数が乗じられ、その積が信号線219を介して加算器2
07へと送られる。
加算器207では、ホルマントターゲット値生成回路202
から送られるホルマントターゲット値と、乗算器206か
ら送られるデータ分布値と乱数の積が加え合わされて新
たなホルマントターゲット値として信号線221を介して
データ補間回路203に送られる。
制御回路201は、信号線211から音素系列と時間長デー
タが入力されると、音素系列を信号線213を介してホル
マントターゲット値生成回路202に送りホルマントター
ゲット値を発生させ、時間長データを信号線216を介し
てデータ補間回路203に送る。更に、信号線214を介して
データ分布値メモリ204に指示を送りデータの分布の最
大値を発生させ、信号線215を介して乱数発生回路205に
指示を送り乱数を発生させる。
こうして、ホルマントターゲット値生成回路202で生
成されたホルマントターゲット値に、データ分布値メモ
リ204で生成されたデータの分布の最大値と乱数発生回
路205で生成された乱数の積が加算され、その新たなホ
ルマントターゲット値と時間長データに基づいてスペク
トルパタンが生成され、信号線212から出力される。
(発明の効果) 以上説明したように、本発明によれば、合成しようと
する音声情報に同一の表現が繰り返し現れても、パラメ
ータの値がその都度微妙に異なった値がとられるから、
明瞭性が損なわれることなく自然な合成音が得られると
いう効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図である。第
2図は本発明の変形例を示すブロック図である。 図において、101は制御回路、102はデータ番号生成回
路、103は単位音声データメモリ、104はデータ編集回
路、105は乱数発生回路、106は加算器、201は制御回
路、202はホルマントターゲット値生成回路、203はデー
タ補間回路、204はデータ分布値メモリ、205は乱数発生
回路、206は乗算器、207は加算器である。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された音素系列などの音声情報の各単
    位音声に対応する複数のスペクトルパタンデータを記憶
    する手段と、該音声情報の単位音声系列から各単位音声
    の単位音声番号を生成する手段と、ランダムデータを発
    生する手段と、前記ランダムデータの値に応じて前記単
    位音声番号を変化させる手段とを備え、前記変化後の単
    位音声番号に基づき前記記憶手段から前記スペクトルパ
    タンデータを読み出し、スペクトルパタンを生成するこ
    とを特徴とする音声スペクトルパタン生成装置。
JP61257488A 1986-10-29 1986-10-29 音声スペクトルパタン生成装置 Expired - Lifetime JP2573585B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61257488A JP2573585B2 (ja) 1986-10-29 1986-10-29 音声スペクトルパタン生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61257488A JP2573585B2 (ja) 1986-10-29 1986-10-29 音声スペクトルパタン生成装置

Publications (2)

Publication Number Publication Date
JPS63110497A JPS63110497A (ja) 1988-05-14
JP2573585B2 true JP2573585B2 (ja) 1997-01-22

Family

ID=17306986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61257488A Expired - Lifetime JP2573585B2 (ja) 1986-10-29 1986-10-29 音声スペクトルパタン生成装置

Country Status (1)

Country Link
JP (1) JP2573585B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5660499A (en) * 1979-10-22 1981-05-25 Casio Computer Co Ltd Audible sounddsource circuit for voice synthesizer

Also Published As

Publication number Publication date
JPS63110497A (ja) 1988-05-14

Similar Documents

Publication Publication Date Title
JP3563772B2 (ja) 音声合成方法及び装置並びに音声合成制御方法及び装置
JPH0833744B2 (ja) 音声合成装置
JP2001034283A (ja) 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JPH08335096A (ja) テキスト音声合成装置
CA2343071A1 (en) Device and method for digital voice processing
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP2573585B2 (ja) 音声スペクトルパタン生成装置
JP2573586B2 (ja) 規則型音声合成装置
JPH06318094A (ja) 音声規則合成装置
JPH08248993A (ja) 音韻時間長制御方法
JPH1165597A (ja) 音声合成装置、音声合成及びcg合成出力装置、ならびに対話装置
JP3081300B2 (ja) 残差駆動型音声合成装置
JP2703253B2 (ja) 音声合成装置
JP2577372B2 (ja) 音声合成装置および方法
JP2573587B2 (ja) ピッチパタン生成装置
JPH11282484A (ja) 音声合成装置
JPS5880699A (ja) 音声合成方式
JP3284634B2 (ja) 規則音声合成装置
JPH0553595A (ja) 音声合成装置
JP2001236086A (ja) テキスト音声合成出力機能を有するゲーム装置
JP2004206144A (ja) 基本周波数パタン生成方法、及びプログラム記録媒体
JPH06138894A (ja) 音声合成装置及び音声合成方法
JP2584236B2 (ja) 規則音声合成装置
JP2001166787A (ja) 音声合成装置および自然言語処理方法
JPH0572599B2 (ja)