JPH0464080B2 - - Google Patents

Info

Publication number
JPH0464080B2
JPH0464080B2 JP58231324A JP23132483A JPH0464080B2 JP H0464080 B2 JPH0464080 B2 JP H0464080B2 JP 58231324 A JP58231324 A JP 58231324A JP 23132483 A JP23132483 A JP 23132483A JP H0464080 B2 JPH0464080 B2 JP H0464080B2
Authority
JP
Japan
Prior art keywords
power
parameter
synthesis
time series
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58231324A
Other languages
English (en)
Other versions
JPS60123900A (ja
Inventor
Gichu Oota
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP58231324A priority Critical patent/JPS60123900A/ja
Publication of JPS60123900A publication Critical patent/JPS60123900A/ja
Publication of JPH0464080B2 publication Critical patent/JPH0464080B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は法則音声合成装置に係り、特に自然な
波形振幅を得るに好適な、音声合成器の振幅パラ
メータ作成装置に関する。
〔発明の背景〕
周知のように、音声合成方式としては、人間の
発声機構をモデル化したPARCOR方式が一般的
である。(北脇他、「PARCOR形音声分析合成系」
電々公社武蔵野通研実用化報告、第27巻、第6
号、P.1061〜1078,1978年) この方式は、LSI化され、市場によく流布して
いる。
第1図、a,bにPARCOR音声合成の原理図
を示す。
人間は発声機構では、有声音(a,e,i,
o,u,……)は声帯1の振動で生じた気流が音
源となり、声道2で調音されて発声される。
一方、無声音(θ,sh,p,t,k……)は声
道1内で生じた乱流が音源となり、声道2で調音
されて発声される。
PARCOR方式では、共鳴管に相当する声道2
をデイジタルフイルタ5に置き換え、音源は有声
音ではパルス列発生源4、無声音では白色雑音発
生源3でモデル化する。また、音声信号は比較的
ゆるやかに変化することから、音源・フイルタは
周期的(10〜20ms)に更新されるパラメータで
特徴づけられる。
これらパラメータとしては、デイジタルフイル
タ5の係数であるPARCOR係数パラメータ、音
源の振幅強度を示す係数である振幅パラメータ、
音源の振動数(周期)に対応する係数であるピツ
チ周期パラメータ、白色雑音と同期パルス列の切
換信号である有声/無声パラメータである。これ
らのパラメータが時系列的に変化し、それによつ
て音声が合成される。
なお、第1図中、6はデイジタルアナログ変換
器、7はスピーカである。
法則音声合成装置は、「あ」、「い」、「う」……
などの音節を合成単位としてもち、この合成単位
を発声すべき単語に従い編集し、第1図bのハー
ド構成(以後音声合成器と呼ぶ)を用いて任意の
単語を合成するものである。
なお、合成単位はあらかじめ、「あ」、「い」、
「う」などの原音を分析し、先にのべたパラメー
タの時系列の形で記憶しておく。
たとえば、「あきた」と発声する場合には、
「あ」の合成パラメータ時系列「き」の合成パラ
メータ時系列、「た」の合成パラメータ時系列を
各々読み出し、発声時間順序に従い、一連の「あ
きた」という単語の合成パラメータ時系列として
編集し、これを音声合成器に送る。すると音声合
成器は「あきた」という単語を合成する。
従来の法則合成装置では、発声音声のアクセン
トを自然なものにするために、ピツチ周期パラメ
ータは発声単語のアクセントパターンに従い、
個々に分析して得た音節のピツチパラメータを変
更するか、アクセント規則に従い計算で得る方法
がとられた。つまり、ピツチ周期パラメータを、
振幅パラメータ、PARCOR係数パラメータと独
立して任意に変更していた。
ところが、PARCOR方式においては、
PARCOR係数パラメータと、ピツチ周期パラメ
ータ、振幅パラメータは独立ではない。
PARCOR音声合成の逆過程はPARCOR音声分
析といわれ、合成パラメータはこの分析過程で得
る。
第2図にPARCOR音声分析合成の関係を示す。
PARCOR音声分析器21では声道の共鳴特性を
表わすPARCOR係数をマイク23からの入力信
号の波形値から線形予測し、入力信号との誤差が
最小となるように求めてゆく。この時、予測は完
全でないため入力信号値と予測値の誤差が必ずあ
る。この誤差信号は通常残差信号と呼ばれる。
この残差信号24でPARCOR音声分析器21
と逆特性のPARCOR音声合成器22を駆動すれ
ばスピーカ26から合成音が得られる。通常
PARCOR音声合成器22の駆動源信号25とし
ては、情報圧縮をするために、残差信号24をそ
のまま使用せず、第1図で説明したごとく、有声
音の場合は周期Tp、パルス波高値Ampの周期パ
ルス列、無声音の場合はパルス波高値Ampのラ
ンダムパルス列(白色雑音と等価)でモデル化し
たものを使う。合成器のデイジタルフイルタを駆
動する駆動源信号25のパルス波高値すなわち合
成器の振幅パラメータAmpは、入力信号音声の
電力と合成器の出力信号音声の電力とが等しくな
るように決める。(エネルギー保存則)分析器2
1と合成器22は全く逆特性であるため、分析器
の残差信号電力が合成器のデイジタルフイルタの
駆動源信号電力と考えればよい。つまり、残差信
号電力=駆動源信号電力である。振幅パラメータ
Ampの値は単位時間あたりの残差信号電力=単
位時間あたりのパルス列の電力の関係から求め
る。パルス列が矩形波の場合、有声音の振幅パラ
メータAmpは、ある時間長(10〜20mS)Tとピ
ツチ周期Tpと残差信号電力γ0から(1)式で求める。
Amp=√0× ……(1) 無声音の場合は、白色雑音の統計的な性質から
同様に(2)式から求める。
Amp=√0×3 ……(2) 一方、残差信号電力γ0はPARCOR係数パラメ
ータK1〜Kp(Pはデイジタルフイルタの段数)
と入力信号電力(又は合成信号電力)V0と(3)式
の関係がある。
γ0=V0×p πi=1 (1−Ki2) ……(3) 今、1つの合成単位に対応する原音声の1区間
T(信号電力V0)を分析し、合成単位パラメータ
時系列の一つとして、PARCOR係数パラメータ
(i=1〜p)とピツチ周期Tpを得、(1),(3)式で
振幅パラメータAmpを得たとする。
そして、法則合成において、単語としての正し
いアクセントを付与するためにピツチ周期とし
て、合成単位原音声のピツチ周期Tpとは異なる、
Tp′を与え、他のパラメータをそのままにした場
合を考える。
(1),(3)式からγ0を消去して、入力信号電力0
求めると(4)式になる。
原音のピツチ周期Tpを用いた場合には、先の
説明でPARCOR音声分析と合成が逆過程である
ため、入力信号電力V0はそのまま合成信号電力
となるが、ピツチ周期をアクセント規則でTp′に
変更した場合、合成信号電力はもはや原音声の入
力信号V0に等しくなく、このTp′に依存する。
この場合の合成信号電力S0は、(4)式でV0をS0
にTpをTp′に置き換えた(5)式となる。
第3図に、従来の法則合成装置を用いて、「フ
ユヤマ(冬山)」という単語を合成する様子を示
す。
第3図aは、合成単位である音節「フ」,「ユ」,
「ヤ」,「マ」それぞれの単独発生音声の電力とピ
ツチ周波数(ピツチ周期の逆数であることに注
意)を示す。法則合成装置には、合成単位として
この音声を分析して得たPARCOR係数と振幅パ
ラメータを記憶しておく。
第3図bは、アクセントとして10で示すピツチ
周波数を用い、先の合成単位を編集し、「フユヤ
マ」という単語をえた時の電力変化の様子を示
す。これは先程の説明したごとく式(5)を用いれば
うることができる。
第3図cは、合成単位音声を発声した同じ人物
が「フユヤマ」と一つの単語として発声した場合
の音声の電力とピツチ周波数の様子を示す。10で
示すピツチ周波数は、このピツチ周波数を直線で
近似したものである。
第3図b,cの電力変化の様子を比較すると、
従来の法則合成でえた「フユヤマ」の電力変化は
通常の発声の電力変化と大きく異なり不自然に聞
こえることは明らかである。
このようなことは、PARCOR係数、振幅パラ
メータと独立にピツチ周期パラメータのみをアク
セント規則で作成するためにおきる。
〔発明の目的〕
本発明の目的は、法則音声合成装置の合成波形
電力をより自然なものとする、合成器の振幅パラ
メータ生成装置を提供するにある。
〔発明の概要〕
本発明は、法則音声合成装置において、合成単
位(たとえば音節)を声道の形を表わす
PARCOR係数パラメータと、正規化された残差
電力パラメータと、有声/無声パラメータを時系
列で記憶し、かつ単語あるいは文節単位の正規化
された電力パラメータと、ピツチ同期パラメータ
を時系列で記憶し、任意の音声を合成する場合の
音声合成器の振幅パラメータを該残差電力パラメ
ータと電力パラメータとピツチ周期パラメータに
よりうるものである。
以下、本発明の原理を説明する。
今、原音「フユヤマ」を分析してPARCOR係
数Kiの時系列を得たとする。そして、実際のピ
ツチ周期Tpとは異なるピツチ周期Tp′の時系列
と原音の電力V0の最大値V0maxで正規化した電
力V0′=V0/V0maxの時系列を考え、合成器を駆
動することを試みる。
原音の分析で得たPARCOR係数Kiとピツチ周
期Tpおよび(1),(2),(3)式からうる振幅パラメー
タAmpを使用して合成器を駆動すれば原音電力
V0と合成器電力S0は正確に一致する。すなわち、
V0=S0である。
ところが、PARCOR係数Kiと振幅パラメータ
Ampはそのままとし、ピツチ周期パラメータの
み独立にTp′に変更した場合には、先に述べたよ
うに原音電力V0と合成器電力S0はV0≠S0となる。
ここでPARCOR係数Kiと変更されたピツチ周
期パラメータTp′を用いて、合成器出力電力が入
力信号電力V0と少なくとも相似にする方法を考
える。
PARCOR係数Kiから入力信号電力V0を1とし
た残差電力すなわち正規化残差電力γ′0を次式で
うる。
γ′0p πi=1 (1−Ki2) ……(6) (1),(6)式を用いて合成器の振幅パラメータ、
Amp′をうる。そしてこれらのパラメータを用い
て合成器を駆動する。
このときの合成信号電力S0′は(5)式を用いて となる。すなわち合成信号電力S0′は常に一定の
値にすることができる。
ここで、合成信号電力を入力信号電力と相似に
するためには(7)式のγ0′を入力信号電力に相似に
すればよい。すなわち(6)式において先の正規化し
た電力V′0を掛けた残差電力γ0″を用いて振幅パラ
メータAmp″を次式のように作成すればよいこと
になる。
γ0″=V′0×p πi=1 (1−Ki5) ……(9) 以上の本発明の原理をまとめると、任意のピツ
チ周期の時系列を用いて合成を行なつても、原音
のPARCOR係数の時系列と正規化した電力の時
系列が保存されていれば原音の電力と相似した合
成音電力をうることができる。
PARCOR係数は先にのべたように声道の形を
規定するものである。したがつて単語「フユヤ
マ」の発声に用いられた音節「フ」,「ユ」,「ヤ」,
「マ」と法則合成で用いる合成単位である単独発
声音声「フ」,「ユ」,「ヤ」,「マ」のPARCOR係
数はほぼ等しいはずである。
したがつて、本来の単語「フユヤマ」のピツチ
周期と正規化された電力の時系列を記憶しておく
か、一般的な規則で作成すれば、単語「フユヤ
マ」を合成単位「フ」,「ユ」,「ヤ」,「マ」の
PARCOR係数時系列を用いて少なくとも相似な
電力と、正しいピツチ周期をもつたものとして合
成できる。
すなわち、本発明においては、単語の法則合成
を行なうに際し、PARCOR係数の時系列として
は合成単位(音節)のPARCOR係数時系列を順
に編集したものを、ピツチ周期の時系列としては
記憶している単語の正しいアクセントを表わすピ
ツチ周期時系列を、振幅パラメータの時系列とし
ては先の説明のごとく、(9)式を用いて単語の正規
化された電力V′0の時系列PARCOR係数時系列と
から残差電力γ″0の時系列を得、ピツチ周期時系
列とともに(10)式に代入してAmp″の時系列を用い
る。
〔発明の実施例〕
以下、本発明の一実施例を第4図により説明す
る。
第4図において31は文字コード入力端子、3
2は文字コードアドレス変換回路、33は合成単
位PARCOR係数記憶回路、34は合成単位有
声/無声パラメータ記憶回路、35はピツチ周期
パターン記憶回路、36は正規化電力パターン記
憶回路、37はピツチ周期パラメータ生成回路、
38は正規化残差電力生成回路、39は乗算器、
40は振幅パラメータ生成回路、41は一時記憶
回路、42は音声合成回路、43はスピーカであ
る。
文字コード入力端子31は外部から文字コード
列を受けとる。文字コードアドレス変換回路32
は1文字コードに対応する合成単位(音節)のア
ドレスを合成単位PARCOR係数記憶回路33と
合成単位有声/無声記憶回路34に送る。また、
数個の文字コードからなる単語あるいは文節に対
応するアドレスをピツチ周期パターン記憶回路3
5と正規化電力パターン記憶回路36に送る。
合成単位PARCOR係数記憶回路33はROMな
どで構成され、合成単位(たとえば日本語音節約
113)毎にPARCOR係数時系列を記憶している。
合成単位有声/無声パラメータ記憶回路34は合
成単位PARCOR係数記憶回路33と同じに、合
成単位毎に有声/無声パラメータ時系列を記憶し
ている。
ピツチ周期パターン記憶回路35はROMなど
で構成され、単語あるいは文節単位のピツチ周期
時系列が固定の一定時間Tで除算したTp′/Tの
形で記憶されている。正規化電力パターン記憶回
路36はROMなどで構成され、単語あるいは文
節単位の正規化された電力時系列が記憶されてい
る。ピツチ周期パラメータ生成回路37はピツチ
周期パターン記憶回路35よりTp′/Tの値をう
け音声合成回路42に必要なピツチ周期パラメー
タTp′を生成する。正規化残差電力生成回路38
は合成単位PARCOR係数記憶回路33から
PARCOR係数をうけ、(6)式に示す演算を行ない
正規化残差電力γ′0を生成する。
乗算器39は正規化電力パターン記憶回路36
から正規化電力V0′と正規化残差電力生成回路3
8から正規化残差電力γ′0を得、これを掛け合わ
せて(9)式の残差電力γ0″をうる。振幅パラメータ
生成回路40は乗算器39の出力である残差電力
γ0″とピツチ周期パターン記憶回路35の出力で
あるTp′/Tと合成単位有声/無声パラメータ記
憶回路34の出力であるU/Vをうけ、式(10)によ
り振幅パラメータAmp″をうる。ここで有声音の
ときは式(10)を用いるが、無声音のときは(10)式で
Tp′/Tを統計的な固定値、たとえば3に置き換
える。
なお、ピツチ周期パラメータ生成回路37は乗
算器、減算器などから構成される。また振幅パラ
メータ生成回路40は乗算器、開平器をもつ。
一時記憶回路41は音声合成回路42に必要な
合成パラメータKi=(i=1〜P)、U/V,
Tp′,Amp″を合成順序に従い、時系列的に、
各々合成単位PARCOR係数記憶回路33、合成
単位有声/無声パラメータ記憶回路34、ピツチ
周期パラメータ生成回路37、振幅パラメータ生
成回路40より順に読み、編集して一時的に記憶
する。一時記憶回路41はRAMなどより構成さ
れる。
次に一時記憶回路41はこれらの編集された合
成パラメータを音声合成回路42に送り、音声合
成回路42はこれらのパラメータを受け、入力文
字コード列に対応した音声波形を合成する。
第5図は本発明の他の一実施例である。
本実施例においては、複数の合成単位を声道を
模擬する声道パラメータと、有声音/無声音切換
信号パラメータと、正規化された残差電力パラメ
ータの時系列で記憶し、複数の単語あるいは文節
をピツチ周期パラメータと、正規化された電力パ
ラメータの時系列で記憶し、音声合成振幅パラメ
ータを残差電力パラメータとピツチ周期パラメー
タと電力パラメータとからうる。PARCOR係数
Kiより正規化残差電力γ0′を生成するためには(6)
式からわかるように、PARCOR係数の次数をP
とすれば減算がP回、乗算は(2P−1)回必要
である。法則合成装置の応答速度を高めるために
はなるべく演算回数をへらす必要がある。
第5図において、第4図と同一符号は同一物を
示す。44は合成単位正規化残差電力記憶回路で
ある。合成単位正規化残差電力記憶回路44は
ROMなどで構成され、合成単位毎に正規化残差
電力時系列を記憶している。
第5図の動作は第4図とほぼ同じである。唯、
合成単位正規化残差電力記憶回路44をもつた
め、第4図の正規化残差電力生成回路38が無用
となり、構成が簡単となるとともに装置の応答速
度を早めることが可能となる。乗算器39は合成
単位正規化残差電力記憶回路44の出力である正
規化残差電力γ0′と正規化電力パターン記憶手段
回路36の出力である正規化電力0′を掛け合せ残
差電力γ0″を振幅パラメータ生成回路40に送る。
なお、以上の説明においては合成単位を音節
(シラブル)としたが、これに限るものではない。
たとえば、英語におけるPhoneme、あるいは
母音、子音の音素、あるいは母音−子音、子音−
母音連鎖(デミシラブル)、あるいは母音−子音
−母音連鎖でもよい。
また、声道を表わすパラメータとしては、
PARCOR係数に限ることはなく、ホルマントパ
ラメータ、LSP係数などもPARCOR係数に等価
変換可能なため本発明を適用しうる。
さらに、実施例のすべての回路動作は汎用マイ
クロプロセツサを使用してプログラムで行なわさ
ることができる。
〔発明の効果〕
本発明によれば、従来の法則音声合成装置に比
べ、応答速度を落すことなくより自然な合成出力
電力をもつ合成音を任意にうることができる。
【図面の簡単な説明】
第1図はPARCOR音声合成の原理図、第2図
はPARCOR音声分析合成の関係図、第3図は従
来の法則合成装置の動作の概略説明図、第4図は
本発明の一実施例を示す図、第5図は本発明の他
の一実施例を示す図である。 33……合成単位PARCOR係数記憶回路、3
4……合成単位有声/無声パラメータ記憶回路、
35……ピツチ周期パターン記憶回路、36……
正規化電力パターン記憶回路、37……ピツチ周
期パラメータ生成回路、38……正規化残差電力
生成回路、40……振幅パラメータ生成回路、4
2……音声合成回路、44……合成単位正規化残
差電力記憶回路。

Claims (1)

  1. 【特許請求の範囲】 1 声道を模擬する声道パラメータの時系列で複
    数の合成単位を記憶する第1の記憶手段と、 有声音/無声音の切換信号パラメータの時系列
    で複数の合成単位を記憶する第2の記憶手段と、 複数の単語あるいは文節をピツチ周期パラメー
    タの時系列で記憶する第3の記憶手段と、 により音声合成手段で音声合成する法則音声合成
    装置において、 複数の単語あるいは文節を、正規化された電力
    パラメータの時系列で記憶する第4の記憶手段と
    振幅パラメータ生成手段とを備え、 上記第1の記憶手段の声道パラメータと、 上記第2の記憶手段の切換信号パラメータと、 上記第3の記憶手段のピツチ周期パラメータ
    と、 上記第4の記憶手段の電力パラメータとを、上
    記振幅パラメータ生成手段に入力して音声合成振
    幅パラメータを得、 該音声合成振幅パラメータを上記音声合成手段
    に入力するように構成させたことを特徴とする法
    則音声合成装置。
JP58231324A 1983-12-09 1983-12-09 法則音声合成装置 Granted JPS60123900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58231324A JPS60123900A (ja) 1983-12-09 1983-12-09 法則音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58231324A JPS60123900A (ja) 1983-12-09 1983-12-09 法則音声合成装置

Publications (2)

Publication Number Publication Date
JPS60123900A JPS60123900A (ja) 1985-07-02
JPH0464080B2 true JPH0464080B2 (ja) 1992-10-13

Family

ID=16921846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58231324A Granted JPS60123900A (ja) 1983-12-09 1983-12-09 法則音声合成装置

Country Status (1)

Country Link
JP (1) JPS60123900A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2588963B2 (ja) * 1989-03-07 1997-03-12 日本電信電話株式会社 音声合成装置
JP6860901B2 (ja) * 2017-02-28 2021-04-21 国立研究開発法人情報通信研究機構 学習装置、音声合成システムおよび音声合成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57171398A (en) * 1981-04-14 1982-10-21 Nippon Electric Co Rule type sound synthetic device
JPS58211794A (ja) * 1982-06-04 1983-12-09 日本電気株式会社 線スペクトル対型ボコ−ダ

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57171398A (en) * 1981-04-14 1982-10-21 Nippon Electric Co Rule type sound synthetic device
JPS58211794A (ja) * 1982-06-04 1983-12-09 日本電気株式会社 線スペクトル対型ボコ−ダ

Also Published As

Publication number Publication date
JPS60123900A (ja) 1985-07-02

Similar Documents

Publication Publication Date Title
US5400434A (en) Voice source for synthetic speech system
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JP3408477B2 (ja) フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ
JPH031200A (ja) 規則型音声合成装置
EP1559095A2 (en) Apparatus, methods and programming for speech synthesis via bit manipulations of compressed data base
JPH06110498A (ja) 音声合成システムの音声断片コーディングおよびそのピッチ調節方法とその有声音合成装置
JPH0632020B2 (ja) 音声合成方法および装置
JPH0641557A (ja) 音声合成のための方法および装置
Nthite et al. End-to-End Text-To-Speech synthesis for under resourced South African languages
JPH0464080B2 (ja)
Peterson et al. Objectives and techniques of speech synthesis
JPH0580791A (ja) 音声規則合成装置および方法
JP3394281B2 (ja) 音声合成方式および規則合成装置
JP3081300B2 (ja) 残差駆動型音声合成装置
JPS5880699A (ja) 音声合成方式
JPH11161297A (ja) 音声合成方法及び装置
JP2001100777A (ja) 音声合成方法及び装置
Rank et al. VieCtoS speech synthesizer, technical overview
JPH0836397A (ja) 音声合成装置
Butler et al. Articulatory constraints on vocal tract area functions and their acoustic implications
JP2992995B2 (ja) 音声合成装置
May et al. Speech synthesis using allophones
Singh et al. Removal of spectral discontinuity in concatenated speech waveform
Goudie et al. Implementation of a prosody scheme in a constructive synthesis environment
Harrington et al. Digital Formant Synthesis