JPS5930280B2 - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPS5930280B2
JPS5930280B2 JP54500643A JP50064379A JPS5930280B2 JP S5930280 B2 JPS5930280 B2 JP S5930280B2 JP 54500643 A JP54500643 A JP 54500643A JP 50064379 A JP50064379 A JP 50064379A JP S5930280 B2 JPS5930280 B2 JP S5930280B2
Authority
JP
Japan
Prior art keywords
data
waveform
speech
memory
microprocessor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP54500643A
Other languages
English (en)
Other versions
JPS56500353A (ja
Inventor
バウムウオルスピナ−・ミルトン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
Western Electric Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co Inc filed Critical Western Electric Co Inc
Publication of JPS56500353A publication Critical patent/JPS56500353A/ja
Publication of JPS5930280B2 publication Critical patent/JPS5930280B2/ja
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Description

【発明の詳細な説明】 明細書 本発明、A基本関数を記憶するためのメモリーで構成さ
れた音声合成装置に係り、その各々の基本関数が基本記
憶レートで記録された音声波形を表わすデータの集合を
含み、そしてその各基本関数がピッチ周期内の波形セグ
メントを規定し複数個のフオルマントF1、F2を含む
ようなもので 。
ある音声合成装置に関する。多数の大規模電子計算機シ
ステムを利用して各種の計算および論理操作をデータの
集合に対して行なう技術の発展により、人間のユーザに
対する音声応答は望ましい機能であると認められるよう
−になつてきた。
多数の電子システムの研究・開発機関において、音声波
形合成装置による音声を合成する実用的な方式を開発す
る努力が行なわれている。使用される合成手法、コンパ
イル手法は不充分であるため、音声合成装置は語いが小
さすぎたり、音声品質が悪かつたり、その製作、運用に
金がかかりすぎたりして、多くの商用目的にとつては非
実用的である。例えば、フオルマント・データをつなぎ
合せることによつて実時間で音声を合成するハードウェ
アが開発されている。
このようなハードウェアでは高品質の音声を生ずること
ができるが、実現のためには、比較的複雑で高価な装置
が必要になる。また音声は音声波形予測によつても合成
できる。音声が生ずるが、より多くのメモリーを必要と
し、また装置も比較的に複雑で高価となる。従つて高品
質で多数の梧いを安価に発生できる、単純な音声合成器
の必要性があることになる。
本発明に従えば、上述の問題はピッチ周期ごとに変化す
る読み出し速度で基本関数を読み出し、異る読み出し速
度によつてピッチ周期内で異る音声波形セグメントを発
生し、フオルマントF1およびF2を含むことを特徴と
する合成装置によつて解決される。添付図面において:
第1図は音声合成装置のブロック図;第2図は完全な音
声波形の例;第3図はフオルマント周波数の両対数の両
対数グラフにおける基本関数データ点;第4図乃至第1
5図は第3図の両対数グラフにおけるデータ点によつて
表わされる基本関数波形セグメントの図;第16図乃至
第1T図は第3図には示されていないデータ点を表わす
基本関数波形セグメント;第18図は選択されたワード
を表わすデータ点に関連する情報の構成を示す表A:第
9図は基本関数のアドレスのリストを示す第1表:第2
0図は基本関数データを表わす第2表;第21図は合成
音声波形を生ずるプロセスのステップを示すフロー・チ
ャートである。
上述の問題は本発明に従つて、各々の基本関数は基本記
憶レートで記録された音声波形セグメントを表わすデー
タの集合を含み、各々の基本関数が複数個のフオルマン
トF1、F2を含む波形セグメントを規定するような基
本関数を蓄積するためのメモリーに従つて解決される。
この合成装置の特徴に従えば、各基本関数は第1および
第2のフオルマントを両対数軸上に有する図面中の単一
の線上にプロットされたデータ点によつて表わされ、基
本記憶レートとは異るレートで基本関数の制御するマイ
クロプロセツサと、データバス31を経由してマイクロ
プロセツサと接続され、マイクロプロセツサから選択さ
れた基本関数データを受信する入出力装置20と、デー
タバス手段32を経由して入出力装置と接続され入出力
装置から選択された基本関数を受信し、選択された基本
関数データに応動して該線の外にある該データ点を近似
的に表わすアナログ波形セグメントを発生する第1のデ
イジタル・アナログ変換器11とを含むことを特徴とす
る音声合成装置。
5請求の範囲第4項に記載の音声合成装置において、マ
イクロプロセツサ15は、さらに、データ点表(第18
図)から取られた時間圧縮/伸長係数60に応動して、
マイクロプロセツサから入出力装置への基本関数データ
の伝送速度を決定するように動作することを特徴とする
音声合成装置。
6請求の範囲第4項に記載の音声合成装置において、処
理手段はさらにデータバス手段33を経由して入出力装
置20と相互接続された第2のデイジタル・アナログ変
換器12を含み、第2のデイジタル・アナログ変換器1
2はデータ点表(第18図)から取られた振幅係数70
に応動してバイアス信号を発生し、該第1のデイジタル
・アナログ変換器11はバイアス信号に応動して該線の
外にある該データ点を表わすアナログ波形セグメントの
振幅を修正することを特徴とする音声合成装置。
明細書 本発明&ζ基本関数を記憶するためのメモリーで構成さ
れた音声合成装置に係り、その各々の基本関数が基本記
憶レートで記録された音声波形を表わすデータの集合を
含み、そしてその各基本関数がピツチ周期内の波形セグ
メントを規定し複数個のフオルマントFl,F2を含む
ようなものである音声合成装置に関する。
多数の大規模電子計算機システムを利用して各種の計算
および論理操作をデータの集合に対して行なう技術の発
展により、人間のユーザに対する音声応答は望ましい機
能であると認められるようになつてきた。
多数の電子システムの研究・開発機関において、音声波
形合成装置による音声を合成する実用的な方式を開発す
る努力が行なわれている。使用される合成手法、コンバ
イル手法は不充分であるため、音声合成装置は語いが小
さすぎたり、音声品質が悪かつたり、その製作、運用に
金がかかりすぎたりして、多くの商用目的にとつては非
実用的である。例えば、フオルマント・データをつなぎ
合せることによつて実時間で音声を合成するハードウエ
アが開発されている。
このようなハードウエアでは高品質の音声を生ずること
ができるが、実現のためには、比較的複雑で高価な装置
が必要になる。また音声は音声波形予測によつても合成
できる。音声が生ずるが、より多くのメモリーを必要と
し、また装置も比較的に複雑で高価となる。従つて高品
質で多数の語いを安価に発生できる、単純な音声合成器
の必要性があることになる。
本発明に従えば、上述の問題はピツチ周期ごとに変化す
る読み出し速度で基本関数を読み出し、異る読み出し速
度によつてピツチ周期内で異る音声波形セグメントを発
生し、フオルマントF1およびF2を含むことを特徴と
する合成装置によつて解決される。添付図面において:
第1図は音声合成装置のプロツク図;第2図は完全な音
声波形の例;第3図はフオルマント周波数の両対数の両
対数グラフにおける基本関数データ点;第4図乃至第1
5図は第3図の両対数グラフにおけるデータ点によつて
表わされる基本関数波形セグメントの図;第16図乃至
第17図は第3図には示されていないデータ点を表わす
基本関数波形セグメント;第18図は選択されたワード
を表わすデータ点に関連する情報の構成を示す表A:第
9図は基本関数のアドレスのリストを示す第1表:第2
0図は基本関数データを表わす第2表;第21図は合成
音声波形を生ずるプロセスのステツブを示すフロー・チ
ヤートである。
上述の問題は本発明に従つて、各々の基本関数ぱ基本記
憶レートで記録された音声波形セグメントを表わすデー
タの集合を含み、各々の基本関数が複数個のフオルマン
トFl,F2を含む波形セグメントを規定するような基
本関数を蓄積するためのメモリーに従つて解決される。
この合成装置の特徴に従えば、各基本関数は第1および
第2のフオルマントを両対数軸上に有する図面中の単一
の線上にプロツトされたデータ点によつて表わされ、基
本記憶レートとは異るレートで基本関数の内のひとつを
メモリーから選択して読み出すことによつて図面上の線
の外に位置する任意の所望の点を近似的に表わす音声波
形セグメントを発生する手段を含む。本発明の特徴に従
えば、各々が基本レートで記録された選択された音声波
形セグメントを表わす複数個の基本関数を蓄積し、基本
記憶レートとは異るレートで記憶された基本関数のひと
つを選択して読み出し、これによつて記憶された波形と
は異るが関連するフオルマント周波数空間の中にある所
望の波形セグメントが発生される。
本発明の他の特徴に従えば、フオルマントF1およびF
2の両対数軸上の勾配m=−1を有する直線上の点とし
て基本関数の音声波形セグメントを選択し、従つて基本
関数の時間圧縮あるいは時間伸長がフオルマントF1お
よびF2特性に比例的に影響を与えるようにする。
本発明のさらに他の特徴に従えば、大形の計算機を使用
することなく、音声を発生するための所望の波形セグメ
ントの発生を制御するためにはマイクロプロセツサが使
用される。
本発明のさらに他の特徴に従えば、両対数グラフの単一
の線から外れたデータ点を近似外に表わす波形セグメン
トを発生するために蓄積された波形セグメントを時間的
に圧縮または伸長することによつて、関連するフオルマ
ント周波数空間を通して所望の波形セグメントを表わす
のに限定された蓄積データを用いるだけでよい。
第1図を参照すれば、図には音声合成システムの一実施
例が示されている。
このシステムは出力アナログ信号をスピーカ13に与え
るための第1および第2のデイジタル・アナログ(D/
A)変換器11および12を有するマイクロコンピユー
タ10を含んでいる。マイクロコンピユータはメモリー
18とマイクロプロセツサ15とデイジタル・アナログ
変換器11,12の間に入れられた入出力(1/0)装
置20に接続されたマイクロプロセツサ15を含んでい
る。図示のメモリーはランダム・アクセス・メモリー(
RAM)とリード・オンリー・メモリー(ROM)を含
んでいる。
さらに詳しく後述するようにメモリー18は複数個のデ
ータの集合すなわち基本関数を蓄積しており、ここで集
合は基本記憶レートで記録された音声波形セグメントを
表わしている。
この記憶はアナログ波形の振幅サンプルのデイジタル符
号を記憶することによつて行なわれ、このサンプルは均
一の基本サンプリング周波数で決められる。データの各
集合は2個あるいはそれ以上のフオルマントを含む波形
を規定する。フオルマントとは音声の高調波であり、音
声の振幅の時間的変化を表わす式によつて数学的にモデ
ル化できる。マイクロプロセツサ15、入出力装置20
、デイジタル・アナログ変換器11および12それにス
ピーカ13は共同動作して、符号化して記録された波形
セグメントの内の選択されたものの系列を選択して読み
出し、これをアナログ波形セグメントに変換し、アナロ
グセグメントをつなぎ合せて音声とする。メモリー18
に蓄積され、やはりマイクロプロセツサ15によつて選
択される他の情報によつて、記録された波形は基本サン
プリング・レートすなわち記憶レートで読み出されても
よいし、基本記憶レートとは異る他の周波数(レート)
で読み出されてもよい。
波形を基本記憶レートとは異るレートで読み出すことに
よつて、高品質な音声の発生に必要な適切な周波数スペ
クトルを小数の記録された音声波形セグメントで実現す
ることができる。記録された音声波形セグメントの数を
このように限定することによつて、比較的わずかなメモ
リーで、低コストで多くの語いについて高品質の音声を
発生することができる。しかし発生されるべき各ワード
の音声はデータ点のリストによつて記述しなければなら
ないので、コストは語いの数に関連することになる。高
価なコンピユータによるのではなく、マイクロプロセツ
サで音声発生の動作を制御しているため、コストはあま
り大きくはならない。
マイクロプロセツサ15はそのシステムの主要な動作が
デイジタル・アナログ変換器に対するメモリー読み出し
の速度を制御するだけで、これ以外の時間のかかる演算
動作は不要であるから、マイクロプロセツサ15で音声
の発生が制御できるのである。合成装置の説明に入る前
に、音声波形合成システムの基本となつている理論を述
べるのが理解の助けとなろう。音声波形の音響的特徴は
音声が発生される管を含む道の特性によつて決定される
音はその管の中の気柱を振動することによつて発生され
る。気柱は発生される各々の音についていくつかのモー
ド、すなわち共振周波数で振動する。これらのモード、
すなわち共振周波数はフオルマント周波数Fl,F2,
F3・・・・・・・・・・・・・?・,Fnとして知ら
れている。どのような音声が発生されても、各々の波形
セグメントはそれ自身のフオルマント周波数を有し、こ
れはそのセグメントについて最低の調波周波数から出発
して順次に番号が与えられている。無声音の波形は有声
音とは別に決められる音響的特性を持つている。
無声音は開口部を気流が高速に流れることによつて発生
されるのが普通である。このような気流は雑音のバース
トとしてモデル化できる。発声によつて生ずる完全な音
声波形は有限個の選択された音声波形セグメントから発
生できる。
このような波形セグメントは、場合によつては同じ波形
を何回もくりかえしたり、場合によつては異る波形セグ
メントを次々に組合せたりしてつなぎ合される。任意の
所望の音を表わすには有声音、無音声あるいはその両者
を使用する。第2図の、例に示した完全な音声波形は種
々の有声音セグメント、A,.BおよびCをつなぎ合せ
て形成される。
各々の波形セグメントはピツチ周期と呼ばれる時間の間
継続する。そのピツチ周期の長さはセグメント毎に変化
する。モデル化されている完全な有声音に従つて、連続
したピツチ周期における波形セグメントの形は相互に類
似していることも異つていることもある。多くの音の場
合、連続した波形セグメントは互に異つている。完全な
音声波形のモデルとするために、前の波形ノ が完全に
終つているかどうかによらず、波形セグメントA.B,
.Cがあるピツチ周期の終りと次のはじめの間でつなぎ
合されている。ピツチ周期の終りの前に波形が出し終つ
ていれば、次のピツチ周期が開始されるまで、波形の最
終値が保持される。無声音は代表的な音声波形の一部で
あるが、第2図には無声音は示されていない。
有声音と無声音の数学的モデルは複素周波数領域の関数
である。有声母音については適切な数学モデルはラプラ
ス変換である。もし音声波形セグメントのラブラス変換
を使用すれば、波形セグメントのラプラス変換H(s)
はで表わされる。
ここでは各フオルマント毎にある。
ω。
=2π(Fn)Fn=第nフオルマントの周波数 Bn=同じ添字を持つフオルマント周波数に関連した帯
域幅s=複素周波数オペレータ フオルマント周波数Fnについての上式はラプラス逆変
換をとることによつて時間領域の式に変換できる。
Fn(t)=L−1〔Hn(S)〕 各々の音声波形セグメントはすべての適切なフオルマン
トを表わす周波数領域の式のたたみ込みである。
完全な音声波形のラプラス逆変換は第2図に示したよう
な多数のたたみ込まれた減衰正弦波形セグメントの複合
した時間波形f(t)となつている。
従つて有声音の完全な波形は減衰正弦波の連続であり、
これは数学的にも実際的にもモデル化することができる
。個々の音声波形セグメントを記述するために使用され
る重要なパラメータはフオルマント周波数、ピツチ周期
の期間それに波形の振幅である。品質の良いモデルを得
るためには、音声合成装置の設計者はすべての有声音の
完全な波形について正確なモデルを作ろうとするために
完全な波形の正確なモデルを作るときには問題が生ずる
しかし、これらの音では可聴周波数範囲の限界内にその
第1および第2のフオルマント周波数が広く分布してい
る。ある適切な記憶容量の範囲で合成プロセスを完成す
るために、従来技術の合成システムではフオルマントF
1およびF2を直交座標とするパラメータ空間の中の点
の選択されたマトリクスを表わすデータを蓄積していた
。点の数はかなり大きな数であつた。従来技術の有声音
および無声音のモデルを実現するには(1)完全な波形
のアナログ記録を行ない指令によつてこれらのアナログ
波形を再生する。
(2)完全な波形のアナログサンプルをとり、完全な音
声波形のこれらの振幅サンブルをアナログ記録し、記録
されたサンブルから完全なアナログ波形を再生する。(
3)多数の波形セグメントのアナログ記録を作り、記録
された波形セグメントの選択されたものを次々に組合せ
て指令によつて所望の完全なアナログ波形を作る。(4
)振幅サンプルをとり、これらのサンプルをデイジタル
的に符号化し、符号化されたサンプルを記録し、次に記
録された符号化サンプルの内の選択されたものからアナ
ログ波形セグメントを再生し、指令によつて再生された
波形セグメントを組合せて所望の完全なアナログ波形を
形成する。無声の摩擦音は、摩擦音ポール・ゼロ回路の
白色雑音応答として数学的にモデル化できる。
111や61ft1のような摩擦音を生ずるために、い
くつかの異るポール・ゼロ回路モデルが使用されている
本発明と上述した従来技術の対照的な差は完全なアナロ
グ音声波形の再生のためにわずか数個の波形セグメント
をサンプルして記録しておけば良い図示の実施例を説明
することによつて示すことができる。
これらの記録された波形セグメントは基本関数と呼ばれ
る。第3図を参照すれば、図には種々の有声音の周波数
成分を示すフオルマントF1とフオルマントF2とが両
対数軸上に示されている。
第1のフオルマント周波数F1は種々の母音とデイプリ
ング音に対してほぼ200Hzから900Hzの間にあ
る。同じ音に対する第2のフオルマント周波数F2はほ
ぼ600Hzから2700Hzの間にある。第2図には
示していないが、これらと同一の音の第3フオルマント
の周波数はほぼ2300Hzから3200Hzの範囲に
あ机有声音とデイプリング音のためにd1(0)乃至d
1(L1)と名付けた12個の波形セグメントが選択さ
れ、傾斜m=一1のフオルマントF2の空間土の1本の
直線46上のほぼ均等な間隔をおいた点としてならんで
いる。第3図の線46上の12個のデータ点d1(0)
乃至d1(11)の各々は基本関数d1(n)の内の異
るもののフオルマントF1とフオルマントF2の周波数
を示している。
基本関数の波形セグメントは各々の基本関数ごとに第1
図のメモリー18に入つている。各々の基本関数波形セ
グメントは18.25ミリ秒の基本ピツチ周期の間継続
する。各々の基本関数波形セグメントの問、146個の
振幅サンプルが必要に応じた数のフオルマント周波数を
持つ成分波形に関する情報を提供する。このような基本
関数波形セグメントを蓄積するひとつの方法は、基本サ
ンプリング・レート、たとえば8kHzで適切な波形の
振幅をサンブルし、その後で結果として得られた振幅サ
ンプルを符号化する(例えば、8ビツトのデイジタル・
ワードで各サンプルを256個の振幅レベルのひとつに
量子化する)ことである。第4図乃至第15図は基本関
数d1(0)乃至Dlaυについての有声音波形セグメ
ントを示している。
第4図乃至第15図において、波形は2つのスケールで
振幅を示した垂直軸上に示!てある。垂直のスケールの
一方は振幅レベルを示すスカラー量で、他方はこのスカ
ラー量をオクタル表示したものである。第4図乃至第1
5図の水平スケールはサンブル時点である。第16図お
よび第17図は基本関数DlOZおよびd1(13)に
ついての無声音波形セグメントを示している。
これら2つめ無声音基本関数DlO3)およびDlOS
lの各々を記述するデータもまた他の基本関数と共に第
1図のメモリー18に蓄積されている。これらにはそれ
に関するくりかえしピツチ周期は存在しないけれど、同
じ18.25ミリ秒の時間幅をこれらについても適用し
ている。14個の基本関数を表わす記録されたデータは
第3図の線46上の有声音の12個のサンプル点を記述
する波形セグメントと2つの無声音を記述する波形セグ
メントにすぎないが、これらの基本関数は他の追加のデ
ータと共に良い品質の完全な音声波形を発生するための
基本情報を与える。
メモリ一18から基本関数データを読み取り、これをマ
イクロプロセツサ15および入出力装置20を通して、
サンプリングレートすなわち基本記録レートでデイジタ
ル・アナログ変換器11に与えて、波形を直接再生する
ことによつて基本関数に本質的に関連した有声音波形セ
グメントが第1図の装置で発生される。再び第3図を参
照すれば、有声音のための関連するパラメータ空間を取
り囲む矩形の大部分は基本関数d1(0)乃至dαυを
表わすデータ点によつてカバーされていないことが注目
される。
第3図の直線46上にない点の音を表わす有声音波形セ
グメントは基本関数のひとつを選択し、それをメモリー
18から読み出し、基本記録レートとは異るレートで、
これをマイクロプロセツサおよび入出力装置20を通し
てデイジタル・アナログ変換器11に送ることによつて
近似される。周知のラプラス変換−〔f(t/a)〕=
A F(AB)を用いれば、時間圧縮と時間伸長により周波
数領域を線形にスケーリングし、これによつてフオルマ
ント周波数の上下のスケーリングを行なうことができる
どの基本関数でもこれを基本記録レート、すなわち基本
記憶レートより速く読み出して時間圧縮したり、これを
基本記憶レートよりゆつくり読み出して時間伸長したり
することができる。第3図において、矩形中には入つて
いるが、基本関数線46より右上にある格子点によつて
示される波形セグメントを発生するには基本関数線46
より左下にある格子点によつて示される波形セグメント
を発生するには伸長を行なえばよい。2つの基本関数D
la3.dl(13とは異る無声音波形セグメントもま
た、これらの2つの波形を同様に圧縮、伸長することに
よつて発生することができる。
指令によつて発生された波形セグメントの内の選択され
たものをつなぎ合せることによつて完全な音声波形が発
生する。
このような完全な音声波形は有声音と無声音の両方を含
む。上述した振幅サンブル情報の他に完全な音声を記述
するためには、さらに他の情報が必要である。
多くの完全な音声は14個の基杢関数の内の選択された
ものから発生された多数の波形セグメントをつなぎ合せ
たものである。第1図の装置は基本関数から任意の所望
の完全な音声を発生する操作を予め決められたルーチン
に従つて行なう。基本関数をその選択の順序で記述した
基本関数のリストが表Aと呼ばれる第1図のメモリー1
8の中のデータ表に蓄積されている。各々Q完全な音声
についてつなぎ合せるべき基本関数の数は広汎に変化す
るが、そのデータ表には、発生されるべきワードの各々
すなわち完全な音声について24ビツトのデータ点のあ
る数から成るリストを含んでいる。第18図は、例えば
h売011というワードの音について完全な波形を表わ
すデータのリストを示している。各データ点、すなわち
完全な音声波形にするために、つなぎ合せられるべき波
形セグメントを表わすために3バイトのデータが使用さ
れる。これらのデータ点は点1から点Nの順序で順次に
リストされている。各データ点について、第1バイトの
下位の4ビツト55は、波形を発生するために14個の
基本関数d1(n)の内のどれを選択するかを示す。
第1バイトの上位の4ビツト60は圧縮/f帳係数D2
(至)によつて所望の基本関数読み出し期間を実現する
ために必要な時間圧縮あるいは時間伸長の量を示す。第
3図の圧縮伸長係数を表Bに示す。再び第18図を参照
すれば、各データ点の第2バイト65は256個の時間
のいずれかとしてピツチ期間を示す。基本関数読み出し
期間とピッチ期間の長さの相対的関係に応じて、関連す
る再生された基本関数を打切つたり、長くしたりするた
めに、このピツチ周期が使用される。ピツチ期間の終り
で、前の波形セグメントの終了と共にその直前の波形セ
グメントの直後に他の .データ点の波形がつなぎ合さ
れる。
各データ点の第3のバイト70は基本関数表から読み出
された波形セグメント振幅を修正するための256個の
振幅量子化レベルの内のひとつを示す。所望の音に対す
る振幅およびピツチの情報は周知の解析手法によつて決
定される。
14個の基本関数を表わすすべてのデータは第1図のメ
モリー18に蓄積されており、ここでこれはそれぞれの
基本関数アドレスによつて識別される。
任意の基本関数の振幅サンプルを表わす146個のデー
タワードは第1図のメモリー18中の連続したアドレス
に蓄積されている。第19図は基本関数を関接アドレス
する28バイトの第1表を示している。
第1表は以下に説明する第2表の14個の基本関数の各
々の絶対開始アドレス、すなわち初期アドレスを示す1
4個の2バイトのアドレスを蓄積している。第1表で指
定されるアドレスは、第18図の表Aに蓄積された基本
関数パラメータd1(n)に応動して第1図のマイクロ
プロセツサ15によつて選択される。第20図は基本関
数データを蓄積するための第2表を図示するものである
。前述したように、連続して符号化された振幅サンプル
は各々の基本関数d1(旬について連続したアドレスに
蓄積されている。各々の基本関数についての振幅サンプ
ルはその初期サンプルのアドレスを与え、そのアドレス
およびそれに続く145個のアドレスから情報を読み出
すことによつて、第1図のメモリー18から読み出され
る。従つて第1表に与えられた14個のアドレスだけで
、指令にキつて基本関数データのすべてをメモリー1゛
8からアドレス指定して読み出すことができる。再び第
1図を参照すれば、この回路装置は表Aと呼ばれるデー
タ点表と、第2表と呼ばれる基本関数表に蓄積されたデ
ータから選択された音を発生する。
応用プログラムはまた、メモリー18に蓄積されている
。メモリーはマイクロプロセツサ15に接続されており
、これはメモリー18中の表Aおよび第2表からのデー
タの選択、経路決定ノデータ転送のタイミングを制御し
、データをマイクロプロセツサ15、入出力装置20を
通してデイジタル・アナログ変換器11および12に与
える。
音声を合成するための基本関数の処理についての上述し
た操作は、種々の装置ならびに技法を用いて実行するこ
とができるが、第1図の装置の実施例ではインテル80
80Aマイクロプロセツサ、インテル8255入出力装
置およびモトローラMCl4O8デイジタル・アナログ
変換器が使用されている。
メモリーはランダム・アクセス・メモリーおよびリード
・オンリー・メモリーとして実現されている。ランダム
・アクセス・メモリーはインテル2102で実現され、
リード・オンリー・メモリーは4個あるいはそれ以上の
インテル2708で実現される。1個の2708メモリ
ーが応用プログラムに、2個の2708メモリーが第1
表および第2表の蓄積に、1個あるいはそれ以上の27
08メモリーが表Aのワード・リストの蓄積に使用され
る。
動作する実施例においては、メモリーから読み出される
べきデータのアドレスを与え、マイクロプロセツサから
入出力装置20への情報の転送を制御するためにアドレ
スバス30がマイクロプロセツサ15をメモリー18と
、また入出力装置20と接続する。
また指令によつてメモリーからマイクロプロセツサにデ
ータを転送するために8ビツトのデータバス31がメモ
リーとマイクロプロセツサを接続する。また表Aの圧縮
/伸長係数D2−の指定による基本関数読み出しレート
でマイクロプロセツサから入出力装置にデータを転送す
るために、データバス31はまたマイクロプロセツサと
入出力装置20とを相互接続している。マイクロコンピ
ユータ装置を特殊目的の機械に変換するプログラミング
ステツプのフローチヤートを第21図に示す。フローチ
ヤートに示された各ステツプはそれ自身は周知のもので
あり、当業者には容易に適切なプログラムに還元できる
ものである。音声波形を合成するために基本関数を読み
出すのに使用するサブルーチンは付録のA..BlCに
示した。メモリー18の第2表の基本関数表からのサン
プル振幅情報はマイクロプロセツサ15、データバス3
1、入出力装置20および8ビツトのデ一タバス32を
通して基本関数読み出しレートでデイジタル・アナログ
変換器11に与えられる。
この振幅情報は波形セグメントのサンブルの振幅を表わ
すデイジタル符号の形態をとる。基本関数波形セグメン
トの振幅を位更するために、表Aから読み出された振幅
情報はメモリーからマイクロプロセツサを通して入出力
装置20に与えられ、これは8ビツトデータバス33を
通して同一のデイジタルワードを、ピツチ期間の全体に
わたつてデイジタル・アナログ変換器12に与える。デ
イジタルアナログ変換器12は振幅変更情報を表わすバ
イアス信号を発生し、そのバイアスをデイジタル・アナ
ログ変換器11に与える。デイジタル・アナログ変換器
11はデイジタル・アナログ変換器12から与えられた
バイアスの値に従つて基本関数信号の振幅を変更する乗
算形デイジタル・アナログ変換器として構成されている
。任意のピツチ期間の開始時に振幅変更情報がデイジタ
ル・アナログ変換器12に与えられた後、基本関数を表
わす146個のサンブル符号ワ一゛ドの系列がマイクロ
プロセツサ15から入出力装置20を通して、次々にデ
イジタル・アナログ変換器11に与えられ、これは基本
関数の146個のサンプル符号ワードから1ピツチ期間
の間の振幅変更された所望の基本関数波形セグメントを
生ずる。146個のサンプル符号ワードを読み出すレー
トは振幅サンプルを取るのに使用された8kHzのサン
プリング、すなわち記憶レートに等しいか、これより速
いか、これより遅い。
この読み出しレートの変化は、その期間の圧縮/伸長係
数D2―に従つてマイクロプロセツサ15によつて実行
される。読み出しレートを速くすることによつて、第1
図の装置は選択された基本関数を時間圧縮したものであ
る波形を形成する。
この時間圧縮された基本関数は第3図のフオルマントF
1対フオルマントF2の軸上で異る点にある実際の波形
セグメントの近似となる。例えば、第3図でデータ点5
5に位置する基本関数d1(0)を選択して、これを圧
縮/イ帳係数D2(7)で時間圧縮すると、フオルマ
zントF1対フオルマントF2軸上で点60の所望の実
波形を近似する波形セグメントが発生される。点60で
識別される発生された波形セグメントは基本関数d1(
0)と圧縮/伸長係数D2(7)によつて発生されるも
のである。基本関数の読み出しレートをおそくすること
によつて、第1図の回路は選択された基本関数を時間伸
長したものである波形セグメントを構成する。
基本関数のこの時間伸長版もまた、第3図のフオルマン
トF1対フオルマントF2軸上での異る点における実際
の波形セグメントの近似である。第3図のデータ点55
における基本関数d!(0)を選択し、これを圧縮/伸
長係数D2(0)で時間伸長することによつて、第1図
の構成によつてフオルマントF1対フオルマントF2軸
上での点62に対応する所望の実波形を近似する波形セ
グメントが発生される。第」図の装置はそれが波形セグ
メントを圧縮したり、イ帳したりするときに、複数個の
フオルマント周波数について同時に動作することに注意
しておく。
フオルマントF1対フオルマントF2軸上で基本関数線
46が勾配m=−1を有するために、この装置によつて
この同時圧縮あるいは伸長を行なうことができるのであ
る。時間圧縮、伸長のプロセスは基本関数線46に垂直
な線に沿つて動作するから圧縮、伸長はフオルマントF
1およびフオルマントF2の特性に均一に与えられる。
線46に垂直なこの線の各々はフオルマントF1とフオ
ルマントF2の周波数の間の比を一定に保つ軌跡を形成
する。読み出しレートは発生された波形セグメントの振
幅がいかに急速に減少するかを決定することに注目され
たい。
第18図の表Aから読み出されたピッチ期間情報は、い
つそれに関連する波形セグメントを終了するかを決定す
る。前述のように発生された波形を変更する波形セグメ
ント振幅情報は、入出力装置20を通して、デイジタル
・アナログ変換器11によつて発生される波形セグメン
トの振幅を変更するためのバイアスを決定する係数と、
して、デイジタル・アナログ変換器12のデイジタル入
力に与えられる。この構成において、デイジタル・アナ
ログ変換器12は乗算用デイジタル・アナログ変換器と
して動作する。デイジタル・アナログ変換器11によつ
て線40上に生ずる出力信号は第1図には低級フイルタ
(LPF)41およびスピーカ13として示されたある
種の電気音響交換器に与えられるべきアナログ信号であ
る。
低域フイルタ41はデイジタル・アナログ変換器12と
スピーカの間に挿入されていて結果として生ずる音の品
質を向上するように動作する。サンプル信号の望ましく
ない高周波成分をフイルタで除去することによつて音の
品質を改善できる。必要な基本パラメータを記憶するメ
モリーの量は限られており、所望の波形セグメントを構
成するために比較的安価なハードウエアしか使用してい
ないが、上述した装置によつて合成される音声は極めて
良い品質を持つている。第1図の合成装置の記憶容量は
本質的には発生するべき語いの数によつて決まる。記憶
容量は発生されるべきすべての音の記述情報を含む第1
8図の表Aの大きさによつて決まるのである。第21図
には付録AおよびBにリストされているプログラムの制
御下に動作する第1図の回路装置によつて合成されるべ
き完全な音声の間に生ずるステツプの系列の概要を示す
フローチヤートが示されている。付録Aのリストのはじ
めには一般的コメントと用語の定義が示されている。第
21図において、図示された第1のステツプは合成する
べき音の選択である。
このような選択は付録AおよびBに示したプログラム・
リストによる制御の開始前に実行される。所望のワード
の選択の後で、プログラムの制御は5tスタート11と
いうコメントの直後から開始される。
WOrdxが初期化され、ワードポインタが設定される
。マイクロプロセツサはこれによつて選択されたワード
を記述する表Aの部分の位置を識別する。前述したよう
に、表Aは合成すべき各音について3バイトのデータポ
インタのリストを有している。マイクロプロセツサが初
期化された後で、制御は第21図に示した第3のステツ
プに続く。
これはフローチヤートの大きな外側のループを開始し、
これは付録A′(′DOLOOPlとラベルを付けたい
プロツクである。この処理のプロセスの中で、第1図の
システムは選択されたワードの第1のピツチ周期の間に
使用される特定の情報を決定する。この情報は第1の波
形セグメントの発生に使用されるピツチ期間の長さ、選
択された基本関数のアドレス、圧縮/伸長係数を含んで
いる。この情報のすべては、メモリー18からマイクロ
プロセツサ15に転送され、システムは付録AでDOL
OOPlで始まり、DOLOOP2の直前で終了するプ
ロツクの制御下に動作する。
DOLOOPlのシーケンスの間にマイクロプロセツサ
はピツチ期間の全体にわたつて、振幅係数を入出力装置
に出力しはじめる。
付録Aではコードのプロツクの内容はDOLOOPlの
コードのプロツクの中で、その内容を示すコメントの後
に示されている。第21図の大きなループの中で、小さ
な閉じた処理ループがある。
この閉じたルーブは付録AでDOLOOP2と呼ばれて
いる。小さな閉じたループのはじめで、マイクロプロセ
ツサは基本関数のサンプル値を入出力装置に出力するよ
うに動作する。このステツプの後には、データが小さい
閉じたループを通つて処理されるたびに、基本関数を完
全に読み出してしまうまで、メモリー・ポインタを次の
サンプルに更新する処理が続く。次のステツプは適用さ
れる圧縮/伸長係数によつて決まるサンプル間遅延の発
生である。この閉ループはピツチ期間カウントを更新し
てピツチ期間が終了したかどうかを判定することによつ
て終了する。もしピツチ期間が終了していなければ、制
御は再びDOLOOP2を実行するように戻る。もしピ
ツチ期間が終了すれば、システムは選択されたワードが
完全に合成し終つたかどうかをチエツクする。もしワー
ドが完全に合成し終つていなければ、制御は大きなルー
プの方に戻つて、次の波形セグメントに必要となるパラ
メータを決定する。さもなければ、制御はエクゼクテイ
ブ・プログラムに戻る。付録BはDOLOOP2を実行
する間のサンプル間遅延を発生するのに使用される適切
な遅延期間を決定するためのコードのプロツクのリスト
を示している。付録Cはメモリー中のテーブルを設定す
るのに使用されるルーチンである。
付録A.BおよびCのプログラムのリストは8080A
アセンブラ言語で記述されている。この言語については
カリフオルニア州サンタ・クララのインテル社のインテ
ル8080Aアセンブリ言語プログラミング・マニユア
ルに記載されている。上述の説明は本発明の一実施例た
る音声合成装置の構成と動作を詳細に説明したものであ
る。
付録/★このプログラムは音声発生のための波形合成を
実行する手法を実現するものである。
これには4個の基本パラメータがある。シンボルIdl
は14の内のひとつの18.5ミリ秒の時間波形、つま
り、基本波形に関連している。12個の基本関数は有声
音セグメントに2個の基本関数が無声音セグメントに対
応している。

Claims (1)

  1. 【特許請求の範囲】 1 各々の基本関数が基本記憶レートで記録された音声
    波形セグメントを表わすデータの集合を含み、その各々
    の基本関数が複数個のフォルマントF1およびF2を含
    みピッチ期間内の波形セグメントを規定している該基本
    関数を記憶するためのメモリー18を有する音声合成装
    置において、合成装置はピッチ期間ごとに変化する読み
    出し速度で基本関数を読み出す処理手段11、12、1
    3、15、20、30、31、32、33、36、40
    、41を有し、異なる読み出し速度によつてピッチ期間
    内にフォルマントF1およびF2を有する異なる音声波
    形セグメントを生ずることを特徴とする音声合成装置。 2 請求の範囲第1項に記載の音声合成装置において、
    該メモリーは該基本記憶レートで第1と第2のフォルマ
    ントを両対数軸上に示した図面(第3図)上の線46に
    乗つてプロットされたデータ点によつて表わされる該基
    本関数を記憶するようになつており、該処理手段は該メ
    モリーに結合されて、該メモリーから該異なる読み出し
    速度の内の任意の速度で選択読み出しを行ない、前記図
    面中の該線46上にはないデータ点を表わす異なる音声
    波形セグメントの内のひとつを発生することを特徴とす
    る音声合成装置。 3 請求の範囲第2項に記載の音声合成装置において、
    該図面中の線46はさらに両対数軸上で勾配m=−1を
    有する直線であることを特徴とする音声合成装置。 4 請求の範囲第2項に記載の音声合成装置において、
    メモリー18はさらに、合成されるべき完全な音声を記
    述するデータ点のリストを含むデータ点表(第18図)
    と、各アドレス位置が基本関数の内の異なるものの記憶
    位置の系列の初期記憶位置を指すアドレスのリストを含
    む第1の表(第19図)と、基本関数データのリストを
    含む第2の表(第20図)とを蓄積するセクションを含
    み;処理手段は、さらに、アドレスバス30とデータバ
    ス31を経由してメモリーと相互接続され、データ点表
    (第18図)と第1の表(第19図)から読み出された
    データに応動して第2の表(第20図)からマイクロプ
    ロセッサへの選択された基本関数データの転送を制御す
    るマイクロプロセッサと、データバス31を経由してマ
    イクロプロセッサと接続され、マイクロプロセッサから
    選択された基本関数データを受信する入出力装置20と
    、データバス手段32を経由して入出力装置と接続され
    入出力装置から選択された基本関数を受信し、選択され
    た基本関数データに応動して該線の外にある該データ点
    を近似的に表わすアナログ波形セグメントを発生する第
    1のディジタル・アナログ変換器11とを含むことを特
    徴とする音声合成装置5 請求の範囲第4項に記載の音
    声合成装置において、マイクロプロセッサ15は、さら
    に、データ点表(第18図)から取られた時間圧縮/伸
    長係数60に応動して、マイクロプロセッサから入出力
    装置への基本関数データの伝送速度を決定するように動
    作することを特徴とする音声合成装置。 6 請求の範囲第4項に記載の音声合成装置において、
    処理手段はさらにデータバス手段33を経由して入出力
    装置20と相互接続された第2のディジタル・アナログ
    変換器12を含み、第2のディジタル・アナログ変換器
    12はデータ点表(第18図)から取られた振幅係数7
    0に応動してバイアス信号を発生し、該第1のディジタ
    ル・アナログ変換器11はバイアス信号に応動して該線
    の外にある該データ点を表わすアナログ波形セグメント
    の振幅を修正することを特徴とする音声合成装置。
JP54500643A 1978-04-06 1979-04-02 音声合成装置 Expired JPS5930280B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US05/894,042 US4163120A (en) 1978-04-06 1978-04-06 Voice synthesizer
US000000894042 1978-04-06

Publications (2)

Publication Number Publication Date
JPS56500353A JPS56500353A (ja) 1981-03-19
JPS5930280B2 true JPS5930280B2 (ja) 1984-07-26

Family

ID=25402515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP54500643A Expired JPS5930280B2 (ja) 1978-04-06 1979-04-02 音声合成装置

Country Status (8)

Country Link
US (1) US4163120A (ja)
EP (1) EP0011634A1 (ja)
JP (1) JPS5930280B2 (ja)
CA (1) CA1105621A (ja)
DE (1) DE2945413C1 (ja)
FR (1) FR2457537A1 (ja)
GB (1) GB2036516B (ja)
WO (1) WO1979000892A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1172366A (en) * 1978-04-04 1984-08-07 Harold W. Gosling Methods and apparatus for encoding and constructing signals
US4234761A (en) * 1978-06-19 1980-11-18 Texas Instruments Incorporated Method of communicating digital speech data and a memory for storing such data
US4189876A (en) * 1978-08-07 1980-02-26 American Seating Company Beam-mounted folding chairs
JPS55111995A (en) * 1979-02-20 1980-08-29 Sharp Kk Method and device for voice synthesis
US4272649A (en) * 1979-04-09 1981-06-09 Williams Electronics, Inc. Processor controlled sound synthesizer
JPS55147697A (en) * 1979-05-07 1980-11-17 Sharp Kk Sound synthesizer
GB2050979A (en) * 1979-05-29 1981-01-14 Texas Instruments Inc Automatic voice checklist system for aircraft cockpit
DE3066593D1 (en) * 1979-08-17 1984-03-22 Matsushita Electric Ind Co Ltd Heating apparatus with sensor
US4335379A (en) * 1979-09-13 1982-06-15 Martin John R Method and system for providing an audible alarm responsive to sensed conditions
AU523649B2 (en) * 1979-10-18 1982-08-05 Matsushita Electric Industrial Co., Ltd. Heating apparatus safety device using voice synthesizer
JPS5681900A (en) * 1979-12-10 1981-07-04 Nippon Electric Co Voice synthesizer
EP0031589B1 (en) * 1979-12-26 1986-11-12 Matsushita Electric Industrial Co., Ltd. Food heating apparatus provided with a voice synthesizing circuit
AU6785081A (en) * 1980-02-01 1981-08-17 Swarztrauber, S. Audio-visual message device
US4449233A (en) 1980-02-04 1984-05-15 Texas Instruments Incorporated Speech synthesis system with parameter look up table
JPH0124699Y2 (ja) * 1980-02-18 1989-07-26
GB2076616B (en) * 1980-05-27 1984-03-07 Suwa Seikosha Kk Speech synthesizer
US4517431A (en) * 1981-05-04 1985-05-14 Matsushita Electric Industrial Co., Ltd. Safety device for a heating appliance
US4449231A (en) * 1981-09-25 1984-05-15 Northern Telecom Limited Test signal generator for simulated speech
US4571739A (en) * 1981-11-06 1986-02-18 Resnick Joseph A Interoral Electrolarynx
EP0085209B1 (en) * 1982-01-29 1986-07-30 International Business Machines Corporation Audio response terminal for use with data processing systems
GB2119208B (en) * 1982-04-28 1986-01-22 Gen Electric Co Plc Method of and apparatus for generating a plurality of electric signals
US4624012A (en) 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
US5113449A (en) * 1982-08-16 1992-05-12 Texas Instruments Incorporated Method and apparatus for altering voice characteristics of synthesized speech
US4566117A (en) * 1982-10-04 1986-01-21 Motorola, Inc. Speech synthesis system
US4639877A (en) * 1983-02-24 1987-01-27 Jostens Learning Systems, Inc. Phrase-programmable digital speech system
US4675840A (en) * 1983-02-24 1987-06-23 Jostens Learning Systems, Inc. Speech processor system with auxiliary memory access
AU4110485A (en) * 1984-03-13 1985-10-11 R. Dakin & Co. Sound responsive toy
JPS6199198A (ja) * 1984-09-28 1986-05-17 株式会社東芝 音声分析合成装置
US4845754A (en) * 1986-02-04 1989-07-04 Nec Corporation Pole-zero analyzer
EP0245531A1 (de) * 1986-05-14 1987-11-19 Deutsche ITT Industries GmbH Verwendung von halbleitertechnischen Festwertspeichern
US5009143A (en) * 1987-04-22 1991-04-23 Knopp John V Eigenvector synthesizer
AU2548188A (en) * 1987-10-09 1989-05-02 Edward M. Kandefer Generating speech from digitally stored coarticulated speech segments
US5163110A (en) * 1990-08-13 1992-11-10 First Byte Pitch control in artificial speech
US5130696A (en) * 1991-02-25 1992-07-14 Pepsico Inc. Sound-generating containment structure
JP3278863B2 (ja) * 1991-06-05 2002-04-30 株式会社日立製作所 音声合成装置
US20120078625A1 (en) * 2010-09-23 2012-03-29 Waveform Communications, Llc Waveform analysis of speech
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3104284A (en) * 1961-12-29 1963-09-17 Ibm Time duration modification of audio waveforms
US3641496A (en) * 1969-06-23 1972-02-08 Phonplex Corp Electronic voice annunciating system having binary data converted into audio representations
US3828132A (en) * 1970-10-30 1974-08-06 Bell Telephone Labor Inc Speech synthesis by concatenation of formant encoded words
JPS5331323B2 (ja) * 1972-11-13 1978-09-01
US3908085A (en) * 1974-07-08 1975-09-23 Richard T Gagnon Voice synthesizer
US4069970A (en) * 1976-06-24 1978-01-24 Bell Telephone Laboratories, Incorporated Data access circuit for a memory array

Also Published As

Publication number Publication date
EP0011634A1 (en) 1980-06-11
GB2036516B (en) 1982-11-03
CA1105621A (en) 1981-07-21
FR2457537B1 (ja) 1982-02-26
WO1979000892A1 (en) 1979-11-15
FR2457537A1 (fr) 1980-12-19
JPS56500353A (ja) 1981-03-19
DE2945413C1 (de) 1984-06-28
US4163120A (en) 1979-07-31
GB2036516A (en) 1980-06-25

Similar Documents

Publication Publication Date Title
JPS5930280B2 (ja) 音声合成装置
US5890115A (en) Speech synthesizer utilizing wavetable synthesis
US5744742A (en) Parametric signal modeling musical synthesizer
US4577343A (en) Sound synthesizer
US5698807A (en) Digital sampling instrument
US4435832A (en) Speech synthesizer having speech time stretch and compression functions
US6687674B2 (en) Waveform forming device and method
WO1997017692A9 (en) Parametric signal modeling musical synthesizer
JP4170217B2 (ja) ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム
Schwarz et al. Spectral envelope estimation, representation, and morphing for sound analysis, transformation, and synthesis.
Lindemann Music synthesis with reconstructive phrase modeling
Creasey Audio Processes: Musical Analysis, Modification, Synthesis, and Control
JPH0160840B2 (ja)
JP2564641B2 (ja) 音声合成装置
US5715363A (en) Method and apparatus for processing speech
Lansky et al. Synthesis of timbral families by warped linear prediction
KR100422261B1 (ko) 음성코딩방법및음성재생장치
JP3841596B2 (ja) 音素データの生成方法及び音声合成装置
JP2754965B2 (ja) 電子楽器
JP3261982B2 (ja) カラオケ装置
JP3133347B2 (ja) 韻律制御装置
JPH0453997A (ja) 音声開発装置
JPS6136800A (ja) 可変長フレ−ム音声分析合成方式
JP2968456B2 (ja) 楽音波形の形成方法及び形成装置
JP3092169B2 (ja) 音声合成装置