JPH0677200B2 - デジタル化テキストの音声合成用デジタルプロセッサ - Google Patents

デジタル化テキストの音声合成用デジタルプロセッサ

Info

Publication number
JPH0677200B2
JPH0677200B2 JP59260946A JP26094684A JPH0677200B2 JP H0677200 B2 JPH0677200 B2 JP H0677200B2 JP 59260946 A JP59260946 A JP 59260946A JP 26094684 A JP26094684 A JP 26094684A JP H0677200 B2 JPH0677200 B2 JP H0677200B2
Authority
JP
Japan
Prior art keywords
waveform
digital signal
digital
quantized
glottal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59260946A
Other languages
English (en)
Other versions
JPS60186000A (ja
Inventor
デニス.ハウアード.クラツト
Original Assignee
デジタル・イクイップメント・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by デジタル・イクイップメント・コーポレーション filed Critical デジタル・イクイップメント・コーポレーション
Publication of JPS60186000A publication Critical patent/JPS60186000A/ja
Publication of JPH0677200B2 publication Critical patent/JPH0677200B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明はテキストを音声スピーチに変換する装置に関す
る。
〔発明の背景〕
従来より、多数のテキスト・スピーチ装置がある。先行
技術に関する文献から確かめられる様に、典型的な人間
の音声のエネルギーは5000ヘルツの周波数スペクトルに
わたつて分布していることが一般に認められているの
で、毎秒10000サンプルのサンプリングレート(或いは
認められている人間の音声周波数スペクトルの2倍)が
テキストスピーチを表現する正確なアナログ波形を発生
するのに充分な点ないし縦座標長さを提供する。確か
に、この様なサンプリングにテキストの音声表現をする
アナログ波形を提供しはするが、模造の朗読者が女性で
比較的高温の持主である場合、従来技術による装置で作
られた模造スピーチの品質は良くはない。
スピーチシミユレーシヨン技術において、声帯を開閉し
て発生される声(気息音および摩擦音に対比して有声音
と称される)は50ヘルツないし400ヘルツの範囲の基本
周波成分を有することは周知の処である。若干、かん高
い音声を有する典型的な女性の発声は、恐らく、少なく
とも部分的に、声帯開閉によつて160ないし400ヘルツの
周波数を有する。女性の発声のシミユレーシヨンを考え
て、最終的にはアナログ波形に変換されるべき二値化声
門波形が従来のレートの毎秒10000サンプルでサンプリ
ングされ(アナログ信号への最終的な変換のため)、ま
た波形が女性発声の模造時の主成分を提供する様に展開
したとすると、その結果生じる女性形発声は品質が悪
い、ということを発明者は確認した。更に発明者等は、
量子化声門波形が充分な情報提供のために(基本周波数
に対する時間的精度)毎秒40000回のサンプリングを行
うと、この種の波形は発声された女性発声の品位改善の
基礎となる、という事も知見した。元来、量子化声門波
形を発声させるのに使用されるデジタル信号プロセツサ
はその能力が毎秒10000サンプル以上のサンプリングレ
ートでデジタルフイルタリングを行うことに限定されて
いるので、量子化声門波形(毎秒40000回のサンプリン
グを行うのに充分な情報性を有する)のサンプリングを
毎秒10000回のサンプリングレートに低下させる必要が
ある。本発明は、多量情報の長所のなにがしかを残すた
めに、波形を低域通過波して高周波信号成分を除去す
ると共に低レートでのサンプリング前に好ましい平均化
操作を行うようにした装置を提供しようとするものであ
り、従つて本発明の装置は、ソフトウエアによつて他の
音源と組合わさるべき毎秒10000サンプルの出力波形を
与え、それにも拘わらずこの低下サンプリングされた波
形が生成女性スピーチの品位を非常に向上し且つ男性ス
ピーチに対しても若干の品位を向上する基礎となるよう
にしたものである。
〔発明の概要〕
本発明の装置は、UARTなどを介して主計算機から、或い
はローカルコンソールからのASCII信号を受信するマイ
クロプロセツサを有する。マイクロプロセツサはハンニ
カツト規制(Hunnicutt rule)に従つてプログラミング
され、テキストの表現をなしているASCII信号は音素順
(phonemic sequence)に変換される。マイクロプロセ
ツサは、好ましい実施例においては、約18パラメータを
発生する様にプログラムされている。好ましい実施例に
おいては、パラメータは長さ16ビツトで、これは各6.4
モリ秒で計算されて、音源振幅、鼻音ゼロ周波数、第1
フォルマント周波数など、の様な発声品位を表現する。
パラメータ値は音素の配列および音素自体を計算に入れ
たプログラムを介して発生される。パラメー値は次いで
高速デジタル信号プロセツサへ伝送される。この高速デ
ジタル信号プロセツサ中に、メモリ内に一連の方程式が
配置されると共にプログラムが格納されており、このプ
ログラムによつて、パラメータ値が、方程式によつて示
された信号変換の実現に必要な加算および乗算を制御す
る様になつている。方程式のシミユレーシヨンによつて
量子化声門波形、即ち声門パルスモデルが用意される。
パラメータは声帯動作を高い時間的精度にまで表示する
要素を伴つて作られるので、また、他の要素もこの考慮
と合致するので、高速デジタル信号プロセツサ内で作ら
れた量子化声門波形は毎秒40000サンプルを作るのに充
分な情報を持つている。毎秒20000サンプルより大きな
サンプリングレートは良好な結果を生じることは了解さ
れる所であるが、40000サンプル/秒は優秀な結果をも
たらすことを発明者は見い出した。然し、共振フイルタ
リングに対して得られる最大サンプリングレート(合理
的な価格要因の制約下で)は10000サンプル/秒の程度
なので、本発明の装置では2種の適応ステツプを採用し
ている。最初に、量子化声門波形がプログラムされた低
域通過波操作を受ける。好ましい実施例においてはこ
の種の低域通過波操作は5000ヘルツの周波数以上の信
号成分を除去する。これは勿論留保される情報を減少す
るが、システムが表現を要しない情報を除去する。更
に、発明者の知見によると、この低域通過波操作はか
なりの量の得られる点即ち縦座標値の望ましい平均化を
もたらす。量子化声門波形を低域通過波したのち、信
号は毎秒10000サンプルのレートで低下サンプリングさ
れる。適当な設備を採用するならば、毎秒6800ないし15
000サンプルの範囲の低下サンプリングでほゞ同様な結
果が得られるものと考えられる。サンプリングレートは
従来のレートと同一ではあるが、毎秒40000サンプルに
よる時間的精度を有する最初に作つた量子化声門波形は
最終量子化声門波形を他の音源の量子化波形と組合わせ
て良好なアナログ波形(この時間的精度を有する)に、
従つて良好な発声内容に変換されることが判る。
本発明の目的および特徴は図面を参照しての後述の説明
から更に明らかとなろう。
テキスト・スピーチ装置とそれに関連する文献の類は非
常に多い。例えばアメリカ音響学会(Accuostical Soci
ety of America)から1980年3月に出版された本発明者
の著書「カスケード/パラレル・フオーマツト・シンセ
サイザ用ソフトウエア(Software For A Cascade/Paral
lel Format Synthesizer)」、および1981年3月のオフ
イスオートメーシヨン会議録(Proceedings Office Aut
omation Conference)において出版の発明者の「テキス
ト・スピーチ変換システム(A Text to Speech Convers
ion System)」、および1982年にナシヨナル・アカデミ
ー・プレス(National Academy Press)から出版された
発明者の「会話合成の科学技術評論(Review of Scienc
e and Technology of Speech Synthesis)」、および19
83年4月出版のブルツカート(Bruckert),マイノウ
(Minow)及びテツシユナー(Tetschner)による出版物
「テキスト音読用3段階ソフトウエアと大規模集積回路
支援開発システム(Three−Tiered Software and VLSI
Aid Development System to Read Text Aloud)」、お
よび特にその中に引用されている出版物及び参照文献は
テキスト・スピーチ変換技術に関する広範な文献でもあ
り、その多くが本明細書中で参照されているのもであ
る。
人間の声帯の開閉によつて生じる音は50ヘルツないし40
0ヘルツの基本波周波数を有する音であることは音声解
析技術において周知の処である。事実、声帯の開閉はこ
の範囲外の周波数で操作し得るが、一般には50ないし40
0ヘルツの周波数範囲が適当と考えられる。従来の音声
シミユレーシヨン装置においては、多くの努力が最終出
力、即ち音声イミテーシヨンへの品質向上を行うための
ハードウエア,ソフトウエアの開発に費されている。発
明者等は音声領域をモデル化し得る差分方程式を開発
し、音声、気音(aspiration)、摩擦音(frication)
の様な各種音源を別々にシミユレートし得るソフトウエ
ア及びハードウエアを開発した。然しこれらの努力全体
を通じて、シミユレートした男性発声の品質に比較し
て、シミユレートした女性の発声の品質および恐らくそ
れらの間の全発声源の品質の問題については殆んど注意
が払われていなかつた。
女性の声帯の開閉は160ないし400ヘルツの周波数である
ことが一般に認められている。従って、毎秒10000サン
プルの従来のサンプリングレートを有する量子化声門波
形を開発するならば、声帯閉止期間の間に約25回の情報
サンプルを得ることとなる。25回のサンプリングは、若
し存在したら良好な品位のイミテーシヨンを提供するで
あろう女性の発声のある種の特徴を取入れるのには不充
分である。従つて本発明の装置においては、入手可能の
情報を増加するものであり、これは一方で従来欠如して
いた特徴である。イミテーシヨン発声を作るために従来
のサンプリングレートのものも続けてきたが、本発明の
装置によるイミテーシヨン発声は女性的発生の場合に品
質の向上が、また男性的発声の場合に若干の改善がある
ことを示した。本発明が向けられているのはこれらの改
良に対するものである。
本願発明に係るデジタルプロセッサは下記の信号処理を
行なう。
(a)まず、ナイキストのサンプリング定理に示される
サンプリングレートよりも大きいレートによる毎秒第1
の所定数の量子化声門波形のサンプルを発生させる処
理。
(b)次に、前記発生された量子化声門波形サンプルか
ら所定の限界周波数を越える高周波数成分を除去する低
域通過波処理。
(c)次に、前記低域通過波処理された量子化声門波
形を低下したレートでサンプリングし、毎秒第2の所定
数のサンプルを表わすデジタル信号を得る低下サンプリ
ング処理。
そして前記(a)項の第1の所定数は前記(c)項の第
2の所定数の2倍以上であり、且つ1秒当たり第1の所
定数は前記(b)項の所定の限界数波数の2倍よりも大
きな数であります。
上記(a),(b),(c)の信号処理が本願発明の基
本的な信号処理でありますが、実施例ではさらに下記
(d)及び(e)の付加的信号処理が示されています。
(d)前記低下サンプリング処理された量子化声門波形
と他の量子化音源波形とを組合せて組合せ波形を生成す
る波形組合せ処理。
(e)前記組合せ波形のデジタル共振波処理を行な
い、その共振周波数についてピーク波形を付加するデジ
タル共振波処理。
まず上記(a)〜(c)の基本的信号処理の目的及び効
果について説明する。
ナイキストのサンプリング定理は、連続波形を一定の時
間間隔毎のサンプル値系列で表現するとき、このサンプ
ル値系列から再び原波形を再現することのできる限界の
サンプリングレートとして、原波形に含まれる最も高い
周波数成分の少くとも2倍の周波数のサンプリングレー
トを示している。換言すると最高周波数の2倍のサンプ
リングレートは波形を決定するのに必要な最低のサンプ
ル数を示すものである。またナイキストのサンプリング
レートは平均的な周波数情報との関係を示すものではあ
るが、時間領域の応答性との関係を示すものではない。
ナイキストの定理で示されるサンプリングレート以上に
発生するサンプル数を増加させると、音声合成波形の周
波数分解能が増大し、女性音声の合成波形は前記周波数
分解能の向上により強調されることを出願人は発見し
た。
典型的な人間の音声エネルギーは約5000ヘルツの周波数
スペクトラムにわたり分布しているので、従来はナイキ
ストの定理を鵜呑みにした毎秒10000サンプルのサンプ
ルレートによる音声合成波形が一般に使用されていた。
しかし本実施例では、(a)項の量子化声門波形のサン
プルとして、毎秒の第1の所定数を毎秒40000のサンプ
ルとして発生させている。その結果周波数分解能は向上
し、時間領域の応答性も改善される。また音声励起関数
は本質的に生のインパルス関数であり、最初に発生され
るサンプル数が少いと、典型的な女性の音声の時間巾の
狭いパルス信号のタイミングや、該パルス信号内のエネ
ルギーの総量が、量子化音声波形に正確に表現されな
い。
次の(b)項の低域通過波処理は、前記ナイキストの
サンプリング定理によるサンプル数よりも多くのサンプ
ル数(実施例では4倍)の量子化声門波形のサンプルか
ら所定の限界周波数(実施例では5000ヘルツ)以上の高
周波成分のみを除去している。この低域通過波処理は
信号の時間領域の応答に関係し、この時間領域の応答性
が女性の音声の品質認識面では重要となる。またこの声
門波形の波処理を行っても、波形のサンプル数は
(a)項で発生された数と同一である。
次の(c)項では前記低域通過波処理された波形から
低下したサンプリングレート(ほぼナイキストの定理と
等しいサンプリングレート)によりサンプリングを行な
い、毎秒第2の所定数(実施例では毎秒10000)のサン
プルを表わすデジタル信号を得る処理をする。実施例で
は入力する波形サンプルから各4番目毎のサンプルを選
択することにより、サンプリングレートを1/4に低下さ
せている。
女性音声の品質向上は周波数帯域(レンジ)に関係する
のではなく、周波数分解能と時間領域の特性に関係する
ものである。そして前記(b)項の低域通過波処理の
際に残存された上記周波数分解能と時間領域の特性につ
いての情報は、(c)項の低下サンプリング処理により
失なわれるものではない。
このようなナイキストの定理よりも大きなサンプル数の
波形が当初保有していた周波数分解能と時間領域の特性
をかなりの部分残存されている本願発明の音声合成波形
は、最初からナイキストの定理に従い毎秒約10000サン
プルにより発生された従来の音声合成波形と比較する
と、前者の音声合成波形に基づく女性の人工的音声は後
者の波形に基づくものに比較して高品質のものが得られ
る。
次に前記(d)項における低下サンプリングされた量子
化声門に他の量子化音原波形を組合せて組合せ波形信号
を生成する目的及び効果について述べる。
音声の発生機構を電気的にシミュレートして合成音声を
作り出す一手法として、音道を微小区間長の可変断面積
円筒の縦続接続により近似し、その中の音波を前進波と
後進波に分け、これらの波が各微小区間の境界面におけ
る音響インピーダンスの不整合の度合により、反射と透
過を繰返しながら伝搬する状態を解析し、これをシミュ
レートする方法がある。
本実施例においては、この音道特性を考慮した音声合成
法にもとづき、子音など乱流特性を有する音声には、発
生音原に他の音原(例えば白色雑音性音原)の信号を組
合せた信号とすることにより、音道の動的な調音に近い
状態にシミュレートできる効果がある。
また前記(e)項における前記組合せ波形の信号をデジ
タル共振波処理する目的及び効果について述べる。
音声をシミュレートして合成する別の手法として、調音
の結果としての音声の周波数スペクトル構造、即ち、共
振及び反共振現象をシミュレートする方法がある。
この技術は、共振及び反共振周波数と帯域巾が可変な共
振及び反共振の波器を単数または複数(複数の場合は
縦続接続または並列接続にして)使用し、スペクトル構
造の明確な母音から複雑なスペクトルを有する鼻音や摩
擦音をシュミレートするものである。
本実施例においては、デジタル共振波器を用いて、共
振周波数におけるピーク波形を加えることにより、鼻音
や摩擦音を人間の音声に近い状態にシミュレートできる
効果がある。
前記説明したように(a)〜(c)項の基本的信号処理
に、さらに(d)項及び(e)項の信号処理を付加する
ことにより、女性の音声、子音、鼻音、もしくは摩擦音
などの合成された人工音声の品質を向上させ、人間の音
声に近づけることができる効果が得られる。
さらに好ましき実施例では前記(a)〜(e)の信号処
理がなされたデジタル信号をアナログ信号波形に変換
後、折返し信号の除去処理を行っている。これは、アナ
ログ信号に変換される際に発生する不必要な雑音成分を
除去する効果がある。
〔実施例〕
図面を参照して、図中にあるマイクロプロセツサ(11)
へはASCIIコード使用のアルフアベツト文字が伝送され
る。好ましい実施例(Digital Equipment Corp.製のDEC
talkと称するシステム)においては、テキスト(ブラ
ウン管上に表示可能)を音声に変換する。図面に記載の
通り、ACSII信号は回線(13)を介してマイクロプロセ
ツサ(11)に伝送され、そこでASCIIコード化信号はマ
イクロプロセツサ(11)中の貯蔵プログラム手段によつ
て操作される。好ましい実施例においては、マイクロプ
ロセツサ(11)はモトロラコーポレーシヨン製のモデル
68000である。貯蔵プログラム手段の一部分(15)はハ
ンニカツト(Hunnicutt)規則によつて作られた値のセ
ツトを有するが、その詳細は、このプログラムが秘密合
意の下に許諾されているので公表しない。然しこのプロ
グラムはハンニカツト・カンパニー(Hunnicutt Compan
y)から一般に対する実施許諾によつて入手可能であ
る。その結果および結果の利用は音声解析技術において
公知の処であり、従つてプログラムはそれ自体は本発明
に基本的なものではない。勿論、コード化したテキスト
文字を音素的表現に変換するその他のプログラムを使用
することもできる。
マイクロプロセツサ(11)はプログラム手段の他の一部
分(17)において音素的表現を複数個のパラメータの発
生に使用するために更にプログラムされている。パラメ
ータ値は16ビツトで構成され、その発生に当つて音素の
特殊性および相互間の音素の関係を計算に入れて行われ
る。パラメータ発生の法則は「ランゲージ・アンド・ス
ピーチ(Language and Speach)」第7巻(1964年)で
公表されたジエイ・エヌ・ホルメス(J. N. Holmes)、
アイ・マツテイングリイ(I. Mattingly)およびジエイ
・シエアーム(J. Shearme)による“規則による会話合
成(Speach Synthesis by Rule)”に見られる。パラメ
ータはこの公表された規則に従つて作つたが、実験的考
慮によつてこれから変化させたかに応じて夫々変化して
いる。パラメータの発生は本発明の基礎ではなく、この
規則の使用も当業者公知の処でもあり、上述の出版物か
ら見て、これ以上の説明は不必要と考える。
好ましい実施例においてはパラメータは6.4ミリ秒毎に
発生されてマイクロプロセッサ(11)からFIFOメモリ
(19)に伝送される。FIFOメモリ(19)は高速デジタル
信号プロセツサ(21)を比較的低速のマイクロプロセツ
サ(11)から隔離する。好ましい実施例においては、FI
FOメモリ(19)はテキサス・インストルメンツ・コーポ
レーシヨン(Texas Instruments Corp.)製74LS224型で
ある。その他の形式のメモリないし隔離回路が使用し得
ることは言うまでもない。
パラメータ表示は高速デジタル信号プロセツサ(21)
(以下DSPと称す)に伝送され、ここでプログラム手段
(20)を介して適当な差分方程式のプログラムシミユレ
ーシヨンによつて加算および乗算を制御する。好ましい
実施例においてはDSP(21)はテキサス・インストルメ
ンツ・コーポレーシヨン製の32010形である。ある種の
差分方程式が音声領域のモデルを作るのにシミュレート
させ得るのは当業者周知の処である。これらの方程式お
よびこれらの方程式のための関係を計算するプログラム
ルーチンに関しては、アメリカ音響学会(Acoustical S
ociety of America)によつて1980年3月に出版された
発明者の著書カスケード/パラレル・フオーマツト・シ
ンセサイザ用ソフトウエア(Software For A Cascade/P
arallel Format Synthesizer)中に説明されている。差
分方程式自体は本発明の基本問題ではないので、これ以
上の説明は不要と考える。方程式シミユレーシヨンプロ
グラムの出力は公知のものなので、これがテキストを表
現する量子化声門波形を表示する、ということを承知す
べきである。発明者は、本考察の条件の下に作つた量子
化声門波形は充分な情報を提供する様に作られるべきで
ある。即ち毎秒40000サンプルのサンプリングレートを
可能とするに充分な16ビツトサンプルを要する、と定め
た。発明者は40000座標値、即ち40000の点が人間の音声
を模造するに当つて今まで作られていなかつた音声の特
徴を含んでいるアナログ波形信号を提供することが可能
であることを断定した。上述した処は発生音が声帯周波
数帯の高周波端における声帯操作によつて作られた場
合、特に正しい所である。この様な人間音声は通常女性
と判定されるものである。然し、元来高速デジタル信号
プロセツサ(21)はその全計算能力が毎秒ただの10000
サンプルをサンプルしてデジタルフイルタする容量しか
無く(又発明者は同等の価格の設備でこれ以上のサンプ
リング割合のものが無いことを知つている)情報の多い
量子化声門波形は遅い割合でサンプルすべき、即ちダウ
ンサンプリングすべきである。
多数情報入手の長所を保持すること、即ちプロツト可能
点の増加または縦座標値の数の増加を行うことに対して
若干のステツプは取られてはいるが、それにも拘わらず
従来の遅いサンプルレートでのサンプリングが行われて
いる。本発明の装置は第2プラグラム手段(23)をデジ
タル信号プロセツサ中に用意するが、これは量子化声門
波形に対する低周波通過波器として作用する。低域通
過波器動作に作用するソフトウエアに必要な規則とプ
ログラムは1975年プレンテイス・ホール(Prentice Hal
l)出版の「デジタル・シグナル・プロセシング(Digit
al Signal Processing)」に見られる。量子化波形の低
域通過波技術は当業者の周知の処で、またそれ自体本
発明の基礎となるものでもない。従つてプログラム化低
域通過波器操作のこれ以上の詳細説明は不要と考え
る。量子化声門波形が低域通過操作を受けると所定の閾
値を越す周波数の若干の信号成分が除去された量子化声
門波形が生じる。好ましい実施例においては周波数が50
00ヘルツを越え信号成分を除去する。勿論、他の閾値を
使用してもよい。
この低域通過波操作が若干の平均化作用を発揮し、こ
の種の平均化が最終生成物において有用であることが証
明される、ということを知見した。低域通過波操作は
元来ある種の信号成分を除去し、残つた情報量は減少し
はするが、除去された情報は表示の必要のないものであ
ることに注意すべきである。従つて量子化声門波形の仕
上がりに残つている情報の値は誇張される。
本発明の装置は第3プログラム手段(25)を有し、これ
は4番目毎のサンプル、即ち16ビツトの各第4グループ
を選出して通過させるプログラムを有する。量子化声門
波形には波形発生器プログラム手段(20)内で他の音源
波形、例えば白色雑音性の音源波形が組合わされる。そ
の後、第5プログラム手段(28)のガイドによつて組合
わせ信号はデジタル共振波されてピークを組合わせ信
号に加える。最後に、組合わせ量子化波形はデジタル−
アナログ変換器(27)に伝送される。好ましい実施例で
はデジタル−アナログ変換器はアナログ・デバイセズ・
コーポレーション(Analog Devices Crop.)製のAD7541
型である。
デジタル−アナログ変換器(27)において、組合わせ波
形がアナログ波形信号に変換される。デジタル信号のア
ナログ信号への変換に当つて常に疑似(alias)信号が
発生することは考えられる所である。本システムは疑似
信号、即ち5000ヘルツ以上の周波数の信号を除去するた
めに疑似信号除去フイルタ(29)を使用している。疑似
信号除去手段の使用は公知なので深い説明は不要であ
る。
最後に、今やアナログ波形になつている組合わせ波形は
スピーカー(31)に送られ、スピーカーを付勢して良好
な品質の良好な模擬音声でテキストを放声する。
好ましい実施例においては、モトローラ68000マイクロ
プロセツサが10メガヘルツクロツクと24ビツトアドレツ
シングを有し16メガバイトのメモリをアドレス可能であ
るのでこれを使用している。デジタル信号プロセツサと
して選定したのは、高速数学計算を行う能力があるとい
う理由でテキサスインストルメントTM32010である。680
00マイクロプロセツサに採用したメモリ装置は、好まし
い実施例では256KバイトのROMと48KバイトのRAMから成
る。
【図面の簡単な説明】
図は本発明のテキスト音声スピーチ化装置のブロツク図
である。 図中、11はマイクロプロセツサ、13はASCII信号入力
路、15はハンニカツト規則メモリ部、17はパラメータ発
生器部、19はFIFOメモリ、20は波形発生器部、21はデジ
タル信号プロセツサ、23は低域通過フイルタ部、25は低
下サンプリング部、27はデジタル−アナログ変換器、28
はデジタルフイルタ部、29は疑似信号除去フイルタ、31
はスピーカーを示す。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭52−40012(JP,A) 特開 昭54−28520(JP,A) 特開 昭56−111899(JP,A)

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】デジタル化テキストから音声合成を行なう
    のに用いられるデジタルプロセッサにおいて、 複数の音声パラメータを表現する第1のデジタル信号を
    受理する信号受理手段と、 前記第1のデジタル信号の関数として第1の量子化声門
    波形の1秒当たり20000サンプル以上のサンプリングレ
    イトを示す第2のデジタル信号を発生する信号発生手段
    と、 前記第2のデジタル信号を低域通過波処理し、ほぼ50
    00ヘルツ以上の周波数成分を除去した第2の量子化声門
    波形を表現する第3のデジタル信号を形成する低域通過
    波手段と、 前記第3のデジタル信号を低下したレートでサンプリン
    グし、第3の量子化声門波形の1秒当たりほぼ10000の
    サンプルを表現する第4のデジタル信号を形成する低下
    サンプリング手段とを備えたことを特徴とするデジタル
    化テキストの音声合成用デジタルプロセッサ。
  2. 【請求項2】デジタル化テキストから音声合成を行なう
    のに用いられるデジタルプロセッサにおいて、 複数の音声パラメータを表現する第1のデジタル信号を
    受理する信号受理手段と、 前記第1のデジタル信号の関数として第1の量子化声門
    波形の1秒当たり20000サンプル以上のサンプリングレ
    イトを示す第2のデジタル信号を発生する信号発生手段
    と、 前記第2のデジタル信号を低域通過波処理し、ほぼ50
    00ヘルツ以上の周波数成分を除去した第2の量子化声門
    波形を表現する第3のデジタル信号を形成する低域通過
    波手段と、 前記第3のデジタル信号を低下したレートでサンプリン
    グし、第3の量子化声門波形の1秒当たりほぼ10000の
    サンプルを表現する第4のデジタル信号を形成する低下
    サンプリング手段と、 前記第4のデジタル信号と他の量子化音源波形とを組合
    せて組合せ波形を生成する波形組合せ手段と、 前記組合せ波形のデジタル共振波処理を行い、その共
    振周波数についてピーク波形を付加して最終変換を行な
    うデジタル共振波手段とを備えたことを特徴とするデ
    ジタル化テキストの音声合成用デジタルプロセッサ。
  3. 【請求項3】前記信号発生手段、低域通過波手段及び
    低下サンプリング手段はそれぞれ対応する第1、第2及
    び第3の記憶されたコンピュータプログラムを含むこと
    を特徴とする特許請求の範囲第1項または第2項記載の
    デジタル化テキストの音声合成用デジタルプロセッサ。
  4. 【請求項4】前記第2のデジタル信号は1秒当たりほぼ
    40000サンプルのサンプルレートを示すものであり、前
    記低下サンプリング手段は前記第3のデジタル信号の各
    4番目毎のサンプルを選択して出力することを特徴とす
    る特許請求の範囲第1項または第2項記載のデジタル化
    テキストの音声合成用デジタルプロセッサ。
JP59260946A 1983-12-12 1984-12-12 デジタル化テキストの音声合成用デジタルプロセッサ Expired - Lifetime JPH0677200B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US560221 1983-12-12
US06/560,221 US4754485A (en) 1983-12-12 1983-12-12 Digital processor for use in a text to speech system

Publications (2)

Publication Number Publication Date
JPS60186000A JPS60186000A (ja) 1985-09-21
JPH0677200B2 true JPH0677200B2 (ja) 1994-09-28

Family

ID=24236869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59260946A Expired - Lifetime JPH0677200B2 (ja) 1983-12-12 1984-12-12 デジタル化テキストの音声合成用デジタルプロセッサ

Country Status (7)

Country Link
US (1) US4754485A (ja)
EP (1) EP0146470B1 (ja)
JP (1) JPH0677200B2 (ja)
AT (1) ATE50463T1 (ja)
AU (1) AU578438B2 (ja)
CA (1) CA1216673A (ja)
DE (1) DE3481388D1 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2207027B (en) * 1987-07-15 1992-01-08 Matsushita Electric Works Ltd Voice encoding and composing system
US4908867A (en) * 1987-11-19 1990-03-13 British Telecommunications Public Limited Company Speech synthesis
FR2648931B1 (fr) * 1989-06-27 1991-10-18 Barbeau Christian Systeme d'enregistrement et de restitution du son raccordable a un ordinateur par un interface externe
US5748838A (en) * 1991-09-24 1998-05-05 Sensimetrics Corporation Method of speech representation and synthesis using a set of high level constrained parameters
US5475505A (en) * 1993-10-20 1995-12-12 Xerox Corporation Canted platen input scanner
US5930755A (en) * 1994-03-11 1999-07-27 Apple Computer, Inc. Utilization of a recorded sound sample as a voice source in a speech synthesizer
US5704007A (en) * 1994-03-11 1997-12-30 Apple Computer, Inc. Utilization of multiple voice sources in a speech synthesizer
AT404887B (de) * 1994-06-08 1999-03-25 Siemens Ag Oesterreich Vorlesegerät
GB2291571A (en) * 1994-07-19 1996-01-24 Ibm Text to speech system; acoustic processor requests linguistic processor output
US5761640A (en) * 1995-12-18 1998-06-02 Nynex Science & Technology, Inc. Name and address processor
US5832433A (en) * 1996-06-24 1998-11-03 Nynex Science And Technology, Inc. Speech synthesis method for operator assistance telecommunications calls comprising a plurality of text-to-speech (TTS) devices
US5801849A (en) * 1996-10-21 1998-09-01 Telesensory Corporation Image reading device and document scanning system
EP0909443B1 (en) * 1997-04-18 2002-11-20 Koninklijke Philips Electronics N.V. Method and system for coding human speech for subsequent reproduction thereof
US7253919B2 (en) 2000-11-30 2007-08-07 Ricoh Co., Ltd. Printer with embedded retrieval and publishing interface
US7424129B2 (en) 2001-11-19 2008-09-09 Ricoh Company, Ltd Printing system with embedded audio/video content recognition and processing
US7747655B2 (en) 2001-11-19 2010-06-29 Ricoh Co. Ltd. Printable representations for time-based media
US7314994B2 (en) * 2001-11-19 2008-01-01 Ricoh Company, Ltd. Music processing printer
US7415670B2 (en) 2001-11-19 2008-08-19 Ricoh Co., Ltd. Printer with audio/video localization
US7861169B2 (en) 2001-11-19 2010-12-28 Ricoh Co. Ltd. Multimedia print driver dialog interfaces
US7275159B2 (en) * 2003-08-11 2007-09-25 Ricoh Company, Ltd. Multimedia output device having embedded encryption functionality
US7511846B2 (en) * 2003-09-25 2009-03-31 Ricoh Co., Ltd. Printer having embedded functionality for printing time-based media
US7508535B2 (en) * 2003-09-25 2009-03-24 Ricoh Co., Ltd. Stand alone multimedia printer with user interface for allocating processing
US7528976B2 (en) 2003-09-25 2009-05-05 Ricoh Co., Ltd. Stand alone printer with hardware/software interfaces for sharing multimedia processing
US7864352B2 (en) 2003-09-25 2011-01-04 Ricoh Co. Ltd. Printer with multimedia server
US8077341B2 (en) * 2003-09-25 2011-12-13 Ricoh Co., Ltd. Printer with audio or video receiver, recorder, and real-time content-based processing logic
US7570380B2 (en) 2003-09-25 2009-08-04 Ricoh Company, Ltd. Printer user interface
JP2005108230A (ja) 2003-09-25 2005-04-21 Ricoh Co Ltd オーディオ/ビデオコンテンツ認識・処理機能内蔵印刷システム
US7505163B2 (en) 2003-09-25 2009-03-17 Ricoh Co., Ltd. User interface for networked printer
US7440126B2 (en) 2003-09-25 2008-10-21 Ricoh Co., Ltd Printer with document-triggered processing
US7528977B2 (en) * 2003-09-25 2009-05-05 Ricoh Co., Ltd. Printer with hardware and software interfaces for peripheral devices
US7573593B2 (en) * 2003-09-25 2009-08-11 Ricoh Company, Ltd. Printer with hardware and software interfaces for media devices
US7603615B2 (en) 2004-03-30 2009-10-13 Ricoh Co., Ltd. Multimedia projector-printer
US8274666B2 (en) 2004-03-30 2012-09-25 Ricoh Co., Ltd. Projector/printer for displaying or printing of documents
US7551312B1 (en) 2005-03-17 2009-06-23 Ricoh Co., Ltd. Annotable document printer

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US30991A (en) * 1860-12-18 Shutter-operator
US4020332A (en) * 1975-09-24 1977-04-26 Bell Telephone Laboratories, Incorporated Interpolation-decimation circuit for increasing or decreasing digital sampling frequency
US4128737A (en) * 1976-08-16 1978-12-05 Federal Screw Works Voice synthesizer
US4301328A (en) * 1976-08-16 1981-11-17 Federal Screw Works Voice synthesizer
JPS5428520A (en) * 1977-08-08 1979-03-03 Hitachi Ltd Method and apparatus for sampling frequency conversion
US4130730A (en) * 1977-09-26 1978-12-19 Federal Screw Works Voice synthesizer
FR2462062A1 (fr) * 1979-07-20 1981-02-06 Petit Jean P Codeur delta sigma a double integration analogique et codeur delta sigma a double integration numerique
US4302631A (en) * 1979-11-28 1981-11-24 International Telephone And Telegraph Corporation Decimator apparatus for decreasing the word rate of a digital signal of the type employed in digital telephone systems
JPS5925239B2 (ja) * 1979-12-03 1984-06-15 松下電器産業株式会社 パラメ−タ補間方式
US4296279A (en) * 1980-01-31 1981-10-20 Speech Technology Corporation Speech synthesizer
US4281318A (en) * 1980-05-30 1981-07-28 Bell Telephone Laboratories, Incorporated Digital-to-digital code converter
US4433210A (en) * 1980-06-04 1984-02-21 Federal Screw Works Integrated circuit phoneme-based speech synthesizer
JPS5885997A (ja) * 1981-11-18 1983-05-23 Neptune:Kk アナログ信号再生装置

Also Published As

Publication number Publication date
JPS60186000A (ja) 1985-09-21
EP0146470B1 (en) 1990-02-21
AU578438B2 (en) 1988-10-27
AU3665184A (en) 1985-08-01
DE3481388D1 (de) 1990-03-29
EP0146470A3 (en) 1986-05-28
US4754485A (en) 1988-06-28
EP0146470A2 (en) 1985-06-26
ATE50463T1 (de) 1990-03-15
CA1216673A (en) 1987-01-13

Similar Documents

Publication Publication Date Title
JPH0677200B2 (ja) デジタル化テキストの音声合成用デジタルプロセッサ
EP0388104B1 (en) Method for speech analysis and synthesis
Malah Time-domain algorithms for harmonic bandwidth reduction and time scaling of speech signals
US5327498A (en) Processing device for speech synthesis by addition overlapping of wave forms
O'shaughnessy Speech communications: Human and machine (IEEE)
US6785652B2 (en) Method and apparatus for improved duration modeling of phonemes
JP3408477B2 (ja) フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ
Childers et al. Voice conversion
Kopec et al. Speech analysis homomorphic prediction
JPH1097287A (ja) 周期信号変換方法、音変換方法および信号分析方法
Meyer et al. A quasiarticulatory speech synthesizer for German language running in real time
RU2296377C2 (ru) Способ анализа и синтеза речи
Degottex et al. A log domain pulse model for parametric speech synthesis
Yadav et al. Prosodic mapping using neural networks for emotion conversion in Hindi language
Richard et al. Analysis/synthesis and modification of the speech aperiodic component
Kasuya et al. Joint estimation of voice source and vocal tract parameters as applied to the study of voice source dynamics
d’Alessandro et al. Voice quality modification for emotional speech synthesis
Prasad et al. Backend tools for speech synthesis in speech processing
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
Acero Source-filter models for time-scale pitch-scale modification of speech
Mann An investigation of nonlinear speech synthesis and pitch modification techniques
O'Shaughnessy Design of a real-time French text-to-speech system
Fahad et al. Synthesis of emotional speech by prosody modification of vowel segments of neutral speech
JP2001100777A (ja) 音声合成方法及び装置
Alcaraz Meseguer Speech analysis for automatic speech recognition