JPH0525120B2 - - Google Patents

Info

Publication number
JPH0525120B2
JPH0525120B2 JP58149095A JP14909583A JPH0525120B2 JP H0525120 B2 JPH0525120 B2 JP H0525120B2 JP 58149095 A JP58149095 A JP 58149095A JP 14909583 A JP14909583 A JP 14909583A JP H0525120 B2 JPH0525120 B2 JP H0525120B2
Authority
JP
Japan
Prior art keywords
speech
synthesized speech
digital audio
audio data
reference factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58149095A
Other languages
Japanese (ja)
Other versions
JPS5949599A (en
Inventor
Aanorudo Buranton Keisu
Yuujin Herumuzu Ramon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPS5949599A publication Critical patent/JPS5949599A/en
Publication of JPH0525120B2 publication Critical patent/JPH0525120B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

発明の背景 本発明は一般にただ1つ与えられた合成音声ソ
ースから複数の音声音のいずれか1つの修正合成
音声を得る為に合成音声の音声特徴を変更する方
法及び装置に関する。この装置では、想定される
話し手の明白な年令及び/又は性別の違いによつ
てかなり異なり、影響を受ける音声の質を持つ合
成音声のオリジナルソースから耳で聞くことので
きる合成音声が発生される。特に、動物や鳥やモ
ンスター等の話し声のように明らかに人間以外の
声である空想上の声又は、変わつた音質を持つ複
数の音声音を合成音声のソースから得たデジタル
音声データのサンプル期間を調整した状態をシミ
ユレートし元の合成音声のソースに内在するビツ
チ期間及び音声レートは変化させずにデジタル音
声データの声道モデルを所定程度変更することに
よつて単一の合成音声ソースから作りだすことが
できる。 一般に音声分析の研究者達には、音声信号と関
連を持つ明白な音声特徴を変更するという方法で
音声信号の音響的特徴を可変可能にすることが期
待されている。これによつて関連して論文「音声
波形の線形予測によつて音声分析及び合成」アタ
ル及びハーナー著米国音響学会年報50巻2号(第
2部)637−650頁(1971年4月発行)掲載では、
男性の音声から得た音声信号から女性の音声をシ
ミユレートする方法が説明されている。この方法
ではオリジナル音声モデルの所定音響特徴例えば
ピツチ、ホルマント周波数及びその帯域が変更さ
れる。 マサチユーセツツ、ケンブリツジのMITプレ
スによつて発行された刊行物84−93頁掲載の刊行
物(1973年)「音声音及び特徴」の中でフアント
がkフアクター又は男女のホルマントの「性別フ
アクター」と呼ばれる抽出された相関関係が説明
されていて、これらのk因数は特定の階級の母音
と相関することが示唆されている。 更に、1980年12月23日に発行したマツキヤニー
の米国特許第4241235号では、合成音声と対比し
た実際の人間の音声に基づく音声修正システムを
開示している。この中で元の音声音は、もとの音
声音とは明らかに異なる他の音声音が発生される
ように変化させられる。この音声修正システムで
は、音声信号源にはマイク又は生の又は録音され
た音声音又は音声音信号のいずれかのソースに接
続するものが使用される。このタイプの音声修正
システムは、発声された音声又は録音された音声
を直接修正してもよい場合及び音声全体の内容が
比較的短い期間の中に含まれるので録音される場
合あまり記憶容量を必要としない場合の応用に限
られている。 最近注目されてきた音声合成技術の1つに線形
予測符号化法がある。線形予測符号化法は、音響
パラメータを独立して制御する上で許容可能な程
度の融通性も保ちながら、音質と分析及び合成に
必要なデータの量との間の適当なトレードオフを
実現できることがわかつている。 音声合成に基づく文章から音声への変換システ
ムは、例えば異音又は音素から構成される予め記
憶された成分音ライブラリからひきだされるの
で、実質上語いの制限なく合成音声を提供できる
能力を持つている。典型的には、成分音ライブラ
リは、成人男子の声から抽出され、それによつて
単語、句、文を形成することのできる音声成分を
示すデジタル音声データを、含むリードオンリメ
モリから成る。この目的の為に男性音声を選択す
る要因は、通常の例では成人男性の音声が現在使
用している音声分析ソフトウエア及び音声合成装
置に最適であると思われる低ピツチのプロフイー
ルを示す為である。元の合成音声ソースの音声特
徴を変更し、文章内の登場人物の同一性によつて
複数の異なる音声特徴の音声音を発声することに
よつて男性の声から作りだした合成音声に基づい
て文章からの音声変換システムの文章内の登場人
物が同一か否かによつて音声特徴を変化させて、
可聴合成音声を提供するとメモリ容量を増加させ
ることなく融通性はさらに向上させることができ
る。これに関連して、1982年5月6日出願の継続
中の米国特許出願番号第375434号は単一の合成音
声の入力ソースから得た合成音声の音声特徴の変
換方法及び装置を開示している。後者の米国出願
に開示されている合成音声の音声特徴を変換する
技術は、合成音声のソースに含まれるピツチ周
期、声道モデル及び音声レートをそれぞれの音声
パラメータに分け、声道モデルはもとの形態のま
までサンプルレートを所定程度変化させることに
よつて決定されるという所定方法でピツチ及び音
声データレートの値が次に変化される。変化され
た音声データパラメータは、更にもとの声道モデ
ルと組み直されて音声ソースから得た合成音声と
は異なる音声特徴を持つ修正された合成音声デー
タホルマントが作りだされる。故に上記の1982年
6月6日出願の米国特許出願番号375434号では、
その好ましい実施例の一形式に於て実際にサンプ
ルレートを変化するという技術を含んでいる。こ
の中で修正されたサンプルレートは、元のピツチ
周期データ及び元の音声レートデータに使用され
修正されたピツチ周期及び修正された音声レート
が作りだされもとの声道音声パラメータと再び組
み合わされて、修正された音声データフオーマツ
トが作りだされる。このフオーマツトから元の合
成音声ソースから得られるはずの合成された人間
の音声とは異なる音声特徴を持つ耳で聞くことの
できる人間の合成音声が音声合成装置及び可聴手
段によつて作りだされる。 発明の概要 本発明に従うと、1つだけ与えられる合成音声
ソースから複数の音声音のいずれか1つの修正さ
れた合成音声を得る為に合成音声の音声特徴を変
更する為の方法及び装置が提供される。上記方法
は、元の合成音声のソースに関連するピツチ周
期、声道モデル及び音声レートを含む個々の音声
パラメータを分けずに個別に修正し、サンプル周
期も実際に調整しない点で前述の1982年6月6日
出願の米国特許出願番号第375434号でとられた技
術手段とはかなり異なつている。かわりに、本発
明は等しくない大きさの第1及び第2の参照因子
を設定することによつて行う。この中の第1の参
照フアクターは作りだすべき所望の修正された合
成音声に基づいていて、合成音声のソースから得
たデジタル音声データのサンプル周期の調整を第
1の参照フアクターと第2の参照フアクターとの
差に基づいてシミユレートする。元の合成音声の
ソースから得るデジタルデータのサンプル周期の
調整をシミユレートすることによつてピツチ周期
や音声レートを変化させないままで有効にデジタ
ル音声データの声道モデルを所定程度にまで変更
することができる。サンプル周期の調整をシミユ
レートすることによつて作りだされた修正された
デジタル音声データは合成音声のソースから作つ
た合成音声に比較し音声特徴が変更されている。
修正されたデジタル音声データを受けとつた音声
合成装置は、人間の音声を示す可聴信号を発生す
る。これは、ラウドスピーカーのような可聴手段
によつて合成音声のソースから入力された合成音
声とは音声特徴が変更されている可聴合成音声に
変換される。 第1の参照因子が第2の参照因子の大きさより
大きいか小さいかによつて合成音声のソースから
得たデジタル音声のデータのサンプル周期の調整
をシミユレートすることによつて第1及び第2の
参照因子の大きさを比較した差によつて設定され
る所定量だけ合成音声スペクトルは、縮小又は拡
張される。故に第1の参照因子が第2の参照因子
の大きさより大きい時は、合成音声スペクトル
は、合成音声のソースから得たデジタル音声デー
タのサンプル周期の調整をシミユレートすること
によつて縮小される。その代わり、第1の参照因
子の大きさが第2の参照因子に比較し小さい場合
には、合成音声スペクトルは拡張される。どちら
の場合でも、第1のフエイズのデジタル音声デー
タによつて示される声道モデルを含む反射係数を
適当に変換することによつて得られた複数の予測
係数にはまず最初に所定数の空白値が加えられ
る。その後、デジタル音声データは第1のフエー
ズから複数の追加された空白値をその中に含む第
2のフエーズへと変換される。一連のデジタル信
号が時間の領域から周波数の領域に変化された後
でサンプル周期の調整をシミユレートする際の第
1及び第2の参照因子の間の差が負か正かによつ
て一連のデジタル信号は圧縮又は拡張のいずれか
が行われる。次にデジタル化された音声波形がパ
ルスに応答する圧縮又は拡張された音声スペクト
ルとして存在するデジタル音声データから作りだ
される。スペクトルを周波数領域から時間領域に
もどすことによつてこれらのスペクトルからピツ
チ周期情報及び振幅情報がとり除かれる。このデ
ジタル化された音声波形はさらに分析が行われ、
反射係数パラメータを示す複数のデジタル値を有
する変更された声道モデルを持つ修正されたデジ
タル音声データが提供される。上記反射係数パラ
メータの少くともいくつかは元の合成音声ソース
から得たデジタル音声データの反射係数パラメー
タを示すデジタル値と比較すると大きさが変化さ
れている。 故に、本発明に従つた方法及び装置を使用する
ことによつて単一の合成音声ソースからあらゆる
種類の音声音を作り出すことができる。この方法
及び装置における音声は、一般に例えばしまりす
やりすのように想像上の話のできる動物によつて
話されたように音声の特徴を風変わりにして通訳
し発生することができる。この場合合成音声スペ
クトルは拡張されこれによつてデジタル音声デー
タのホルマント周波数が増加する。これによつて
声道モデルの縮小をシミユレートしそこから発生
された可聴合成音声は、小さなサイズの生物又は
者によつて話されたかのような印象を与えること
ができる。これとは反対に、合成音声スペクトル
をスペクトル圧縮することによつてもとの合成音
声ソースから得たデジタル音声データのホルマン
ト周波数は減少し、これによつて声道は拡大さ
れ、合成音声がモンスターや悪魔等のように体の
大きなものによつて発生されたように聞こえる印
象を与えることができる。 合成された音声のスペクトルをスペクトル変更
することとは別にピツチパラメータ及びピツチ積
分路の大きさを修正し実際にデジタル音声データ
のサンプルレートを変化させずに音声特徴の修正
の規模をさらに大きくすることも考慮されてい
る。 発明の実施例の詳細な説明 以下図を参照しながら、好ましい実施例に関し
本発明を詳細に説明する。 さらに詳しく図を参照すると、本明細書に開示
される方法及び装置は、話し手の年令及び/又は
性別の明らかに異なる複数の音声音の中のいずれ
か1つである修正された合成音声を作りだすとい
う方法で固定されたサンプルレートの線形予測符
号化法(LPC)音声合成システム内で使用され
る与えられた単一の合成音声ソースから合成音声
の音声特徴を変更することができる。特に本発明
の技術に従つて単一の合成音声ソースから作つた
いくつかの音声音は、例えば高い付随ピツチが現
われる動物(たとえばしまりすやりす等)が話し
ているように想像させるような人間以外のものの
声であるかのように感じられる変わつた音声音も
含む。合成音声スペクトルのもう一つの目的で
は、本発明に従つて作られた複数の音声音は、非
常に低いピツチであると感じられるように特徴づ
けられ音調音質を悪魔やモンスター等が話したよ
うに創像させることができる。本発明の技術の中
心となる思想は、合成音声のソースから得たデジ
タル音声データのサンプル周期の調整をシミユレ
ートすることによつてデジタル音声データの声道
モデルを所定程度変更し、これによつて可聴合成
音声の音声特徴は変更される。この可聴合成音声
は、修正されたデジタル音声データが送られてく
る音声合成装置の出力に接続されるラウドスピー
カーの形式の可聴伝達手段によつて発生される。 図からわかる通り、第1c図は、合成音声スペ
クトルがここに開示する技術に従つて圧縮又は拡
張のいずれかによつて変形されていない通常の音
声特徴に関連する合成音声のソースのデジタル音
声データから得た合成音声スペクトルを示す図で
ある。第1a図及び第1b図はそれぞれ第1c図
に示すもとの合成音声スペクトルを拡張した形式
を示し、第1c図は、合成音声スペクトルをほぼ
36%拡張したものを示し、実際のサンプル周期が
125マイクロ秒から80マイクロ秒に変化した場合
に対応するスペクトルの変化がおこる。第1b図
は、第1c図の合成音声スペクトルを16%拡張し
たものを示し、サンプル周期が125マイクロ秒か
ら105マイクロ秒に変化した場合に対応する。合
成音声スペクトルの変化を示している。第1d図
は、第1c図をほぼ20%縮小した合成音声スペク
トルの圧縮したものを示す図である。この中で合
成音声スペクトルはサンプル周期を125マイクロ
秒から150マイクロ秒に変化させた場合と同じ程
度で変化がおこる。 一般に、第1a図及び第1b図の各々にその効
果が示されている第1c図の合成音声スペクトル
の拡張は、ホルマント周波数を増加させサイズの
縮小した声道をシミユレートし、それから作り出
される可聴合成音声が比較的小さな者によつて話
されたような印象を与えることができる。反対
に、第1d図にその結果が示される第1c図に示
す合成音声スペクトルの圧縮は、ホルマント周波
数の減少を起こしこれによつて拡大された声道が
シミユレートされ、それから作りだされる可聴合
成音声が比較的体の大きな者又はものによつて話
されたような印象を与えることができる。 第1a図から第1d図までの図のこれ以上の説
明は後述する、本発明に従つて1つだけ与えられ
た合成音声ソースから合成音声の音声特徴を変更
する方法及び装置の詳細な説明においてひき続き
行なう。LPC合成音声の最初のソースのように
ピツチ、エネルギー及び反射係数を示すk音声パ
ラメータを含む音声パラメータは、(第5図で示
す)リードオンリメモリ10のような単一のソー
スからとり出すことができる。。このソースは、
中に音声合成装置11によつて選択的に使用され
人間の音声を示すアナログ音声信号を発生する為
のデジタル音声データ及び適当なデジタル制御デ
ータを記憶している。これに関連して本発明の好
ましい形式に従うと、デジタル音声データのサン
プル周期の調整が合成音声スペクトルを変換する
ことによつてシミユレートされる。この場合、入
力及び出力LPC音声パラメータは、反射係数を
示すデジタル音声データの形式になつていて、
LPCモデルの次数はNでありFOLDは、合成音声ス
ペクトルを変形する前のLPCパラメータに内在
するサンプル周波数を示し、FNewは、合成音声ス
ペクトルを変形した後の所望の明白なサンプル周
波数を示す。第1の参照因子P及び第2の参照因
子Qは次にサンプル周期の調整をシミユレートす
る工程に使用する為Q=P・FNEW/FOLDの値に最
も近い端数のない整数となるように選択される。
この方法の中間段階の間複雑なインパルス応答を
発生しないようにQは、端数のない数でなくては
ならない。第2図の流れ図では、まず最初に反射
係数を示す音声パラメータk1,k2……kNが20
において、ニユーヨーク、ハイデルベルグ、ベル
リンのスプリンガー書店によつて発行されたマー
ケル及びグレイの刊行物「線形予測符号化法」の
94−95頁に説明される「ステツプアツプ処理」の
ような確立されている処理方法によつて予測係数
a0,a1,……aoに変換される。その後、21にお
いてP−(N+1)の人工的空白値又は零が予測係数列
に加算されa0,a1……aN,o,o,……oとして
示す列が規定される。これらは、a0,a1,……
aN,aN+1,aN+2……aP-1として表わすことができ
る。k音声パラメータに相当し、加算された空白
値を含む予測係数が第1の参照フアクタPに相当
するいくつかの点を持つデジタル化された音声波
形の離散フーリエ変換(DFT)を決定する為に
使用する。この場合、デジタル音声データのサン
プル期間の調整をシミユレートし、音声特徴を変
更する手段としては、上記で説明した通り第1の
参照因子P及び第2の参照因子Qが設定され、サ
ンプル期間の調整のシミユレーシヨンによつて作
りだされる修正されたデジタル音声データから得
られる所望の音声特徴に基づいてこれらの因子の
大きさは決定される。故に、第1の参照因子であ
るPは、作りたい音声のタイプによつて決まる所
定の点の数に等しくなり、これに対し第2の参照
因子であるQは、逆離散フーリエ変換(IDFT)
に用いる点の数になる。この場合第2の参照因子
Qは、メモリの記憶容量の限度量及び合成音声の
音声特徴を変更させる装置の処理速度に影響し、
Qの量が増加すると、耳で聞くことのできるよう
に発生される修正された合成音声の分解の質が向
上する。本発明に従つて合成音声スペクトルの変
換を行う為には、第1の参照因子P及び第2の参
照因子は大きさが等しくてはならない。PとQが
等しいという特別な場合においては、合成音声ス
ペクトルは元の合成音声ソースから得られるもの
から変換されずこれはP/Qが等しく比率が1.00
であり、実効サンプル周期が125マイクロ秒であ
る第1c図の図で示す条件である。 第1及び第2の参照因子P及びQのそれぞれの
大きさを設定してから、空白値を加えた予測係数
列のP点DFTが求められ、これによつて第2図
の流れ図の中の22に於て周波数領域でデジタル
信号データを設定する為にDFTが行われる時に、
この方法の前工程で加えられた空白値は有効に吸
収され又はなくなつてしまう。P点における
DFTの算出はプレンテイスホールによつて発行
されたオツペンヘイム及びシエイフアーの「デイ
ジタル信号処理」に説明されているような適当な
技術を使つて行われる。この段階では、個々の音
声パラメータはR0,R1……RP-1として表わす。
ここでR1の反転値は、反射係数のP点DFTを求
めることによつて得たデジタル音声値R0,R1
…RP-1を反転することによつて23において算
出される。これはデジタル音声データを逆合成フ
イルタで使用されるものからフオーワード合成フ
イルタに使用できるように基本的に変換する。こ
こでデジタル音声データは、値s0,s1……sP-1
して表わされる。この段階では、デジタルフイル
タの転送関数H(z)は、周波数の領域に、転送さ
れ、デジタル音声データは、変換されていない合
成音声スペクトルと比較可能な形式で位置され
る。本発明に従うと、ここに開示された方法は、
反射係数を示すデジタル音声データを含み変換さ
れた合成音声スペクトルを作り出す為に使用でき
る。 この目的の為、第1及び第2の参照因子P及び
Qの大きさの比較に基づいて合成音声スペクトル
は次に第2図の24において圧縮又は拡張され
る。P及びQの大きさの差異によつてサンプル周
期の調整をシミユレートし、合成される音声の為
の音声特徴を変更することができる。P/Qの比
率が=1.00でる第1c図で図示したようなP=Q
の場合では、合成音声スペクトルは変換されず元
の合成音声ソースから得た元のデジタル音声デー
タと同じスペクトルであるので声の変化は起こら
ない。P/Qの比率が1.00より大きいP>Qの場
合では、元のソースから得た合成音声スペクトル
は圧縮され、この圧縮によつて第1d図のグラフ
で示す通りホルマントの中央周波数及びその帯域
は減少する。この場合、デジタル音声データのP
−Q個のサンプルが信号s0,s1……sP-1で示され
るスペクトル列の中央からとり除かれ、数列s′i
=0、Q−1を得ることができる。例えば、第
1の参照因子Pの大きさが256と選択され第2の
参照因子Qの大きさが150と選択される場合、s′i
を求める為に修正された信号siの項は、以下で示
すような形式をとるようになるので数列s′1を形
成する為数列s1から削除される項は、スペクトル
列の中央からとり除かれる。
BACKGROUND OF THE INVENTION The present invention generally relates to a method and apparatus for modifying the audio characteristics of synthesized speech to obtain a modified synthesized speech of any one of a plurality of speech sounds from a single, provided synthetic speech source. The device generates an audible synthesized speech from an original source of synthesized speech whose quality varies considerably and is affected by apparent age and/or gender differences of the intended speaker. Ru. In particular, the sampling period for digital audio data obtained from a synthesized audio source that includes imaginary voices that are obviously non-human voices, such as talking voices of animals, birds, monsters, etc., or multiple audio sounds with unusual sound quality. Created from a single synthesized voice source by simulating the adjusted state and changing the vocal tract model of digital voice data to a predetermined degree without changing the bit period and voice rate inherent in the original synthesized voice source. be able to. Speech analysis researchers generally expect to be able to vary the acoustic features of a speech signal by changing the obvious speech features associated with the speech signal. Accordingly, there is a related article entitled "Speech Analysis and Synthesis by Linear Prediction of Speech Waveforms" by Attal and Harner, Annual Report of the Acoustical Society of America, Vol. 50, No. 2 (Part 2), pp. 637-650 (published in April 1971). In the publication,
A method for simulating a female voice from an audio signal obtained from a male voice is described. In this method, certain acoustic features of the original speech model, such as pitch, formant frequency and its band, are changed. In the publication ``Speech Sounds and Characteristics'' (1973), published by MIT Press, Cambridge, Mass., on pages 84-93, phanto is referred to as k-factor or ``gender factor'' for male and female formants. The extracted correlations are explained and it is suggested that these k factors are correlated with vowels of a particular class. Additionally, U.S. Pat. No. 4,241,235 to Matskiany, issued December 23, 1980, discloses a speech modification system based on real human speech as opposed to synthetic speech. In this, the original audio sound is changed in such a way that another audio sound that is distinctly different from the original audio sound is generated. In this audio modification system, the audio signal source is a microphone or a connection to any source of live or recorded audio or audio signal. This type of audio modification system requires less storage space when the spoken or recorded audio may be modified directly and when the audio is recorded since the entire content of the audio is contained within a relatively short period of time. The application is limited to cases where the One of the speech synthesis techniques that has recently attracted attention is linear predictive coding. Linear predictive coding methods provide an acceptable trade-off between sound quality and the amount of data required for analysis and synthesis, while still maintaining an acceptable degree of flexibility in independently controlling acoustic parameters. I understand. Text-to-speech conversion systems based on speech synthesis have the ability to provide synthesized speech with virtually no vocabulary restrictions, since they are drawn from a pre-stored component sound library consisting of, for example, allophones or phonemes. I have it. Typically, a component sound library consists of a read-only memory containing digital audio data representative of audio components extracted from an adult male voice and by which words, phrases, and sentences can be formed. The reason for selecting male voices for this purpose is that adult male voices typically present a low pitch profile that is considered optimal for currently used speech analysis software and speech synthesis equipment. be. Text based on synthetic speech created from a male voice by changing the audio characteristics of the original synthetic audio source and producing audio sounds with multiple different audio characteristics depending on the identity of the characters in the sentence. The voice conversion system changes the voice characteristics depending on whether the characters in the text are the same or not.
Providing audible synthesized speech can further increase flexibility without increasing memory capacity. In this regard, co-pending U.S. patent application Ser. There is. The technology for converting the voice characteristics of synthesized speech disclosed in the latter U.S. application separates the pitch period, vocal tract model, and speech rate contained in the source of synthesized speech into their respective voice parameters, and separates the vocal tract model from the original. The values of pitch and audio data rate are then varied in a predetermined manner determined by varying the sample rate by a predetermined amount while remaining in the form of . The altered speech data parameters are further recombined with the original vocal tract model to create modified synthetic speech data formants having different speech characteristics than the synthesized speech obtained from the speech source. Therefore, in the above-mentioned U.S. Patent Application No. 375,434 filed on June 6, 1982,
One form of the preferred embodiment includes techniques that actually vary the sample rate. In this, the modified sample rate is used for the original pitch period data and the original speech rate data, and the modified pitch period and modified speech rate are created and recombined with the original vocal tract speech parameters. A modified audio data format is then created. From this format, an audible synthetic human voice is produced by a speech synthesizer and an audible means that has different audio characteristics than the synthesized human speech that would have been obtained from the original synthesized speech source. . SUMMARY OF THE INVENTION In accordance with the present invention, a method and apparatus are provided for modifying the audio characteristics of synthesized speech to obtain a modified synthesized speech of any one of a plurality of speech sounds from only one provided synthetic speech source. be done. The above method differs from the above-mentioned 1982 method in that it modifies individual speech parameters, including pitch period, vocal tract model, and speech rate, related to the source of the original synthesized speech separately, without separating them, and does not actually adjust the sample period. This is quite different from the technical measures taken in US Patent Application No. 375,434, filed on June 6th. Instead, the invention works by setting first and second reference factors of unequal magnitude. A first reference factor therein is based on the desired modified synthesized speech to be produced, and an adjustment of the sample period of digital audio data obtained from the source of the synthesized speech is based on the first reference factor and the second reference factor. Simulate based on the difference between By simulating the adjustment of the sampling period of the digital data obtained from the original synthesized speech source, it is possible to effectively change the vocal tract model of the digital audio data to a certain extent without changing the pitch period or voice rate. can. The modified digital audio data produced by simulating the sample period adjustment has altered audio characteristics compared to the synthesized speech produced from the synthesized speech source.
A speech synthesizer receives the modified digital speech data and generates an audible signal representative of human speech. This is converted by an audible means, such as a loudspeaker, into an audible synthesized voice in which the voice characteristics have been modified from the synthesized voice input from the source of the synthesized voice. the first and second reference factors by simulating the adjustment of the sample period of digital audio data obtained from a source of synthesized speech depending on whether the first reference factor is greater or less than the magnitude of the second reference factor; The synthesized speech spectrum is reduced or expanded by a predetermined amount set by the difference in comparing the magnitudes of the reference factors. Therefore, when the first reference factor is greater than the magnitude of the second reference factor, the synthesized speech spectrum is reduced by simulating adjustment of the sample period of the digital speech data obtained from the source of the synthesized speech. Instead, if the magnitude of the first reference factor is small compared to the second reference factor, the synthesized speech spectrum is expanded. In either case, the plurality of prediction coefficients obtained by appropriately transforming the reflection coefficients containing the vocal tract model represented by the digital audio data of the first phase are first filled with a predetermined number of blanks. A value is added. The digital audio data is then converted from the first phase to a second phase that includes a plurality of added blank values therein. A series of digital signals depending on whether the difference between the first and second reference factors is negative or positive in simulating adjustment of the sample period after the series of digital signals has been changed from the time domain to the frequency domain. The signal may be either compressed or expanded. A digitized audio waveform is then created from the digital audio data present as a compressed or expanded audio spectrum in response to pulses. Pitch period and amplitude information is removed from these spectra by converting them from the frequency domain back to the time domain. This digitized audio waveform was further analyzed.
Modified digital audio data is provided having a modified vocal tract model having a plurality of digital values indicative of reflection coefficient parameters. At least some of the reflection coefficient parameters have been changed in magnitude when compared to digital values representative of the reflection coefficient parameters of the digital audio data obtained from the original synthesized audio source. Thus, by using the method and apparatus according to the invention it is possible to create all kinds of audio sounds from a single synthetic audio source. The sounds in this method and apparatus can generally be generated by interpreting the characteristics of the sounds as if they were spoken by an imaginary talking animal, such as a squirrel or a squirrel. In this case, the synthesized speech spectrum is expanded, thereby increasing the formant frequencies of the digital speech data. This simulates the reduction of the vocal tract model, and the audible synthesized speech generated therefrom can give the impression of being spoken by a small-sized creature or person. On the contrary, by spectrally compressing the synthesized speech spectrum, the formant frequencies of the digital speech data obtained from the original synthesized speech source are reduced, thereby widening the vocal tract and making the synthesized speech a monster. It can give the impression that the sound is generated by something large, such as a monster or a demon. In addition to changing the spectrum of the synthesized speech, the pitch parameter and the magnitude of the pitch integral path are modified to further increase the scale of modification of the speech features without actually changing the sample rate of the digital speech data. is also taken into account. DETAILED DESCRIPTION OF EMBODIMENTS OF THE INVENTION The invention will now be described in detail with respect to preferred embodiments with reference to the figures. Referring more particularly to the figures, the methods and apparatus disclosed herein produce a modified synthesized speech that is any one of a plurality of speech sounds that clearly differ in age and/or gender of the speaker. It is possible to modify the speech characteristics of synthesized speech from a given single synthesized speech source used within a fixed sample rate linear predictive coding (LPC) speech synthesis system by creating a fixed sample rate linear predictive coding (LPC) speech synthesis system. In particular, some speech sounds created from a single synthesized speech source in accordance with the techniques of the present invention may be non-human, e.g., sounds that appear to be spoken by an animal (e.g., a squirrel or a squirrel) that exhibits a high incidental pitch. It also includes unusual vocal sounds that seem to be the voices of things. Another purpose of the synthesized speech spectrum is that the speech sounds produced in accordance with the present invention are characterized in such a way that they are perceived to be of very low pitch and have an tonal quality similar to that spoken by demons, monsters, etc. It can be created. The central idea of the technology of the present invention is to modify the vocal tract model of digital voice data to a predetermined degree by simulating the adjustment of the sample period of digital voice data obtained from a source of synthesized speech, and thereby The audio characteristics of the audible synthesized speech are changed. This audible synthesized speech is generated by an audible transmission means in the form of a loudspeaker connected to the output of the speech synthesizer to which the modified digital speech data is sent. As can be seen, FIG. 1c shows the digital audio data of the source of the synthesized speech in which the synthesized speech spectrum is associated with normal speech features that have not been modified by either compression or expansion in accordance with the techniques disclosed herein. FIG. 3 is a diagram showing a synthesized speech spectrum obtained from FIG. Figures 1a and 1b each show expanded forms of the original synthesized speech spectrum shown in Figure 1c, and Figure 1c shows approximately the synthesized speech spectrum.
Shows 36% expansion and actual sample period is
A corresponding change in the spectrum occurs when changing from 125 microseconds to 80 microseconds. Figure 1b shows a 16% extension of the synthesized speech spectrum of Figure 1c, corresponding to a change in the sample period from 125 microseconds to 105 microseconds. It shows changes in the synthesized speech spectrum. FIG. 1d shows a compressed synthesized speech spectrum that is approximately 20% smaller than FIG. 1c. Among these, the synthesized speech spectrum changes to the same extent as when changing the sampling period from 125 microseconds to 150 microseconds. In general, the broadening of the synthesized speech spectrum of Figure 1c, the effect of which is illustrated in Figures 1a and 1b, respectively, increases the formant frequency and simulates a vocal tract of reduced size, and the audible synthesis produced therefrom increases the formant frequency and simulates a vocal tract of reduced size. The impression can be given that the voice is spoken by a relatively small person. Conversely, the compression of the synthesized speech spectrum shown in Figure 1c, the result of which is shown in Figure 1d, causes a reduction in the formant frequencies, thereby simulating an enlarged vocal tract, and the resulting audible synthesis. The impression can be given that the voice is spoken by a relatively large person or thing. A further description of the figures 1a to 1d is given below in the detailed description of the method and apparatus for modifying the audio characteristics of synthesized speech from only one given synthesized speech source in accordance with the present invention. I will continue to do so. The audio parameters, including the k audio parameters indicative of pitch, energy and reflection coefficients, such as the initial source of the LPC synthesized speech, can be retrieved from a single source, such as the read-only memory 10 (shown in Figure 5). can. . This source is
Stored therein are digital voice data and appropriate digital control data for selective use by voice synthesizer 11 to generate analog voice signals representative of human speech. In accordance with a preferred form of the invention in this regard, adjustment of the sample period of digital audio data is simulated by transforming the synthesized audio spectrum. In this case, the input and output LPC audio parameters are in the form of digital audio data representing reflection coefficients,
The order of the LPC model is N, F OLD indicates the sample frequency inherent in the LPC parameters before transforming the synthesized speech spectrum, and F New indicates the desired explicit sample frequency after transforming the synthesized speech spectrum. . The first reference factor P and the second reference factor Q are then used in the process of simulating the adjustment of the sampling period, so they should be the nearest whole numbers to the value of Q=P・F NEW /F OLD . selected.
Q must be a round number so as not to generate complex impulse responses during intermediate stages of the method. In the flowchart in Figure 2, first, the audio parameters k 1 , k 2 ... k N indicating the reflection coefficient are set to 20
Markel and Gray's publication ``Linear Predictive Coding'', published by Springer Books, New York, Heidelberg, and Berlin.
Predictive coefficients can be calculated using established processing methods such as "step-up processing" described on pages 94-95.
Converted to a 0 , a 1 , ...a o . Thereafter, P- (N+1) artificial blank values or zeros are added to the prediction coefficient sequence at 21 to define a sequence designated as a 0 , a 1 . . . a N , o, o, . . . o. These are a 0 , a 1 , ...
It can be expressed as a N , a N+1 , a N+2 ... a P-1 . In order to determine the discrete Fourier transform (DFT) of a digitized speech waveform with a number of points corresponding to the first reference factor P, corresponding to k speech parameters and whose prediction coefficients, including the added blank values, correspond to the first reference factor P. use. In this case, as a means for simulating the adjustment of the sample period of digital audio data and changing the audio characteristics, the first reference factor P and the second reference factor Q are set as explained above, and the adjustment of the sample period is The magnitudes of these factors are determined based on the desired audio characteristics obtained from the modified digital audio data produced by the simulation. Therefore, the first reference factor, P, will be equal to a predetermined number of points determined by the type of speech desired to be produced, whereas the second reference factor, Q, will be equal to the inverse discrete Fourier transform (IDFT).
This is the number of points used for. In this case, the second reference factor Q affects the storage capacity limit of the memory and the processing speed of the device that changes the voice characteristics of the synthesized speech,
Increasing the amount of Q improves the quality of decomposition of the audibly generated modified synthesized speech. In order to transform the synthesized speech spectrum according to the invention, the first reference factor P and the second reference factor must not be equal in magnitude. In the special case where P and Q are equal, the synthesized speech spectrum is not transformed from that obtained from the original synthesized speech source, which means that P/Q is equal and the ratio is 1.00.
, the condition shown in the diagram of FIG. 1c, where the effective sample period is 125 microseconds. After setting the respective sizes of the first and second reference factors P and Q, the P-point DFT of the prediction coefficient sequence with the blank value added is calculated, and this results in the When DFT is performed to set digital signal data in the frequency domain in 22,
Blank values added in previous steps of the method are effectively absorbed or lost. at point P
Calculation of the DFT is performed using suitable techniques such as those described in "Digital Signal Processing" by Otzpenheim and Schieffer, published by Prentice Hall. At this stage, the individual audio parameters are represented as R 0 , R 1 . . . R P-1 .
Here, the inverted value of R 1 is the digital audio value R 0 , R 1 , etc. obtained by calculating the P-point DFT of the reflection coefficient.
...calculated in 23 by inverting R P-1 . This essentially converts the digital audio data from that used in a reverse synthesis filter to one that can be used in a forward synthesis filter. Here, the digital audio data is expressed as values s 0 , s 1 . . . s P-1 . At this stage, the transfer function H(z) of the digital filter is transferred into the frequency domain and the digital audio data is placed in a form comparable to the untransformed synthetic audio spectrum. According to the present invention, the method disclosed herein comprises:
Contains digital audio data representing reflection coefficients and can be used to create a transformed synthetic audio spectrum. To this end, the synthesized speech spectrum is then compressed or expanded at 24 in FIG. 2 based on a comparison of the magnitudes of the first and second reference factors P and Q. The difference in magnitude of P and Q can simulate adjustment of the sample period and change the audio characteristics for the synthesized speech. P=Q as illustrated in Figure 1c where the ratio of P/Q is = 1.00
In this case, no voice change occurs because the synthesized speech spectrum is unconverted and is the same spectrum as the original digital speech data obtained from the original synthesized speech source. For P>Q, where the P/Q ratio is greater than 1.00, the synthesized speech spectrum obtained from the original source is compressed, and this compression reduces the center frequency of the formant and its band, as shown in the graph of Figure 1d. Decrease. In this case, P of digital audio data
−Q samples are removed from the center of the spectral sequence denoted by the signals s 0 , s 1 ...s P-1 , and the sequence s′ i i
=0, Q-1 can be obtained. For example, if the magnitude of the first reference factor P is chosen to be 256 and the magnitude of the second reference factor Q is chosen to be 150, then s′ i
The terms of the signal s i modified to obtain s i take the form shown below, so the terms deleted from the sequence s 1 to form the sequence s′ 1 are taken from the center of the spectral sequence. removed.

【表】 正式には、上記の変更は、以下の通り示すこと
ができる。 s′i=si、i=0、Q/2−1 s′i=si+P-Q、i=Q/2、Q−1. P/Qの比率が1.00より小さいようなQ>Pの
場合である合成音声スペクトルを拡張すべき場合
には、各々が零の値を持つQ−P個のサンプルが
スペクトル列siの中央に加えられ数列s′i、i=
0、Q−1を得ることができる。例えば第1及び
第2の参照因子の大きさにPが256、Qが400を割
りあてると以下で示すような数列siからs′iへの項
の変換が起こる。
[Table] Formally, the above changes can be shown as follows. s' i = s i , i=0, Q/2-1 s' i = s i+PQ , i=Q/2, Q-1. Q>P such that the ratio of P/Q is less than 1.00. If the synthesized speech spectrum is to be expanded, Q-P samples each with a value of zero are added to the center of the spectral sequence s i to form the sequence s′ i , i=
0, Q-1 can be obtained. For example, when P is assigned 256 and Q is 400 to the magnitudes of the first and second reference factors, a conversion of terms from the sequence s i to s' i occurs as shown below.

【表】 正式にはこれは、以下の通り示すことができ
る。 s′i=si、i=0、P/2−1 s′i=0、i=P/2、Q−1−P/2 s′i=si+P-Q、i=Q−P/2、Q−1. この技術は、処理速度を実際に変化させずにデ
ジタル音声データを含む信号の速度を明白に変化
させていてこれによつてサンプルレートを実際変
化させるよりむしろこのようなサンプルレートを
変化させた状態をシミユレート(模擬)してい
る。 この段階で第2図の25の工程に於いて数列
s′0,s′1,s′2……sQ-1に対するQ点個別逆フーリエ
変換(IDFT)が行われ算出され一連の信号h0
h1,h2……hQ-1が設定される。この一連の信号は
サンプルレートの変化をシミユレートする為に線
形予測符号化音声パラメータが修正されている音
声合成フイルタに所望のインパルス応答をする。
これによつて合成音声スペクトルは、周波数領域
から音声データがピツチ情報もエネルギー情報も
持たないデジタル化された音声波形として存在す
る時間の領域にもどすことができる。上記のデジ
タル化された音声波形は、音声分析部分で使用さ
れるデジタル化された音声と同様である。 好ましい実施例では、Qの大きさは2の累乗と
して規定することができる。これは、特別な形式
のIDFTを使用することができるようになる為で
あり第2図の24で示す合成音声スペクトルの圧
縮又は拡張工程で用いるより一般的なIDFTの代
わりに逆高速フーリエ変換(IFFT)を使用する
ことができるようになる。IFFTが行われる場合
信号処理技術を実行するスピードはかなり向上す
る。この例では、PはQ・FOLD/FNEWに最も近い
端数のない整数値に等しい。IFFTの形式を用い
ることによつて音声の特徴を変更する装置は、
Q、logQにほぼ比例する処理速度を持つことが
できる。これに対しIDFTが使用される時の処理
速度はQ2に比例する。 一連の信号h′0,h′1,h′2……h′Q-1は第2図の2
6で示す通り、N次の線形予測符号化式に代入す
ることによつて分析を行い変更された反射係数
k′1,k′2,k′3……,k′oを示すデジタル音声デー
タを得ることによつてデジタル音声データの声道
モデルは、望み通り所定程度に変更される。一連
の信号h′0,h′1,h′2……h′Q-1をN次のLPC式であ
てはめることによつてk′1,k′2,k′3……k′Nとし
て示す変更された声道モデルを示すデジタル値を
設定する際に上記で示したマーケル及びグレイの
刊行物「音声の線形予測」の10−15頁に記載され
た技術が行われ、予測係数a′iを示すデジタル音
声データを得る。これらのデータは、さらに第2
図の27の段階で上記刊行物の95−97頁の記載通
り反射係数k′iを示すデジタル音声値に変換され
る。 故に第1a図及び第1b図は、Qの量がPの量
より大きい場合である第1c図に示す元の音声合
成スペクトルを拡張したものを示す図であり、第
1d図は、Pの量がQの量より大きい場合である
圧縮された合成音声スペクトルを示したグラフ図
である。 第3図を参照すると、第1の参照因子及び第2
の参照因子P及びQの大きさの差によつてもとの
合成音声スペクトルを圧縮したり拡張したりする
工程に関連して第2図の24で示す数列を求める
工程をさらに詳しく説明する論理図が示されてい
る。この目的の為、第2図の23のフエイズで決
定され、{siP-1 i=0によつて表わされる一連の信号は
第1の参照因子Pが第2の参照因子Qより大きい
ことに基づいてしきい値が設定されている比較装
置30に入力として受けとられることによつて調
べる。このような不等号が真であれば、比較装置
30が制御回路31に出力を与え、制御回路31
は一連の信号の中央部分からP−Qのサンプルを
とり除き一連の信号出力: {s′iQ-1 i=0 を作りだす工程を実行する。 一方、比較ユニツト30がPはQより大きくな
いという命題を偽と判断した場合、比較ユニツト
30は、選択出力をPがQより小さいことに基づ
く閾値を持つ第2の比較ユニツトに提供する。も
しこのような不等合が真であれば、比較ユニツト
32は制御回路33に出力を与え制御回路33は
Q−Pの空白値を複素零として一連の信号の中央
に加え、 {s′iQ-1 i=0 で示されるこれらの信号を変換した一連の信号を
作りだす。PがQより大きいという不等合が偽で
あれば、このことはPとQが等しいことを意味す
るので第2の比較回路32は選択出力として変換
されていない一連の信号を発生する。 第2図、第3図に関連して説明した通り、もと
の合成音声ソースから得た合成音声スペクトルの
圧縮又は拡張は、その場合に応じて一連のスペク
トルsiの中央からP−Qのサンプル値を削除する
か又は一連のスペクトルsiの中央にQ−Pの空白
値を加えることによつて変換された合成音声スペ
クトルを得ることで実行される。この場合、完全
な一連のスペクトルsiは特徴的に第1及び第2の
一連のスペクトル部分をあわせもつている。この
中で第2の一連のスペクトル部分は第1のスペク
トル部分の「鏡像」である。故に本発明に従う方
法を第1の一連のスペクトル部分にのみ実行し、
完全な一連のスペクトルsiの第2の一連のスペク
トル部分には実行しないことが可能である。この
方法は、合成音声スペクトルを圧縮又は拡張する
ことによつてサンプル周期の調整をシミユレート
する為に元の合成音声ソースからサンプル値を加
えたり削除したりする工程を、完全な一連のスペ
クトルsiの中央に対しこの工程を実行するという
複雑な工程を加える必要をなくし第1の一連のス
ペクトルの最後部に対して行うという実際的な方
法を提供してくれる。故に、一連の信号として完
全な一連の信号s1の第1の一連のスペクトル部分
のみで上記工程が操作されるように用いると、こ
こで開示された方法を実施する合成音声の音声特
徴を変化する為の装置の回路を簡略化することが
できる。第1の一連のスペクトル部分が一連の信
号siとして使用される場合、削除されるサンプル
値又は追加される空白値の数は半分になることが
わかる。故に第3図では、例えば比較ユニツト3
0がP>Qの不等号が真であることを示すときに
制御回路31は一連の信号siの最後部から
P−Q/2のサンプル値を削除することを命ずる。 その代わり、不等号P<Qが真である場合には、
制御回路33が一連の信号の最後にQ−P/2の空 白値を加えることを命ずる。 後で示した方法に関連して、第4図は、本発明
に従つて1つだけ与えられた合成音声ソースから
得た合成音声の音声特徴を変更する装置を示して
いる。この図の中の装置は完全な一連のスペクト
ルsiの第1の一連のスペクトル部分によつて規定
される一連の信号の最後の部分を操作する。故に
第1の参照因子Pが第2の参照因子Qより大きい
時は第4図に示す装置によつてP−Q/2のサンプ ル値が一連の信号の最後からとり除かれ第1の参
照因子Pが第2の参照因子Qより小さい時は一連
の信号の最後にQ−P/2の空白値が加えられる。 第4図の装置を参照すると、装置はP点個別フ
ーリエ変換値を受けとり出力としてQ点個別フー
リエ変換値を出力している。第1の参照因子Pが
第2の参照因子Qより大きい場合、一連の入力
は、先頭部分がとり除かれ一連の出力を得ること
ができる。これに対し、PがQより小さければ、
零の値を持つ人工的サンプル値が一連の入力の最
後に加えられ一連の出力が作り出される。第1及
び第2の参照因子P及びQが完全な一連のスペク
トルの第1の一連のスペクトル部分のみに関連し
て決定される(故に完全な一連のスペクトルの全
体においてP及びQに対し決定される大きさは半
分になる。)と仮定すると、一連の入力の最後か
らP−Qのサンプル値がとり除かれ又は、一連の
入力の最後にQ−Pの空白値が加えられる。図で
示す通り、一連の値の各々の値は装置回路内の等
価16ビツト機能を実行する為に必要に応じ2つの
同一の8ビツト構成装置を対にして使用できるよ
うに16ビツトのデータで表わされる。必要なビツ
ト容量を持つ単1の構成装置を図で示した一対の
組になつた構成部品の代わりに使用することもで
きることは理解できるであろう。例えば(第3図
で示す)単一比較ユニツト30は閾値Q−1にセ
ツトされている比較ユニツト30a,30bで代
用することもできる。 第4a−4c図の装置は、テキサス州ダラス市
にあるテキサス・インスツルメンツ・インコーポ
レーテツドから入手できる集積回路SN7474のよ
うなJ−Kフリツプフロツプの形式でもよいスイ
ツチング装置を有している。J−Kフリツプフロ
ツプ40は選択的に装置の制御を第2図で示す方
法の23の段階で操作される逆数発生装置と25
の段階の間及び24の段階の実行される合成音声
スペクトル変換の出力側で操作される逆個別フー
リエ変換処理装置との間で切り換えている。逆数
発生装置とIDFT処理装置の間で制御の切り換え
が起こると比較装置30a,30bがパルスを発
生し計数器41a,41bをクリアにする。段階
23で示す逆数発生装置の制御が行われている
時、ランダムアクセスメモリ42a,42bの形
式のメモリ手段は書きこみの為にセツトされる。
一方、RAM42a,42bは読み出し専用のア
クセスにセツトされる。計数器41a,41bは
インクレメント計数器であつて0からQ−1まで
の係数を行いRAM42a,42b内のカウント
にともないそれぞれの周波数値を記憶している。
カウントがPの値より小さい場合、比較ユニツト
32a,32bは制御線を(例えば第3図の制御
回路33に相当する)多重ラツチ回路33a,3
3bの為にセツトされるので逆数発生装置から出
力されるデータRAM42a,42bの中に記憶
される。一担カウントがPの値まで達すると、多
重ラツチ回路33a,33bは0の空白値を通過
させ各々のカウントに対し、これをRAM42
a,42bに与える。J−Kフリツプフロツプ回
路40の及び入力は両方とも論理“0”にセ
ツトされこの論理“0”は各々CK入力にパルス
を与えQとの値を結びつける。Qは論理「0」
の値を持ち(=“1”)、逆数発生装置から与え
られるタイミングパルスが装置回路の制御に使用
されるQが“1”の論理値を持つている時(=
“0”)、IDFT処理装置から与えられるタイミン
グパルスが装置回路の制御に使用される。 説明した通り、2つの8ビツト計数器41a,
42bは(最下位係数器のRCO出力と最上位計
数器の入力の間を接続することによつ
て)単一の16ビツト計数器を形成するように構成
される。逆数発生装置又はIDFT処理装置のいず
れかから適当なタイミングパルスを受けとると計
数器41a,41bは入力が論理「1」の
値を持つ限り1つづつインクレメントされてゆ
く。入力が論理「0」の値を持つ場合、タ
イミングパルスによつて計数器41a,41bは
リセツトされる。(両方の8ビツト計数器41a,
41bが零の値が仮定される)比較回路30a,
30bは計数器41a,41bの現在の値をQ−
1の値と比較する。計数器41a,41bがこの
値に達した場合、比較装置30a,30bの=
Q出力は論理「0」の値を持ち、これによつて計
数器41a,41bの入力に接続される
ORゲート43の出力は論理「0」となる。故に
次のタイミングパルスが計算器41a,41bを
リセツトする。 RAM42a,42bは、それぞれ2048×8ビ
ツトの記憶容量を提供できるテキサス州ダラス市
のテキサスインスツルメンツ・インコーポレーテ
ツドから品番TMS−4016の集積回路として入手
可能な2つの対になつた静電RAMによつて提供
される全体で2046×16ビツトの値を記憶できる能
力を持つ。計数器41a,41bはRAMアドレ
ス回路として使用される。RAM42a,42b
の入力は論理インバータ44に接続され、これ
は、さらに逆数発生装置タイミングパルスとJ−
Kフリツプフロツプ装置の出力との論理積を作
りだす為のANDゲート45に接続される。Qが
論理「1」の値をもつ(且つ逆数発生装置のタイ
ミングパルスが論理「1」の値を持つ)時、逆数
発生装置から受けとる値はRAM42a,42b
の中に記憶される。が論理「0」の値を持つ
時、値はIDFT処理装置で使用する為にRAM4
2a,42bから読み出される。 比較装置32a,32bは計数器41a,41
bの現在の値を値P−1と比較している。計数器
41a,41bの現在の値がP−1の値より小さ
いか又は等しい場合、多重ラツチ33a,33b
のA/入力は、論理「1」にセツトされ、これ
によつて多重ラツチ33a,33bのY出力は、
逆数発生装置から得たデータ値にセツトされ、多
重ラツチ33a,33bのY出力はRAM42
a,42bにデータとして入力される。計数器の
値がP−1の値より大きい場合多重ラツチ33
a,33bのA/入力は論理「0」にセツトさ
れ、これによつて多重ラツチ33a,33BのY
出力は論理「0」の値にセツトされる。多重ラツ
チ33a,33BのCLK(クロツク)入力は
ANDゲート45に接続され、このANDゲートは
逆数発生装置タイミングパルスとJ−Kフリツプ
フロツプ装置40の出力との論理積を作つてい
る。が論理「1」の値を持ち逆数発生装置のタ
イミングパルスが発生している時は、多重ラツチ
33a,33bは零の空白値をRAM42a,4
2bに転送し計数器の値がQ−1の値に達するま
で各々の計数器に対し転送しつづける。一方、多
重ラツチ33a,33bのY出力は高インピーダ
ンス状態にセツトされているので、IDFT処理装
置が制御される時にRAM42a,42bからデ
ータを読み出すことができる。 計数器41a,41bは集積回路SN74LS592
として入手可能な一対の組になつた8ビツト計数
器を有している。一方一対の組になつた8ビツト
比較装置は集積回路SN74LS684によつて提供す
ることができ一対の組になつた多重ラツチも集積
回路SN74LS606によつて提供することができる。
これらの集積回路は、全てテキサス州ダラス市の
テキサス・インスツルメンツ・インコーポレーテ
ツド社から入手できる。第4図に示す装置は合成
音声スペクトルの変換を行うことによつて合成音
声のソースから得たデジタル音声データのサンプ
ル期間を調整した状態をシミユレートしてここで
開示する合成音声の音声特徴を変更する方法を実
施する為に適当な回路システムに関し特に説明さ
れているがこの目的には適当な汎用コンピユータ
を使用することができることは理解できるであろ
う。 第5図は音声合成システムの機能的なブロツク
図である。この中で第4図の音声特徴変更装置
は、本発明に従つて結合されている。第5図は汎
用音声合成システムを図示していることがわか
る。このシステムは、例えば前述の1982年5月6
日出願の継続中の米国特許出願番号第375434号の
中で開示されているような文字からの合成音声シ
ステムの一部である場合もあり代わりに文字資料
から合成音声を抽出するデジタルコードに変換す
る機能を持たない完全な音声合成システムである
場合もある。この目的の為、第5図の音声合成シ
ステムは、音声リードオンリメモリ又はROM1
0の形式であつてこのメモリにはマイクロプロセ
ツサの形式をとる制御装置12に制御されて選択
的に音声合成装置11によつてアクセスされるデ
ジタル音声データ及びデジタル制御データがその
中に記憶されている。この中で説明した通り、音
声ROM10に含まれるデジタル音声データは反
射計数を示していて単一の合成音声ソースを有し
ている。この合成音声ソースは、音声合成装置1
1によつて使用され線形予測符号化法を使つて音
声データが処理され人間の音声を示すアナログ可
聴信号を得ることができる。POM10内に記憶
されるデジタル音声データは、マイクロプロセツ
サ12に制御される一連に連結し接続される異音
又は音素のように完全な単語又は単語の部分を示
すものであつてROM10の記憶容量に比較し非
常に多数の単語を示す一連の音声データを形成す
ることができる。音声ROM10は音声合成装置
11に直接接続されるが制御装置11のオペレー
シヨンによつて選択的に決定され、合成装置11
によつて受けとられるデジタルデータも有してい
る構成も可能であることは理解されるであろうが
第5図に示す通り音声合成ROM10は制御装置
12を介し導電部12aを通つて合成装置11に
接続される。制御装置12は、それぞれの単語の
為の単語選択及び音声特徴選択についてプログラ
ムされ制御装置12によつて音声ROM10から
アクセスされたデジタル音声データが所定の単語
についてのROMからの出力(これは一連の異音
又は音素のストリングを含む)となる。第1及び
第2の最初因子P及びQの大きさの差を設定する
ことによつてこの出力には所定の音声特徴プロフ
イールが加えられる。P=Qである時、音声
ROM10に記憶されるデジタル音声データの音
声特徴はまつたく変化が起こらず、デジタル音声
データは、導電部12aを介して制御装置12の
制御をうけて音声合成装置11によつて選択的に
アクセスされる。適当なバンドパスフイルタのよ
うな適当な可聴手段13、プリアンプ14、スピ
ーカー15が音声合成装置11の出力に接続され
音声合成装置11によつて作りだされたアナログ
可聴信号から耳で聞くことのできる人間の合成音
声が作りだされる。制御装置12を形成するマイ
クロプロセツサはテキサス州ダラス市のテキサ
ス・インスツルメンツ・インコーポレーテツドに
よつて製造されるTMS7020のようないずれかの
適当なタイプのものである。このマイクロプロセ
ツサは、選択的にテキサス州ダラス市のテキサ
ス・インスツルメンツ・インコーポレーテツドか
ら構成部品TMS6100として入手可能な音声ROM
10から音声データ及びデジ命令データをアクセ
スしている。音声合成装置11は線形予測符号化
法を用いてデジタル音声データを処理し、合成さ
れた人間音声を示すアナログ信号出力を発生して
いる。この音声合成装置11は、1980年6月24日
に発行されたウイギンス・ジユニアその他による
米国特許第4209836号に開示されるテキサス州ダ
ラス市のテキサス・インスツルメンツ・インコー
ポレーテツドから構成部品TMS5100として入手
可能なタイプのものを使うことができる。 本発明に従うと、共働する音声特徴変更装置1
7を持つ信号処理装置16は、制御装置12と音
声合成装置11の間に位置される。信号処理装置
16の音声特徴変更装置17は、第4図に示す装
置回路に相当し、制御装置12の制御をうけて
ROM10から読みだされたデジタル音声データ
が導電部12bを介し信号処理装置16の中えと
送られそこからの出力が導電部12cを通つて音
声合成装置11に送られる時に前述で説明した通
り、音声合成スペクトルの変換が行われる。前に
説明した通り、マイクロプロセツサ12によつて
第1及び第2の参照因子P及びQに割りあてた大
きさに左右されて音声特徴変更装置17はマイク
ロプロセツサ12によつて音声ROM10から最
初にアクセスされたK音声パラメータを参照して
反射係数を示す修正されたK′音声パラメータを
発生する。音声合成装置11に対し入力される修
正されたK′音声パラメータは、スピーカー15
によつて発生される可聴合成音声の特徴を変化さ
せるという機能を行つている。この例では、修正
されたK′音声パラメータによつて決定されるデ
ジタル音声データに基づく変更された声道モデル
と合成音声ソースのオリジナルのピツチ周期及び
音声レートとを結合しスピーカー15によつて耳
で聞くことのできる出力として変更された音声特
徴を持つ合成音声を発生するように所定のピツチ
期間及び所定の音声レートはそのまま維持され
る。 後の実施例に関しては、元の合成音声ソースの
声道モデルを規定するK音声パラメータは、導電
部12bを介し信号処理装置16及び音声特徴変
更装置17を通つて修正されたK′音声パラメー
タとして導電部12cを介し音声合成装置11に
入力され、一方ピツチ及びエネルギパラメータ
は、導電部12aを介し信号処理装置16を迂回
し音声合成装置11に入力されるようにK音声パ
ラメータは、マイクロプロセツサ12によつてア
クセスされる音声データのそれぞれのフレーム内
で共働しているピツチ及びエネルギーパラメータ
から分離される。選択できる方法としては、ピツ
チ及びエネルギーパラメータは導電部12bによ
つて中で操作されることなく信号処理装置16を
通過され修正されたK′音声パラメータといつし
よに音声合成装置11に入力されるようにするこ
ともできる。 しかしながら、ピツチパラメータがサンプル周
期の単位期間内で符号化される場合、サンプル周
期の調整をシミユレートし合成音声スペクトルの
変換を行うには合成音声スペクトルの変換を行う
前と同じピツチ周波数を維持する為に符号化ピツ
チ値を調整する必要がある。この調整は、元の符
号化ピツチ値はQ/Pの比率で掛けることによつ
て行う。例えばテキサス州ダラス市のテキサス・
インスツルメンツ・インコーポレーテツドから入
手可能な音声合成構成部品TMS5100は、このよ
うな符号化ピツチパラメータを加重する工程を必
要とする。ピツチパラメータが周波数の単位又は
ミリ秒で断続的に発生するピツチパルス間の時間
単位のようにその他の単位で符号化される場合に
は加重は必要とされない。 発声する人の年令や性別の違いから生まれる声
として通訳されることもできるがこの方法で作ら
れた合成音声の変更された音声特徴は動物や鳥、
モンスターや悪魔などのように空想上のまた変わ
つた発生源から発生されたように想像させるよう
な人間以外のものが発生したように思われるよう
な音質になりやすい。 前に述べた様に、デジタル音声データに関する
サンプル期間を変化させずに実行可能な音声特徴
の変更の規模は、サンプルレートの調整をシミユ
レートすることによつて行う合成音声スペクトル
の変換とは別個に独立させてピツチパラメータの
量及びピツチ積分路を修正することによつて調整
することができる。これに関連して本発明の方法
は声道モデルピツチパラメータ ピツチ積分路を
別々に修正し、いくつかの音声特徴を持つ音声を
単一の与えられた入力ソースから作りだすことが
できるので前述の継続中の米国特許出願番号第
375434号(1982年5月6日出願)よりさらに融通
性を向上させている。故に合成音声のソースから
得た音声は、他の人間の声と同様の音に修正され
る。その人の年令子体格、気性、さらに性別さえ
も含む印象を伝達する人間の音声の音声特徴は、
よつて、ここに開示される技術を使つて変更され
ることが可能であり、自然でない音質(例えば単
調なピツチ)を持つ声も作りだすことができる。
例えばピツチパラメータの修正は、ピツチ因子を
定数値で乗算する工程になるような、前述のアダ
ルハーナーによる刊行物「音声波の線形予測によ
る音声分析及び合成で前に説明した方法によつて
行うことができる。 本発明は、声道モデルを規定するK音声パラメ
ータ又は反射係数を修正して合成音声の音声特徴
を変更することに関し説明してきたが例えば予測
係数ホルマント周波数 セプストル係数のような
他の形式のデジタル音声データを声道モデルを規
定するデジタル音声データとして使用することが
できる。これらのデータはサンプル周期の調整を
シミユレートすることに開示した方法で合成音声
スペクトルの変換を行うことによつて修正され
る。故に本発明の好ましい実施例に関し特に説明
されているが本発明に関する本出願で示した説明
に基づけば本発明の変更及び修正は、当業者にと
つて明らかであるので本発明は添付特許請求の範
囲のみによつて限定されることが理解されよう。
故に添付特許請求の範囲は本発明の本来の主旨内
に含まれるあらゆる修正又は実施例を含む概念で
あると考える。
[Table] Formally, this can be shown as follows. s' i =s i , i=0, P/2-1 s' i =0, i=P/2, Q-1-P/2 s' i =s i+PQ , i=Q-P/ 2. Q-1. This technique explicitly changes the speed of the signal containing digital audio data without actually changing the processing speed, and thereby reduces the speed of such samples rather than actually changing the sample rate. It simulates the state where the rate is changed. At this stage, the number sequence in step 25 in Figure 2
s′ 0 , s′ 1 , s′ 2 ... Q-point individual inverse Fourier transform (IDFT) is performed on s Q-1 and calculated, and a series of signals h 0 ,
h 1 , h 2 ... h Q-1 is set. This series of signals provides the desired impulse response to a speech synthesis filter in which the linear predictive coding speech parameters are modified to simulate changes in sample rate.
Thereby, the synthesized speech spectrum can be returned from the frequency domain to the time domain where the speech data exists as a digitized speech waveform that does not have pitch information or energy information. The digitized audio waveform described above is similar to the digitized audio used in the audio analysis part. In a preferred embodiment, the magnitude of Q can be defined as a power of two. This is because it allows the use of a special form of IDFT (Inverse Fast Fourier Transform) instead of the more general IDFT used in the compression or expansion process of the synthesized speech spectrum shown at 24 in Figure 2. IFFT). The speed of performing signal processing techniques is significantly increased when IFFT is performed. In this example, P is equal to the nearest full integer value to QF OLD /F NEW . A device that changes the characteristics of audio by using the IFFT format is
It is possible to have a processing speed approximately proportional to Q, logQ. On the other hand, the processing speed when IDFT is used is proportional to Q 2 . The series of signals h′ 0 , h′ 1 , h′ 2 ……h′ Q-1 is represented by 2 in Fig. 2.
As shown in 6, the reflection coefficients are analyzed and changed by substituting them into the Nth-order linear predictive coding formula.
By obtaining digital voice data indicating k' 1 , k' 2 , k ' 3 . By fitting the series of signals h′ 0 , h′ 1 , h′ 2 ……h′ Q-1 with the N-th order LPC equation, we obtain k′ 1 , k′ 2 , k′ 3 ……k′ N. The technique described in Markel and Gray's publication "Linear Prediction of Speech", pp. 10-15, indicated above, is performed in setting the digital values representing the modified vocal tract model, and the prediction coefficient a′ Obtain digital audio data indicating i . These data are further
At step 27 in the figure, the signal is converted into a digital audio value indicating the reflection coefficient k' i as described on pages 95-97 of the above-mentioned publication. Therefore, Figures 1a and 1b are diagrams showing expanded versions of the original speech synthesis spectrum shown in Figure 1c, where the amount of Q is greater than the amount of P, and Figure 1d is a diagram showing the extension of the original speech synthesis spectrum shown in Figure 1c, where the amount of Q is greater than the amount of P. FIG. 4 is a graph showing a compressed synthesized speech spectrum where Q is larger than the amount of Q. Referring to FIG. 3, the first reference factor and the second
Logic for explaining in more detail the step of determining the sequence of numbers shown at 24 in FIG. A diagram is shown. For this purpose , the series of signals determined by the 23 phases of FIG . is received as an input to a comparison device 30 on which a threshold value is set based on. If such an inequality sign is true, the comparison device 30 gives an output to the control circuit 31, and the control circuit 31
performs the steps of removing samples P-Q from the central portion of the signal series to produce a series of signal outputs: {s' i } Q-1 i=0 . If, on the other hand, comparison unit 30 determines that the proposition that P is not greater than Q is false, comparison unit 30 provides a selection output to a second comparison unit that has a threshold based on P being less than Q. If such inequality is true, the comparison unit 32 provides an output to the control circuit 33 which adds the blank value of Q-P as a complex zero to the center of the series of signals, {s' i } Q-1 Create a series of signals by converting these signals indicated by i=0 . If the inequality that P is greater than Q is false, since this means that P and Q are equal, the second comparator circuit 32 generates a series of unconverted signals as a selection output. As explained in connection with FIGS. 2 and 3, the compression or expansion of the synthesized speech spectrum obtained from the original synthesized speech source, as the case may be, is performed from the center of the series of spectra s i to This is done by obtaining a transformed synthetic speech spectrum by removing sample values or adding a blank value of Q-P to the center of the series of spectra s i . In this case, the complete series of spectra s i characteristically comprises the spectral parts of the first and second series. Therein, the second series of spectral portions is a "mirror image" of the first spectral portion. Therefore, carrying out the method according to the invention only on the first series of spectral parts,
It is possible that the second series of spectra portions of the complete series of spectra s i are not performed. This method combines the steps of adding and subtracting sample values from the original synthesized speech source to simulate sample period adjustments by compressing or expanding the synthesized speech spectrum into a complete series of spectra s i This eliminates the need for the complicated process of performing this step on the center of the spectrum, and provides a practical method of performing it on the tail end of the first series of spectra. Therefore, if the above steps are used to operate only on the first series of spectral parts of the complete series of signals s 1 as a series of signals, the method disclosed herein can be used to change the phonetic characteristics of the synthesized speech. The circuit of the device for this purpose can be simplified. It can be seen that if the first series of spectral parts is used as the series of signals s i , the number of sample values removed or blank values added is halved. Therefore, in FIG. 3, for example, comparison unit 3
When 0 indicates that the inequality P>Q is true, control circuit 31 commands the deletion of P-Q/2 sample values from the end of the series of signals s i . Instead, if the inequality P<Q is true, then
Control circuit 33 commands the addition of a blank value of Q-P/2 to the end of the series of signals. In connection with the method presented later, FIG. 4 shows an apparatus for modifying the speech characteristics of synthesized speech obtained from only one given synthesized speech source according to the invention. The device in this figure operates on the last part of the series of signals defined by the first series of spectral parts of the complete series of spectra s i . Therefore, when the first reference factor P is greater than the second reference factor Q, the device shown in FIG. When P is less than the second reference factor Q, a blank value of Q-P/2 is added to the end of the series of signals. Referring to the apparatus of FIG. 4, the apparatus receives P point individual Fourier transform values and outputs Q point individual Fourier transform values as output. If the first reference factor P is greater than the second reference factor Q, the series of inputs can be truncated to obtain a series of outputs. On the other hand, if P is smaller than Q,
An artificial sample value with a value of zero is added to the end of the series of inputs to produce a series of outputs. The first and second reference factors P and Q are determined in relation to only the first series of spectral parts of the complete series of spectra (and therefore are determined for P and Q in the entire complete series of spectra). ), P-Q sample values are removed from the end of the series of inputs, or Q-P blank values are added to the end of the series of inputs. As shown in the diagram, each value in the series is 16-bit data so that two identical 8-bit component devices can be used in pairs as needed to perform an equivalent 16-bit function within the device circuitry. expressed. It will be appreciated that a single component having the required bit capacity may be used in place of the pair of components shown. For example, the single comparison unit 30 (shown in FIG. 3) could be replaced by comparison units 30a, 30b set to threshold Q-1. The apparatus of FIGS. 4a-4c includes a switching device which may be in the form of a JK flip-flop, such as the SN7474 integrated circuit available from Texas Instruments, Inc. of Dallas, Texas. The J-K flip-flop 40 selectively controls the device with a reciprocal generator and a reciprocal generator operated at step 23 of the method shown in FIG.
and an inverse separate Fourier transform processor operating at the output of the 24 stages of synthetic speech spectral transformation performed. When a control switch occurs between the reciprocal generator and the IDFT processor, comparators 30a and 30b generate pulses to clear counters 41a and 41b. When the control of the reciprocal generator shown in step 23 is taking place, memory means in the form of random access memories 42a, 42b are set for writing.
On the other hand, RAMs 42a and 42b are set for read-only access. The counters 41a and 41b are increment counters that calculate coefficients from 0 to Q-1, and store respective frequency values in accordance with the counts in the RAMs 42a and 42b.
If the count is less than the value of P, the comparison units 32a, 32b connect the control lines to multiple latch circuits 33a, 3 (e.g., corresponding to the control circuit 33 of FIG. 3).
Since it is set for 3b, the data output from the reciprocal generator is stored in the RAMs 42a and 42b. When the single count reaches the value P, the multiple latch circuits 33a and 33b pass a blank value of 0 and store it in the RAM 42 for each count.
a, 42b. The and inputs of JK flip-flop circuit 40 are both set to a logic "0" which pulses each CK input to tie the value to Q. Q is logic “0”
(=“1”) and the timing pulse given from the reciprocal number generator is used to control the device circuit.When Q has the logical value of “1” (=
0), the timing pulse given from the IDFT processing device is used to control the device circuit. As explained, two 8-bit counters 41a,
42b is configured to form a single 16-bit counter (by connecting between the RCO output of the least significant coefficient counter and the input of the most significant counter). Upon receiving the appropriate timing pulse from either the reciprocal generator or the IDFT processor, counters 41a and 41b are incremented by one as long as the inputs have a logic "1" value. If the input has a logic "0" value, the timing pulse resets the counters 41a, 41b. (Both 8-bit counters 41a,
41b is assumed to have a value of zero) comparator circuit 30a,
30b indicates the current values of counters 41a and 41b as Q-
Compare with the value of 1. When the counters 41a, 41b reach this value, the comparison devices 30a, 30b =
The Q output has a logic "0" value and is thereby connected to the inputs of counters 41a, 41b.
The output of OR gate 43 becomes logic "0". The next timing pulse therefore resets the calculators 41a, 41b. RAMs 42a and 42b are constructed by two pairs of electrostatic RAMs available as part number TMS-4016 integrated circuits from Texas Instruments, Inc., Dallas, Texas, each capable of providing a storage capacity of 2048 x 8 bits. It has the ability to store 2046 x 16 bit values in total. Counters 41a and 41b are used as RAM address circuits. RAM42a, 42b
is connected to a logic inverter 44, which further inverts the reciprocal generator timing pulses and J-
It is connected to an AND gate 45 for producing an AND with the output of the K flip-flop device. When Q has the value of logic "1" (and the timing pulse of the reciprocal generator has the value of logic "1"), the value received from the reciprocal generator is stored in RAM 42a, 42b.
is stored in the . When has a logic “0” value, the value is stored in RAM4 for use by the IDFT processing unit.
2a and 42b. Comparing devices 32a, 32b are counters 41a, 41
The current value of b is compared with the value P-1. If the current value of the counters 41a, 41b is less than or equal to the value of P-1, the multiple latches 33a, 33b
The A/input of is set to logic "1", so that the Y output of multiplex latch 33a, 33b becomes
The Y outputs of multiple latches 33a and 33b are set to the data value obtained from the reciprocal generator, and the Y outputs of multiple latches 33a and 33b are output to RAM 42.
a, 42b as data. If the value of the counter is greater than the value of P-1, the multiple latch 33
The A/input of multiplex latches 33a, 33b is set to logic ``0'', which causes the Y input of multiplex latch 33a, 33b to
The output is set to a logic ``0'' value. The CLK (clock) input of multiple latches 33a and 33B is
It is connected to an AND gate 45 which ANDs the reciprocal generator timing pulse and the output of the JK flip-flop device 40. has a logic "1" value and the timing pulse of the reciprocal generator is generated, the multiplex latches 33a, 33b transfer the blank value of zero to the RAMs 42a, 4.
2b and continues to transfer to each counter until the value of the counter reaches the value of Q-1. On the other hand, since the Y outputs of multiplex latches 33a and 33b are set to a high impedance state, data can be read from RAMs 42a and 42b when the IDFT processor is controlled. Counters 41a and 41b are integrated circuits SN74LS592
It has a pair of 8-bit counters available as 8-bit counters. On the other hand, a pair of 8-bit comparators can be provided by the integrated circuit SN74LS684, and a pair of multiple latches can also be provided by the integrated circuit SN74LS606.
All of these integrated circuits are available from Texas Instruments, Inc., Dallas, Texas. The apparatus shown in FIG. 4 changes the audio characteristics of the synthesized speech disclosed herein by converting the synthesized speech spectrum to simulate the state in which the sample period of digital speech data obtained from the source of the synthesized speech is adjusted. Although specifically described with reference to a suitable circuit system for implementing the method, it will be appreciated that any suitable general purpose computer may be used for this purpose. FIG. 5 is a functional block diagram of the speech synthesis system. Therein, the audio feature changing device of FIG. 4 is combined in accordance with the invention. It can be seen that FIG. 5 illustrates a general purpose speech synthesis system. This system, for example,
may be part of a text-to-speech system such as that disclosed in copending U.S. patent application Ser. In some cases, it is a complete speech synthesis system without any functionality. For this purpose, the speech synthesis system of FIG.
0, this memory has digital audio data and digital control data stored therein which are controlled by a controller 12 in the form of a microprocessor and selectively accessed by the speech synthesizer 11. ing. As explained herein, the digital audio data contained in the audio ROM 10 represents reflection counts and has a single synthesized audio source. This synthesized speech source is the speech synthesizer 1
Audio data can be processed using the linear predictive coding method used by No. 1 to obtain an analog audible signal representative of human speech. The digital audio data stored in the POM 10 is indicative of complete words or parts of words, such as allophones or phonemes connected in a series controlled by the microprocessor 12, and the storage capacity of the ROM 10 is It is possible to form a series of audio data representing a very large number of words compared to the following. The voice ROM 10 is directly connected to the voice synthesizer 11, but is selectively determined by the operation of the control device 11, and is connected directly to the voice synthesizer 11.
It will be appreciated that configurations are possible that also include digital data received by the synthesizer.As shown in FIG. 11. The controller 12 is programmed for word selection and audio feature selection for each word, and the digital audio data accessed by the controller 12 from the audio ROM 10 is output from the ROM for a given word (which is a series of (including strings of allophones or phonemes). A predetermined audio feature profile is applied to this output by setting the difference in magnitude of the first and second initial factors P and Q. When P=Q, the voice
The audio characteristics of the digital audio data stored in the ROM 10 do not change at all, and the digital audio data is selectively accessed by the audio synthesizer 11 under the control of the controller 12 via the conductive part 12a. Ru. Suitable audio means 13, such as a suitable bandpass filter, a preamplifier 14, and a speaker 15 are connected to the output of the speech synthesizer 11 so that the analog audio signal produced by the speech synthesizer 11 can be audible. A synthetic human voice is created. The microprocessor forming controller 12 is of any suitable type, such as the TMS7020 manufactured by Texas Instruments, Inc. of Dallas, Texas. This microprocessor is optionally available as an audio ROM component TMS6100 from Texas Instruments, Inc., Dallas, Texas.
Voice data and digital command data are accessed from 10. Speech synthesizer 11 processes digital audio data using linear predictive coding and generates an analog signal output representative of synthesized human speech. This speech synthesizer 11 is available as component TMS5100 from Texas Instruments, Inc., Dallas, Texas, disclosed in U.S. Pat. You can use any type. According to the invention, a cooperating audio feature modification device 1
7 is located between the control device 12 and the speech synthesizer 11. The audio feature changing device 17 of the signal processing device 16 corresponds to the device circuit shown in FIG.
As explained above, when the digital audio data read from the ROM 10 is sent to the inside of the signal processing device 16 via the conductive section 12b, and the output from there is sent to the speech synthesis device 11 through the conductive section 12c, the audio A transformation of the composite spectrum is performed. As previously explained, depending on the magnitudes assigned by the microprocessor 12 to the first and second reference factors P and Q, the audio feature modifying device 17 changes the audio characteristics from the audio ROM 10 by the microprocessor 12. A modified K′ audio parameter indicating the reflection coefficient is generated with reference to the initially accessed K audio parameter. The modified K' voice parameter input to the voice synthesizer 11 is transmitted to the speaker 15.
The function is to change the characteristics of the audible synthesized speech generated by the . In this example, the modified vocal tract model based on the digital audio data determined by the modified K' audio parameters is combined with the original pitch period and audio rate of the synthesized audio source to be heard by the loudspeaker 15. The predetermined pitch period and predetermined speech rate remain unchanged to produce a synthesized speech with modified speech characteristics as an output that can be heard. Regarding the later embodiments, the K speech parameters defining the vocal tract model of the original synthesized speech source are passed through the signal processing device 16 and the speech feature modification device 17 via the conductive portion 12b as modified K′ speech parameters. The K audio parameters are input to the speech synthesizer 11 via the conductive section 12c, while the pitch and energy parameters are input to the speech synthesizer 11 via the conductive section 12a, bypassing the signal processing device 16. 12 from the pitch and energy parameters that cooperate within each frame of audio data. An alternative method is that the pitch and energy parameters are passed through the signal processing device 16 without being manipulated by the conductive part 12b and input into the speech synthesizer 11 along with the modified K' speech parameters. You can also make it so that However, if the pitch parameter is encoded within a unit period of the sample period, to simulate the adjustment of the sample period and transform the synthesized speech spectrum, it is necessary to maintain the same pitch frequency as before the conversion of the synthesized speech spectrum. It is necessary to adjust the encoding pitch value. This adjustment is performed by multiplying the original encoded pitch value by the ratio Q/P. For example, in Dallas, Texas,
The TMS5100 speech synthesis component available from Instruments, Inc. requires the step of weighting such encoding pitch parameters. No weighting is required if the pitch parameter is encoded in units of frequency or other units, such as units of time between pitch pulses that occur intermittently in milliseconds. It can also be interpreted as a voice created by the difference in the age or gender of the person speaking, but the altered vocal characteristics of the synthesized voice created using this method can be interpreted as the voice of an animal, bird, animal, bird, etc.
The sound quality tends to be such that it seems that something other than human beings is generated, such as a monster or demon, which makes one imagine that it is generated from an imaginary or unusual source. As mentioned earlier, the magnitude of audio feature changes that can be performed without changing the sample period on digital audio data is distinct from the transformation of the synthesized audio spectrum by simulating sample rate adjustments. It can be adjusted by independently modifying the amount of the pitch parameter and the pitch integral path. In this connection, the method of the present invention is a continuation of the above, since it is possible to modify the vocal tract model pitch parameters pitch integral path separately and produce speech with several phonetic features from a single given input source. U.S. Patent Application No.
It has even more flexibility than No. 375434 (filed on May 6, 1982). Thus, the voice obtained from the synthetic voice source is modified to sound similar to other human voices. The vocal characteristics of human speech that convey impressions of a person's age, size, temperament, and even gender are
Thus, using the techniques disclosed herein, voices can be modified to produce voices with unnatural sound quality (eg, monotonous pitch).
For example, modification of the pitch parameter can be done by the method previously described in the aforementioned publication by Adal Haaner, "Speech Analysis and Synthesis by Linear Prediction of Speech Waves," which involves multiplying the pitch factor by a constant value. Although the present invention has been described in terms of changing the speech characteristics of synthesized speech by modifying the K speech parameters or reflection coefficients that define the vocal tract model, it is possible to Digital audio data can be used as digital audio data to define a vocal tract model. These data are modified by performing a transformation of the synthesized audio spectrum in the manner disclosed in simulating adjustment of the sample period. Thus, although the present invention has been specifically described with respect to the preferred embodiment thereof, changes and modifications of the invention will be apparent to those skilled in the art based on the description provided in this application of the invention and the present invention is incorporated herein by reference in the accompanying patents. It will be understood that we are limited only by the scope of the claims.
It is therefore intended that the appended claims are intended to cover any modifications or embodiments that fall within the original spirit of the invention.

【図面の簡単な説明】[Brief explanation of the drawing]

第1a図から第1d図は第1c図に示すスペク
トルと同じ単一の合成音声ソースから得たデジタ
ル音声データから作つた合成音声スペクトルであ
つて、サンプル周期の調整をシミユレートする方
法に従つて第1a図、第1b図及び第1d図にお
いて修正された合成音声スペクトルを示す図であ
る。第2図は、本発明に従つてただ1つ与えられ
た合成音声ソースから得た合成音声の音声特徴を
変更する方法を概略的に示す流れ図である。第3
図は第2図の流れ図の一連の流れをさらに詳しく
説明する図であつてその中で合成音声スペクトル
を圧縮又は拡張することによつて合成音声ソース
から得たデジタル音声データのサンプル周期の調
整がシミユレートされる工程を示す図である。第
4a図から第4c図は本発明に従つてただ1つ与
えられた合成音声ソースから得た合成音声の音声
特徴を変更する装置の概略回路図である。第5図
は、第4a図から第4c図の装置を結合し単一の
合成音声ソースのデジタル音声データを含むメモ
リから、非常にユニークな音声特徴を持つ複数の
異なる音声音を提供することができる音声合成シ
ステムの機能的ブロツク図を示す。
Figures 1a to 1d are synthesized speech spectra created from digital audio data obtained from a single synthesized speech source identical to the spectra shown in Figure 1c, following a method that simulates sample period adjustment. 1a, 1b and 1d show the modified synthesized speech spectra; FIG. FIG. 2 is a flowchart schematically illustrating a method for modifying the speech characteristics of synthesized speech obtained from a single given synthesized speech source in accordance with the present invention. Third
The figure is a diagram illustrating in more detail the series of flowcharts in Figure 2, in which the sample period of digital audio data obtained from a synthesized voice source is adjusted by compressing or expanding the synthesized voice spectrum. FIG. 3 is a diagram showing a simulated process. Figures 4a to 4c are schematic circuit diagrams of an apparatus for modifying the audio characteristics of synthesized speech obtained from a single provided synthesized speech source in accordance with the present invention. FIG. 5 shows that the apparatus of FIGS. 4a to 4c can be combined to provide a plurality of different audio tones with very unique audio characteristics from a memory containing digital audio data of a single synthesized audio source. This figure shows a functional block diagram of a possible speech synthesis system.

Claims (1)

【特許請求の範囲】 1 ただ一つ与えられた合成音声のソースからの
複数の音声音のうちのいずれか一つの修正された
合成音声を得るために合成音声の音声特徴を変更
する方法において、 所定のサンプル周期で定義される時間間隔で得
られたアナログ音声信号のそれぞれのサンプルに
対応するデジタル音声の形式の合成音声のソース
であり、そのソースからは合成音声が取出し可能
であり、上記デジタル音声は所定の音声レートで
提供される音声パラメータ・フレームより成り、
音声パラメータ・フレームのそれぞれは複数の予
測係数で定義される所定のピツチ周期及び所定の
声道モデルを持ち、 デジタル音声データのそれぞれのフレームのた
めの所定の声道モデルを定義する複数の予測係数
に所定の数を空白値を加え、 第1のフーリエ変換の演算によりデジタル音声
データを時間領域の第1フエーズから周波数領域
の第2フエーズに変え、そのとき、加えられた所
定の数の空白値がデジタル音声データ信号のシー
ケンスに吸収されるとともに合成音声スペクトル
を定義し、 周波数領域においてデジタル音声データのそれ
ぞれのフレームのための所定の声道モデルを定義
する複数の予測係数のデジタル音声値を反転し、 第1の参照因子Pを第1の整数として設定し、
この第1の整数は、フーリエ変換の演算において
作られるべき音声のタイプにより決まる音声スペ
クトル全域にわたる所定の点の選ばれた数に等し
い整数であり、 上記第1の参照因子Pを提供する第1の整数と
大きさが不等の第2の整数を第2の参照因子Qと
して設定し、上記第2の整数は音声スペクトル全
域にわたる点の任意の数に対応する偶数であり、 上記第1及び第2の参照因子P及びQの間の差
に基づいて合成音声のソースからのデジタル音声
データに関するサンプル周期において調整をシミ
ユレートし、上記第2の整数が提供する第2の参
照因子QはP×FNEW/FOLDの積に最も近い偶数で
あり、この式においてFNEWは、シミユレート調
整されたサンプル周期の望ましい見掛け上のサン
プル周波数であり、FOLDは、所定のサンプル周期
に内在するサンプル周波数であり、 サンプル周期においてシミユレートされた調整
に応じてデジタル音声データの所定の声道モデル
を変更し、そのために第1の参照因子Pを提供す
る第1の整数の大きさが第2の参照因子Qを提供
する第2の整数よりも大である場合には合成音声
スペクトルを圧縮し、第1の参照因子Pを提供す
る第1の整数が第2の参照因子Qを提供する第2
の整数よりも小である場合には合成音声スペクト
ルを拡大し、 所定のピツチ周期及び振幅データが消去された
インパルス応答値を提供するデジタル化された音
声波形として修正されたデジタル音声データを発
生し、そのために圧縮又は拡大された合成音声ス
ペクトルを第2のフーリエ変換の演算により周波
数領域の第2フエーズから時間領域の第1フエー
ズに復帰させ、 変更された声道モデルを複数の予測係数として
持つ修正されたデジタル音声データを提供するに
あたつて上記デジタル化された音声波形を解析
し、 上記変更された声道モデルを定義する複数の予
測係数を反射係数に変換し、 反射係数により表わされる修正されたデジタル
音声データから得られた人の音声を表わすオーデ
イオ信号を発生し、 上記オーデイオ信号を上記合成音声のソースか
ら得られる合成音声からの変更された音声特性を
持つ可聴合成音声に変換する方法。 2 特許請求の範囲第1項記載の方法で、上記デ
ジタル音声のデータのサンプル周期においてシミ
ユレートされた調整により上記デジタル音声デー
タの声道モデルだけが変更され、合成音声のソー
スの上記所定のピツチ周期及び上記所定の音声レ
ートは変化しない方法。 3 特許請求の範囲第2項記載の方法で、合成音
声スペクトルが、第1の参照因子Pの設定される
大きさが上記第2参照因子Qの設定される大きさ
より大であるように圧縮され、合成音声のソース
からのデジタル音声データのサンプル周期におい
てシミユレートされた調整が、デジタル音声デー
タを表わすスペクトル信号のシーケンスから第1
及び第2の参照因子P及びQの間の大きさの差に
対応する複数のサンプルを消去することにより行
われ、これに続いて、 変更された音声特徴を持つ修正されたデジタル
音声データを発生する方法。 4 特許請求の範囲第3項記載の方法で、合成音
声のソースからのデジタル音声データのサンプル
周期においてシミユレートされた調整を実行する
に際して複数のサンプルがスペクトル信号シーケ
ンスの中央部から消去される方法。 5 特許請求の範囲第3項記載の方法で、合成音
声のソースからのデジタル音声データのサンプル
周期においてシミユレートされた調整を実行する
に際して複数のサンプルがスペクトル信号シーケ
ンスの終端部から消去される方法。 6 特許請求の範囲第2項記載の方法で、合成音
声スペクトルが、第1の参照因子Pの設定される
大きさが上記第2の参照因子Qの設定される大き
さより小であるように拡大され、合成音声のソー
スからのデジタル音声データのサンプル周期にお
いてシミユレートされた調整が、デジタル音声デ
ータを表わすスペクトル信号のシーケンスに第2
の参照因子Q及び第1の参照因子Pの間の大きさ
の差に対応する複数の空白値を追加することによ
り行われ、これに続いて、 変更された音声特徴を持つ修正されたデジタル
音声データを発生する方法。 7 特許請求の範囲第6項記載の方法で、合成音
声のソースからのデジタル音声データのサンプル
周期においてシミユレートされた調整を実行する
にあたつて複数の空白値がスペクトル信号シーケ
ンスの中央部に加えられる方法。 8 特許請求の範囲第6項記載の方法で、合成音
声のソースからのデジタル音声データのサンプル
周期においてシミユレートされた調整を実行する
にあたつて複数の空白値がスペクトル信号シーケ
ンスの終端部に加えられる方法。 9 特許請求の範囲第1項記載の方法で、第1の
参照因子Pは、逆離散フーリエ変換において作ら
れるべき音声のタイプにより決まる所定の点の数
に等しい数であり、第2の参照因子Qは、逆離散
フーリエ変換における偶数個の点であり、 上記第2のフーリエ変換の演算は逆離散フーリ
エ変換である方法。 10 特許請求の範囲第1項記載の方法で、 P−(N+1)空白値の合計が第1のフーリエ
変換の演算に先行して複数の予測係数に加えら
れ、ここにおいて、Nは所定の声道モデルを定義
する予測係数の数である方法。 11 ただ一つ与えられた合成音声のソースから
複数の音声音のうちのいずれか一つの修正された
合成音声を得るために合成音声の音声特徴を変更
する方法において、 所定のサンプル周期で定義される時間間隔で得
られたアナログ音声信号のそれぞれのサンプルに
対応するデジタル音声形式の合成音声のソースで
あり、そのソースからは合成音声が取出し可能で
あり、上記デジタル音声は所定の音声レートで提
供される音声パラメータ・フレームより成り、音
声パラメータ・フレームのそれぞれは複数の予測
係数で定義される所定のピツチ周期及び所定の声
道モデルを持ち、 デジタル音声データのそれぞれのフレームのた
めの所定の声道モデルを定義する複数の予測係数
に所定の数の空白値を加え、 第1のフーリエ変換の演算によりデジタル音声
データを時間領域の第1フエーズから周波数領域
の第2フエーズに変え、そのとき加えられた所定
の数の空白値がデジタル音声データ信号のシーケ
ンスに吸収されるとともに合成音声スペクトルを
定義し、 周波数領域においてデジタル音声データのそれ
ぞれのフレームのための所定の声道モデルを定義
する複数の予測係数のデジタル音声値を反転し、 第1の参照因子Pを第1の整数として設定し、
この第1の整数は、逆高速フーリエ変換の演算に
おいて作られるべき修正された合成音声により決
まる音声スペクトル全域にわたる所定の点の数に
等しい偶数であり、 上記第1の参照因子Pを提供する第1の整数と
大きさが不等の第2の整数を第2の参照因子Qと
して設定し、上記第2の整数は、逆高速フーリエ
変換における偶数の点で、べき数2を持ち、音声
スペクトル全域にわたる点の任意の数に対応し、 上記第1及び第2の参照因子P及びQの間の差
に基づいて合成音声のソースからのデジタル音声
データに関するサンプル周期において調整をシミ
ユレートし、上記第1の整数が提供する第1の参
照因子PはQ×FOLD/FNEWの積に最も近い整数で
あり、この式において、FOLDは所定のサンプル周
期を含むサンプル周波数であり、FNEWは、シミ
ユレート調整されたサンプル周期の望まし見掛け
上のサンプル周波数であり、 サンプル周期においてシミユレートされた調整
に応じてデジタル音声データの所定の声道モデル
を変更し、そのために第1の参照因子Pを提供す
る第1の整数の大きさが第2の参照因子Qが提供
する第2の整数よりも大である場合には合成音声
スペクトルを圧縮し、第1の参照因子Pを提供す
る第1の整数が第2の参照因子Qを提供する第2
の整数よりも小である場合には合成音声スペクト
ルを拡大し、 所定のピツチ周期及び振幅データが消去された
インパルス応答値を提供するデジタル化された音
声波形として修正されたデジタル音声データを発
生し、そのために圧縮又は拡大された合成音声ス
ペクトルを逆高速フーリエ変換による第2のフー
リエ変換の演算により周波数領域の第2のフエー
ズから時間領域の第1フエーズに復帰させ、 変更された声道モデルを複数の予測係数として
持つ修正されたデジタル音声データを提供するに
あたつて上記デジタル化された音声波形を解析
し、 上記変更された声道モデルを定義する複数の予
測係数を反射係数に変換し、 反射係数により表わされる修正されたデジタル
音声データから得られた人の音声を表わすオーデ
イオ信号を発生し、 上記オーデイオ信号を上記合成音声のソースか
ら得られる合成音声からの変更された音声特性を
持つ可聴合成音声に変換する方法。 12 特許請求の範囲第11項記載の方法で、上
記デジタル音声データのサンプル周期においてシ
ミユレートされた調整により上記デジタル音声デ
ータの声道モデルだけが変更され、合成音声のソ
ースの上記所定のピツチ周期及び上記所定の音声
レートは変化させない方法。 13 特許請求の範囲第12項記載の方法で、合
成音声スペクトルが、第1の参照因子Pの設定さ
れる大きさが上記第2の参照因子Qの設定される
大きさよりも大であるように圧縮され、合成音声
のソースからのデジタル音声データのサンプル周
期においてシミユレートされた調整が、デジタル
音声データを表わすスペクトル信号のシーケンス
から第1及び第2の参照因子P及びQの間の大き
さの差に対応する複数のサンプルを消去すること
により行われ、これに続いて、 変更された音声特徴を持つ修正されたデジタル
音声データを発生する方法。 14 特許請求の範囲第13項の方法で、合成音
声のソースからのデジタル音声データのサンプル
周期においてシミユレートされた調整を実行する
にあたつて複数のサンプルがスペクトル信号シー
ケンスの中央部から消去される方法。 15 特許請求の範囲第13項記載の方法で、合
成音声のソースからのデジタル音声データのサン
プル周期においてシミユレートされた調整を実行
するにあたつて複数のサンプルがスペクトル信号
シーケンスの終端部から消去される方法。 16 特許請求の範囲第12項記載の方法で、合
成音声スペクトルが、第1の参照因子Pの設定さ
れる大きさが第2の参照因子Qの設定される大き
さより小であるように拡大され、合成音声のソー
スからのデジタル音声データのサンプル周期にお
いてシミユレートされた調整が、デジタル音声デ
ータを表わすスペクトル信号のシーケンスに第2
の参照因子Q及び第1の参照因子Pの間の大きさ
の差に対応する複数の空白値を追加することによ
り行われ、これに続いて、 変更された音声特徴を持つ修正されたデジタル
音声データを発生する方法。 17 特許請求の範囲第16項記載の方法で、合
成音声のソースからのデジタル音声データのサン
プル周期においてシミユレートされた調整を実行
するにあたつて、複数の空白値がスペクトル信号
シーケンスの中央部に加えられる方法。 18 特許請求の範囲第16項記載の方法で、合
成音声のソースからのデジタル音声データのサン
プル周期においてシミユレートされた調整を実行
するにあたつて、複数の空白値がスペクトル信号
シーケンスの終端部に加えられる方法。 19 特許請求の範囲第11項記載の方法で、 P−(N+1)空白値の合計が第1のフーリエ
変換に先行して複数の予測係数に加えられ、ここ
において、Nは特定の声道モデルを定義する予測
係数の数である方法。
[Scope of Claims] 1. A method for changing the speech characteristics of synthesized speech to obtain a modified synthesized speech of any one of a plurality of speech sounds from a single given source of synthesized speech, comprising: A source of synthesized speech in the form of digital speech corresponding to each sample of an analog speech signal obtained at a time interval defined by a predetermined sample period, from which the synthesized speech can be retrieved, and from which the synthesized speech can be extracted. The audio consists of audio parameter frames provided at a predetermined audio rate;
Each of the speech parameter frames has a predetermined pitch period and a predetermined vocal tract model defined by a plurality of prediction coefficients, the plurality of prediction coefficients defining a predetermined vocal tract model for each frame of digital speech data. A predetermined number of blank values are added to , the digital audio data is changed from the first phase in the time domain to the second phase in the frequency domain by the operation of the first Fourier transform, and at that time, the predetermined number of blank values added are inverting the digital audio values of a plurality of prediction coefficients that are absorbed into the sequence of digital audio data signals and defining a synthesized audio spectrum and defining a predetermined vocal tract model for each frame of digital audio data in the frequency domain; and set the first reference factor P as the first integer,
This first integer is an integer equal to a selected number of predetermined points over the audio spectrum determined by the type of audio to be produced in the operation of the Fourier transform; A second integer whose size is unequal to the integer of simulating an adjustment in the sample period for digital audio data from a source of synthesized speech based on the difference between a second reference factor P and Q, the second reference factor Q provided by the second integer being P× is the closest even number to the product of F NEW /F OLD , where F NEW is the desired apparent sample frequency of the simulated sample period and F OLD is the sample frequency inherent in the given sample period. and modifying the predetermined vocal tract model of the digital audio data in response to a simulated adjustment in the sample period, the magnitude of the first integer providing the first reference factor P being the second reference factor. compresses the synthesized speech spectrum if the first integer providing the first reference factor P is greater than the second integer providing the second reference factor Q;
expand the synthesized speech spectrum and generate modified digital speech data as a digitized speech waveform that provides an impulse response value with the predetermined pitch period and amplitude data erased; For this purpose, the compressed or expanded synthesized speech spectrum is restored from the second phase in the frequency domain to the first phase in the time domain by a second Fourier transform operation, and the modified vocal tract model is used as a plurality of prediction coefficients. In providing the modified digital audio data, the digitized audio waveform is analyzed, and a plurality of prediction coefficients defining the modified vocal tract model are converted into reflection coefficients, which are represented by the reflection coefficients. generating an audio signal representative of human speech obtained from the modified digital speech data; converting the audio signal into an audible synthesized speech having altered speech characteristics from the synthesized speech obtained from the source of the synthesized speech; Method. 2. In the method according to claim 1, only the vocal tract model of the digital audio data is changed by a simulated adjustment in the sampling period of the digital audio data, and the predetermined pitch period of the source of the synthesized speech is changed. and a method in which the predetermined audio rate does not change. 3. With the method set forth in claim 2, the synthesized speech spectrum is compressed such that the magnitude of the first reference factor P is larger than the magnitude of the second reference factor Q. , a simulated adjustment in the sample period of the digital audio data from the source of the synthesized audio is applied to the first one from the sequence of spectral signals representing the digital audio data.
and a second reference factor P and Q by erasing a plurality of samples corresponding to the difference in magnitude between them, followed by generating modified digital audio data with altered audio characteristics. how to. 4. A method as claimed in claim 3, in which a plurality of samples are removed from the center of a spectral signal sequence in performing a simulated adjustment in the sample period of digital audio data from a source of synthetic audio. 5. A method as claimed in claim 3, in which a plurality of samples are removed from the end of a spectral signal sequence in performing a simulated adjustment in the sample period of digital audio data from a source of synthetic audio. 6. By the method described in claim 2, the synthesized speech spectrum is expanded such that the magnitude of the first reference factor P is smaller than the magnitude of the second reference factor Q. and a simulated adjustment in the sample period of the digital audio data from the source of the synthesized audio is applied to the sequence of spectral signals representing the digital audio data.
This is done by adding a plurality of blank values corresponding to the difference in magnitude between the reference factor Q and the first reference factor P, followed by a modified digital voice with modified audio characteristics. How to generate data. 7. In the method of claim 6, a plurality of blank values are added to the center of the spectral signal sequence in performing a simulated adjustment in the sample period of digital audio data from a source of synthesized speech. How to do it. 8. In the method of claim 6, a plurality of blank values are added to the ends of the spectral signal sequence in performing a simulated adjustment in the sample period of digital audio data from a source of synthesized speech. How to do it. 9. In the method according to claim 1, the first reference factor P is a number equal to the number of predetermined points determined by the type of speech to be produced in the inverse discrete Fourier transform, and the second reference factor Q is an even number of points in an inverse discrete Fourier transform, and the second Fourier transform operation is an inverse discrete Fourier transform. 10. In the method of claim 1, a sum of P-(N+1) blank values is added to the plurality of prediction coefficients prior to the first Fourier transform operation, where N is a predetermined voice. A method that is the number of predictive coefficients that define a road model. 11 A method for modifying the speech characteristics of synthesized speech to obtain a modified synthesized speech of any one of a plurality of speech sounds from a single given source of synthesized speech, defined at a predetermined sample period. a source of synthesized speech in digital audio format corresponding to each sample of an analog audio signal obtained at a time interval, from which synthesized speech can be extracted, said digital audio being provided at a predetermined speech rate; the voice parameter frames each having a predetermined pitch period and a predetermined vocal tract model defined by a plurality of prediction coefficients; A predetermined number of blank values are added to the plurality of prediction coefficients that define the road model, the digital audio data is changed from the first phase in the time domain to the second phase in the frequency domain by the operation of the first Fourier transform, and then the addition of blank values is performed. a predetermined number of blank values defined in the digital audio data signal are absorbed into the sequence of digital audio data signals and define a synthesized audio spectrum; inverting the digital audio value of the prediction coefficient and setting the first reference factor P as the first integer;
This first integer is an even number equal to the number of predetermined points over the speech spectrum determined by the modified synthesized speech to be produced in the operation of the inverse fast Fourier transform, and the first integer provides the first reference factor P. A second integer whose size is unequal to the integer 1 is set as the second reference factor Q, and the second integer has a power of 2 at an even point in the inverse fast Fourier transform, and the voice spectrum simulating an adjustment in the sample period for digital audio data from a source of synthesized speech based on the difference between said first and second reference factors P and Q; The first reference factor P, provided by an integer of 1, is the integer closest to the product of Q×F OLD /F NEW , where F OLD is the sample frequency containing the given sample period and F NEW is , is the desired apparent sample frequency of the simulated adjusted sample period, and modifies the predetermined vocal tract model of the digital audio data in response to the simulated adjustment in the sample period, for which the first reference factor P is compressing the synthesized speech spectrum if the magnitude of the first integer provided is greater than the second integer provided by the second reference factor Q; a second integer providing a second reference factor Q
expand the synthesized speech spectrum and generate modified digital speech data as a digitized speech waveform that provides an impulse response value with the predetermined pitch period and amplitude data erased; For this purpose, the compressed or expanded synthesized speech spectrum is returned from the second phase in the frequency domain to the first phase in the time domain by a second Fourier transform operation using inverse fast Fourier transform, and the modified vocal tract model is created. In providing modified digital voice data having a plurality of prediction coefficients, the digitized voice waveform is analyzed, and the plurality of prediction coefficients defining the modified vocal tract model are converted into reflection coefficients. , generating an audio signal representative of human speech obtained from modified digital speech data represented by a reflection coefficient, and converting said audio signal to said synthesized speech having altered speech characteristics from said synthesized speech obtained from said source of synthesized speech. How to convert to audible synthesized speech. 12. The method of claim 11, wherein only the vocal tract model of the digital audio data is changed by a simulated adjustment in the sampling period of the digital audio data, and the predetermined pitch period and A method that does not change the predetermined audio rate. 13. With the method described in claim 12, the synthesized speech spectrum is such that the first reference factor P is set larger than the second reference factor Q. A simulated adjustment in the sample period of the digital audio data from the compressed and synthesized audio source determines the difference in magnitude between the first and second reference factors P and Q from the sequence of spectral signals representing the digital audio data. and, following this, generate modified digital audio data with altered audio characteristics. 14. In the method of claim 13, a plurality of samples are removed from the center of the spectral signal sequence in performing a simulated adjustment in the sample period of digital audio data from a source of synthesized speech. Method. 15. In the method of claim 13, in performing a simulated adjustment in the sample period of digital audio data from a source of synthesized speech, a plurality of samples are removed from the end of the spectral signal sequence. How to do it. 16. With the method recited in claim 12, the synthesized speech spectrum is expanded such that the magnitude of the first reference factor P is smaller than the magnitude of the second reference factor Q. , a simulated adjustment in the sample period of digital audio data from a source of synthesized audio adds a second to the sequence of spectral signals representing the digital audio data.
This is done by adding a plurality of blank values corresponding to the difference in magnitude between the reference factor Q and the first reference factor P, followed by a modified digital voice with modified audio characteristics. How to generate data. 17. In the method of claim 16, in performing a simulated adjustment in the sample period of digital audio data from a source of synthesized speech, a plurality of blank values are located in the center of the spectral signal sequence. How to add. 18. In the method of claim 16, in performing a simulated adjustment in the sample period of digital audio data from a source of synthesized speech, a plurality of blank values are provided at the ends of the spectral signal sequence. How to add. 19. The method of claim 11, wherein a sum of P-(N+1) blank values is added to the plurality of prediction coefficients prior to the first Fourier transform, where N is a specific vocal tract model. is the number of predictive coefficients that define the method.
JP58149095A 1982-08-16 1983-08-15 Method and apparatus for altering sound feature of synthesized voice Granted JPS5949599A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US40853582A 1982-08-16 1982-08-16
US408535 1982-08-16

Publications (2)

Publication Number Publication Date
JPS5949599A JPS5949599A (en) 1984-03-22
JPH0525120B2 true JPH0525120B2 (en) 1993-04-09

Family

ID=23616674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58149095A Granted JPS5949599A (en) 1982-08-16 1983-08-15 Method and apparatus for altering sound feature of synthesized voice

Country Status (1)

Country Link
JP (1) JPS5949599A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2746424B2 (en) * 1989-08-08 1998-05-06 株式会社フジクラ Distributed strain sensor

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5011704A (en) * 1973-06-04 1975-02-06
JPS5685799A (en) * 1979-12-14 1981-07-13 Sony Corp Voice pitch converter
JPS56150799A (en) * 1980-04-24 1981-11-21 Casio Computer Co Ltd Voice synthesizer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5011704A (en) * 1973-06-04 1975-02-06
JPS5685799A (en) * 1979-12-14 1981-07-13 Sony Corp Voice pitch converter
JPS56150799A (en) * 1980-04-24 1981-11-21 Casio Computer Co Ltd Voice synthesizer

Also Published As

Publication number Publication date
JPS5949599A (en) 1984-03-22

Similar Documents

Publication Publication Date Title
US5113449A (en) Method and apparatus for altering voice characteristics of synthesized speech
US4624012A (en) Method and apparatus for converting voice characteristics of synthesized speech
JP3294604B2 (en) Processor for speech synthesis by adding and superimposing waveforms
JP2002328695A (en) Method for generating personalized voice from text
NZ243731A (en) Synthesising human speech
US20020049594A1 (en) Speech synthesis
US5381514A (en) Speech synthesizer and method for synthesizing speech for superposing and adding a waveform onto a waveform obtained by delaying a previously obtained waveform
JPH1097267A (en) Method and device for voice quality conversion
JPH0641557A (en) Method of apparatus for speech synthesis
JPH0525120B2 (en)
JPH0580791A (en) Device and method for speech rule synthesis
JPH09179576A (en) Voice synthesizing method
JP2679623B2 (en) Text-to-speech synthesizer
JP3241582B2 (en) Prosody control device and method
JPS5880699A (en) Voice synthesizing system
JP2001100777A (en) Method and device for voice synthesis
JPH11161297A (en) Method and device for voice synthesizer
JP2586040B2 (en) Voice editing and synthesis device
Khudoyberdiev The Algorithms of Tajik Speech Synthesis by Syllable
JPH0464080B2 (en)
JP3133347B2 (en) Prosody control device
Javidan et al. Concatenative Synthesis of Persian Language Based on Word, Diphone and Triphone Databases
JPH0272399A (en) Speech rule synthesis system
JP2020118950A (en) Speech processing device and speech processing method
TW322567B (en) Base frequency synchronized linear predicted phonic synthesizer