JPS60102697A - 記述メッセージコードと音声メッセージコードを結合する音声符号化方法 - Google Patents

記述メッセージコードと音声メッセージコードを結合する音声符号化方法

Info

Publication number
JPS60102697A
JPS60102697A JP59216004A JP21600484A JPS60102697A JP S60102697 A JPS60102697 A JP S60102697A JP 59216004 A JP59216004 A JP 59216004A JP 21600484 A JP21600484 A JP 21600484A JP S60102697 A JPS60102697 A JP S60102697A
Authority
JP
Japan
Prior art keywords
format information
encoded
message
speech
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59216004A
Other languages
English (en)
Other versions
JP2885372B2 (ja
Inventor
ジエラール ビクトル ベンバサ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPS60102697A publication Critical patent/JPS60102697A/ja
Application granted granted Critical
Publication of JP2885372B2 publication Critical patent/JP2885372B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 1産業−1−の利用分野〕 本発明は音声の符号化に関するものである。
[従来の技術] 多くの音声符号化システトにおlJlては9話声による
言語を表わす信号の符号化は、該言語をディジタル的に
記憶させることにより、後刻これを伝送することが可荒
となるように、あるり1(マある種の特定の装置を用い
てローカルな再生か可能となるように符号化される。
これらメンつの場合、伝送チャンネルの、<ラノータと
の対応をとったり、広7Jtなボキャブラ1ノーを記憶
させることかできるようにするために(よ、ピントレー
トをきわめて低くする必要かある。
この場合、ピットレーI・を低くするにはテキストから
の音声合成を行なえばよく、かくて得られたコー+lf
テキス)・自体を綴学的に表現したものとなり、これに
より50ビ・ント/秒のビ・ント°レートを得ることが
できる。
このようにして符号化した情報を処理するシステムに用
いるデコーダを単純化するためにl±。
テキストから得られる音韻や音律、マーカのシーケンス
によりコードを構成すればよいが、こうするとピットレ
ーI・自体が若干増大してしまう結果となる。 また、
このようなf法により再生した音fハは、いかにも不自
然で、@善の場合でも口調が勇しく申請となるのが避け
られない。
こうした欠点を招来する1ユたる理由は、上述のような
処理法に伺随する「人工[的jなイントネーションにあ
るが、これはイントネーションと1,1う現象の複雑さ
、すなわち、イントネーションなるものが言語学」−の
規則に従うものであることが惑星であるうえに、各人の
性格上の側面や話者のその時々の精神状態をも反映する
ものであることを考慮すると、まことにもつともなこと
でitある。 かくて現吟点では、いわば「肉声」的な
イントネーションをあらゆる芹語に与えるのかできるよ
うになるのがいつのことか予測するのは困難である。
他力、ヒントレート れに伴って符号化処理上の問題が派生する。
高ビットレートによる符号化処理にはそれなりの効果が
あるが,使用するメモリの所要記憶容量を実用レベル以
上としなければならなl/′IとU)う欠点がある。
本発明は音声合成方法において,ビ・ントレートを比較
的低レベルとしつつも,人間の肉声の自然なイントネー
ションに近いイントネーションをもって音声の再生を行
なうことができるよう1こすることにより,、hJのよ
うな難点を解消しようとするものである。
[目的] 故に本発明の1」的は,符号化すべきメ・ンセーンの文
書形式情報の符号化を行なうようにした音声符号化方法
において,該メンセージの音声形式++’1報の符号化
を行ない,かつ該文書形式情報のコードに該音声形式情
報から取り出したイントネーションパラメータのコード
を組み合わせるべくした音声符号化方法を提供するもの
である。
本発明において文書形式のメンセージを用いる目的は,
該メツセージにおける音声上の限界値か既知である音響
モデルを生成することにあり。
これは下記の音声合成技術を適宜選択して採用すること
により実行することができる。すなわち。
1)グーえられたメツセージの各音韻に対応する各音響
セグメントを、音響学ないし発声学]−の規則を用いて
得るようにした。いわゆる規則による合成を、該音韻が
実際に発声される前後関係により、その音韻の音響学的
パラメータを5−19することにより行なう音声合成力
法。
2) rO,V、E、 II Syr+thesis 
JG、 777 l・外、 Strategy Pro
c、 of 5peech Comm、 Sem1na
r。
ストンクホルム、IH2年。
3 ) rSpeech 5ynthesis by 
Ru1e、、1 、 L、R,ラビナー、 An Ac
coustic DoIIlain Approach
、 Be1l 5yste+o Tech、J、47.
 17−37頁、19811年。
4) rA Model for Synthesiz
ing 5peech JRule J 、 L、R,
ラビナー、1.E、E、E、 Trans、 onAu
dio and Electr、 AU 17.7−1
3頁、 1989年5 ) rsLructure o
f a PhonoloHical Ru1e Com
ponent for a 5ynthesis by
 Ru1e Prol<ramJ 。
D、H,クラ7 ) 、1.E、E、E、 Trans
、 ASSP−24,391−398頁、1978年。
6)発音単位の連結による合成で、この場合発音単位は
diphonと呼ばれる調音結合による異音とするのが
普通。(たとえばrTechnical Analog
Synthesis of Continuous 5
peech Usingthe Diphone Me
t、hod of S+4111ant Assemb
lyJ 、 N、 Rテ1クスンおよびH,r]、 マ
クセイ、1.E、E、E、 Trans、 ALI−1
fi、 40−50 頁、1988年)。
7 ) rs5nLhesiSpar Diphone
 et Traitement de la Pros
odieJ 、 Fエメラール+JiA文学大学第3期
提出論文、グルノープル、 1977年。
発音単位どしては異音としても (たとえは[Text
 105peech IJsing A11ophan
e StringingJ 。
クン・シャン−リン外、平置節としても (たとえばr
A Phonetic (lictionayy fo
r Demisy日abic 5peech 5ynt
hesis J 、 M、 J、 −y 、、チ、Pr
oc of Jl:ASSP、 565頁、 1980
年)、あるいはその他適当な単位としてもよい (たと
えばr Application de la DiS
tinction Trait−Indice−Pro
priete a Ia C。
n5truction d’un Logiciel 
pour la 5ynthese J、 5peec
h Comm、 J、第2巻第2−3号、 141−1
44頁、 1983年7月。
発音単位は、該単位や文書人力の性質の関数としてそれ
なりに高級な規則に従って選択されるしかして1文書メ
ンセージはその規則的正射形式で与えるか、あるいはホ
ノロジック形式で与えることができる。 正射形式の場
合は適当なアルゴリズムを用いてホノロジンク形式に転
換したり (rFas+、 Text to 5pee
ch Algoritbms for Esperan
t、 5panish、 Italian、 Ru5s
ian And EnglishJ B、 A、シャー
ウォート、Int、 J、 Man MachineS
tudies、 10,889−892頁、 1978
年)、あるいは直接発声単位の集合に変換することがで
きる。
メンセージの文書形式情報は、上述のような公知の処理
技術をいずれか選択してその符5号化を行ない、対応す
る話声メツセージの符号fヒ処理は下記の方法によって
行なう。
まず、メツセージのざ声形式情報をディジタル化した後
これを分析して、該メツセージの文書形式情報から生成
された信号と同様の音声信号を音響学的に表わす。 な
お、−1−記のメツセージの文書形式情報を以下合成形
式情報と呼ぶ。
スペクトルパラメータはフーリエ変換により得ることが
できるか、より簡便には線型予測分析法によりめるこが
できる( rLinear Predicti。
n of 5pe8ch J J、 D、 −y−ケル
およびA、 )1.グレイ、シュプリンカー◆フェルラ
ーク(ベルリン)、 1976年)。 このようにして
得たパラメータは+ii+記合成形式情報と音声形式情
報の各フレーム間のスペクトル距離を計算するのに適し
た形式で記憶する。 すなわち、たとえばメンセージの
合成形式情報を線型子A11l法で分析した各セグメン
)・のi!に結により得た場合は、音声形式情報も線型
子11111法を用いて分析することができる。
ti l 予All+ パラメータは容易にスペクトル
パラメータ形式に変換することか百■能であり(前掲」
、D、マーケルおよびA、 H,クレイ)、2組のスペ
クトル係数の集合間のユークリンド距離により、振幅の
小さなベクトル間の距離を知ることができるまた。音声
形式情報のピッチは、各種公知の音声信号ピッチ決定ア
ルゴリズムを適宜選釈して用いることによりめる( r
 A Comparative Performanc
e 5tudy of 5everal Pitch 
Detection Algorithms J L、
 A、ラビナー外、 IEEE Trans、 Acc
ust、 5peech and Signal Pr
ocess Volume、 ASSP24、399−
417頁、 197f1年10月およびrPost P
rocessing Techniques for 
Voice Pitch Trackers JB、セ
フレストおよびG6ポデインI・ン、 Procs。
of the ICASSP、172−175頁、パリ
、 1982年)ついで、スペクトル距離に基くタイナ
ミンクプログラミング法を用いて、音声認識の分野では
今日他界的に占典的となっている方法で1文書および合
成形式情報を万ニいに比較する( r Dynamic
Programming Algorithm Opt
imization for 5poken Word
 RecognitionJ迫LLおよび千葉、 IE
EE Trans、 ASSρ2G−1,1978年2
月)この技術は、メツセージの文書および合成形式情報
間にエレメントどうしの対応(ないし投影)をとって、
これらの間゛の全スペクI・ル距離を岐小にするもので
あるところから、クイナミンクタイムワーピンク法とも
呼ばれる。
図面中、第1図の横軸はメツセージの合成形式情報の発
声単位を、また縦軸は同じメツセージの音声形式情報を
それぞれ示すもので、該メンセージのセグメンI・はそ
れぞれ合成形式情報の発声中イx7に対応する。
合成形式情報の持続期間を、音声形式情報の持続期間と
対応させるには各発声単位の期間を調節して、音声形式
情報に対応する各セグメントの期間と等しくなるように
すれば足りる。 このようにして、各発声単位の期間を
調節した後では、上記のように合成形式情報と音声形式
情報の持続期間か等しくなっているため1発声単位の各
フレームのピッチを音声形式情報の対応するフレームと
等しくするのみで1合成形式情報のピッチを音声形式情
報のピッチと等しくすることができるついで、各発声単
位および音声形式情報のピン手等高線にあてはまる期間
ワーピングでプロンディを構成する。
この時点で該プロンディの工゛/コードをチェックする
。 プロンディを符号化する手法は忠実度とビットレー
トの必要条件をどの程度互いに歩み寄らせるかにより、
異なったものとなる。 たとえば、符号化をきわめて正
確に行ないたい場合は次のような方法をとる。
すなわち、まず9発声単位の各フレームに対して、対)
厄、する最適通路を垂直、水平、斜方向のいずれかにと
る。 該通路を垂直とした場合は。
音声形式情報の当該フレームと対応する部分が。
一定数のフレームに含まれる最適通路の長さに等しい分
だけ伸υ・ることとなり、また、水平とした場合は9通
路の当該部分の下方の発声単位のフレームをすべて該通
路の長さに等しい分だけ短くしなければならない、 さ
らに1通路を斜方向とした場合は1発声単位に対応する
各フレームの長さを一定に維持することが必要である。
タイムワーピングを適宜局部的に抑制することにより、
水平、垂直の通路を無理磨く3個のフレームに限定する
ことができ、この場合には発声中位の各フレームにつき
期間ワーピングを3ヒトて符号化することができる。
才だ、音声形式情報の各フレームのピッチは0次または
1次の補間を行なうことにより1発声単位の各対応フレ
ームにコピーすることかできるピンチ値は6ビツトで効
率よく符号化することができ、このような符号化の結果
、プロンテイのフレームにつき9ビンl’となる。 仮
に1秒あたりの平均フレーム数が40フレームであると
すると9発声コートを含めてヒンl□レートは約400
ビア]・7秒となる。
」二連の方法よりも簡潔に符号化を行ないたい場合は、
期間ワーピングとピッチ等高線の両方を限られた数の文
字を用いて符号化載ればよい このようにした場合のパ
ターンは、数個の発声単位を含むセグメントにより識別
することができる。
このようなセグメントを選び出すのには音節が便利であ
る。 音節は実際上次のように定義されている。 すな
わち。
[(子音クラスタ)】 母音【(子音クラスタ)1[]
の内容は任意に設定される。
数個の発声単位に対応する音節およびその両端は、メツ
セージの文書形式情報から自動的に決定され、この決定
に基いて音声形式情報における音節の両端を決定する。
 ついで、1組の特徴的な音節ピッチ等高線を代表パタ
ーンとして逮択することにより、これら等高線の各々を
音声形式情報における音節の実際のピッチ等高線と比較
することができ、かくて、真のピンチ等高線にもつとも
近いピッチ等高線が選定される。 すなわち。
たとえば32文字ある場合は、1音節あたりのピンチコ
ードは5ビツトとなる。 また持続期間については、各
音節はに述の記載により理解されるように3個のセグメ
ントに分割される。
期間ワーピング係数は各領域について公知の方法につき
説明したようにしてこれを計算する。
すなわち、それぞれ3個の期間ワーピンク係数からなる
複数組を、1組の文字群中からもつとも近いものを選び
出すことにより、ある有限数に限定することができる。
 その結果、32文字の場合にはやはりピッチコードは
1音節あたり5ビ・ントとなる。
これまでに述べてきた方式はプロソデイ用にl¥f節に
つき10ビツトを必要とするもので、このためには発音
コードを含めて秒あたり都合120 ビ゛ットか必要と
なる。
第2図に本発明による方法を用いた音声符号化装置の概
略を示す、 この装置の入力は図外のマイク出力で、こ
の入力は線型予測符号化分析ド1路2に接続されている
。 この回路2の出力は適応アルコリスム演算回路3に
接続しである。
回路3の他の入力は異音辞書としてのメモリ4の出力に
接続されている。さらに、第3の入力5を介して適応ア
ルゴリズム演算回路3はシーケンス形式の異音を入力す
る。 この回路3は入力した異音の持続期間およびピッ
チを含む符号化メンセージを出力する。
フレーズ(句)のプロンディを異音類に割り当てるため
には、線型予測符号化方式により該フレーズを前記回路
3に登録してその分析を行なうついで5回路3内の線型
予測符号化フレーズと異音を比較して、そのフレーズか
ら異音の持続期間やピンチ等のプロンディ情報を取り出
し、前記異音類に割り当てる。 この場合、マイクロホ
ンから第2図の回路に入力するデータレートが例えばH
QQQヒ−/1・7秒であるとすると、この回路の出力
で利用しうる対応符号化メツセージのピッ)・レートは
120 ビット/秒となるこれらビットの配分は次の通
りである。
■)異音/音部の指定に5ビン) (32(+!j)2
)持続期間に3ビツト(7値) 3)ピンチに5ヒツト(7値) かくて、l音韻あたり計13ピントとなり、1秒あたり
の音韻数が9ないしlO程度であることを考慮すれば、
120秒のピットレートが得られることとなる。
第3図に示す回路は第2図の回路で生成した信号の符号
化回路である。 この第3図の装置l±連結アルゴリズ
ム生成回路6を有し、この回路の一方の入力には120
 ピント7秒で符号イヒされたメンセージか入力し、他
方の入力+1異音辞書71こt妾続されている。 さら
に9司路6の1jノjI士たとえばTMS 5200A
等により構成される音声合成1司路8の人力に接続され
、この合成回路8の114ツノ1士スピーカ9に接続さ
れている。
前記回路6からは、 1800ヒ、717秒のヒ゛1.
トレードをイ4する線型予測符号化メンセージカ)il
j j)され、このメツセージは前記合成回路8により
スピーカ9で再生可能のヒ゛71−レート、すなわち、
84000ヒント/秒のメンセージに変換される。
なお、3話が英語の場合には、上記異音l±2ないし1
5フレーム、平均して4.5フレームの長さを有する異
音128個を含むものが開発されてL+”る。
フランス語の場合は、異音連結力式Cま英HAの場合と
異り、250の安定状態およびこれと同数の過波状態(
トランジション)を含む異音辞書を使用する。 ここで
、補間領域は、英語の異音辞書中tこおけるトランジシ
ョン状態をより正しく抽出す5場合に用いられる。
さらに、補間領域は各フレーズの始端および終端のエネ
ルギのレギュラリセーションにも用いる。 また、12
0 ピント7秒のビットレートを得るため、持続期間情
報用に1音韻あたり3ヒ、トを確保する。持続期間コー
ドはもとの異音におけるフレーム数に対する変更後のフ
レーム数の比として与えられるが、この符号化比は異音
の長さが1ないし15フレームの間で変化する英語の異
音に必要なものである。 他方、フランス語の場合は、
トランジション状態および安定状態を合わせて4ないし
5フレームの長さであるので、その変更後の長さは2な
いし9フレームとすることができ、また持続期間コード
は安定状態とトランジション状態を合わせた全体のフレ
ーム数とすることができる。
[効果] 以北の記載より理解されるように2本発明は、従来にく
らべて低いビットレートで音声の符号化を行なうことを
可能とするもので2文書情報ラインすなわち映像のほか
に2合成デバイスにより再生6丁能の対応符号化テキス
トを含む頁を有する文書に特に好適に適用しうるもので
ある。
さらに2本発明は本願出願人の開発になるビデオテキス
トシステム、特に、音声メンセージのオーディジョンや
出願人名義のフランス特許出願第8309194号に記
載のような図形メンセージの映像化に用いる装置にも好
適に使用しうるちのである。4、図面の簡単な説明 第1図は本発明により符号化するメソセージのに声形式
情報および合成形式情報間の最適対応通路を示す図、第
2図は本発明による方法を用いた音声符号化装置を示す
ブロック図、第3図は本発明により符号化したメツセー
ジの復号化を行なう装置を示すブロック図である。
219.線型予測符号化分′折回路(音声形式%式%) 30. 適応アルゴリズム演算回路(組合せコード生成
手段)。
42.、メモリ。
609.連結アルゴリズム生成回路 (符号化信号生成
手段)。
700.異音辞書。
898.音声合成回路。
918.マイクロホン(音声再生手段)。
出願人 テキサスインスツルメンツ・ インコーポレイテット

Claims (9)

    【特許請求の範囲】
  1. (1) 符号化すべきメツセージの文書形式情報の省す
    化を行なう音声符号化方法において、さらに前記メンセ
    ージの音声形式情報の符号化を行ない、該音声形式情報
    から取り出したイントネーションパラメータのコードと
    前記文書形式情報のコートを結合させるようにしたこと
    を特徴とする音声符号化方法。
  2. (2) 前記文書形式情報を用いて前記メンセージのセ
    グメ〉′)・要素を生成させるようにした特許請求の範
    囲第1項に記載の音声符号化方法。
  3. (3) +iii記符号化すべきメンセージの音声形式
    情報を、まず分析した後、前記文書形式情報から得た連
    結セグメントと比較することにより、音声形式情報およ
    び文書形式情報の間の正しい時間整合を決定するように
    した特許請求の範囲第1項または第2項に記載の音声符
    号化方法。
  4. (4) 辞書内に記憶させた短しへ音声セグメントの連
    結によって前記文書形式情報の要素を生成させ、さらに
    、グイナミンクプログラムアルゴ1ノス゛1葛を用いて
    前記音声形式情報を前記連結セグメン′トと比較するよ
    うにした特許請求の範g目第3頃に3己・戒の音声符号
    化方法。
  5. (5) 前記タイナミンクプログラ2. +こよる演鎌
    、力5スペクトル距離に基づいて行なわれるようにした
    特許請求の範囲第4項に記載の音声省略イヒノjノ去。
  6. (6) 符号化すべきメンセージの音声形式情報μの分
    析および符号化を行なう手段(2)と、力1〈て9斗ら
    れた音声形式情報コートに対19、する文書メ、セージ
    のコードを該音声形式情報コードと結合させ、省は化さ
    れtこメンセージの異音のキ与統期間およびピッチを含
    む組合せコーI・を生成させる丁1+ C3)とを含む
    ことを特徴とする特許請求の範9i第1項ないし第5項
    のいずれかに記載の音声93号イしノj法を実施する装
    置、
  7. (7) 前記符号化すべきメ、ツセー・ンの音声形式情
    報の分析および符号化を行なう手段力く、り14斤およ
    ひ線型予測符号化回路を含んでなる特許請求の範囲第6
    項に記載の音声符号化装置。
  8. (8) 前記音声形式情報コードを9文書形式情報コー
    ドと結合させる手段が、適応アルゴリズム生成手段を含
    み、この適応アルゴリズム生成手段を異音辞書 (4)
    と関連させて前記文書形式情報の要素を連結させること
    により音声合成を行なうようにしてなる特許請求の範囲
    第5項ないし第7項のいずれかに記載の音声符号化装置
  9. (9) 連結アルゴリズムを生成して、前記メンセージ
    のおよび音声形式情報のコードならびに関連する異音辞
    書(7)に含まれるデータの組合せから得たコードから
    線型予測方式により符号化した信号を生成させる手段 
    (6)と、音声再生手段(9)と関連させた音声合成方
    法(8)とからなることを特徴とする特許請求の範囲第
    1頃ないし第5項のいずれかに記載の方法により符号化
    されたメツセージの複号化装置。
JP59216004A 1983-10-14 1984-10-15 音声符号化方法 Expired - Lifetime JP2885372B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US8316392 1983-10-14
FR8316392A FR2553555B1 (fr) 1983-10-14 1983-10-14 Procede de codage de la parole et dispositif pour sa mise en oeuvre
FR8316392 1983-10-14

Publications (2)

Publication Number Publication Date
JPS60102697A true JPS60102697A (ja) 1985-06-06
JP2885372B2 JP2885372B2 (ja) 1999-04-19

Family

ID=9293153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59216004A Expired - Lifetime JP2885372B2 (ja) 1983-10-14 1984-10-15 音声符号化方法

Country Status (5)

Country Link
US (1) US4912768A (ja)
EP (1) EP0140777B1 (ja)
JP (1) JP2885372B2 (ja)
DE (1) DE3480969D1 (ja)
FR (1) FR2553555B1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0671105U (ja) * 1993-03-25 1994-10-04 宏 伊勢田 複数の錐刃を収納した連接錐
US5864814A (en) * 1996-12-04 1999-01-26 Justsystem Corp. Voice-generating method and apparatus using discrete voice data for velocity and/or pitch
US5875427A (en) * 1996-12-04 1999-02-23 Justsystem Corp. Voice-generating/document making apparatus voice-generating/document making method and computer-readable medium for storing therein a program having a computer execute voice-generating/document making sequence

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0632020B2 (ja) * 1986-03-25 1994-04-27 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声合成方法および装置
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
US5642466A (en) * 1993-01-21 1997-06-24 Apple Computer, Inc. Intonation adjustment in text-to-speech systems
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
SE516526C2 (sv) * 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US5995924A (en) * 1997-05-05 1999-11-30 U.S. West, Inc. Computer-based method and apparatus for classifying statement types based on intonation analysis
US5987405A (en) * 1997-06-24 1999-11-16 International Business Machines Corporation Speech compression by speech recognition
US6246672B1 (en) 1998-04-28 2001-06-12 International Business Machines Corp. Singlecast interactive radio system
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
FR2786600B1 (fr) * 1998-11-16 2001-04-20 France Telecom Procede de recherche par le contenu de documents textuels utilisant la reconnaissance vocale
US6144939A (en) * 1998-11-25 2000-11-07 Matsushita Electric Industrial Co., Ltd. Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
US6230135B1 (en) 1999-02-02 2001-05-08 Shannon A. Ramsay Tactile communication apparatus and method
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6625576B2 (en) * 2001-01-29 2003-09-23 Lucent Technologies Inc. Method and apparatus for performing text-to-speech conversion in a client/server environment
JP3895758B2 (ja) * 2004-01-27 2007-03-22 松下電器産業株式会社 音声合成装置
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20090132237A1 (en) * 2007-11-19 2009-05-21 L N T S - Linguistech Solution Ltd Orthogonal classification of words in multichannel speech recognizers
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
DE602008000303D1 (de) * 2008-09-03 2009-12-31 Svox Ag Sprachsynthese mit dynamischen Einschränkungen
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
WO2012134877A2 (en) * 2011-03-25 2012-10-04 Educational Testing Service Computer-implemented systems and methods evaluating prosodic features of speech
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5919358B2 (ja) * 1978-12-11 1984-05-04 株式会社日立製作所 音声内容伝送方式
US4337375A (en) * 1980-06-12 1982-06-29 Texas Instruments Incorporated Manually controllable data reading apparatus for speech synthesizers
US4685135A (en) * 1981-03-05 1987-08-04 Texas Instruments Incorporated Text-to-speech synthesis system
EP0059880A3 (en) * 1981-03-05 1984-09-19 Texas Instruments Incorporated Text-to-speech synthesis system
US4731847A (en) * 1982-04-26 1988-03-15 Texas Instruments Incorporated Electronic apparatus for simulating singing of song
EP0095139A3 (en) * 1982-05-25 1984-08-22 Texas Instruments Incorporated Speech synthesis from prosody data and human sound indicia data
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
FR2547146B1 (fr) * 1983-06-02 1987-03-20 Texas Instruments France Procede et dispositif pour l'audition de messages parles synthetises et pour la visualisation de messages graphiques correspondants

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0671105U (ja) * 1993-03-25 1994-10-04 宏 伊勢田 複数の錐刃を収納した連接錐
US5864814A (en) * 1996-12-04 1999-01-26 Justsystem Corp. Voice-generating method and apparatus using discrete voice data for velocity and/or pitch
US5875427A (en) * 1996-12-04 1999-02-23 Justsystem Corp. Voice-generating/document making apparatus voice-generating/document making method and computer-readable medium for storing therein a program having a computer execute voice-generating/document making sequence

Also Published As

Publication number Publication date
US4912768A (en) 1990-03-27
DE3480969D1 (de) 1990-02-08
EP0140777A1 (en) 1985-05-08
JP2885372B2 (ja) 1999-04-19
FR2553555A1 (fr) 1985-04-19
FR2553555B1 (fr) 1986-04-11
EP0140777B1 (en) 1990-01-03

Similar Documents

Publication Publication Date Title
JPS60102697A (ja) 記述メッセージコードと音声メッセージコードを結合する音声符号化方法
US11295721B2 (en) Generating expressive speech audio from text data
US5153913A (en) Generating speech from digitally stored coarticulated speech segments
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
Lee et al. A very low bit rate speech coder based on a recognition/synthesis paradigm
JPH05197398A (ja) 音響単位の集合をコンパクトに表現する方法ならびに連鎖的テキスト−音声シンセサイザシステム
JP3554513B2 (ja) 音声合成装置とその方法及び音声合成プログラムを記録した記録媒体
JP3081300B2 (ja) 残差駆動型音声合成装置
JPH11249676A (ja) 音声合成装置
JPS5914752B2 (ja) 音声合成方式
JPS6187199A (ja) 音声分析合成装置
Benbassat et al. Low bit rate speech coding by concatenation of sound units and prosody coding
Butler et al. Articulatory constraints on vocal tract area functions and their acoustic implications
May et al. Speech synthesis using allophones
JP2023139557A (ja) 音声合成装置、音声合成方法及びプログラム
KR920003934B1 (ko) 음성합성기의 복합코딩방법
Yea et al. Formant synthesis: Technique to account for source/tract interaction
Goudie et al. Implementation of a prosody scheme in a constructive synthesis environment
Randolph et al. Synthesis of continuous speech by concatenation of isolated words
JP2001166787A (ja) 音声合成装置および自然言語処理方法
Sorace The dialogue terminal
Venkatagiri Digital speech technology: An overview
Yousif et al. Text-to-Speech Synthesis State-Of-Art
JPH0552520B2 (ja)