JP2885372B2 - 音声符号化方法 - Google Patents
音声符号化方法Info
- Publication number
- JP2885372B2 JP2885372B2 JP59216004A JP21600484A JP2885372B2 JP 2885372 B2 JP2885372 B2 JP 2885372B2 JP 59216004 A JP59216004 A JP 59216004A JP 21600484 A JP21600484 A JP 21600484A JP 2885372 B2 JP2885372 B2 JP 2885372B2
- Authority
- JP
- Japan
- Prior art keywords
- encoded
- message
- speech
- sequence
- version
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000002131 composite material Substances 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 abstract description 9
- 230000006978 adaptation Effects 0.000 abstract 1
- 239000011295 pitch Substances 0.000 description 21
- 230000015572 biosynthetic process Effects 0.000 description 17
- 238000003786 synthesis reaction Methods 0.000 description 17
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は、音声符号化方法に関する。
[従来の技術とその課題]
多くの音声符号化システムにおいては、話された言語
(話言葉)を表わす信号は、ディジタル的に記憶される
ように符号化されることにより、後に伝送され得るよう
に、または、ある種の特定の装置によってローカルに再
生され得るようにされる。 これら2つの場合において、伝送チャンネルのパラメ
ータとの対応をとるために、または、非常に広範なボキ
ャブラリーを記憶させることができるようにするため
に、ビットレートを極めて低くする必要がある。 低いビットレートは、文書(テキスト)からの音声合
成を利用することによって得られる。得られた符号(コ
ード)は文書自体の正射影的表現であり得るため、50ビ
ット/秒のビットレートを得ることができる。 このようにして符号化された情報を処理する装置に用
られるデコーダを簡単化するためには、文書から得られ
る音素(phoneme)や韻律マーカ(prosodic marker)の
コード・シーケンスから符号を構成すればよいが、こう
すると、ビットレートが若干高くなる。また、このよう
な手法により再生された音声は、不自然で、最善でも著
しく単調となる。 こうした欠点を招く主な理由は、そのような処理で得
られる「人工的な」イントネーションである。このこと
は、イントネーション現象の複雑さ、すなわち、イント
ネーション現象が言語学上の規則に従う必要があるほ
か、話し手の個性および精神状態を反映すべきものであ
ることを考慮すると、非常に理解できる。 現時点では、言語の「人間的な」イントネーションを
与え得る韻律規則をすべての言語に対して利用できるよ
うになる時を予測することは困難である。 非常に高いビットレートとなる符号化処理も存在す
る。このような符号化処理は、満足な結果は得られる
が、その使用がしばしば非実用的であるような大きな容
量を有するメモリが必要になるという欠点がある。 本発明は、肉声の自然なイントネーションにかなり近
いイントネーションを有する音声の再生を比較的低いビ
ットレートで行うことができる音声合成処理を提供する
ことによって、これらの困難性を解消しようとするもの
である。 [課題を解決するための手段] 本発明の目的は、符号化すべきメッセージの文書版の
符号化をすることから成る音声符号化方法であって、同
じメッセージの音声版を符号化することと、文書版のコ
ードおよび音声版から取り出されたイントネーション・
パラメータのコードを組合せることと、を含むことを特
徴とする音声符号化方法を提供することにある。 本発明の音声符号化方法は、 符号化されたディジタル音声情報を聴取可能な合成音
声として再生する際の音声品質を維持したまま、低下さ
れた音声データレートで、人の音声を聴取可能な合成音
声として表現するようにディジタル音声情報を符号化す
る音声符号化方法であって、 a)符号化されるべきメッセージの文書版を表す複数の
ホノロジカルな言語単位の形で第1の入力データ・シー
ケンスを符号化して、前記符号化されるべきメッセージ
の前記文書版に対応する第1の符号化された音声シーケ
ンスを与えるステップと、 b)対応する複数のホノロジカルな言語単位およびイン
トネーション・パラメータの形で前記文書版が関係する
前記メッセージの音声版から得られた第2の入力データ
・シーケンスを符号化するステップであって、前記ホノ
ロジカルな言語単位が前記第1の符号化された音声シー
ケンスの前記ホノロジカルな言語単位と同等であり、そ
れによって、一部として前記音声のイントネーション・
パラメータを含むとともに前記符号化されるべきメッセ
ージの前記音声版に対応する第2の符号化された音声シ
ーケンスを与えるステップと、 c)前記音声の前記イントネーション・パラメータを含
む前記符号化されるべきメッセージの前記音声版に対応
する前記第2の符号化された音声シーケンスの前記一部
を、前記符号化されるべきメッセージの前記文書版に対
応する前記第1の符号化された音声シーケンスと結合す
るステップと、 d)前記第1の符号化された音声シーケンスと前記第2
の符号化された音声シーケンスの前記一部に含まれる前
記音声の前記符号化されたイントネーション・パラメー
タとの結合から、前記メッセージに対応する複合符号化
音声シーケンスを生成するステップと、を具備する。 ここで、前記メッセージの前記文書版から前記符号化
されるべきメッセージの複数のセグメント要素を与える
ステップであって、該複数のセグメント要素がそれぞれ
1以上のホノロジカルな言語単位を含むステップと、 前記複数のセグメント要素を含む前記第1の符号化さ
れた音声シーケンスを与える際に、前記複数のセグメン
ト要素に従って前記メッセージの前記文書版を符号化す
るステップと、をさらに具備してもよい。 また、前記メッセージの前記音声版から得られた前記
第2の入力データ・シーケンスを符号化するステップ
が、 前記第2の符号化された音声シーケンスを与える際
に、前記第2の入力データ・シーケンスを分析して、該
第2の入力データ・シーケンスに対応する前記ホノロジ
カルな言語単位および前記イントネーション・パラメー
タを得るステップと、 前記メッセージの前記文書版に対応する前記第1の符
号化された音声シーケンスと前記メッセージの前記音声
版に対応する前記第2の符号化された音声シーケンスと
を比較するステップと、 前記比較に応じて、前記第1の符号化された音声シー
ケンスと前記第2の符号化された音声シーケンスとの間
の適正な時間整合を決定するステップと、を含んでもよ
い。 さらに、前記複数のセグメント要素が、個々の短い音
声セグメントとして辞書に格納されているホノロジカル
な言語単位をチェーン状につなぎ、ダイナミック・プロ
グラミングによって前記メッセージの前記音声版を前記
チェーン状につながれたホノロジカルな言語単位と比較
することによって与えられてもよい。 [実施例] 第2図に、本発明による音声符号化方法を用いた音声
符号化装置の概略を示す。この音声符号化装置の一つの
入力は、不図示のマイクロホンの出力である。この入力
は、線形予測分析/符号化回路2に接続されている。線
形予測分析/符号化回路2の出力は、制御回路(適応ア
ルゴリズム演算回路)3の入力に接続されている。適応
アルゴリズム演算回路3の他の入力は、異音辞書として
のメモリ4の出力に接続されている。さらに、適応アル
ゴリズム演算回路3は、第3の入力5を介して異音シー
ケンスを受取る。 メッセージの文書版(たとえば、そのメッセージがタ
イプされた文字列)の利用は、音声学上の限界が知られ
ているメッセージの音響モデルを生成するためである。
このことは、下記の音声合成技術の一つを利用すること
により達成できる。 (1)メッセージの各音素に対応する各音響セグメント
が音響学/音声学上の規則を用いて与えられ、問題とな
る音素の音響パラメータを文脈に従って計算することか
ら成る規則による合成。 (2)「O.V.E.II Synthesis」,G.ファント外,Strategy
Proc.of Speech Comm.Seminar,ストックホルム,1962年 (3)「Speech Synthesis by Rule」,L.R.ラビナー,An
Acoustic Domain Approach.Bell Syst.Tech.J.47,17-3
7頁,1968年 (4)「A Model for Synthesizing Speech by Rule」,
L.R.ラビナー,I.E.E.E.Trans.on Audio and Electr.AU
17,7-13頁,1969年 (5)「Structure of a Phonological Rule Component
for a Synthesis by Rule Program」,D.H.クラット,I.
E.E.E.Trans.ASSP-24,391-398頁,1976年 (6)辞書に格納された表音単位の連結による合成。表
音単位はダイホーン(diphone)であってもよい(たと
えば、「Technical Analog Synthesis of Continuous S
peech Using the Diphone Method of Segment Assembl
y」,N.R.ディクスンおよびH.D.マクセイ,I.E.E.E.Tran
s.AU-16,40-50頁,1968年)。 (7)「Synthesis par Diphone et Traitement de la
Prosodie」,F.エメラール,言語文学大学第3期提出論
文,グルノーブル,1977年 表音単位は、異音(allophone)としても(「Text 10
Speech Using Allophone Stringing」,クン・シャン
・リン外)、半音節としても(「A Phonetic Dictionar
y for Demi-Syllabic Speech Synthesis」,M.J.マッチ,
Proc of JCASSP,565頁,1980年)、あるいはその他の適
当な単位としてもよい(「Application de la Distinct
ion Trait-Indice Proprit la Construction
d′un Logiciel pour la Synthse」,Speech Comm.J,
第2巻第2−3号,141-144頁,1983年7月)。 表音単位は、この単位や文書入力の性質の関数として
多少洗練された規則に従って選択される。 文書メッセージ(メッセージの文書版)は、その規則
的正射影形式(たとえば、音素のシンボル)またはホノ
ロジック形式(たとえば、音素それ自体)で与えられ
る。メッセージが正射影形式で与えられる場合には、適
当なアルゴリズム(「Fast Text to Speech Algorithme
For Esperant,Spanish,Italian,Russian and Englis
h」,B.A.シャーウォード,Int.J.Man Machine Studies,1
0,669-692頁,1978年)を用いてホノロジック形式に翻訳
されたり、表音単位の集合に直接変換される。 上述した既知の処理の一つによって、第3の入力5を
介して適応アルゴリズム演算回路3に入力される異音シ
ーケンス(第1の入力データ・シーケンス)が、符号化
されるべきメッセージの文書版を表すホノロジカルな言
語単位(たとえば、音素それ自体)の形で符号化され
る。その結果、符号化されるべきメッセージの文書版に
対応する第1の符号化された音声シーケンス(具体的に
は、どの異音/音素かを指定する「異音/音素の指定」
のシーケンス)が得られる。 この符号化により、「メッセージの合成版」と呼ばれ
るメッセージの文書版から生成された信号の音響学的表
現が得られるが、ホノロジカルな言語単位(たとえば、
音素それ自体)の形で符号化されているため、イントネ
ーション情報を有しない。したがって、以下に示すよう
なメッセージの音声版より得られる韻律(具体的には、
持続期間等高線およびピッチ等高線)によって補われ
る。これにより、自然な人間の発生に近い形でメッセー
ジを符号化する。 対応する音声メッセージ(メッセージの音声版)の符
号化の処理は、第2図の線形予測分析/符号化回路2に
おいて、以下の方法によって行われる。 まず、メッセージの音声版はディジタル化されたのち
に分析される。その結果、「メッセージの合成版(人工
版)」と同様の音声信号の音響学的表現(第2の入力デ
ータ・シーケンス)が得られる。 たとえば、スペクトラム・パラメータは、フーリエ変
換や、より簡便には線形予測分析(「Linear Predictio
n of Speech」,J.D.マーケルおよびA.H.グレイ,シュプ
リンガー・フェルラーク(ベルリン),1976年)から得
ることができる。これらのパラメータは、音声版および
合成版の各フレーム間のスペクトル距離を計算するのに
適した形で格納される。たとえば、メッセージの合成版
が線形予測によって分析されたセグメントの連結で得ら
れると、音声版も線形予測を用いて分析され得る。 線形予測パラメータはスペクトル・パラメータの形式
に容易に変換することができ(J.D.マーケルおよびA.H.
グレイ)、2組のスペクトル係数間のユークリッド距離
が小振幅スペクトル間の距離の忠実な測定を提供する。 音声版のピッチ(基本周波数)は、数多く存在する音
声信号ピッチ決定用アルゴリズムの一つを用いて得るこ
とができる(「A Comparative Performance Study of S
everal Pitch Detection Algorithms」,L.R.ラビナー
外,IEEE Trans.Accoust.Speech and Signal Process,Vo
lume.ASSP 24,399-417頁,1976年10月、および「Post Pr
ocessing Techniques For Voice Pitch Trackers」,B.
セクレストおよびG.ボディントン,Procs.of the ICASS
P,172-175頁,パリ、1982年)。 続いて、適応アルゴリズム演算回路3において、以下
の処理が行われる。 音声版と合成版とは、世界的な音声認識においては今
日では古典的となっている手法でスペクトル距離に基づ
くダイナミック・プログラミング技術を用いて、比較さ
れる(「Dynamic Programming Algorithm Optimization
For Spoken Word Recognition」,迫江および千葉,IEE
E Trans.ASSP 26-1,1978年2月)。 この技術は、メッセージのこの2つの版間のエレメン
ト同士の対応(または、投影)を提供して、これらの間
の全スペクトル距離を最小にするものであることから、
「ダイナミック・タイム・ワーピング」とも呼ばれてい
る。 第1図において、横軸はメッセージの合成版の表音単
位UP1〜UP5を示し、縦軸は同じメッセージの音声版を示
す。ここで、音声版のセグメントS1〜S5は、合成版の表
音単位UP1〜UP5に対応する。 合成版の持続期間と音声版の持続期間とを対応させる
には、各表音単位UP1〜UP5の持続期間を調整して、対応
する音声版の各セグメントS1〜S5の持続期間と等しくす
るようにすれば足りる。この調整をしたのちは、持続期
間は等しいので、単に表音単位の各フレームのピッチを
対応する音声版のフレームのピッチに等しくすることに
よって、合成版のピッチを音声版のピッチと等しくする
ことができる。 各表音単位および音声版のピッチ等高線に適用される
持続期間ワーピングから、韻律(prosody)が構成され
る。 次に、韻律(持続期間およびピッチ)の符号化(第2
の符号化された音声シーケンスを与える方法)について
検討する。韻律は、必要とされる忠実度とビットレート
との折衷案に応じた異なる方法で符号化され得る。符号
化の非常に正確な方法は、以下の通りである。 表音単位の各フレームに対して、対応する最適パス
(通路)は垂直,水平および斜めのいずれかであり得
る。バスが垂直である場合には、これは、このフレーム
に対応する音声版の部分が一定数のフレームにおけるパ
スの長さに等しい係数だけ伸ばされることを意味する。
一方、パスが水平である場合には、これは、パスの当該
部分の下方の表音単位のすべてのフレームが該パスの長
さに等しい係数だけ短くされなければならないことを意
味する。パスが斜めである場合には、表音単位に対応す
るフレームは同じ長さに保たれるべきである。 タイム・ワーピングの適当な局部的抑制により、水平
・垂直パスは無理なく3つのフレームに限定され得る。
このとき、表音単位の各フレームに対して、持続期間ワ
ーピングが3ビットで符号化され得る。 音声版の各フレームのピッチは、0次または1次の補
間を用いて、各対応する表音単位のフレームにコピーさ
れ得る。 ピッチの値は、6ビットで効率的に符号化され得る。 その結果、このような符号化は、韻律に対して9ビッ
ト/フレームとなる。仮に平均40フレーム/秒とする
と、これは、韻律コードを含めて約400ビット/秒とな
る。 符号化のよりコンパクトな方法は、限られた数の文字
を用いて持続期間ワーピングおよびピッチ等高線の両方
を符号化することによって得られる。そのようなパター
ンは、数個の表音単位を含むセグメントにより識別され
得る。 そのようなセグメントの簡便な選択は、音節である。
音節の実用的な定義は、以下のようなものである。 [(子音クラスタ)]母音[(子音クラスタ)] ここで、[ ]は任意である。 数個の表音単位に対応する音節およびその両端は、メ
ッセージの文書版から自動的に決定され得る。音節の両
端は音声版上で識別され得る。一組の特徴的な音節ピッ
チ等高線が代表パターンとして選択されたならば、それ
らの各々が音声版における音節の実際のピッチ等高線と
比較され得、真のピッチ等高線に最も近いものが選択さ
れる。たとえば、32文字ある場合には、1音節に対する
ピッチ・コードは5ビットとなる。持続期間について
は、1音節は上述したように3つのセグメントに分割さ
れ得る。 持続期間ワーピング係数は、先の方法に関して説明し
たようにして、各領域に対して計算され得る。それぞれ
3個の持続期間ワーピング係数からなる複数組の持続期
間ワーピング係数は、1組の文字において最も近いもの
が選択されることによって、有限数に限定され得る。32
文字に対して、これはふたたび5ビット/音節となる。 これにより、一部として音声のイントネーション・パ
ラメータを含むとともに、符号化されるべきメッセージ
の音声版に対応する第2の符号化された音声シーケンス
(具体的には、持続期間のシーケンスとピッチのシーケ
ンス)が得られる。 以上述べたアプローチは、韻律に対して約10ビット/
音節を必要とするが、これは、表音コードを含めて合計
120ビット/秒となる。 続いて、異音/音素の指定のシーケンスと持続期間の
シーケンスおよびピッチ(基本周波数)のシーケンスと
が結合されて、マイクロホンから入力されたメッセージ
に対応する複合符号化音声シーケンスが適応アルゴリズ
ム演算回路3の出力に得られる。 マイクロホンから第2図の線形予測分析/符号化回路
2に入力されるデータのレート(速度)がたとえば9600
ビット/秒であるとすると、複合符号化音声シーケンス
は120ビット/秒のビットレートを有することになる。 このビットの配分は次の通りである。 (1)異音/音素の指定用の5ビット(32値) (2)持続期間用の3ビット(7値) (3)ピッチ用の5ビット(32値) これにより、1音素あたり合計13ビットとなる。1秒
あたり9乃至10程度の音素があることを考慮すると、12
0ビット/秒程度の速度が得られる。 第3図に示す回路は、第2図の適応アルゴリズム演算
回路3で生成された信号の復号化回路である。この装置
は、連結生成回路6を有し、この回路6の一方の入力に
は、120ビット/秒で符号化されたメッセージ(複合符
号化音声シーケンス)が入力され、他方の入力はメモリ
(異音辞書)7に接続されている。連結生成回路6の出
力は、たとえばTMS5200A等により構成される音声合成回
路8の入力に接続されている。音声合成回路8の出力
は、スピーカ9に接続されている。 連結生成回路6では、複合符号化音声シーケンスに含
まれている「異音の指定のシーケンス」に応じてメモリ
(異音辞書)7から読み出される異音シーケンスと、複
合符号化音声シーケンスに含まれている「持続期間のシ
ーケンス」および「ピッチ(基本周波数)のシーケン
ス」とを用いて、1800ビット/秒の速度を有する線形予
測符号化メッセージが、120ビット/秒程度の速度を有
する複合符号化音声シーケンスから生成される。音声合
成回路8では、連結生成回路6で生成されたメッセージ
が、スピーカ9で再生可能な64000ビット/秒のビット
レートを有するメッセージに順次変換される。 英語の場合には、長さが2乃至15フレーム(平均して
4.5フレーム)である128個の異音を含む異音辞書が開発
されている。 フランス語の場合には、異音連結方法が英語の場合と
異なり、異音辞書は250の安定状態およびこれと同数の
過渡状態(トランジション)を含む。補間領域は、英語
の辞書の異音間の過渡状態をより規則正しくするために
用いられる。 また、補間領域は、フレーズの始端および終端におけ
るエネルギーを整えるために用いられる。120ビット/
秒のデータ速度を得るために、1音素あたり3ビットが
持続期間情報用に確保されている。 持続期間コードは、元の異音におけるフレームの数に
対する変更後の異音におけるフレームの数の比である。
この符号化された比は、異音の長さが1フレームから15
フレームまで変化する英語の異音に必要なものである。 一方、フランス語においては、過渡状態と安定状態と
を合わせて4乃至5フレームの長さであるので、変更後
の長さは2乃至9フレームとすることができ、また、持
続期間コードは安定状態と変更された過渡状態とを合わ
せたフレームの数とすることができる。 [発明の効果] 以上述べたように、本発明によれば、従来のものに比
べて比較的低いピットレートで音声の符号化を行うこと
ができる。したがって、本発明は、特に、書かれた線ま
たはイメージのほかに音声合成器により再生可能な符号
化された対応テキストを含むページを有する本について
も適用できる。 本発明は、本願の出願人により開発されたビデオ・テ
キスト・システム、特に、音声合成された口頭メッセー
ジを聴くための装置や、本願の出願人によって1983年6
月2日に出願されたフランス特許出願第8309194号に記
載されような図形メッセージを視覚化するための装置に
も好適に使用できる。
(話言葉)を表わす信号は、ディジタル的に記憶される
ように符号化されることにより、後に伝送され得るよう
に、または、ある種の特定の装置によってローカルに再
生され得るようにされる。 これら2つの場合において、伝送チャンネルのパラメ
ータとの対応をとるために、または、非常に広範なボキ
ャブラリーを記憶させることができるようにするため
に、ビットレートを極めて低くする必要がある。 低いビットレートは、文書(テキスト)からの音声合
成を利用することによって得られる。得られた符号(コ
ード)は文書自体の正射影的表現であり得るため、50ビ
ット/秒のビットレートを得ることができる。 このようにして符号化された情報を処理する装置に用
られるデコーダを簡単化するためには、文書から得られ
る音素(phoneme)や韻律マーカ(prosodic marker)の
コード・シーケンスから符号を構成すればよいが、こう
すると、ビットレートが若干高くなる。また、このよう
な手法により再生された音声は、不自然で、最善でも著
しく単調となる。 こうした欠点を招く主な理由は、そのような処理で得
られる「人工的な」イントネーションである。このこと
は、イントネーション現象の複雑さ、すなわち、イント
ネーション現象が言語学上の規則に従う必要があるほ
か、話し手の個性および精神状態を反映すべきものであ
ることを考慮すると、非常に理解できる。 現時点では、言語の「人間的な」イントネーションを
与え得る韻律規則をすべての言語に対して利用できるよ
うになる時を予測することは困難である。 非常に高いビットレートとなる符号化処理も存在す
る。このような符号化処理は、満足な結果は得られる
が、その使用がしばしば非実用的であるような大きな容
量を有するメモリが必要になるという欠点がある。 本発明は、肉声の自然なイントネーションにかなり近
いイントネーションを有する音声の再生を比較的低いビ
ットレートで行うことができる音声合成処理を提供する
ことによって、これらの困難性を解消しようとするもの
である。 [課題を解決するための手段] 本発明の目的は、符号化すべきメッセージの文書版の
符号化をすることから成る音声符号化方法であって、同
じメッセージの音声版を符号化することと、文書版のコ
ードおよび音声版から取り出されたイントネーション・
パラメータのコードを組合せることと、を含むことを特
徴とする音声符号化方法を提供することにある。 本発明の音声符号化方法は、 符号化されたディジタル音声情報を聴取可能な合成音
声として再生する際の音声品質を維持したまま、低下さ
れた音声データレートで、人の音声を聴取可能な合成音
声として表現するようにディジタル音声情報を符号化す
る音声符号化方法であって、 a)符号化されるべきメッセージの文書版を表す複数の
ホノロジカルな言語単位の形で第1の入力データ・シー
ケンスを符号化して、前記符号化されるべきメッセージ
の前記文書版に対応する第1の符号化された音声シーケ
ンスを与えるステップと、 b)対応する複数のホノロジカルな言語単位およびイン
トネーション・パラメータの形で前記文書版が関係する
前記メッセージの音声版から得られた第2の入力データ
・シーケンスを符号化するステップであって、前記ホノ
ロジカルな言語単位が前記第1の符号化された音声シー
ケンスの前記ホノロジカルな言語単位と同等であり、そ
れによって、一部として前記音声のイントネーション・
パラメータを含むとともに前記符号化されるべきメッセ
ージの前記音声版に対応する第2の符号化された音声シ
ーケンスを与えるステップと、 c)前記音声の前記イントネーション・パラメータを含
む前記符号化されるべきメッセージの前記音声版に対応
する前記第2の符号化された音声シーケンスの前記一部
を、前記符号化されるべきメッセージの前記文書版に対
応する前記第1の符号化された音声シーケンスと結合す
るステップと、 d)前記第1の符号化された音声シーケンスと前記第2
の符号化された音声シーケンスの前記一部に含まれる前
記音声の前記符号化されたイントネーション・パラメー
タとの結合から、前記メッセージに対応する複合符号化
音声シーケンスを生成するステップと、を具備する。 ここで、前記メッセージの前記文書版から前記符号化
されるべきメッセージの複数のセグメント要素を与える
ステップであって、該複数のセグメント要素がそれぞれ
1以上のホノロジカルな言語単位を含むステップと、 前記複数のセグメント要素を含む前記第1の符号化さ
れた音声シーケンスを与える際に、前記複数のセグメン
ト要素に従って前記メッセージの前記文書版を符号化す
るステップと、をさらに具備してもよい。 また、前記メッセージの前記音声版から得られた前記
第2の入力データ・シーケンスを符号化するステップ
が、 前記第2の符号化された音声シーケンスを与える際
に、前記第2の入力データ・シーケンスを分析して、該
第2の入力データ・シーケンスに対応する前記ホノロジ
カルな言語単位および前記イントネーション・パラメー
タを得るステップと、 前記メッセージの前記文書版に対応する前記第1の符
号化された音声シーケンスと前記メッセージの前記音声
版に対応する前記第2の符号化された音声シーケンスと
を比較するステップと、 前記比較に応じて、前記第1の符号化された音声シー
ケンスと前記第2の符号化された音声シーケンスとの間
の適正な時間整合を決定するステップと、を含んでもよ
い。 さらに、前記複数のセグメント要素が、個々の短い音
声セグメントとして辞書に格納されているホノロジカル
な言語単位をチェーン状につなぎ、ダイナミック・プロ
グラミングによって前記メッセージの前記音声版を前記
チェーン状につながれたホノロジカルな言語単位と比較
することによって与えられてもよい。 [実施例] 第2図に、本発明による音声符号化方法を用いた音声
符号化装置の概略を示す。この音声符号化装置の一つの
入力は、不図示のマイクロホンの出力である。この入力
は、線形予測分析/符号化回路2に接続されている。線
形予測分析/符号化回路2の出力は、制御回路(適応ア
ルゴリズム演算回路)3の入力に接続されている。適応
アルゴリズム演算回路3の他の入力は、異音辞書として
のメモリ4の出力に接続されている。さらに、適応アル
ゴリズム演算回路3は、第3の入力5を介して異音シー
ケンスを受取る。 メッセージの文書版(たとえば、そのメッセージがタ
イプされた文字列)の利用は、音声学上の限界が知られ
ているメッセージの音響モデルを生成するためである。
このことは、下記の音声合成技術の一つを利用すること
により達成できる。 (1)メッセージの各音素に対応する各音響セグメント
が音響学/音声学上の規則を用いて与えられ、問題とな
る音素の音響パラメータを文脈に従って計算することか
ら成る規則による合成。 (2)「O.V.E.II Synthesis」,G.ファント外,Strategy
Proc.of Speech Comm.Seminar,ストックホルム,1962年 (3)「Speech Synthesis by Rule」,L.R.ラビナー,An
Acoustic Domain Approach.Bell Syst.Tech.J.47,17-3
7頁,1968年 (4)「A Model for Synthesizing Speech by Rule」,
L.R.ラビナー,I.E.E.E.Trans.on Audio and Electr.AU
17,7-13頁,1969年 (5)「Structure of a Phonological Rule Component
for a Synthesis by Rule Program」,D.H.クラット,I.
E.E.E.Trans.ASSP-24,391-398頁,1976年 (6)辞書に格納された表音単位の連結による合成。表
音単位はダイホーン(diphone)であってもよい(たと
えば、「Technical Analog Synthesis of Continuous S
peech Using the Diphone Method of Segment Assembl
y」,N.R.ディクスンおよびH.D.マクセイ,I.E.E.E.Tran
s.AU-16,40-50頁,1968年)。 (7)「Synthesis par Diphone et Traitement de la
Prosodie」,F.エメラール,言語文学大学第3期提出論
文,グルノーブル,1977年 表音単位は、異音(allophone)としても(「Text 10
Speech Using Allophone Stringing」,クン・シャン
・リン外)、半音節としても(「A Phonetic Dictionar
y for Demi-Syllabic Speech Synthesis」,M.J.マッチ,
Proc of JCASSP,565頁,1980年)、あるいはその他の適
当な単位としてもよい(「Application de la Distinct
ion Trait-Indice Proprit la Construction
d′un Logiciel pour la Synthse」,Speech Comm.J,
第2巻第2−3号,141-144頁,1983年7月)。 表音単位は、この単位や文書入力の性質の関数として
多少洗練された規則に従って選択される。 文書メッセージ(メッセージの文書版)は、その規則
的正射影形式(たとえば、音素のシンボル)またはホノ
ロジック形式(たとえば、音素それ自体)で与えられ
る。メッセージが正射影形式で与えられる場合には、適
当なアルゴリズム(「Fast Text to Speech Algorithme
For Esperant,Spanish,Italian,Russian and Englis
h」,B.A.シャーウォード,Int.J.Man Machine Studies,1
0,669-692頁,1978年)を用いてホノロジック形式に翻訳
されたり、表音単位の集合に直接変換される。 上述した既知の処理の一つによって、第3の入力5を
介して適応アルゴリズム演算回路3に入力される異音シ
ーケンス(第1の入力データ・シーケンス)が、符号化
されるべきメッセージの文書版を表すホノロジカルな言
語単位(たとえば、音素それ自体)の形で符号化され
る。その結果、符号化されるべきメッセージの文書版に
対応する第1の符号化された音声シーケンス(具体的に
は、どの異音/音素かを指定する「異音/音素の指定」
のシーケンス)が得られる。 この符号化により、「メッセージの合成版」と呼ばれ
るメッセージの文書版から生成された信号の音響学的表
現が得られるが、ホノロジカルな言語単位(たとえば、
音素それ自体)の形で符号化されているため、イントネ
ーション情報を有しない。したがって、以下に示すよう
なメッセージの音声版より得られる韻律(具体的には、
持続期間等高線およびピッチ等高線)によって補われ
る。これにより、自然な人間の発生に近い形でメッセー
ジを符号化する。 対応する音声メッセージ(メッセージの音声版)の符
号化の処理は、第2図の線形予測分析/符号化回路2に
おいて、以下の方法によって行われる。 まず、メッセージの音声版はディジタル化されたのち
に分析される。その結果、「メッセージの合成版(人工
版)」と同様の音声信号の音響学的表現(第2の入力デ
ータ・シーケンス)が得られる。 たとえば、スペクトラム・パラメータは、フーリエ変
換や、より簡便には線形予測分析(「Linear Predictio
n of Speech」,J.D.マーケルおよびA.H.グレイ,シュプ
リンガー・フェルラーク(ベルリン),1976年)から得
ることができる。これらのパラメータは、音声版および
合成版の各フレーム間のスペクトル距離を計算するのに
適した形で格納される。たとえば、メッセージの合成版
が線形予測によって分析されたセグメントの連結で得ら
れると、音声版も線形予測を用いて分析され得る。 線形予測パラメータはスペクトル・パラメータの形式
に容易に変換することができ(J.D.マーケルおよびA.H.
グレイ)、2組のスペクトル係数間のユークリッド距離
が小振幅スペクトル間の距離の忠実な測定を提供する。 音声版のピッチ(基本周波数)は、数多く存在する音
声信号ピッチ決定用アルゴリズムの一つを用いて得るこ
とができる(「A Comparative Performance Study of S
everal Pitch Detection Algorithms」,L.R.ラビナー
外,IEEE Trans.Accoust.Speech and Signal Process,Vo
lume.ASSP 24,399-417頁,1976年10月、および「Post Pr
ocessing Techniques For Voice Pitch Trackers」,B.
セクレストおよびG.ボディントン,Procs.of the ICASS
P,172-175頁,パリ、1982年)。 続いて、適応アルゴリズム演算回路3において、以下
の処理が行われる。 音声版と合成版とは、世界的な音声認識においては今
日では古典的となっている手法でスペクトル距離に基づ
くダイナミック・プログラミング技術を用いて、比較さ
れる(「Dynamic Programming Algorithm Optimization
For Spoken Word Recognition」,迫江および千葉,IEE
E Trans.ASSP 26-1,1978年2月)。 この技術は、メッセージのこの2つの版間のエレメン
ト同士の対応(または、投影)を提供して、これらの間
の全スペクトル距離を最小にするものであることから、
「ダイナミック・タイム・ワーピング」とも呼ばれてい
る。 第1図において、横軸はメッセージの合成版の表音単
位UP1〜UP5を示し、縦軸は同じメッセージの音声版を示
す。ここで、音声版のセグメントS1〜S5は、合成版の表
音単位UP1〜UP5に対応する。 合成版の持続期間と音声版の持続期間とを対応させる
には、各表音単位UP1〜UP5の持続期間を調整して、対応
する音声版の各セグメントS1〜S5の持続期間と等しくす
るようにすれば足りる。この調整をしたのちは、持続期
間は等しいので、単に表音単位の各フレームのピッチを
対応する音声版のフレームのピッチに等しくすることに
よって、合成版のピッチを音声版のピッチと等しくする
ことができる。 各表音単位および音声版のピッチ等高線に適用される
持続期間ワーピングから、韻律(prosody)が構成され
る。 次に、韻律(持続期間およびピッチ)の符号化(第2
の符号化された音声シーケンスを与える方法)について
検討する。韻律は、必要とされる忠実度とビットレート
との折衷案に応じた異なる方法で符号化され得る。符号
化の非常に正確な方法は、以下の通りである。 表音単位の各フレームに対して、対応する最適パス
(通路)は垂直,水平および斜めのいずれかであり得
る。バスが垂直である場合には、これは、このフレーム
に対応する音声版の部分が一定数のフレームにおけるパ
スの長さに等しい係数だけ伸ばされることを意味する。
一方、パスが水平である場合には、これは、パスの当該
部分の下方の表音単位のすべてのフレームが該パスの長
さに等しい係数だけ短くされなければならないことを意
味する。パスが斜めである場合には、表音単位に対応す
るフレームは同じ長さに保たれるべきである。 タイム・ワーピングの適当な局部的抑制により、水平
・垂直パスは無理なく3つのフレームに限定され得る。
このとき、表音単位の各フレームに対して、持続期間ワ
ーピングが3ビットで符号化され得る。 音声版の各フレームのピッチは、0次または1次の補
間を用いて、各対応する表音単位のフレームにコピーさ
れ得る。 ピッチの値は、6ビットで効率的に符号化され得る。 その結果、このような符号化は、韻律に対して9ビッ
ト/フレームとなる。仮に平均40フレーム/秒とする
と、これは、韻律コードを含めて約400ビット/秒とな
る。 符号化のよりコンパクトな方法は、限られた数の文字
を用いて持続期間ワーピングおよびピッチ等高線の両方
を符号化することによって得られる。そのようなパター
ンは、数個の表音単位を含むセグメントにより識別され
得る。 そのようなセグメントの簡便な選択は、音節である。
音節の実用的な定義は、以下のようなものである。 [(子音クラスタ)]母音[(子音クラスタ)] ここで、[ ]は任意である。 数個の表音単位に対応する音節およびその両端は、メ
ッセージの文書版から自動的に決定され得る。音節の両
端は音声版上で識別され得る。一組の特徴的な音節ピッ
チ等高線が代表パターンとして選択されたならば、それ
らの各々が音声版における音節の実際のピッチ等高線と
比較され得、真のピッチ等高線に最も近いものが選択さ
れる。たとえば、32文字ある場合には、1音節に対する
ピッチ・コードは5ビットとなる。持続期間について
は、1音節は上述したように3つのセグメントに分割さ
れ得る。 持続期間ワーピング係数は、先の方法に関して説明し
たようにして、各領域に対して計算され得る。それぞれ
3個の持続期間ワーピング係数からなる複数組の持続期
間ワーピング係数は、1組の文字において最も近いもの
が選択されることによって、有限数に限定され得る。32
文字に対して、これはふたたび5ビット/音節となる。 これにより、一部として音声のイントネーション・パ
ラメータを含むとともに、符号化されるべきメッセージ
の音声版に対応する第2の符号化された音声シーケンス
(具体的には、持続期間のシーケンスとピッチのシーケ
ンス)が得られる。 以上述べたアプローチは、韻律に対して約10ビット/
音節を必要とするが、これは、表音コードを含めて合計
120ビット/秒となる。 続いて、異音/音素の指定のシーケンスと持続期間の
シーケンスおよびピッチ(基本周波数)のシーケンスと
が結合されて、マイクロホンから入力されたメッセージ
に対応する複合符号化音声シーケンスが適応アルゴリズ
ム演算回路3の出力に得られる。 マイクロホンから第2図の線形予測分析/符号化回路
2に入力されるデータのレート(速度)がたとえば9600
ビット/秒であるとすると、複合符号化音声シーケンス
は120ビット/秒のビットレートを有することになる。 このビットの配分は次の通りである。 (1)異音/音素の指定用の5ビット(32値) (2)持続期間用の3ビット(7値) (3)ピッチ用の5ビット(32値) これにより、1音素あたり合計13ビットとなる。1秒
あたり9乃至10程度の音素があることを考慮すると、12
0ビット/秒程度の速度が得られる。 第3図に示す回路は、第2図の適応アルゴリズム演算
回路3で生成された信号の復号化回路である。この装置
は、連結生成回路6を有し、この回路6の一方の入力に
は、120ビット/秒で符号化されたメッセージ(複合符
号化音声シーケンス)が入力され、他方の入力はメモリ
(異音辞書)7に接続されている。連結生成回路6の出
力は、たとえばTMS5200A等により構成される音声合成回
路8の入力に接続されている。音声合成回路8の出力
は、スピーカ9に接続されている。 連結生成回路6では、複合符号化音声シーケンスに含
まれている「異音の指定のシーケンス」に応じてメモリ
(異音辞書)7から読み出される異音シーケンスと、複
合符号化音声シーケンスに含まれている「持続期間のシ
ーケンス」および「ピッチ(基本周波数)のシーケン
ス」とを用いて、1800ビット/秒の速度を有する線形予
測符号化メッセージが、120ビット/秒程度の速度を有
する複合符号化音声シーケンスから生成される。音声合
成回路8では、連結生成回路6で生成されたメッセージ
が、スピーカ9で再生可能な64000ビット/秒のビット
レートを有するメッセージに順次変換される。 英語の場合には、長さが2乃至15フレーム(平均して
4.5フレーム)である128個の異音を含む異音辞書が開発
されている。 フランス語の場合には、異音連結方法が英語の場合と
異なり、異音辞書は250の安定状態およびこれと同数の
過渡状態(トランジション)を含む。補間領域は、英語
の辞書の異音間の過渡状態をより規則正しくするために
用いられる。 また、補間領域は、フレーズの始端および終端におけ
るエネルギーを整えるために用いられる。120ビット/
秒のデータ速度を得るために、1音素あたり3ビットが
持続期間情報用に確保されている。 持続期間コードは、元の異音におけるフレームの数に
対する変更後の異音におけるフレームの数の比である。
この符号化された比は、異音の長さが1フレームから15
フレームまで変化する英語の異音に必要なものである。 一方、フランス語においては、過渡状態と安定状態と
を合わせて4乃至5フレームの長さであるので、変更後
の長さは2乃至9フレームとすることができ、また、持
続期間コードは安定状態と変更された過渡状態とを合わ
せたフレームの数とすることができる。 [発明の効果] 以上述べたように、本発明によれば、従来のものに比
べて比較的低いピットレートで音声の符号化を行うこと
ができる。したがって、本発明は、特に、書かれた線ま
たはイメージのほかに音声合成器により再生可能な符号
化された対応テキストを含むページを有する本について
も適用できる。 本発明は、本願の出願人により開発されたビデオ・テ
キスト・システム、特に、音声合成された口頭メッセー
ジを聴くための装置や、本願の出願人によって1983年6
月2日に出願されたフランス特許出願第8309194号に記
載されような図形メッセージを視覚化するための装置に
も好適に使用できる。
【図面の簡単な説明】
第1図は本発明により符号化されるメッセージの音声形
式および合成形式間の最適対応パスを示す図、第2図は
本発明による方法を用いた音声符号化装置を示すブロッ
ク図、第3図は本発明により符号化されたメッセージの
復号化を行う装置を示すブロック図である。 2……線形予測分析/復号化回路 3……制御回路 4……メモリ(異音辞書) 6……連結生成回路 7……メモリ(異音辞書) 8……音声合成回路 9……マイクロホン
式および合成形式間の最適対応パスを示す図、第2図は
本発明による方法を用いた音声符号化装置を示すブロッ
ク図、第3図は本発明により符号化されたメッセージの
復号化を行う装置を示すブロック図である。 2……線形予測分析/復号化回路 3……制御回路 4……メモリ(異音辞書) 6……連結生成回路 7……メモリ(異音辞書) 8……音声合成回路 9……マイクロホン
Claims (1)
- (57)【特許請求の範囲】 1.符号化されたディジタル音声情報を聴取可能な合成
音声として再生する際の音声品質を維持したまま、低下
された音声データレートで、人の音声を聴取可能な合成
音声として表現するようにディジタル音声情報を符号化
する音声符号化方法であって、 a)符号化されるべきメッセージの文書版を表す複数の
ホノロジカルな言語単位の形で第1の入力データ・シー
ケンスを符号化して、前記符号化されるべきメッセージ
の前記文書版に対応する第1の符号化された音声シーケ
ンスを与えるステップと、 b)対応する複数のホノロジカルな言語単位およびイン
トネーション・パラメータの形で前記文書版が関係する
前記メッセージの音声版から得られた第2の入力データ
・シーケンスを符号化するステップであって、前記ホノ
ロジカルな言語単位が前記第1の符号化された音声シー
ケンスの前記ホノロジカルな言語単位と同等であり、そ
れによって、一部として前記音声のイントネーション・
パラメータを含むとともに前記符号化されるべきメッセ
ージの前記音声版に対応する第2の符号化された音声シ
ーケンスを与えるステップと、 c)前記音声の前記イントネーション・パラメータを含
む前記符号化されるべきメッセージの前記音声版に対応
する前記第2の符号化された音声シーケンスの前記一部
を、前記符号化されるべきメッセージの前記文書版に対
応する前記第1の符号化された音声シーケンスと結合す
るステップと、 d)前記第1の符号化された音声シーケンスと前記第2
の符号化された音声シーケンスの前記一部に含まれる前
記音声の前記符号化されたイントネーション・パラメー
タとの結合から、前記メッセージに対応する複合符号化
音声シーケンスを生成するステップと、 を具備する音声符号化方法。 2.前記メッセージの前記文書版から前記符号化される
べきメッセージの複数のセグメント要素を与えるステッ
プであって、該複数のセグメント要素がそれぞれ1以上
のホノロジカルな言語単位を含むステップと、 前記複数のセグメント要素を含む前記第1の符号化され
た音声シーケンスを与える際に、前記複数のセグメント
要素に従って前記メッセージの前記文書版を符号化する
ステップと、 をさらに具備する、特許請求の範囲第1項記載の音声符
号化方法。 3.前記メッセージの前記音声版から得られた前記第2
の入力データ・シーケンスを符号化するステップが、 前記第2の符号化された音声シーケンスを与える際に、
前記第2の入力データ・シーケンスを分析して、該第2
の入力データ・シーケンスに対応する前記ホノロジカル
な言語単位および前記イントネーション・パラメータを
得るステップと、 前記メッセージの前記文書版に対応する前記第1の符号
化された音声シーケンスと前記メッセージの前記音声版
に対応する前記第2の符号化された音声シーケンスとを
比較するステップと、 前記比較に応じて、前記第1の符号化された音声シーケ
ンスと前記第2の符号化された音声シーケンスとの間の
適正な時間整合を決定するステップと、 を含む、特許請求の範囲第2項記載の音声符号化方法。 4.前記複数のセグメント要素が、個々の短い音声セグ
メントとして辞書に格納されているホノロジカルな言語
単位をチェーン状につなぎ、ダイナミック・プログラミ
ングによって前記メッセージの前記音声版を前記チェー
ン状につながれたホノロジカルな言語単位と比較するこ
とによって与えられる、特許請求の範囲第3項記載の音
声符号化方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US8316392 | 1983-10-14 | ||
FR8316392 | 1983-10-14 | ||
FR8316392A FR2553555B1 (fr) | 1983-10-14 | 1983-10-14 | Procede de codage de la parole et dispositif pour sa mise en oeuvre |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS60102697A JPS60102697A (ja) | 1985-06-06 |
JP2885372B2 true JP2885372B2 (ja) | 1999-04-19 |
Family
ID=9293153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59216004A Expired - Lifetime JP2885372B2 (ja) | 1983-10-14 | 1984-10-15 | 音声符号化方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US4912768A (ja) |
EP (1) | EP0140777B1 (ja) |
JP (1) | JP2885372B2 (ja) |
DE (1) | DE3480969D1 (ja) |
FR (1) | FR2553555B1 (ja) |
Families Citing this family (95)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0632020B2 (ja) * | 1986-03-25 | 1994-04-27 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声合成方法および装置 |
US5278943A (en) * | 1990-03-23 | 1994-01-11 | Bright Star Technology, Inc. | Speech animation and inflection system |
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
US5333275A (en) * | 1992-06-23 | 1994-07-26 | Wheatley Barbara J | System and method for time aligning speech |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5642466A (en) * | 1993-01-21 | 1997-06-24 | Apple Computer, Inc. | Intonation adjustment in text-to-speech systems |
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
JPH0671105U (ja) * | 1993-03-25 | 1994-10-04 | 宏 伊勢田 | 複数の錐刃を収納した連接錐 |
SE516526C2 (sv) * | 1993-11-03 | 2002-01-22 | Telia Ab | Metod och anordning vid automatisk extrahering av prosodisk information |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
US5875427A (en) * | 1996-12-04 | 1999-02-23 | Justsystem Corp. | Voice-generating/document making apparatus voice-generating/document making method and computer-readable medium for storing therein a program having a computer execute voice-generating/document making sequence |
US5864814A (en) * | 1996-12-04 | 1999-01-26 | Justsystem Corp. | Voice-generating method and apparatus using discrete voice data for velocity and/or pitch |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
US5995924A (en) * | 1997-05-05 | 1999-11-30 | U.S. West, Inc. | Computer-based method and apparatus for classifying statement types based on intonation analysis |
US5987405A (en) * | 1997-06-24 | 1999-11-16 | International Business Machines Corporation | Speech compression by speech recognition |
US6081780A (en) * | 1998-04-28 | 2000-06-27 | International Business Machines Corporation | TTS and prosody based authoring system |
US6246672B1 (en) | 1998-04-28 | 2001-06-12 | International Business Machines Corp. | Singlecast interactive radio system |
FR2786600B1 (fr) * | 1998-11-16 | 2001-04-20 | France Telecom | Procede de recherche par le contenu de documents textuels utilisant la reconnaissance vocale |
US6144939A (en) * | 1998-11-25 | 2000-11-07 | Matsushita Electric Industrial Co., Ltd. | Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains |
US6230135B1 (en) | 1999-02-02 | 2001-05-08 | Shannon A. Ramsay | Tactile communication apparatus and method |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6625576B2 (en) * | 2001-01-29 | 2003-09-23 | Lucent Technologies Inc. | Method and apparatus for performing text-to-speech conversion in a client/server environment |
US7571099B2 (en) * | 2004-01-27 | 2009-08-04 | Panasonic Corporation | Voice synthesis device |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20090132237A1 (en) * | 2007-11-19 | 2009-05-21 | L N T S - Linguistech Solution Ltd | Orthogonal classification of words in multichannel speech recognizers |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
DE602008000303D1 (de) * | 2008-09-03 | 2009-12-31 | Svox Ag | Sprachsynthese mit dynamischen Einschränkungen |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
WO2012134877A2 (en) * | 2011-03-25 | 2012-10-04 | Educational Testing Service | Computer-implemented systems and methods evaluating prosodic features of speech |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5919358B2 (ja) * | 1978-12-11 | 1984-05-04 | 株式会社日立製作所 | 音声内容伝送方式 |
US4337375A (en) * | 1980-06-12 | 1982-06-29 | Texas Instruments Incorporated | Manually controllable data reading apparatus for speech synthesizers |
EP0059880A3 (en) * | 1981-03-05 | 1984-09-19 | Texas Instruments Incorporated | Text-to-speech synthesis system |
US4685135A (en) * | 1981-03-05 | 1987-08-04 | Texas Instruments Incorporated | Text-to-speech synthesis system |
US4731847A (en) * | 1982-04-26 | 1988-03-15 | Texas Instruments Incorporated | Electronic apparatus for simulating singing of song |
EP0095139A3 (en) * | 1982-05-25 | 1984-08-22 | Texas Instruments Incorporated | Speech synthesis from prosody data and human sound indicia data |
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
FR2547146B1 (fr) * | 1983-06-02 | 1987-03-20 | Texas Instruments France | Procede et dispositif pour l'audition de messages parles synthetises et pour la visualisation de messages graphiques correspondants |
-
1983
- 1983-10-14 FR FR8316392A patent/FR2553555B1/fr not_active Expired
-
1984
- 1984-10-12 EP EP84402062A patent/EP0140777B1/en not_active Expired
- 1984-10-12 DE DE8484402062T patent/DE3480969D1/de not_active Expired - Lifetime
- 1984-10-15 JP JP59216004A patent/JP2885372B2/ja not_active Expired - Lifetime
-
1988
- 1988-10-28 US US07/266,214 patent/US4912768A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
FR2553555A1 (fr) | 1985-04-19 |
DE3480969D1 (de) | 1990-02-08 |
JPS60102697A (ja) | 1985-06-06 |
EP0140777A1 (en) | 1985-05-08 |
US4912768A (en) | 1990-03-27 |
EP0140777B1 (en) | 1990-01-03 |
FR2553555B1 (fr) | 1986-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2885372B2 (ja) | 音声符号化方法 | |
US12033611B2 (en) | Generating expressive speech audio from text data | |
JP3408477B2 (ja) | フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ | |
JP2002530703A (ja) | 音声波形の連結を用いる音声合成 | |
KR20200092505A (ko) | 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법 | |
JPH031200A (ja) | 規則型音声合成装置 | |
JP2006106741A (ja) | 対話型音声応答システムによる音声理解を防ぐための方法および装置 | |
EP0380572A1 (en) | SPEECH SYNTHESIS FROM SEGMENTS OF DIGITAL COARTICULATED VOICE SIGNALS. | |
US6212501B1 (en) | Speech synthesis apparatus and method | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
JP3281266B2 (ja) | 音声合成方法及び装置 | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP3060276B2 (ja) | 音声合成装置 | |
Bunnell | Speech synthesis: Toward a “Voice” for all | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
Hinterleitner et al. | Speech synthesis | |
JPH11249676A (ja) | 音声合成装置 | |
JP2703253B2 (ja) | 音声合成装置 | |
WO2023182291A1 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2577372B2 (ja) | 音声合成装置および方法 | |
Leontiev et al. | Improving the Quality of Speech Synthesis Using Semi-Syllabic Synthesis | |
JP6159436B2 (ja) | 読み記号列編集装置および読み記号列編集方法 | |
JP2573585B2 (ja) | 音声スペクトルパタン生成装置 | |
JP2002244693A (ja) | 音声合成装置および音声合成方法 | |
CN116052640A (zh) | 一种语音合成方法及装置 |