JP2002023775A - 音声合成における表現力の改善 - Google Patents

音声合成における表現力の改善

Info

Publication number
JP2002023775A
JP2002023775A JP2001168648A JP2001168648A JP2002023775A JP 2002023775 A JP2002023775 A JP 2002023775A JP 2001168648 A JP2001168648 A JP 2001168648A JP 2001168648 A JP2001168648 A JP 2001168648A JP 2002023775 A JP2002023775 A JP 2002023775A
Authority
JP
Japan
Prior art keywords
sound source
signal
category
speech
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2001168648A
Other languages
English (en)
Inventor
Eduardo Reck Miranda
レック ミランダ、エドワード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony France SA
Original Assignee
Sony France SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony France SA filed Critical Sony France SA
Publication of JP2002023775A publication Critical patent/JP2002023775A/ja
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Toys (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 音源フィルタ法に基づく音声合成装置の音源
モジュールにおいて、音源カテゴリのライブラリを用い
ることにより、音声合成の表現力を向上させる。 【解決手段】 各音源音カテゴリは特定の形態論的なカ
テゴリに相当し、実際の音声に対し、声道の影響を除去
する逆フィルタリング処理を施すことにより得られる。
ライブラリはパラメータを格納してもよく、すなわち、
格納されるデータは、逆フィルタリング処理により得ら
れた音そのものではなく、逆フィルタリング処理により
得られた音を例えばフェーズボコーダ技術等の適切な再
合成技術により再合成するための合成係数であってもよ
い。これら係数はSTFT分析によって導き出される。

Description

【発明の詳細な説明】
【0001】
【本発明の属する技術分野】本発明は音声合成の分野に
関し、特に、音声シンセサイザによって生成された音声
の表現力を向上させる手法に関する。
【0002】
【従来の技術】近年、特にテキスト−音声(text-to-sp
eech:以下、TTSという。)合成の分野において、音
声合成技術が著しく進歩している。音声合成の方法に
は、サンプリング法(連結法(concatenative approac
h)又は2音声法(diphone-basedapproach)とも呼ばれ
る。)と、音源フィルタ法(source-filter approach)
又は調音法(articulatory approach)といった2つの
基本的な方法がある。この点については、1998年、
英国、オックスフォードのフォーカルプレス(Focal Pr
ess)社発刊、イー・アール・ミランダ(E.R. Mirand
a)著、「電子音楽家のためのコンピュータ音声合成(C
omputer Sound Synthesis)」に記載されている。
【0003】サンプリング法は、インデックスが付さ
れ、デジタル的に記録された例えば音節等の短い音声セ
グメントのデータベースを利用する。発話音を再生する
場合、再生エンジンは、記録されている適切な短いセグ
メントを連続的に結合して必要な単語を組み立てる。記
録されている音声を分析し、これら記録されている音声
がデータベース内でより効果的に表現されるような処理
を行う方法もある。この他に、短い発話セグメントを符
号化した形式で記録する手法もある。例えば、米国特許
第3982070号及び第3995116号では、必要
な音を再生するためにフェーズボコーダ(phase vocode
r)において必要とされる係数を表す信号を記録する。
【0004】サンプリング法は、通常、TTSシステム
を構築するために適した方法であり、実際、現在市販さ
れているコンピュータ音声システムの多くにおいて、中
核となる技術として使用されている。
【0005】音源フィルタ法は、図1に示すように、人
間の声道の機能を真似ることにより、スクラッチ(scra
tch)から音声を生成する方法である。音源フィルタモ
デルは、生の音源信号(raw source signal)を生成
し、この生の音源信号を複雑なフィルタ構成体(comple
x filter arrangement)により成形することにより音声
の生成をシミュレートする。この技術については、例え
ば、1980年、アメリカ音響学会ジャーナル(Journa
l of the Acoustical Society of America)63(2)
号第971〜995頁に記載されているディー・クラッ
トによる「縦続/並列ホルマントシンセサイザ用ソフト
ウェア(Software for a Cascade/Parallel Formant Sy
nthesiser)」等に説明されている。
【0006】人間の場合、生の音源は、声門(左右声帯
間の隙間)により生成された振動から生じる音に対応
し、複雑なフィルタは、音声が通過する声道に対応す
る。複雑なフィルタは、様々な方法で実現できる。包括
的には、音声が通過する声道は、鼻孔への分岐管を有す
る管とみなされ、この管はいくつかの部分に分割され、
各部分の共鳴がフィルタによりシミュレートされる。
【0007】これらのフィルタのパラメータを容易に特
定するために、この方法は、例えば、特定の音声を発声
する場合における舌、顎、唇の位置等の調音情報(arti
culatory information)をフィルタのパラメータに変換
するインターフェイスを備える。このため、音源フィル
タモデルは、調音モデル(articulatory model)とも呼
ばれる。この調音モデルについては、1973年アメリ
カ音響学会ジャーナル(Journal of the Acoustical So
ciety of America)53(4)号第1070〜1082
頁に記載のピー・マーメルスタイン(P. Mermelstein)
著「音声生成研究のための調音モデル(Articulatory M
odel for the Study of Speech Production)」に説明
されている。音声は、ある調音位置(articulatory pos
ition)の組から次の調音位置の組にどのように移動す
るかをプログラムに指示することにより再生される。換
言すれば、制御ユニットは、連続的時間の各時刻におけ
る音源及びフィルタを設定し、調音位置の組が連続する
時刻に亘ってどのように移動するかを定義することによ
り発声音の合成を制御する。すなわちこの手法では、1
つの調音位置及び音源の組から次の連続する時刻におけ
る次の調音位置及び音源の組にシステムをどのように移
動させるかを指示する。
【0008】言語展開(language evolution)の基本的
なメカニズムの研究に使用するために、より高性能な音
声シンセサイザの実現が望まれている。このような研究
は、例えば、コンピュータ及びロボット装置の言語能力
を向上させることを目的としている。これらの基本的な
メカニズムの1つとしては、音声学的及び韻律的レパー
トリ(phonetic and prosodic repertoires)の出現も
含まれる。これらのメカニズムに関する研究は、以下の
ような能力を有する音声シンセサイザが必要である。す
なわち、この音声シンセサイザは、i)自己組織化(se
lf-organisation)及びモジュール性(modularity)等
の進化的研究パラダイム(evolutionaryresearch parad
igms)をサポートする能力、ii)音声の生成及び知覚
の両方を表す知識表現(knowledge representation)の
統一的な形式( unified form)をサポートし、これに
より話す能力及び聴く能力が同じ知覚モータメカニズム
(sensory-motor mechanisms)を共有するという仮定を
サポートする能力、iii)豊かな表現力で話し、歌う
ことを可能にする能力(感情及びパラ言語的特徴(para
linguistic features)を含む)を有している。
【0009】サンプリング法に基づくシンセサイザは、
上述した要件のいずれをも満たさない。一方、音源フィ
ルタ法は、上述の要件i)及び要件ii)を満たすが、
これまでに提案されているシステムは、要件iii)を
満たしておらず、この要件iii)を満たすよう改善す
る必要がある。
【0010】本願発明者らは、音源フィルタ法に基づい
た従来の音声合成に使用される調音シミュレーション
は、シンセサイザのフィルタ部分においては十分に機能
するが、音源信号の重要性を大きく見落としてしまうこ
とを見出した。声門の重要性をより慎重に分析すること
により、音源フィルタ合成の品質及び柔軟性を実質的に
改善することができる。
【0011】標準的な手法は、以下の2つの音源生成器
を用いて音源コンポーネントを具現化することである。
すなわち、第1の生成器は、白色雑音生成器(子音の生
成のシミュレート)であり、第2の生成器は、周期的高
調波パルス生成器(母音の生成のシミュレート)であ
る。この従来の音声シンセサイザの一般的な構造を図2
に示す。各生成器がフィルタに供給する信号の量を精密
に制御することによって、真声帯の(母音のための)緊
張又は(子音のための)緩和を粗くシミュレートするこ
とができる。この方法に関する主な制約は次のとおりで
ある。
【0012】a) 雑音信号及びパルス信号の混合によ
り生成される音は、現実的な音に聞こえない。すなわ
ち、雑音信号及びパルス信号は、完全に異なる性質を有
しているので、雑音信号及びパルス信号は良好に混合さ
れない。さらに、(子音と母音で単語を構成するために
必要な)雑音からパルスへ、あるいはパルスから雑音へ
の高速な切換により、摩擦音のような雑音("buzzy" vo
ice)が生じてしまう。
【0013】b) パルス信号のスペクトルは、その基
本周波数の高調波から構成される(すなわちFO、2
FO、2(2FO)、2(2(2FO))
等)。これは、音源信号の成分がフィルタに入力される
以前には変化できないことを意味し、したがって音声の
音質が制限される。
【0014】c) パルス信号のスペクトルは固定され
たエンベロープを有し、このエンベロープにおいて、各
高調波のエネルギは、周波数が2倍になる毎に−6dB
ずつ、指数関数的に減少する。音源信号は、常に同じス
ペクトル構成を有しているため、音声の音色のニュアン
スを柔軟に表現することができない。また、高周波ホル
マントのエネルギを高めなくてはならない場合、高周波
ホルマントは、不当に表現されてしまう。
【0015】d) 上述のb)及びc)に加えて、音源
信号のスペクトルは動的な軌道(dynamical trajector
y)を欠く。すなわち、スペクトル成分間の周波数距離
及びそれらの振幅は、いずれも所定の期間にいて最初か
ら最後まで不変であり、このため時間的な変化を表現で
きず、合成された音声では音声の動的な軌道である抑揚
を表現できない。
【0016】米国特許第5,528,726号(クッ
ク:Cook)には、音源フィルタ法に基づいて異なる声門
音源信号を合成する音声合成装置が開示されている。こ
の音声合成装置では、フィルタ構成体は、デジタル音響
管ネットワーク(digital waveguide network)を使用
する。また、事前に定義された音声信号の組を生成する
ための音響管結合制御パラメータ(waveguide junction
control parameters)及び関連する声門音源信号パラ
メータの組を格納するパラメータライブラリが採用され
ている。このシステムでは、余弦2乗波形(raised cos
ine waveshape)として開始され、続いてゼロに落ち、
ゼロが継続する直線部(閉鎖端:closingedge)が続く
波形により、異なる声門の音源信号を生成する基礎的な
声門パルスが模倣される。ここでは、開口スロープ(op
ening slope)及び時間を固定させて、閉鎖端の開始位
置及び終了位置を変更させることにより、異なる声門音
源信号が形成される。クックのシステムでは、これらの
異なる声門の音源信号の表現ではなく、異なる音源信号
のフーリエ級数表現のパラメータをデータとして保存す
る。
【0017】クックのシステムは、ライブラリに格納さ
れたパラメータに基づいて、異なる種類の声門音源信号
の合成を行うが、声道(vocal tract)をモデル化する
フィルタ構成体による後続するフィルタ処理のために、
異なる種類の音源信号は、余弦2乗関数により導出され
たそれぞれの基礎的なパルス波形の単一のサイクルに基
づいて生成されている。さらに、クックのシステムは、
異なる種類の音源信号の最適化を行わないため、包括的
な音源フィルタ型のシンセサイザからの最終的な音声信
号出力の表現力を改善することはできない。
【0018】
【発明の開示】本発明の好ましい実施の形態では、上述
の要件i)〜iii)をすべて満たし、制約a)〜d)
に関する問題を解決する音声合成方法及び音声合成装置
を提供する。特に、本発明の好ましい実施の形態は、そ
れぞれが形態論的カテゴリに対応する音源カテゴリのパ
ラメータのライブラリを用いることにより、合成された
音声の表現力を改善する(上述の要件iii))。
【0019】本発明の好ましい実施の形態に示す音声合
成方法及び音声合成装置においては、音源信号は、自在
な長さを有する波形に基づいて生成され、この波形は、
実質的にいかなる形状を有することもできる波形の複数
回の繰り返しサイクルを含むことができる音の短いセグ
メントに対応している。
【0020】また、本発明の好ましい実施の形態におい
ては、音源信号カテゴリが実際の音声に対する分析に基
づいて導き出される音声合成方法及び音声合成装置が提
供される。
【0021】本発明の好ましい実施の形態では、音源フ
ィルタ法に基づく音声合成装置の音源コンポーネントに
おいて、従来のパルス発生器を、発声音を生成するため
に検索できる形態論に基づいた音源カテゴリのライブラ
リに置換することにより、音声合成装置の性能を向上さ
せる。この音源ライブラリは、発声音の一般的な形態論
に基づき、発声音のそれぞれの特定クラスに適合した異
なるカテゴリの音源に関するパラメータを格納する。ク
ラスの例としては、例えば「破裂音の子音から開母音へ
(plosive consonant to open vowel)」、「前舌母音
から後舌母音へ(front vowel to back vowel)」、所
定の感情的音色(emotive timbre)等がある。本発明に
基づくこの音声合成装置の包括的な構造は、図3に示さ
れている。
【0022】本発明に基づく音声合成方法及び音声合成
装置では、子音と母音を表わす信号がいずれも音源と同
じ種類の音源(雑音及び/又はパルス音源からではな
く)に由来するので、より滑らかな発声音を生成するこ
とができる。
【0023】本発明においては、ライブラリは「パラメ
ータ的である」ことが望ましく、換言すれば、格納され
るパラメータは音自身ではなく音声合成用パラメータで
あることが望ましい。再合成された音声信号は、生の音
声信号として使用され、声道をモデル化する複雑なフィ
ルタ構成体に入力される。格納されるパラメータは、音
声の分析により導き出されるものであり、また、より高
い性能及び豊かな表現力を実現するために、再合成処理
の前にこれらパラメータを様々な手法により変更しても
よい。
【0024】格納されるパラメータは、実際の音声デー
タに対する分析に基づいて導き出されたフェーズボコー
ダのモジュール係数(例えばデジタルトラッキングフェ
ーズボコーダ(digital tracking phase vocoder:TP
V)又は「発振器バンク(oscillator bank)」ボコー
ダー用の係数)であってもよい。フェーズボコーダによ
る生の音声信号の再合成は、短時間フーリエ変換(Shor
t Time Fourier transform:STFT)データを振幅及
び周波数の軌道(又はエンベロープ)に変換することに
より音声信号を生成するある種の追加型再合成(additi
ve re-synthesis)である[上述のイー・アール・ミラ
ンダ(E.R.Miranda)の論文参照)。フェーズボコーダ
からの出力信号は、声道をシミュレートするフィルタ構
成体に供給される。
【0025】ライブラリをパラメータのライブラリとし
て実現することにより、音声合成処理の柔軟性が高くな
る。すなわち、これにより、異なる声門の品質をシミュ
レートするために音源合成係数を操作することができ
る。さらに、音源音の再合成処理の前に、ライブラリに
格納されているパラメータを用いて、フェーズボコーダ
に基づくスペクトル変換を行うことができ、これによ
り、より豊富な韻律を実現することができる。
【0026】また、再合成された音源信号をフィルタ構
成体に供給する前に、音源信号に対して時間的な変換処
理を施してもよい。すなわち、音源信号のピッチが時間
と変化するように音源信号を変形する(これにより最終
音的な声信号の「イントネーション」を修正する)こと
により、最終的に生成される音声信号の表現力をより豊
かにすることができる。このピッチの変更を実現する技
術としては、ピッチ同期オーバーラップ及び追加(Pitc
h-Synchronous Overlap and Add:PSOLA)技術を
用いるとよい。
【0027】
【発明の実施の形態】上述のように、発明を適用した音
声合成方法及び音声合成装置では、音源フィルタ型シン
セサイザを用いた従来の音源を、形態論に基づいた(mo
rphologically-based)音源カテゴリのパラメータのラ
イブラリに置き換える。
【0028】本発明に基づく音源モジュールからの出力
を処理するためには、声道(vocaltract)をモデリング
した音響管(waveguide)又は帯域通過フィルタ等のい
かなるフィルタ構成体を使用してもよい。さらに、フィ
ルタ構成体は、声道の応答をモデル化するのみではな
く、頭蓋骨から放射される音波を考慮することもでき
る。また、対応する従来の技術により、フィルタ構成体
内のフィルタのパラメータを制御してもよい。この技術
については、クラット(Klatt)の文献に記述されてい
る。
【0029】なお、本発明の好ましい実施の形態におい
ては、音響管はしご技術(waveguide ladder techniqu
e)を用いる。音響管はしご技術については、例えば、
1987年、アメリカ合衆国、イリノイ州ウルバナ(Ur
bana)で開催されたICMA、国際コンピュータミュー
ジック会議(international Computer Music Conferenc
e)会報、第9〜16頁記載のジェイ・オー・スミス
(J.O. Smith)著、「音響管フィルタチュートリアル
(Waveguide Filter Tutorial)」に説明されている。
音響管はしご技術は、例えば声道内壁の粘性や弾性等、
声道の非線形損失をモデルに組み込むことができ、有用
である。音響管はしご技術は、声道を含む様々な管楽器
の本体をシミュレートするために採用されている周知の
技術である。この技術については、例えば、1998
年、DAFX98会報、第223〜230頁、ピー・ア
ール・コック(Cook)著「完全なオーディオ形態素に向
けて:歌声合成及び処理(Towards the Perfect Audio
Morph? Singing Voice Synthesis and Processing)」
に説明されている。
【0030】適切なフィルタ構成及びこのフィルタ構成
に対する制御については、当分野の文献に説明されてい
るので、ここでは詳細には説明しない。
【0031】以下、本発明に基づく音源カテゴリのパラ
メータのライブラリの構築及びこのライブラリを用いた
音源音の生成について、図4〜図8を用いて詳細に説明
する。
【0032】図4は、本発明の好ましい実施の形態にお
ける音源カテゴリのパラメータのライブラリの構築の手
順を示す図である。この図では、長方形で囲まれた項目
は処理を示し、楕円形で囲まれた項目はそれぞれの処理
からの信号の入出力を示す。
【0033】図4に示すように、好ましい具体例では、
格納される信号は以下のように算出される。実際の音声
(1)が検出され、声道が音源信号に与えた調音的影響
を減算するために、逆フィルタリング処理(2)が行わ
れる(1993年、コンピュータ音楽ジャーナル(Comp
uter Music Journal)17(1)号に記載のピー・アー
ル・クック(P.R. Cook)著、「SPASM:実時間声
道物理モデル編集、制御及び歌声の生成(SPASM: A Rea
l-time Vocal Tract Physical Model Editor/Controlle
r and Singer)参照)。この逆フィルタリング処理は、
音源ストリームSに対し、応答φを有するフィルタ
により畳込処理を行った結果、発声音ω が得られたと
すると(図1参照)、この発声音ωに対して逆畳込処
理を行うことにより、音源ストリームSに近似する信
号が得られるという推論に基づいている。
【0034】
【数1】
【0035】逆畳込処理は、例えば、ケプストラム(ce
pstrum)及び線形予測符号化(linear predictive codi
ng:LPC)のような自己回帰法(autoregression met
hods)等、使用できるいかなる技術を用いて行ってもよ
い。
【0036】
【数2】
【0037】ここで、iはi番目のフィルタ係数であ
り、pはフィルタの数であり、nは雑音信号である。
1996年、アメリカ合衆国、マサチューセッツ州、ケ
ンブリッジ、MITプレス、カーティス・ロードによる
「コンピュータミュージックチュートリアル」(The Co
mputer Music Tutorial" by Curtis Roads, MIT Press,
Cambridge, Massachusetts, USA, 1996)参照。
【0038】図5は、逆のフィルタリングによる、推定
された声門信号(glottal signal)(図4に示す項目
3)の生成処理の具体例を示す図である。
【0039】推定された声門信号は、包括的な発声音形
式を包含する形態論的カテゴリに割り当てられる
(4)。形態論的カテゴリとしては、例えば「破裂音の
子音から後舌母音へ(plosive consonant to back vowe
l)」、「前舌母音から後舌母音へ(front to back vow
el)」、所定の感情的音色(emotive timbre)等があ
る。所定の形式(例えば、あるささやかれた母音)につ
いては、この形式を表わす信号は、それぞれの形式の様
々な発声音を逆フィルタリング処理して得られる推定さ
れた声門母音信号(5)を平均化することにより算出さ
れる。推定された声門信号は可変長の短い音声セグメン
トとなる。この音声セグメントの長さは、検討されてい
る声門の形態論的カテゴリを特徴づけるために必要な長
さである。与えられた形式を表わす平均化された信号
を、この明細書では「声門信号カテゴリ」(6)と呼
ぶ。
【0040】例えば、「park」の音節/pa/や
「pedestrian」の音節/pe/等の様々な実
例(instances)がシステムに入力され、システムは、
これらの実例からカテゴリ表現を構築する。この具体例
においては、生成されたカテゴリ表現に「破裂音から開
母音へ(plosive to open vowel」というラベルを付
す。例えば、「破裂音から開母音へ」の音の特定の例、
例えば/pa/音を合成する場合、ライブラリに格納さ
れている「破裂音から開母音へ」のカテゴリ表現にアク
セスして音源信号を生成する。フィルタ構成体における
フィルタのパラメータは、所望の/pa/音を生成する
ための伝達関数をこの音源信号に適応するよう、従来の
手法により設定される。
【0041】声門信号カテゴリは、さらなる処理を行う
ことなく、ライブラリに格納することもできる。しかし
ながら、ここで、カテゴリ(音源信号)そのものではな
く、カテゴリを符号化して登録するようにするとなおよ
い。詳しくは、発明の好ましい具体例においては、短時
間フーリエ変換(Short Time Fourier transform:以
下、STFTという。)アルゴリズム(図4に示す項目
7)を使用して各声門信号カテゴリを分析し、例えばフ
ェーズボコーダにより元の音源音声信号を再合成するた
めに使用できる係数(8)を生成する。続いて、これら
の再合成係数は、声門音源ライブラリ(9)に格納さ
れ、後にそれぞれの音源信号を生成するための合成処理
時に読み出される。
【0042】STFT分析は、声門信号カテゴリを互い
に重なり合うセグメントに分類し、各セグメントを所定
のエンベロープにより成形する。
【0043】
【数3】
【0044】ここで、χは入力信号であり、hn−m
は時間シフトされた窓であり、nは離散的な時間間隔で
あり、kは周波数ビン(frequency bin)のためのイン
デックスであり、Nはスペクトル(あるいは分析窓の長
さ)におけるポイント数であり、Χ(m、k)は離散的
時間間隔nにおいて、周波数ビンkに対応する、窓処理
された入力信号のフーリエ変換を表す(上述の「コンピ
ュータミュージック教本」参照)。
【0045】この分析により、振幅及び周波数の軌道
(trajectories)によるスペクトルの表現(換言すれ
ば、時間的に変化する音の部分的な周波数(周波数成
分))が生成され、これらがライブラリに格納される再
合成係数を構成する。
【0046】従来の音源フィルタ型のシンセサイザと同
様、本発明に基づく音声合成方法及び音声合成装置にお
いて発声音を合成する場合、その発声音は、最終的な発
声音全体を生成するために連続的に出力すべき一連の構
成要素の音へ分類される。声道をモデル化するフィルタ
構成体から所望の連続する音を出力するためには、その
フィルタ構成体に適切な音源ストリームを入力する必要
がある。図6は、発明の好ましい実施例として、音源ス
トリームを生成する主な手順を説明する図である。
【0047】図6に示すように、まず、発声音に含まれ
る音を識別し、音源カテゴリのライブラリからそれぞれ
のクラスの音に関連したコードを読み出す必要がある
(21)。これらのコードは、再合成器(例えば、フェ
ーズボコーダ)の係数を決定するためのものであり、理
論上、この再合成器に直接供給して、所望の音源音声信
号を再生する(27)こともできる。発明の好ましい実
施例において使用される再合成器は、付加的な正弦波技
術(sinusoidal technique)を使用して音源ストリーム
を合成するフェーズボコーダである。換言すれば、声門
の音源ライブラリから検索された振幅と周波数の軌道
は、それぞれの正弦波を出力する発振器のバンクを駆動
し、これらの波形は加算され、最終出力音源信号が生成
される(図7参照)。
【0048】一連の音から構成される発声音を合成する
とき、補間処理が実行され、これにより1つの音から次
の音までの遷移が滑らかになる。補間処理は、合成処理
(27)に先立って合成係数に適用される(24、2
5)。(なお、音源フィルタ型シンセサイザの標準のフ
ィルタ構成体と同様、このフィルタ構成体も補間処理を
行うが、この場合の補間処理は、制御回路により特定さ
れた調音位置間の補間処理である) 声門の音源カテゴリを再合成係数(例えば、振幅及び周
波数軌道を表わす係数)の形式で格納することによる主
な利点は、この信号スペクトル情報に対して、例えば、
精密なチューニング又はモーフィング(子音−母音、母
音−子音)等の目的を持って、様々な処理を行うことが
できるという点である。図6に示すように、声門の音源
ライブラリから検索された再合成係数(24)にスペク
トルの変換(25)を適用するために、必要に応じて、
適切な変換係数(22)が使用される。このようにして
変換された係数(26)は、音源ストリームの生成のた
めに再合成器に供給される。例えば、あるスペクトルか
ら別のスペクトルへの漸次的な遷移を実現するために、
音源スペクトルのエンベロープ及びスペクトルのコンテ
ンツを変更し、2つ以上のスペクトルを混合することも
できる。
【0049】声門の音源ライブラリから検索された声門
の音源カテゴリに適用できるスペクトル変換処理の具体
例を図8に示す。この変換処理には、時間伸張処理(ti
me-stretching:図8aを参照)、スペクトルシフト処
理(spectral shift:図8bを参照)、及びスペクトル
伸張処理(spectral stretching:図を8c参照)等が
含まれる。図8aに示す具体例では、部分音の振幅の軌
道が時間的に変更されている。図8b及び図8cに示す
具体例では、周波数の軌道が時間的に変更されている。
【0050】スペクトルの時間伸張処理(図8a)は、
オリジナルの音(図8aの上側に示すグラフ)の分析フ
レーム間の距離(時間的間隔)を増加させ、時間的に伸
張された音のスペクトル(図8aの下側に示すグラフ)
である変換された信号を生成する処理である。スペクト
ルシフト処理(図8b)は、スペクトルの部分間の距離
(周波数間隔)を変更する処理である。周波数成分の間
隔はオリジナルのスペクトル(図8bの上側に示すグラ
フ)においては、Δfであり、変形されたスペクトル
(図8bの下側に示すグラフ)においては、Δf’とさ
れている。ここで、Δf≠Δf’である。スペクトル伸
張処理(図8c)は、スペクトルシフト処理に類似した
処理であるが、スペクトル伸張処理の場合には、周波数
成分の間のそれぞれの距離(周波数間隔)が一定ではなく
なるという点が異なる。すなわち、スペクトルの部分間
の距離は指数関数的に増加するよう変更される。
【0051】また、再合成された音源信号におけるピッ
チの経時的な変化の仕方を変更することにより、最終的
に生成される音声信号の表現(いわゆる「感情的表
現」)を豊かにすることができる。この時間的な変換処
理により、例えば、比較的抑揚のない音声信号をより旋
律的(melodic)にしたり、あるいは、(文末のピッチ
を上げることにより)肯定文を疑問文に変換する等の処
理を行うことができる。
【0052】本発明においては、例えば上述のPSOL
A技術を用いて、この時間的な変換処理を行う。この技
術は、1992年6月発行の「音声通信(Speech Commu
nication)11,2/3号、第175〜187頁に記載
のエイチ・バルブレット(H.Valbret)、イー・ムリン
クス(E. Moulincs)及びジェイ・ピー・タルバッハ
(J.P. Tulbach)著「PSOLA技術を用いた音声変換
(Voice transformationusing PSOLA technique)」に
開示されている。
【0053】PSOLA技術は、再合成された音源信号
に対する適切な変換処理を行い、この後、変形された音
源信号は、声道をモデル化するフィルタ構成体に供給さ
れる。このように、好ましい具体例では、PSOLA技
術を具現化したモジュールにより、図6に示す音源合成
ユニット27から出力される音源信号を変換する。
【0054】上述のように、所望の特定の音を合成する
場合、音源信号は、その音のクラスあるいは形態論的カ
テゴリに対応してライブラリに格納されているカテゴリ
表現に基づいて、音源信号が生成され、フィルタ構成体
はこのクラスの所望の特定の音を生成するように既知の
手法で構成され、音源信号を変更する。フィルタ構成体
が処理する生の素材は、従来の手法により生成された音
源信号の成分より適切な成分を備えるので、本発明によ
れば良好な合成結果を得ることができる。
【0055】本発明に基づく音声合成技術は、母音と子
音を表す両方の信号が、(雑音音源及び/又はパルス音
源ではなく)音源と同じ種類の音源に由来するので、母
音と子音の間のモーフィング(morphing)がより現実に
近いものとなるという点で、上述した標準の声門のモデ
ルの制約a)を改善する。すなわち、本発明によれば、
合成された発声音がより滑らかなものとなる。
【0056】発明の好ましい実施例では、合成係数を操
作して音源信号のスペクトルを変更できるため、制約
b)及び制約c)に関する問題も著しく改善される。す
なわち、本発明に基づくシステムはより高い柔軟性を有
している。声門の質の違い(例えば、表現力のある合
成、感情の付加、個人的特性を有する特別な声のシミュ
レーション等)は、再合成プロセスを適用する前に、フ
ェーズボコーダ係数の値を変更することによりシミュレ
ートできる。これにより、現在発音中の音源に対して時
間的な変更処理を行う関数を指定でき、したがって制約
d)に関する問題も改善される。したがって、より豊富
な韻律(prosody)を得ることができる。
【0057】本発明は、音源フィルタモデルの音源要素
がフィルタ要素と同等に重要であるという見地に基づ
き、音源要素の性能及び柔軟性を改善するために技術を
提供する。特別のスペクトル処理を定義する手順を見出
すことにより、この技術の有用性はさらに高まる。実際
の声門は、音源スペクトルに非常に微妙な変化を与える
ことができるが、これらの微妙な作用をフェーズボコー
ダの係数を特定することによりシミュレートすることは
容易ではない。
【0058】なお、本発明は、上述した特定の実施の形
態の特徴によって制限されるものではない。すなわち、
添付の請求の範囲内において、上述の実施の形態を様々
に変更することができる。
【0059】また、声道のシミュレートを例に本発明を
説明したが、本発明の範囲は人間の音声を模倣するシス
テムのみに制限されるものではない。本発明は、人間の
声道が通常生成することのない、例えばロボットの声等
の音声を合成するために使用することもできる。
【図面の簡単な説明】
【図1】音源フィルタ法による音声合成の背景となる原
理を説明する図である。
【図2】音源フィルタ法に基づく従来の音声合成装置の
一般的な構造を示すブロック図である。
【図3】本発明を適用した音声シンセサイザの包括的な
構造を示すブロック図である。
【図4】発明に基づき、音源カテゴリライブラリを構築
する処理の手順を示すフローチャートである。
【図5】逆フィルタリング処理によって、音源音声信号
(推定された声門信号)がどのように生成されるかを説
明する図である。
【図6】発明に基づき、音源音を生成する手順を説明す
るフローチャートである。
【図7】発明の好ましい実施例において使用される発振
器バンクによって具現化された付加的なシヌソイド技術
を概略的に説明する図である。
【図8】本発明の好ましい実施例に基づいて定義された
声門の音源カテゴリに適用できるいくつかの異なる種類
の変換処理を説明する図であり、図8aはスペクトルの
時間伸張処理を示し、図8bはスペクトル変更処理を示
し、図8cはスペクトル伸張処理を示す図である。

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 使用時に音源信号を出力する音源モジュ
    ールと、 上記音源信号を入力信号として受信し、該音源信号に対
    し、声道の応答をモデル化するフィルタ特性を適用する
    フィルタモジュールとを備え、 上記音源モジュールは、それぞれの形態論的カテゴリに
    対応した音源カテゴリの表現が格納されたライブラリを
    備え、上記音源モジュールから出力される音源信号出力
    は、選択された音源カテゴリの表現であることを特徴と
    する音声合成装置。
  2. 【請求項2】 上記音源モジュールは、上記音源信号を
    出力する再合成器を備え、 上記表現は、上記再合成器が上記音源カテゴリを再生成
    するための再合成係数の形式で上記ライブラリに格納さ
    れていることを特徴とする請求項1記載の音声合成装
    置。
  3. 【請求項3】 上記ライブラリに格納された表現は、実
    際の音声に対し、声道によって課された調音の効果を除
    外する逆フィルタリング処理を施すことにより導き出さ
    れることを特徴とする請求項2記載の音声合成装置。
  4. 【請求項4】 上記ライブラリに格納された表現は、発
    声音のそれぞれの部分を逆畳込処理を施すことにより導
    き出されることを特徴とする請求項3記載の音声合成装
    置。
  5. 【請求項5】 特定の形態論的カテゴリに対応した上記
    音源カテゴリの表現は、形態論的カテゴリを具体化する
    複数の音声の実例に逆フィルタリング処理を施して得ら
    れた信号を平均化することにより導き出されることを特
    徴とする請求項3又は4記載の音声合成装置。
  6. 【請求項6】 上記再合成器は、上記フィルタモジュー
    ルに供給される声門信号を出力するフェーズボコーダを
    備え、 上記音源カテゴリに格納された表現を構成する再合成係
    数は、逆フィルタリングにより得られた信号を短時間フ
    ーリエ変換分析することにより得られる表現に対応する
    ことを特徴とする請求項2乃至5いずれか1項記載の音
    声合成装置。
  7. 【請求項7】 上記再合成係数に対するスペクトル変換
    処理を実行するスペクトル変換処理手段を備え、上記フ
    ェーズボコーダは上記スペクトル変換処理手段により変
    換された再合成係数に基づいて動作することを特徴とす
    る請求項6記載の音声合成装置。
  8. 【請求項8】 上記音源信号のピッチは時間関数として
    変化し、ピッチを変化させる関数を変更することにより
    音源信号を変換する音源信号変換手段を備え、上記フィ
    ルタモジュールは上記音源信号変換手段により変換され
    た音源信号に対してフィルタリング処理を行うことを特
    徴とする請求項1乃至8いずれか1項記載の音声合成装
    置。
  9. 【請求項9】 上記フィルタモジュールは、音響管はし
    ご技術により実現されることを特徴とする請求項1乃至
    8いずれか1項記載の音声合成装置。
  10. 【請求項10】 音源モジュールを準備するステップ
    と、 上記音源モジュールにより、音に関する特定の形態論的
    カテゴリに対応する音源信号を生成するステップと、 声道の応答をモデル化するフィルタ特性を有するフィル
    タモジュールを準備するステップと、 上記フィルタモジュールに上記音源信号を入力するステ
    ップとを有し、 上記音源モジュールを準備するステップは、それぞれの
    形態論的カテゴリに対応した音源カテゴリの表現が格納
    されたライブラリを備える上記音源モジュールを準備す
    るステップを有し、上記音源モジュールから出力される
    音源信号出力は、選択された音源カテゴリの表現である
    ことを特徴とする音声合成方法。
  11. 【請求項11】 上記音源モジュールは、対応する形態
    論的カテゴリを表わす再合成係数の形式でライブラリに
    格納されている表現を検索し、再合成器への該検索され
    た再合成係数を再合成器に入力し、音源信号として再合
    成器によって生成された信号を音源信号として出力する
    ことを特徴とする請求項10記載の音声合成方法。
  12. 【請求項12】 上記ライブラリに格納された表現は、
    実際の音声に対し、声道によって課された調音の効果を
    除外する逆フィルタリング処理を施すことにより導き出
    されることを特徴とする請求項11記載の音声合成方
    法。
  13. 【請求項13】 上記ライブラリに格納された表現は、
    発声音のそれぞれの部分を逆畳込処理を施すことにより
    導き出されることを特徴とする請求項12記載の音声合
    成方法。
  14. 【請求項14】 上記特定の形態論的カテゴリに対応す
    る音源カテゴリの表現は、形態論的カテゴリを具体化す
    る複数の音声の実例に逆フィルタリング処理を施して得
    られた信号を平均化することにより導き出されることを
    特徴とする請求項12又は13記載の音声合成方法。
  15. 【請求項15】 上記再合成器は、上記フィルタモジュ
    ールに供給される声門信号を生成するフェーズボコーダ
    を備え、上記音源カテゴリに格納された表現を構成する
    再合成係数は、逆フィルタリングにより得られた信号を
    短時間フーリエ変換分析することにより得られる表現に
    対応することを特徴とする請求項11乃至14いずれか
    1項記載の音声合成方法。
  16. 【請求項16】 上記検索された再合成係数にスペクト
    ル変換処理が施され、上記フェーズボコーダは、変換さ
    れた再合成係数に基づいて動作することを特徴とする請
    求項15記載の音声合成方法。
  17. 【請求項17】 上記音源信号のピッチは時間の関数と
    して変化し、ピッチを変化させる関数を変更することに
    より音源信号を変形するステップを有し、上記フィルタ
    モジュールは上記音源信号を変形するステップにより変
    形された音源信号に対してフィルタリング処理を行うこ
    とを特徴とする請求項10乃至16いずれか1項記載の
    音声合成方法。
  18. 【請求項18】 上記フィルタモジュールは、音響管は
    しご技術により実現されることを特徴とする請求項10
    乃至17記載の音声合成方法。
JP2001168648A 2000-06-02 2001-06-04 音声合成における表現力の改善 Abandoned JP2002023775A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00401560A EP1160764A1 (en) 2000-06-02 2000-06-02 Morphological categories for voice synthesis
EP00401560.8 2000-06-02

Publications (1)

Publication Number Publication Date
JP2002023775A true JP2002023775A (ja) 2002-01-25

Family

ID=8173715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001168648A Abandoned JP2002023775A (ja) 2000-06-02 2001-06-04 音声合成における表現力の改善

Country Status (4)

Country Link
US (1) US6804649B2 (ja)
EP (1) EP1160764A1 (ja)
JP (1) JP2002023775A (ja)
DE (1) DE60112512T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003088208A1 (en) * 2002-04-02 2003-10-23 Canon Kabushiki Kaisha Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
US8639511B2 (en) 2010-03-12 2014-01-28 Honda Motor Co., Ltd. Robot, method and program of correcting a robot voice in accordance with head movement

Families Citing this family (139)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7457752B2 (en) * 2001-08-14 2008-11-25 Sony France S.A. Method and apparatus for controlling the operation of an emotion synthesizing device
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7191134B2 (en) * 2002-03-25 2007-03-13 Nunally Patrick O'neal Audio psychological stress indicator alteration method and apparatus
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
GB0229860D0 (en) * 2002-12-21 2003-01-29 Ibm Method and apparatus for using computer generated voice
US8103505B1 (en) * 2003-11-19 2012-01-24 Apple Inc. Method and apparatus for speech synthesis using paralinguistic variation
US7472065B2 (en) * 2004-06-04 2008-12-30 International Business Machines Corporation Generating paralinguistic phenomena via markup in text-to-speech synthesis
EP1895516B1 (en) * 2005-06-08 2011-01-19 Panasonic Corporation Apparatus and method for widening audio signal band
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP4294724B2 (ja) * 2007-08-10 2009-07-15 パナソニック株式会社 音声分離装置、音声合成装置および声質変換装置
FR2920583A1 (fr) * 2007-08-31 2009-03-06 Alcatel Lucent Sas Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20090222268A1 (en) * 2008-03-03 2009-09-03 Qnx Software Systems (Wavemakers), Inc. Speech synthesis system having artificial excitation signal
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
KR101214402B1 (ko) * 2008-05-30 2012-12-21 노키아 코포레이션 개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
CN101983402B (zh) * 2008-09-16 2012-06-27 松下电器产业株式会社 声音分析装置、方法、系统、合成装置、及校正规则信息生成装置、方法
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
WO2012112985A2 (en) * 2011-02-18 2012-08-23 The General Hospital Corporation System and methods for evaluating vocal function using an impedance-based inverse filtering of neck surface acceleration
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102103057B1 (ko) 2013-02-07 2020-04-21 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10872598B2 (en) 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
US10872596B2 (en) * 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US11017761B2 (en) * 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
JP6992612B2 (ja) * 2018-03-09 2022-01-13 ヤマハ株式会社 音声処理方法および音声処理装置
EP3857541B1 (en) * 2018-09-30 2023-07-19 Microsoft Technology Licensing, LLC Speech waveform generation
EP3970141B1 (en) * 2019-05-14 2024-02-28 Dolby Laboratories Licensing Corporation Method and apparatus for speech source separation based on a convolutional neural network
CN112614477B (zh) * 2020-11-16 2023-09-12 北京百度网讯科技有限公司 多媒体音频的合成方法、装置、电子设备和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3982070A (en) 1974-06-05 1976-09-21 Bell Telephone Laboratories, Incorporated Phase vocoder speech synthesis system
US3995116A (en) 1974-11-18 1976-11-30 Bell Telephone Laboratories, Incorporated Emphasis controlled speech synthesizer
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
US5528726A (en) * 1992-01-27 1996-06-18 The Board Of Trustees Of The Leland Stanford Junior University Digital waveguide speech synthesis system and method
US5473759A (en) * 1993-02-22 1995-12-05 Apple Computer, Inc. Sound analysis and resynthesis using correlograms
JPH08254993A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 音声合成装置
US6182042B1 (en) * 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6195632B1 (en) * 1998-11-25 2001-02-27 Matsushita Electric Industrial Co., Ltd. Extracting formant-based source-filter data for coding and synthesis employing cost function and inverse filtering
US6526325B1 (en) * 1999-10-15 2003-02-25 Creative Technology Ltd. Pitch-Preserved digital audio playback synchronized to asynchronous clock

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003088208A1 (en) * 2002-04-02 2003-10-23 Canon Kabushiki Kaisha Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
US7487093B2 (en) 2002-04-02 2009-02-03 Canon Kabushiki Kaisha Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
US8639511B2 (en) 2010-03-12 2014-01-28 Honda Motor Co., Ltd. Robot, method and program of correcting a robot voice in accordance with head movement

Also Published As

Publication number Publication date
DE60112512T2 (de) 2006-03-30
DE60112512D1 (de) 2005-09-15
US20020026315A1 (en) 2002-02-28
US6804649B2 (en) 2004-10-12
EP1160764A1 (en) 2001-12-05

Similar Documents

Publication Publication Date Title
US6804649B2 (en) Expressivity of voice synthesis by emphasizing source signal features
US8744854B1 (en) System and method for voice transformation
Tabet et al. Speech synthesis techniques. A survey
Macon et al. A singing voice synthesis system based on sinusoidal modeling
Umbert et al. Expression control in singing voice synthesis: Features, approaches, evaluation, and challenges
Schröder et al. Synthesis of emotional speech
EP0561752B1 (en) A method and an arrangement for speech synthesis
Yadav et al. Prosodic mapping using neural networks for emotion conversion in Hindi language
Bonada et al. Spectral approach to the modeling of the singing voice
Bonada et al. Sample-based singing voice synthesizer using spectral models and source-filter decomposition
EP1160766B1 (en) Coding the expressivity in voice synthesis
JPH1165597A (ja) 音声合成装置、音声合成及びcg合成出力装置、ならびに対話装置
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
Rajan Singing Voice Synthesis System for Carnatic Music
JPH11161297A (ja) 音声合成方法及び装置
Anil et al. Pitch and duration modification for expressive speech synthesis in Marathi TTS system
Freixes Guerreiro et al. A unit selection text-to-speech-and-singing synthesis framework from neutral speech: proof of concept
d’Alessandro Realtime and Accurate Musical Control of Expression in Voice Synthesis
Wilson et al. Experiments in Making VOCALOID Synthesis More Human-like Using Deep Learning
Datta et al. Introduction to ESOLA
JPH06250685A (ja) 音声合成方式および規則合成装置
Singh et al. Removal of spectral discontinuity in concatenated speech waveform
Serra et al. Synthesis of the singing voice by performance sampling and spectral models
Umbert Morist et al. Expression control in singing voice synthesis: features, approaches, evaluation, and challenges
Miranda A phase vocoder model of the glottis for expressive voice synthesis

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080325

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080331

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080528

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20091218