JP2002023775A - 音声合成における表現力の改善 - Google Patents
音声合成における表現力の改善Info
- Publication number
- JP2002023775A JP2002023775A JP2001168648A JP2001168648A JP2002023775A JP 2002023775 A JP2002023775 A JP 2002023775A JP 2001168648 A JP2001168648 A JP 2001168648A JP 2001168648 A JP2001168648 A JP 2001168648A JP 2002023775 A JP2002023775 A JP 2002023775A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- signal
- category
- speech
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 32
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000001914 filtration Methods 0.000 claims abstract description 21
- 230000000877 morphologic effect Effects 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 31
- 238000001228 spectrum Methods 0.000 claims description 31
- 230000001755 vocal effect Effects 0.000 claims description 26
- 238000001308 synthesis method Methods 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 abstract description 9
- 210000004704 glottis Anatomy 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 208000005392 Spasm Diseases 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 101150110330 CRAT gene Proteins 0.000 description 1
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
- Toys (AREA)
Abstract
(57)【要約】 (修正有)
【課題】 音源フィルタ法に基づく音声合成装置の音源
モジュールにおいて、音源カテゴリのライブラリを用い
ることにより、音声合成の表現力を向上させる。 【解決手段】 各音源音カテゴリは特定の形態論的なカ
テゴリに相当し、実際の音声に対し、声道の影響を除去
する逆フィルタリング処理を施すことにより得られる。
ライブラリはパラメータを格納してもよく、すなわち、
格納されるデータは、逆フィルタリング処理により得ら
れた音そのものではなく、逆フィルタリング処理により
得られた音を例えばフェーズボコーダ技術等の適切な再
合成技術により再合成するための合成係数であってもよ
い。これら係数はSTFT分析によって導き出される。
モジュールにおいて、音源カテゴリのライブラリを用い
ることにより、音声合成の表現力を向上させる。 【解決手段】 各音源音カテゴリは特定の形態論的なカ
テゴリに相当し、実際の音声に対し、声道の影響を除去
する逆フィルタリング処理を施すことにより得られる。
ライブラリはパラメータを格納してもよく、すなわち、
格納されるデータは、逆フィルタリング処理により得ら
れた音そのものではなく、逆フィルタリング処理により
得られた音を例えばフェーズボコーダ技術等の適切な再
合成技術により再合成するための合成係数であってもよ
い。これら係数はSTFT分析によって導き出される。
Description
【0001】
【本発明の属する技術分野】本発明は音声合成の分野に
関し、特に、音声シンセサイザによって生成された音声
の表現力を向上させる手法に関する。
関し、特に、音声シンセサイザによって生成された音声
の表現力を向上させる手法に関する。
【0002】
【従来の技術】近年、特にテキスト−音声(text-to-sp
eech:以下、TTSという。)合成の分野において、音
声合成技術が著しく進歩している。音声合成の方法に
は、サンプリング法(連結法(concatenative approac
h)又は2音声法(diphone-basedapproach)とも呼ばれ
る。)と、音源フィルタ法(source-filter approach)
又は調音法(articulatory approach)といった2つの
基本的な方法がある。この点については、1998年、
英国、オックスフォードのフォーカルプレス(Focal Pr
ess)社発刊、イー・アール・ミランダ(E.R. Mirand
a)著、「電子音楽家のためのコンピュータ音声合成(C
omputer Sound Synthesis)」に記載されている。
eech:以下、TTSという。)合成の分野において、音
声合成技術が著しく進歩している。音声合成の方法に
は、サンプリング法(連結法(concatenative approac
h)又は2音声法(diphone-basedapproach)とも呼ばれ
る。)と、音源フィルタ法(source-filter approach)
又は調音法(articulatory approach)といった2つの
基本的な方法がある。この点については、1998年、
英国、オックスフォードのフォーカルプレス(Focal Pr
ess)社発刊、イー・アール・ミランダ(E.R. Mirand
a)著、「電子音楽家のためのコンピュータ音声合成(C
omputer Sound Synthesis)」に記載されている。
【0003】サンプリング法は、インデックスが付さ
れ、デジタル的に記録された例えば音節等の短い音声セ
グメントのデータベースを利用する。発話音を再生する
場合、再生エンジンは、記録されている適切な短いセグ
メントを連続的に結合して必要な単語を組み立てる。記
録されている音声を分析し、これら記録されている音声
がデータベース内でより効果的に表現されるような処理
を行う方法もある。この他に、短い発話セグメントを符
号化した形式で記録する手法もある。例えば、米国特許
第3982070号及び第3995116号では、必要
な音を再生するためにフェーズボコーダ(phase vocode
r)において必要とされる係数を表す信号を記録する。
れ、デジタル的に記録された例えば音節等の短い音声セ
グメントのデータベースを利用する。発話音を再生する
場合、再生エンジンは、記録されている適切な短いセグ
メントを連続的に結合して必要な単語を組み立てる。記
録されている音声を分析し、これら記録されている音声
がデータベース内でより効果的に表現されるような処理
を行う方法もある。この他に、短い発話セグメントを符
号化した形式で記録する手法もある。例えば、米国特許
第3982070号及び第3995116号では、必要
な音を再生するためにフェーズボコーダ(phase vocode
r)において必要とされる係数を表す信号を記録する。
【0004】サンプリング法は、通常、TTSシステム
を構築するために適した方法であり、実際、現在市販さ
れているコンピュータ音声システムの多くにおいて、中
核となる技術として使用されている。
を構築するために適した方法であり、実際、現在市販さ
れているコンピュータ音声システムの多くにおいて、中
核となる技術として使用されている。
【0005】音源フィルタ法は、図1に示すように、人
間の声道の機能を真似ることにより、スクラッチ(scra
tch)から音声を生成する方法である。音源フィルタモ
デルは、生の音源信号(raw source signal)を生成
し、この生の音源信号を複雑なフィルタ構成体(comple
x filter arrangement)により成形することにより音声
の生成をシミュレートする。この技術については、例え
ば、1980年、アメリカ音響学会ジャーナル(Journa
l of the Acoustical Society of America)63(2)
号第971〜995頁に記載されているディー・クラッ
トによる「縦続/並列ホルマントシンセサイザ用ソフト
ウェア(Software for a Cascade/Parallel Formant Sy
nthesiser)」等に説明されている。
間の声道の機能を真似ることにより、スクラッチ(scra
tch)から音声を生成する方法である。音源フィルタモ
デルは、生の音源信号(raw source signal)を生成
し、この生の音源信号を複雑なフィルタ構成体(comple
x filter arrangement)により成形することにより音声
の生成をシミュレートする。この技術については、例え
ば、1980年、アメリカ音響学会ジャーナル(Journa
l of the Acoustical Society of America)63(2)
号第971〜995頁に記載されているディー・クラッ
トによる「縦続/並列ホルマントシンセサイザ用ソフト
ウェア(Software for a Cascade/Parallel Formant Sy
nthesiser)」等に説明されている。
【0006】人間の場合、生の音源は、声門(左右声帯
間の隙間)により生成された振動から生じる音に対応
し、複雑なフィルタは、音声が通過する声道に対応す
る。複雑なフィルタは、様々な方法で実現できる。包括
的には、音声が通過する声道は、鼻孔への分岐管を有す
る管とみなされ、この管はいくつかの部分に分割され、
各部分の共鳴がフィルタによりシミュレートされる。
間の隙間)により生成された振動から生じる音に対応
し、複雑なフィルタは、音声が通過する声道に対応す
る。複雑なフィルタは、様々な方法で実現できる。包括
的には、音声が通過する声道は、鼻孔への分岐管を有す
る管とみなされ、この管はいくつかの部分に分割され、
各部分の共鳴がフィルタによりシミュレートされる。
【0007】これらのフィルタのパラメータを容易に特
定するために、この方法は、例えば、特定の音声を発声
する場合における舌、顎、唇の位置等の調音情報(arti
culatory information)をフィルタのパラメータに変換
するインターフェイスを備える。このため、音源フィル
タモデルは、調音モデル(articulatory model)とも呼
ばれる。この調音モデルについては、1973年アメリ
カ音響学会ジャーナル(Journal of the Acoustical So
ciety of America)53(4)号第1070〜1082
頁に記載のピー・マーメルスタイン(P. Mermelstein)
著「音声生成研究のための調音モデル(Articulatory M
odel for the Study of Speech Production)」に説明
されている。音声は、ある調音位置(articulatory pos
ition)の組から次の調音位置の組にどのように移動す
るかをプログラムに指示することにより再生される。換
言すれば、制御ユニットは、連続的時間の各時刻におけ
る音源及びフィルタを設定し、調音位置の組が連続する
時刻に亘ってどのように移動するかを定義することによ
り発声音の合成を制御する。すなわちこの手法では、1
つの調音位置及び音源の組から次の連続する時刻におけ
る次の調音位置及び音源の組にシステムをどのように移
動させるかを指示する。
定するために、この方法は、例えば、特定の音声を発声
する場合における舌、顎、唇の位置等の調音情報(arti
culatory information)をフィルタのパラメータに変換
するインターフェイスを備える。このため、音源フィル
タモデルは、調音モデル(articulatory model)とも呼
ばれる。この調音モデルについては、1973年アメリ
カ音響学会ジャーナル(Journal of the Acoustical So
ciety of America)53(4)号第1070〜1082
頁に記載のピー・マーメルスタイン(P. Mermelstein)
著「音声生成研究のための調音モデル(Articulatory M
odel for the Study of Speech Production)」に説明
されている。音声は、ある調音位置(articulatory pos
ition)の組から次の調音位置の組にどのように移動す
るかをプログラムに指示することにより再生される。換
言すれば、制御ユニットは、連続的時間の各時刻におけ
る音源及びフィルタを設定し、調音位置の組が連続する
時刻に亘ってどのように移動するかを定義することによ
り発声音の合成を制御する。すなわちこの手法では、1
つの調音位置及び音源の組から次の連続する時刻におけ
る次の調音位置及び音源の組にシステムをどのように移
動させるかを指示する。
【0008】言語展開(language evolution)の基本的
なメカニズムの研究に使用するために、より高性能な音
声シンセサイザの実現が望まれている。このような研究
は、例えば、コンピュータ及びロボット装置の言語能力
を向上させることを目的としている。これらの基本的な
メカニズムの1つとしては、音声学的及び韻律的レパー
トリ(phonetic and prosodic repertoires)の出現も
含まれる。これらのメカニズムに関する研究は、以下の
ような能力を有する音声シンセサイザが必要である。す
なわち、この音声シンセサイザは、i)自己組織化(se
lf-organisation)及びモジュール性(modularity)等
の進化的研究パラダイム(evolutionaryresearch parad
igms)をサポートする能力、ii)音声の生成及び知覚
の両方を表す知識表現(knowledge representation)の
統一的な形式( unified form)をサポートし、これに
より話す能力及び聴く能力が同じ知覚モータメカニズム
(sensory-motor mechanisms)を共有するという仮定を
サポートする能力、iii)豊かな表現力で話し、歌う
ことを可能にする能力(感情及びパラ言語的特徴(para
linguistic features)を含む)を有している。
なメカニズムの研究に使用するために、より高性能な音
声シンセサイザの実現が望まれている。このような研究
は、例えば、コンピュータ及びロボット装置の言語能力
を向上させることを目的としている。これらの基本的な
メカニズムの1つとしては、音声学的及び韻律的レパー
トリ(phonetic and prosodic repertoires)の出現も
含まれる。これらのメカニズムに関する研究は、以下の
ような能力を有する音声シンセサイザが必要である。す
なわち、この音声シンセサイザは、i)自己組織化(se
lf-organisation)及びモジュール性(modularity)等
の進化的研究パラダイム(evolutionaryresearch parad
igms)をサポートする能力、ii)音声の生成及び知覚
の両方を表す知識表現(knowledge representation)の
統一的な形式( unified form)をサポートし、これに
より話す能力及び聴く能力が同じ知覚モータメカニズム
(sensory-motor mechanisms)を共有するという仮定を
サポートする能力、iii)豊かな表現力で話し、歌う
ことを可能にする能力(感情及びパラ言語的特徴(para
linguistic features)を含む)を有している。
【0009】サンプリング法に基づくシンセサイザは、
上述した要件のいずれをも満たさない。一方、音源フィ
ルタ法は、上述の要件i)及び要件ii)を満たすが、
これまでに提案されているシステムは、要件iii)を
満たしておらず、この要件iii)を満たすよう改善す
る必要がある。
上述した要件のいずれをも満たさない。一方、音源フィ
ルタ法は、上述の要件i)及び要件ii)を満たすが、
これまでに提案されているシステムは、要件iii)を
満たしておらず、この要件iii)を満たすよう改善す
る必要がある。
【0010】本願発明者らは、音源フィルタ法に基づい
た従来の音声合成に使用される調音シミュレーション
は、シンセサイザのフィルタ部分においては十分に機能
するが、音源信号の重要性を大きく見落としてしまうこ
とを見出した。声門の重要性をより慎重に分析すること
により、音源フィルタ合成の品質及び柔軟性を実質的に
改善することができる。
た従来の音声合成に使用される調音シミュレーション
は、シンセサイザのフィルタ部分においては十分に機能
するが、音源信号の重要性を大きく見落としてしまうこ
とを見出した。声門の重要性をより慎重に分析すること
により、音源フィルタ合成の品質及び柔軟性を実質的に
改善することができる。
【0011】標準的な手法は、以下の2つの音源生成器
を用いて音源コンポーネントを具現化することである。
すなわち、第1の生成器は、白色雑音生成器(子音の生
成のシミュレート)であり、第2の生成器は、周期的高
調波パルス生成器(母音の生成のシミュレート)であ
る。この従来の音声シンセサイザの一般的な構造を図2
に示す。各生成器がフィルタに供給する信号の量を精密
に制御することによって、真声帯の(母音のための)緊
張又は(子音のための)緩和を粗くシミュレートするこ
とができる。この方法に関する主な制約は次のとおりで
ある。
を用いて音源コンポーネントを具現化することである。
すなわち、第1の生成器は、白色雑音生成器(子音の生
成のシミュレート)であり、第2の生成器は、周期的高
調波パルス生成器(母音の生成のシミュレート)であ
る。この従来の音声シンセサイザの一般的な構造を図2
に示す。各生成器がフィルタに供給する信号の量を精密
に制御することによって、真声帯の(母音のための)緊
張又は(子音のための)緩和を粗くシミュレートするこ
とができる。この方法に関する主な制約は次のとおりで
ある。
【0012】a) 雑音信号及びパルス信号の混合によ
り生成される音は、現実的な音に聞こえない。すなわ
ち、雑音信号及びパルス信号は、完全に異なる性質を有
しているので、雑音信号及びパルス信号は良好に混合さ
れない。さらに、(子音と母音で単語を構成するために
必要な)雑音からパルスへ、あるいはパルスから雑音へ
の高速な切換により、摩擦音のような雑音("buzzy" vo
ice)が生じてしまう。
り生成される音は、現実的な音に聞こえない。すなわ
ち、雑音信号及びパルス信号は、完全に異なる性質を有
しているので、雑音信号及びパルス信号は良好に混合さ
れない。さらに、(子音と母音で単語を構成するために
必要な)雑音からパルスへ、あるいはパルスから雑音へ
の高速な切換により、摩擦音のような雑音("buzzy" vo
ice)が生じてしまう。
【0013】b) パルス信号のスペクトルは、その基
本周波数の高調波から構成される(すなわちFO、2*
FO、2*(2*FO)、2*(2*(2*FO))
等)。これは、音源信号の成分がフィルタに入力される
以前には変化できないことを意味し、したがって音声の
音質が制限される。
本周波数の高調波から構成される(すなわちFO、2*
FO、2*(2*FO)、2*(2*(2*FO))
等)。これは、音源信号の成分がフィルタに入力される
以前には変化できないことを意味し、したがって音声の
音質が制限される。
【0014】c) パルス信号のスペクトルは固定され
たエンベロープを有し、このエンベロープにおいて、各
高調波のエネルギは、周波数が2倍になる毎に−6dB
ずつ、指数関数的に減少する。音源信号は、常に同じス
ペクトル構成を有しているため、音声の音色のニュアン
スを柔軟に表現することができない。また、高周波ホル
マントのエネルギを高めなくてはならない場合、高周波
ホルマントは、不当に表現されてしまう。
たエンベロープを有し、このエンベロープにおいて、各
高調波のエネルギは、周波数が2倍になる毎に−6dB
ずつ、指数関数的に減少する。音源信号は、常に同じス
ペクトル構成を有しているため、音声の音色のニュアン
スを柔軟に表現することができない。また、高周波ホル
マントのエネルギを高めなくてはならない場合、高周波
ホルマントは、不当に表現されてしまう。
【0015】d) 上述のb)及びc)に加えて、音源
信号のスペクトルは動的な軌道(dynamical trajector
y)を欠く。すなわち、スペクトル成分間の周波数距離
及びそれらの振幅は、いずれも所定の期間にいて最初か
ら最後まで不変であり、このため時間的な変化を表現で
きず、合成された音声では音声の動的な軌道である抑揚
を表現できない。
信号のスペクトルは動的な軌道(dynamical trajector
y)を欠く。すなわち、スペクトル成分間の周波数距離
及びそれらの振幅は、いずれも所定の期間にいて最初か
ら最後まで不変であり、このため時間的な変化を表現で
きず、合成された音声では音声の動的な軌道である抑揚
を表現できない。
【0016】米国特許第5,528,726号(クッ
ク:Cook)には、音源フィルタ法に基づいて異なる声門
音源信号を合成する音声合成装置が開示されている。こ
の音声合成装置では、フィルタ構成体は、デジタル音響
管ネットワーク(digital waveguide network)を使用
する。また、事前に定義された音声信号の組を生成する
ための音響管結合制御パラメータ(waveguide junction
control parameters)及び関連する声門音源信号パラ
メータの組を格納するパラメータライブラリが採用され
ている。このシステムでは、余弦2乗波形(raised cos
ine waveshape)として開始され、続いてゼロに落ち、
ゼロが継続する直線部(閉鎖端:closingedge)が続く
波形により、異なる声門の音源信号を生成する基礎的な
声門パルスが模倣される。ここでは、開口スロープ(op
ening slope)及び時間を固定させて、閉鎖端の開始位
置及び終了位置を変更させることにより、異なる声門音
源信号が形成される。クックのシステムでは、これらの
異なる声門の音源信号の表現ではなく、異なる音源信号
のフーリエ級数表現のパラメータをデータとして保存す
る。
ク:Cook)には、音源フィルタ法に基づいて異なる声門
音源信号を合成する音声合成装置が開示されている。こ
の音声合成装置では、フィルタ構成体は、デジタル音響
管ネットワーク(digital waveguide network)を使用
する。また、事前に定義された音声信号の組を生成する
ための音響管結合制御パラメータ(waveguide junction
control parameters)及び関連する声門音源信号パラ
メータの組を格納するパラメータライブラリが採用され
ている。このシステムでは、余弦2乗波形(raised cos
ine waveshape)として開始され、続いてゼロに落ち、
ゼロが継続する直線部(閉鎖端:closingedge)が続く
波形により、異なる声門の音源信号を生成する基礎的な
声門パルスが模倣される。ここでは、開口スロープ(op
ening slope)及び時間を固定させて、閉鎖端の開始位
置及び終了位置を変更させることにより、異なる声門音
源信号が形成される。クックのシステムでは、これらの
異なる声門の音源信号の表現ではなく、異なる音源信号
のフーリエ級数表現のパラメータをデータとして保存す
る。
【0017】クックのシステムは、ライブラリに格納さ
れたパラメータに基づいて、異なる種類の声門音源信号
の合成を行うが、声道(vocal tract)をモデル化する
フィルタ構成体による後続するフィルタ処理のために、
異なる種類の音源信号は、余弦2乗関数により導出され
たそれぞれの基礎的なパルス波形の単一のサイクルに基
づいて生成されている。さらに、クックのシステムは、
異なる種類の音源信号の最適化を行わないため、包括的
な音源フィルタ型のシンセサイザからの最終的な音声信
号出力の表現力を改善することはできない。
れたパラメータに基づいて、異なる種類の声門音源信号
の合成を行うが、声道(vocal tract)をモデル化する
フィルタ構成体による後続するフィルタ処理のために、
異なる種類の音源信号は、余弦2乗関数により導出され
たそれぞれの基礎的なパルス波形の単一のサイクルに基
づいて生成されている。さらに、クックのシステムは、
異なる種類の音源信号の最適化を行わないため、包括的
な音源フィルタ型のシンセサイザからの最終的な音声信
号出力の表現力を改善することはできない。
【0018】
【発明の開示】本発明の好ましい実施の形態では、上述
の要件i)〜iii)をすべて満たし、制約a)〜d)
に関する問題を解決する音声合成方法及び音声合成装置
を提供する。特に、本発明の好ましい実施の形態は、そ
れぞれが形態論的カテゴリに対応する音源カテゴリのパ
ラメータのライブラリを用いることにより、合成された
音声の表現力を改善する(上述の要件iii))。
の要件i)〜iii)をすべて満たし、制約a)〜d)
に関する問題を解決する音声合成方法及び音声合成装置
を提供する。特に、本発明の好ましい実施の形態は、そ
れぞれが形態論的カテゴリに対応する音源カテゴリのパ
ラメータのライブラリを用いることにより、合成された
音声の表現力を改善する(上述の要件iii))。
【0019】本発明の好ましい実施の形態に示す音声合
成方法及び音声合成装置においては、音源信号は、自在
な長さを有する波形に基づいて生成され、この波形は、
実質的にいかなる形状を有することもできる波形の複数
回の繰り返しサイクルを含むことができる音の短いセグ
メントに対応している。
成方法及び音声合成装置においては、音源信号は、自在
な長さを有する波形に基づいて生成され、この波形は、
実質的にいかなる形状を有することもできる波形の複数
回の繰り返しサイクルを含むことができる音の短いセグ
メントに対応している。
【0020】また、本発明の好ましい実施の形態におい
ては、音源信号カテゴリが実際の音声に対する分析に基
づいて導き出される音声合成方法及び音声合成装置が提
供される。
ては、音源信号カテゴリが実際の音声に対する分析に基
づいて導き出される音声合成方法及び音声合成装置が提
供される。
【0021】本発明の好ましい実施の形態では、音源フ
ィルタ法に基づく音声合成装置の音源コンポーネントに
おいて、従来のパルス発生器を、発声音を生成するため
に検索できる形態論に基づいた音源カテゴリのライブラ
リに置換することにより、音声合成装置の性能を向上さ
せる。この音源ライブラリは、発声音の一般的な形態論
に基づき、発声音のそれぞれの特定クラスに適合した異
なるカテゴリの音源に関するパラメータを格納する。ク
ラスの例としては、例えば「破裂音の子音から開母音へ
(plosive consonant to open vowel)」、「前舌母音
から後舌母音へ(front vowel to back vowel)」、所
定の感情的音色(emotive timbre)等がある。本発明に
基づくこの音声合成装置の包括的な構造は、図3に示さ
れている。
ィルタ法に基づく音声合成装置の音源コンポーネントに
おいて、従来のパルス発生器を、発声音を生成するため
に検索できる形態論に基づいた音源カテゴリのライブラ
リに置換することにより、音声合成装置の性能を向上さ
せる。この音源ライブラリは、発声音の一般的な形態論
に基づき、発声音のそれぞれの特定クラスに適合した異
なるカテゴリの音源に関するパラメータを格納する。ク
ラスの例としては、例えば「破裂音の子音から開母音へ
(plosive consonant to open vowel)」、「前舌母音
から後舌母音へ(front vowel to back vowel)」、所
定の感情的音色(emotive timbre)等がある。本発明に
基づくこの音声合成装置の包括的な構造は、図3に示さ
れている。
【0022】本発明に基づく音声合成方法及び音声合成
装置では、子音と母音を表わす信号がいずれも音源と同
じ種類の音源(雑音及び/又はパルス音源からではな
く)に由来するので、より滑らかな発声音を生成するこ
とができる。
装置では、子音と母音を表わす信号がいずれも音源と同
じ種類の音源(雑音及び/又はパルス音源からではな
く)に由来するので、より滑らかな発声音を生成するこ
とができる。
【0023】本発明においては、ライブラリは「パラメ
ータ的である」ことが望ましく、換言すれば、格納され
るパラメータは音自身ではなく音声合成用パラメータで
あることが望ましい。再合成された音声信号は、生の音
声信号として使用され、声道をモデル化する複雑なフィ
ルタ構成体に入力される。格納されるパラメータは、音
声の分析により導き出されるものであり、また、より高
い性能及び豊かな表現力を実現するために、再合成処理
の前にこれらパラメータを様々な手法により変更しても
よい。
ータ的である」ことが望ましく、換言すれば、格納され
るパラメータは音自身ではなく音声合成用パラメータで
あることが望ましい。再合成された音声信号は、生の音
声信号として使用され、声道をモデル化する複雑なフィ
ルタ構成体に入力される。格納されるパラメータは、音
声の分析により導き出されるものであり、また、より高
い性能及び豊かな表現力を実現するために、再合成処理
の前にこれらパラメータを様々な手法により変更しても
よい。
【0024】格納されるパラメータは、実際の音声デー
タに対する分析に基づいて導き出されたフェーズボコー
ダのモジュール係数(例えばデジタルトラッキングフェ
ーズボコーダ(digital tracking phase vocoder:TP
V)又は「発振器バンク(oscillator bank)」ボコー
ダー用の係数)であってもよい。フェーズボコーダによ
る生の音声信号の再合成は、短時間フーリエ変換(Shor
t Time Fourier transform:STFT)データを振幅及
び周波数の軌道(又はエンベロープ)に変換することに
より音声信号を生成するある種の追加型再合成(additi
ve re-synthesis)である[上述のイー・アール・ミラ
ンダ(E.R.Miranda)の論文参照)。フェーズボコーダ
からの出力信号は、声道をシミュレートするフィルタ構
成体に供給される。
タに対する分析に基づいて導き出されたフェーズボコー
ダのモジュール係数(例えばデジタルトラッキングフェ
ーズボコーダ(digital tracking phase vocoder:TP
V)又は「発振器バンク(oscillator bank)」ボコー
ダー用の係数)であってもよい。フェーズボコーダによ
る生の音声信号の再合成は、短時間フーリエ変換(Shor
t Time Fourier transform:STFT)データを振幅及
び周波数の軌道(又はエンベロープ)に変換することに
より音声信号を生成するある種の追加型再合成(additi
ve re-synthesis)である[上述のイー・アール・ミラ
ンダ(E.R.Miranda)の論文参照)。フェーズボコーダ
からの出力信号は、声道をシミュレートするフィルタ構
成体に供給される。
【0025】ライブラリをパラメータのライブラリとし
て実現することにより、音声合成処理の柔軟性が高くな
る。すなわち、これにより、異なる声門の品質をシミュ
レートするために音源合成係数を操作することができ
る。さらに、音源音の再合成処理の前に、ライブラリに
格納されているパラメータを用いて、フェーズボコーダ
に基づくスペクトル変換を行うことができ、これによ
り、より豊富な韻律を実現することができる。
て実現することにより、音声合成処理の柔軟性が高くな
る。すなわち、これにより、異なる声門の品質をシミュ
レートするために音源合成係数を操作することができ
る。さらに、音源音の再合成処理の前に、ライブラリに
格納されているパラメータを用いて、フェーズボコーダ
に基づくスペクトル変換を行うことができ、これによ
り、より豊富な韻律を実現することができる。
【0026】また、再合成された音源信号をフィルタ構
成体に供給する前に、音源信号に対して時間的な変換処
理を施してもよい。すなわち、音源信号のピッチが時間
と変化するように音源信号を変形する(これにより最終
音的な声信号の「イントネーション」を修正する)こと
により、最終的に生成される音声信号の表現力をより豊
かにすることができる。このピッチの変更を実現する技
術としては、ピッチ同期オーバーラップ及び追加(Pitc
h-Synchronous Overlap and Add:PSOLA)技術を
用いるとよい。
成体に供給する前に、音源信号に対して時間的な変換処
理を施してもよい。すなわち、音源信号のピッチが時間
と変化するように音源信号を変形する(これにより最終
音的な声信号の「イントネーション」を修正する)こと
により、最終的に生成される音声信号の表現力をより豊
かにすることができる。このピッチの変更を実現する技
術としては、ピッチ同期オーバーラップ及び追加(Pitc
h-Synchronous Overlap and Add:PSOLA)技術を
用いるとよい。
【0027】
【発明の実施の形態】上述のように、発明を適用した音
声合成方法及び音声合成装置では、音源フィルタ型シン
セサイザを用いた従来の音源を、形態論に基づいた(mo
rphologically-based)音源カテゴリのパラメータのラ
イブラリに置き換える。
声合成方法及び音声合成装置では、音源フィルタ型シン
セサイザを用いた従来の音源を、形態論に基づいた(mo
rphologically-based)音源カテゴリのパラメータのラ
イブラリに置き換える。
【0028】本発明に基づく音源モジュールからの出力
を処理するためには、声道(vocaltract)をモデリング
した音響管(waveguide)又は帯域通過フィルタ等のい
かなるフィルタ構成体を使用してもよい。さらに、フィ
ルタ構成体は、声道の応答をモデル化するのみではな
く、頭蓋骨から放射される音波を考慮することもでき
る。また、対応する従来の技術により、フィルタ構成体
内のフィルタのパラメータを制御してもよい。この技術
については、クラット(Klatt)の文献に記述されてい
る。
を処理するためには、声道(vocaltract)をモデリング
した音響管(waveguide)又は帯域通過フィルタ等のい
かなるフィルタ構成体を使用してもよい。さらに、フィ
ルタ構成体は、声道の応答をモデル化するのみではな
く、頭蓋骨から放射される音波を考慮することもでき
る。また、対応する従来の技術により、フィルタ構成体
内のフィルタのパラメータを制御してもよい。この技術
については、クラット(Klatt)の文献に記述されてい
る。
【0029】なお、本発明の好ましい実施の形態におい
ては、音響管はしご技術(waveguide ladder techniqu
e)を用いる。音響管はしご技術については、例えば、
1987年、アメリカ合衆国、イリノイ州ウルバナ(Ur
bana)で開催されたICMA、国際コンピュータミュー
ジック会議(international Computer Music Conferenc
e)会報、第9〜16頁記載のジェイ・オー・スミス
(J.O. Smith)著、「音響管フィルタチュートリアル
(Waveguide Filter Tutorial)」に説明されている。
音響管はしご技術は、例えば声道内壁の粘性や弾性等、
声道の非線形損失をモデルに組み込むことができ、有用
である。音響管はしご技術は、声道を含む様々な管楽器
の本体をシミュレートするために採用されている周知の
技術である。この技術については、例えば、1998
年、DAFX98会報、第223〜230頁、ピー・ア
ール・コック(Cook)著「完全なオーディオ形態素に向
けて:歌声合成及び処理(Towards the Perfect Audio
Morph? Singing Voice Synthesis and Processing)」
に説明されている。
ては、音響管はしご技術(waveguide ladder techniqu
e)を用いる。音響管はしご技術については、例えば、
1987年、アメリカ合衆国、イリノイ州ウルバナ(Ur
bana)で開催されたICMA、国際コンピュータミュー
ジック会議(international Computer Music Conferenc
e)会報、第9〜16頁記載のジェイ・オー・スミス
(J.O. Smith)著、「音響管フィルタチュートリアル
(Waveguide Filter Tutorial)」に説明されている。
音響管はしご技術は、例えば声道内壁の粘性や弾性等、
声道の非線形損失をモデルに組み込むことができ、有用
である。音響管はしご技術は、声道を含む様々な管楽器
の本体をシミュレートするために採用されている周知の
技術である。この技術については、例えば、1998
年、DAFX98会報、第223〜230頁、ピー・ア
ール・コック(Cook)著「完全なオーディオ形態素に向
けて:歌声合成及び処理(Towards the Perfect Audio
Morph? Singing Voice Synthesis and Processing)」
に説明されている。
【0030】適切なフィルタ構成及びこのフィルタ構成
に対する制御については、当分野の文献に説明されてい
るので、ここでは詳細には説明しない。
に対する制御については、当分野の文献に説明されてい
るので、ここでは詳細には説明しない。
【0031】以下、本発明に基づく音源カテゴリのパラ
メータのライブラリの構築及びこのライブラリを用いた
音源音の生成について、図4〜図8を用いて詳細に説明
する。
メータのライブラリの構築及びこのライブラリを用いた
音源音の生成について、図4〜図8を用いて詳細に説明
する。
【0032】図4は、本発明の好ましい実施の形態にお
ける音源カテゴリのパラメータのライブラリの構築の手
順を示す図である。この図では、長方形で囲まれた項目
は処理を示し、楕円形で囲まれた項目はそれぞれの処理
からの信号の入出力を示す。
ける音源カテゴリのパラメータのライブラリの構築の手
順を示す図である。この図では、長方形で囲まれた項目
は処理を示し、楕円形で囲まれた項目はそれぞれの処理
からの信号の入出力を示す。
【0033】図4に示すように、好ましい具体例では、
格納される信号は以下のように算出される。実際の音声
(1)が検出され、声道が音源信号に与えた調音的影響
を減算するために、逆フィルタリング処理(2)が行わ
れる(1993年、コンピュータ音楽ジャーナル(Comp
uter Music Journal)17(1)号に記載のピー・アー
ル・クック(P.R. Cook)著、「SPASM:実時間声
道物理モデル編集、制御及び歌声の生成(SPASM: A Rea
l-time Vocal Tract Physical Model Editor/Controlle
r and Singer)参照)。この逆フィルタリング処理は、
音源ストリームShに対し、応答φhを有するフィルタ
により畳込処理を行った結果、発声音ω hが得られたと
すると(図1参照)、この発声音ωhに対して逆畳込処
理を行うことにより、音源ストリームShに近似する信
号が得られるという推論に基づいている。
格納される信号は以下のように算出される。実際の音声
(1)が検出され、声道が音源信号に与えた調音的影響
を減算するために、逆フィルタリング処理(2)が行わ
れる(1993年、コンピュータ音楽ジャーナル(Comp
uter Music Journal)17(1)号に記載のピー・アー
ル・クック(P.R. Cook)著、「SPASM:実時間声
道物理モデル編集、制御及び歌声の生成(SPASM: A Rea
l-time Vocal Tract Physical Model Editor/Controlle
r and Singer)参照)。この逆フィルタリング処理は、
音源ストリームShに対し、応答φhを有するフィルタ
により畳込処理を行った結果、発声音ω hが得られたと
すると(図1参照)、この発声音ωhに対して逆畳込処
理を行うことにより、音源ストリームShに近似する信
号が得られるという推論に基づいている。
【0034】
【数1】
【0035】逆畳込処理は、例えば、ケプストラム(ce
pstrum)及び線形予測符号化(linear predictive codi
ng:LPC)のような自己回帰法(autoregression met
hods)等、使用できるいかなる技術を用いて行ってもよ
い。
pstrum)及び線形予測符号化(linear predictive codi
ng:LPC)のような自己回帰法(autoregression met
hods)等、使用できるいかなる技術を用いて行ってもよ
い。
【0036】
【数2】
【0037】ここで、iはi番目のフィルタ係数であ
り、pはフィルタの数であり、ntは雑音信号である。
1996年、アメリカ合衆国、マサチューセッツ州、ケ
ンブリッジ、MITプレス、カーティス・ロードによる
「コンピュータミュージックチュートリアル」(The Co
mputer Music Tutorial" by Curtis Roads, MIT Press,
Cambridge, Massachusetts, USA, 1996)参照。
り、pはフィルタの数であり、ntは雑音信号である。
1996年、アメリカ合衆国、マサチューセッツ州、ケ
ンブリッジ、MITプレス、カーティス・ロードによる
「コンピュータミュージックチュートリアル」(The Co
mputer Music Tutorial" by Curtis Roads, MIT Press,
Cambridge, Massachusetts, USA, 1996)参照。
【0038】図5は、逆のフィルタリングによる、推定
された声門信号(glottal signal)(図4に示す項目
3)の生成処理の具体例を示す図である。
された声門信号(glottal signal)(図4に示す項目
3)の生成処理の具体例を示す図である。
【0039】推定された声門信号は、包括的な発声音形
式を包含する形態論的カテゴリに割り当てられる
(4)。形態論的カテゴリとしては、例えば「破裂音の
子音から後舌母音へ(plosive consonant to back vowe
l)」、「前舌母音から後舌母音へ(front to back vow
el)」、所定の感情的音色(emotive timbre)等があ
る。所定の形式(例えば、あるささやかれた母音)につ
いては、この形式を表わす信号は、それぞれの形式の様
々な発声音を逆フィルタリング処理して得られる推定さ
れた声門母音信号(5)を平均化することにより算出さ
れる。推定された声門信号は可変長の短い音声セグメン
トとなる。この音声セグメントの長さは、検討されてい
る声門の形態論的カテゴリを特徴づけるために必要な長
さである。与えられた形式を表わす平均化された信号
を、この明細書では「声門信号カテゴリ」(6)と呼
ぶ。
式を包含する形態論的カテゴリに割り当てられる
(4)。形態論的カテゴリとしては、例えば「破裂音の
子音から後舌母音へ(plosive consonant to back vowe
l)」、「前舌母音から後舌母音へ(front to back vow
el)」、所定の感情的音色(emotive timbre)等があ
る。所定の形式(例えば、あるささやかれた母音)につ
いては、この形式を表わす信号は、それぞれの形式の様
々な発声音を逆フィルタリング処理して得られる推定さ
れた声門母音信号(5)を平均化することにより算出さ
れる。推定された声門信号は可変長の短い音声セグメン
トとなる。この音声セグメントの長さは、検討されてい
る声門の形態論的カテゴリを特徴づけるために必要な長
さである。与えられた形式を表わす平均化された信号
を、この明細書では「声門信号カテゴリ」(6)と呼
ぶ。
【0040】例えば、「park」の音節/pa/や
「pedestrian」の音節/pe/等の様々な実
例(instances)がシステムに入力され、システムは、
これらの実例からカテゴリ表現を構築する。この具体例
においては、生成されたカテゴリ表現に「破裂音から開
母音へ(plosive to open vowel」というラベルを付
す。例えば、「破裂音から開母音へ」の音の特定の例、
例えば/pa/音を合成する場合、ライブラリに格納さ
れている「破裂音から開母音へ」のカテゴリ表現にアク
セスして音源信号を生成する。フィルタ構成体における
フィルタのパラメータは、所望の/pa/音を生成する
ための伝達関数をこの音源信号に適応するよう、従来の
手法により設定される。
「pedestrian」の音節/pe/等の様々な実
例(instances)がシステムに入力され、システムは、
これらの実例からカテゴリ表現を構築する。この具体例
においては、生成されたカテゴリ表現に「破裂音から開
母音へ(plosive to open vowel」というラベルを付
す。例えば、「破裂音から開母音へ」の音の特定の例、
例えば/pa/音を合成する場合、ライブラリに格納さ
れている「破裂音から開母音へ」のカテゴリ表現にアク
セスして音源信号を生成する。フィルタ構成体における
フィルタのパラメータは、所望の/pa/音を生成する
ための伝達関数をこの音源信号に適応するよう、従来の
手法により設定される。
【0041】声門信号カテゴリは、さらなる処理を行う
ことなく、ライブラリに格納することもできる。しかし
ながら、ここで、カテゴリ(音源信号)そのものではな
く、カテゴリを符号化して登録するようにするとなおよ
い。詳しくは、発明の好ましい具体例においては、短時
間フーリエ変換(Short Time Fourier transform:以
下、STFTという。)アルゴリズム(図4に示す項目
7)を使用して各声門信号カテゴリを分析し、例えばフ
ェーズボコーダにより元の音源音声信号を再合成するた
めに使用できる係数(8)を生成する。続いて、これら
の再合成係数は、声門音源ライブラリ(9)に格納さ
れ、後にそれぞれの音源信号を生成するための合成処理
時に読み出される。
ことなく、ライブラリに格納することもできる。しかし
ながら、ここで、カテゴリ(音源信号)そのものではな
く、カテゴリを符号化して登録するようにするとなおよ
い。詳しくは、発明の好ましい具体例においては、短時
間フーリエ変換(Short Time Fourier transform:以
下、STFTという。)アルゴリズム(図4に示す項目
7)を使用して各声門信号カテゴリを分析し、例えばフ
ェーズボコーダにより元の音源音声信号を再合成するた
めに使用できる係数(8)を生成する。続いて、これら
の再合成係数は、声門音源ライブラリ(9)に格納さ
れ、後にそれぞれの音源信号を生成するための合成処理
時に読み出される。
【0042】STFT分析は、声門信号カテゴリを互い
に重なり合うセグメントに分類し、各セグメントを所定
のエンベロープにより成形する。
に重なり合うセグメントに分類し、各セグメントを所定
のエンベロープにより成形する。
【0043】
【数3】
【0044】ここで、χmは入力信号であり、hn−m
は時間シフトされた窓であり、nは離散的な時間間隔で
あり、kは周波数ビン(frequency bin)のためのイン
デックスであり、Nはスペクトル(あるいは分析窓の長
さ)におけるポイント数であり、Χ(m、k)は離散的
時間間隔nにおいて、周波数ビンkに対応する、窓処理
された入力信号のフーリエ変換を表す(上述の「コンピ
ュータミュージック教本」参照)。
は時間シフトされた窓であり、nは離散的な時間間隔で
あり、kは周波数ビン(frequency bin)のためのイン
デックスであり、Nはスペクトル(あるいは分析窓の長
さ)におけるポイント数であり、Χ(m、k)は離散的
時間間隔nにおいて、周波数ビンkに対応する、窓処理
された入力信号のフーリエ変換を表す(上述の「コンピ
ュータミュージック教本」参照)。
【0045】この分析により、振幅及び周波数の軌道
(trajectories)によるスペクトルの表現(換言すれ
ば、時間的に変化する音の部分的な周波数(周波数成
分))が生成され、これらがライブラリに格納される再
合成係数を構成する。
(trajectories)によるスペクトルの表現(換言すれ
ば、時間的に変化する音の部分的な周波数(周波数成
分))が生成され、これらがライブラリに格納される再
合成係数を構成する。
【0046】従来の音源フィルタ型のシンセサイザと同
様、本発明に基づく音声合成方法及び音声合成装置にお
いて発声音を合成する場合、その発声音は、最終的な発
声音全体を生成するために連続的に出力すべき一連の構
成要素の音へ分類される。声道をモデル化するフィルタ
構成体から所望の連続する音を出力するためには、その
フィルタ構成体に適切な音源ストリームを入力する必要
がある。図6は、発明の好ましい実施例として、音源ス
トリームを生成する主な手順を説明する図である。
様、本発明に基づく音声合成方法及び音声合成装置にお
いて発声音を合成する場合、その発声音は、最終的な発
声音全体を生成するために連続的に出力すべき一連の構
成要素の音へ分類される。声道をモデル化するフィルタ
構成体から所望の連続する音を出力するためには、その
フィルタ構成体に適切な音源ストリームを入力する必要
がある。図6は、発明の好ましい実施例として、音源ス
トリームを生成する主な手順を説明する図である。
【0047】図6に示すように、まず、発声音に含まれ
る音を識別し、音源カテゴリのライブラリからそれぞれ
のクラスの音に関連したコードを読み出す必要がある
(21)。これらのコードは、再合成器(例えば、フェ
ーズボコーダ)の係数を決定するためのものであり、理
論上、この再合成器に直接供給して、所望の音源音声信
号を再生する(27)こともできる。発明の好ましい実
施例において使用される再合成器は、付加的な正弦波技
術(sinusoidal technique)を使用して音源ストリーム
を合成するフェーズボコーダである。換言すれば、声門
の音源ライブラリから検索された振幅と周波数の軌道
は、それぞれの正弦波を出力する発振器のバンクを駆動
し、これらの波形は加算され、最終出力音源信号が生成
される(図7参照)。
る音を識別し、音源カテゴリのライブラリからそれぞれ
のクラスの音に関連したコードを読み出す必要がある
(21)。これらのコードは、再合成器(例えば、フェ
ーズボコーダ)の係数を決定するためのものであり、理
論上、この再合成器に直接供給して、所望の音源音声信
号を再生する(27)こともできる。発明の好ましい実
施例において使用される再合成器は、付加的な正弦波技
術(sinusoidal technique)を使用して音源ストリーム
を合成するフェーズボコーダである。換言すれば、声門
の音源ライブラリから検索された振幅と周波数の軌道
は、それぞれの正弦波を出力する発振器のバンクを駆動
し、これらの波形は加算され、最終出力音源信号が生成
される(図7参照)。
【0048】一連の音から構成される発声音を合成する
とき、補間処理が実行され、これにより1つの音から次
の音までの遷移が滑らかになる。補間処理は、合成処理
(27)に先立って合成係数に適用される(24、2
5)。(なお、音源フィルタ型シンセサイザの標準のフ
ィルタ構成体と同様、このフィルタ構成体も補間処理を
行うが、この場合の補間処理は、制御回路により特定さ
れた調音位置間の補間処理である) 声門の音源カテゴリを再合成係数(例えば、振幅及び周
波数軌道を表わす係数)の形式で格納することによる主
な利点は、この信号スペクトル情報に対して、例えば、
精密なチューニング又はモーフィング(子音−母音、母
音−子音)等の目的を持って、様々な処理を行うことが
できるという点である。図6に示すように、声門の音源
ライブラリから検索された再合成係数(24)にスペク
トルの変換(25)を適用するために、必要に応じて、
適切な変換係数(22)が使用される。このようにして
変換された係数(26)は、音源ストリームの生成のた
めに再合成器に供給される。例えば、あるスペクトルか
ら別のスペクトルへの漸次的な遷移を実現するために、
音源スペクトルのエンベロープ及びスペクトルのコンテ
ンツを変更し、2つ以上のスペクトルを混合することも
できる。
とき、補間処理が実行され、これにより1つの音から次
の音までの遷移が滑らかになる。補間処理は、合成処理
(27)に先立って合成係数に適用される(24、2
5)。(なお、音源フィルタ型シンセサイザの標準のフ
ィルタ構成体と同様、このフィルタ構成体も補間処理を
行うが、この場合の補間処理は、制御回路により特定さ
れた調音位置間の補間処理である) 声門の音源カテゴリを再合成係数(例えば、振幅及び周
波数軌道を表わす係数)の形式で格納することによる主
な利点は、この信号スペクトル情報に対して、例えば、
精密なチューニング又はモーフィング(子音−母音、母
音−子音)等の目的を持って、様々な処理を行うことが
できるという点である。図6に示すように、声門の音源
ライブラリから検索された再合成係数(24)にスペク
トルの変換(25)を適用するために、必要に応じて、
適切な変換係数(22)が使用される。このようにして
変換された係数(26)は、音源ストリームの生成のた
めに再合成器に供給される。例えば、あるスペクトルか
ら別のスペクトルへの漸次的な遷移を実現するために、
音源スペクトルのエンベロープ及びスペクトルのコンテ
ンツを変更し、2つ以上のスペクトルを混合することも
できる。
【0049】声門の音源ライブラリから検索された声門
の音源カテゴリに適用できるスペクトル変換処理の具体
例を図8に示す。この変換処理には、時間伸張処理(ti
me-stretching:図8aを参照)、スペクトルシフト処
理(spectral shift:図8bを参照)、及びスペクトル
伸張処理(spectral stretching:図を8c参照)等が
含まれる。図8aに示す具体例では、部分音の振幅の軌
道が時間的に変更されている。図8b及び図8cに示す
具体例では、周波数の軌道が時間的に変更されている。
の音源カテゴリに適用できるスペクトル変換処理の具体
例を図8に示す。この変換処理には、時間伸張処理(ti
me-stretching:図8aを参照)、スペクトルシフト処
理(spectral shift:図8bを参照)、及びスペクトル
伸張処理(spectral stretching:図を8c参照)等が
含まれる。図8aに示す具体例では、部分音の振幅の軌
道が時間的に変更されている。図8b及び図8cに示す
具体例では、周波数の軌道が時間的に変更されている。
【0050】スペクトルの時間伸張処理(図8a)は、
オリジナルの音(図8aの上側に示すグラフ)の分析フ
レーム間の距離(時間的間隔)を増加させ、時間的に伸
張された音のスペクトル(図8aの下側に示すグラフ)
である変換された信号を生成する処理である。スペクト
ルシフト処理(図8b)は、スペクトルの部分間の距離
(周波数間隔)を変更する処理である。周波数成分の間
隔はオリジナルのスペクトル(図8bの上側に示すグラ
フ)においては、Δfであり、変形されたスペクトル
(図8bの下側に示すグラフ)においては、Δf’とさ
れている。ここで、Δf≠Δf’である。スペクトル伸
張処理(図8c)は、スペクトルシフト処理に類似した
処理であるが、スペクトル伸張処理の場合には、周波数
成分の間のそれぞれの距離(周波数間隔)が一定ではなく
なるという点が異なる。すなわち、スペクトルの部分間
の距離は指数関数的に増加するよう変更される。
オリジナルの音(図8aの上側に示すグラフ)の分析フ
レーム間の距離(時間的間隔)を増加させ、時間的に伸
張された音のスペクトル(図8aの下側に示すグラフ)
である変換された信号を生成する処理である。スペクト
ルシフト処理(図8b)は、スペクトルの部分間の距離
(周波数間隔)を変更する処理である。周波数成分の間
隔はオリジナルのスペクトル(図8bの上側に示すグラ
フ)においては、Δfであり、変形されたスペクトル
(図8bの下側に示すグラフ)においては、Δf’とさ
れている。ここで、Δf≠Δf’である。スペクトル伸
張処理(図8c)は、スペクトルシフト処理に類似した
処理であるが、スペクトル伸張処理の場合には、周波数
成分の間のそれぞれの距離(周波数間隔)が一定ではなく
なるという点が異なる。すなわち、スペクトルの部分間
の距離は指数関数的に増加するよう変更される。
【0051】また、再合成された音源信号におけるピッ
チの経時的な変化の仕方を変更することにより、最終的
に生成される音声信号の表現(いわゆる「感情的表
現」)を豊かにすることができる。この時間的な変換処
理により、例えば、比較的抑揚のない音声信号をより旋
律的(melodic)にしたり、あるいは、(文末のピッチ
を上げることにより)肯定文を疑問文に変換する等の処
理を行うことができる。
チの経時的な変化の仕方を変更することにより、最終的
に生成される音声信号の表現(いわゆる「感情的表
現」)を豊かにすることができる。この時間的な変換処
理により、例えば、比較的抑揚のない音声信号をより旋
律的(melodic)にしたり、あるいは、(文末のピッチ
を上げることにより)肯定文を疑問文に変換する等の処
理を行うことができる。
【0052】本発明においては、例えば上述のPSOL
A技術を用いて、この時間的な変換処理を行う。この技
術は、1992年6月発行の「音声通信(Speech Commu
nication)11,2/3号、第175〜187頁に記載
のエイチ・バルブレット(H.Valbret)、イー・ムリン
クス(E. Moulincs)及びジェイ・ピー・タルバッハ
(J.P. Tulbach)著「PSOLA技術を用いた音声変換
(Voice transformationusing PSOLA technique)」に
開示されている。
A技術を用いて、この時間的な変換処理を行う。この技
術は、1992年6月発行の「音声通信(Speech Commu
nication)11,2/3号、第175〜187頁に記載
のエイチ・バルブレット(H.Valbret)、イー・ムリン
クス(E. Moulincs)及びジェイ・ピー・タルバッハ
(J.P. Tulbach)著「PSOLA技術を用いた音声変換
(Voice transformationusing PSOLA technique)」に
開示されている。
【0053】PSOLA技術は、再合成された音源信号
に対する適切な変換処理を行い、この後、変形された音
源信号は、声道をモデル化するフィルタ構成体に供給さ
れる。このように、好ましい具体例では、PSOLA技
術を具現化したモジュールにより、図6に示す音源合成
ユニット27から出力される音源信号を変換する。
に対する適切な変換処理を行い、この後、変形された音
源信号は、声道をモデル化するフィルタ構成体に供給さ
れる。このように、好ましい具体例では、PSOLA技
術を具現化したモジュールにより、図6に示す音源合成
ユニット27から出力される音源信号を変換する。
【0054】上述のように、所望の特定の音を合成する
場合、音源信号は、その音のクラスあるいは形態論的カ
テゴリに対応してライブラリに格納されているカテゴリ
表現に基づいて、音源信号が生成され、フィルタ構成体
はこのクラスの所望の特定の音を生成するように既知の
手法で構成され、音源信号を変更する。フィルタ構成体
が処理する生の素材は、従来の手法により生成された音
源信号の成分より適切な成分を備えるので、本発明によ
れば良好な合成結果を得ることができる。
場合、音源信号は、その音のクラスあるいは形態論的カ
テゴリに対応してライブラリに格納されているカテゴリ
表現に基づいて、音源信号が生成され、フィルタ構成体
はこのクラスの所望の特定の音を生成するように既知の
手法で構成され、音源信号を変更する。フィルタ構成体
が処理する生の素材は、従来の手法により生成された音
源信号の成分より適切な成分を備えるので、本発明によ
れば良好な合成結果を得ることができる。
【0055】本発明に基づく音声合成技術は、母音と子
音を表す両方の信号が、(雑音音源及び/又はパルス音
源ではなく)音源と同じ種類の音源に由来するので、母
音と子音の間のモーフィング(morphing)がより現実に
近いものとなるという点で、上述した標準の声門のモデ
ルの制約a)を改善する。すなわち、本発明によれば、
合成された発声音がより滑らかなものとなる。
音を表す両方の信号が、(雑音音源及び/又はパルス音
源ではなく)音源と同じ種類の音源に由来するので、母
音と子音の間のモーフィング(morphing)がより現実に
近いものとなるという点で、上述した標準の声門のモデ
ルの制約a)を改善する。すなわち、本発明によれば、
合成された発声音がより滑らかなものとなる。
【0056】発明の好ましい実施例では、合成係数を操
作して音源信号のスペクトルを変更できるため、制約
b)及び制約c)に関する問題も著しく改善される。す
なわち、本発明に基づくシステムはより高い柔軟性を有
している。声門の質の違い(例えば、表現力のある合
成、感情の付加、個人的特性を有する特別な声のシミュ
レーション等)は、再合成プロセスを適用する前に、フ
ェーズボコーダ係数の値を変更することによりシミュレ
ートできる。これにより、現在発音中の音源に対して時
間的な変更処理を行う関数を指定でき、したがって制約
d)に関する問題も改善される。したがって、より豊富
な韻律(prosody)を得ることができる。
作して音源信号のスペクトルを変更できるため、制約
b)及び制約c)に関する問題も著しく改善される。す
なわち、本発明に基づくシステムはより高い柔軟性を有
している。声門の質の違い(例えば、表現力のある合
成、感情の付加、個人的特性を有する特別な声のシミュ
レーション等)は、再合成プロセスを適用する前に、フ
ェーズボコーダ係数の値を変更することによりシミュレ
ートできる。これにより、現在発音中の音源に対して時
間的な変更処理を行う関数を指定でき、したがって制約
d)に関する問題も改善される。したがって、より豊富
な韻律(prosody)を得ることができる。
【0057】本発明は、音源フィルタモデルの音源要素
がフィルタ要素と同等に重要であるという見地に基づ
き、音源要素の性能及び柔軟性を改善するために技術を
提供する。特別のスペクトル処理を定義する手順を見出
すことにより、この技術の有用性はさらに高まる。実際
の声門は、音源スペクトルに非常に微妙な変化を与える
ことができるが、これらの微妙な作用をフェーズボコー
ダの係数を特定することによりシミュレートすることは
容易ではない。
がフィルタ要素と同等に重要であるという見地に基づ
き、音源要素の性能及び柔軟性を改善するために技術を
提供する。特別のスペクトル処理を定義する手順を見出
すことにより、この技術の有用性はさらに高まる。実際
の声門は、音源スペクトルに非常に微妙な変化を与える
ことができるが、これらの微妙な作用をフェーズボコー
ダの係数を特定することによりシミュレートすることは
容易ではない。
【0058】なお、本発明は、上述した特定の実施の形
態の特徴によって制限されるものではない。すなわち、
添付の請求の範囲内において、上述の実施の形態を様々
に変更することができる。
態の特徴によって制限されるものではない。すなわち、
添付の請求の範囲内において、上述の実施の形態を様々
に変更することができる。
【0059】また、声道のシミュレートを例に本発明を
説明したが、本発明の範囲は人間の音声を模倣するシス
テムのみに制限されるものではない。本発明は、人間の
声道が通常生成することのない、例えばロボットの声等
の音声を合成するために使用することもできる。
説明したが、本発明の範囲は人間の音声を模倣するシス
テムのみに制限されるものではない。本発明は、人間の
声道が通常生成することのない、例えばロボットの声等
の音声を合成するために使用することもできる。
【図1】音源フィルタ法による音声合成の背景となる原
理を説明する図である。
理を説明する図である。
【図2】音源フィルタ法に基づく従来の音声合成装置の
一般的な構造を示すブロック図である。
一般的な構造を示すブロック図である。
【図3】本発明を適用した音声シンセサイザの包括的な
構造を示すブロック図である。
構造を示すブロック図である。
【図4】発明に基づき、音源カテゴリライブラリを構築
する処理の手順を示すフローチャートである。
する処理の手順を示すフローチャートである。
【図5】逆フィルタリング処理によって、音源音声信号
(推定された声門信号)がどのように生成されるかを説
明する図である。
(推定された声門信号)がどのように生成されるかを説
明する図である。
【図6】発明に基づき、音源音を生成する手順を説明す
るフローチャートである。
るフローチャートである。
【図7】発明の好ましい実施例において使用される発振
器バンクによって具現化された付加的なシヌソイド技術
を概略的に説明する図である。
器バンクによって具現化された付加的なシヌソイド技術
を概略的に説明する図である。
【図8】本発明の好ましい実施例に基づいて定義された
声門の音源カテゴリに適用できるいくつかの異なる種類
の変換処理を説明する図であり、図8aはスペクトルの
時間伸張処理を示し、図8bはスペクトル変更処理を示
し、図8cはスペクトル伸張処理を示す図である。
声門の音源カテゴリに適用できるいくつかの異なる種類
の変換処理を説明する図であり、図8aはスペクトルの
時間伸張処理を示し、図8bはスペクトル変更処理を示
し、図8cはスペクトル伸張処理を示す図である。
Claims (18)
- 【請求項1】 使用時に音源信号を出力する音源モジュ
ールと、 上記音源信号を入力信号として受信し、該音源信号に対
し、声道の応答をモデル化するフィルタ特性を適用する
フィルタモジュールとを備え、 上記音源モジュールは、それぞれの形態論的カテゴリに
対応した音源カテゴリの表現が格納されたライブラリを
備え、上記音源モジュールから出力される音源信号出力
は、選択された音源カテゴリの表現であることを特徴と
する音声合成装置。 - 【請求項2】 上記音源モジュールは、上記音源信号を
出力する再合成器を備え、 上記表現は、上記再合成器が上記音源カテゴリを再生成
するための再合成係数の形式で上記ライブラリに格納さ
れていることを特徴とする請求項1記載の音声合成装
置。 - 【請求項3】 上記ライブラリに格納された表現は、実
際の音声に対し、声道によって課された調音の効果を除
外する逆フィルタリング処理を施すことにより導き出さ
れることを特徴とする請求項2記載の音声合成装置。 - 【請求項4】 上記ライブラリに格納された表現は、発
声音のそれぞれの部分を逆畳込処理を施すことにより導
き出されることを特徴とする請求項3記載の音声合成装
置。 - 【請求項5】 特定の形態論的カテゴリに対応した上記
音源カテゴリの表現は、形態論的カテゴリを具体化する
複数の音声の実例に逆フィルタリング処理を施して得ら
れた信号を平均化することにより導き出されることを特
徴とする請求項3又は4記載の音声合成装置。 - 【請求項6】 上記再合成器は、上記フィルタモジュー
ルに供給される声門信号を出力するフェーズボコーダを
備え、 上記音源カテゴリに格納された表現を構成する再合成係
数は、逆フィルタリングにより得られた信号を短時間フ
ーリエ変換分析することにより得られる表現に対応する
ことを特徴とする請求項2乃至5いずれか1項記載の音
声合成装置。 - 【請求項7】 上記再合成係数に対するスペクトル変換
処理を実行するスペクトル変換処理手段を備え、上記フ
ェーズボコーダは上記スペクトル変換処理手段により変
換された再合成係数に基づいて動作することを特徴とす
る請求項6記載の音声合成装置。 - 【請求項8】 上記音源信号のピッチは時間関数として
変化し、ピッチを変化させる関数を変更することにより
音源信号を変換する音源信号変換手段を備え、上記フィ
ルタモジュールは上記音源信号変換手段により変換され
た音源信号に対してフィルタリング処理を行うことを特
徴とする請求項1乃至8いずれか1項記載の音声合成装
置。 - 【請求項9】 上記フィルタモジュールは、音響管はし
ご技術により実現されることを特徴とする請求項1乃至
8いずれか1項記載の音声合成装置。 - 【請求項10】 音源モジュールを準備するステップ
と、 上記音源モジュールにより、音に関する特定の形態論的
カテゴリに対応する音源信号を生成するステップと、 声道の応答をモデル化するフィルタ特性を有するフィル
タモジュールを準備するステップと、 上記フィルタモジュールに上記音源信号を入力するステ
ップとを有し、 上記音源モジュールを準備するステップは、それぞれの
形態論的カテゴリに対応した音源カテゴリの表現が格納
されたライブラリを備える上記音源モジュールを準備す
るステップを有し、上記音源モジュールから出力される
音源信号出力は、選択された音源カテゴリの表現である
ことを特徴とする音声合成方法。 - 【請求項11】 上記音源モジュールは、対応する形態
論的カテゴリを表わす再合成係数の形式でライブラリに
格納されている表現を検索し、再合成器への該検索され
た再合成係数を再合成器に入力し、音源信号として再合
成器によって生成された信号を音源信号として出力する
ことを特徴とする請求項10記載の音声合成方法。 - 【請求項12】 上記ライブラリに格納された表現は、
実際の音声に対し、声道によって課された調音の効果を
除外する逆フィルタリング処理を施すことにより導き出
されることを特徴とする請求項11記載の音声合成方
法。 - 【請求項13】 上記ライブラリに格納された表現は、
発声音のそれぞれの部分を逆畳込処理を施すことにより
導き出されることを特徴とする請求項12記載の音声合
成方法。 - 【請求項14】 上記特定の形態論的カテゴリに対応す
る音源カテゴリの表現は、形態論的カテゴリを具体化す
る複数の音声の実例に逆フィルタリング処理を施して得
られた信号を平均化することにより導き出されることを
特徴とする請求項12又は13記載の音声合成方法。 - 【請求項15】 上記再合成器は、上記フィルタモジュ
ールに供給される声門信号を生成するフェーズボコーダ
を備え、上記音源カテゴリに格納された表現を構成する
再合成係数は、逆フィルタリングにより得られた信号を
短時間フーリエ変換分析することにより得られる表現に
対応することを特徴とする請求項11乃至14いずれか
1項記載の音声合成方法。 - 【請求項16】 上記検索された再合成係数にスペクト
ル変換処理が施され、上記フェーズボコーダは、変換さ
れた再合成係数に基づいて動作することを特徴とする請
求項15記載の音声合成方法。 - 【請求項17】 上記音源信号のピッチは時間の関数と
して変化し、ピッチを変化させる関数を変更することに
より音源信号を変形するステップを有し、上記フィルタ
モジュールは上記音源信号を変形するステップにより変
形された音源信号に対してフィルタリング処理を行うこ
とを特徴とする請求項10乃至16いずれか1項記載の
音声合成方法。 - 【請求項18】 上記フィルタモジュールは、音響管は
しご技術により実現されることを特徴とする請求項10
乃至17記載の音声合成方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00401560A EP1160764A1 (en) | 2000-06-02 | 2000-06-02 | Morphological categories for voice synthesis |
EP00401560.8 | 2000-06-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002023775A true JP2002023775A (ja) | 2002-01-25 |
Family
ID=8173715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001168648A Abandoned JP2002023775A (ja) | 2000-06-02 | 2001-06-04 | 音声合成における表現力の改善 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6804649B2 (ja) |
EP (1) | EP1160764A1 (ja) |
JP (1) | JP2002023775A (ja) |
DE (1) | DE60112512T2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003088208A1 (en) * | 2002-04-02 | 2003-10-23 | Canon Kabushiki Kaisha | Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof |
US8639511B2 (en) | 2010-03-12 | 2014-01-28 | Honda Motor Co., Ltd. | Robot, method and program of correcting a robot voice in accordance with head movement |
Families Citing this family (139)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7457752B2 (en) * | 2001-08-14 | 2008-11-25 | Sony France S.A. | Method and apparatus for controlling the operation of an emotion synthesizing device |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
US20060069567A1 (en) * | 2001-12-10 | 2006-03-30 | Tischer Steven N | Methods, systems, and products for translating text to speech |
US7191134B2 (en) * | 2002-03-25 | 2007-03-13 | Nunally Patrick O'neal | Audio psychological stress indicator alteration method and apparatus |
JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
GB0229860D0 (en) * | 2002-12-21 | 2003-01-29 | Ibm | Method and apparatus for using computer generated voice |
US8103505B1 (en) * | 2003-11-19 | 2012-01-24 | Apple Inc. | Method and apparatus for speech synthesis using paralinguistic variation |
US7472065B2 (en) * | 2004-06-04 | 2008-12-30 | International Business Machines Corporation | Generating paralinguistic phenomena via markup in text-to-speech synthesis |
EP1895516B1 (en) * | 2005-06-08 | 2011-01-19 | Panasonic Corporation | Apparatus and method for widening audio signal band |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP4294724B2 (ja) * | 2007-08-10 | 2009-07-15 | パナソニック株式会社 | 音声分離装置、音声合成装置および声質変換装置 |
FR2920583A1 (fr) * | 2007-08-31 | 2009-03-06 | Alcatel Lucent Sas | Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20090222268A1 (en) * | 2008-03-03 | 2009-09-03 | Qnx Software Systems (Wavemakers), Inc. | Speech synthesis system having artificial excitation signal |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
KR101214402B1 (ko) * | 2008-05-30 | 2012-12-21 | 노키아 코포레이션 | 개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품 |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
CN101983402B (zh) * | 2008-09-16 | 2012-06-27 | 松下电器产业株式会社 | 声音分析装置、方法、系统、合成装置、及校正规则信息生成装置、方法 |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
WO2012112985A2 (en) * | 2011-02-18 | 2012-08-23 | The General Hospital Corporation | System and methods for evaluating vocal function using an impedance-based inverse filtering of neck surface acceleration |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR102103057B1 (ko) | 2013-02-07 | 2020-04-21 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10872598B2 (en) | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
US10872596B2 (en) * | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US11017761B2 (en) * | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
JP6992612B2 (ja) * | 2018-03-09 | 2022-01-13 | ヤマハ株式会社 | 音声処理方法および音声処理装置 |
EP3857541B1 (en) * | 2018-09-30 | 2023-07-19 | Microsoft Technology Licensing, LLC | Speech waveform generation |
EP3970141B1 (en) * | 2019-05-14 | 2024-02-28 | Dolby Laboratories Licensing Corporation | Method and apparatus for speech source separation based on a convolutional neural network |
CN112614477B (zh) * | 2020-11-16 | 2023-09-12 | 北京百度网讯科技有限公司 | 多媒体音频的合成方法、装置、电子设备和存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3982070A (en) | 1974-06-05 | 1976-09-21 | Bell Telephone Laboratories, Incorporated | Phase vocoder speech synthesis system |
US3995116A (en) | 1974-11-18 | 1976-11-30 | Bell Telephone Laboratories, Incorporated | Emphasis controlled speech synthesizer |
US5278943A (en) * | 1990-03-23 | 1994-01-11 | Bright Star Technology, Inc. | Speech animation and inflection system |
US5327518A (en) * | 1991-08-22 | 1994-07-05 | Georgia Tech Research Corporation | Audio analysis/synthesis system |
US5528726A (en) * | 1992-01-27 | 1996-06-18 | The Board Of Trustees Of The Leland Stanford Junior University | Digital waveguide speech synthesis system and method |
US5473759A (en) * | 1993-02-22 | 1995-12-05 | Apple Computer, Inc. | Sound analysis and resynthesis using correlograms |
JPH08254993A (ja) * | 1995-03-16 | 1996-10-01 | Toshiba Corp | 音声合成装置 |
US6182042B1 (en) * | 1998-07-07 | 2001-01-30 | Creative Technology Ltd. | Sound modification employing spectral warping techniques |
US6195632B1 (en) * | 1998-11-25 | 2001-02-27 | Matsushita Electric Industrial Co., Ltd. | Extracting formant-based source-filter data for coding and synthesis employing cost function and inverse filtering |
US6526325B1 (en) * | 1999-10-15 | 2003-02-25 | Creative Technology Ltd. | Pitch-Preserved digital audio playback synchronized to asynchronous clock |
-
2000
- 2000-06-02 EP EP00401560A patent/EP1160764A1/en not_active Withdrawn
-
2001
- 2001-05-29 DE DE60112512T patent/DE60112512T2/de not_active Expired - Fee Related
- 2001-06-01 US US09/872,966 patent/US6804649B2/en not_active Expired - Fee Related
- 2001-06-04 JP JP2001168648A patent/JP2002023775A/ja not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003088208A1 (en) * | 2002-04-02 | 2003-10-23 | Canon Kabushiki Kaisha | Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof |
US7487093B2 (en) | 2002-04-02 | 2009-02-03 | Canon Kabushiki Kaisha | Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof |
US8639511B2 (en) | 2010-03-12 | 2014-01-28 | Honda Motor Co., Ltd. | Robot, method and program of correcting a robot voice in accordance with head movement |
Also Published As
Publication number | Publication date |
---|---|
DE60112512T2 (de) | 2006-03-30 |
DE60112512D1 (de) | 2005-09-15 |
US20020026315A1 (en) | 2002-02-28 |
US6804649B2 (en) | 2004-10-12 |
EP1160764A1 (en) | 2001-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6804649B2 (en) | Expressivity of voice synthesis by emphasizing source signal features | |
US8744854B1 (en) | System and method for voice transformation | |
Tabet et al. | Speech synthesis techniques. A survey | |
Macon et al. | A singing voice synthesis system based on sinusoidal modeling | |
Umbert et al. | Expression control in singing voice synthesis: Features, approaches, evaluation, and challenges | |
Schröder et al. | Synthesis of emotional speech | |
EP0561752B1 (en) | A method and an arrangement for speech synthesis | |
Yadav et al. | Prosodic mapping using neural networks for emotion conversion in Hindi language | |
Bonada et al. | Spectral approach to the modeling of the singing voice | |
Bonada et al. | Sample-based singing voice synthesizer using spectral models and source-filter decomposition | |
EP1160766B1 (en) | Coding the expressivity in voice synthesis | |
JPH1165597A (ja) | 音声合成装置、音声合成及びcg合成出力装置、ならびに対話装置 | |
WO2023182291A1 (ja) | 音声合成装置、音声合成方法及びプログラム | |
Rajan | Singing Voice Synthesis System for Carnatic Music | |
JPH11161297A (ja) | 音声合成方法及び装置 | |
Anil et al. | Pitch and duration modification for expressive speech synthesis in Marathi TTS system | |
Freixes Guerreiro et al. | A unit selection text-to-speech-and-singing synthesis framework from neutral speech: proof of concept | |
d’Alessandro | Realtime and Accurate Musical Control of Expression in Voice Synthesis | |
Wilson et al. | Experiments in Making VOCALOID Synthesis More Human-like Using Deep Learning | |
Datta et al. | Introduction to ESOLA | |
JPH06250685A (ja) | 音声合成方式および規則合成装置 | |
Singh et al. | Removal of spectral discontinuity in concatenated speech waveform | |
Serra et al. | Synthesis of the singing voice by performance sampling and spectral models | |
Umbert Morist et al. | Expression control in singing voice synthesis: features, approaches, evaluation, and challenges | |
Miranda | A phase vocoder model of the glottis for expressive voice synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080325 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20080331 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080528 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20091218 |