JP3838039B2 - 音声合成装置 - Google Patents
音声合成装置 Download PDFInfo
- Publication number
- JP3838039B2 JP3838039B2 JP2001067258A JP2001067258A JP3838039B2 JP 3838039 B2 JP3838039 B2 JP 3838039B2 JP 2001067258 A JP2001067258 A JP 2001067258A JP 2001067258 A JP2001067258 A JP 2001067258A JP 3838039 B2 JP3838039 B2 JP 3838039B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- phoneme
- template
- speech
- note
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000011295 pitch Substances 0.000 claims abstract description 232
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 55
- 230000008859 change Effects 0.000 claims description 44
- 230000015572 biosynthetic process Effects 0.000 claims description 30
- 238000003786 synthesis reaction Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 18
- 230000000630 rising effect Effects 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 16
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000013213 extrapolation Methods 0.000 claims description 2
- 230000008602 contraction Effects 0.000 claims 1
- 238000001308 synthesis method Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 22
- 238000001228 spectrum Methods 0.000 description 13
- 230000005284 excitation Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 210000001260 vocal cord Anatomy 0.000 description 5
- 101100357018 Trypanosoma brucei brucei RNR2 gene Proteins 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000000695 excitation spectrum Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Telephone Function (AREA)
- Toys (AREA)
Description
【発明の属する技術分野】
本発明は、音声合成装置に関し、より詳しくは、人間の歌唱音声を合成する音声合成装置に関する。
【0002】
【従来の技術】
人間の音声は、音韻(音素)により構成され、各音韻は複数個のフォルマントにより構成されている。よって、人間の歌唱音声の合成は、まず、人間が発生することのできる全ての音韻に対して、その各音韻を構成する全てのフォルマントを発生して合成できるように準備し、必要な音韻を生成する。次に、生成された複数の音韻を順次つなぎ合わせ、メロディに合わせて音高を制御する。この手法は、人間の音声に限らず、フォルマントを有する楽音、例えば、管楽器から発生される楽音の合成にも適用できる。
【0003】
この手法を用いた音声合成装置は従来から知られており、例えば、特許公報第2504172号には、高い音高のフォルマント音を発生するときでも、不要なスペクトルを発生しないように構成したフォルマント音発生装置が開示されている。
【0004】
また、フォルマント周波数は、ピッチに依存することが知られており、特開平6−308997号公報の実施例に記載されているように、ピッチ周波数ごとにいくつかの音素片をデータベースに持っておき、音声のピッチに従って、適切な音素片を選択する技術が知られている。
【0005】
【発明が解決しようとする課題】
しかし、上記のような従来のデータベースでは、1つの音素片について、一定以上数のピッチ周波数の音素片を持つ必要があり、データベースのサイズが、比較的大きくなってしまう。
【0006】
また、多くの異なるピッチで発生された音声から音素片を抽出する必要があるために、データベースの構築に時間を要する。
【0007】
さらには、フォルマント周波数は、ピッチのみに依存するのではなく、他の要素、例えば、ダイナミクス等が加わることにより、二乗、三乗とデータ量が増えてしまう。
【0008】
本発明の目的は、音質の劣化を最小限に抑えつつ、データベースのサイズを縮小した音声合成装置を提供することである。
【0009】
また、本発明の他の目的は、上記データベースを用いた音声合成装置を提供することである。
【0010】
【課題を解決するための手段】
本発明の一観点によれば、音声合成装置は、特定時刻の音声の特徴量を、音韻とピッチをインデックスとして記憶する記憶手段と、ピッチと音声の特徴量の時間変化を表すテンプレートであって、特徴量が定常である部分の音声を分析して得た複数のステーショナリーテンプレートと、音韻の接続部分の音声を分析して得た複数のアーティキュレーションテンプレートとを、それぞれ音韻とピッチをインデックスとして記憶する音韻テンプレート記憶手段と、ピッチと音声の特徴量の時間変化を表すテンプレートであって、音声の立ち上がりの部分を分析して得た複数のノートアタックテンプレートと、音声のピッチが変化する部分を分析して得た複数のノートトゥノートテンプレートとを、それぞれ音韻とピッチをインデックスとして記憶するノートテンプレート記憶手段と、少なくともピッチ、音韻、該音韻が定常部分であるか音韻の遷移部分であるかを示す音韻フラグ、及び該音韻が音声の立ち上がり部分であるか音声のピッチが変化する部分であるかを示すノートフラグを含む音声合成のための音声情報を入力する入力手段と、前記音声の特徴量を前記入力された音声情報に含まれるピッチ及び音韻をインデックスとして前記記憶手段から読み出し、前記音韻フラグに応じて前記ステーショナリーテンプレート又はアーティキュレーションテンプレートを前記入力された音声情報に含まれるピッチ及び音韻をインデックスとして前記音韻テンプレート記憶手段から読み出すとともに、前記ノートフラグに応じて前記ノートアタックテンプレート又はノートトゥノートテンプレートを前記入力された音声情報に含まれるピッチ及び音韻をインデックスとして前記ノートテンプレート記憶手段から読み出す読み出し手段と、前記読み出された音声の特徴量および前記入力された音声情報に含まれるピッチに前記読み出されたテンプレートを適用し、該適用後の音声の特徴量及びピッチに基づき音声を合成する音声合成手段とを有する。
【0014】
【発明の実施の形態】
図1は、音声合成装置1の構成を表すブロック図である。
【0015】
音声合成装置1は、データ入力部2、特徴パラメータ発生部3、データベース4、EpR音声合成エンジン5を有する。
【0016】
データ入力部2に入力される入力データScoreは、特徴パラメータ発生部3及びEpR音声合成エンジン5に送られる。特徴パラメータ発生部3は、入力データScoreに基づきデータベース4から後述する特徴パラメータ、各種テンプレートを読み込む。特徴パラメータ発生部3は、さらに、読み込んだ特徴パラメータに各種テンプレートを適用して、最終的な特徴パラメータを生成してEpR音声合成エンジン5に送る。
【0017】
EpR音声合成エンジン5では、入力データScoreのピッチ、ダイナミクス等に基づきパルスを発生させ、該発生させたパルスに特徴パラメータを適用することにより、音声を合成して出力する。
【0018】
図2は、入力データScoreの一例を示す概念図である。音韻トラックPHT、ノートトラックNT、ピッチトラックPIT、ダイナミクストラックDYT、オープニングトラックOTによって構成されており、楽曲のフレーズ若しくは曲全体の、時間とともに変化するデータが保存されている楽曲データである。
【0019】
音韻トラックPHTには、音韻名と、その発音継続時間が含まれる。さらに、各音韻は、音素と音素の遷移部分であることを示すアーティキュレーション(Articulation)とその他の定常部分であることを示すステーショナリー(Stationary)との2つに分類される。各音韻は、これらのうちどちらに分類されるかに付いてのフラグも含むものとする。なお、アーティキュレーションは、遷移部分であるので、先頭音韻名と後続音韻名の複数の音韻名を有している。一方、ステーショナリーは定常部分であるので1つの音韻名だけからなる。
【0020】
ノートトラックNTには、ノートアタック(NoteAttack)、ノートトゥノート(NoteToNote)、ノートリリース(NoteRelease)のいずれかを示すフラグが記録されている。ノートアタックは発音の立ち上がり時、ノートトゥノートは音程の変化時、ノートリリースは発音の立下り時の音楽表現を指示するコマンドである。
【0021】
ピッチトラックPITには、各時刻において発音すべき音声の基本周波数が記録されている。なお、実際に発音される音声のピッチはこのピッチトラックPITに記録されているピッチ情報に基づき他の情報を用いて算出されるので、実際に発音されているピッチと、ここに記録されているピッチは異なる場合がある。
【0022】
ダイナミクストラックDYTには、音声の強さを示すパラメータである各時刻におけるダイナミクス値が記録されている。ダイナミクス値は、0から1までの値をとる。
【0023】
オープニングトラックOTには、唇の開き具合(唇開度)を示すパラメータである各時刻のオープニング値が記録されている。オープニング値は0から1までの値をとる。
【0024】
特徴パラメータ発生部3は、データ入力部2から入力される入力データScoreに基づき、データベース4からデータを読み出し、後述するように、入力データScore及びデータベース4から読み出したデータに基づき特徴パラメータを発生して、EpR音声合成エンジン5に出力する。
【0025】
この特徴パラメータ発生部3で発生する特徴パラメータは、例えば、励起波形スペクトルのエンベロープ、励起レゾナンス、フォルマント、差分スペクトルの4つに分類することが出来る。これらの4つの特徴パラメータは、実際の人間の音声等(オリジナルの音声)を分析して得られる調和成分のスペクトル・エンベロープ(オリジナルのスペクトル)を分解することにより得られるものである。
【0026】
励起波形スペクトルのエンベロープ(ExcitationCurve)は、声帯波形の大きさ(dB)を表すEGain、声帯波形のスペクトルエンベロ−プの傾きを表すESlopeDepth、声帯波形のスペクトルエンベロ−プの最大値から最小値の深さ(dB)を表すESlopeの3つのパラメータによって構成されており、以下の式(A)で表すことが出来る。
【0027】
【数式1】
励起レゾナンスは、胸部による共鳴を表す。中心周波数(ERFreq)、バンド幅(ERBW)、アンプリチュード(ERAmp)の3つのパラメータで構成され、2次フィルター特性を有している。
【0028】
フォルマントは、1から12個のレゾナンスを組み合わせることにより声道による共鳴を表す。中心周波数(FormantFreqi)、バンド幅(FormantBWi)、アンプリチュード(FormantAmpi)の3つのパラメータで構成される。なお、「i」は、1から12までの値(1≦i≦12)である。
【0029】
差分スペクトルは、上記の励起波形スペクトルのエンベロープ、励起レゾナンス、フォルマントの3つで表現することの出来ないオリジナルスペクトルとの差分のスペクトルを持つ特徴パラメータである。
【0030】
データベース4は、少なくともTimbreデータベースTDB、音韻テンプレートデータベースPDB、ノートテンプレートデータベースNDBから構成されている。
【0031】
一般に、TimbreデータベースTDBに保存されている特定の時刻から得られた特徴パラメータのみを用いて音声を合成した場合には非常に単調で、機械的な音声になる。また、音素が連続する場合にはその遷移部分での音声は実際には徐々に変化してゆくので、音素の定常部分のみを単純に連結した場合には、接続点では非常に不自然な音声となる。そこで音韻テンプレート、及びノートテンプレートをデータベースとして持ち、音声合成時に使用することにより、それらの欠点を低減することが可能となる。
【0032】
Timbreとは音韻の音色であり、ある時刻1点における特徴パラメータ(励起スペクトル、励起レゾナンス、フォルマント、差分スペクトルのセット)で表現される。図3にTimbreデータベースTDBの例を示す。このデータベースは、インデックスとして音韻名、ピッチを持つ。
【0033】
なお、以下、この明細書では図3に示すTimbreデータベースTDBを使うが、より細かく特徴パラメータを指定できるように、図4に示すようにインデックスとして音韻名、ピッチ、ダイナミクス、オープニングの4つを持つデータベースを用意してもよい。
【0034】
音韻テンプレートデータベースPDBはステーショナリーテンプレートデータベースとアーティキュレーションテンプレートデータベースで構成される。ここでテンプレートとは、特徴パラメータPとピッチPitchのペアが一定時間ごとに並んだシーケンス、及び、その区間の長さT(sec.)の組であり、以下の式(B)で表すことが出来る。
【0035】
【数式2】
なお、t=0、Δt、2Δt、3Δt、…、Tであり、本実施例では、Δtは5msとする。
【0036】
Δtを小さくすると時間分解能がよくなるので音質は良くなるがデータベースのサイズが大きくなり、逆にΔtを大きくすると音質が悪くなるがデータベースのサイズは小さくなる。Δtを決定する際には音質とデータベースのサイズとの優先度を考慮して決定すればよい。
【0037】
図5は、ステーショナリーテンプレートデータベースの一例である。ステーショナリーテンプレートデータベースは、音韻名と代表ピッチをインデックスとして、すべての有声の音韻についてのステーショナリーテンプレートを有している。ステーショナリーテンプレートは音韻、ピッチの安定した部分の音声をEpRモデルを使って分析することによって得ることができる。
【0038】
あるひとつの有声音、例えば「あ」、を長く伸ばして、ある音程、例えばC4、で発声した場合にはピッチやフォルマント周波数などの特徴パラメータは、ほぼ一定であり定常(ステーショナリー)であると言えるが、実際には若干の変動が生じている。この変動がなく完全に一定の場合には無機質で機械的な音声になってしまい、逆に言えば、その変動が人間らしさ、自然性を表すと言える。
【0039】
有声音を合成する場合に、Timbre、つまりある時刻1点の特徴パラメータのみを使うのではなく、それにステーショナリーテンプレートにある実際の人間の音声から取り出した特徴パラメータの時間変動分、ピッチ変動分を加算することによって有声音に自然性を与えることができる。
【0040】
歌唱音声合成の場合には音符の長さに従って発音する時間を変化させる必要があるが、十分長いテンプレートを1つだけ用意する。テンプレートよりも長い有声音を合成する場合には、テンプレートの時間軸の伸縮をすることはしないで、テンプレートの持っている時間をそのままにして有声音の先頭部分からテンプレートを適用する。
【0041】
テンプレートの終端まで達したら、その後に再び同じテンプレートを繰り返し適用する。なお、テンプレートの終端まで達したら、テンプレートの時間を逆にしたテンプレートを適用する方法も考えられる。この方法ではテンプレートの接続点での不連続がなくなる。
【0042】
テンプレートの時間軸を伸縮することをしないのは、特徴パラメータ、ピッチの変動のスピードが大きく変わると自然性が損なわれるからである。定常部分の揺らぎは人間が意識してコントロールするものではないという考え方からも伸縮しない方が好ましい。
【0043】
ステーショナリーテンプレートは、定常部分の特徴パラメータの時系列をそのまま持つのではなく、その音素の代表的な特徴パラメータと、その変動量を持つ構造である、定常部分の特徴パラメータの変動量は小さいことから、特徴パラメータをそのまま持つことに比べて、変動量で持つ方が情報量が少なく、データベースのサイズを小さくする効果がある。
【0044】
図6はアーティキュレーションテンプレートデータベースの一例である。アーティキュレーションテンプレートデータベースは、先頭音韻名と後続音韻名と代表ピッチとをインデックスとしている。アーティキュレーションテンプレートデータベースには、一定の言語における現実的に可能な音韻の組合せについてアーティキュレーションテンプレートが保存されている。
【0045】
アーティキュレーションテンプレートはピッチの安定した、音韻の接続部分の音声をEpRモデルを使って分析することによって得ることができる。
【0046】
なお、特徴パラメータP(t)は絶対値そのままでもいいが、差分値を用いることも出来る。後述するように、合成時には、これらのテンプレートの値の絶対値がそのまま利用されるのではなく、パラメータの相対的な変化量が利用されるので、テンプレートの適用方法に従って、以下の式(C1)〜(C3)に示すようにP(t=T)からの差分、あるいはP(0)からの差分、あるいはP(0)とP(T)を直線で結んだ値との差分の形で特徴パラメータを記録する。
【0047】
【数式3】
【数式4】
【数式5】
人間が2つの音素を連続して発音する場合には、突然変化するのではなくゆるやかに移行していくので、例えば、「あ」という母音の後に区切りを置かないで連続して「え」という母音を発音する場合には、最初に「あ」が発音され「あ」と「え」の中間に位置する発音を経て「え」に変化する。
【0048】
この現象は一般に調音結合と呼ばれる現象である。音素の結合部分が自然になるように音声合成を行うには、ある言語において組合せ可能な音素の組合せについて、結合部分の音声情報を何らかの形で持つことが好ましい。
【0049】
音素の結合部分をLPC係数や音声波形といった形でそのまま持つ方式はすでに存在しているが、本実施例では、特徴パラメータ、ピッチの差分情報を持ったアーティキュレーションテンプレートを使って2つの音素間の調音(Articulation)部分を合成している。
【0050】
例えば、2つの連続する同じ音程の4分音符で、それぞれの歌詞が「あ」、「い」という歌唱を合成する場合を考える。2つの音符の境界には「あ」から「い」への移行部分が存在する。「あ」、「い」は両方とも母音であり、有声音であるので、V(有声音)からV(有声音〉へのアーティキュレーションに該当し、後述するタイプ3の方法でアーティキュレーションテンプレートを適用して移行部分の特徴パラメータを求めることができる。
【0051】
すなわち、「あ」と「い」の特徴パラメータをTimbreデータベースTDBから読み出し、それらに「あ」から「い」へのアーティキュレーションテンプレートを適用すれば、その移行部分の、自然な変化を持つ特徴パラメータが得られる。
【0052】
ここで、「あ」から「い」への移行部分の時間を、その部分に適用するアーティキュレーションテンプレートの元々の時間と同じにすれば、テンプレートを作成するときに利用した音声波形と同じ変化を得る事が出来る。
【0053】
テンプレートの時間よりもゆっくりと、あるいは長く変化する音声を合成する場合には、テンプレートの長さを線形に伸長してから特徴パラメータの差分を加算すればよい。先に説明したステーショナリーと異なり、2つの音素問の変化部分のスピードは意識的にコントロールできるものであるため、線形にテンプレートを伸縮しても大きな不自然性は生じない。
【0054】
次に2つの連続する同じ音程の4分音符で、それぞれの歌詞が「あ」、「す」という歌唱を合成する場合を考える。2つの音符の境界には「あ」から「す」の子音部分への短い移行部分が存在する。これはV(有声音)からU(無声音)へのアーティキュレーションに該当するので、後述するタイプ1の方法でアーティキュレーションテンプレートを適用することで移行部分の特徴パラメータを求めることができる。
【0055】
「あ」の特徴パラメータをTimbreデータベースTDBより求めて、それに「a」から「s」へのアーティキュレーションテンプレートを適用することで、自然な変化を持つ移行部分の特徴パラメータを得る事が出来る。
【0056】
V(有声音)からU(無声音)へのアーティキュレーションで、タイプ1、つまりテンプレートの先頭部分からの差分、を使う理由は、単純に終端部分にあたるU(無声音〉部分にはピッチ、特徴パラメータが存在しないためである。
【0057】
「す」はローマ字であらわすと「su」であり、子音部分「s」と母音部分「u」から構成される。この中間点にも、「s」の音を残しながら「u」が発音される移行部分が存在する。これはUからVへのアーティキュレーションに該当するので、ここでもまたタイプ1の方法でアーティキュレーションテンプレートを適用する。
【0058】
「う(u)」の特徴パラメータをTimbreデータベースTDBから読み出し、それに「s」から「u」へのアーティキュレーションテンプレートを適用することで、「s」から「u」への変化部分の特徴パラメータを得ることができる。
【0059】
特徴パラメータの差分情報を持ったアーティキュレーションテンプレートは、絶対値で特徴パラメータを記録したテンプレートに比べて、データサイズが少なくなるという利点を持っている。
【0060】
ノートテンプレートデータベースNDBは、少なくとも、ノートアタックテンプレート(NAテンプレート)データベースNADB、ノートリリーステンプレート(NRテンプレート)データベースNRDB、ノートトゥノートテンプレート(NNテンプレート)データベースNNDBを含んでいる。
【0061】
図7はNAテンプレートデータベースNADBの一例である。NAテンプレートには音声の立ち上がり部分の特徴パラメータ及びピッチの変化情報が含まれている。
【0062】
NAテンプレートデータベースNADBには、音韻名と代表ピッチをインデックスとして、すべての有声の音韻についてのNAテンプレートが保存されている。NAテンプレートは、実際に発音した音声の立ち上がり部分を分析することによって得られる。
【0063】
NRテンプレートには音声の立下り部分の特徴パラメータ及びピッチの変化情報が含まれている。NRテンプレートデータベースNRDBはNAテンプレートデータベースNADBと同じ構造であり、音韻名と代表ピッチをインデックスとして、すべての有声の音韻についてのNRテンプレートを持っている。
【0064】
一定のピッチである音素、例えば「あ」を発声しようとしたときの立ち上がり部分(Attack)を分析すると振幅が徐々に大きくなり、一定のレベルになって安定していくことがわかる。振幅値だけではなく、フォルマント周波数、フォルマントバンド幅、ピッチについても変化している。
【0065】
人間の実際に発声した音声、例えば「あ」、の立ち上がり部分を解析して得たNAテンプレートを、定常部分の特徴パラメータに適用することで、その立ち上がり部分の人の音声の持つ自然な変化を与えることができる。
【0066】
すべての音素ごとにNAテンプレートを用意すれば、どの音素についてもアタック部分の変化を与えることが可能になる。
【0067】
歌唱では、音楽的に表情をつけるために立ち上がりを速くしたり、ゆったりと歌う場合がある。NAテンプレートは、あるひとつの立ち上がりの時間を持っているが、もともとNAテンプレートの持っている速さよりも速く、若しくは遅くすることは、テンプレートの時間軸を線形に伸縮してから適用することで可能になる。
【0068】
テンプレートを伸縮しても、数倍の範囲内ならば、アタックに不自然さは生じないことが実験によりわかっている。より広範囲のアタックの長さを指定して合成できるようにするには、数段階の長さのNAテンプレートを用意して、最も長さの近いテンプレートを選択して伸縮するなどの方法を使う。
【0069】
発声の終了する部分、つまり立下り(Release)についても、立ち上がり(Attack)と同様に振幅、ピッチ、フォルマントが変化する。
【0070】
立下り部分に人間の音声の持つ自然な変化を与えるのは、人間が実際に発声した音声の立ち下がり部分を解析して得たNRテンプレートを、立下りの開始する前の音素の特徴パラメータに対して適用することで可能となる。
【0071】
図8は、NNテンプレートデータベースNNDBの一例である。NNテンプレートはピッチが変化する部分の音声の特徴パラメータを持っている。NNテンプレートデータベースNNDBには、音韻名、テンプレートの始点時刻のピッチ、終了時刻のピッチをインデックスとして、すべての有声の音韻についてのNNテンプレートが保存されている。
【0072】
ピッチの異なる2つの音符を連続して間を置かずに歌唱するときに、前の音符の音程から、後ろの音符のピッチに滑らかにピッチを変化させながら歌う歌唱方法がある。ピッチやアンプリチュードが変化するのは当然であるが、さらに、前後2つの音符の発音が同じ(例えば同じ「あ」)だとしても、フォルマント周波数などの音声の周波数特性が微妙に変化する。
【0073】
実際にピッチを変化させて歌った音声の変化を始点から終点まで解析して求めたNNテンプレートを使うことによって、そのような音程の異なる音符の境界に、自然な音楽的表情を、与えることができる。
【0074】
実際の音楽における旋律では、2オクターブ24音の音域としたとしても、ピッチ変化の組合せは非常に多い。しかし、実際にはピッチの絶対値が異なっていてもピッチ差が近いテンプレートで代用することができるので全ての組合せについてNNテンプレートを用意する必要はない。
【0075】
NNテンプレートの選択においては、後述するように、ピッチの絶対値が近いものよりも、ピッチの変化幅が近いテンプレートを優先的に選択する。選択されたNNテンプレートは、後述するタイプ3の方法で適用する。
【0076】
このとき、ピッチの変化幅が近いNNテンプレートを優先的に選ぶのは、ピッチの大きく変動する部分から作成したNNテンプレートには大きな値が入っている可能性があり、それをピッチの変化幅が少ない部分に適用した場合には元のNNテンプレートの持っている変化の形状を保てなくなり、変化が不自然になる可能性があるからである。
【0077】
なお、ある特定の音素、例えば「あ」のピッチの変化している音声から求めたNNテンプレートを、全ての音素のピッチ変化に代用して使うことも可能であるが、データサイズが大きくても問題がない環境であれば、音素ごとに何パターンかピッチを変化させてNNテンプレートを用意するほうが、より単調でない豊かな合成音声が可能となる。
【0078】
次に、データベース4に記録されているテンプレートの適用方法を説明する。テンプレートの適用とは、入力データScore上のある区間に対して、テンプレートの時間長を伸縮して、基準点となる1つ又は複数の特徴パラメータにテンプレートの特徴パラメータの差分を加算して、Scoreのある区間と同じ時間長を持つ特徴パラメータ、ピッチの列を得ることである。具体的にはタイプ1からタイプ4までの4種類のテンプレートの適用方法がある。以下の説明ではテンプレートを{P(t),Pitch(t),T}であらわす。
【0079】
まずタイプ1によるテンプレートの適用を説明する。タイプ1は、始点指定タイプによるテンプレートの適用方法である。入力データScoreの長さT’の区間Kに対するタイプ1によるテンプレートの適用は、下記式(D)に従って時刻tでの特徴パラメータP’tを求めることである。なおPtは区間Kの時刻tの特徴パラメータである。
【0080】
【数式6】
なお、時刻t=0にテンプレート及び区間Kの始点があるとする。この式(D)はテンプレートの始点からの変化分を時刻tの特徴パラメータに加算することを意味する。
【0081】
タイプ1は、テンプレートを主にノートリリース部分の特徴パラメータに適用する場合に用いる。何故なら、ノートリリースの開始部分では、定常部分の音声が存在する為、ノートリリースの開始部分でパラメータの連続性、つまりは音声の連続性を保つ必要があり、ノートリリースの終端部は無音であるので、その必要がないからである。
【0082】
次にタイプ2によるテンプレートの適用方法を説明する。タイプ2は、終点指定タイプによるテンプレートの適用方法である。入力データScoreの長さT’の区間Kに対するタイプ2によるテンプレートの適用は、下記式(E)に従って時刻tでの特徴パラメータP’tを求めることである。なおPtは区間Kの時刻tの特徴パラメータである。
【0083】
【数式7】
なお、時刻t=0にテンプレート及び区間Kの始点があるとする。この式(E)はテンプレートの終点からの変化分を時刻tの特徴パラメータに加算することを意味する。
【0084】
タイプ2は、テンプレートを主にノートアタック部分の特徴パラメータに適用する場合に用いる。何故なら、ノートアタックの後方部分では、定常部分の音声が存在する為、ノートアタックの後方部分でパラメータの連続性、つまりは音声の連続性を保つ必要があり、ノートアタックの開始部分は無音であるので、その必要がないからである。
【0085】
次にタイプ3によるテンプレートの適用方法を説明する。タイプ3は、両点指定タイプによるテンプレートの適用方法である。入力データScoreの長さT’の区間Kに対するタイプ3によるテンプレートの適用は、下記式(F)に従って時刻tでの特徴パラメータP’tを求めることである。なおPtは区間Kの時刻tの特徴パラメータである。
【0086】
【数式8】
…(F)
なお、時刻t=0にテンプレート及び区間Kの始点があるとする。この式(F)はテンプレートの始点と終点を結んだ直線との差を、区間Kの始点と終点を結んだ直線に加算することを意味する。
【0087】
次にタイプ4によるテンプレートの適用方法を説明する。タイプ4は、ステーショナリータイプによるテンプレートの適用方法である。入力データScoreの長さT’の区間Kに対するタイプ2によるテンプレートの適用は、下記式(G)に従って時刻tでの特徴パラメータP’tを求めることである。なおPtは区間Kの時刻tの特徴パラメータである。
【0088】
【数式9】
なお、時刻t=0にテンプレート及び区間Kの始点があるとする。この式(G)は区間Kに対してテンプレートの始点からの特徴パラメータの変化分を加算することをT毎に繰り返すことを意味する。
【0089】
タイプ4は、主にステーショナリー部分に適用する場合に用いる。このタイプ4は、比較的長時間の音声の定常的部分に自然な揺らぎを与える効果をもっている。
【0090】
図9は、特徴パラメータ発生処理を表すフローチャートである。この処理により、ある時刻tにおける特徴パラメータを発生させる。この特徴パラメータ発生処理を、ある一定時刻毎に時刻tを増加させながら、繰り返し行うことにより、フレーズ、曲といった単位の音声を合成することが出来る。
【0091】
ステップSA1では、特徴パラメータ発生処理を開始して次のステップSA2に進む。
【0092】
ステップSA2では、入力データScoreの時刻tにおける各トラックの値を取得する。具体的には、入力データScore中の時刻tにおける音韻名、アーティキュレーション又はステーショナリーの区別、ノートアタック、ノートトゥノート又はノートリリースの区別、ピッチ、ダイナミクス値、及びオープニング値を取得する。その後次のステップSA3に進む。
【0093】
ステップSA3では、ステップSA2で取得した入力データScoreの各トラックの値に基づき、必要なテンプレートを音韻テンプレートデータベースPDBとノートテンプレートデータベースNDBから読み込む。その後次のステップSA4に進む。
【0094】
このステップSA3での音韻テンプレートの読み込みは、例えば、以下の手順で行われる。時刻tでの音韻がアーティキュレーションであると判断すると、アーティキュレーションテンプレートデータベースを検索して、先頭と後続の音韻名が一致して、かつピッチが一番近いテンプレートを読み込む。
【0095】
一方、時刻tでの音韻がステーショナリーであると判断すると、ステーショナリーテンプレートデータベースを検索して、音韻名が一致して、かつピッチが一番近いステーショナリーテンプレートを読み込む。
【0096】
また、ノートテンプレートの読み込みは、以下のように行われる。例えば、時刻tのノートトラックがノートアタックであると判断した場合は、NAテンプレートデータベースNADBを検索して、音韻名が一致して、かつピッチが一番近いテンプレートを読み込む。
【0097】
また、例えば、時刻tのノートトラックがノートリリースであると判断した場合は、NRテンプレートデータベースNRDBを検索して、音韻名が一致して、かつピッチが一番近いテンプレートを読み込む。
【0098】
さらに、例えば、時刻tのノートトラックがノートトゥノートであると判断した場合は、NNテンプレートデータベースNNDBを検索して、音韻名が一致して、かつ始点ピッチと終了時刻ピッチを元に以下の式(H)で求められる距離dが一番近くなるテンプレートを読み込む。以下の式(H)は、周波数の変化量と平均値を重み付けして加算した値を元に距離尺度としている。
【0099】
【数式10】
ここで、
【数式11】
上記式(H)で求めた距離dに基づき、テンプレートを読み込むことにより、ピッチの絶対値が近いものよりも、ピッチの変化幅が近いテンプレートを優先的に選択するようにしている。
【0100】
ステップSA4では、ノートトラックの現在時刻tと同じ属性を持つ領域の開始時刻及び終了時刻を求め、音韻トラックがステーショナリーである場合はノートアタック、ノートトゥノート又はノートリリースの区別にしたがって、開始時刻あるいは終了時刻又は双方の特徴パラメータを取得若しくは算出する。その後次のステップSA5に進む。
【0101】
時刻tのノートトラックがノートアタックである場合には、TimbreデータベースTDBを検索して、音韻名及びノートアタック終了時刻のピッチが一致する特徴パラメータを読み込む。
【0102】
ピッチが一致する特徴パラメータがないときには、音韻名が一致し、かつノートアタック終了時刻のピッチをはさむ2つの特徴パラメータを取得して、これらを補間することによりノートアタック終了時刻の特徴パラメータを算出する。補間方法の詳細は後述する。
【0103】
時刻tのノートトラックがノートリリースである場合には、TimbreデータベースTDBを検索して、音韻名及びノートアタック開始時刻のピッチが一致する特徴パラメータを読み込む。
【0104】
ピッチが一致する特徴パラメータがないときには、音韻名が一致し、かつノートリリース開始時刻のピッチをはさむ2つの特徴パラメータを取得して、これらを補間することによりノートリリース開始時刻の特徴パラメータを算出する。補間方法の詳細は後述する。
【0105】
時刻tのノートトラックがノートトゥノートである場合には、TimbreデータベースTDBを検索して、音韻とノートトゥノート開始時刻のピッチが一致する特徴パラメータ及び音韻とノートトゥノート終了時刻のピッチが一致する特徴パラメータを読み込む。
【0106】
ピッチが一致する特徴パラメータがないときには、音韻名が一致し、かつノートトゥノート開始(終了)時刻のピッチをはさむ2つの特徴パラメータを取得して、これらを補間することによりノートトゥノート開始(終了)時刻の特徴パラメータを算出する。補間方法の詳細は後述する。
【0107】
なお、音韻トラックがアーティキュレーションである場合は開始時刻及び終了時刻の特徴パラメータを取得若しくは算出する。この場合は、TimbreデータベースTDBを検索して、音韻名とアーティキュレーション開始時刻のピッチが一致する特徴パラメータ及び音韻名とアーティキュレーション終了時刻のピッチが一致する特徴パラメータを読み込む。
【0108】
ピッチが一致する特徴パラメータがないときには、音韻名が一致し、かつアーティキュレーション開始(終了)時刻のピッチをはさむ2つの特徴パラメータを取得して、これらを補間することによりアーティキュレーション開始(終了)時刻の特徴パラメータを算出する。
【0109】
ステップSA5では、ステップSA4で求めた始点、終了時刻の特徴パラメータとピッチに対して、ステップSA3で読み込んだテンプレートを適用して、時刻tにおけるピッチとダイナミクスを求める。
【0110】
時刻tのノートトラックがノートアタックならば、ノートアタック部分に対してステップSA4で求めたノートアタック部分の終了時刻の特徴パラメータを使いタイプ2でNAテンプレートを適用する。テンプレートを適用した後の時刻tにおけるピッチとダイナミクス(EGain)を記憶する。
【0111】
一方、時刻tのノートトラックがノートリリースならば、ノートリリース部分に対してステップSA4で求めたノートリリース始点の特徴パラメータを使いタイプ1でNRテンプレートを適用する。テンプレートを適用した後の時刻tにおけるピッチとダイナミクス(EGain)を記憶する。
【0112】
また、時刻tのノートトラックがノートトゥノートならば、ノートトゥノート部分に対してステップSA4で求めたノートトゥノートの始点及び終了時刻における特徴パラメータを使い、その区間に対してタイプ3でNNテンプレートを適用する。テンプレートを適用した後の時刻tにおけるピッチとダイナミクス(EGain)を記憶する。
【0113】
さらに、時刻tのノートトラックが上記のいずれでもない場合には、入力データScoreのピッチとダイナミクス(EGain)を記憶する。
【0114】
以上のいずれかの処理を行ったら、次のステップSA6に進む。
【0115】
ステップSA6では、ステップSA2で求めた各トラックの値から、時刻tの音韻がアーティキュレーションであるか否かを判断する。アーティキュレーションである場合には、YESの矢印で示すステップSA9に進む。アーティキュレーションでない場合、すなわち時刻tの音韻がステーショナリーである場合には、NOの矢印で示すステップSA7に進む。
【0116】
ステップSA7では、ステップSA2で求めた時刻tにおける音韻名と、ステップSA5で求めたピッチ、ダイナミクスをインデックスとして、TimbreデータベースTDBから特徴パラメータを読み込み補間する。読み込みと補間の方法は、ステップSA4で行ったものと同様である。その後、ステップSA8に進む。
【0117】
ステップSA8では、ステップSA7で求めた時刻tにおける特徴パラメータ及びピッチに対して、ステップSA3で求めたステーショナリーテンプレートをタイプ4で適用する。
【0118】
このステップSA8で、ステーショナリーテンプレートを適用することで、時刻tでの特徴パラメータ及びピッチが更新され、ステーショナリーテンプレートの持つ音声の揺らぎが加えられる。その後、ステップSA10に進む。
【0119】
ステップSA9では、ステップSA4で求めたアーティキュレーション部分の開始時刻及び終了時刻の特徴パラメータに、ステップSA3で読み込んだアーティキュレーションテンプレートを適用して、時刻tでの特徴パラメータ及びピッチを求める。その後、ステップSA10に進む。
【0120】
ただし、テンプレートの適用方法は有声音(V)から無声音(U)への変化の場合はタイプ1で行い、無声音(U)から有声音(V)への変化の場合はタイプ2で行い、有声音(V)から有声音(V)又は無声音(U)からから無声音(U)への変化の場合はタイプ3で行う。
【0121】
上記のようにテンプレートの適用方法を変えるのは、有声部分での連続性を保ちつつ、テンプレートに含まれている自然な音声の変化を再現する為である。
【0122】
ステップSA10では、ステップSA8若しくはステップSA9で求められた特徴パラメータに対して、NAテンプレート、NRテンプレート、NNテンプレートのいずれかを適用する。ただし、ここでは、特徴パラメータのEGainに対しては、テンプレートを適用しない。その後次のステップSA11に進み、特徴パラメータ発生処理を終了する。
【0123】
このステップSA10でのテンプレートの適用は、時刻tでのノートトラックがノートアタックである場合には、ステップSA3で求めた、NAテンプレートをタイプ2により適用して、特徴パラメータを更新する。
【0124】
時刻tでのノートトラックがノートリリースである場合には、ステップSA3で求めた、NRテンプレートをタイプ1により適用して、特徴パラメータを更新する。
【0125】
時刻tでのノートトラックがノートトゥノートである場合には、ステップSA3で求めた、NNテンプレートをタイプ3により適用して、特徴パラメータを更新する。
【0126】
ただし上記いずれの場合にも、ここでは、特徴パラメータのEGainに対しては、テンプレートを適用しない。また、ピッチについても、このステップSA10の前のステップで求められたものをそのまま使用する。
【0127】
以下に、図9のステップSA4で行う特徴パラメータの補間について説明する。特徴パラメータの補間には、2つの特徴パラメータの補間と、1つの特徴パラメータからの推定がある。
【0128】
人間が音声を発声するときにピッチを変化させると声帯波形(肺からの空気と声帯の振動によって発生する音源波形)が変化することが知られており、またフォルマントもピッチによって変化することが知られている。ある特定のピッチで歌った音声から得られた特徴パラメータを他のピッチの音声を合成するときにそのまま流用した場合には、ピッチを変えても同じような声の音色になってしまい不自然になってしまう。
【0129】
それを避けるために人間の歌唱音域である2〜3オクターブの音域中、対数軸で、ほぼ等間隔で3点程度のピッチを選び、特徴パラメータをTimbreデータベースTDBに保存しておく。TimbreデータベースTDB中にあるピッチ以外のピッチの音声を合成する場合には、2つの特徴パラメータの補間(直線補間)若しくは1つの特徴パラメータからの推定(外挿)によって特徴パラメータが求められる。
【0130】
この方法によって、ピッチが変化したときの音声の特徴パラメータの変化を擬似的に表現することができる。また、ピッチの異なる特徴パラメータを3点程度持つのは、同じ音素、同じピッチの発生でもそのときによって特徴パラメータには変動があり、3点程度から補間して求めた場合とさらに細かく分割して求めた場合との差は余り意味がないからである。
【0131】
2つの特徴パラメータの補間は、例えば、2つの特徴パラメータとそれぞれのピッチの組{P1,f1[cents]}、{P2,f2[cents]}が与えられたときに、時刻tのピッチf1[cents]における特徴パラメータを、以下の式(I)により直線補間して求めることにより行われる。
【0132】
【数式12】
…(I)
上記式(I)では、データベースのインデックスがピッチ1個だけの場合を考えたが、一般的にインデックスがN個ある場合でも、目標を囲む近傍のN+1個のデータをもとに、以下の式(I’)を用いて、目標のインデックスfの代理として使用する特徴パラメータを補間して求めることが出来る。なお、Piは、近傍のi番目の特徴パラメータであり、fiはそのインデックスである。
【数式13】
…(I’)
【0133】
1つの特徴パラメータからの推定は、データベースに含まれるデータの音域を外れる音声の特徴パラメータを推定するときに用いる。
【0134】
これは、データベースの音域よりもピッチの高い音声を合成する場合に、データベース中の最もピッチの高い特徴パラメータをそのまま利用すると、明らかに音質が劣化するからである。
【0135】
また、データベースの音域よりもピッチの低い音声を合成する場合に、最もピッチの低い特徴パラメータを利用すると同様に音質が劣化するからである。そこで本実施例では実際の音声データの観察からの知見に基づいた規則を使って、以下のように特徴パラメータを変化させて劣化を防いでいる。
【0136】
まず、データベースの音域よりも高いピッチ(目標ピッチ)の音声を合成する場合を説明する。
【0137】
まず、目標ピッチTargetPitch[cents]からデータベース中の最も高いピッチHighestPitch[cents]を引いた値PitchDiff[cents]を求める。
【0138】
次に、データベースから最も高いピッチを持つ特徴パラメータを読み出して、その内の励起レゾナンス周波数EpRFreq及び第iフォルマント周波数FormantFreqiに、それぞれ上記PitchDiff[cents]を加算して、EpRFreq’、FormantFreqi’に置き換えたものを目標ピッチの特徴パラメータとして使う。
【0139】
次に、データベースの音域よりも低いピッチ(目標ピッチ)の音声を合成する場合を説明する。
【0140】
まず、目標ピッチTargetPitch[cents]からデータベース中の最も低いピッチLowestPitch[cents]を引いた値PitchDiff[cents]を求める。
【0141】
次に、データベースから最も低いピッチを持つ特徴パラメータを読み出して、以下のようにパラメータを置き換えて目標ピッチの特徴パラメータとして用いる。
【0142】
まず、励起レゾナンス周波数EpRFreq及び第1から第4フォルマント周波数FormantFreq(1≦i≦4)を、それぞれ下記式(J1)及び(J2)を用いて、EpRFreq’、FormantFreqi’に置き換える。
【数式14】
【数式15】
さらに、ピッチが低くなるほどバンド幅が狭くなるように、励起レゾナンスバンド幅ERBW及び第1から第3フォルマントのバンド幅FormantBWi(1≦i≦3)をそれぞれ下記式(J3)、(J4)のERBW’、FormantBWi’に置き換える。
【0143】
【数式16】
【数式17】
さらに、第1から第4フォルマントのアンプリチュードFormantAmp1〜FormantAmp4を下記式(J5)〜(J8)に従いPitchDiffに比例させて大きくして、FormantAmp1’〜FormantAmp4’に置き換える。
【0144】
【数式18】
…(J5)
【数式19】
…(J6)
【数式20】
…(J7)
【数式21】
…(J8)
さらに、スペクトル・エンベロープの傾きEslopeを下記式(J9)に従いEslope’に置き換える。
【数式22】
…(J9)
【0145】
図4に示すような、ピッチ、ダイナミクス、オープニングをインデックスとしてTimbreデータベースTDBを作成することが好ましいが、時間的、データベースサイズ的な制約がある場合には、本実施例のように、図3に示すような、ピッチのみをインデックスとしたデータベースを用いることになる。
【0146】
そのような場合に、ダイナミクス関数や、オープニング関数を用いて、ピッチのみをインデックスとした特徴パラメータを変化させ、あたかも、ピッチ、ダイナミクス、オープニングをインデックスとして作成したTimbreデータベースTDBを使用したかのような効果を擬似的に得る事が出来る。
【0147】
すなわち、ピッチのみを変化させて録音した音声を使用して、ピッチ、ダイナミクス、オープニングを変化させて録音した音声を使用したかのような効果を得る事が出来る。
【0148】
ダイナミクス関数及び、オープニング関数は、ダイナミクス、オープニングを変化させて発声した実際の音声と、特徴パラメータの相関関係を分析して得る事が出来る。以下に、ダイナミクス関数及び、オープニング関数の例をあげ、その適用方法を説明する。
【0149】
図10は、ダイナミクス関数の一例を表すグラフである。図10(A)は、関数fEGを表すグラフであり、図10(B)は、関数fESを表すグラフであり、図10(C)は、関数fESDを表すグラフである。
【0150】
これらの、図10(A)〜(C)に示される関数fEG、fES、fESDを利用して、ダイナミクス値を特徴パラメータExcitationGain(EG)、ExcitationSlope(ES)、ExcitationSlopeDepth(ESD)に反映させる。
【0151】
図10(A)〜(C)の関数fEG、fES、fESDの入力は、全てダイナミクス値であり、0から1までの値をとる。このダイナミクス値をdynとして、関数fEG、fES、fESDを使い、下記式(K1)〜(K3)で、特徴パラメータEG’、ES’、ESD’を求め、ダイナミクス値(dyn)の時の特徴パラメータとして用いる。
【0152】
【数式23】
【数式24】
【数式25】
なお、図10(A)〜(C)の関数fEG、fES、fESDは、一例であり、歌唱者によって様々な関数を用意することにより、より自然性を持った音声合成を行うことが出来る。
【0153】
図11は、オープニング関数の一例を表すグラフである。図中、横軸は周波数(Hz)であり、縦軸はアンプリチュード(dB)である。
【0154】
このオープニング関数をfOpen(freq)とし、オープニング値をOpenとして、以下の式(L1)により、励起レゾナンス周波数ERFreq’を励起レゾナンス周波数ERFreqから求め、オープニング値(Open)のときの特徴パラメータとして用いる。
【0155】
【数式26】
また、以下の式(L2)により、i番目のフォルマント周波数FormantFreqi’をi番目のフォルマント周波数FormantFreqiから求め、オープニング値(Open)のときの特徴パラメータとして用いる。
【0156】
【数式27】
これにより、周波数0〜500Hzにあるフォルマントのアンプリチュードをオープニング値に比例させて増減させることができ、合成音声に、唇開度による音声の変化を与えることが出来る。
【0157】
なお、オープニング値を入力とする関数を歌唱者別に用意して、変化させることにより、合成音声をより多様化させることが出来る。
【0158】
図12は、本実施例によるテンプレートの第1の適用例を表す図である。図中(a)の楽譜による歌唱を本実施例により合成する場合を説明する。
【0159】
この楽譜は、最初の2分音符の音程は「ソ」であり、強さは「ピアノ(弱く)」で「あ」という発音である。2つ目の2分音符の音程は「ド」であり、強さは「メゾフォルテ(やや強く)」で「あ」という発音である。2つの2分音符は、レガートで接続されているので、音と音の間に切れ目がなく滑らかに接続する。
【0160】
ここで、「ソ」から「ド」への変化の時間は、入力データ(楽譜)とともに与えられるものとする。
【0161】
まず、音符の音名から2つのピッチの周波数が得られる。その後、2つのピッチの終点と始点を直線で結んで、図中(b)に示すように音符の境界部分のピッチを得ることが出来る。
【0162】
次にダイナミクスであるが、これは、「ピアノ(弱く)」や「メゾフォルテ(やや強く)」といった強弱記号に対応した値をテーブルとして記憶しておき、これを使って数値に変換して2つの音符に対応するダイナミクス値を得る。このようにして得た2つのダイナミクス値を直線で結ぶことにより、図中(b)に示すように音符の境界部分のダイナミクス値を得ることが出来る。
【0163】
このようにして得て、ピッチと、ダイナミクス値をそのまま用いると、ピッチ、ダイナミクスが音符の境界部分で急激に変化してしまうので、レガートに接続する為、この音符の境界部分に、図中(b)に示すようにNNテンプレートを適用する。
【0164】
ここでは、ピッチとダイナミクスにだけ、NNテンプレートを適用して、図中(c)に示すような音符の境界部分が滑らかに接続されたピッチとダイナミクスを得る。
【0165】
次に、図中(c)に示す決定されたピッチとダイナミクス及び「あ」という音韻名をインデックスとして、TimbreデータベースTDBから、図中(d)に示すような各時刻の特徴パラメータを求める。
【0166】
ここで求めた各時刻の特徴パラメータに対して、図中(c)に示す音韻名「あ」に対応するステーショナリーテンプレートを適用し、音符境界の接続部分以外の定常部分に音声の揺らぎを付加して、図中(e)に示すような特徴パラメータを得る。
【0167】
次に、図中(b)でピッチとダイナミクスのみ適用したNNテンプレートの残り(フォルマント周波数など)を、図中(e)に示す特徴パラメータに適用し、音符の境界部分のフォルマント周波数などに揺らぎを与えた図中(f)で示す特徴パラメータを得る。
【0168】
最後に、図中(c)のピッチ、ダイナミクスと、図中(f)の特徴パラメータを用いて、音声合成を行うことにより、図中(a)の楽譜で表す歌唱を合成することが出来る。
【0169】
なお、図12の(b)で、NNテンプレートを適用する部分の時間幅は、例えば、図13に示すように長くすることが出来る。図13に示すように、NNテンプレートを適用する部分の時間幅を長くすると、NNテンプレートが伸長されて適用されるので、ゆっくりとした変化を持つ歌唱音声を合成することが出来る。
【0170】
また、逆に、NNテンプレートを適用する時間幅を狭くすれば、早く滑らかに変化する歌唱音声を合成することが出来る。このようにNNテンプレートの適用時間を制御することで、変化のスピードをコントロールすることが出来る。
【0171】
また、同じ時間で、ピッチをある高さから別の高さに変化させる場合でも、前半で急激に変化させ、後半はゆっくり変化させる歌い方があり、その逆もある。このように、ピッチの変化の道筋は何通りもあり、その違いは結果的に音楽的な聞こえ方の違いとなって現れる。そこで、このようなレガートの歌い方を変えて歌唱した音声から複数種類のNNテンプレートを作成して記録しておけば、様々なバリエーションを合成音声に持たせることが出来る。
【0172】
さらに、音程(ピッチ)の変化の仕方には、上記のレガート奏法以外にも様々なものがあり、それらについても別にテンプレートを作成して記録するようにしてもよい。
【0173】
例えば、レガートのように完全に連続的にピッチを変化させるのではなく、半音ごとにピッチを変化させたり、楽曲の長で使われる音階(例えば、ハ長調では、ドレミファソラシド)だけで飛び飛びに変化させたりする、いわゆるグリッサンド奏法がある。
【0174】
この場合には、グリッサンドで実際に歌唱した音声から、NNテンプレートを作成し、そのテンプレートを適用して2つの音符を滑らかに接続した歌唱を合成することが出来る。
【0175】
なお、本実施例では、NNテンプレートは、同じ音韻でピッチが変化している場合だけを作成して記録しているが、例えば、「あ」から「え」のように違う音韻でピッチが変化している場合についても作成することができる。この場合は、NNテンプレートの数が多くなってしまうが、実際の歌唱により近づけることが出来る。
【0176】
図14は、本実施例によるテンプレートの第2の適用例を表す図である。図中(a)の楽譜による歌唱を本実施例により合成する場合を説明する。
【0177】
この楽譜は、最初の2分音符の音程は「ソ」であり、強さは「ピアノ(弱く)」で「あ」という発音である。2つ目の2分音符の音程は「ド」であり、強さは「メゾフォルテ(やや強く)」で「え」という発音である。
【0178】
ここで、「あ」から「え」へのアーティキュレーションの時間は、2つの音素の組合せ毎に固定値として設定しておくか、又は入力データとともに与えられるものとする。
【0179】
まず、音符の音名から2つのピッチの周波数が得られる。その後、2つのピッチの終点と始点を直線で結んで、図中(b)に示すように音符の境界部分(アーティキュレーション部分)のピッチを得ることが出来る。
【0180】
次にダイナミクスであるが、これは、「ピアノ(弱く)」や「メゾフォルテ(やや強く)」といった強弱記号に対応した値をテーブルとして記憶しておき、これを使って数値に変換して2つの音符に対応するダイナミクス値を得る。このようにして得た2つのダイナミクス値を直線で結ぶことにより、図中(b)に示すように音符の境界部分のダイナミクス値を得ることが出来る。
【0181】
次に、図中(b)に示す決定されたピッチとダイナミクス及び「あ」、「え」という音韻名をインデックスとして、TimbreデータベースTDBから、図中(c)に示すような各時刻の特徴パラメータを求める。ただし、アーティキュレーション部分の特徴パラメータは、仮に音韻「あ」の終点部分と、音韻「え」の始点部分を直線補間した値である。
【0182】
次に、図中(c)に示すように、「あ」のステーショナリーテンプレート、「あ」から「え」へのアーティキュレーションテンプレート、「え」のステーショナリーテンプレートを先に求めた、特徴パラメータのそれぞれの該当部分に適用し、図中(d)に示すような特徴パラメータを得る。
【0183】
最後に、図中(b)のピッチ、ダイナミクスと、(d)の特徴パラメータを使って、音声合成を行う。
【0184】
このようにすると、人間が実際に発声する場合と同様に、自然に「あ」から「え」に変化する歌唱音声を合成することが出来る。
【0185】
なお、アーティキュレーションテンプレートも、NNテンプレートの場合と同様に、境界部分(アーティキュレーション部分)の長さを楽譜とともに与えられるようにしておけば、「あ」から「え」へのアーティキュレーションの時間を制御することができ、ゆっくりと変化する音声や、早く変化する音声を、1つのテンプレートを伸縮することで合成できる。すなわち、こうすることで、音韻の変化する時間を制御することが出来る。
【0186】
図15は、本実施例によるテンプレートの第3の適用例を表す図である。図中(a)の楽譜による歌唱を本実施例により合成する場合を説明する。
【0187】
この楽譜は、音程が「ソ」で、発音は「あ」である全音符の強さを立ち上がりから次第に強くしていき、立下りで次第に弱くしていくものである。
【0188】
この楽譜の場合は、ピッチ、ダイナミクスは図中(b)に示すように平坦である。これらのピッチ、ダイナミクスの先頭にNAテンプレートを適用し、さらに音符の最後にNRテンプレートを適用して、図中(c)で示すようなピッチとダイナミクスを求めて、決定する。
【0189】
なお、NAテンプレート及びNRテンプレートを適用する長さは、クレッシェンド記号及びデクレッシェンド記号自身に長さを持たせて入力されているものとする。
【0190】
次に、決定した図中(c)のピッチ、ダイナミクス及び音韻名「あ」をインデックスとして、図中(d)に示すようにアタックでもリリースでもない通常部分の特徴パラメータが求められる。
【0191】
さらに、図中(d)に示す通常部分の特徴パラメータに、ステーショナリーテンプレートを適用して、図中(e)に示すような、揺らぎが与えられた特徴パラメータを求める。この(e)の特徴パラメータを元に、アタック部分とリリース部分の特徴パラメータを求める。
【0192】
アタック部分の特徴パラメータは、通常部分の始点(アタック部分の終点)に対して、音韻「あ」のNAテンプレートを前述のタイプ2の方法で適用して求める。
【0193】
リリース部分の特徴パラメータは、通常部分の終点(リリース部分の始点)に対して、音韻「あ」のNRテンプレートを前述のタイプ1の方法で適用して求める。
【0194】
このようにして、アタック部分、通常部分、リリース部分の特徴パラメータが、図中(f)のように求められる。この特徴パラメータと、(c)のピッチ、ダイナミクスを使用して、音声を合成することで、(a)の楽譜によるクレッシェンド、デクレッシェンドで歌った歌唱音声を得ることが出来る。
【0195】
以上、本実施例に拠れば、実際の人間の歌唱音声を分析して得られる音韻テンプレートを用いて、特徴パラメータに変動を与えるので、歌唱音声の持っている母音を長く伸ばした部分や、音韻が変化する部分の特徴を反映した自然な合成音声を生成することが出来る。
【0196】
また、本実施例に拠れば、実際の人間の歌唱音声を分析して得られるノートテンプレートを用いて、特徴パラメータに変動を与えるので、単なる音量の違いだけでない、音楽的な強弱の表現力を持った合成音声を生成することが出来る。
【0197】
さらに、本実施例に拠れば、ピッチ、ダイナミクス、オープニングなどの音楽表現度を細かく変化させたデータを用意しなくても、他に用意されているデータを補間して、用いることが出来るので、少ないサンプルですみ、データベースのサイズを小さくすることが出来るとともに、データベースの作成時間を短縮することが出来る。
【0198】
さらに、また、本実施例に拠れば、音楽表現度として、ピッチのみをインデックスとしたデータベースを使用したとしても、オープニング及びダイナミクス関数を用いて、擬似的にピッチ、オープニング、ダイナミクスの3つの音楽表現度をインデックスとして持つデータベースを使用した場合に近い効果を得る事が出来る。
【0199】
なお、本実施例では、図2に示したように、入力データScoreとして、音韻トラックPHT、ノートトラックNT、ピッチトラックPIT、ダイナミクストラックDYT、オープニングトラックOTを入力したが、入力データScoreの構成はこれに限られない。
【0200】
例えば、図2の入力データScoreに、ビブラートトラックを追加して用意してもよい。ビブラートトラックには、0〜1のビブラート値が記録されている。
【0201】
この場合、データベース4には、ビブラート値を引数として、ピッチ、ダイナミクスの時系列を返す関数、若しくはテーブルをビブラートテンプレートとして保存しておく。
【0202】
そして、図4のステップSA5のピッチ、ダイナミクスの計算において、このビブラートテンプレートを適用することで、ビブラート効果を与えたピッチ、ダイナミクスを得る事が出来る。
【0203】
ビブラートテンプレートは、実際の人間の歌唱音声を分析することで得る事が出来る。
【0204】
なお、本実施例は歌唱音声合成を中心に説明したが、歌唱音声に限られるものではなく、通常の会話の音声や楽器音なども同様に合成することができる。
【0205】
なお、本実施例は、本実施例に対応するコンピュータプログラム等をインストールした市販のコンピュータ等によって、実施させるようにしてもよい。
【0206】
その場合には、本実施例に対応するコンピュータプログラム等を、CD−ROMやフロッピーディスク等の、コンピュータが読み込むことが出来る記憶媒体に記憶させた状態で、ユーザに提供してもよい。
【0207】
そのコンピュータ等が、LAN、インターネット、電話回線等の通信ネットワークに接続されている場合には、通信ネットワークを介して、コンピュータプログラムや各種データ等をコンピュータ等に提供してもよい。
【0208】
以上実施例に沿って本発明を説明したが、本発明はこれらに制限されるものではない。例えば、種々の変更、改良、組合せ等が可能なことは当業者に自明であろう。
【0209】
【発明の効果】
以上説明したように、本発明によれば、音質の劣化を最小限に抑えつつ、サイズを縮小した音声合成用データベースを提供することができる。
【0210】
また、本発明によれば、よりリアルな人間の歌唱音声を合成して、違和感のない自然な状態で歌を歌わせることが可能な音声合成装置を提供することができる。
【図面の簡単な説明】
【図1】 本発明の実施例による音声合成装置1の構成を表すブロック図である。
【図2】 入力データScoreの一例を示す概念図である。
【図3】 TimbreデータベースTDBの一例である。
【図4】 TimbreデータベースTDBの他の例である。
【図5】 ステーショナリーテンプレートデータベースの一例である。
【図6】 アーティキュレーションテンプレートデータベースの一例である。
【図7】 NAテンプレートデータベースNADBの一例である。
【図8】 NNテンプレートデータベースNNDBの一例である。
【図9】 特徴パラメータ発生処理を表すフローチャートである。
【図10】 ダイナミクス関数の一例を表すグラフである。
【図11】 オープニング関数の一例を表すグラフである。
【図12】 本実施例によるテンプレートの第1の適用例を表す図である。
【図13】 本実施例によるテンプレートの第1の適用例の変形例を表す図である。
【図14】 本実施例によるテンプレートの第2の適用例を表す図である。
【図15】 本実施例によるテンプレートの第3の適用例を表す図である。
【符号の説明】
1…音声合成装置、2…データ入力部、3…特徴パラメータ発生部、4…データベース、5…EpR音声合成エンジン
Claims (9)
- 特定時刻の音声の特徴量を、音韻とピッチをインデックスとして記憶する記憶手段と、
ピッチと音声の特徴量の時間変化を表すテンプレートであって、特徴量が定常である部分の音声を分析して得た複数のステーショナリーテンプレートと、音韻の接続部分の音声を分析して得た複数のアーティキュレーションテンプレートとを、それぞれ音韻とピッチをインデックスとして記憶する音韻テンプレート記憶手段と、
ピッチと音声の特徴量の時間変化を表すテンプレートであって、音声の立ち上がりの部分を分析して得た複数のノートアタックテンプレートと、音声のピッチが変化する部分を分析して得た複数のノートトゥノートテンプレートとを、それぞれ音韻とピッチをインデックスとして記憶するノートテンプレート記憶手段と、
少なくともピッチ、音韻、該音韻が定常部分であるか音韻の遷移部分であるかを示す音韻フラグ、及び該音韻が音声の立ち上がり部分であるか音声のピッチが変化する部分であるかを示すノートフラグを含む音声合成のための音声情報を入力する入力手段と、
前記音声の特徴量を前記入力された音声情報に含まれるピッチ及び音韻をインデックスとして前記記憶手段から読み出し、前記音韻フラグに応じて前記ステーショナリーテンプレート又はアーティキュレーションテンプレートを前記入力された音声情報に含まれるピッチ及び音韻をインデックスとして前記音韻テンプレート記憶手段から読み出すとともに、前記ノートフラグに応じて前記ノートアタックテンプレート又はノートトゥノートテンプレートを前記入力された音声情報に含まれるピッチ及び音韻をインデックスとして前記ノートテンプレート記憶手段から読み出す読み出し手段と、
前記読み出された音声の特徴量および前記入力された音声情報に含まれるピッチに前記読み出されたテンプレートを適用し、該適用後の音声の特徴量及びピッチに基づき音声を合成する音声合成手段と
を有する音声合成装置。 - 前記記憶手段は、ピッチ、音韻に加えて、ダイナミクスをインデックスとして、音声の特徴量を記憶する請求項1記載の音声合成装置。
- 前記記憶手段は、ピッチ、音韻に加えて、オープニングをインデックスとして、音声の特徴量を記憶する請求項1記載の音声合成装置。
- 前記ノートテンプレート記憶手段は、さらに、ピッチと音声の特徴量の時間変化を表すテンプレートであって、音声の立ち下がりの部分を分析して得たノートリリーステンプレートを音韻とピッチをインデックスとして記憶し、
前記音声合成のための音声情報は、少なくともピッチ、音韻、該音韻が定常部分であるか音韻の遷移部分であるかを示す音韻フラグ、及び該音韻が音声の立ち上がり部分であるか音声のピッチが変化する部分であるか音声の立ち下りの部分であるかを示すノートフラグを含む請求項1〜3のいずれか一項に記載の音声合成装置。 - 前記音韻テンプレート記憶手段及び前記ノートテンプレート記憶手段に記憶される各テンプレートに含まれる音声の特徴量は、該音声の特徴量の時間変化の初期値又は最終値からの差分値で記憶する請求項1〜4のいずれか一項に記載の音声合成装置。
- さらに、前記入力されたピッチに合致する音声の特徴量が前記記憶手段に記憶されていない場合に、前記記憶手段に記憶されている音声の特徴量のうち、前記入力されたピッチの近傍のピッチの音声の特徴量を用いて前記音声情報に合致する音声の特徴量を補間又は外挿して算出する補間手段を有し、
前記音声合成手段は、前記補間又は外挿して算出された音声の特徴量に基づき音声を合成する請求項1〜5のいずれか一項に記載の音声合成装置。 - 前記音韻テンプレート記憶手段に記憶される音韻の接続部分の音声を分析して得たアーティキュレーションテンプレートは、該テンプレートよりも長い音声を合成する場合であって、2つの音韻間の変化部分について音声を合成する場合に、時間伸縮して適用される請求項1〜6のいずれか一項に記載の音声合成装置。
- 少なくともピッチ、音韻、該音韻が定常部分であるか音韻の遷移部分であるかを示す音韻フラグ、及び該音韻が音声の立ち上がり部分であるか音声のピッチが変化する部分であるかを示すノートフラグを含む音声合成のための音声情報を入力する入力工程と、
特定時刻の音声の特徴量を、音韻とピッチをインデックスとして記憶する記憶手段から、前記音声の特徴量を前記入力された音声情報に含まれるピッチ及び音韻をインデックスとして読み出し、ピッチと音声の特徴量の時間変化を表すテンプレートであって、特徴量が定常である部分の音声を分析して得た複数のステーショナリーテンプレートと、音韻の接続部分の音声を分析して得た複数のアーティキュレーションテンプレートとを、それぞれ音韻とピッチをインデックスとして記憶する音韻テンプレート記憶手段から、前記音韻フラグに応じて前記ステーショナリーテンプレート又はアーティキュレーションテンプレートを前記入力された音声情報に含まれるピッチ及び音韻をインデックスとして読み出すとともに、ピッチと音声の特徴量の時間変化を表すテンプレートであって、音声の立ち上がりの部分を分析して得た複数のノートアタックテンプレートと、音声のピッチが変化する部分を分析して得た複数のノートトゥノートテンプレートとを、それぞれ音韻とピッチをインデックスとして記憶するノートテンプレート記憶手段から、前記ノートフラグに応じて前記ノートアタックテンプレート又はノートトゥノートテンプレートを前記入力された音声情報に含まれるピッチ及び音韻をインデックスとして読み出す読み出し工程と、
前記読み出された音声の特徴量および前記入力された音声情報に含まれるピッチに前記読み出されたテンプレートを適用し、該適用後の音声の特徴量及びピッチに基づき音声を合成する音声合成工程と
を有する音声合成方法。 - 特定時刻の音声の特徴量を、音韻とピッチをインデックスとして記憶する記憶手段と、ピッチと音声の特徴量の時間変化を表すテンプレートであって、特徴量が定常である部分の音声を分析して得た複数のステーショナリーテンプレートと、音韻の接続部分の音声を分析して得た複数のアーティキュレーションテンプレートとを、それぞれ音韻とピッチをインデックスとして記憶する音韻テンプレート記憶手段と、ピッチと音声の特徴量の時間変化を表すテンプレートであって、音声の立ち上がりの部分を分析して得た複数のノートアタックテンプレートと、音声のピッチが変化する部分を分析して得た複数のノートトゥノートテンプレートとを、それぞれ音韻とピッチをインデックスとして記憶するノートテンプレート記憶手段とを有するコンピュータに実行させるためのプログラムであって、
少なくともピッチ、音韻、該音韻が定常部分であるか音韻の遷移部分であるかを示す音韻フラグ、及び該音韻が音声の立ち上がり部分であるか音声のピッチが変化する部分であるかを示すノートフラグを含む音声合成のための音声情報を入力する入力手順と、
前記音声の特徴量を前記入力された音声情報に含まれるピッチ及び音韻をインデックスとして前記記憶手段から読み出し、前記音韻フラグに応じて前記ステーショナリーテンプレート又はアーティキュレーションテンプレートを前記入力された音声情報に含まれるピッチ及び音韻をインデックスとして前記音韻テンプレート記憶手段から読み出すとともに、前記ノートフラグに応じて前記ノートアタックテンプレート又はノートトゥノートテンプレートを前記入力された音声情報に含まれるピッチ及び音韻をインデックスとして前記ノートテンプレート記憶手段から読み出す読み出し手順と、
前記読み出された音声の特徴量および前記入力された音声情報に含まれるピッチに前記読み出されたテンプレートを適用し、該適用後の音声の特徴量及びピッチに基づき音声を合成する音声合成手順と
を有する音声合成手順をコンピュータに実行させるためのプログラム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001067258A JP3838039B2 (ja) | 2001-03-09 | 2001-03-09 | 音声合成装置 |
DE60216651T DE60216651T2 (de) | 2001-03-09 | 2002-03-07 | Vorrichtung zur Sprachsynthese |
DE60231347T DE60231347D1 (de) | 2001-03-09 | 2002-03-07 | Verfahren und Vorrichtung zur Synthesierung einer Gesangsstimme |
EP02005149A EP1239457B1 (en) | 2001-03-09 | 2002-03-07 | Voice synthesizing apparatus |
EP06009153A EP1688911B1 (en) | 2001-03-09 | 2002-03-07 | Singing voice synthesizing apparatus and method |
US10/094,154 US7065489B2 (en) | 2001-03-09 | 2002-03-08 | Voice synthesizing apparatus using database having different pitches for each phoneme represented by same phoneme symbol |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001067258A JP3838039B2 (ja) | 2001-03-09 | 2001-03-09 | 音声合成装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005336272A Division JP4353174B2 (ja) | 2005-11-21 | 2005-11-21 | 音声合成装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002268659A JP2002268659A (ja) | 2002-09-20 |
JP2002268659A5 JP2002268659A5 (ja) | 2004-07-15 |
JP3838039B2 true JP3838039B2 (ja) | 2006-10-25 |
Family
ID=18925637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001067258A Expired - Fee Related JP3838039B2 (ja) | 2001-03-09 | 2001-03-09 | 音声合成装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7065489B2 (ja) |
EP (2) | EP1239457B1 (ja) |
JP (1) | JP3838039B2 (ja) |
DE (2) | DE60216651T2 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3879402B2 (ja) * | 2000-12-28 | 2007-02-14 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
JP4067762B2 (ja) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
JP3709817B2 (ja) * | 2001-09-03 | 2005-10-26 | ヤマハ株式会社 | 音声合成装置、方法、及びプログラム |
JP4153220B2 (ja) | 2002-02-28 | 2008-09-24 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
JP3823930B2 (ja) * | 2003-03-03 | 2006-09-20 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成プログラム |
JP4622356B2 (ja) * | 2004-07-16 | 2011-02-02 | ヤマハ株式会社 | 音声合成用スクリプト生成装置及び音声合成用スクリプト生成プログラム |
EP1835488B1 (en) * | 2006-03-17 | 2008-11-19 | Svox AG | Text to speech synthesis |
WO2008111158A1 (ja) * | 2007-03-12 | 2008-09-18 | Fujitsu Limited | 音声波形補間装置および方法 |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
US8244546B2 (en) * | 2008-05-28 | 2012-08-14 | National Institute Of Advanced Industrial Science And Technology | Singing synthesis parameter data estimation system |
JP5471858B2 (ja) * | 2009-07-02 | 2014-04-16 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
JP5293460B2 (ja) | 2009-07-02 | 2013-09-18 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
US8731931B2 (en) * | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
JP5605066B2 (ja) * | 2010-08-06 | 2014-10-15 | ヤマハ株式会社 | 音合成用データ生成装置およびプログラム |
JP6024191B2 (ja) * | 2011-05-30 | 2016-11-09 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP6047922B2 (ja) * | 2011-06-01 | 2016-12-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
US20130030789A1 (en) * | 2011-07-29 | 2013-01-31 | Reginald Dalce | Universal Language Translator |
US10860946B2 (en) * | 2011-08-10 | 2020-12-08 | Konlanbi | Dynamic data structures for data-driven modeling |
JP5821824B2 (ja) * | 2012-11-14 | 2015-11-24 | ヤマハ株式会社 | 音声合成装置 |
CN104123938A (zh) * | 2013-04-29 | 2014-10-29 | 富泰华工业(深圳)有限公司 | 语音控制系统、电子装置及语音控制方法 |
JP6171711B2 (ja) | 2013-08-09 | 2017-08-02 | ヤマハ株式会社 | 音声解析装置および音声解析方法 |
US10902841B2 (en) | 2019-02-15 | 2021-01-26 | International Business Machines Corporation | Personalized custom synthetic speech |
CN110910895B (zh) * | 2019-08-29 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 一种声音处理的方法、装置、设备和介质 |
CN112420015B (zh) * | 2020-11-18 | 2024-07-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频合成方法、装置、设备及计算机可读存储介质 |
CN112967538B (zh) * | 2021-03-01 | 2023-09-15 | 郑州铁路职业技术学院 | 一种英语发音信息采集系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2504172B2 (ja) | 1989-03-29 | 1996-06-05 | ヤマハ株式会社 | フォルマント音発生装置 |
JP2745865B2 (ja) | 1990-12-15 | 1998-04-28 | ヤマハ株式会社 | 楽音合成装置 |
JP3317458B2 (ja) * | 1993-04-21 | 2002-08-26 | 日本電信電話株式会社 | 音声合成方法 |
JP3333022B2 (ja) * | 1993-11-26 | 2002-10-07 | 富士通株式会社 | 歌声合成装置 |
JP3349905B2 (ja) * | 1996-12-10 | 2002-11-25 | 松下電器産業株式会社 | 音声合成方法および装置 |
JP3834804B2 (ja) | 1997-02-27 | 2006-10-18 | ヤマハ株式会社 | 楽音合成装置および方法 |
JPH113096A (ja) * | 1997-06-12 | 1999-01-06 | Baazu Joho Kagaku Kenkyusho:Kk | 音声合成方法及び音声合成システム |
JP3884856B2 (ja) * | 1998-03-09 | 2007-02-21 | キヤノン株式会社 | 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ |
JP3854713B2 (ja) * | 1998-03-10 | 2006-12-06 | キヤノン株式会社 | 音声合成方法および装置および記憶媒体 |
DE60018626T2 (de) * | 1999-01-29 | 2006-04-13 | Yamaha Corp., Hamamatsu | Vorrichtung und Verfahren zur Eingabe von Steuerungsdateien für Musikvorträge |
-
2001
- 2001-03-09 JP JP2001067258A patent/JP3838039B2/ja not_active Expired - Fee Related
-
2002
- 2002-03-07 EP EP02005149A patent/EP1239457B1/en not_active Expired - Lifetime
- 2002-03-07 EP EP06009153A patent/EP1688911B1/en not_active Expired - Lifetime
- 2002-03-07 DE DE60216651T patent/DE60216651T2/de not_active Expired - Lifetime
- 2002-03-07 DE DE60231347T patent/DE60231347D1/de not_active Expired - Lifetime
- 2002-03-08 US US10/094,154 patent/US7065489B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1239457A3 (en) | 2003-11-12 |
EP1688911A3 (en) | 2006-09-13 |
EP1688911A2 (en) | 2006-08-09 |
DE60216651D1 (de) | 2007-01-25 |
US20020184032A1 (en) | 2002-12-05 |
US7065489B2 (en) | 2006-06-20 |
DE60231347D1 (de) | 2009-04-09 |
DE60216651T2 (de) | 2007-09-27 |
EP1239457B1 (en) | 2006-12-13 |
JP2002268659A (ja) | 2002-09-20 |
EP1239457A2 (en) | 2002-09-11 |
EP1688911B1 (en) | 2009-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3838039B2 (ja) | 音声合成装置 | |
JP6547878B1 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
CN110634461B (zh) | 电子乐器、电子乐器的控制方法以及存储介质 | |
JP6610715B1 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
US6304846B1 (en) | Singing voice synthesis | |
Macon et al. | A singing voice synthesis system based on sinusoidal modeling | |
Bonada et al. | Synthesis of the singing voice by performance sampling and spectral models | |
JP3823930B2 (ja) | 歌唱合成装置、歌唱合成プログラム | |
Cano et al. | Voice Morphing System for Impersonating in Karaoke Applications. | |
Umbert et al. | Expression control in singing voice synthesis: Features, approaches, evaluation, and challenges | |
JP2002023775A (ja) | 音声合成における表現力の改善 | |
Rodet | Synthesis and processing of the singing voice | |
JP3711880B2 (ja) | 音声分析及び合成装置、方法、プログラム | |
JP4353174B2 (ja) | 音声合成装置 | |
JP2011090218A (ja) | 音素符号変換装置、音素符号データベース、および音声合成装置 | |
JP4349316B2 (ja) | 音声分析及び合成装置、方法、プログラム | |
JP3233036B2 (ja) | 歌唱音合成装置 | |
Cheng et al. | HMM-based mandarin singing voice synthesis using tailored synthesis units and question sets | |
Bonada et al. | Sample-based singing voice synthesizer using spectral models and source-filter decomposition | |
JP6191094B2 (ja) | 音声素片切出装置 | |
WO2023171522A1 (ja) | 音響生成方法、音響生成システムおよびプログラム | |
WO2022080395A1 (ja) | 音声合成方法およびプログラム | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2000010581A (ja) | 音声合成装置 | |
Macon et al. | E. Bryan George** School of Electrical and Computer Engineering, Georgia Institute of Technology, Atlanta, GA 30332-0250 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050920 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051121 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060526 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060724 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100811 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100811 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110811 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120811 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130811 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |