JP2004038071A - 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム - Google Patents
歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム Download PDFInfo
- Publication number
- JP2004038071A JP2004038071A JP2002198486A JP2002198486A JP2004038071A JP 2004038071 A JP2004038071 A JP 2004038071A JP 2002198486 A JP2002198486 A JP 2002198486A JP 2002198486 A JP2002198486 A JP 2002198486A JP 2004038071 A JP2004038071 A JP 2004038071A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- singing
- unit
- voice quality
- quality conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 6
- 238000003786 synthesis reaction Methods 0.000 title claims description 6
- 238000000034 method Methods 0.000 title description 4
- 238000006243 chemical reaction Methods 0.000 claims abstract description 66
- 238000001228 spectrum Methods 0.000 claims abstract description 29
- 230000002194 synthesizing effect Effects 0.000 claims description 29
- 230000001755 vocal effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 36
- 238000013507 mapping Methods 0.000 description 32
- 230000007704 transition Effects 0.000 description 15
- 230000005284 excitation Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000000926 separation method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000272525 Anas platyrhynchos Species 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
【解決手段】演奏データ保持部11に保持されたMIDI情報に基づいて、音韻データベース10に記憶された音声素片データが音声素片選択部12により選択される。この選択された音声素片データから特徴パラメータを抽出する。特徴パラメータ補正部21は、この特徴パラメータをピッチ情報等に基づき補正する。スペクトル包絡生成部23は、特徴パラメータ補正部21で補正された補正後の特徴パラメータに従って、スペクトル包絡を生成する。声質変換部25は、声質変換パラメータに基づき、特徴パラメータを補正して声質を変化させると共にこの声質変換パラメータを時間的に変化させる。
【選択図】 図1
Description
【発明の属する技術分野】
この発明は、人間の歌唱音声を合成する歌唱合成装置、歌唱合成方法及び歌唱合成用プログラムに関する。
【0002】
【従来の技術】
従来の歌唱合成装置においては、人間の実際の歌声から取得したデータをデータベースとして保存しておき、入力された演奏データ(音符、歌詞、表情等)の内容に合致したデータをデータベースより選択する。そして、この選択された演奏データに基づいて、本物の人の歌声に近い歌唱音声を合成している。
【0003】
【発明が解決しようとする課題】
ところで、人間が歌を歌うときには、音楽的なコンテキスト(楽曲中の位置、表情付けなど)により声の音色を変化させて歌うのが普通である。例えば、同じ歌詞であっても楽曲の前半部分では普通に歌うが、後半部分では感情を込めて歌う、といった具合である。従って、歌唱合成装置により自然な歌声を合成するには、歌唱中の声の音色を音楽的なコンテキストに従って変化させることが必要となってくる。
【0004】
しかし、従来の歌唱合成装置では、歌唱者データを入力して、歌唱者の異同に応じて歌わせ方を変化させることは行われていたが、同じ歌唱者の場合、同じ音韻コンテキストに対しては、基本的には1つの音韻テンプレートだけを使用しており、音色のバリエーションを付けることは行われていなかった。このため、合成される歌唱音声は音色の変化が乏しいものであった。
本発明は、この点に鑑みてなされたものであり、合成される歌唱音声を表情豊かなものとすることのできる歌唱合成装置を提供することを目的とする。
【0005】
【課題を解決するための手段】
上記目的達成のため、本出願の第1の発明に係る歌唱合成装置は、合成すべき歌唱演奏データを示す歌唱情報を入力する歌唱情報入力部と、音声素片データを保持する音韻データベースと、前記歌唱情報に基づいて前記音韻データベースに記憶された音声素片データを選択する選択部と、声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力部と、前記声質変換パラメータに基づき、前記音声素片データを変換して歌唱音声を生成する歌唱合成部とを備えたことを特徴とする。
【0006】
この第1の発明に係る音声合成装置によれば、声質変換パラメータの変化により、合成される歌唱音声の声質を変化させることができる。このため、時間的に前後して現れる同一特徴パラメータ、すなわち同一の歌唱部分であっても、それぞれ任意の異なる声質に変換することができ、合成歌唱音声を変化に富みリアリティに溢れたものとすることができる。
【0007】
上記目的達成のため、本出願の第2の発明に係る歌唱合成用方法は、歌唱を合成するための歌唱情報を入力する歌唱情報入力ステップと、音声素片データを予め音韻データベースに保持させておくと共に、前記歌唱情報に基づいて前記音声素片データを選択する選択ステップと、声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力ステップと、前記声質変換パラメータに基づき前記音声素片データを変換して歌唱音声を生成する歌唱合成ステップとを備えたことを特徴とする。
【0008】
上記目的達成のため、本出願の第3の発明に係る歌唱合成用プログラムは、歌唱を合成するための歌唱情報を入力する歌唱情報入力ステップと、音声素片データを予め音韻データベースに保持させておくと共に、前記歌唱情報に基づいて前記音声素片データを選択する選択ステップと、声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力ステップと、前記声質変換パラメータに基づき前記音声素片データを変換して歌唱音声を生成する歌唱合成ステップとをコンピュータに実行させるように構成されたことを特徴とする。
【0009】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
図1は、本発明の実施の形態に係る歌唱合成装置の構成を示す機能ブロック図である。まずこの図1の歌唱合成装置の概要を説明すると、音韻データベース10は、得られた歌唱データから切り出された音素連鎖データと定常部分データとを保持している。演奏データ保持部11の演奏データは、遷移部分と伸ばし音部分とに区切られた後、音素連鎖データはその遷移部分において基本的にはそのまま用いられる。このため、歌唱の重要な部分を占める遷移部分の歌唱が自然に聞こえ、合成歌唱の品質が高められている。この歌唱合成装置は、例えば一般のパーソナルコンピュータにより実現することができ、図1に示す各ブロックの機能は、パーソナルコンピュータ内部のCPUやRAM、ROMなどにより達成され得る。DSPやロジック回路によって構成することも可能である。
【0010】
以下、この図1の歌唱合成装置の詳細を説明する。
前述のように、音韻データベース10は、演奏データに基づいて合成音を合成するためのデータを保持している。この音韻データベース10の作成例を図2により説明する。
まず図2に示すように、実際に録音或いは取得した歌唱データ等の音声信号をSMS(spectral modeling synthesis)分析手段31により、調和成分(正弦波成分)と非調和成分に分離する。SMS分析の代わりに、LPC(Linear Predictive Coding)等の他の分析手法を用いてもよい。
次に、音素切り分け手段32により、音素切り分け情報に基づき、音声信号を音素ごとに切り分ける。音素切り分け情報は、例えば人間が音声信号の波形を見ながら所定のスイッチ動作を行うことにより与えるのが通常である。
【0011】
そして、音素ごとに切り分けられた音声信号の調和成分から、特徴パラメータ抽出手段33により特徴パラメータが抽出される。特徴パラメータには、励起波形エンベロープ、励起レゾナンス、フォルマント、差分スペクトルなどがある。
【0012】
励起波形エンベロープ(ExcitationCurve)は、声帯波形の大きさ(dB)を表わすEGain、声帯波形のスペクトルエンベロープの傾きを表わすESlopeDepth、声帯波形のスペクトルエンベロープの最大値から最小値への深さ(dB)を表わすESlopeの3つのパラメータによって構成されており、以下の式[数1]で表わすことが出来る。
【0013】
【数1】
Excitation Curve (f)=EGain+ESlopeDepth×(exp(−ESlope×f)−1)
【0014】
励起レゾナンスは、胸部による共鳴を表わす特徴パラメータで、中心周波数(ERFreq)、バンド幅(ERBW)、アンプリチュード(ERAmp)の3つのパラメータにより構成され、2次フィルター特性を有している。
【0015】
フォルマントは、1から12個程度のレゾナンスを組み合わせることにより声道による共鳴を表わす特徴パラメータで、中心周波数(FormantFreqi、iはレゾナンスの番号)、バンド幅(FormantBWi、iはレゾナンスの番号)、強度(FormantAmpi、iはレゾナンスの番号)の3つのパラメータにより構成される。
【0016】
差分スペクトルは、上記の励起波形エンベロープ、励起レゾナンス、フォルマントの3つで表現することの出来ない元の調和成分との差分のスペクトルを持つ特徴パラメータである。
【0017】
この抽出された特徴パラメータを、音韻名と対応させて音韻データベース10に記憶させる。非調和成分も、同様にして音韻名と対応させてそのスペクトルデータを音韻データベース10に記憶させる。この音韻データベース10では、図2に示すように、音素連鎖データと定常部分データとに分けて記憶される。以下では、この音素連鎖データと定常部分データとを総称して「音声素片データ」と称する。
【0018】
音素連鎖データは、先頭音素名、後続音素名、特徴パラメータ及び非調和成分を対応付けたデータ列である。
一方、定常部分データは、1つの音韻名と特徴パラメータ列と非調和成分とを対応付けたデータ列である。
【0019】
図1に戻って、11は演奏データを保持するための演奏データ保持部である。演奏データは、例えば音符、歌詞、ピッチベンド、ダイナミクス等の情報を含んだMIDI情報である。
音声素片選択部12は、演奏データ保持部11に保持される演奏データの入力をフレーム単位で受け付けるとともに(以下、この1単位をフレームデータという)、入力されたフレームデータ中の歌詞データに対応する音声素片データを音韻データベース10から選択して読み出す機能を有する。
【0020】
先行音素連鎖データ保持部13、後方音素連鎖データ保持部14は、定常部分データを処理するために使用されるものである。先行音素連鎖データ保持部13は、処理すべき定常部分データより先行する音素連鎖データを保持するものであり、一方、後方音素連鎖データ保持部14は、処理すべき定常部分データより後方の音素連鎖データを保持するものである。
【0021】
特徴パラメータ補間部15は、先行音素連鎖データ保持部13に保持された音素連鎖データの最終フレームの特徴パラメータと、後方音素連鎖データ保持部14に保持された音素連鎖データの最初のフレームの特徴パラメータとを読出し、タイマ29の示す時刻に対応するように特徴パラメータを時間的に補間する。
【0022】
定常部分データ保持部16は、音声素片選択部12により読み出された音声素片データのうち、定常部分データを一時保持する。一方、音素連鎖データ保持部17は、音素連鎖データを一時保持する。
【0023】
特徴パラメータ変動抽出部18は、定常部分データ保持部16に保持された定常部分データを読み出してその特徴パラメータの変動(ゆらぎ)を抽出し、変動成分として出力する機能を有する。
加算部K1は、特徴パラメータ補間部15の出力と特徴パラメータ変動抽出部18の出力を加算して、伸ばし音部分の特徴パラメータを出力する部分である。フレーム読出し部19は、音素連鎖データ保持部17に保持された音素連鎖データを、タイマ29に示す時刻に従ってフレームデータとして読出し、特徴パラメータと非調和成分とに分けて出力する部分である。
【0024】
ピッチ決定部20は、フレームデータ中の音符データ、ピッチベンドデータに基づき、最終的に合成する合成音のピッチを決定する部分である。また特徴パラメータ補正部21は、加算部K1から出力された伸ばし音部分の特徴パラメータ、及びフレーム読出し部19から出力された遷移部分の特徴パラメータを、ピッチ決定部20で決定したピッチや演奏データ中に含まれるダイナミクス情報等に基づいて補正する部分である。特徴パラメータ補正部21の前段にはスイッチSW1が設けられ、伸ばし音部分の特徴パラメータと遷移部分の特徴パラメータとを選択的に特徴パラメータ補正部21に入力するようになっている。この特徴パラメータ補正部21での詳しい処理内容は後述する。スイッチSW2は、定常部分データ保持部16から読み出された伸ばし音部分の非調和成分と、フレーム読出し部19から読み出された遷移部分の非調和成分を切り替えて出力する。
【0025】
倍音列生成部22は、決定したピッチに従い、フォルマント合成を行うための倍音列を周波数軸上に生成する部分である。
スペクトル包絡生成部23は、特徴パラメータ補正部21で補正された補正後の特徴パラメータに従って、スペクトル包絡を生成する部分である。
【0026】
倍音振幅・位相計算部24は、倍音列生成部22で生成された各倍音の振幅及び位相を、スペクトル包絡生成部23で生成したスペクトル包絡に付加する部分である。
【0027】
声質変換部25は、外部より入力される声質変換パラメータに基づき、倍音振幅・位相計算部24を介して入力される調和成分のスペクトル包絡に変更を加え、これにより合成歌唱音声の声質を変換する機能を有する。
声質変換部25は、入力される声質変換パラメータに基づき、図3(a)に示すように、入力されたスペクトル包絡Seのローカルピークの位置をシフトさせ、これにより声質の変換を実行する。図3(a)の場合、ローカルピークが全体的に高い方にシフトしているので、変更後の出力音声は、変更前に比べ女性的な又は子供っぽい声に変化することになる。
【0028】
本実施の形態では、声質変換パラメータ調整部25Cから出力される声質変換パラメータに基づき、マッピング関数生成部25Mにおいて図3(b)に示すようなマッピング関数Mfを生成する。声質変換部25は、このマッピング関数Mfに基づきスペクトル包絡のローカルピークの位置をシフトさせる。このマッピング関数Mfは、横軸を入力周波数(声質変換部25に入力されるスペクトル包絡のローカルピークの周波数)とし、縦軸を出力周波数(声質変換部25から出力されるスペクトル包絡のローカルピークの周波数)をとっている。このため、マッピング関数Mfが、入力周波数=出力周波数を示す直線NLよりも上側に位置する部分においては、その入力周波数のローカルピークは、マッピング関数Mfによる変換後、周波数の高い方向にシフトする。逆に、マッピング関数Mfが、直線NLよりも下側に位置する部分においては、その入力周波数のローカルピークは、マッピング関数Mfによる変換後、周波数の低い方向にシフトする。
【0029】
そして、このマッピング関数Mfの形状は、声質変換パラメータ調整部25Cを使用して時間的に変化させることができるようになっている。例えば、ある時間帯では、マッピング関数を直線NLと一致させ、別の時間帯では図3(b)に示す直線NLに関しマッピング関数Mfと対称な曲線を生成する、というような変化をさせることが可能である。これにより、楽曲の音楽的なコンテキストなどに合わせて出力される歌唱音声の声質が時間的に変化し、変化の多い表情豊かな歌唱音声とすることができる。声質変換パラメータ調整部25Cとしては、例えばパーソナルコンピュータのマウス、キーボード等を採用することができる。
なお、マッピング関数Mfは、その形状をどのように変化させる場合であっても、最低周波数(図3の例では0Hz)と最高周波数の値は変化させないようにし、これにより周波数帯域が声質変換の前後で変わらないようにするのが好適である。
【0030】
図4は、マッピング関数Mfの他の例を示している。図4(a)は、低域側では周波数を高い側へシフトさせ、高域側では周波数を低い方へシフトさせるマッピング関数Mfの例を示している。この場合、聴感上重要な低域側で周波数の高い方へのシフトが行われているため、出力歌唱音声は、全体に子供のような、又はいわゆるダックボイスのような声となる。図4(b)に示すマッピング関数Mfは、全体に出力周波数を低い側へシフトさせ、中心周波数付近でそのシフト量を最大としている。この例では、聴感上重要な低域側で周波数の低い方へのシフトが行われているため、出力歌唱音声は、太い男性的な声となる。
この図4(a)(b)の場合にも、マッピング関数Mfの形状は、声質変換パラメータ調整部25Cにより、時間的に変化させることが可能である。
【0031】
声質変換部26は、定常部分データ保持部16と、フレーム読出し部19より出力される非調和成分の入力を受けるとともに、声質変換部25と同様に、声質変換パラメータに基づいてマッピング関数生成部26Mで生成したマッピング関数Mf´を使用して非調和成分のスペクトル包絡に変更を加える。マッピング関数Mf´の形状は、声質変換パラメータ調整部26Cにより変更することができる。
加算部K2は、声質変換部25の出力としての調和成分と、声質変換部26から出力された非調和成分とを加算する。
逆FFT部27は、加算部K2の出力値を逆高速フーリエ変換して、周波数軸表現であった信号を時間軸表現の信号に変換するものである。
重ね合せ部28は、時系列順に処理される歌詞データについて次々に得られる信号をその時系列に沿った形で重ね合わせることにより、合成歌唱音声を出力するものである。
【0032】
次に、特徴パラメータ補正部21の詳細について図5に基づいて説明する。特徴パラメータ補正部21は、振幅決定手段41を備えている。この振幅決定手段41は、ダイナミクス−振幅変換テーブルTdaを参照して演奏データ保持部11から入力されるダイナミクス情報に相当する所望の振幅値A1を出力する。
また、スペクトル包絡生成手段42は、スイッチSW1から出力された特徴パラメータに基づき、スペクトル包絡を生成する部分である。
【0033】
倍音列生成手段43は、ピッチ決定部20で決定されたピッチに基づいて倍音列を生成する。振幅計算手段44は、生成されたスペクトル包絡及び倍音に対応する振幅値A2を計算する。振幅の計算は、例えば逆FFT等により実行することができる。
加算部K3は、振幅決定手段41で決定された所望の振幅値A1と、振幅計算手段44で計算された振幅値A2との差を出力する。ゲイン補正手段45は、この差に基づき、振幅値の補正量を計算するとともに、この補正量に従って特徴パラメータを補正する。これにより、所望の振幅に合致する新たな特徴パラメータが得られる。
【0034】
なお、図5では、テーブルTdaに基づき、ダイナミクスのみに基づいて振幅を決定しているが、これに加えて、音素の種類も考慮して振幅を決定するようなテーブルを採用してもよい。すなわち、同じダイナミクスであっても音素が異なる場合には、異なる振幅値を与えるようなテーブルを採用してもよい。同様に、ダイナミクスに加えて周波数を考慮して振幅を決定するようなテーブルを採用してもよい。
【0035】
次に、この実施の形態に係る歌唱合成装置の作用を、図6に示すフローチャートを参照しつつ説明する。
演奏データ保持部11は、時系列順にフレームデータを出力する。遷移部分と伸ばし音部分とが交互に現れ、遷移部分と伸ばし音部分とでは処理のされ方が異なる。
【0036】
演奏データ保持部11よりフレームデータが入力されると(S1)、音声素片選択部12において、フレームデータ中の歌詞データに基づき、そのフレームデータが伸ばし音部分に関するものか、遷移部分に関するものかが判断される(S2)。伸ばし音部分である場合には(YES)、先行音素連鎖データ保持部13、後方音素連鎖データ保持部14、定常部分データ保持部16に、それぞれ先行音素連鎖データ、後方音素連鎖データ、定常部分データが転送される(S3)。
【0037】
続いて、特徴パラメータ補間部15が、先行音素連鎖データ保持部13に保持された先行音素連鎖データの最終フレームの特徴パラメータを取り出すと共に、後方音素連鎖データ保持部14に保持された後方音素連鎖データの最初のフレームの特徴パラメータを取り出し、この2つの特徴パラメータを補間することにより、処理中の伸ばし音部分の特徴パラメータを生成する(S4)。
【0038】
また、定常部分データ保持部16に保持された定常部分データの特徴パラメータが、特徴パラメータ変動抽出部18に供給され、該定常部分の特徴パラメータの変動成分が抽出される(S5)。この変動成分が、加算部K1において特徴パラメータ補間部15から出力された特徴パラメータと加算される(S6)。この加算値が伸ばし音部分の特徴パラメータとしてスイッチSW1を介して特徴パラメータ補正部21に出力され、特徴パラメータの補正が実行される(S9)。一方、定常部分データ保持部16に保持された定常部分データの非調和成分は、スイッチSW2を介して声質変換部26に供給される。
【0039】
スペクトル包絡生成部23は、この補正後の特徴パラメータについてのスペクトル包絡を生成する。倍音振幅・位相計算部24は、スペクトル包絡生成部23で生成したスペクトル包絡に従い、倍音列生成部22で生成された各倍音の振幅及び位相を計算する。声質変換部25では、声質変換パラメータに応じて、スペクトル包絡生成部23で生成したスペクトル包絡のローカルピークの位置を変更し、この変更後のスペクトル包絡を加算部K2に出力する。
【0040】
一方、S2において、取得されたフレームデータが遷移部分のものである(NO)と判定された場合には、その遷移部分の音素連鎖データが、音素連鎖データ保持部17により保持される(S7)。次に、フレーム読出し部19が、音素連鎖データ保持部17に保持された音素連鎖データを、タイマ29に示す時刻に従ってフレームデータとして読出し、特徴パラメータと非調和成分とに分けて出力する(S8)。特徴パラメータの方は特徴パラメータ補正部21に向けて出力され、非調和成分はスイッチSW2を介して声質変換部26に向けて出力される。声質変換部26では、声質変換パラメータ調整部26Cからの声質変換パラメータに応じて生成されたマッピング関数Mf´により、この非調和成分の変更が行われ、この変更後の非調和成分が加算部K2に向けて出力される。この遷移部分の特徴パラメータは、特徴パラメータ補正部21、スペクトル包絡生成部23、倍音振幅・位相計算部24等で上述の伸ばし音部分の特徴パラメータと同様の処理を受ける。
【0041】
なお、スイッチSW1、SW2は、処理中のデータの種類によって切り替わるようになっているので、スイッチSW1については、伸ばし音部分を処理している間は、加算部K1の方に特徴パラメータ補正部21を接続するようにされ、遷移部分を処理している間は、フレーム読出し部19の方に特徴パラメータ補正部21を接続するようにされている。また、スイッチSW2については、伸ばし音部分を処理している間は、定常部分データ保持部16の方に声質変換部26を接続するようにされ、遷移部分を処理している間は、フレーム読出し部19の方に声質変換部26を接続するようにされている。
こうして遷移部分、伸ばし音部分の特徴パラメータ及び非調和成分が演算されると、その加算値が逆FFT部27で処理され、重ね合せ部28により重ね合わせられ、最終的な合成波形が出力される(S10)。
【0042】
以上、本発明の実施の形態について説明したが、本発明はこれに限定されるものではない。例えば、上記実施の形態では、声質変換パラメータをマッピング関数という形で表現しているが、声質変換パラメータを、演奏データ保持部11内にMIDIデータとして含ませるようにしてもよい。
また、上記実施の形態では、スペクトル包絡生成部23からの出力としてのスペクトル包絡のローカルピーク周波数をマッピング関数による調整の対象としているが、調整の対象はスペクトル包絡の全体、又は任意の部分でも良く、またローカルピークの周波数だけに限らず振幅などスペクトル包絡を表わす他のパラメータを調整の対象としてもよい。また、音韻データベース10から読み出された特徴パラメータ(例えばEGain、ESlope、ESlopeDepth等)を調整の対象にするようにしてもよい。
または、特徴パラメータ補正部21からの出力である特徴パラメータに変更を加えることも可能である。この際、各特徴パラメータの種類ごとにマッピング関数を持てばよい。
または、加算部K2での手前において調和成分と非調和成分のいずれか一方を声質変換パラメータに基づいて増幅又は減衰させ、その割合を変更させた上で加算部K2で加算させるようにしてもよい。また、調和成分だけを調整の対象としてもよい。また、逆FFT部27から出力される時間軸の信号を調整の対象としてもよい。
【0043】
また、マッピング関数を、次の式で表わしてもよい。
【数2】
fout=(fs/2)×(2×fin/fs)α
【0044】
ただし、fsはサンプリング周波数、finは入力周波数、foutは出力周波数である。また、αは、出力歌唱音声を男性的にするか、女性的にするかを決定する因子であり、αが正の値であれば[数2]で表わされるマッピング関数は下に凸な関数となり、出力歌唱音声は男性的なものとなる。また、αが負の値であれば、女性又は子供らしい声となる(図7参照)。
【0045】
また、マッピング関数を表現する座標系上にいくつかの点(ブレークポイント)を指定し、それらを結ぶ直線としてマッピング関数を定義することもできる。この場合、声質変換パラメータは座標値によるベクトルとして表現される。
【0046】
【発明の効果】
以上説明したように、本発明によれば、声質変換パラメータを時間的に変化させることができ、これにより、時間的に前後して現れる同一特徴パラメータ、すなわち同一の歌唱部分であっても、それぞれ任意の異なる声質に変換することができ、合成歌唱音声を変化に富みリアリティに溢れたものとすることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る歌唱合成装置の機能ブロック図である。
【図2】図1に示す音韻データベース10の作成例を示す。
【図3】声質変換部25による入出力の変換のされ方、及びマッピング関数生成部25Mで生成されるマッピング関数Mfの一例を示す。
【図4】マッピング関数Mfの他の例を示す。
【図5】図1に示す特徴パラメータ補正部21の詳細を示す。
【図6】第1の実施の形態に係る歌唱合成装置におけるデータ処理の手順を示すフローチャートである。
【図7】マッピング関数Mfの他の例を示す。
【符号の説明】
10…音韻データベース、 11…演奏データ保持部、 12…音声素片選択部、 13…先行音素連鎖データ保持部、 14…後方音素連鎖データ保持部、 15…特徴パラメータ補間部、 16…定常部分データ保持部、 17…音素連鎖データ保持部、 18…特徴パラメータ変動抽出部、 19…フレーム読出し部、 K1、K2…加算部、20…ピッチ決定部、 21…特徴パラメータ補正部、 22…倍音列生成部、 23…スペクトル包絡生成部、 24…倍音振幅・位相計算部、 25,26・・・声質変換部、 25M、26M・・・マッピング関数生成部、 25C、26C・・・声質変換パラメータ調整部、 27…逆FFT部、 28…重ね合せ部、 29…タイマ、 31…SMS分析手段、 32…音素切り分け手段、 33…特徴パラメータ抽出手段、 41…振幅決定手段、43…倍音列生成手段、 44…振幅計算手段、 K3…加算部、 45…ゲイン補正部
Claims (6)
- 合成すべき歌唱演奏データを示す歌唱情報を入力する歌唱情報入力部と、
音声素片データを保持する音韻データベースと、
前記歌唱情報に基づいて前記音韻データベースに記憶された音声素片データを選択する選択部と、
声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力部と、
前記声質変換パラメータに基づき、前記音声素片データを変換して歌唱音声を生成する歌唱合成部とを備えたことを特徴とする歌唱合成装置。 - 前記選択部で選択された音声素片データから特徴パラメータを抽出して出力する特徴パラメータ出力部を備え、前記歌唱合成部は、前期声質変換パラメータに基づいてこの特徴パラメータを補正するものである請求項1に記載の歌唱合成装置。
- 前記歌唱合成部は、前記選択された音声素片データに従って生成されたスペクトル包絡を前記声質変換パラメータに基づいて調整するものである請求項1に記載の歌唱合成装置。
- 前記声質変換パラメータ入力部は、前記声質変換パラメータを時間的に変化させる声質変換パラメータ調整手段を備えたものである請求項1乃至3のいずれか1項に記載の歌唱合成装置。
- 歌唱を合成するための歌唱情報を入力する歌唱情報入力ステップと、
音声素片データを予め音韻データベースに保持させておくと共に、前記歌唱情報に基づいて前記音声素片データを選択する選択ステップと、
声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力ステップと、
前記声質変換パラメータに基づき前記音声素片データを変換して歌唱音声を生成する歌唱合成ステップとを備えたことを特徴とする歌唱合成方法。 - 歌唱を合成するための歌唱情報を入力する歌唱情報入力ステップと、
音声素片データを予め音韻データベースに保持させておくと共に、前記歌唱情報に基づいて前記音声素片データを選択する選択ステップと、
声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力ステップと、
前記声質変換パラメータに基づき前記音声素片データを変換して歌唱音声を生成する歌唱合成ステップと
をコンピュータに実行させるように構成されたことを特徴とする歌唱合成用プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002198486A JP3941611B2 (ja) | 2002-07-08 | 2002-07-08 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
DE60313539T DE60313539T2 (de) | 2002-07-08 | 2003-06-30 | Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens |
EP03014880A EP1381028B1 (en) | 2002-07-08 | 2003-06-30 | Singing voice synthesizing apparatus, singing voice synthesizing method and program for synthesizing singing voice |
US10/613,301 US7379873B2 (en) | 2002-07-08 | 2003-07-03 | Singing voice synthesizing apparatus, singing voice synthesizing method and program for synthesizing singing voice |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002198486A JP3941611B2 (ja) | 2002-07-08 | 2002-07-08 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004038071A true JP2004038071A (ja) | 2004-02-05 |
JP2004038071A5 JP2004038071A5 (ja) | 2005-04-07 |
JP3941611B2 JP3941611B2 (ja) | 2007-07-04 |
Family
ID=29728413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002198486A Expired - Fee Related JP3941611B2 (ja) | 2002-07-08 | 2002-07-08 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US7379873B2 (ja) |
EP (1) | EP1381028B1 (ja) |
JP (1) | JP3941611B2 (ja) |
DE (1) | DE60313539T2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006010906A (ja) * | 2004-06-24 | 2006-01-12 | Yamaha Corp | 音声効果付与装置及び音声効果付与プログラム |
JP2006010908A (ja) * | 2004-06-24 | 2006-01-12 | Yamaha Corp | 音声効果付与装置及び音声効果付与プログラム |
JP2006017946A (ja) * | 2004-06-30 | 2006-01-19 | Yamaha Corp | 音声処理装置およびプログラム |
WO2012011475A1 (ja) * | 2010-07-20 | 2012-01-26 | 独立行政法人産業技術総合研究所 | 声色変化反映歌声合成システム及び声色変化反映歌声合成方法 |
JP2017173423A (ja) * | 2016-03-22 | 2017-09-28 | コニカミノルタプラネタリウム株式会社 | プラネタリウム演出装置およびプラネタリウム装置 |
US10482893B2 (en) | 2016-11-02 | 2019-11-19 | Yamaha Corporation | Sound processing method and sound processing apparatus |
CN112037757A (zh) * | 2020-09-04 | 2020-12-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌声合成方法、设备及计算机可读存储介质 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3879402B2 (ja) * | 2000-12-28 | 2007-02-14 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
JP4067762B2 (ja) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
JP4153220B2 (ja) * | 2002-02-28 | 2008-09-24 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
JP4207902B2 (ja) * | 2005-02-02 | 2009-01-14 | ヤマハ株式会社 | 音声合成装置およびプログラム |
KR100658869B1 (ko) * | 2005-12-21 | 2006-12-15 | 엘지전자 주식회사 | 음악생성장치 및 그 운용방법 |
FR2920583A1 (fr) * | 2007-08-31 | 2009-03-06 | Alcatel Lucent Sas | Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs |
KR100922897B1 (ko) * | 2007-12-11 | 2009-10-20 | 한국전자통신연구원 | Mdct 영역에서 음질 향상을 위한 후처리 필터장치 및필터방법 |
EP3296992B1 (en) * | 2008-03-20 | 2021-09-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for modifying a parameterized representation |
US7977560B2 (en) * | 2008-12-29 | 2011-07-12 | International Business Machines Corporation | Automated generation of a song for process learning |
US9147166B1 (en) | 2011-08-10 | 2015-09-29 | Konlanbi | Generating dynamically controllable composite data structures from a plurality of data segments |
US10860946B2 (en) | 2011-08-10 | 2020-12-08 | Konlanbi | Dynamic data structures for data-driven modeling |
JP5928489B2 (ja) * | 2014-01-08 | 2016-06-01 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP2016080827A (ja) * | 2014-10-15 | 2016-05-16 | ヤマハ株式会社 | 音韻情報合成装置および音声合成装置 |
WO2018084305A1 (ja) * | 2016-11-07 | 2018-05-11 | ヤマハ株式会社 | 音声合成方法 |
FR3062945B1 (fr) * | 2017-02-13 | 2019-04-05 | Centre National De La Recherche Scientifique | Methode et appareil de modification dynamique du timbre de la voix par decalage en frequence des formants d'une enveloppe spectrale |
JP6992612B2 (ja) * | 2018-03-09 | 2022-01-13 | ヤマハ株式会社 | 音声処理方法および音声処理装置 |
CN108877753B (zh) * | 2018-06-15 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 音乐合成方法及系统、终端以及计算机可读存储介质 |
CN111063364B (zh) * | 2019-12-09 | 2024-05-10 | 广州酷狗计算机科技有限公司 | 生成音频的方法、装置、计算机设备和存储介质 |
US12059533B1 (en) | 2020-05-20 | 2024-08-13 | Pineal Labs Inc. | Digital music therapeutic system with automated dosage |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05260082A (ja) | 1992-03-13 | 1993-10-08 | Toshiba Corp | テキスト読み上げ装置 |
JP3282693B2 (ja) | 1993-10-01 | 2002-05-20 | 日本電信電話株式会社 | 声質変換方法 |
US6046395A (en) * | 1995-01-18 | 2000-04-04 | Ivl Technologies Ltd. | Method and apparatus for changing the timbre and/or pitch of audio signals |
DE69629486T2 (de) * | 1995-10-23 | 2004-06-24 | The Regents Of The University Of California, Oakland | Kontrollstruktur für klangsynthesierung |
US6336092B1 (en) | 1997-04-28 | 2002-01-01 | Ivl Technologies Ltd | Targeted vocal transformation |
US5808222A (en) * | 1997-07-16 | 1998-09-15 | Winbond Electronics Corporation | Method of building a database of timbre samples for wave-table music synthesizers to produce synthesized sounds with high timbre quality |
US6304846B1 (en) * | 1997-10-22 | 2001-10-16 | Texas Instruments Incorporated | Singing voice synthesis |
JP2000250572A (ja) | 1999-03-01 | 2000-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声データベース作成装置及びその方法並びに歌声データベース作成装置及びその方法 |
JP3365354B2 (ja) | 1999-06-30 | 2003-01-08 | ヤマハ株式会社 | 音声信号または楽音信号の処理装置 |
JP4067762B2 (ja) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
JP3734434B2 (ja) | 2001-09-07 | 2006-01-11 | 日本電信電話株式会社 | メッセージ生成配信方法及び生成配信システム |
JP2003223178A (ja) | 2002-01-30 | 2003-08-08 | Nippon Telegr & Teleph Corp <Ntt> | 電子歌唱カード生成方法、受信方法、装置及びプログラム |
-
2002
- 2002-07-08 JP JP2002198486A patent/JP3941611B2/ja not_active Expired - Fee Related
-
2003
- 2003-06-30 EP EP03014880A patent/EP1381028B1/en not_active Expired - Lifetime
- 2003-06-30 DE DE60313539T patent/DE60313539T2/de not_active Expired - Lifetime
- 2003-07-03 US US10/613,301 patent/US7379873B2/en not_active Expired - Fee Related
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006010906A (ja) * | 2004-06-24 | 2006-01-12 | Yamaha Corp | 音声効果付与装置及び音声効果付与プログラム |
JP2006010908A (ja) * | 2004-06-24 | 2006-01-12 | Yamaha Corp | 音声効果付与装置及び音声効果付与プログラム |
JP4649888B2 (ja) * | 2004-06-24 | 2011-03-16 | ヤマハ株式会社 | 音声効果付与装置及び音声効果付与プログラム |
JP4654616B2 (ja) * | 2004-06-24 | 2011-03-23 | ヤマハ株式会社 | 音声効果付与装置及び音声効果付与プログラム |
JP2006017946A (ja) * | 2004-06-30 | 2006-01-19 | Yamaha Corp | 音声処理装置およびプログラム |
JP4654621B2 (ja) * | 2004-06-30 | 2011-03-23 | ヤマハ株式会社 | 音声処理装置およびプログラム |
WO2012011475A1 (ja) * | 2010-07-20 | 2012-01-26 | 独立行政法人産業技術総合研究所 | 声色変化反映歌声合成システム及び声色変化反映歌声合成方法 |
GB2500471A (en) * | 2010-07-20 | 2013-09-25 | Nat Inst Of Advanced Ind Scien | Singing voice synthesis system accounting for tone alteration and singing voice synthesis method accounting for tone alteration |
JP5510852B2 (ja) * | 2010-07-20 | 2014-06-04 | 独立行政法人産業技術総合研究所 | 声色変化反映歌声合成システム及び声色変化反映歌声合成方法 |
US9009052B2 (en) | 2010-07-20 | 2015-04-14 | National Institute Of Advanced Industrial Science And Technology | System and method for singing synthesis capable of reflecting voice timbre changes |
GB2500471B (en) * | 2010-07-20 | 2018-06-13 | Aist | System and method for singing synthesis capable of reflecting voice timbre changes |
JP2017173423A (ja) * | 2016-03-22 | 2017-09-28 | コニカミノルタプラネタリウム株式会社 | プラネタリウム演出装置およびプラネタリウム装置 |
US10482893B2 (en) | 2016-11-02 | 2019-11-19 | Yamaha Corporation | Sound processing method and sound processing apparatus |
CN112037757A (zh) * | 2020-09-04 | 2020-12-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌声合成方法、设备及计算机可读存储介质 |
CN112037757B (zh) * | 2020-09-04 | 2024-03-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌声合成方法、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US7379873B2 (en) | 2008-05-27 |
JP3941611B2 (ja) | 2007-07-04 |
EP1381028A1 (en) | 2004-01-14 |
EP1381028B1 (en) | 2007-05-02 |
US20040006472A1 (en) | 2004-01-08 |
DE60313539T2 (de) | 2008-01-31 |
DE60313539D1 (de) | 2007-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3941611B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP4153220B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP4067762B2 (ja) | 歌唱合成装置 | |
JP4207902B2 (ja) | 音声合成装置およびプログラム | |
EP1701336B1 (en) | Sound processing apparatus and method, and program therefor | |
JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
WO2019138871A1 (ja) | 音声合成方法、音声合成装置およびプログラム | |
JP3711880B2 (ja) | 音声分析及び合成装置、方法、プログラム | |
JP3966074B2 (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
TW201027514A (en) | Singing synthesis systems and related synthesis methods | |
JP4844623B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
JP4304934B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
JP4757971B2 (ja) | ハーモニー音付加装置 | |
JP2007226174A (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP3540159B2 (ja) | 音声変換装置及び音声変換方法 | |
JP4349316B2 (ja) | 音声分析及び合成装置、方法、プログラム | |
JP2022065554A (ja) | 音声合成方法およびプログラム | |
JP3502268B2 (ja) | 音声信号処理装置及び音声信号処理方法 | |
TW201023172A (en) | Apparatus and method for correcting a singing voice | |
WO2022080395A1 (ja) | 音声合成方法およびプログラム | |
WO2024202975A1 (ja) | 音変換方法およびプログラム | |
JP2004061753A (ja) | 歌唱音声を合成する方法および装置 | |
JP3540609B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3979213B2 (ja) | 歌唱合成装置、歌唱合成方法並びに歌唱合成用プログラム | |
JP3540160B2 (ja) | 音声変換装置及び音声変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040527 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040527 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070326 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110413 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120413 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130413 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140413 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |