JP2004038071A - 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム - Google Patents

歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム Download PDF

Info

Publication number
JP2004038071A
JP2004038071A JP2002198486A JP2002198486A JP2004038071A JP 2004038071 A JP2004038071 A JP 2004038071A JP 2002198486 A JP2002198486 A JP 2002198486A JP 2002198486 A JP2002198486 A JP 2002198486A JP 2004038071 A JP2004038071 A JP 2004038071A
Authority
JP
Japan
Prior art keywords
voice
singing
unit
voice quality
quality conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002198486A
Other languages
English (en)
Other versions
JP3941611B2 (ja
JP2004038071A5 (ja
Inventor
Hidenori Kenmochi
劔持 秀紀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2002198486A priority Critical patent/JP3941611B2/ja
Priority to DE60313539T priority patent/DE60313539T2/de
Priority to EP03014880A priority patent/EP1381028B1/en
Priority to US10/613,301 priority patent/US7379873B2/en
Publication of JP2004038071A publication Critical patent/JP2004038071A/ja
Publication of JP2004038071A5 publication Critical patent/JP2004038071A5/ja
Application granted granted Critical
Publication of JP3941611B2 publication Critical patent/JP3941611B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】同一の歌唱部分であっても、それぞれ任意の異なる声質に変換することができ、合成歌唱音声を変化に富みリアリティに溢れたものとする。
【解決手段】演奏データ保持部11に保持されたMIDI情報に基づいて、音韻データベース10に記憶された音声素片データが音声素片選択部12により選択される。この選択された音声素片データから特徴パラメータを抽出する。特徴パラメータ補正部21は、この特徴パラメータをピッチ情報等に基づき補正する。スペクトル包絡生成部23は、特徴パラメータ補正部21で補正された補正後の特徴パラメータに従って、スペクトル包絡を生成する。声質変換部25は、声質変換パラメータに基づき、特徴パラメータを補正して声質を変化させると共にこの声質変換パラメータを時間的に変化させる。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は、人間の歌唱音声を合成する歌唱合成装置、歌唱合成方法及び歌唱合成用プログラムに関する。
【0002】
【従来の技術】
従来の歌唱合成装置においては、人間の実際の歌声から取得したデータをデータベースとして保存しておき、入力された演奏データ(音符、歌詞、表情等)の内容に合致したデータをデータベースより選択する。そして、この選択された演奏データに基づいて、本物の人の歌声に近い歌唱音声を合成している。
【0003】
【発明が解決しようとする課題】
ところで、人間が歌を歌うときには、音楽的なコンテキスト(楽曲中の位置、表情付けなど)により声の音色を変化させて歌うのが普通である。例えば、同じ歌詞であっても楽曲の前半部分では普通に歌うが、後半部分では感情を込めて歌う、といった具合である。従って、歌唱合成装置により自然な歌声を合成するには、歌唱中の声の音色を音楽的なコンテキストに従って変化させることが必要となってくる。
【0004】
しかし、従来の歌唱合成装置では、歌唱者データを入力して、歌唱者の異同に応じて歌わせ方を変化させることは行われていたが、同じ歌唱者の場合、同じ音韻コンテキストに対しては、基本的には1つの音韻テンプレートだけを使用しており、音色のバリエーションを付けることは行われていなかった。このため、合成される歌唱音声は音色の変化が乏しいものであった。
本発明は、この点に鑑みてなされたものであり、合成される歌唱音声を表情豊かなものとすることのできる歌唱合成装置を提供することを目的とする。
【0005】
【課題を解決するための手段】
上記目的達成のため、本出願の第1の発明に係る歌唱合成装置は、合成すべき歌唱演奏データを示す歌唱情報を入力する歌唱情報入力部と、音声素片データを保持する音韻データベースと、前記歌唱情報に基づいて前記音韻データベースに記憶された音声素片データを選択する選択部と、声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力部と、前記声質変換パラメータに基づき、前記音声素片データを変換して歌唱音声を生成する歌唱合成部とを備えたことを特徴とする。
【0006】
この第1の発明に係る音声合成装置によれば、声質変換パラメータの変化により、合成される歌唱音声の声質を変化させることができる。このため、時間的に前後して現れる同一特徴パラメータ、すなわち同一の歌唱部分であっても、それぞれ任意の異なる声質に変換することができ、合成歌唱音声を変化に富みリアリティに溢れたものとすることができる。
【0007】
上記目的達成のため、本出願の第2の発明に係る歌唱合成用方法は、歌唱を合成するための歌唱情報を入力する歌唱情報入力ステップと、音声素片データを予め音韻データベースに保持させておくと共に、前記歌唱情報に基づいて前記音声素片データを選択する選択ステップと、声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力ステップと、前記声質変換パラメータに基づき前記音声素片データを変換して歌唱音声を生成する歌唱合成ステップとを備えたことを特徴とする。
【0008】
上記目的達成のため、本出願の第3の発明に係る歌唱合成用プログラムは、歌唱を合成するための歌唱情報を入力する歌唱情報入力ステップと、音声素片データを予め音韻データベースに保持させておくと共に、前記歌唱情報に基づいて前記音声素片データを選択する選択ステップと、声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力ステップと、前記声質変換パラメータに基づき前記音声素片データを変換して歌唱音声を生成する歌唱合成ステップとをコンピュータに実行させるように構成されたことを特徴とする。
【0009】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
図1は、本発明の実施の形態に係る歌唱合成装置の構成を示す機能ブロック図である。まずこの図1の歌唱合成装置の概要を説明すると、音韻データベース10は、得られた歌唱データから切り出された音素連鎖データと定常部分データとを保持している。演奏データ保持部11の演奏データは、遷移部分と伸ばし音部分とに区切られた後、音素連鎖データはその遷移部分において基本的にはそのまま用いられる。このため、歌唱の重要な部分を占める遷移部分の歌唱が自然に聞こえ、合成歌唱の品質が高められている。この歌唱合成装置は、例えば一般のパーソナルコンピュータにより実現することができ、図1に示す各ブロックの機能は、パーソナルコンピュータ内部のCPUやRAM、ROMなどにより達成され得る。DSPやロジック回路によって構成することも可能である。
【0010】
以下、この図1の歌唱合成装置の詳細を説明する。
前述のように、音韻データベース10は、演奏データに基づいて合成音を合成するためのデータを保持している。この音韻データベース10の作成例を図2により説明する。
まず図2に示すように、実際に録音或いは取得した歌唱データ等の音声信号をSMS(spectral modeling synthesis)分析手段31により、調和成分(正弦波成分)と非調和成分に分離する。SMS分析の代わりに、LPC(Linear Predictive Coding)等の他の分析手法を用いてもよい。
次に、音素切り分け手段32により、音素切り分け情報に基づき、音声信号を音素ごとに切り分ける。音素切り分け情報は、例えば人間が音声信号の波形を見ながら所定のスイッチ動作を行うことにより与えるのが通常である。
【0011】
そして、音素ごとに切り分けられた音声信号の調和成分から、特徴パラメータ抽出手段33により特徴パラメータが抽出される。特徴パラメータには、励起波形エンベロープ、励起レゾナンス、フォルマント、差分スペクトルなどがある。
【0012】
励起波形エンベロープ(ExcitationCurve)は、声帯波形の大きさ(dB)を表わすEGain、声帯波形のスペクトルエンベロープの傾きを表わすESlopeDepth、声帯波形のスペクトルエンベロープの最大値から最小値への深さ(dB)を表わすESlopeの3つのパラメータによって構成されており、以下の式[数1]で表わすことが出来る。
【0013】
【数1】
Excitation Curve (f)=EGain+ESlopeDepth×(exp(−ESlope×f)−1)
【0014】
励起レゾナンスは、胸部による共鳴を表わす特徴パラメータで、中心周波数(ERFreq)、バンド幅(ERBW)、アンプリチュード(ERAmp)の3つのパラメータにより構成され、2次フィルター特性を有している。
【0015】
フォルマントは、1から12個程度のレゾナンスを組み合わせることにより声道による共鳴を表わす特徴パラメータで、中心周波数(FormantFreqi、iはレゾナンスの番号)、バンド幅(FormantBWi、iはレゾナンスの番号)、強度(FormantAmpi、iはレゾナンスの番号)の3つのパラメータにより構成される。
【0016】
差分スペクトルは、上記の励起波形エンベロープ、励起レゾナンス、フォルマントの3つで表現することの出来ない元の調和成分との差分のスペクトルを持つ特徴パラメータである。
【0017】
この抽出された特徴パラメータを、音韻名と対応させて音韻データベース10に記憶させる。非調和成分も、同様にして音韻名と対応させてそのスペクトルデータを音韻データベース10に記憶させる。この音韻データベース10では、図2に示すように、音素連鎖データと定常部分データとに分けて記憶される。以下では、この音素連鎖データと定常部分データとを総称して「音声素片データ」と称する。
【0018】
音素連鎖データは、先頭音素名、後続音素名、特徴パラメータ及び非調和成分を対応付けたデータ列である。
一方、定常部分データは、1つの音韻名と特徴パラメータ列と非調和成分とを対応付けたデータ列である。
【0019】
図1に戻って、11は演奏データを保持するための演奏データ保持部である。演奏データは、例えば音符、歌詞、ピッチベンド、ダイナミクス等の情報を含んだMIDI情報である。
音声素片選択部12は、演奏データ保持部11に保持される演奏データの入力をフレーム単位で受け付けるとともに(以下、この1単位をフレームデータという)、入力されたフレームデータ中の歌詞データに対応する音声素片データを音韻データベース10から選択して読み出す機能を有する。
【0020】
先行音素連鎖データ保持部13、後方音素連鎖データ保持部14は、定常部分データを処理するために使用されるものである。先行音素連鎖データ保持部13は、処理すべき定常部分データより先行する音素連鎖データを保持するものであり、一方、後方音素連鎖データ保持部14は、処理すべき定常部分データより後方の音素連鎖データを保持するものである。
【0021】
特徴パラメータ補間部15は、先行音素連鎖データ保持部13に保持された音素連鎖データの最終フレームの特徴パラメータと、後方音素連鎖データ保持部14に保持された音素連鎖データの最初のフレームの特徴パラメータとを読出し、タイマ29の示す時刻に対応するように特徴パラメータを時間的に補間する。
【0022】
定常部分データ保持部16は、音声素片選択部12により読み出された音声素片データのうち、定常部分データを一時保持する。一方、音素連鎖データ保持部17は、音素連鎖データを一時保持する。
【0023】
特徴パラメータ変動抽出部18は、定常部分データ保持部16に保持された定常部分データを読み出してその特徴パラメータの変動(ゆらぎ)を抽出し、変動成分として出力する機能を有する。
加算部K1は、特徴パラメータ補間部15の出力と特徴パラメータ変動抽出部18の出力を加算して、伸ばし音部分の特徴パラメータを出力する部分である。フレーム読出し部19は、音素連鎖データ保持部17に保持された音素連鎖データを、タイマ29に示す時刻に従ってフレームデータとして読出し、特徴パラメータと非調和成分とに分けて出力する部分である。
【0024】
ピッチ決定部20は、フレームデータ中の音符データ、ピッチベンドデータに基づき、最終的に合成する合成音のピッチを決定する部分である。また特徴パラメータ補正部21は、加算部K1から出力された伸ばし音部分の特徴パラメータ、及びフレーム読出し部19から出力された遷移部分の特徴パラメータを、ピッチ決定部20で決定したピッチや演奏データ中に含まれるダイナミクス情報等に基づいて補正する部分である。特徴パラメータ補正部21の前段にはスイッチSW1が設けられ、伸ばし音部分の特徴パラメータと遷移部分の特徴パラメータとを選択的に特徴パラメータ補正部21に入力するようになっている。この特徴パラメータ補正部21での詳しい処理内容は後述する。スイッチSW2は、定常部分データ保持部16から読み出された伸ばし音部分の非調和成分と、フレーム読出し部19から読み出された遷移部分の非調和成分を切り替えて出力する。
【0025】
倍音列生成部22は、決定したピッチに従い、フォルマント合成を行うための倍音列を周波数軸上に生成する部分である。
スペクトル包絡生成部23は、特徴パラメータ補正部21で補正された補正後の特徴パラメータに従って、スペクトル包絡を生成する部分である。
【0026】
倍音振幅・位相計算部24は、倍音列生成部22で生成された各倍音の振幅及び位相を、スペクトル包絡生成部23で生成したスペクトル包絡に付加する部分である。
【0027】
声質変換部25は、外部より入力される声質変換パラメータに基づき、倍音振幅・位相計算部24を介して入力される調和成分のスペクトル包絡に変更を加え、これにより合成歌唱音声の声質を変換する機能を有する。
声質変換部25は、入力される声質変換パラメータに基づき、図3(a)に示すように、入力されたスペクトル包絡Seのローカルピークの位置をシフトさせ、これにより声質の変換を実行する。図3(a)の場合、ローカルピークが全体的に高い方にシフトしているので、変更後の出力音声は、変更前に比べ女性的な又は子供っぽい声に変化することになる。
【0028】
本実施の形態では、声質変換パラメータ調整部25Cから出力される声質変換パラメータに基づき、マッピング関数生成部25Mにおいて図3(b)に示すようなマッピング関数Mfを生成する。声質変換部25は、このマッピング関数Mfに基づきスペクトル包絡のローカルピークの位置をシフトさせる。このマッピング関数Mfは、横軸を入力周波数(声質変換部25に入力されるスペクトル包絡のローカルピークの周波数)とし、縦軸を出力周波数(声質変換部25から出力されるスペクトル包絡のローカルピークの周波数)をとっている。このため、マッピング関数Mfが、入力周波数=出力周波数を示す直線NLよりも上側に位置する部分においては、その入力周波数のローカルピークは、マッピング関数Mfによる変換後、周波数の高い方向にシフトする。逆に、マッピング関数Mfが、直線NLよりも下側に位置する部分においては、その入力周波数のローカルピークは、マッピング関数Mfによる変換後、周波数の低い方向にシフトする。
【0029】
そして、このマッピング関数Mfの形状は、声質変換パラメータ調整部25Cを使用して時間的に変化させることができるようになっている。例えば、ある時間帯では、マッピング関数を直線NLと一致させ、別の時間帯では図3(b)に示す直線NLに関しマッピング関数Mfと対称な曲線を生成する、というような変化をさせることが可能である。これにより、楽曲の音楽的なコンテキストなどに合わせて出力される歌唱音声の声質が時間的に変化し、変化の多い表情豊かな歌唱音声とすることができる。声質変換パラメータ調整部25Cとしては、例えばパーソナルコンピュータのマウス、キーボード等を採用することができる。
なお、マッピング関数Mfは、その形状をどのように変化させる場合であっても、最低周波数(図3の例では0Hz)と最高周波数の値は変化させないようにし、これにより周波数帯域が声質変換の前後で変わらないようにするのが好適である。
【0030】
図4は、マッピング関数Mfの他の例を示している。図4(a)は、低域側では周波数を高い側へシフトさせ、高域側では周波数を低い方へシフトさせるマッピング関数Mfの例を示している。この場合、聴感上重要な低域側で周波数の高い方へのシフトが行われているため、出力歌唱音声は、全体に子供のような、又はいわゆるダックボイスのような声となる。図4(b)に示すマッピング関数Mfは、全体に出力周波数を低い側へシフトさせ、中心周波数付近でそのシフト量を最大としている。この例では、聴感上重要な低域側で周波数の低い方へのシフトが行われているため、出力歌唱音声は、太い男性的な声となる。
この図4(a)(b)の場合にも、マッピング関数Mfの形状は、声質変換パラメータ調整部25Cにより、時間的に変化させることが可能である。
【0031】
声質変換部26は、定常部分データ保持部16と、フレーム読出し部19より出力される非調和成分の入力を受けるとともに、声質変換部25と同様に、声質変換パラメータに基づいてマッピング関数生成部26Mで生成したマッピング関数Mf´を使用して非調和成分のスペクトル包絡に変更を加える。マッピング関数Mf´の形状は、声質変換パラメータ調整部26Cにより変更することができる。
加算部K2は、声質変換部25の出力としての調和成分と、声質変換部26から出力された非調和成分とを加算する。
逆FFT部27は、加算部K2の出力値を逆高速フーリエ変換して、周波数軸表現であった信号を時間軸表現の信号に変換するものである。
重ね合せ部28は、時系列順に処理される歌詞データについて次々に得られる信号をその時系列に沿った形で重ね合わせることにより、合成歌唱音声を出力するものである。
【0032】
次に、特徴パラメータ補正部21の詳細について図5に基づいて説明する。特徴パラメータ補正部21は、振幅決定手段41を備えている。この振幅決定手段41は、ダイナミクス−振幅変換テーブルTdaを参照して演奏データ保持部11から入力されるダイナミクス情報に相当する所望の振幅値A1を出力する。
また、スペクトル包絡生成手段42は、スイッチSW1から出力された特徴パラメータに基づき、スペクトル包絡を生成する部分である。
【0033】
倍音列生成手段43は、ピッチ決定部20で決定されたピッチに基づいて倍音列を生成する。振幅計算手段44は、生成されたスペクトル包絡及び倍音に対応する振幅値A2を計算する。振幅の計算は、例えば逆FFT等により実行することができる。
加算部K3は、振幅決定手段41で決定された所望の振幅値A1と、振幅計算手段44で計算された振幅値A2との差を出力する。ゲイン補正手段45は、この差に基づき、振幅値の補正量を計算するとともに、この補正量に従って特徴パラメータを補正する。これにより、所望の振幅に合致する新たな特徴パラメータが得られる。
【0034】
なお、図5では、テーブルTdaに基づき、ダイナミクスのみに基づいて振幅を決定しているが、これに加えて、音素の種類も考慮して振幅を決定するようなテーブルを採用してもよい。すなわち、同じダイナミクスであっても音素が異なる場合には、異なる振幅値を与えるようなテーブルを採用してもよい。同様に、ダイナミクスに加えて周波数を考慮して振幅を決定するようなテーブルを採用してもよい。
【0035】
次に、この実施の形態に係る歌唱合成装置の作用を、図6に示すフローチャートを参照しつつ説明する。
演奏データ保持部11は、時系列順にフレームデータを出力する。遷移部分と伸ばし音部分とが交互に現れ、遷移部分と伸ばし音部分とでは処理のされ方が異なる。
【0036】
演奏データ保持部11よりフレームデータが入力されると(S1)、音声素片選択部12において、フレームデータ中の歌詞データに基づき、そのフレームデータが伸ばし音部分に関するものか、遷移部分に関するものかが判断される(S2)。伸ばし音部分である場合には(YES)、先行音素連鎖データ保持部13、後方音素連鎖データ保持部14、定常部分データ保持部16に、それぞれ先行音素連鎖データ、後方音素連鎖データ、定常部分データが転送される(S3)。
【0037】
続いて、特徴パラメータ補間部15が、先行音素連鎖データ保持部13に保持された先行音素連鎖データの最終フレームの特徴パラメータを取り出すと共に、後方音素連鎖データ保持部14に保持された後方音素連鎖データの最初のフレームの特徴パラメータを取り出し、この2つの特徴パラメータを補間することにより、処理中の伸ばし音部分の特徴パラメータを生成する(S4)。
【0038】
また、定常部分データ保持部16に保持された定常部分データの特徴パラメータが、特徴パラメータ変動抽出部18に供給され、該定常部分の特徴パラメータの変動成分が抽出される(S5)。この変動成分が、加算部K1において特徴パラメータ補間部15から出力された特徴パラメータと加算される(S6)。この加算値が伸ばし音部分の特徴パラメータとしてスイッチSW1を介して特徴パラメータ補正部21に出力され、特徴パラメータの補正が実行される(S9)。一方、定常部分データ保持部16に保持された定常部分データの非調和成分は、スイッチSW2を介して声質変換部26に供給される。
【0039】
スペクトル包絡生成部23は、この補正後の特徴パラメータについてのスペクトル包絡を生成する。倍音振幅・位相計算部24は、スペクトル包絡生成部23で生成したスペクトル包絡に従い、倍音列生成部22で生成された各倍音の振幅及び位相を計算する。声質変換部25では、声質変換パラメータに応じて、スペクトル包絡生成部23で生成したスペクトル包絡のローカルピークの位置を変更し、この変更後のスペクトル包絡を加算部K2に出力する。
【0040】
一方、S2において、取得されたフレームデータが遷移部分のものである(NO)と判定された場合には、その遷移部分の音素連鎖データが、音素連鎖データ保持部17により保持される(S7)。次に、フレーム読出し部19が、音素連鎖データ保持部17に保持された音素連鎖データを、タイマ29に示す時刻に従ってフレームデータとして読出し、特徴パラメータと非調和成分とに分けて出力する(S8)。特徴パラメータの方は特徴パラメータ補正部21に向けて出力され、非調和成分はスイッチSW2を介して声質変換部26に向けて出力される。声質変換部26では、声質変換パラメータ調整部26Cからの声質変換パラメータに応じて生成されたマッピング関数Mf´により、この非調和成分の変更が行われ、この変更後の非調和成分が加算部K2に向けて出力される。この遷移部分の特徴パラメータは、特徴パラメータ補正部21、スペクトル包絡生成部23、倍音振幅・位相計算部24等で上述の伸ばし音部分の特徴パラメータと同様の処理を受ける。
【0041】
なお、スイッチSW1、SW2は、処理中のデータの種類によって切り替わるようになっているので、スイッチSW1については、伸ばし音部分を処理している間は、加算部K1の方に特徴パラメータ補正部21を接続するようにされ、遷移部分を処理している間は、フレーム読出し部19の方に特徴パラメータ補正部21を接続するようにされている。また、スイッチSW2については、伸ばし音部分を処理している間は、定常部分データ保持部16の方に声質変換部26を接続するようにされ、遷移部分を処理している間は、フレーム読出し部19の方に声質変換部26を接続するようにされている。
こうして遷移部分、伸ばし音部分の特徴パラメータ及び非調和成分が演算されると、その加算値が逆FFT部27で処理され、重ね合せ部28により重ね合わせられ、最終的な合成波形が出力される(S10)。
【0042】
以上、本発明の実施の形態について説明したが、本発明はこれに限定されるものではない。例えば、上記実施の形態では、声質変換パラメータをマッピング関数という形で表現しているが、声質変換パラメータを、演奏データ保持部11内にMIDIデータとして含ませるようにしてもよい。
また、上記実施の形態では、スペクトル包絡生成部23からの出力としてのスペクトル包絡のローカルピーク周波数をマッピング関数による調整の対象としているが、調整の対象はスペクトル包絡の全体、又は任意の部分でも良く、またローカルピークの周波数だけに限らず振幅などスペクトル包絡を表わす他のパラメータを調整の対象としてもよい。また、音韻データベース10から読み出された特徴パラメータ(例えばEGain、ESlope、ESlopeDepth等)を調整の対象にするようにしてもよい。
または、特徴パラメータ補正部21からの出力である特徴パラメータに変更を加えることも可能である。この際、各特徴パラメータの種類ごとにマッピング関数を持てばよい。
または、加算部K2での手前において調和成分と非調和成分のいずれか一方を声質変換パラメータに基づいて増幅又は減衰させ、その割合を変更させた上で加算部K2で加算させるようにしてもよい。また、調和成分だけを調整の対象としてもよい。また、逆FFT部27から出力される時間軸の信号を調整の対象としてもよい。
【0043】
また、マッピング関数を、次の式で表わしてもよい。
【数2】
fout=(fs/2)×(2×fin/fs)α
【0044】
ただし、fsはサンプリング周波数、finは入力周波数、foutは出力周波数である。また、αは、出力歌唱音声を男性的にするか、女性的にするかを決定する因子であり、αが正の値であれば[数2]で表わされるマッピング関数は下に凸な関数となり、出力歌唱音声は男性的なものとなる。また、αが負の値であれば、女性又は子供らしい声となる(図7参照)。
【0045】
また、マッピング関数を表現する座標系上にいくつかの点(ブレークポイント)を指定し、それらを結ぶ直線としてマッピング関数を定義することもできる。この場合、声質変換パラメータは座標値によるベクトルとして表現される。
【0046】
【発明の効果】
以上説明したように、本発明によれば、声質変換パラメータを時間的に変化させることができ、これにより、時間的に前後して現れる同一特徴パラメータ、すなわち同一の歌唱部分であっても、それぞれ任意の異なる声質に変換することができ、合成歌唱音声を変化に富みリアリティに溢れたものとすることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る歌唱合成装置の機能ブロック図である。
【図2】図1に示す音韻データベース10の作成例を示す。
【図3】声質変換部25による入出力の変換のされ方、及びマッピング関数生成部25Mで生成されるマッピング関数Mfの一例を示す。
【図4】マッピング関数Mfの他の例を示す。
【図5】図1に示す特徴パラメータ補正部21の詳細を示す。
【図6】第1の実施の形態に係る歌唱合成装置におけるデータ処理の手順を示すフローチャートである。
【図7】マッピング関数Mfの他の例を示す。
【符号の説明】
10…音韻データベース、 11…演奏データ保持部、 12…音声素片選択部、 13…先行音素連鎖データ保持部、 14…後方音素連鎖データ保持部、 15…特徴パラメータ補間部、 16…定常部分データ保持部、 17…音素連鎖データ保持部、 18…特徴パラメータ変動抽出部、 19…フレーム読出し部、 K1、K2…加算部、20…ピッチ決定部、 21…特徴パラメータ補正部、 22…倍音列生成部、 23…スペクトル包絡生成部、 24…倍音振幅・位相計算部、 25,26・・・声質変換部、 25M、26M・・・マッピング関数生成部、 25C、26C・・・声質変換パラメータ調整部、 27…逆FFT部、 28…重ね合せ部、 29…タイマ、 31…SMS分析手段、 32…音素切り分け手段、 33…特徴パラメータ抽出手段、 41…振幅決定手段、43…倍音列生成手段、 44…振幅計算手段、 K3…加算部、 45…ゲイン補正部

Claims (6)

  1. 合成すべき歌唱演奏データを示す歌唱情報を入力する歌唱情報入力部と、
    音声素片データを保持する音韻データベースと、
    前記歌唱情報に基づいて前記音韻データベースに記憶された音声素片データを選択する選択部と、
    声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力部と、
    前記声質変換パラメータに基づき、前記音声素片データを変換して歌唱音声を生成する歌唱合成部とを備えたことを特徴とする歌唱合成装置。
  2. 前記選択部で選択された音声素片データから特徴パラメータを抽出して出力する特徴パラメータ出力部を備え、前記歌唱合成部は、前期声質変換パラメータに基づいてこの特徴パラメータを補正するものである請求項1に記載の歌唱合成装置。
  3. 前記歌唱合成部は、前記選択された音声素片データに従って生成されたスペクトル包絡を前記声質変換パラメータに基づいて調整するものである請求項1に記載の歌唱合成装置。
  4. 前記声質変換パラメータ入力部は、前記声質変換パラメータを時間的に変化させる声質変換パラメータ調整手段を備えたものである請求項1乃至3のいずれか1項に記載の歌唱合成装置。
  5. 歌唱を合成するための歌唱情報を入力する歌唱情報入力ステップと、
    音声素片データを予め音韻データベースに保持させておくと共に、前記歌唱情報に基づいて前記音声素片データを選択する選択ステップと、
    声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力ステップと、
    前記声質変換パラメータに基づき前記音声素片データを変換して歌唱音声を生成する歌唱合成ステップとを備えたことを特徴とする歌唱合成方法。
  6. 歌唱を合成するための歌唱情報を入力する歌唱情報入力ステップと、
    音声素片データを予め音韻データベースに保持させておくと共に、前記歌唱情報に基づいて前記音声素片データを選択する選択ステップと、
    声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力ステップと、
    前記声質変換パラメータに基づき前記音声素片データを変換して歌唱音声を生成する歌唱合成ステップと
    をコンピュータに実行させるように構成されたことを特徴とする歌唱合成用プログラム。
JP2002198486A 2002-07-08 2002-07-08 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム Expired - Fee Related JP3941611B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2002198486A JP3941611B2 (ja) 2002-07-08 2002-07-08 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
DE60313539T DE60313539T2 (de) 2002-07-08 2003-06-30 Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
EP03014880A EP1381028B1 (en) 2002-07-08 2003-06-30 Singing voice synthesizing apparatus, singing voice synthesizing method and program for synthesizing singing voice
US10/613,301 US7379873B2 (en) 2002-07-08 2003-07-03 Singing voice synthesizing apparatus, singing voice synthesizing method and program for synthesizing singing voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002198486A JP3941611B2 (ja) 2002-07-08 2002-07-08 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム

Publications (3)

Publication Number Publication Date
JP2004038071A true JP2004038071A (ja) 2004-02-05
JP2004038071A5 JP2004038071A5 (ja) 2005-04-07
JP3941611B2 JP3941611B2 (ja) 2007-07-04

Family

ID=29728413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002198486A Expired - Fee Related JP3941611B2 (ja) 2002-07-08 2002-07-08 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム

Country Status (4)

Country Link
US (1) US7379873B2 (ja)
EP (1) EP1381028B1 (ja)
JP (1) JP3941611B2 (ja)
DE (1) DE60313539T2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006010906A (ja) * 2004-06-24 2006-01-12 Yamaha Corp 音声効果付与装置及び音声効果付与プログラム
JP2006010908A (ja) * 2004-06-24 2006-01-12 Yamaha Corp 音声効果付与装置及び音声効果付与プログラム
JP2006017946A (ja) * 2004-06-30 2006-01-19 Yamaha Corp 音声処理装置およびプログラム
WO2012011475A1 (ja) * 2010-07-20 2012-01-26 独立行政法人産業技術総合研究所 声色変化反映歌声合成システム及び声色変化反映歌声合成方法
JP2017173423A (ja) * 2016-03-22 2017-09-28 コニカミノルタプラネタリウム株式会社 プラネタリウム演出装置およびプラネタリウム装置
US10482893B2 (en) 2016-11-02 2019-11-19 Yamaha Corporation Sound processing method and sound processing apparatus
CN112037757A (zh) * 2020-09-04 2020-12-04 腾讯音乐娱乐科技(深圳)有限公司 一种歌声合成方法、设备及计算机可读存储介质

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP4153220B2 (ja) * 2002-02-28 2008-09-24 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP4207902B2 (ja) * 2005-02-02 2009-01-14 ヤマハ株式会社 音声合成装置およびプログラム
KR100658869B1 (ko) * 2005-12-21 2006-12-15 엘지전자 주식회사 음악생성장치 및 그 운용방법
FR2920583A1 (fr) * 2007-08-31 2009-03-06 Alcatel Lucent Sas Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs
KR100922897B1 (ko) * 2007-12-11 2009-10-20 한국전자통신연구원 Mdct 영역에서 음질 향상을 위한 후처리 필터장치 및필터방법
EP3296992B1 (en) * 2008-03-20 2021-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for modifying a parameterized representation
US7977560B2 (en) * 2008-12-29 2011-07-12 International Business Machines Corporation Automated generation of a song for process learning
US9147166B1 (en) 2011-08-10 2015-09-29 Konlanbi Generating dynamically controllable composite data structures from a plurality of data segments
US10860946B2 (en) 2011-08-10 2020-12-08 Konlanbi Dynamic data structures for data-driven modeling
JP5928489B2 (ja) * 2014-01-08 2016-06-01 ヤマハ株式会社 音声処理装置およびプログラム
JP2016080827A (ja) * 2014-10-15 2016-05-16 ヤマハ株式会社 音韻情報合成装置および音声合成装置
WO2018084305A1 (ja) * 2016-11-07 2018-05-11 ヤマハ株式会社 音声合成方法
FR3062945B1 (fr) * 2017-02-13 2019-04-05 Centre National De La Recherche Scientifique Methode et appareil de modification dynamique du timbre de la voix par decalage en frequence des formants d'une enveloppe spectrale
JP6992612B2 (ja) * 2018-03-09 2022-01-13 ヤマハ株式会社 音声処理方法および音声処理装置
CN108877753B (zh) * 2018-06-15 2020-01-21 百度在线网络技术(北京)有限公司 音乐合成方法及系统、终端以及计算机可读存储介质
CN111063364B (zh) * 2019-12-09 2024-05-10 广州酷狗计算机科技有限公司 生成音频的方法、装置、计算机设备和存储介质
US12059533B1 (en) 2020-05-20 2024-08-13 Pineal Labs Inc. Digital music therapeutic system with automated dosage

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05260082A (ja) 1992-03-13 1993-10-08 Toshiba Corp テキスト読み上げ装置
JP3282693B2 (ja) 1993-10-01 2002-05-20 日本電信電話株式会社 声質変換方法
US6046395A (en) * 1995-01-18 2000-04-04 Ivl Technologies Ltd. Method and apparatus for changing the timbre and/or pitch of audio signals
DE69629486T2 (de) * 1995-10-23 2004-06-24 The Regents Of The University Of California, Oakland Kontrollstruktur für klangsynthesierung
US6336092B1 (en) 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US5808222A (en) * 1997-07-16 1998-09-15 Winbond Electronics Corporation Method of building a database of timbre samples for wave-table music synthesizers to produce synthesized sounds with high timbre quality
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
JP2000250572A (ja) 1999-03-01 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 音声データベース作成装置及びその方法並びに歌声データベース作成装置及びその方法
JP3365354B2 (ja) 1999-06-30 2003-01-08 ヤマハ株式会社 音声信号または楽音信号の処理装置
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP3734434B2 (ja) 2001-09-07 2006-01-11 日本電信電話株式会社 メッセージ生成配信方法及び生成配信システム
JP2003223178A (ja) 2002-01-30 2003-08-08 Nippon Telegr & Teleph Corp <Ntt> 電子歌唱カード生成方法、受信方法、装置及びプログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006010906A (ja) * 2004-06-24 2006-01-12 Yamaha Corp 音声効果付与装置及び音声効果付与プログラム
JP2006010908A (ja) * 2004-06-24 2006-01-12 Yamaha Corp 音声効果付与装置及び音声効果付与プログラム
JP4649888B2 (ja) * 2004-06-24 2011-03-16 ヤマハ株式会社 音声効果付与装置及び音声効果付与プログラム
JP4654616B2 (ja) * 2004-06-24 2011-03-23 ヤマハ株式会社 音声効果付与装置及び音声効果付与プログラム
JP2006017946A (ja) * 2004-06-30 2006-01-19 Yamaha Corp 音声処理装置およびプログラム
JP4654621B2 (ja) * 2004-06-30 2011-03-23 ヤマハ株式会社 音声処理装置およびプログラム
WO2012011475A1 (ja) * 2010-07-20 2012-01-26 独立行政法人産業技術総合研究所 声色変化反映歌声合成システム及び声色変化反映歌声合成方法
GB2500471A (en) * 2010-07-20 2013-09-25 Nat Inst Of Advanced Ind Scien Singing voice synthesis system accounting for tone alteration and singing voice synthesis method accounting for tone alteration
JP5510852B2 (ja) * 2010-07-20 2014-06-04 独立行政法人産業技術総合研究所 声色変化反映歌声合成システム及び声色変化反映歌声合成方法
US9009052B2 (en) 2010-07-20 2015-04-14 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis capable of reflecting voice timbre changes
GB2500471B (en) * 2010-07-20 2018-06-13 Aist System and method for singing synthesis capable of reflecting voice timbre changes
JP2017173423A (ja) * 2016-03-22 2017-09-28 コニカミノルタプラネタリウム株式会社 プラネタリウム演出装置およびプラネタリウム装置
US10482893B2 (en) 2016-11-02 2019-11-19 Yamaha Corporation Sound processing method and sound processing apparatus
CN112037757A (zh) * 2020-09-04 2020-12-04 腾讯音乐娱乐科技(深圳)有限公司 一种歌声合成方法、设备及计算机可读存储介质
CN112037757B (zh) * 2020-09-04 2024-03-15 腾讯音乐娱乐科技(深圳)有限公司 一种歌声合成方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
US7379873B2 (en) 2008-05-27
JP3941611B2 (ja) 2007-07-04
EP1381028A1 (en) 2004-01-14
EP1381028B1 (en) 2007-05-02
US20040006472A1 (en) 2004-01-08
DE60313539T2 (de) 2008-01-31
DE60313539D1 (de) 2007-06-14

Similar Documents

Publication Publication Date Title
JP3941611B2 (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP4153220B2 (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP4067762B2 (ja) 歌唱合成装置
JP4207902B2 (ja) 音声合成装置およびプログラム
EP1701336B1 (en) Sound processing apparatus and method, and program therefor
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
WO2019138871A1 (ja) 音声合成方法、音声合成装置およびプログラム
JP3711880B2 (ja) 音声分析及び合成装置、方法、プログラム
JP3966074B2 (ja) ピッチ変換装置、ピッチ変換方法及びプログラム
TW201027514A (en) Singing synthesis systems and related synthesis methods
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP4304934B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP4757971B2 (ja) ハーモニー音付加装置
JP2007226174A (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP3540159B2 (ja) 音声変換装置及び音声変換方法
JP4349316B2 (ja) 音声分析及び合成装置、方法、プログラム
JP2022065554A (ja) 音声合成方法およびプログラム
JP3502268B2 (ja) 音声信号処理装置及び音声信号処理方法
TW201023172A (en) Apparatus and method for correcting a singing voice
WO2022080395A1 (ja) 音声合成方法およびプログラム
WO2024202975A1 (ja) 音変換方法およびプログラム
JP2004061753A (ja) 歌唱音声を合成する方法および装置
JP3540609B2 (ja) 音声変換装置及び音声変換方法
JP3979213B2 (ja) 歌唱合成装置、歌唱合成方法並びに歌唱合成用プログラム
JP3540160B2 (ja) 音声変換装置及び音声変換方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040527

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140413

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees