JP2004038071A

JP2004038071A - 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム

Info

Publication number: JP2004038071A
Application number: JP2002198486A
Authority: JP
Inventors: Hidenori Kenmochi; 劔持　秀紀
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2002-07-08
Filing date: 2002-07-08
Publication date: 2004-02-05
Anticipated expiration: 2022-07-08
Also published as: EP1381028A1; US20040006472A1; US7379873B2; EP1381028B1; JP3941611B2; DE60313539D1; DE60313539T2

Abstract

【課題】同一の歌唱部分であっても、それぞれ任意の異なる声質に変換することができ、合成歌唱音声を変化に富みリアリティに溢れたものとする。
【解決手段】演奏データ保持部１１に保持されたＭＩＤＩ情報に基づいて、音韻データベース１０に記憶された音声素片データが音声素片選択部１２により選択される。この選択された音声素片データから特徴パラメータを抽出する。特徴パラメータ補正部２１は、この特徴パラメータをピッチ情報等に基づき補正する。スペクトル包絡生成部２３は、特徴パラメータ補正部２１で補正された補正後の特徴パラメータに従って、スペクトル包絡を生成する。声質変換部２５は、声質変換パラメータに基づき、特徴パラメータを補正して声質を変化させると共にこの声質変換パラメータを時間的に変化させる。
【選択図】　図１

Description

【０００１】
【発明の属する技術分野】
この発明は、人間の歌唱音声を合成する歌唱合成装置、歌唱合成方法及び歌唱合成用プログラムに関する。
【０００２】
【従来の技術】
従来の歌唱合成装置においては、人間の実際の歌声から取得したデータをデータベースとして保存しておき、入力された演奏データ（音符、歌詞、表情等）の内容に合致したデータをデータベースより選択する。そして、この選択された演奏データに基づいて、本物の人の歌声に近い歌唱音声を合成している。
【０００３】
【発明が解決しようとする課題】
ところで、人間が歌を歌うときには、音楽的なコンテキスト（楽曲中の位置、表情付けなど）により声の音色を変化させて歌うのが普通である。例えば、同じ歌詞であっても楽曲の前半部分では普通に歌うが、後半部分では感情を込めて歌う、といった具合である。従って、歌唱合成装置により自然な歌声を合成するには、歌唱中の声の音色を音楽的なコンテキストに従って変化させることが必要となってくる。
【０００４】
しかし、従来の歌唱合成装置では、歌唱者データを入力して、歌唱者の異同に応じて歌わせ方を変化させることは行われていたが、同じ歌唱者の場合、同じ音韻コンテキストに対しては、基本的には１つの音韻テンプレートだけを使用しており、音色のバリエーションを付けることは行われていなかった。このため、合成される歌唱音声は音色の変化が乏しいものであった。
本発明は、この点に鑑みてなされたものであり、合成される歌唱音声を表情豊かなものとすることのできる歌唱合成装置を提供することを目的とする。
【０００５】
【課題を解決するための手段】
上記目的達成のため、本出願の第１の発明に係る歌唱合成装置は、合成すべき歌唱演奏データを示す歌唱情報を入力する歌唱情報入力部と、音声素片データを保持する音韻データベースと、前記歌唱情報に基づいて前記音韻データベースに記憶された音声素片データを選択する選択部と、声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力部と、前記声質変換パラメータに基づき、前記音声素片データを変換して歌唱音声を生成する歌唱合成部とを備えたことを特徴とする。
【０００６】
この第１の発明に係る音声合成装置によれば、声質変換パラメータの変化により、合成される歌唱音声の声質を変化させることができる。このため、時間的に前後して現れる同一特徴パラメータ、すなわち同一の歌唱部分であっても、それぞれ任意の異なる声質に変換することができ、合成歌唱音声を変化に富みリアリティに溢れたものとすることができる。
【０００７】
上記目的達成のため、本出願の第２の発明に係る歌唱合成用方法は、歌唱を合成するための歌唱情報を入力する歌唱情報入力ステップと、音声素片データを予め音韻データベースに保持させておくと共に、前記歌唱情報に基づいて前記音声素片データを選択する選択ステップと、声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力ステップと、前記声質変換パラメータに基づき前記音声素片データを変換して歌唱音声を生成する歌唱合成ステップとを備えたことを特徴とする。
【０００８】
上記目的達成のため、本出願の第３の発明に係る歌唱合成用プログラムは、歌唱を合成するための歌唱情報を入力する歌唱情報入力ステップと、音声素片データを予め音韻データベースに保持させておくと共に、前記歌唱情報に基づいて前記音声素片データを選択する選択ステップと、声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力ステップと、前記声質変換パラメータに基づき前記音声素片データを変換して歌唱音声を生成する歌唱合成ステップとをコンピュータに実行させるように構成されたことを特徴とする。
【０００９】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
図１は、本発明の実施の形態に係る歌唱合成装置の構成を示す機能ブロック図である。まずこの図１の歌唱合成装置の概要を説明すると、音韻データベース１０は、得られた歌唱データから切り出された音素連鎖データと定常部分データとを保持している。演奏データ保持部１１の演奏データは、遷移部分と伸ばし音部分とに区切られた後、音素連鎖データはその遷移部分において基本的にはそのまま用いられる。このため、歌唱の重要な部分を占める遷移部分の歌唱が自然に聞こえ、合成歌唱の品質が高められている。この歌唱合成装置は、例えば一般のパーソナルコンピュータにより実現することができ、図１に示す各ブロックの機能は、パーソナルコンピュータ内部のＣＰＵやＲＡＭ、ＲＯＭなどにより達成され得る。ＤＳＰやロジック回路によって構成することも可能である。
【００１０】
以下、この図１の歌唱合成装置の詳細を説明する。
前述のように、音韻データベース１０は、演奏データに基づいて合成音を合成するためのデータを保持している。この音韻データベース１０の作成例を図２により説明する。
まず図２に示すように、実際に録音或いは取得した歌唱データ等の音声信号をＳＭＳ（ｓｐｅｃｔｒａｌ　ｍｏｄｅｌｉｎｇ　ｓｙｎｔｈｅｓｉｓ）分析手段３１により、調和成分（正弦波成分）と非調和成分に分離する。ＳＭＳ分析の代わりに、ＬＰＣ（Ｌｉｎｅａｒ　Ｐｒｅｄｉｃｔｉｖｅ　Ｃｏｄｉｎｇ）等の他の分析手法を用いてもよい。
次に、音素切り分け手段３２により、音素切り分け情報に基づき、音声信号を音素ごとに切り分ける。音素切り分け情報は、例えば人間が音声信号の波形を見ながら所定のスイッチ動作を行うことにより与えるのが通常である。
【００１１】
そして、音素ごとに切り分けられた音声信号の調和成分から、特徴パラメータ抽出手段３３により特徴パラメータが抽出される。特徴パラメータには、励起波形エンベロープ、励起レゾナンス、フォルマント、差分スペクトルなどがある。
【００１２】
励起波形エンベロープ（ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅ）は、声帯波形の大きさ（ｄＢ）を表わすＥＧａｉｎ、声帯波形のスペクトルエンベロープの傾きを表わすＥＳｌｏｐｅＤｅｐｔｈ、声帯波形のスペクトルエンベロープの最大値から最小値への深さ（ｄＢ）を表わすＥＳｌｏｐｅの３つのパラメータによって構成されており、以下の式［数１］で表わすことが出来る。
【００１３】
【数１】
Ｅｘｃｉｔａｔｉｏｎ　Ｃｕｒｖｅ　（ｆ）＝ＥＧａｉｎ＋ＥＳｌｏｐｅＤｅｐｔｈ×（ｅｘｐ（−ＥＳｌｏｐｅ×ｆ）−１）
【００１４】
励起レゾナンスは、胸部による共鳴を表わす特徴パラメータで、中心周波数（ＥＲＦｒｅｑ）、バンド幅（ＥＲＢＷ）、アンプリチュード（ＥＲＡｍｐ）の３つのパラメータにより構成され、２次フィルター特性を有している。
【００１５】
フォルマントは、１から１２個程度のレゾナンスを組み合わせることにより声道による共鳴を表わす特徴パラメータで、中心周波数（ＦｏｒｍａｎｔＦｒｅｑｉ、ｉはレゾナンスの番号）、バンド幅（ＦｏｒｍａｎｔＢＷｉ、ｉはレゾナンスの番号）、強度（ＦｏｒｍａｎｔＡｍｐｉ、ｉはレゾナンスの番号）の３つのパラメータにより構成される。
【００１６】
差分スペクトルは、上記の励起波形エンベロープ、励起レゾナンス、フォルマントの３つで表現することの出来ない元の調和成分との差分のスペクトルを持つ特徴パラメータである。
【００１７】
この抽出された特徴パラメータを、音韻名と対応させて音韻データベース１０に記憶させる。非調和成分も、同様にして音韻名と対応させてそのスペクトルデータを音韻データベース１０に記憶させる。この音韻データベース１０では、図２に示すように、音素連鎖データと定常部分データとに分けて記憶される。以下では、この音素連鎖データと定常部分データとを総称して「音声素片データ」と称する。
【００１８】
音素連鎖データは、先頭音素名、後続音素名、特徴パラメータ及び非調和成分を対応付けたデータ列である。
一方、定常部分データは、１つの音韻名と特徴パラメータ列と非調和成分とを対応付けたデータ列である。
【００１９】
図１に戻って、１１は演奏データを保持するための演奏データ保持部である。演奏データは、例えば音符、歌詞、ピッチベンド、ダイナミクス等の情報を含んだＭＩＤＩ情報である。
音声素片選択部１２は、演奏データ保持部１１に保持される演奏データの入力をフレーム単位で受け付けるとともに（以下、この１単位をフレームデータという）、入力されたフレームデータ中の歌詞データに対応する音声素片データを音韻データベース１０から選択して読み出す機能を有する。
【００２０】
先行音素連鎖データ保持部１３、後方音素連鎖データ保持部１４は、定常部分データを処理するために使用されるものである。先行音素連鎖データ保持部１３は、処理すべき定常部分データより先行する音素連鎖データを保持するものであり、一方、後方音素連鎖データ保持部１４は、処理すべき定常部分データより後方の音素連鎖データを保持するものである。
【００２１】
特徴パラメータ補間部１５は、先行音素連鎖データ保持部１３に保持された音素連鎖データの最終フレームの特徴パラメータと、後方音素連鎖データ保持部１４に保持された音素連鎖データの最初のフレームの特徴パラメータとを読出し、タイマ２９の示す時刻に対応するように特徴パラメータを時間的に補間する。
【００２２】
定常部分データ保持部１６は、音声素片選択部１２により読み出された音声素片データのうち、定常部分データを一時保持する。一方、音素連鎖データ保持部１７は、音素連鎖データを一時保持する。
【００２３】
特徴パラメータ変動抽出部１８は、定常部分データ保持部１６に保持された定常部分データを読み出してその特徴パラメータの変動（ゆらぎ）を抽出し、変動成分として出力する機能を有する。
加算部Ｋ１は、特徴パラメータ補間部１５の出力と特徴パラメータ変動抽出部１８の出力を加算して、伸ばし音部分の特徴パラメータを出力する部分である。フレーム読出し部１９は、音素連鎖データ保持部１７に保持された音素連鎖データを、タイマ２９に示す時刻に従ってフレームデータとして読出し、特徴パラメータと非調和成分とに分けて出力する部分である。
【００２４】
ピッチ決定部２０は、フレームデータ中の音符データ、ピッチベンドデータに基づき、最終的に合成する合成音のピッチを決定する部分である。また特徴パラメータ補正部２１は、加算部Ｋ１から出力された伸ばし音部分の特徴パラメータ、及びフレーム読出し部１９から出力された遷移部分の特徴パラメータを、ピッチ決定部２０で決定したピッチや演奏データ中に含まれるダイナミクス情報等に基づいて補正する部分である。特徴パラメータ補正部２１の前段にはスイッチＳＷ１が設けられ、伸ばし音部分の特徴パラメータと遷移部分の特徴パラメータとを選択的に特徴パラメータ補正部２１に入力するようになっている。この特徴パラメータ補正部２１での詳しい処理内容は後述する。スイッチＳＷ２は、定常部分データ保持部１６から読み出された伸ばし音部分の非調和成分と、フレーム読出し部１９から読み出された遷移部分の非調和成分を切り替えて出力する。
【００２５】
倍音列生成部２２は、決定したピッチに従い、フォルマント合成を行うための倍音列を周波数軸上に生成する部分である。
スペクトル包絡生成部２３は、特徴パラメータ補正部２１で補正された補正後の特徴パラメータに従って、スペクトル包絡を生成する部分である。
【００２６】
倍音振幅・位相計算部２４は、倍音列生成部２２で生成された各倍音の振幅及び位相を、スペクトル包絡生成部２３で生成したスペクトル包絡に付加する部分である。
【００２７】
声質変換部２５は、外部より入力される声質変換パラメータに基づき、倍音振幅・位相計算部２４を介して入力される調和成分のスペクトル包絡に変更を加え、これにより合成歌唱音声の声質を変換する機能を有する。
声質変換部２５は、入力される声質変換パラメータに基づき、図３（ａ）に示すように、入力されたスペクトル包絡Ｓｅのローカルピークの位置をシフトさせ、これにより声質の変換を実行する。図３（ａ）の場合、ローカルピークが全体的に高い方にシフトしているので、変更後の出力音声は、変更前に比べ女性的な又は子供っぽい声に変化することになる。
【００２８】
本実施の形態では、声質変換パラメータ調整部２５Ｃから出力される声質変換パラメータに基づき、マッピング関数生成部２５Ｍにおいて図３（ｂ）に示すようなマッピング関数Ｍｆを生成する。声質変換部２５は、このマッピング関数Ｍｆに基づきスペクトル包絡のローカルピークの位置をシフトさせる。このマッピング関数Ｍｆは、横軸を入力周波数（声質変換部２５に入力されるスペクトル包絡のローカルピークの周波数）とし、縦軸を出力周波数（声質変換部２５から出力されるスペクトル包絡のローカルピークの周波数）をとっている。このため、マッピング関数Ｍｆが、入力周波数＝出力周波数を示す直線ＮＬよりも上側に位置する部分においては、その入力周波数のローカルピークは、マッピング関数Ｍｆによる変換後、周波数の高い方向にシフトする。逆に、マッピング関数Ｍｆが、直線ＮＬよりも下側に位置する部分においては、その入力周波数のローカルピークは、マッピング関数Ｍｆによる変換後、周波数の低い方向にシフトする。
【００２９】
そして、このマッピング関数Ｍｆの形状は、声質変換パラメータ調整部２５Ｃを使用して時間的に変化させることができるようになっている。例えば、ある時間帯では、マッピング関数を直線ＮＬと一致させ、別の時間帯では図３（ｂ）に示す直線ＮＬに関しマッピング関数Ｍｆと対称な曲線を生成する、というような変化をさせることが可能である。これにより、楽曲の音楽的なコンテキストなどに合わせて出力される歌唱音声の声質が時間的に変化し、変化の多い表情豊かな歌唱音声とすることができる。声質変換パラメータ調整部２５Ｃとしては、例えばパーソナルコンピュータのマウス、キーボード等を採用することができる。
なお、マッピング関数Ｍｆは、その形状をどのように変化させる場合であっても、最低周波数（図３の例では０Ｈｚ）と最高周波数の値は変化させないようにし、これにより周波数帯域が声質変換の前後で変わらないようにするのが好適である。
【００３０】
図４は、マッピング関数Ｍｆの他の例を示している。図４（ａ）は、低域側では周波数を高い側へシフトさせ、高域側では周波数を低い方へシフトさせるマッピング関数Ｍｆの例を示している。この場合、聴感上重要な低域側で周波数の高い方へのシフトが行われているため、出力歌唱音声は、全体に子供のような、又はいわゆるダックボイスのような声となる。図４（ｂ）に示すマッピング関数Ｍｆは、全体に出力周波数を低い側へシフトさせ、中心周波数付近でそのシフト量を最大としている。この例では、聴感上重要な低域側で周波数の低い方へのシフトが行われているため、出力歌唱音声は、太い男性的な声となる。
この図４（ａ）（ｂ）の場合にも、マッピング関数Ｍｆの形状は、声質変換パラメータ調整部２５Ｃにより、時間的に変化させることが可能である。
【００３１】
声質変換部２６は、定常部分データ保持部１６と、フレーム読出し部１９より出力される非調和成分の入力を受けるとともに、声質変換部２５と同様に、声質変換パラメータに基づいてマッピング関数生成部２６Ｍで生成したマッピング関数Ｍｆ´を使用して非調和成分のスペクトル包絡に変更を加える。マッピング関数Ｍｆ´の形状は、声質変換パラメータ調整部２６Ｃにより変更することができる。
加算部Ｋ２は、声質変換部２５の出力としての調和成分と、声質変換部２６から出力された非調和成分とを加算する。
逆ＦＦＴ部２７は、加算部Ｋ２の出力値を逆高速フーリエ変換して、周波数軸表現であった信号を時間軸表現の信号に変換するものである。
重ね合せ部２８は、時系列順に処理される歌詞データについて次々に得られる信号をその時系列に沿った形で重ね合わせることにより、合成歌唱音声を出力するものである。
【００３２】
次に、特徴パラメータ補正部２１の詳細について図５に基づいて説明する。特徴パラメータ補正部２１は、振幅決定手段４１を備えている。この振幅決定手段４１は、ダイナミクス−振幅変換テーブルＴｄａを参照して演奏データ保持部１１から入力されるダイナミクス情報に相当する所望の振幅値Ａ１を出力する。
また、スペクトル包絡生成手段４２は、スイッチＳＷ１から出力された特徴パラメータに基づき、スペクトル包絡を生成する部分である。
【００３３】
倍音列生成手段４３は、ピッチ決定部２０で決定されたピッチに基づいて倍音列を生成する。振幅計算手段４４は、生成されたスペクトル包絡及び倍音に対応する振幅値Ａ２を計算する。振幅の計算は、例えば逆ＦＦＴ等により実行することができる。
加算部Ｋ３は、振幅決定手段４１で決定された所望の振幅値Ａ１と、振幅計算手段４４で計算された振幅値Ａ２との差を出力する。ゲイン補正手段４５は、この差に基づき、振幅値の補正量を計算するとともに、この補正量に従って特徴パラメータを補正する。これにより、所望の振幅に合致する新たな特徴パラメータが得られる。
【００３４】
なお、図５では、テーブルＴｄａに基づき、ダイナミクスのみに基づいて振幅を決定しているが、これに加えて、音素の種類も考慮して振幅を決定するようなテーブルを採用してもよい。すなわち、同じダイナミクスであっても音素が異なる場合には、異なる振幅値を与えるようなテーブルを採用してもよい。同様に、ダイナミクスに加えて周波数を考慮して振幅を決定するようなテーブルを採用してもよい。
【００３５】
次に、この実施の形態に係る歌唱合成装置の作用を、図６に示すフローチャートを参照しつつ説明する。
演奏データ保持部１１は、時系列順にフレームデータを出力する。遷移部分と伸ばし音部分とが交互に現れ、遷移部分と伸ばし音部分とでは処理のされ方が異なる。
【００３６】
演奏データ保持部１１よりフレームデータが入力されると（Ｓ１）、音声素片選択部１２において、フレームデータ中の歌詞データに基づき、そのフレームデータが伸ばし音部分に関するものか、遷移部分に関するものかが判断される（Ｓ２）。伸ばし音部分である場合には（ＹＥＳ）、先行音素連鎖データ保持部１３、後方音素連鎖データ保持部１４、定常部分データ保持部１６に、それぞれ先行音素連鎖データ、後方音素連鎖データ、定常部分データが転送される（Ｓ３）。
【００３７】
続いて、特徴パラメータ補間部１５が、先行音素連鎖データ保持部１３に保持された先行音素連鎖データの最終フレームの特徴パラメータを取り出すと共に、後方音素連鎖データ保持部１４に保持された後方音素連鎖データの最初のフレームの特徴パラメータを取り出し、この２つの特徴パラメータを補間することにより、処理中の伸ばし音部分の特徴パラメータを生成する（Ｓ４）。
【００３８】
また、定常部分データ保持部１６に保持された定常部分データの特徴パラメータが、特徴パラメータ変動抽出部１８に供給され、該定常部分の特徴パラメータの変動成分が抽出される（Ｓ５）。この変動成分が、加算部Ｋ１において特徴パラメータ補間部１５から出力された特徴パラメータと加算される（Ｓ６）。この加算値が伸ばし音部分の特徴パラメータとしてスイッチＳＷ１を介して特徴パラメータ補正部２１に出力され、特徴パラメータの補正が実行される（Ｓ９）。一方、定常部分データ保持部１６に保持された定常部分データの非調和成分は、スイッチＳＷ２を介して声質変換部２６に供給される。
【００３９】
スペクトル包絡生成部２３は、この補正後の特徴パラメータについてのスペクトル包絡を生成する。倍音振幅・位相計算部２４は、スペクトル包絡生成部２３で生成したスペクトル包絡に従い、倍音列生成部２２で生成された各倍音の振幅及び位相を計算する。声質変換部２５では、声質変換パラメータに応じて、スペクトル包絡生成部２３で生成したスペクトル包絡のローカルピークの位置を変更し、この変更後のスペクトル包絡を加算部Ｋ２に出力する。
【００４０】
一方、Ｓ２において、取得されたフレームデータが遷移部分のものである（ＮＯ）と判定された場合には、その遷移部分の音素連鎖データが、音素連鎖データ保持部１７により保持される（Ｓ７）。次に、フレーム読出し部１９が、音素連鎖データ保持部１７に保持された音素連鎖データを、タイマ２９に示す時刻に従ってフレームデータとして読出し、特徴パラメータと非調和成分とに分けて出力する（Ｓ８）。特徴パラメータの方は特徴パラメータ補正部２１に向けて出力され、非調和成分はスイッチＳＷ２を介して声質変換部２６に向けて出力される。声質変換部２６では、声質変換パラメータ調整部２６Ｃからの声質変換パラメータに応じて生成されたマッピング関数Ｍｆ´により、この非調和成分の変更が行われ、この変更後の非調和成分が加算部Ｋ２に向けて出力される。この遷移部分の特徴パラメータは、特徴パラメータ補正部２１、スペクトル包絡生成部２３、倍音振幅・位相計算部２４等で上述の伸ばし音部分の特徴パラメータと同様の処理を受ける。
【００４１】
なお、スイッチＳＷ１、ＳＷ２は、処理中のデータの種類によって切り替わるようになっているので、スイッチＳＷ１については、伸ばし音部分を処理している間は、加算部Ｋ１の方に特徴パラメータ補正部２１を接続するようにされ、遷移部分を処理している間は、フレーム読出し部１９の方に特徴パラメータ補正部２１を接続するようにされている。また、スイッチＳＷ２については、伸ばし音部分を処理している間は、定常部分データ保持部１６の方に声質変換部２６を接続するようにされ、遷移部分を処理している間は、フレーム読出し部１９の方に声質変換部２６を接続するようにされている。
こうして遷移部分、伸ばし音部分の特徴パラメータ及び非調和成分が演算されると、その加算値が逆ＦＦＴ部２７で処理され、重ね合せ部２８により重ね合わせられ、最終的な合成波形が出力される（Ｓ１０）。
【００４２】
以上、本発明の実施の形態について説明したが、本発明はこれに限定されるものではない。例えば、上記実施の形態では、声質変換パラメータをマッピング関数という形で表現しているが、声質変換パラメータを、演奏データ保持部１１内にＭＩＤＩデータとして含ませるようにしてもよい。
また、上記実施の形態では、スペクトル包絡生成部２３からの出力としてのスペクトル包絡のローカルピーク周波数をマッピング関数による調整の対象としているが、調整の対象はスペクトル包絡の全体、又は任意の部分でも良く、またローカルピークの周波数だけに限らず振幅などスペクトル包絡を表わす他のパラメータを調整の対象としてもよい。また、音韻データベース１０から読み出された特徴パラメータ（例えばＥＧａｉｎ、ＥＳｌｏｐｅ、ＥＳｌｏｐｅＤｅｐｔｈ等）を調整の対象にするようにしてもよい。
または、特徴パラメータ補正部２１からの出力である特徴パラメータに変更を加えることも可能である。この際、各特徴パラメータの種類ごとにマッピング関数を持てばよい。
または、加算部Ｋ２での手前において調和成分と非調和成分のいずれか一方を声質変換パラメータに基づいて増幅又は減衰させ、その割合を変更させた上で加算部Ｋ２で加算させるようにしてもよい。また、調和成分だけを調整の対象としてもよい。また、逆ＦＦＴ部２７から出力される時間軸の信号を調整の対象としてもよい。
【００４３】
また、マッピング関数を、次の式で表わしてもよい。
【数２】
ｆｏｕｔ＝（ｆｓ／２）×（２×ｆｉｎ／ｆｓ）α
【００４４】
ただし、ｆｓはサンプリング周波数、ｆｉｎは入力周波数、ｆｏｕｔは出力周波数である。また、αは、出力歌唱音声を男性的にするか、女性的にするかを決定する因子であり、αが正の値であれば［数２］で表わされるマッピング関数は下に凸な関数となり、出力歌唱音声は男性的なものとなる。また、αが負の値であれば、女性又は子供らしい声となる（図７参照）。
【００４５】
また、マッピング関数を表現する座標系上にいくつかの点（ブレークポイント）を指定し、それらを結ぶ直線としてマッピング関数を定義することもできる。この場合、声質変換パラメータは座標値によるベクトルとして表現される。
【００４６】
【発明の効果】
以上説明したように、本発明によれば、声質変換パラメータを時間的に変化させることができ、これにより、時間的に前後して現れる同一特徴パラメータ、すなわち同一の歌唱部分であっても、それぞれ任意の異なる声質に変換することができ、合成歌唱音声を変化に富みリアリティに溢れたものとすることができる。
【図面の簡単な説明】
【図１】本発明の実施の形態に係る歌唱合成装置の機能ブロック図である。
【図２】図１に示す音韻データベース１０の作成例を示す。
【図３】声質変換部２５による入出力の変換のされ方、及びマッピング関数生成部２５Ｍで生成されるマッピング関数Ｍｆの一例を示す。
【図４】マッピング関数Ｍｆの他の例を示す。
【図５】図１に示す特徴パラメータ補正部２１の詳細を示す。
【図６】第１の実施の形態に係る歌唱合成装置におけるデータ処理の手順を示すフローチャートである。
【図７】マッピング関数Ｍｆの他の例を示す。
【符号の説明】
１０…音韻データベース、　１１…演奏データ保持部、　１２…音声素片選択部、　１３…先行音素連鎖データ保持部、　１４…後方音素連鎖データ保持部、　１５…特徴パラメータ補間部、　１６…定常部分データ保持部、　１７…音素連鎖データ保持部、　１８…特徴パラメータ変動抽出部、　１９…フレーム読出し部、　Ｋ１、Ｋ２…加算部、２０…ピッチ決定部、　２１…特徴パラメータ補正部、　２２…倍音列生成部、　２３…スペクトル包絡生成部、　２４…倍音振幅・位相計算部、　２５，２６・・・声質変換部、　２５Ｍ、２６Ｍ・・・マッピング関数生成部、　２５Ｃ、２６Ｃ・・・声質変換パラメータ調整部、　２７…逆ＦＦＴ部、　２８…重ね合せ部、　２９…タイマ、　３１…ＳＭＳ分析手段、　３２…音素切り分け手段、　３３…特徴パラメータ抽出手段、　４１…振幅決定手段、４３…倍音列生成手段、　４４…振幅計算手段、　Ｋ３…加算部、　４５…ゲイン補正部

Claims

合成すべき歌唱演奏データを示す歌唱情報を入力する歌唱情報入力部と、
音声素片データを保持する音韻データベースと、
前記歌唱情報に基づいて前記音韻データベースに記憶された音声素片データを選択する選択部と、
声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力部と、
前記声質変換パラメータに基づき、前記音声素片データを変換して歌唱音声を生成する歌唱合成部とを備えたことを特徴とする歌唱合成装置。
前記選択部で選択された音声素片データから特徴パラメータを抽出して出力する特徴パラメータ出力部を備え、前記歌唱合成部は、前期声質変換パラメータに基づいてこの特徴パラメータを補正するものである請求項１に記載の歌唱合成装置。
前記歌唱合成部は、前記選択された音声素片データに従って生成されたスペクトル包絡を前記声質変換パラメータに基づいて調整するものである請求項１に記載の歌唱合成装置。
前記声質変換パラメータ入力部は、前記声質変換パラメータを時間的に変化させる声質変換パラメータ調整手段を備えたものである請求項１乃至３のいずれか１項に記載の歌唱合成装置。
歌唱を合成するための歌唱情報を入力する歌唱情報入力ステップと、
音声素片データを予め音韻データベースに保持させておくと共に、前記歌唱情報に基づいて前記音声素片データを選択する選択ステップと、
声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力ステップと、
前記声質変換パラメータに基づき前記音声素片データを変換して歌唱音声を生成する歌唱合成ステップとを備えたことを特徴とする歌唱合成方法。
歌唱を合成するための歌唱情報を入力する歌唱情報入力ステップと、
音声素片データを予め音韻データベースに保持させておくと共に、前記歌唱情報に基づいて前記音声素片データを選択する選択ステップと、
声質を変換するための声質変換パラメータを入力する声質変換パラメータ入力ステップと、
前記声質変換パラメータに基づき前記音声素片データを変換して歌唱音声を生成する歌唱合成ステップと
をコンピュータに実行させるように構成されたことを特徴とする歌唱合成用プログラム。