JP2012037722A

JP2012037722A - 音合成用データ生成装置およびピッチ軌跡生成装置

Info

Publication number: JP2012037722A
Application number: JP2010177684A
Authority: JP
Inventors: Keijiro Saino; 慶二郎才野
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-08-06
Filing date: 2010-08-06
Publication date: 2012-02-23
Anticipated expiration: 2030-08-06
Also published as: EP2416310A2; JP5605066B2; US8916762B2; EP2416310A3; US20120031257A1

Abstract

【課題】聴感的に自然な合成音を生成する。
【解決手段】区間設定部４２は、参照音から検出された参照ピッチＰref(t)の時系列を音符毎に複数の音符区間σに区分する。相対化部４４は、複数の音符区間σの各々について、当該音符区間σの音符のピッチＮAに対する当該音符区間σ内の参照音の各参照ピッチＰref(t)の相対値である相対ピッチＲ(t)の時系列を生成する。情報登録部３８は、相対ピッチＲ(t)の時系列を示す相対ピッチ情報ＹA2を記憶装置１４に格納する。軌跡生成部５２は、音名が指定された指定音について、相対ピッチ情報ＹA2が示す相対ピッチＲ(t)の時系列と当該指定音の音名に対応するピッチＮBとに応じて合成ピッチＰsyn(t)の時系列を生成する。
【選択図】図２

Description

本発明は、音響を合成する技術に関連する。

実際に発声された音声（以下「参照音」という）のピッチの変動を付与することで聴感的に自然な合成音を生成することが可能である。例えば非特許文献１には、参照音のピッチの時系列を表現する確率モデル（例えばＨＭＭ（Hidden Markov Model））を音高や歌詞等の属性（コンテキスト）毎に生成して合成音の生成に利用する技術が開示されている。指定音の合成の過程では、指定音の属性に対応する確率モデルから特定されるピッチの軌跡（以下「ピッチ軌跡」という）に沿うように合成音のピッチが制御される。

酒向慎司才野慶二郎南角吉彦徳田恵一北村正，「声質と歌唱スタイルを自動学習可能な歌声合成システム」，情報処理学会研究報告［音楽情報科学］，2008(12)，p.39−p.44，2008年2月

ところで、指定音の全種類の属性について確率モデルを用意することは現実的には困難である。指定音の属性に合致する確率モデルが存在しない場合、指定音に近似する属性の確率モデルを代用してピッチ軌跡（ピッチカーブ）を生成することが可能である。しかし、非特許文献１の技術では、参照音のピッチの数値に対する学習で確率モデルが生成され、確率モデルを代用する指定音のピッチについて実際には学習は実行されていないから、聴感的に不自然な印象の合成音が生成される可能性がある。

なお、以上の説明ではピッチ軌跡の生成に確率モデルを利用する場合を例示したが、参照音のピッチの数値自体を記憶して合成時にピッチ軌跡の生成に利用する場合にも同様に、合成音が聴感的に不自然な印象になる可能性がある。以上の事情を考慮して、本発明は、聴感的に自然な合成音を生成することを目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明の音合成用データ生成装置は、参照音のピッチ（例えば参照ピッチＰref(t)）の時系列を音符毎に複数の音符区間に区分する区間設定手段（例えば区間設定部４２）と、複数の音符区間の各々について、当該音符区間の音符のピッチ（例えばピッチＮA）に対する当該音符区間内の参照音の各ピッチの相対値である相対ピッチ（例えば相対ピッチＲ(t)）の時系列を生成する相対化手段（例えば相対化部４４）と、相対ピッチの時系列を示す相対ピッチ情報（例えば相対ピッチ情報ＹA2）を記憶手段に格納する情報登録手段（例えば情報登録部３８）とを具備する。相対化手段は、例えば、音符区間の音符のピッチと音符区間内の参照音のピッチとの差分に応じて相対ピッチを算定する。

以上の態様においては、音符区間の音符のピッチに対する参照音の各ピッチの相対ピッチの時系列を示す相対ピッチ情報が記憶手段に格納されるから、相対ピッチ情報が示す相対ピッチの時系列に対して指定音の音名に対応するピッチを反映させることで指定音のピッチ軌跡を生成することが可能である。したがって、参照音のピッチの数値自体を記憶および利用する構成と比較して、指定音に対応する相対ピッチ情報が存在しない場合でも聴感的に自然な合成音を生成できるという利点がある。

本発明における相対ピッチ情報の内容や生成の方法は任意である。例えば相対ピッチの数値が相対ピッチ情報として記憶手段に記憶される。また、相対ピッチの時系列に応じた確率モデルを相対ピッチ情報として生成する構成も採用され得る。すなわち、各音符区間内の複数の単位区間（例えば単位区間Ｕ[k]）の各々について、当該単位区間内の相対ピッチを確率変数とする確率分布（例えば確率分布Ｄ0[k]）を示す変動モデル（例えば変動モデルＭA[k]）と、当該単位区間の継続長を確率変数とする確率分布（例えば確率分布ＤL[k]）を示す継続長モデル（例えば継続長モデルＭB[k]）とを生成する確率モデル生成手段（例えば確率モデル生成部４６）が追加され、情報登録手段は、確率モデル生成手段が各単位区間について生成した変動モデルおよび継続長モデルを相対ピッチ情報として記憶手段に格納する。以上の態様においては、相対ピッチの時系列を示す確率モデルが記憶手段に格納されるから、相対ピッチの数値自体を相対ピッチ情報とする構成と比較して相対ピッチ情報のサイズを縮小することが可能である。なお、確率モデルを利用した以上の形態は、例えば第３実施形態として後述される。

音符区間の設定の方法は任意であるが、参照音の音符を時系列に指定する楽譜データ（例えば楽譜データＸB）を音符取得手段（例えば楽譜取得部３４）が取得し、楽譜データが示す音符毎に区間設定手段が音符区間を設定する構成が採用され得る。ただし、参照音の各音符の区間と楽譜データが示す音符の区間とは完全には合致しない可能性があるから、楽譜データが示す音符毎に音符区間を設定したうえで各音符区間の端点の位置を補正する構成が格別に好適である。なお、以上の態様の具体例は例えば第２実施形態として後述される。

本発明は、以上の各態様の音合成用データ生成装置が生成した相対ピッチ情報を利用して指定音のピッチ軌跡を生成するピッチ軌跡生成装置としても特定される。すなわち、本発明のピッチ軌跡生成装置は、相異なる音符に対応する複数の音符区間を含む参照音について生成され、各音符区間の音符のピッチ（例えばピッチＮA）に対する当該音符区間内の参照音の各ピッチ（例えば参照ピッチＰref(t)）の相対値である相対ピッチ（例えば相対ピッチＲ(t)）の時系列を示す相対ピッチ情報を記憶する記憶手段（例えば記憶装置１４）と、音名が指定された指定音のピッチの時系列を、相対ピッチ情報と当該指定音の音名に対応するピッチ（例えばピッチＮB）とに応じて生成する軌跡生成手段（例えば軌跡生成部５２）とを具備する。

以上の態様においては、音符区間の音符のピッチに対する参照音の各ピッチの相対ピッチの時系列に対して指定音の音名に対応するピッチを反映させることで指定音のピッチ軌跡が生成される。したがって、参照音のピッチの数値自体を記憶および利用する構成と比較して、指定音に対応する相対ピッチ情報が存在しない場合でも聴感的に自然な合成音を生成できるという利点がある。

前述の通り、相対ピッチ情報の内容や生成の方法は任意である。例えば、各音符区間内の複数の単位区間（例えば単位区間Ｕ[k]）の各々について、当該単位区間内の相対ピッチを確率変数とする確率分布（例えば確率分布Ｄ0[k]）を示す変動モデル（例えば変動モデルＭA[k]）と、当該単位区間の継続長を確率変数とする確率分布（例えば確率分布ＤL[k]）を示す継続長モデル（例えば継続長モデルＭB[k]）とを含む相対ピッチ情報を利用する構成において、軌跡生成手段は、指定音のうち継続長モデルに応じて継続長が決定された各単位区間について、当該単位区間に対応する変動モデルが示す確率分布における平均（例えば平均μ0[k]）と指定音に対応するピッチ（例えばピッチＮB）とに応じて当該指定音のピッチ（例えば合成ピッチＰsyn(t)）の時系列を生成する。例えば、相対ピッチが周波数の対数値のスケールで指定される場合、変動モデルが示す確率モデルの平均と指定音に対応するピッチとの加算値を指定音のピッチの確率分布として当該指定音のピッチ軌跡を生成する。なお、軌跡生成手段がピッチ軌跡の生成に適用する変数は、変動モデルが示す確率分布の平均や指定音に対応するピッチに限定されない。例えば、変動モデルが示す確率分布の分散（分布全体の傾向）を加味してピッチ軌跡を生成する構成も採用され得る。

本発明は、以上の各態様のピッチ軌跡生成装置を利用した音響合成装置としても特定される。本発明の音響合成装置は、相異なる音符に対応する複数の音符区間を含む参照音について生成され、各音符区間の音符のピッチ（例えばピッチＮA）に対する当該音符区間内の参照音の各ピッチ（例えば参照ピッチＰref(t)）の相対値である相対ピッチ（例えば相対ピッチＲ(t)）の時系列を示す相対ピッチ情報（例えば相対ピッチ情報ＹA2）と、音素の波形を示す音波形データ（例えば音波形データＹB）とを記憶する記憶手段（例えば記憶装置１４）と、音名が指定された指定音のピッチ（例えば合成ピッチＰsyn(t)）の時系列を、相対ピッチ情報と当該指定音の音名に対応するピッチ（例えばピッチＮB）とに応じて生成する軌跡生成手段（例えば軌跡生成部５２）と、軌跡生成手段が生成したピッチの時系列に沿うように音波形データを加工して合成音データ（例えば合成音データＶout）を生成する合成処理手段（例えば合成処理部５６）とを具備する。

以上の各態様に係る音合成用データ生成装置は、ＤＳＰ（Digital Signal Processor）などの専用の電子回路で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。音合成用データ生成に使用される本発明のプログラムは、参照音のピッチの時系列を音符毎に複数の音符区間に区分する区間設定処理と、複数の音符区間の各々について、当該音符区間の音符のピッチに対する当該音符区間内の参照音の各ピッチの相対値である相対ピッチの時系列を生成する相対化処理と、相対ピッチの時系列を示す相対ピッチ情報を記憶手段に格納する情報登録処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音合成用データ生成装置と同様の作用および効果が実現される。

同様に、以上の各態様に係るピッチ軌跡生成装置は、ＤＳＰ（Digital Signal Processor）などの専用の電子回路で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。ピッチ軌跡の生成に使用される本発明のプログラムは、相異なる音符に対応する複数の音符区間を含む参照音について生成され、各音符区間の音符のピッチに対する当該音符区間内の参照音の各ピッチの相対値である相対ピッチの時系列を示す相対ピッチ情報を記憶する記憶手段を具備するコンピュータに、音名が指定された指定音のピッチの時系列を、相対ピッチ情報と当該指定音の音名に対応するピッチとに応じて生成する軌跡生成処理を実行させる。以上のプログラムによれば、本発明のピッチ軌跡生成装置と同様の作用および効果が実現される。

なお、以上の各態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明の第１実施形態に係る音響合成装置のブロック図である。第１処理部および第２処理部のブロック図である。第１処理部の動作の説明図である。第２実施形態に係る音響合成装置における区間設定部の動作の説明図である。第３実施形態における合成用データ生成部のブロック図である。第３実施形態の相対ピッチ情報を生成する方法の説明図である。第３実施形態の相対ピッチ情報を生成する方法の説明図である。第３実施形態の相対ピッチ情報を生成する方法の説明図である。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音響合成装置１００のブロック図である。第１実施形態の音響合成装置１００は、所望の音符および歌詞の楽曲の歌唱音を示す合成音データＶoutを生成する歌唱合成装置であり、図１に示すように、演算処理装置１２と記憶装置１４と入力装置１６とを具備するコンピュータシステムで実現される。入力装置１６（例えばマウスやキーボード）は、利用者からの指示を受付ける。

記憶装置１４は、演算処理装置１２が実行するプログラムＰGMや演算処理装置１２が使用する各種のデータ（参照用情報Ｘ，合成用情報Ｙ，楽譜データＳC）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として任意に利用される。

参照用情報Ｘは、参照音データＸAと楽譜データＸBとを含んで構成されるデータベースである。参照音データＸAは、特定の歌唱者（以下「参照歌唱者」という）が歌唱曲を歌唱した音声（以下「参照音」という）の時間領域での波形のサンプル系列である。楽譜データＸBは、参照音データＸAが示す歌唱曲の楽譜を表現するデータである。すなわち、楽譜データＸBは、参照音の音符（音名，継続長）と歌詞（発音文字）とを時系列に指定する。

合成用情報Ｙは、複数の合成用データＹAと複数の音波形データＹBとを含んで構成されるデータベースである。参照歌唱者毎（あるいは参照歌唱者が歌唱する歌唱曲のジャンル毎）に合成用情報Ｙが生成される。各合成用データＹAは、歌唱音の属性（例えば音符の音名や歌詞）毎に生成され、参照歌唱者に固有の歌唱表現としてピッチの時間的な変動（以下「ピッチ軌跡」という）を表現する。参照音データＸAから抽出されるピッチの時系列に応じて各合成用データＹAが生成される（詳細は後述）。各音波形データＹBは、参照歌唱者が発声した音素毎に事前に生成され、音素の波形の特徴（例えば時間領域での波形や周波数スペクトルの形状）を表現する。

楽譜データＳCは、合成の対象となる各指定音の音符（音名，継続長）と歌詞（発音文字）とを時系列に指定する。入力装置１６に対する利用者からの指示（楽譜データＳCの作成や編集の指示）に応じて楽譜データＳCが生成される。概略的には、楽譜データＳCが順次に指定する各指定音の音符および歌詞に対応する音波形データＹBを、合成用データＹAが示すピッチ軌跡に沿うように処理することで合成音データＶoutが生成される。したがって、合成音データＶoutの再生音は、参照歌唱者に特有の歌唱表現（ピッチ軌跡）を反映した合成音となる。

図１の演算処理装置１２は、記憶装置１４に格納されたプログラムＰGMの実行で、合成音データＶoutの生成（音声合成）に必要な複数の機能（第１処理部２１，第２処理部２２）を実現する。第１処理部２１は、参照用情報Ｘを利用して合成用情報Ｙの各合成用データＹAを生成し、第２処理部２２は、合成用情報Ｙと楽譜データＳCとを利用して合成音データＶoutを生成する。なお、演算処理装置１２の各機能を専用の電子回路（DSP）で実現した構成や、演算処理装置１２の各機能を複数の集積回路に分散した構成も採用され得る。

図２は、第１処理部２１および第２処理部２２のブロック図である。図２では、記憶装置１４に格納された参照用情報Ｘと合成用情報Ｙと楽譜データＳCとが併記されている。図２に示すように、第１処理部２１は、参照ピッチ検出部３２と楽譜取得部３４と合成用データ生成部３６と情報登録部３８とを含んで構成される。

図２の参照ピッチ検出部３２は、参照音データＸAが示す参照音のピッチ（以下「参照ピッチ」という）Ｐref(t)を順次に検出する。各参照ピッチ（基本周波数）Ｐref(t)は、参照音データＸAが示す参照音を時間軸上で区分したフレーム毎に時系列に検出される。記号ｔはフレームの番号である。参照ピッチＰref(t)の検出には公知の技術が任意に採用される。

図３には、参照音データＸAが示す参照音の波形（部分(A)）と参照ピッチ検出部３２が検出した参照ピッチＰref(t)の時系列（部分(B)）とが共通の時間軸のもとで図示されている。図３の参照ピッチＰref(t)は周波数（Hz）の対数値である。なお、参照音のうち調波構造が存在しない区間（すなわちピッチが検出されない子音の区間）については、参照ピッチＰref(t)が所定値（例えば前後の参照ピッチＰref(t)の補間値）に設定される。

図２の楽譜取得部３４は、参照音データＸAに対応する楽譜データＸBを記憶装置１４から取得する。図３の部分(C)には、楽譜データＸBが指定する音符の時系列（ピアノロール形式）が、部分(A)の参照音の波形や部分(B)の参照ピッチＰref(t)の時系列と共通の時間軸のもとで図示されている。

図２の合成用データ生成部３６は、参照ピッチ検出部３２が検出した参照ピッチＰref(t)の時系列と楽譜取得部３４が取得した楽譜データＸBとを利用して合成用情報Ｙの複数の合成用データＹAを生成する。図２に示すように、合成用データ生成部３６は、区間設定部４２と相対化部４４とを含んで構成される。

区間設定部４２は、参照ピッチ検出部３２が検出した参照ピッチＰref(t)の時系列を、楽譜データＸBが指定する音符毎に複数の区間（以下「音符区間」という）σ毎に区分する。具体的には、図３の部分(B)および部分(C)に示すように、参照ピッチＰref(t)の時系列は、楽譜データＸBが指定する各音符の始点および終点を境界として各音符区間σに区分される。図３の部分(D)には、各音符区間σに対応する音符の音名（Ｇ３，Ａ３，……）と各音名に対応するピッチＮAとが図示されている。

図２の相対化部４４は、参照ピッチ検出部３２がフレーム毎に時系列に検出した参照ピッチＰref(t)から各フレームの相対ピッチＲ(t)の時系列を生成する。図３の部分(E)には、相対ピッチＲ(t)の時系列が図示されている。相対ピッチＲ(t)は、楽譜データＸBで指定される音符の音名に対応するピッチＮAに対する参照ピッチＰref(t)の相対値である。すなわち、前述のように参照ピッチＰref(t)を周波数の対数値のスケールとした場合、以下の数式(1)で定義されるように、１個の音符区間σ内の各参照ピッチＰref(t)から当該音符区間σの音名に対応するピッチＮA（したがって、１個の音符区間σ内では全部の参照ピッチＰref(t)について共通の数値）を減算することで相対ピッチＲ(t)が算定される。例えば、楽譜データＸBで音名「Ｇ３」が指定された音符に対応する音符区間σについては、音名「Ｇ３」に対応するピッチＮA（ＮA＝5.28）を当該音符区間σ内の各参照ピッチＰref(t)から減算することで各フレームの相対ピッチＲ(t)が算定される。
Ｒ(t)＝Ｐref(t)−ＮA ……(1)

図２の情報登録部３８は、各音符区間σ内の相対ピッチＲ(t)の時系列を示す複数の合成用データＹAを記憶装置１４に格納する。合成用データＹAは音符区間σ毎（音符毎）に生成される。図２に示すように、合成用データＹAは、音符識別情報ＹA1と相対ピッチ情報ＹA2とを含んで構成される。第１実施形態の相対ピッチ情報ＹA2は、音符区間σについて相対化部４４が算定した相対ピッチＲ(t)の時系列である。

音符識別情報ＹA1は、合成用データＹAが示す音符（以下「対象音符」という）の属性を識別するための識別子であり、図２に示すように変数ｐ1〜ｐ3と変数ｄ1〜ｄ3とを含んで構成される。変数ｐ2は、対象音符の音名（ノートナンバ）に設定される。変数ｐ1は対象音符の直前の音符の音程（対象音符の音名に対する相対値）に設定され、変数ｐ3は対象音符の直後の音符の音程に設定される。また、変数ｄ2は、対象音符の継続長に設定される。変数ｄ1は対象音符の直前の音符の継続長に設定され、変数ｄ3は対象音符の直後の音符の継続長に設定される。以上のように音符の属性毎に合成用データＹAを生成するのは、参照音のピッチ軌跡が、対象音符の前後の音符の音程や継続長に応じて変化するからである。なお、対象音符の属性は以上の例示に限定されない。例えば、楽曲の各小節内で対象音符が何番目の拍子に該当するのか（１拍目／２拍目）を示す情報や、参照音のひと息に相当する期間における対象音符の位置（前方／後方）を示す情報など、歌唱音のピッチ軌跡に影響する任意の情報が音符識別情報ＹA1にて指定され得る。

図２の第２処理部２２は、以上の手順で生成された合成用情報Ｙを利用して合成音データＶoutを生成する。例えば入力装置１６に対する利用者からの指示を契機として第２処理部２２は合成音データＶoutの生成を開始する。図２に示すように、第２処理部２２は、軌跡生成部５２と楽譜取得部５４と合成処理部５６とを含んで構成される。楽譜取得部５４は、合成音の時系列を指定する楽譜データＳCを記憶装置１４から取得する。

軌跡生成部５２は、楽譜取得部５４が取得した楽譜データＳCにて指定される各指定音のピッチ（以下「合成ピッチ」という）Ｐsyn(t)の時系列（ピッチ軌跡）を各合成用データＹAから生成する。具体的には、軌跡生成部５２は、記憶装置１４に記憶された複数の合成用データＹAのうち楽譜データＳCが指定する指定音に対応する合成用データＹA（以下「選択合成用データＹA」という）を指定音毎に順次に選択する。具体的には、音符識別情報ＹA1が示す属性（変数ｐ1〜ｐ3，変数ｄ1〜ｄ3）が指定音の属性（当該指定音や前後の音符の音名および継続長）に近似または合致する合成用データＹAが選択合成用データＹAとして選択される。

そして、軌跡生成部５２は、選択合成用データＹAの相対ピッチ情報ＹA2（相対ピッチＲ(t)の時系列）と指定音の音名に対応するピッチＮBとから合成ピッチＰsyn(t)の時系列を生成する。具体的には、軌跡生成部５２は、指定音の継続長に相当する時間長となるように相対ピッチ情報ＹA2の相対ピッチＲ(t)の時系列を伸縮（例えば補間または間引）したうえで、以下の数式(2)で定義されるように、指定音の音名に対応するピッチＮBを各相対ピッチＲ(t)に加算することでフレーム毎の合成ピッチＰsyn(t)を算定する。すなわち、軌跡生成部５２が生成した合成ピッチＰsyn(t)の時系列は、参照歌唱者が指定音を歌唱したときのピッチ軌跡に近似する。
Ｐsyn(t)＝Ｒ(t)＋ＮB……(2)

図２の合成処理部５６は、軌跡生成部５２が生成した合成ピッチＰsyn(t)の時系列（ピッチ軌跡）に沿うようにピッチが時間的に変化する歌唱音の合成音データＶoutを生成する。具体的には、合成処理部５６は、楽譜データＳCが示す各指定音の歌詞に対応する音波形データＹBを記憶装置１４から取得し、合成ピッチＰsyn(t)の時系列に沿ってピッチが経時的に変化するように音波形データＹBを加工することで合成音データＶoutを生成する。したがって、合成音データＶoutの再生音は、参照歌唱者に固有の歌唱表現（ピッチ軌跡）が付加された歌唱音となる。

以上の形態では、参照音の音符のピッチＮAに対する参照音のピッチＰref(t)の相対ピッチＲ(t)に応じて合成用データＹAの相対ピッチ情報ＹA2が生成および記憶され、相対ピッチ情報ＹA2が示す相対ピッチＲ(t)の時系列と指定音の音名に対応するピッチＮBとから合成ピッチＰsyn(t)の時系列（合成音のピッチ軌跡）が生成される。したがって、参照ピッチＰref(t)の時系列を合成用データＹAとして記憶するとともに参照ピッチＰref(t)の時系列に沿うように合成音データＶoutを生成する構成と比較して、聴感的に自然な歌唱音を合成することが可能である。

＜Ｂ：第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図４は、第２実施形態における区間設定部４２の動作の説明図である。図４の部分(A)は、楽譜データＸBが示す音符および歌詞の時系列であり、図４の部分(B)は、楽譜データＸBに応じて初期的に区分された音符毎の音符区間σである。図４の部分(C)には、参照音データＸAが示す参照音の波形が図示されている。区間設定部４２は、楽譜データＸBの音符毎の音符区間σを補正する。図４の部分(E)には、補正後の各音符区間σが図示されている。例えば、区間設定部４２は、入力装置１６に対する利用者からの指示に応じて音符区間σを補正する。

図４の部分(D)には、参照音の各音素の境界が図示されている。図４の部分(A)と部分(D)との対比から理解されるように、楽譜データＸBが示す各音符の始点と参照音の各音素の始点とは完全には合致しない。区間設定部４２は、補正後の各音符区間σ（図４の部分(E)）が参照音の各音素に対応するように各音符区間σ（図４の部分(B)）を変更する。

具体的には、区間設定部４２は、参照音の波形（図４の部分(C)）と初期的な音符区間σ（図４の部分(B)）とを表示装置（図示略）に表示させるとともに参照音を放音装置（図示略）から再生する。利用者は、参照音を聴取しながら参照音の波形と各音符区間σとを目視にて対比することで参照音の母音または撥音（ん）の音素の始点および終点を推定して入力装置１６から指示する。区間設定部４２は、初期的な音符区間σ（図４の部分(B)）の各始点を、図４の部分(E)に示すように、利用者から指示された母音または撥音の各音素の始点に補正する。また、区間設定部４２は、後続の音符が存在しない音符区間σ（すなわち直後に休符が設定される音符区間σ）の各終点を、利用者から指示された母音または撥音の各音素の終点に補正する。区間設定部４２による補正後の各音符区間σが相対化部４４による相対ピッチＲ(t)の生成に適用される。

なお、区間設定部４２による音符区間σの設定（または補正）の方法は任意である。例えば、以上の例示では、利用者から指示された母音または撥音の音素の区間が音符区間σと合致するように区間設定部４２が各音符区間σを自動的に設定したが、例えば、母音や撥音の音素の区間が音符区間σと合致するように利用者が入力装置１６の操作で音符区間σを補正する構成も採用され得る。

第２実施形態でも第１実施形態と同様の効果が実現される。また、第２実施形態によれば、参照音に設定される音符区間σが補正されるから、楽譜データＸBが示す各音符と参照音の各音符とが完全に合致しない場合でも、音符区間σの補正で参照音を高精度に音符毎に区分することが可能である。したがって、第２実施形態によれば、楽譜データＸBが示す各音符と参照音の各音符との相違（ズレ）に起因した相対ピッチＲ(t)の誤差を有効に防止できるという利点がある。

＜Ｃ：第３実施形態＞
次に、本発明の第３実施形態を説明する。第１実施形態では、相対化部４４が生成した相対ピッチＲ(t)の時系列を合成用データＹAの相対ピッチ情報ＹA2として記憶装置１４に格納した。第３実施形態では、相対ピッチＲ(t)の時系列を表現する確率モデルを相対ピッチ情報ＹA2として記憶装置１４に格納する。

図５は、第３実施形態の合成用データ生成部３６のブロック図である。第３実施形態の合成用データ生成部３６は、第１実施形態の合成用データ生成部３６（区間設定部４２，相対化部４４）に確率モデル生成部４６を追加した構成である。確率モデル生成部４６は、相対化部４４が生成した相対ピッチＲ(t)の時系列を示す確率モデルＭを参照音の音符の属性毎に相対ピッチ情報ＹA2として生成する。情報登録部３８は、確率モデル生成部４６が生成した相対ピッチ情報ＹA2に音符識別情報ＹA1を付加した合成用データＹAを音符毎に生成して記憶装置１４に格納する。

図６から図８は、確率モデル生成部４６が確率モデルＭを生成する処理の説明図である。図６に示すように、第３実施形態では、Ｋ個（Ｋは自然数）の状態で規定されるＨＳＭＭ（Hidden Semi Markov Model）を１個の音符区間σに対応する確率モデルＭとして例示する。確率モデルＭは、各状態での相対ピッチＲ(t)の確率分布（出力分布）を示す図７のＫ個の変動モデルＭA[1]〜ＭA[K]と、各状態の継続長の確率分布（継続長分布）を示す図８のＫ個の継続長モデルＭB[1]〜ＭB[K]とで規定される。なお、ＨＳＭＭ以外の適切な確率モデルを確率モデルＭとして採用することも可能である。

図６に示すように、区間設定部４２が音符毎に設定した音符区間σ内の相対ピッチＲ(t)の時系列は、確率モデルＭの相異なる状態に対応するＫ個の単位区間Ｕ[1]〜Ｕ[K]に区分される。図６では状態数Ｋを３とした場合が例示されている。

図７に示すように、確率モデルＭの第ｋ状態（ｋ＝１〜Ｋ）の変動モデルＭA[k]は、相対ピッチＲ(t)の時系列のうち単位区間Ｕ[k]内の相対ピッチＲ(t)の確率分布（相対ピッチＲ(t)を確率変数とする確率密度関数）Ｄ0[k]と、単位区間Ｕ[k]内の相対ピッチＲ(t)の時間変化（微分値）δＲ(t)の確率分布Ｄ1[k]とを表現する。具体的には、相対ピッチＲ(t)の確率分布Ｄ0[k]および時間変化δＲ(t)の確率分布Ｄ1[k]として正規分布が利用され、変動モデルＭA[k]は、相対ピッチＲ(t)の確率分布Ｄ0[k]の平均μ0[k]および分散ｖ0[k]と、時間変化δＲ(t)の確率分布Ｄ1[k]の平均μ1[k]および分散ｖ1[k]とを規定する。なお、相対ピッチＲ(t)および時間変化δＲ(t)に加えて相対ピッチＲ(t)の２階微分値の確率分布を変動モデルＭA[k]が規定する構成も採用され得る。

他方、第ｋ状態の継続長モデルＭB[k]は、図８に示すように、相対ピッチＲ(t)の時系列のうち単位区間Ｕ[k]の継続長の確率分布（単位区間Ｕ[k]の継続長を確率変数とする確率密度関数）ＤL[k]を表現する。具体的には、継続長モデルＭB[k]は、継続長の確率分布（例えば正規分布）ＤL[k]の平均μL[k]および分散ｖL[k]を規定する。

図５の確率モデル生成部４６は、相対ピッチＲ(t)の時系列に対する学習処理（最尤推定アルゴリズム）で、変動モデルＭA[k]（μ0[k]，ｖ0[k]，μ1[k]，ｖ1[k]）と継続長モデルＭB[k]（μL[k]，ｖL[k]）とをＫ個の状態の各々について決定し、変動モデルＭA[1]〜ＭA[K]と継続長モデルＭB[1]〜ＭB[K]とを含む確率モデルＭを音符区間σ毎（音符毎）に相対ピッチ情報ＹA2として生成する。具体的には、音符区間σ内の相対ピッチＲ(t)の時系列が最大の確率で出現するように当該音符区間σの確率モデルＭが生成される。

第３実施形態の軌跡生成部５２は、複数の合成用データＹAのうち楽譜データＳCが示す指定音に対応する選択合成用データＹAの相対ピッチ情報ＹA2（確率モデルＭ）を利用して合成ピッチＰsyn(t)の時系列（ピッチ軌跡）を生成する。第１に、軌跡生成部５２は、楽譜データＳCで継続長が指定される各指定音をＫ個の単位区間Ｕ[1]〜Ｕ[K]に区分する。各単位区間Ｕ[k]の継続長は、選択合成用データＹAの継続長モデルＭB[k]が示す確率分布ＤL[k]に応じて決定される。

第２に、軌跡生成部５２は、図７に示すように、変動モデルＭA[k]のうち相対ピッチＲ(t)の確率分布Ｄ0[k]の平均μ0[k]と指定音の音名に対応するピッチＮBとから平均μ[k]を算定する。具体的には、以下の数式(3)で定義されるように、確率分布Ｄ0[k]の平均μ0[k]と指定音のピッチＮBとの加算値が平均μ[k]として算定される。すなわち、数式(3)で算定される平均μ[k]と変動モデルＭA[k]の分散ｖ0[k]とで規定される図７の確率分布Ｄ[k]は、参照歌唱者が指定音を歌唱したときの単位区間Ｕ[k]内のピッチの確率分布に相当し、参照歌唱者に固有の歌唱表現（ピッチ軌跡）を反映した分布となる。
μ[k]＝μ0[k]＋ＮB ……(3)

第３に、軌跡生成部５２は、数式(3)で算定した平均μ[k]と変動モデルＭA[k]の分散ｖ0[k]とで規定される確率分布Ｄ[k]と、変動モデルＭAのうち時間変化δＲ(t)の平均μ1[k]（ピッチＮBは加算されない）と分散ｖ1[k]とで規定される確率分布Ｄ1[k]とにおいて同時確率が最大化するように各単位区間Ｕ[k]内の合成ピッチＰsyn(t)の時系列を算定する。したがって、合成ピッチＰsyn(t)の時系列は、第１実施形態と同様に、参照歌唱者が指定音を歌唱したときのピッチ軌跡に近似する。合成ピッチＰsyn(t)の時系列と指定音の歌詞に対応する音波形データＹBとを利用して合成処理部５６が合成音データＶoutを生成する処理は第１実施形態と同様である。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、相対ピッチＲ(t)の時系列を表現する確率モデルＭが相対ピッチ情報ＹA2として記憶装置１４に格納されるから、相対ピッチＲ(t)の時系列自体を相対ピッチ情報ＹA2とする第１実施形態と比較して合成用データＹAのサイズが削減される（したがって記憶装置１４に要求される容量が低減される）という利点がある。なお、音符区間σを補正する第２実施形態の構成は第３実施形態にも適用される。

＜Ｄ：変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）変形例１
以上の各形態では、楽譜データＸBを利用して参照ピッチＰref(t)の時系列を複数の音符区間σに区分したが、入力装置１６に対する操作で利用者が指示した時点を境界として区間設定部４２が各音符区間σを設定する構成（すなわち音符区間σの設定に楽譜データＸBを必要としない構成）も採用される。例えば、利用者は、表示装置に表示される参照音の波形を視認するとともに放音装置（例えばスピーカ）から再生される参照音を聴取することで各音素の境界を推定しながら、入力装置１６を適宜に操作して各音符区間σを指定する。したがって、楽譜取得部３４は省略され得る。

（２）変形例２
以上の各形態では、記憶装置１４に格納された参照音データＸAから参照ピッチ検出部３２が参照ピッチＰref(t)を検出したが、参照音から事前に検出された参照ピッチＰref(t)の時系列を記憶装置１４に格納した構成（したがって、参照ピッチ検出部３２は省略される）も採用され得る。

（３）変形例３
以上の各形態では第１処理部２１と第２処理部２２とを具備する音響合成装置１００を例示したが、合成用データＹAを生成する第１処理部２１を単独で具備する音合成用データ生成装置や、記憶装置１４に記憶された合成用データＹAを利用して合成音データＶoutを生成する第２処理部２２を単独で具備する音響合成装置としても本発明は特定される。また、合成用データＹAを記憶する記憶装置１４と第２処理部２２の軌跡生成部５２を具備する装置は、合成ピッチＰsyn(t)の時系列（ピッチ軌跡）を生成するピッチ軌跡生成装置としても把握される。

（４）変形例４
以上の各形態では歌唱音の合成を例示したが、本発明が適用される範囲は歌唱音の合成に限定されない。例えば、楽器の演奏音（楽音）を合成する場合にも、以上の各形態と同様に本発明が適用される。

１００……音響合成装置、１２……演算処理装置、１４……記憶装置、１６……入力装置、２１……第１処理部、２２……第２処理部、３２……参照ピッチ検出部、３４……楽譜取得部、３６……合成用データ生成部、３８……情報登録部、４２……区間設定部、４４……相対化部、４６……確率モデル生成部、５２……軌跡生成部、５４……楽譜取得部、５６……合成処理部。

Claims

参照音のピッチの時系列を音符毎に複数の音符区間に区分する区間設定手段と、
前記複数の音符区間の各々について、当該音符区間の音符のピッチに対する当該音符区間内の参照音の各ピッチの相対値である相対ピッチの時系列を生成する相対化手段と、
前記相対ピッチの時系列を示す相対ピッチ情報を記憶手段に格納する情報登録手段と
を具備する音合成用データ生成装置。
前記各音符区間内の複数の単位区間の各々について、当該単位区間内の前記相対ピッチを確率変数とする確率分布を示す変動モデルと、当該単位区間の継続長を確率変数とする確率分布を示す継続長モデルとを生成する確率モデル生成手段を具備し、
前記情報登録手段は、前記確率モデル生成手段が各単位区間について生成した前記変動モデルおよび前記継続長モデルを前記相対ピッチ情報として前記記憶手段に格納する
請求項１の音合成用データ生成装置。
前記参照音の音符を時系列に指定する楽譜データを取得する楽譜取得手段を具備し、
前記区間設定手段は、前記楽譜データが示す音符毎に前記音符区間を設定するとともに各音符区間の端点の位置を補正する
請求項１または請求項２の音合成用データ生成装置。
相異なる音符に対応する複数の音符区間を含む参照音について生成され、前記各音符区間の音符のピッチに対する当該音符区間内の前記参照音の各ピッチの相対値である相対ピッチの時系列を示す相対ピッチ情報を記憶する記憶手段と、
音名が指定された指定音のピッチの時系列を、前記相対ピッチ情報と当該指定音の音名に対応するピッチとに応じて生成する軌跡生成手段と
を具備するピッチ軌跡生成装置。
前記相対ピッチ情報は、前記各音符区間内の複数の単位区間の各々について、当該単位区間内の前記相対ピッチを確率変数とする確率分布を示す変動モデルと、当該単位区間の継続長を確率変数とする確率分布を示す継続長モデルとを含み、
前記軌跡生成手段は、前記指定音のうち前記継続長モデルに応じて継続長が決定された各単位区間について、当該単位区間に対応する前記変動モデルが示す確率分布における平均と前記指定音に対応するピッチとに応じて当該指定音のピッチの時系列を生成する
請求項４のピッチ軌跡生成装置。