JP5293460B2

JP5293460B2 - 歌唱合成用データベース生成装置、およびピッチカーブ生成装置

Info

Publication number: JP5293460B2
Application number: JP2009157527A
Authority: JP
Inventors: 慶二郎才野; ボナダジョルディ
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2009-07-02
Filing date: 2009-07-02
Publication date: 2013-09-18
Anticipated expiration: 2029-07-02
Also published as: US8115089B2; US20120103167A1; EP2276019A1; US8338687B2; JP2011013454A; US20110000360A1; EP2276019B1

Description

本発明は、歌唱曲の楽譜を表すスコアデータにしたがって歌唱音声を合成する歌唱合成技術に関する。

歌唱合成技術や文章の読み上げ音声の合成技術などの音声合成技術が普及しつつある。この種の音声合成技術は、素片接続方式のものと、統計的手法である音声モデルを利用したものとに大別される。素片接続方式の音声合成技術では、多数の音素の各々の波形を表す素片データを予めデータベースに格納しておき、以下の要領で音声合成が行われる。すなわち、合成対象の音声を構成する音素の配列順に各音素に対応する素片データを上記データベースから読み出し、ピッチ変換等を施して接続することで合成音声の波形を示す波形データが生成されるのである。一般に実用化されている音声合成技術は、この素片接続方式によるものが多い。一方、音声モデルを利用した音声合成技術の一例としては、隠れマルコフモデル（Hidden Markov Model：以下、「ＨＭＭ」）を利用したものが挙げられる。ＨＭＭは、複数の状態（音源）間の確率的な遷移で音声をモデル化するものである。より詳細に説明すると、ＨＭＭを構成する各状態は、各々固有の音響的特徴を表す特徴量（基本周波数や、スペクトル、またはこれらを要素とする特徴ベクトル）をその音響的特徴に応じた確率で出力するものであり、モデル化対象の音声の音響的特徴の時間変動が最も高い確率で再現されるように、各状態における特徴量の出力確率分布および状態間遷移確率をバウム＝ウェルチアルゴリズム（Baum-Welch algorithm）などを用いて定めることでモデル化が実現される。ＨＭＭを利用した音声合成の概要は以下の通りである。

ＨＭＭを利用した音声合成技術では、複数種の音素の各々について音響的特徴の時間変動を機械学習によりモデル化し、データベース化しておくことが前提となる。以下、音響的特徴を表す特徴量として基本周波数を用いる場合を例にとって、ＨＭＭによるモデル化およびそのデータベース化について説明する。まず、学習対象の複数種の音声の各々を音素毎に区切り、各音素における基本周波数の時間変動を表すピッチカーブを生成する。次いで、各音素のピッチカーブを最も高い確率で表現するＨＭＭをバウム＝ウェルチアルゴリズム等を利用した機械学習により音素毎に特定する。そして、ＨＭＭを規定するモデルパラメータ（ＨＭＭパラメータ）とそのＨＭＭにより基本周波数の時間変動の特徴が表される１または複数の音素を示す識別子とを対応付けてデータベースに格納するのである。これは、互いに異なる音素であっても、同一のＨＭＭにより基本周波数の時間変動の特徴が表現できる場合があるからであり、また、このようにすることで、データベースの小規模化が図れるのである。なお、ＨＭＭパラメータには、ＨＭＭを構成する各状態の出力する周波数の出現確率を規定する確率分布の特徴を示すデータ（例えば、出力される周波数の平均値と分散、周波数の変化率（一次微分や二次微分）の平均値と分散）および状態間遷移確率を表すデータが含まれる。

一方、音声の合成過程では、合成対象となる音声を構成する音素の各々に対応するＨＭＭパラメータがデータベースから読み出され、それらＨＭＭパラメータの示すＨＭＭにしたがって最も高い確率で現れるであろう状態間遷移および各状態の出力周波数が最尤推定アルゴリズム（例えば、ビタビアルゴリズムなど）によって特定される。このようにして特定された周波数の時系列によって上記合成対象の音声の基本周波数の時系列（ピッチカーブ）が表されるのである。そして、上記ピッチカーブにしたがって基本周波数が時間変化する音信号を出力するように音源（例えば正弦波発生器）の駆動制御を行い、その音信号に音素に依存したフィルタ処理（例えば、音素のスペクトルやケプストラムを再現するフィルタ処理）を施すことで音声合成が完了するのである。ＨＭＭを利用した音声合成技術は、読み上げ音声の合成（例えば、特許文献１）に利用されることが多かったが、近年では、歌唱合成に利用することも提案されている（例えば、非特許文献１）。これは、素片接続方式の歌唱合成で自然な歌唱音声の合成を行うためには歌唱者の声質（高く澄んだ声やハスキーな声など）毎に多数の素片データをデータベース化しておく必要があるが、ＨＭＭを利用した音声合成技術では特徴量をすべてデータとして保持するわけではなく、そのデータを生成する確率密度分布を表すデータを保持するため、素片接続方式に比較してデータベースの小規模化を図ることが可能で、携帯型ゲーム機や携帯電話などの小型の電子機器への組み込みにも適すると考えられるからである。

特開２００２−２６８６６０号公報

酒向慎司才野慶二郎南角吉彦徳田恵一北村正、「声質と歌唱スタイルを自動学習可能な歌唱合成システム」、情報処理学会研究報告．[音楽情報科学] 2008(12) pp.39-44 20080208

ところで、ＨＭＭを利用して読み上げ音声の合成を行う場合、アクセント型や品詞、前後の音素の配列などのコンテキストを加味し、音素をモデルの最小構成単位としてモデル化することが一般に行われる（以下、「コンテキスト依存のモデル化」と呼ぶ）。これは、同じ音素であっても、コンテキストが異なれば音響的特徴の時間変化の態様は異なったものとなり得るからである。したがって、ＨＭＭを利用して歌唱合成を行う場合も、コンテキスト依存のモデル化を行うことが好ましいと考えられる。しかし、歌唱音声においては、曲のメロディを表現するような基本周波数の時間変動は、歌詞を構成する音素のコンテキストとは独立に生じていると考えられ、また、このような基本周波数の時間変動（すなわち、メロディの歌いまわし）に歌唱者固有の歌唱表現が表れると考えられる。したがって、各歌唱者固有の歌唱表現を的確に反映し、より自然に聴こえる歌唱音声を合成するには、歌詞を構成する音素のコンテキストとは独立な基本周波数の時間変動を的確にモデル化することが必要と考えられる。しかし、従来技術の枠組みでは、音素をモデルの最小構成単位としてモデル化が行われていたため、複数の音素をまたいで行われるような歌唱表現による基本周波数の変化の適切なモデル化が行われていたとは言い難い。

本発明は上記課題に鑑みて為されたものであり、メロディの歌いまわしに表れる歌唱者固有の歌唱表現を的確にモデル化し、より自然に聴こえる歌唱音声の合成を可能にする技術を提供することを目的する。

上記課題を解決するため、本発明は、歌唱曲の歌唱音声の音波形を示す学習用波形データと前記歌唱曲の楽譜を表す学習用スコアデータとが入力される入力手段と、前記学習用波形データを解析して前記歌唱音声にてメロディを表していると推測される基本周波数の時間変動を特定し、当該基本周波数の時間変動を表すメロディ成分データを生成するメロディ成分抽出手段と、前記学習用スコアデータと前記メロディ成分データとを用いた機械学習により、前記歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを規定するメロディ成分パラメータを前記歌唱曲のメロディを構成する音符の組み合わせ毎に生成し、そのメロディ成分パラメータとそのメロディ成分パラメータにより規定されるメロディ成分モデルにより基本周波数の時間変動が表される１組または複数組の音符の組み合わせを示す識別子とを対応付けて歌唱合成用データベースに格納する機械学習手段とを有することを特徴とする歌唱合成用データベース生成装置、を提供する。なお、別の好ましい態様においては、コンピュータを上記メロディ成分抽出手段および機械学習手段として機能させるプログラムを提供するとしても良い。

このような歌唱合成用データベース生成装置およびプログラムによれば、歌唱曲の歌唱音声の音波形を示す学習用波形データから、メロディを表していると推測される基本周波数の時間変動を表すメロディ成分データが生成され、そのメロディ成分データとその歌唱曲の楽譜を示す学習用スコアデータ（すなわち、その歌唱曲のメロディを構成する音符と音符に合わせて歌唱する歌詞の時系列を示すデータ）とから、その歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを規定するメロディ成分パラメータが機械学習により生成されデータベース化される。なお、メロディ成分モデルとしては、前述したＨＭＭを用いるようにすれば良く、メロディ成分パラメータとしては前述したＨＭＭパラメータを用いるようにすれば良い。このようにして生成されるメロディ成分パラメータにより規定されるメロディ成分モデルには、そのメロディ成分パラメータに対応付けて歌唱合成用データベースに格納されている識別子の示す音符間の基本周波数の時間変動の特徴（歌唱者の歌いまわしの特徴）が反映されている。したがって、上記のようにして生成されるメロディ成分パラメータを歌唱者毎に分類してデータベース化し、そのデータベースの格納内容を用いてＨＭＭを利用した歌唱合成を行えば、歌唱者固有の歌唱表現を的確に反映した歌唱合成を行うことが可能になる。

より好ましい態様においては、上記歌唱合成用データベース生成装置のメロディ成分抽出手段は、前記学習用波形データの示す歌唱音声の基本周波数の時間変動から前記歌唱曲の歌詞を構成する音素に依存した基本周波数の変動成分を除去して前記メロディ成分データを生成することを特徴とする。このような態様によれば、入力手段に入力される学習用波形データの示す歌唱音声に基本周波数の時間変動に大きな影響を与えると推測される音素（例えば、無声子音）が含まれている場合であっても、正確なメロディ成分データを生成することが可能になる。

また、本発明の別の態様においては、複数の歌唱者の各々の歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを規定するメロディ成分パラメータとそのメロディ成分モデルにより基本周波数の時間変動が表される１組または複数組の音符の組み合わせを示す識別子とが歌唱者毎に分類されて格納されている歌唱合成用データベースを備え、歌唱曲の楽譜を表す歌唱合成用スコアデータが入力されるとともに、前記歌唱合成用データベースにメロディ成分パラメータが格納されている歌唱者のうちの何れかを指定する情報が入力される入力手段と、前記入力手段を介して入力された情報の示す歌唱者のものとして前記歌唱合成用データベースに格納されているメロディ成分パラメータにより規定されるメロディ生成モデルと前記歌唱合成用スコアデータの表す音符の時系列とから、当該歌唱合成用スコアデータの表す歌唱曲のメロディのピッチカーブを合成するピッチカーブ生成手段とを有することを特徴とするピッチカーブ生成装置を提供するとしても良く、また、このピッチカーブにたがって音信号を出力するように音源の駆動制御を行い、この音源から出力される音信号に対して上記歌唱合成用スコアデータの示す歌詞を構成する音素に応じたフィルタ処理を施して出力する歌唱合成装置を提供するとしても勿論良い。なお、上記ピッチカーブ生成装置および歌唱合成装置の構成要素となる歌唱合成用データベースについては、上記各歌唱合成用データベース生成装置を用いて生成すれば良い。

この発明の第１実施形態である歌唱合成装置１Ａの構成例を示す図である。歌唱合成用データベース１５４ｃの格納内容の一例を示す図である。同歌唱合成装置１Ａの制御部１１０が実行するデータベース生成処理および歌唱合成処理の流れを示す図ある。メロディ成分抽出処理ＳＡ１１０の処理内容の一例を示す図である。メロディ成分のＨＭＭ化の一例を示す図である。この発明の第２実施形態である歌唱合成装置１Ｂの構成例を示す図である。同歌唱合成装置１Ｂが実行するデータベース生成処理および歌唱合成処理の流れを示す図である。

以下、本発明の実施形態について図面を参照しつつ説明する。
（Ａ：第１実施形態）
（Ａ−１：構成）
図１は、本発明の第１実施形態である歌唱合成装置１Ａの構成例を示すブロック図である。この歌唱合成装置１Ａは、歌唱曲の歌唱音声の音波形を表す波形データ（以下、学習用波形データ）とその歌唱曲の楽譜を表すスコアデータ（すなわち、歌唱曲のメロディを構成する音符（本実施形態では、休符も音符とみなす）と音符に合わせて歌唱する歌詞の時系列を表すデータ）とから機械学習により歌唱合成用データベースを生成し、その歌唱合成用データベースの格納内容を利用して歌唱合成を行う装置である。図１に示すように、歌唱合成装置１Ａは、制御部１１０、インタフェース群１２０、操作部１３０、表示部１４０、記憶部１５０、およびこれら構成要素間のデータ授受を仲介するバス１６０を有している。

制御部１１０は、例えばＣＰＵ（Central Processing Unit）である。制御部１１０は、記憶部１５０に格納されている各種プログラムを実行することにより、歌唱合成装置１Ａの制御中枢の役割を果たす。記憶部１５０の不揮発性記憶部１５４には、データベース生成プログラム１５４ａと歌唱合成プログラム１５４ｂが格納されている。これらプログラムにしたがって制御部１１０が実行する処理の詳細については後に明らかにする。

インタフェース群１２０は、ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、ＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）などの外部記録媒体との間でデータの授受を行うためのドライバなどである。本実施形態では、インタフェース群１２０のうちの適当なものを介して歌唱曲の歌唱音声を表す学習用波形データとその歌唱曲のスコアデータ（以下、学習用スコアデータ）とが歌唱合成装置１Ａに入力される。つまり、インタフェース群１２０は、学習用波形データおよび学習用スコアデータを歌唱合成装置１Ａに入力するための入力手段の役割を果たす。また、インタフェース群１２０は、歌唱音声の合成対象となる歌唱曲の楽譜を表すスコアデータ（以下、歌唱合成用スコアデータ）を歌唱合成装置１Ａに入力するための入力手段の役割も果たす。

操作部１３０は、例えばマウスなどのポンティングデバイスやキーボードなどを含み、各種の入力操作を利用者に行わせるためのものである。操作部１３０は、利用者により為された操作（例えば、マウスを用いたドラッグアンドドロップやキーボードの何れかのキーの押下など）を示すデータを制御部１１０に与える。これにより操作部１３０に対して利用者が行った操作の内容が制御部１１０に伝達される。本実施形態では、操作部１３０に対する操作により各種プログラムの実行指示、学習用波形データの示す歌唱音声の歌唱者や歌唱音声の合成対象となる歌唱者を示す情報が歌唱合成装置１Ａに入力される。表示部１４０は、例えば液晶ディスプレイとその駆動回路である。この表示部１４０には、歌唱合成装置１Ａの利用を促すためのユーザインタフェース画面が表示される。

記憶部１５０は、図１に示すように、揮発性記憶部１５２と不揮発性記憶部１５４を含んでいる。揮発性記憶部１５２は、例えばＲＡＭ（Random Access Memory）であり、各種プログラムを実行する際のワークエリアの役割を担う。不揮発性記憶部１５４は、例えばハードディスクである。不揮発性記憶部１５４には、データベース生成プログラム１５４ａおよび歌唱合成プログラム１５４ｂが予め格納されており、歌唱合成用データベース１５４ｃも不揮発性記憶部１５４に格納される。

歌唱合成用データベース１５４ｃは、図１に示すように、ピッチカーブ生成用データベースと音素波形データベースを含んでいる。図２（Ａ）は、ピッチカーブ生成用データベースの格納内容の一例を示す図である。図２（Ａ）に示すように、ピッチカーブ生成用データベースには、音符識別子に対応付けてメロディ成分パラメータが格納されている。ここでメロディ成分パラメータとは、歌唱音声（本実施形態では、学習用波形データの表す歌唱音声）における音符間の基本周波数の時間変動のうち、メロディを表すと推測される変動成分（以下、メロディ成分）を最も高い確率で表現するＨＭＭであるメロディ成分モデルを規定するモデルパラメータである。このメロディ成分パラメータには、メロディ成分モデルを構成する各状態の出力周波数（或いは、当該周波数の音波形）の出力確率分布の特徴を示すデータ（出力周波数の平均値と分散、同出力周波数の変化率（一次微分や二次微分）の平均値と分散）および状態間遷移確率を表すデータが含まれる。一方、音符識別子は、その音符識別子に対応付けてピッチカーブ生成用データベースに格納されているメロディ成分パラメータにより規定されるメロディ成分モデルでメロディ成分が表される音符の組み合わせを示す識別子である。この音符識別子は、例えば“Ｃ３、Ｅ３”のようにメロディ成分モデルによりメロディ成分が表現される２つの音符の組み合わせ（２つの音符の時系列）を示すものであっても良いし、“長３度上昇”のように音符間の音程差を示すものであっても良い。後者のように音程差で音符の組み合わせを示す音符識別子は、その音程差を有する複数組の音符の組み合わせを示すものである。また、音符識別子は、２つの音符の組み合わせ（或いは、各々２個の音符からなる複数組の音符の組み合わせ）を示すものには限定されず、（休符、Ｃ３、Ｅ３・・・）といった具合に３個以上の音符の組み合わせ（３つ以上の音符の時系列）を示すものであっても良い。

本実施形態では、図１のピッチカーブ生成用データベースは以下の要領で生成される。すなわち、学習用波形データおよび学習用スコアデータがインタフェース群１２０を介して歌唱合成装置１Ａに入力され、その学習用波形データの示す歌唱音声の歌唱者を示す情報が操作部１３０に対する操作により入力されると、それら学習用波形データおよび学習用スコアデータを使用した機械学習を行うことにより歌唱者毎にピッチカーブ生成用データベースが生成される。ここで、ピッチカーブ生成用データベースを歌唱者毎に生成するのは、歌唱音声においては、メロディを表す基本周波数の時間変動の態様（例えば、Ｃ３から一旦下がった後、はずみをつけてＥ３までピッチが上昇するといった変動態様や、Ｃ３からＥ３までよどみなく歌いあげるようにピッチが上昇するといった変動態様）に歌唱者固有の歌唱表現が表れると考えられるからである。前述したように、ＨＭＭを利用した従来の音声合成技術では、コンテキスト依存性を加味して音素単位で音声をモデル化していたのであるが、本実施形態では歌詞を構成する音素とは独立に歌唱曲のメロディを構成する音符の組み合わせを単位として基本周波数の時間変動の態様をモデル化するため、各歌唱者固有の歌唱表現を的確にモデル化することができるのである。

音素波形データベースには、図２（Ｂ）に示すように、歌詞を構成する様々な音素の各々を一意に識別する音素識別子に対応付けてその音素のスペクトル分布の概形など表す波形特徴データが格納されている。この音素波形データベースの格納内容は、従来の音声合成技術におけるものと同様、音素に依存したフィルタ処理を行う際に利用される。

データベース生成プログラム１５４ａは、学習用スコアデータの示す音符の時系列（すなわち、歌唱曲のメロディを構成する音符の時系列）から音符識別子を抽出するとともに、学習用スコアデータと学習用波形データとから各音符識別子に対応付けるメロディ成分パラメータを機械学習により生成し、両者を対応付けてピッチカーブ生成用データベースに格納するデータベース生成処理を制御部１１０に実行させるためのプログラムである。例えば、音符識別子として２つの音符の組み合わせを示すものを用いる場合には、学習用スコアデータの示す音符の時系列の先頭から順に（Ｃ３，Ｅ３）、（Ｅ３，Ｃ４）・・・といった具合に２個ずつの音符の組み合わせを示す音符識別子を抽出すれば良い。一方、歌唱合成プログラム１５４ｂは、ピッチカーブ生成用データベースを生成済みの歌唱者のうちの何れかを操作部１３０に対する操作により利用者に指定させ、歌唱合成用スコアデータと上記利用者により指定された歌唱者についてのピッチカーブ生成用データベースおよび音素波形データベースの格納内容とから歌唱合成を行う歌唱合成処理を制御部１１０に実行させるプログラムである。これら各プログラムにしたがって制御部１１０が実行する処理の詳細については、重複を避けるため、動作説明において明らかにする。
以上が歌唱合成装置１Ａの構成である。

（Ａ−２：動作）
次いで、データベース生成プログラム１５４ａおよび歌唱合成プログラム１５４ｂの各々にしたがって制御部１１０が実行する処理について説明する。図３は、制御部１１０がデータベース生成プログラム１５４ａにしたがって実行するデータベース生成処理、および歌唱合成プログラム１５４ｂにしたがって実行する歌唱合成処理の流れを示す図である。図３に示すように、データベース生成処理は、メロディ成分抽出処理ＳＡ１１０と機械学習処理ＳＡ１２０を含んでおり、歌唱合成処理は、ピッチカーブ生成処理ＳＢ１１０とフィルタ処理ＳＢ１２０を含んでいる。

まず、データベース生成処理について説明する。メロディ成分抽出処理ＳＡ１１０は、学習用波形データを解析し、その学習用波形データにより表される歌唱音声にてメロディを表していると推測される基本周波数の時間変動を表すデータ（以下、メロディ成分データ）を生成する処理である。ここでメロディ成分抽出処理ＳＡ１１０の具体的な処理態様としては以下の２つの態様が挙げられる。

第１の態様は、学習用波形データに対してフレーム単位でピッチ抽出アルゴリズムにしたがったピッチ抽出を施し、各フレームから抽出されるピッチを示すデータの配列（以下、ピッチデータ）をメロディ成分データとする態様である。なお、ピッチ抽出アルゴリズムとしては既存のものを用いれば良い。これに対して第２の態様は、上記ピッチデータから、さらに音素に依存したピッチ変動の成分（以下、音素依存成分）を除去してメロディ成分データとする態様である。ここで、ピッチデータから音素依存成分を除去する具体的な手法としては、以下のものが考えられる。すなわち、上記ピッチデータを学習用スコアデータの表す歌詞を構成する各音素に対応する区間毎に区切り、子音に対応する区間については、その前後の音符の表すピッチを図４にて一点鎖線で示すように線形補間し、その補間直線の示すピッチの配列をメロディ成分データとする手法である。

上記第１の態様の場合、簡便にメロディ成分データを得ることができるといった利点がある一方、学習用波形データにより表される歌唱音声に無声子音（ピッチ変動における音素依存性が特に高いと考えられる音素）が含まれている場合に正確なメロディ成分データを抽出できない、といった欠点がある。一方、第２の態様には、第１の態様に比較してメロディ成分データを得るための処理負荷が高くなるといった欠点があるものの、上記のような無声子音が歌唱音声に含まれている場合であっても正確なメロディ成分データを得ることができる、といった利点がある。なお、全ての子音について音素依存成分を除去するのではなく、ピッチ変動における音素依存性が特に高いと考えられる子音（例えば、無声子音）のみを対象として音素依存成分の除去を行っても良い。具体的には、ピッチ変動における音素依存性が特に高いと考えられる子音が学習用波形データの表す歌唱音声に含まれているか否かに応じて学習用波形データ毎に上記第１および第２の態様の何れでメロディ成分抽出を行うのかを切り換えても良く、また、歌詞を構成する音素単位で切り換えても良い。

機械学習処理ＳＡ１２０では、学習用スコアデータとメロディ成分抽出処理ＳＡ１１０にて生成したメロディ成分データとを使用し、バウム＝ウェルチアルゴリズム等を利用した機械学習を行うことにより、学習用波形データの表す歌唱音声にてメロディを表していると推測される基本周波数の時間変動（すなわち、前述したメロディ成分）を表すメロディ成分モデル（本実施形態では、ＨＭＭ）を規定するメロディ成分パラメータが音符の組み合わせ毎に生成される。このようにして生成されるメロディ成分パラメータは、そのメロディ成分モデルにより基本周波数の時間変動が表される音符の組み合わせを示す音符識別子と対応付けてピッチカーブ生成用データベースに格納される。この機械学習処理ＳＡ１２０においては、まず、メロディ成分データの表すピッチカーブをモデル化対象とする複数の区間に区分けする処理が行われる。ここで、上記ピッチカーブをどのように区分けするのかについては種々の態様が考えられるが、本実施形態では、１つの区間に複数の音符が含まれるように区分けすることに特徴がある。例えば、図５（Ａ）に示すような態様で基本周波数が変化している区間について学習用スコアデータの示す音符の時系列が同図５（Ａ）に示すように４分休符→４分音符（Ｃ３）→８分音符（Ｅ３）→８分休符である場合、この区間全体をモデル化対象とする態様が考えられる。また、上記区間を音符から他の音符への遷移区間に細分化し、各遷移区間をモデル化対象とする態様も考えられる。前述したように、１つの音符には少なくとも１つの音素が対応するから、上記のように１つの区間に複数の音符が含まれるようにモデル化対象の区間を区分けすることによって、複数の音素にまたがる歌唱表現を的確にモデル化することができると期待される。そして、機械学習処理ＳＡ１２０では、上記のようにして区分けされた各モデル化対象区間について、メロディ成分データの示すピッチの時間変化を最も高い確率で表現するようなＨＭＭモデルがバウム＝ウェルチアルゴリズム等にしたがって生成される。

図５（Ｂ）は、図５（Ａ）に示す４分休符→４分音符（Ｃ３）→８分音符（Ｅ３）→８分休符からなる区間全体をモデル化対象とした場合の機械学習の学習結果の一例を示す図である。図５（Ｂ）に示す例では、上記モデル化対象区間全体が３つの状態（４分休符から４分音符への遷移区間を表現する状態１、４分音符から８分音符への遷移区間を表現する状態２、および８分音符から８分休符への遷移区間を表現する状態３）の状態遷移で表現されている。なお、図５（Ｂ）に示す例では、音符から他の音符への遷移区間が各々１つの状態で表現されているが、１つの遷移区間が複数の状態の状態遷移で表現されることもあり、また、連続するＮ（Ｎ≧２）個の遷移区間がＭ（Ｍ＜Ｎ）個の状態の状態遷移で表現されることもあり得る。これに対して、図５（Ｃ）は、音符から他の音符への遷移区間の各々をモデル化対象とした場合の機械学習の学習結果の一例を示す図である。図５（Ｃ）に示す例では、４分音符から８分音符への遷移区間が複数の状態（図５（Ｃ）では３つの状態）の状態間遷移で表現されている。なお、図５（Ｃ）では、音符から他の音符への遷移区間が３つの状態の状態遷移で表現されているが、音符の組み合わせによっては、２つまたは４つ以上の状態の状態遷移で表現されることもあり得る。

図５（Ｃ）に示すように音符から他の音符への遷移区間をモデル化対象とする態様においては、（休符，Ｃ３）、（Ｃ３，Ｅ３）・・・といった具合に各メロディ成分パラメータに対応付ける音符識別子として２つの音符の組み合わせを示すものを生成すれば良く、図５（Ｂ）に示すように３つ以上の音符を含む区間をモデル化対象とする態様においては、各メロディ成分パラメータに対応付ける音符識別子として３つ以上の音符の組み合わせを示すものを生成すれば良い。なお、複数組の各々異なる音符の組み合わせについて同一のメロディ成分モデルで表現される場合には、音符の組み合わせ毎にメロディ成分パラメータをピッチカーブ合成用データベースに書き込むことに代えて、前述した“長３度上昇”のようにそれら複数組の音符の組み合わせを示す新たな音符識別子を生成し当該新たな音符識別子と複数組の音符の組み合せの各々のメロディ成分を表現するメロディ成分モデルを規定するメロディ成分パラメータをピッチカーブ合成用データベースに書き込むようにすることは言うまでもなく、このような処理を行うことは既存の機械学習アルゴリズムでもサポートされている。
以上が本実施形態におけるデータベース生成処理の内容である。

次いで、歌唱合成処理を構成するピッチカーブ生成処理ＳＢ１１０およびフィルタ処理ＳＢ１２０について説明する。ピッチカーブ生成処理ＳＢ１１０は、ＨＭＭを利用した従来技術におけるものと同様に、歌唱合成用スコアデータとピッチカーブ生成用データベースの格納内容とを利用して、その歌唱合成用スコアデータの示す音符の時系列に対応するピッチカーブを合成する処理である。より詳細に説明すると、このピッチカーブ生成処理ＳＢ１１０では、歌唱合成用スコアデータの示す音符の時系列を２つの音符または３つ以上の音符からなる音符の組に区切り、それら音符の組の各々に対応するメロディ成分パラメータをピッチカーブ生成用データベースから読み出す。例えば、前述した音符識別子として２つの音符の組み合わせを示すもののみが用いられている場合には、歌唱合成用スコアデータの示す音符の時系列を２つの音符の組に区切って該当するメロディ成分パラメータの読み出しを行うようにすれば良い。そして、それらメロディ成分パラメータの示す状態継続長確率を参照し、最も高い確率で現れると推測される状態遷移系列を特定するとともに、各状態における周波数の出力確率分布から、最も高い確率で出力されると推測される周波数をそれら状態の各々について特定する処理をビタビアルゴリズム等にしたがって実行する。このようにして特定された周波数の時系列により上記ピッチカーブが表されるのである。

以降、制御部１１０は、従来の音声合成と同様に、ピッチカーブ生成処理ＳＢ１１０にて生成されたピッチカーブにしたがって基本周波数が時間変化する音信号を出力するように音源（例えば、正弦波発生器：図１では図示略）の駆動制御を行い、その音源から出力される音信号に対して、歌唱合成用スコアデータの示す歌詞を構成する音素に依存したフィルタ処理ＳＢ１２０を施して出力する。より詳細に説明すると、このフィルタ処理ＳＢ１２０では、制御部１１０は、歌唱合成用スコアデータの示す歌詞を構成する音素を示す音素識別子に対応付けて音素波形データベースに格納されている波形特徴データを読み出し、この波形特徴データに応じたフィルタ特性のフィルタ処理を上記音信号に施して出力する。これにより歌唱合成が実現されるのである。
以上が本実施形態における歌唱合成処理の内容である。

以上説明したように本実施形態によれば、歌唱曲のメロディを構成する音符間のメロディ成分を表現するメロディ成分モデルを規定するメロディ成分パラメータが音符の組み合わせ毎に生成され、歌唱者毎にデータベース化される。そして、歌唱合成用スコアデータにしたがって歌唱合成を行う際には、利用者により指定された歌唱者に対応するピッチカーブ生成用データベースの格納内容に基づいて歌唱合成用スコアデータの示す歌唱曲のメロディを表すピッチカーブが生成される。ピッチカーブ生成用データベースに格納されているメロディ成分パラメータの規定するメロディ成分モデルは、歌唱者固有のメロディ成分を表現するものであるから、このメロディ成分モデルにしたがってピッチカーブの合成を行うことにより、歌唱者固有の歌唱表現を的確に反映したメロディを合成することが可能になる。つまり、本実施形態によれば、従来の音素単位で歌唱音声をモデル化する歌唱合成技術や素片接続方式の歌唱合成技術に比較して、歌唱者固有のメロディの歌いまわしの歌唱表現を的確に反映した歌唱合成を行うことが可能になる。

（Ｂ：第２実施形態）
次いで、本発明の第２実施形態について説明する。
（Ｂ−１：構成）
図６は、本発明の第２の実施形態である歌唱合成装置１Ｂの構成例を示す図である。図６では、図１と同一の構成要素には同一の符号が付されている。図６と図１を対比すれば明らかように、歌唱合成装置１Ｂは、歌唱合成装置１Ａと同一のハードウェア構成（制御部１１０、インタフェース群１２０、操作部１３０、表示部１４０、記憶部１５０およびバス１６０からなるハードウェア構成）を有するものの、ソフトウェア構成（すなわち、記憶部１５０に格納されているプログラムおよびデータ）が歌唱合成装置１Ａと異なっている。より詳細に説明すると、歌唱合成装置１Ｂのソフトウェア構成は、データベース生成プログラム１５４ａに代えてデータベース生成プログラム１５４ｄを、歌唱合成プログラム１５４ｂに代えて歌唱合成プログラム１５４ｅを、歌唱合成用データベース１５４ｃに代えて歌唱合成用データベース１５４ｆを不揮発性記憶部１５４に格納した点が歌唱合成装置１Ａのソフトウェア構成と異なる。
以下、第１実施形態との相違点を中心に説明する。

歌唱合成用データベース１５４ｆは、ピッチカーブ生成用データベースと音素波形データベースの他に音素依存成分補正用データベースを含む点が歌唱合成用データベース１５４ｃと異なる。音素依存成分補正用データベースには、歌唱音声における基本周波数の時間変動に影響を与え得る音素を示す音素識別子に対応付けてその音素に起因した基本周波数の時間変動の特徴を表現するＨＭＭである音素依存成分モデルを規定するＨＭＭパラメータ（以下、音素依存成分パラメータ）が格納される。詳細については後述するが、この音素依存成分補正用データベースは、学習用波形データと学習用スコアデータとを用いてピッチカーブ生成用データベースを生成するデータベース生成処理の実行過程で歌唱者毎に生成される。

（Ｂ−２：動作）
次いで、データベース生成プログラム１５４ｄおよび歌唱合成プログラム１５４ｅの各々にしたがって歌唱合成装置１Ｂの制御部１１０が実行する処理について説明する。

図７は、制御部１１０がデータベース生成プログラム１５４ｄにしたがって実行するデータベース生成処理、および歌唱合成プログラム１５４ｅにしたがって実行する歌唱合成処理の流れを示す図である。図７では、図３におけるものと同一の処理については同一の符号が付されている。以下、図３に示した各処理との相違点を中心に説明する。

まず、データベース生成処理について説明する。
図７に示すように、データベース生成プログラム１５４ｄにしたがって制御部１１０が実行するデータベース生成処理は、ピッチ抽出処理ＳＤ１１０、分離処理ＳＤ１２０、機械学習処理ＳＡ１２０および機械学習処理ＳＤ１３０を含んでいる。ピッチ抽出処理ＳＤ１１０および分離処理ＳＤ１２０は、図３のメロディ成分抽出処理ＳＡ１１０に相当し、前述した第２の態様でメロディ成分データを生成する処理である。より詳細に説明すると、ピッチ抽出処理ＳＤ１１０は、インタフェース群１２０を介して入力される学習用波形データに対してフレーム単位で既存のピッチ抽出アルゴリズムにしたがったピッチ抽出を施し、各フレームから抽出されるピッチを示すデータの配列をピッチデータとして生成する処理である。一方、分離処理ＳＤ１２０は、ピッチ抽出処理ＳＤ１１０にて生成したピッチデータから前掲図４に示した要領で音素依存成分を除去してメロディに依存したピッチ変動を表すメロディ成分データを生成する。また、この分離処理ＳＤ１２０では、音素に起因したピッチ変動を表す音素依存成分データ（図４における一点鎖線と実線との差分を示すデータ）も生成される。

図７に示すように、メロディ成分データは、機械学習処理ＳＡ１２０にてピッチカーブ生成用データベースの生成に利用され、音素依存成分データは機械学習処理ＳＤ１３０にて音素依存成分補正用データベースの生成に利用される。より詳細に説明すると、機械学習処理ＳＤ１３０では、学習用スコアデータの示す歌詞を構成する音素の区間毎にその音素を一意に識別する音素識別子が生成され、その区間についての上記音素依存成分データの表すピッチ変動を最も高い確率で表現する音素依存成分モデルを規定する音素依存成分パラメータが機械学習により生成され、その音素識別子に対応付けてその音素依存成分パラメータを音素依存成分補正用データベースに書き込む処理が行われるのである。
以上が本実施形態におけるデータベース生成処理である。

次いで、歌唱合成処理について説明する。
図７に示すように、歌唱合成プログラム１５４ｅにしたがって制御部１１０が実行する歌唱合成処理は、ピッチカーブ生成処理ＳＢ１１０、音素依存成分補正処理ＳＥ１１０およびフィルタ処理ＳＢ１２０を含んでいる。図７に示すように、本実施形態の歌唱合成処理は、ピッチカーブ生成処理ＳＢ１１０により生成したピッチカーブに対して音素依存成分補正処理ＳＥ１１０を施し、この補正後のピッチカーブにしたがって音信号を音源に出力させ、この音信号にフィルタ処理ＳＢ１２０を施す点が図３に示す歌唱合成処理と異なる。音素依存成分補正処理ＳＥ１１０では、歌唱合成用スコアデータの示す歌詞を構成する音素の区間毎に、以下の要領でピッチカーブを補正する処理が行われる。すなわち、歌唱音声の合成対象として指定された歌唱者についての音素依存成分補正用データベースから、歌唱合成用スコアデータの示す歌詞を構成する音素に対応する音素依存成分パラメータを読み出し、その音素依存成分パラメータにより規定される音素依存成分モデルの表すピッチ変動を付与することで上記ピッチカーブの補正が行われるのである。このようなピッチカーブの補正を行うことによって、合成対象として指定された歌唱者のメロディの歌いまわしについての歌唱表現に加え、その歌唱者の音素の発音態様に起因したピッチ変動を反映したピッチカーブが生成されるのである。

以上説明したように本実施形態によれば、歌唱者固有のメロディの歌いまわしの歌唱表現を反映した歌唱合成を行うことが可能になるとともに、歌唱者固有の音素の発音態様に起因したピッチ変動の特徴を反映した歌唱合成を行うことが可能になる。なお、本実施形態では、ピッチカーブの補正を行う音素を特に限定しなかったが、歌唱音声の基本周波数の時間変動に与える影響が特に大きいと推測される音素（例えば、無声子音）の区間についてのみピッチカーブを補正するようにしても勿論良い。具体的には、歌唱音声における基本周波数の時間変動に与える影響が特に大きいと推測される音素を予め特定しておき、それら音素についてのみ機械学習処理ＳＤ１３０を行って音素依存成分補正用データベースを生成するとともに、それら音素についてのみ音素依存成分補正処理ＳＥ１１０を行うようにすれば良い。また、本実施形態では、音素依存成分補正用データベースを歌唱者毎に生成したが、各歌唱者に共通の一つの音素依存成分補正用データベースを生成するようにしても良い。このように各歌唱者に共通の音素依存成分補正用データベースを生成する態様においては、多数の歌唱者に共通して表れる音素の発音態様に起因したピッチ変動の特徴が音素毎にモデル化されてデータベース化されることとなり、歌唱者固有のメロディの歌いまわしの歌唱表現を反映しつつ、多数の歌唱者に共通して表れる音素固有のピッチ変動の特徴を反映した歌唱合成を行うことが可能になる。

（Ｃ：変形）
以上、本発明の第１および第２実施形態について説明したが、かかる実施形態に以下に述べる変形を加えても勿論良い。
（１）上述した各実施形態では、本発明の特徴を顕著に示す各処理をソフトウェアで実現した。しかし、メロディ成分抽出処理ＳＡ１１０を実行するメロディ成分抽出手段、および機械学習処理ＳＡ１２０を実行する機械学習手段、ピッチカーブ生成処理ＳＢ１１０を実行するピッチカーブ生成手段、およびフィルタ処理ＳＢ１２０を実行するフィルタ処理手段の各々を電子回路で構成し、学習用波形データや各種スコアデータを入力するための入力手段と組み合わせて歌唱合成装置１Ａを構成しても良い。同様に、ピッチ抽出処理ＳＤ１１０を実行するピッチ抽出手段、分離処理ＳＤ１２０を実行する分離手段、機械学習処理ＳＡ１２０および機械学習処理ＳＤ１３０を実行する機械学習手段、音素依存成分補正処理ＳＥ１１０を実行する音素依存成分補正手段の各々を電子回路で構成し、上記入力手段、ピッチカーブ生成手段およびフィルタ処理手段と組み合わせて歌唱合成装置１Ｂを構成しても勿論良い。

（２）図３（または図７）に示すデータベース生成処理を実行する歌唱合成用データベース生成装置と、同図３（または図７）に示す歌唱合成処理を実行する歌唱合成装置とを各々別個の装置とし、その各々に本発明を適用しても勿論良い。また、上記各実施形態にて説明したピッチカーブ生成用データベースの格納内容と歌唱合成用スコアデータとから、合成対象の歌唱音声のピッチカーブを合成するピッチカーブ生成装置に本発明を適用しても勿論良い。また、上記ピッチカーブ生成装置を含み、そのピッチカーブ生成装置により生成されるピッチカーブにしたがって、歌詞を構成する音素の素片データにピッチ変換を施しつつ接続することで歌唱合成を行う歌唱合成装置を構成することも考えられる。

（３）上述した各実施形態では、本発明の特徴を顕著に示すデータベース生成プログラム１５４ａ（或いはデータベース生成プログラム１５４ｄ）が歌唱合成装置１Ａ（或いは歌唱合成装置１Ｂ）の不揮発性記憶部１５４に予め格納されていた。しかし、これらデータベース生成プログラムをＣＤ−ＲＯＭなどのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。歌唱合成プログラム１５４ｂ（或いは歌唱合成プログラム１５４ｅ）についても同様にコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、電気通信回線系由のダウンロードにより配布しても良い。

１Ａ，１Ｂ…歌唱合成装置、１１０…制御部、１２０…インタフェース群、１３０…操作部、１４０…表示部、１５０…記憶部、１５２…揮発性記憶部、１５４…不揮発性記憶部、１５４ａ，１５４ｄ…データベース生成プログラム、１５４ｂ，１５４ｅ…歌唱合成プログラム、１５４ｃ，１５４ｆ…歌唱合成用データベース、１６０…バス。

Claims

歌唱曲の歌唱音声の音波形を示す学習用波形データと前記歌唱曲の楽譜を表す学習用スコアデータとが入力される入力手段と、
前記学習用波形データを解析して前記歌唱音声にてメロディを表していると推測される基本周波数の時間変動を特定し、当該基本周波数の時間変動を表すメロディ成分データを生成するメロディ成分抽出手段と、
前記学習用スコアデータと前記メロディ成分データとを用いた機械学習により、前記歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを規定するメロディ成分パラメータを前記歌唱曲のメロディを構成する音符の組み合わせ毎に生成し、そのメロディ成分パラメータとそのメロディ成分パラメータにより規定されるメロディ成分モデルにより基本周波数の時間変動が表される１組または複数組の音符の組み合わせを示す識別子とを対応付けて歌唱合成用データベースに格納する機械学習手段と、を有し、
前記メロディ成分抽出手段は、前記学習用波形データの示す歌唱音声の基本周波数の時間変動から前記歌唱曲の歌詞を構成する音素に依存した変動成分を除去して前記メロディ成分データを生成する
ことを特徴とする歌唱合成用データベース生成装置。
前記学習用波形データとして複数の歌唱者の各々の歌唱音声の音波形を表す複数の学習用波形データが前記入力手段に入力された場合には、前記機械学習手段は、前記複数の学習用波形データの各々に基づいて生成されるメロディ成分パラメータを歌唱者毎に分類して前記歌唱合成用データベースに書き込むことを特徴とする請求項１に記載の歌唱合成用データベース生成装置。
請求項２に記載の歌唱合成用データベース生成装置により生成された歌唱合成用データベースと、
歌唱曲の楽譜を表す歌唱合成用スコアデータが入力されるとともに、前記歌唱合成用データベースにメロディ成分パラメータが格納されている歌唱者のうちの何れかを指定する情報が入力される入力手段と、
前記入力手段を介して入力された情報の示す歌唱者のものとして前記歌唱合成用データベースに格納されているメロディ成分パラメータにより規定されるメロディ生成モデルと前記歌唱合成用スコアデータの表す音符の時系列とから、当該歌唱合成用スコアデータの表す歌唱曲のメロディのピッチカーブを合成するピッチカーブ生成手段と、
を有することを特徴とするピッチカーブ生成装置。