JP2011028230A - 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 - Google Patents

歌唱合成用データベース生成装置、およびピッチカーブ生成装置 Download PDF

Info

Publication number
JP2011028230A
JP2011028230A JP2010131837A JP2010131837A JP2011028230A JP 2011028230 A JP2011028230 A JP 2011028230A JP 2010131837 A JP2010131837 A JP 2010131837A JP 2010131837 A JP2010131837 A JP 2010131837A JP 2011028230 A JP2011028230 A JP 2011028230A
Authority
JP
Japan
Prior art keywords
phoneme
melody
singing
component
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010131837A
Other languages
English (en)
Other versions
JP5471858B2 (ja
Inventor
Keijiro Saino
慶二郎 才野
Bonada Jordi
ボナダ ジョルディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2010131837A priority Critical patent/JP5471858B2/ja
Priority to EP10167620A priority patent/EP2270773B1/en
Priority to US12/828,409 priority patent/US8423367B2/en
Publication of JP2011028230A publication Critical patent/JP2011028230A/ja
Application granted granted Critical
Publication of JP5471858B2 publication Critical patent/JP5471858B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/086Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for transcription of raw audio or music data to a displayed or printed staff representation or to displayable MIDI-like note-oriented data, e.g. in pianoroll format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/155Library update, i.e. making or modifying a musical database using musical parameters as indices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
    • G10H2250/015Markov chains, e.g. hidden Markov models [HMM], for musical processing, e.g. musical analysis or musical composition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • G10H2250/481Formant synthesis, i.e. simulating the human speech production mechanism by exciting formant resonators, e.g. mimicking vocal tract filtering as in LPC synthesis vocoders, wherein musical instruments may be used as excitation signal to the time-varying filter estimated from a singer's speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract


【課題】音素に依存したピッチ変動を加味しつつ歌唱者毎のメロディの歌いまわしに表れる歌唱表現を的確にモデル化し、より自然に聴こえる歌唱音声の合成を可能にする技術を提供する。
【解決手段】歌唱音声の基本周波数の時間変化をメロディに依存したメロディ依存成分と音素に依存した音素依存成分とに分離し、成分毎にモデル化して歌唱合成用データベースに格納する。歌唱合成の実行段階では、歌唱合成用スコアの示す音符の配列と上記メロディ依存成分モデルとにしたがって、メロディの基本周波数の時間変化を表すピッチカーブを合成し、歌詞を構成する音素の区間毎にその音素に対応する音素依存成分モデルを利用して上記ピッチカーブを補正する。
【選択図】図7

Description

本発明は、歌唱曲の楽譜を表すスコアデータにしたがって歌唱音声を合成する歌唱合成技術に関する。
歌唱合成技術や文章の読み上げ音声の合成技術などの音声合成技術が普及しつつある。この種の音声合成技術は、素片接続方式のものと、統計的手法である音声モデルを利用したものとに大別される。素片接続方式の音声合成技術では、多数の音素の各々の波形を表す素片データを予めデータベースに格納しておき、以下の要領で音声合成が行われる。すなわち、合成対象の音声を構成する音素の配列順に各音素に対応する素片データを上記データベースから読み出し、ピッチ変換等を施して接続することで合成音声の波形を示す波形データが生成されるのである。一般に実用化されている音声合成技術は、この素片接続方式によるものが多い。一方、音声モデルを利用した音声合成技術の一例としては、隠れマルコフモデル(Hidden Markov Model:以下、「HMM」)を利用したものが挙げられる。HMMは、複数の状態(音源)間の確率的な遷移で音声をモデル化するものである。より詳細に説明すると、HMMを構成する各状態は、各々固有の音響的特徴を表す特徴量(基本周波数や、スペクトル、またはこれらを要素とする特徴ベクトル)をその音響的特徴に応じた確率で出力するものであり、モデル化対象の音声の音響的特徴の時間変動が最も高い確率で再現されるように、各状態における特徴量の出力確率分布および状態間遷移確率をバウム=ウェルチアルゴリズム(Baum-Welch algorithm)などを用いて定めることでモデル化が実現される。HMMを利用した音声合成の概要は以下の通りである。
HMMを利用した音声合成技術では、複数種の音素の各々について音響的特徴の時間変動を機械学習によりモデル化し、データベース化しておくことが前提となる。以下、音響的特徴を示す特徴量として基本周波数を用いる場合を例にとって、HMMによるモデル化およびそのデータベース化について説明する。まず、学習対象の複数種の音声の各々を音素毎に区切り、各音素における基本周波数の時間変動を表すピッチカーブを生成する。次いで、各音素のピッチカーブを最も高い確率で表現するHMMをバウム=ウェルチアルゴリズム等を利用した機械学習により音素毎に特定する。そして、HMMを規定するモデルパラメータ(HMMパラメータ)とそのHMMにより基本周波数の時間変動の特徴が表される1または複数の音素を示す識別子とを対応付けてデータベースに格納するのである。これは、互いに異なる音素であっても、同一のHMMにより基本周波数の時間変動の特徴が表現できる場合があるからであり、また、このようにすることで、データベースの小規模化が図れるのである。なお、HMMパラメータには、HMMを構成する各状態の出力する周波数の出現確率を規定する確率分布の特徴を示すデータ(例えば、出力される周波数の平均値と分散、周波数の変化率(一次微分や二次微分)の平均値と分散)および状態間遷移確率を表すデータが含まれる。
一方、音声の合成過程では、合成対象となる音声を構成する音素の各々に対応するHMMパラメータがデータベースから読み出され、それらHMMパラメータの示すHMMにしたがって最も高い確率で現れるであろう状態間遷移および各状態の出力周波数が最尤推定アルゴリズム(例えば、ビタビアルゴリズムなど)によって特定される。このようにして特定された周波数の時系列によって上記合成対象の音声の基本周波数の時系列(ピッチカーブ)が表されるのである。そして、上記ピッチカーブにしたがって基本周波数が時間変化する音信号を出力するように音源(例えば正弦波発生器)の駆動制御を行い、その音信号に音素に依存したフィルタ処理(例えば、音素のスペクトルやケプストラムを再現するフィルタ処理)を施すことで音声合成が完了するのである。HMMを利用した音声合成技術は、読み上げ音声の合成(例えば、特許文献1)に利用されることが多かったが、近年では、歌唱合成に利用することも提案されている(例えば、非特許文献1)。これは、素片接続方式の歌唱合成で自然な歌唱音声の合成を行うためには歌唱者の声質(高く澄んだ声やハスキーな声など)毎に多数の素片データをデータベース化しておく必要があるが、HMMを利用した音声合成技術では特徴量をすべてデータとして保持するわけではなく、そのデータを生成する確率密度分布を表すデータを保持するため、素片接続方式に比較してデータベースの小規模化を図ることが可能で、携帯型ゲーム機や携帯電話などの小型の電子機器への組み込みにも適すると考えられるからである。
特開2002−268660号公報
酒向慎司 才野慶二郎 南角吉彦 徳田恵一 北村正、「声質と歌唱スタイルを自動学習可能な歌唱合成システム」、情報処理学会研究報告.[音楽情報科学] 2008(12) pp.39-44 20080208
ところで、HMMを利用して読み上げ音声の合成を行う場合、アクセント型や品詞、前後の音素の配列などのコンテキストを加味し、音素をモデルの最小構成単位としてモデル化することが一般に行われる(以下、「コンテキスト依存のモデル化」と呼ぶ)。これは、同じ音素であっても、コンテキストが異なれば音響的特徴の時間変化の態様は異なったものとなり得るからである。したがって、HMMを利用して歌唱合成を行う場合も、コンテキスト依存のモデル化を行うことが好ましいと考えられる。しかし、歌唱音声においては、曲のメロディを表現するような基本周波数の時間変動は、歌詞を構成する音素のコンテキストとは独立に生じていると考えられ、また、このような基本周波数の時間変動(すなわち、メロディの歌いまわし)に歌唱者固有の歌唱表現が表れると考えられる。したがって、各歌唱者固有の歌唱表現を的確に反映し、より自然に聴こえる歌唱音声を合成するには、歌詞を構成する音素のコンテキストとは独立な基本周波数の時間変動を的確にモデル化することが必要と考えられる。また、無声子音のように歌唱音声のピッチ変動に大きな影響を与えると考えられる音素が歌詞に含まれている場合には、音素に依存したピッチ変動を加味して基本周波数の時間変化をモデル化することが必要になる。しかし、従来技術の枠組みでは、音素をモデルの最小構成単位としてモデル化が行われていたため、複数の音素をまたいで行われるような歌唱表現による基本周波数の変化の適切なモデル化が行われていたとは言い難いく、また、音素に依存したピッチ変動を加味した基本周波数の時間変動のモデル化が行われていたとは言い難い。
本発明は上記課題に鑑みて為されたものであり、音素に依存したピッチ変動を加味しつつメロディの歌いまわしに表れる歌唱者固有の歌唱表現を的確にモデル化し、より自然に聴こえる歌唱音声の合成を可能にする技術を提供することを目的する。
上記課題を解決するため、本発明は、歌唱曲の歌唱音声の音波形を示す学習用波形データと、前記歌唱曲の楽譜を表す学習用スコアデータとが入力される入力手段と、前記学習用波形データを解析し、前記歌唱音声における基本周波数の時間変動を表すピッチデータを生成するピッチ抽出手段と、前記学習用スコアデータを用いて前記歌唱曲の歌詞を構成する音素に対応する区間毎に前記ピッチデータを解析し、前記歌唱曲のメロディに依存した基本周波数の変動分を表すメロディ成分データと、歌詞を構成する音素に依存した基本周波数の変動分を表す音素依存成分データとに分離する分離手段と、前記学習用スコアデータと前記メロディ成分データとを用いた機械学習により、前記歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを規定するメロディ成分パラメータを音符の組み合わせ毎に生成するとともに、前記学習用スコアデータと前記音素依存成分データとを用いた機械学習により前記歌唱音声における音素に依存した基本周波数の変動成分を表現する音素依存成分モデルを規定する音素依存成分パラメータを音素毎に生成し、前記メロディ成分パラメータとそのメロディ成分パラメータにより規定されるメロディ成分モデルによりメロディを表す基本周波数の時間変動が表される1組または複数組みの音符の組み合わせを示す識別子とを対応付けて歌唱合成用データベースに書き込むとともに、前記音素依存成分パラメータとその音素依存成分パラメータにより規定される音素依存成分モデルにより音素に依存した基本周波数の変動成分が表される音素を示す識別子を対応付けて前記歌唱合成用データベースに書き込む機械学習手段とを有することを特徴とする歌唱合成用データベース生成装置、を提供する。なお、別の好ましい態様においては、コンピュータを上記ピッチ抽出手段、分離手段および機械学習手段として機能させるプログラムを提供するとしても良い。
このような歌唱合成用データベース生成装置およびプログラムによれば、歌唱曲の歌唱音声を表す学習用波形データから、上記歌唱音声の基本周波数の時間変動を表すピッチデータが生成され、そのピッチデータからメロディを表していると推測される基本周波数の変動分を表すメロディ成分データと音素に依存した基本周波数の変動分を表す音素依存成分データとが分離される。そして、メロディ成分データとその歌唱曲の楽譜を示す学習用スコアデータ(すなわち、その歌唱曲のメロディを構成する音符と音符に合わせて歌唱する歌詞の時系列を示すデータ)とから上記歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを規定するメロディ成分パラメータが機械学習により生成されデータベース化される一方、音素依存成分データと学習用スコアデータとから上記歌唱音声における音符間の基本周波数の時間変動のうち音素に依存した変動成分を表現する音素依存成分モデルを規定する音素依存成分パラメータが機械学習により生成されデータベース化される。
ここで、上記メロディ成分モデルおよび音素依存成分モデルとしては、前述したHMMを用いるようにすれば良い。このようにして生成されるメロディ成分パラメータにより規定されるメロディ成分モデルには、そのパラメータに対応付けて歌唱合成用データベースに格納されている識別子の示す音符間におけるメロディを表す基本周波数の時間変動の特徴(歌唱者固有のメロディの歌いまわしの特徴)が反映されている。一方、音素依存成分パラメータにより規定される音素依存成分モデルには、そのパラメータに対応付けて歌唱合成用データベースに格納されている識別子の示す音素に依存した基本周波数の時間変動の特徴が反映されている。したがって、上記のようにして生成されるメロディ成分パラメータを音符の組み合わせ毎および歌唱者毎に分類してデータベース化するとともに、音素依存成分パラメータを音素毎に分類してデータベース化しておけば、その歌唱合成用データベースの格納内容を用いてHMMを利用した歌唱合成を行うことにより、歌唱者固有のメロディの歌いまわしの歌唱表現および音素に起因したピッチ変動を的確に反映した歌唱合成を行うことが可能になる。
また、本発明の別の態様においては、複数の歌唱者の各々の歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを規定するメロディ成分パラメータとそのメロディ成分モデルによりメロディを表す基本周波数の時間変動が表される1組または複数組の音符の組み合わせを示す識別子とが歌唱者毎に分類されて格納されているとともに、前記基本周波数の時間変動のうち音素に依存した変動成分を表現する音素依存成分モデルを規定する音素依存成分パラメータに対応付けてその音素依存成分モデルにより基本周波数の変動成分が表される音素を示す識別子が格納されている歌唱合成用データベースを備え、歌唱曲の楽譜を表す歌唱合成用スコアデータが入力されるとともに、前記歌唱合成用データベースにメロディ成分パラメータおよび音素依存成分パラメータが格納されている歌唱者のうちの何れかを指定する情報が入力される入力手段と、前記入力手段に入力された情報の示す歌唱者のものとして前記歌唱合成用データベースに格納されているメロディ成分パラメータにより規定されるメロディ成分モデルと前記歌唱合成用スコアデータの表す音符の時系列とから、当該歌唱合成用スコアデータの表す歌唱曲のメロディのピッチカーブを合成するピッチカーブ生成手段と、前記ピッチカーブを、前記歌唱合成用スコアデータの示す歌詞を構成する音素の区間毎に、当該音素のものとして前記歌唱合成用データベースに格納されている音素依存成分パラメータにより規定される音素依存成分モデルにしたがって補正して出力する音素依存成分補正手段とを有することを特徴とするピッチカーブ生成装置、を提供しても良く、また、このピッチカーブにたがって音信号を出力するように駆動制御された音源から出力される音信号に対して上記歌唱合成用スコアデータの示す歌詞を構成する音素に応じたフィルタ処理を施して出力する歌唱合成装置を提供しても勿論良い。なお、上記歌唱合成用データベースについては、上記各歌唱合成用データベース生成装置を用いて生成すれば良い。
この発明の第1実施形態である歌唱合成装置1Aの構成例を示す図である。 歌唱合成用データベース154cの格納内容の一例を示す図である。 同歌唱合成装置1Aの制御部110が実行するデータベース生成処理および歌唱合成処理の流れを示す図ある。 メロディ成分抽出処理SA110の処理内容の一例を示す図である。 メロディ成分のHMM化の一例を示す図である。 この発明の第2実施形態である歌唱合成装置1Bの構成例を示す図である。 同歌唱合成装置1Bが実行するデータベース生成処理および歌唱合成処理の流れを示す図である。
以下、本発明の実施形態について図面を参照しつつ説明する。
(A:第1実施形態)
(A−1:構成)
図1は、本発明の第1実施形態である歌唱合成装置1Aの構成例を示すブロック図である。この歌唱合成装置1Aは、歌唱曲の歌唱音声の音波形を表す波形データ(以下、学習用波形データ)とその歌唱曲の楽譜を表すスコアデータ(すなわち、歌唱曲のメロディを構成する音符(本実施形態では、休符も音符とみなす)と音符に合わせて歌唱する歌詞の時系列を表すデータ)とから機械学習により歌唱合成用データベースを生成し、その歌唱合成用データベースの格納内容を利用して歌唱合成を行う装置である。図1に示すように、歌唱合成装置1Aは、制御部110、インタフェース群120、操作部130、表示部140、記憶部150、およびこれら構成要素間のデータ授受を仲介するバス160を有している。
制御部110は、例えばCPU(Central Processing Unit)である。制御部110は、記憶部150に格納されている各種プログラムを実行することにより、歌唱合成装置1Aの制御中枢の役割を果たす。記憶部150の不揮発性記憶部154には、データベース生成プログラム154aと歌唱合成プログラム154bが格納されている。これらプログラムにしたがって制御部110が実行する処理の詳細については後に明らかにする。
インタフェース群120は、ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、CD−ROM(Compact Disk-Read Only Memory)などの外部記録媒体との間でデータの授受を行うためのドライバなどである。本実施形態では、インタフェース群120のうちの適当なものを介して歌唱曲の歌唱音声を表す学習用波形データとその歌唱曲のスコアデータ(以下、学習用スコアデータ)とが歌唱合成装置1Aに入力される。つまり、インタフェース群120は、学習用波形データおよび学習用スコアデータを歌唱合成装置1Aに入力するための入力手段の役割を果たす。また、インタフェース群120は、歌唱音声の合成対象となる歌唱曲の楽譜を表すスコアデータ(以下、歌唱合成用スコアデータ)を歌唱合成装置1Aに入力するための入力手段の役割も果たす。
操作部130は、例えばマウスなどのポインティングデバイスやキーボードなどを含み、各種の入力操作を利用者に行わせるためのものである。操作部130は、利用者により為された操作(例えば、マウスを用いたドラッグアンドドロップやキーボードの何れかのキーの押下など)を示すデータを制御部110に与える。これにより操作部130に対して利用者が行った操作の内容が制御部110に伝達される。本実施形態では、操作部130に対する操作により各種プログラムの実行指示、学習用波形データの示す歌唱音声の歌唱者や歌唱音声の合成対象となる歌唱者を示す情報が歌唱合成装置1Aに入力される。表示部140は、例えば液晶ディスプレイとその駆動回路である。この表示部140には、歌唱合成装置1Aの利用を促すためのユーザインタフェース画面が表示される。
記憶部150は、図1に示すように、揮発性記憶部152と不揮発性記憶部154を含んでいる。揮発性記憶部152は、例えばRAM(Random Access Memory)であり、各種プログラムを実行する際のワークエリアの役割を担う。不揮発性記憶部154は、例えばハードディスクである。不揮発性記憶部154には、データベース生成プログラム154aおよび歌唱合成プログラム154bが予め格納されており、歌唱合成用データベース154cも不揮発性記憶部154に格納される。
歌唱合成用データベース154cは、図1に示すように、ピッチカーブ生成用データベースと音素波形データベースを含んでいる。図2(A)は、ピッチカーブ生成用データベースの格納内容の一例を示す図である。図2(A)に示すように、ピッチカーブ生成用データベースには、音符識別子に対応付けてメロディ成分パラメータが格納されている。ここでメロディ成分パラメータとは、歌唱音声(本実施形態では、学習用波形データの表す歌唱音声)における音符間の基本周波数の時間変動のうち、メロディを表すと推測される変動成分(以下、メロディ成分)を最も高い確率で表現するHMMであるメロディ成分モデルを規定するモデルパラメータである。このメロディ成分パラメータには、メロディ成分モデルを構成する各状態の出力周波数(或いは、当該周波数の音波形)の出力確率分布の特徴を示すデータ(出力周波数の平均値と分散、同出力周波数の変化率(一次微分や二次微分)の平均値と分散)および状態間遷移確率を表すデータが含まれる。一方、音符識別子は、その音符識別子に対応付けてピッチカーブ生成用データベースに格納されているメロディ成分パラメータにより規定されるメロディ成分モデルでメロディ成分が表される音符の組み合わせを示す識別子である。この音符識別子は、例えば“C3、E3”のようにメロディ成分モデルによりメロディ成分が表現される2つの音符の組み合わせ(2つの音符の時系列)を示すものであっても良いし、“長3度上昇”のように音符間の音程差を示すものであっても良い。後者のように音程差で音符の組み合わせを示す音符識別子は、その音程差を有する複数組の音符の組み合わせを示すものである。また、音符識別子は、2つの音符の組み合わせ(或いは、各々2個の音符からなる複数組の音符の組み合わせ)を示すものには限定されず、(休符、C3、E3・・・)といった具合に3個以上の音符の組み合わせ(3つ以上の音符の時系列)を示すものであっても良い。
本実施形態では、図1のピッチカーブ生成用データベースは以下の要領で生成される。すなわち、学習用波形データおよび学習用スコアデータがインタフェース群120を介して歌唱合成装置1Aに入力され、その学習用波形データの示す歌唱音声の歌唱者を示す情報が操作部130に対する操作により入力されると、それら学習用波形データおよび学習用スコアデータを使用した機械学習を行うことにより歌唱者毎にピッチカーブ生成用データベースが生成される。ここで、ピッチカーブ生成用データベースを歌唱者毎に生成するのは、歌唱音声においては、メロディを表す基本周波数の時間変動の態様(例えば、C3から一旦下がった後、はずみをつけてE3までピッチが上昇するといった変動態様や、C3からE3までよどみなく歌いあげるようにピッチが上昇するといった変動態様)に歌唱者固有の歌唱表現が表れると考えられるからである。前述したように、HMMを利用した従来の音声合成技術では、コンテキスト依存性を加味して音素単位で音声をモデル化していたのであるが、本実施形態では歌詞を構成する音素とは独立に歌唱曲のメロディを構成する音符の組み合わせを単位として基本周波数の時間変動の態様をモデル化するため、各歌唱者固有の歌唱表現を的確にモデル化することができるのである。
音素波形データベースには、図2(B)に示すように、歌詞を構成する様々な音素の各々を一意に識別する音素識別子に対応付けてその音素のスペクトル分布の概形など表す波形特徴データが格納されている。この音素波形データベースの格納内容は、従来の音声合成技術におけるものと同様、音素に依存したフィルタ処理を行う際に利用される。
データベース生成プログラム154aは、学習用スコアデータの示す音符の時系列(すなわち、歌唱曲のメロディを構成する音符の時系列)から音符識別子を抽出するとともに、学習用スコアデータと学習用波形データとから各音符識別子に対応付けるメロディ成分パラメータを機械学習により生成し、両者を対応付けてピッチカーブ生成用データベースに格納するデータベース生成処理を制御部110に実行させるためのプログラムである。例えば、音符識別子として2つの音符の組み合わせを示すものを用いる場合には、学習用スコアデータの示す音符の時系列の先頭から順に(C3,E3)、(E3,C4)・・・といった具合に2個ずつの音符の組み合わせを示す音符識別子を抽出すれば良い。一方、歌唱合成プログラム154bは、ピッチカーブ生成用データベースを生成済みの歌唱者のうちの何れかを操作部130に対する操作により利用者に指定させ、歌唱合成用スコアデータと上記利用者により指定された歌唱者についてのピッチカーブ生成用データベースおよび音素波形データベースの格納内容とから歌唱合成を行う歌唱合成処理を制御部110に実行させるプログラムである。これら各プログラムにしたがって制御部110が実行する処理の詳細については、重複を避けるため、動作説明において明らかにする。
以上が歌唱合成装置1Aの構成である。
(A−2:動作)
次いで、データベース生成プログラム154aおよび歌唱合成プログラム154bの各々にしたがって制御部110が実行する処理について説明する。図3は、制御部110がデータベース生成プログラム154aにしたがって実行するデータベース生成処理、および歌唱合成プログラム154bにしたがって実行する歌唱合成処理の流れを示す図である。図3に示すように、データベース生成処理は、メロディ成分抽出処理SA110と機械学習処理SA120を含んでおり、歌唱合成処理は、ピッチカーブ生成処理SB110とフィルタ処理SB120を含んでいる。
まず、データベース生成処理について説明する。メロディ成分抽出処理SA110は、学習用波形データを解析し、その学習用波形データにより表される歌唱音声にてメロディを表していると推測される基本周波数の時間変動を表すデータ(以下、メロディ成分データ)を生成する処理である。ここでメロディ成分抽出処理SA110の具体的な処理態様としては以下の2つの態様が挙げられる。
第1の態様は、学習用波形データに対してフレーム単位でピッチ抽出アルゴリズムにしたがったピッチ抽出を施し、各フレームから抽出されるピッチを示すデータの配列(以下、ピッチデータ)をメロディ成分データとする態様である。なお、ピッチ抽出アルゴリズムとしては既存のものを用いれば良い。これに対して第2の態様は、上記ピッチデータから、さらに音素に依存したピッチ変動の成分(以下、音素依存成分)を除去してメロディ成分データとする態様である。ここで、ピッチデータから音素依存成分を除去する具体的な手法としては、以下のものが考えられる。すなわち、上記ピッチデータを学習用スコアデータの表す歌詞を構成する各音素に対応する区間毎に区切り、子音に対応する区間については、その前後の音符の表すピッチを図4にて一点鎖線で示すように線形補間し、その補間直線の示すピッチの配列をメロディ成分データとする手法である。
なお、本実施形態における上記第2の態様では、上記前後の音符の各々が表すピッチ(各音符の楽譜上の位置(音高方向の位置)により表されるピッチ)を線形補間し、その補間直線の示すピッチの配列をメロディ成分データとした。しかし、要は、音素に依存したピッチ変動の成分を除去してメロディ成分データを生成することができる態様であれば良く、他にも以下のような態様が考えられる。例えば、上記前後の音符のうちの前のものの時間軸方向の位置においてピッチデータが示すピッチと、後のものの時間軸方向の位置においてピッチデータが示すピッチとを線形補間し、その補間直線の示すピッチの配列をメロディ成分データとする態様が考えられる。音符の楽譜上の位置により表されるピッチは、ピッチデータの示すピッチ(すなわち、実際の歌唱音声において当該音符に対応するピッチ)とは必ずしも一致しないからである。
さらに別の態様としては、子音に対応する区間の両端位置の各々においてピッチデータの示すピッチを線形補間し、その補間直線の示すピッチの配列をメロディ成分データとする態様が考えられる。また、子音に対応するものとして学習用スコアデータにしたがって区切られる区間よりも若干広い区間の両端位置においてピッチデータが示すピッチを線形補間してメロディ成分データを生成するようにしても良い。このように、学習用スコアデータにしたがって区切られる区間よりも若干広い区間の両端位置におけるピッチを線形補間してメロディ成分データを生成することで、学習用スコアデータにしたがって区切られる区間の両端位置におけるピッチを線形補間してメロディ成分データを生成する場合に比較して、当該子音に起因する音素依存成分をより良好に除去できることが本出願人の行った実験により判明したからである。なお、子音に対応するものとして学習用スコアデータにしたがって区切られる区間よりも若干広い区間の具体例としては、当該子音に対応する区間の直前の区間内の任意の位置を開始位置とし、かつ当該子音に対応する区間の直後の区間内の任意の位置を終了位置とする区間、或いは、当該子音に対応するものとして学習用スコアデータにしたがって区切られる区間の開始位置よりも所定時間分だけ前の位置を開始位置とし、かつ当該子音に対応する区間の終了位置よりも所定時間分だけ後ろの位置を終了位置とする区間、が挙げられる。
上記第1の態様の場合、簡便にメロディ成分データを得ることができるといった利点がある一方、学習用波形データにより表される歌唱音声に無声子音(ピッチ変動における音素依存性が特に高いと考えられる音素)が含まれている場合に正確なメロディ成分データを抽出できない、といった欠点がある。一方、第2の態様には、第1の態様に比較してメロディ成分データを得るための処理負荷が高くなるといった欠点があるものの、上記のような無声子音が歌唱音声に含まれている場合であっても正確なメロディ成分データを得ることができる、といった利点がある。なお、全ての子音について音素依存成分を除去するのではなく、ピッチ変動における音素依存性が特に高いと考えられる子音(例えば、無声子音)のみを対象として音素依存成分の除去を行っても良い。具体的には、ピッチ変動における音素依存性が特に高いと考えられる子音が学習用波形データの表す歌唱音声に含まれているか否かに応じて学習用波形データ毎に上記第1および第2の態様の何れでメロディ成分抽出を行うのかを切り換えても良く、また、歌詞を構成する音素単位で切り換えても良い。
機械学習処理SA120では、学習用スコアデータとメロディ成分抽出処理SA110にて生成したメロディ成分データとを使用し、バウム=ウェルチアルゴリズム等を利用した機械学習を行うことにより、学習用波形データの表す歌唱音声にてメロディを表していると推測される基本周波数の時間変動(すなわち、前述したメロディ成分)を表すメロディ成分モデル(本実施形態では、HMM)を規定するメロディ成分パラメータが音符の組み合わせ毎に生成される。このようにして生成されるメロディ成分パラメータは、そのメロディ成分モデルにより基本周波数の時間変動が表される音符の組み合わせを示す音符識別子と対応付けてピッチカーブ生成用データベースに格納される。この機械学習処理SA120においては、まず、メロディ成分データの表すピッチカーブをモデル化対象とする複数の区間に区分けする処理が行われる。ここで、上記ピッチカーブをどのように区分けするのかについては種々の態様が考えられるが、本実施形態では、1つの区間に複数の音符が含まれるように区分けすることに特徴がある。例えば、図5(A)に示すような態様で基本周波数が変化している区間について学習用スコアデータの示す音符の時系列が同図5(A)に示すように4分休符→4分音符(C3)→8分音符(E3)→8分休符である場合、この区間全体をモデル化対象とする態様が考えられる。また、上記区間を音符から他の音符への遷移区間に細分化し、各遷移区間をモデル化対象とする態様も考えられる。前述したように、1つの音符には少なくとも1つの音素が対応するから、上記のように1つの区間に複数の音符が含まれるようにモデル化対象の区間を区分けすることによって、複数の音素にまたがる歌唱表現を的確にモデル化することができると期待される。そして、機械学習処理SA120では、上記のようにして区分けされた各モデル化対象区間について、メロディ成分データの示すピッチの時間変化を最も高い確率で表現するようなHMMモデルがバウム=ウェルチアルゴリズム等にしたがって生成される。
図5(B)は、図5(A)に示す4分休符→4分音符(C3)→8分音符(E3)→8分休符からなる区間全体をモデル化対象とした場合の機械学習の学習結果の一例を示す図である。図5(B)に示す例では、上記モデル化対象区間全体が3つの状態(4分休符から4分音符への遷移区間を表現する状態1、4分音符から8分音符への遷移区間を表現する状態2、および8分音符から8分休符への遷移区間を表現する状態3)の状態遷移で表現されている。なお、図5(B)に示す例では、音符から他の音符への遷移区間が各々1つの状態で表現されているが、1つの遷移区間が複数の状態の状態遷移で表現されることもあり、また、連続するN(N≧2)個の遷移区間がM(M<N)個の状態の状態遷移で表現されることもあり得る。これに対して、図5(C)は、音符から他の音符への遷移区間の各々をモデル化対象とした場合の機械学習の学習結果の一例を示す図である。図5(C)に示す例では、4分音符から8分音符への遷移区間が複数の状態(図5(C)では3つの状態)の状態間遷移で表現されている。なお、図5(C)では、音符から他の音符への遷移区間が3つの状態の状態遷移で表現されているが、音符の組み合わせによっては、2つまたは4つ以上の状態の状態遷移で表現されることもあり得る。
図5(C)に示すように音符から他の音符への遷移区間をモデル化対象とする態様においては、(休符,C3)、(C3,E3)・・・といった具合に各メロディ成分パラメータに対応付ける音符識別子として2つの音符の組み合わせを示すものを生成すれば良く、図5(B)に示すように3つ以上の音符を含む区間をモデル化対象とする態様においては、各メロディ成分パラメータに対応付ける音符識別子として3つ以上の音符の組み合わせを示すものを生成すれば良い。なお、複数組の各々異なる音符の組み合わせについて同一のメロディ成分モデルで表現される場合には、音符の組み合わせ毎にメロディ成分パラメータをピッチカーブ合成用データベースに書き込むことに代えて、前述した“長3度上昇”のようにそれら複数組の音符の組み合わせを示す新たな音符識別子を生成し当該新たな音符識別子と複数組の音符の組み合せの各々のメロディ成分を表現するメロディ成分モデルを規定するメロディ成分パラメータをピッチカーブ合成用データベースに書き込むようにすることは言うまでもなく、このような処理を行うことは既存の機械学習アルゴリズムでもサポートされている。
以上が本実施形態におけるデータベース生成処理の内容である。
次いで、歌唱合成処理を構成するピッチカーブ生成処理SB110およびフィルタ処理SB120について説明する。ピッチカーブ生成処理SB110は、HMMを利用した従来技術におけるものと同様に、歌唱合成用スコアデータとピッチカーブ生成用データベースの格納内容とを利用して、その歌唱合成用スコアデータの示す音符の時系列に対応するピッチカーブを合成する処理である。より詳細に説明すると、このピッチカーブ生成処理SB110では、歌唱合成用スコアデータの示す音符の時系列を2つの音符または3つ以上の音符からなる音符の組に区切り、それら音符の組の各々に対応するメロディ成分パラメータをピッチカーブ生成用データベースから読み出す。例えば、前述した音符識別子として2つの音符の組み合わせを示すもののみが用いられている場合には、歌唱合成用スコアデータの示す音符の時系列を2つの音符の組に区切って該当するメロディ成分パラメータの読み出しを行うようにすれば良い。そして、それらメロディ成分パラメータの示す状態継続長確率を参照し、最も高い確率で現れると推測される状態遷移系列を特定するとともに、各状態における周波数の出力確率分布から、最も高い確率で出力されると推測される周波数をそれら状態の各々について特定する処理をビタビアルゴリズム等にしたがって実行する。このようにして特定された周波数の時系列により上記ピッチカーブが表されるのである。
以降、制御部110は、従来の音声合成と同様に、ピッチカーブ生成処理SB110にて生成されたピッチカーブにしたがって基本周波数が時間変化する音信号を出力するように音源(例えば、正弦波発生器:図1では図示略)の駆動制御を行い、その音源から出力される音信号に対して、歌唱合成用スコアデータの示す歌詞を構成する音素に依存したフィルタ処理SB120を施して出力する。より詳細に説明すると、このフィルタ処理SB120では、制御部110は、歌唱合成用スコアデータの示す歌詞を構成する音素を示す音素識別子に対応付けて音素波形データベースに格納されている波形特徴データを読み出し、この波形特徴データに応じたフィルタ特性のフィルタ処理を上記音信号に施して出力する。これにより歌唱合成が実現されるのである。
以上が本実施形態における歌唱合成処理の内容である。
以上説明したように本実施形態によれば、歌唱曲のメロディを構成する音符間のメロディ成分を表現するメロディ成分モデルを規定するメロディ成分パラメータが音符の組み合わせ毎に生成され、歌唱者毎にデータベース化される。そして、歌唱合成用スコアデータにしたがって歌唱合成を行う際には、利用者により指定された歌唱者に対応するピッチカーブ生成用データベースの格納内容に基づいて歌唱合成用スコアデータの示す歌唱曲のメロディを表すピッチカーブが生成される。ピッチカーブ生成用データベースに格納されているメロディ成分パラメータの規定するメロディ成分モデルは、歌唱者固有のメロディ成分を表現するものであるから、このメロディ成分モデルにしたがってピッチカーブの合成を行うことにより、歌唱者固有の歌唱表現を的確に反映したメロディを合成することが可能になる。つまり、本実施形態によれば、従来の音素単位で歌唱音声をモデル化する歌唱合成技術や素片接続方式の歌唱合成技術に比較して、歌唱者固有のメロディの歌いまわしの歌唱表現を的確に反映した歌唱合成を行うことが可能になる。
(B:第2実施形態)
次いで、本発明の第2実施形態について説明する。
(B−1:構成)
図6は、本発明の第2の実施形態である歌唱合成装置1Bの構成例を示す図である。図6では、図1と同一の構成要素には同一の符号が付されている。図6と図1を対比すれば明らかように、歌唱合成装置1Bは、歌唱合成装置1Aと同一のハードウェア構成(制御部110、インタフェース群120、操作部130、表示部140、記憶部150およびバス160からなるハードウェア構成)を有するものの、ソフトウェア構成(すなわち、記憶部150に格納されているプログラムおよびデータ)が歌唱合成装置1Aと異なっている。より詳細に説明すると、歌唱合成装置1Bのソフトウェア構成は、データベース生成プログラム154aに代えてデータベース生成プログラム154dを、歌唱合成プログラム154bに代えて歌唱合成プログラム154eを、歌唱合成用データベース154cに代えて歌唱合成用データベース154fを不揮発性記憶部154に格納した点が歌唱合成装置1Aのソフトウェア構成と異なる。
以下、第1実施形態との相違点を中心に説明する。
歌唱合成用データベース154fは、ピッチカーブ生成用データベースと音素波形データベースの他に音素依存成分補正用データベースを含む点が歌唱合成用データベース154cと異なる。音素依存成分補正用データベースには、歌唱音声における基本周波数の時間変動に影響を与え得る音素を示す音素識別子に対応付けてその音素に起因した基本周波数の時間変動の特徴を表現するHMMである音素依存成分モデルを規定するHMMパラメータ(以下、音素依存成分パラメータ)が格納される。詳細については後述するが、この音素依存成分補正用データベースは、学習用波形データと学習用スコアデータとを用いてピッチカーブ生成用データベースを生成するデータベース生成処理の実行過程で歌唱者毎に生成される。
(B−2:動作)
次いで、データベース生成プログラム154dおよび歌唱合成プログラム154eの各々にしたがって歌唱合成装置1Bの制御部110が実行する処理について説明する。
図7は、制御部110がデータベース生成プログラム154dにしたがって実行するデータベース生成処理、および歌唱合成プログラム154eにしたがって実行する歌唱合成処理の流れを示す図である。図7では、図3におけるものと同一の処理については同一の符号が付されている。以下、図3に示した各処理との相違点を中心に説明する。
まず、データベース生成処理について説明する。
図7に示すように、データベース生成プログラム154dにしたがって制御部110が実行するデータベース生成処理は、ピッチ抽出処理SD110、分離処理SD120、機械学習処理SA120および機械学習処理SD130を含んでいる。ピッチ抽出処理SD110および分離処理SD120は、図3のメロディ成分抽出処理SA110に相当し、前述した第2の態様でメロディ成分データを生成する処理である。より詳細に説明すると、ピッチ抽出処理SD110は、インタフェース群120を介して入力される学習用波形データに対してフレーム単位で既存のピッチ抽出アルゴリズムにしたがったピッチ抽出を施し、各フレームから抽出されるピッチを示すデータの配列をピッチデータとして生成する処理である。一方、分離処理SD120は、ピッチ抽出処理SD110にて生成したピッチデータを学習用スコアデータの表わす歌詞を構成する音素に対応する区間毎に区切り、前掲図4に示した要領で音素依存成分を除去してメロディに依存したピッチ変動を表すメロディ成分データを生成する。また、この分離処理SD120では、音素に起因したピッチ変動を表す音素依存成分データ(図4における一点鎖線と実線との差分を示すデータ)も生成される。
図7に示すように、分離処理SD120により生成されたメロディ成分データは、機械学習処理SA120にてピッチカーブ生成用データベースの生成に利用され、同分離処理SD120により生成された音素依存成分データは機械学習処理SD130にて音素依存成分補正用データベースの生成に利用される。より詳細に説明すると、機械学習処理SA120では、学習用スコアデータと分離処理SD120により生成されたメロディ成分データとを使用してバウム=ウェルチアルゴリズム等を利用した機械学習が行われ、学習用波形データの表す歌唱音声においてメロディを表していると推測される基本周波数の時間変動を表すメロディ成分モデル(本実施形態では、HMM)を規定するメロディ成分パラメータが音符の組み合わせ毎に生成される。そして、機械学習処理SA120では、上記のようにして生成したメロディ成分パラメータに、そのメロディ成分パラメータにより規定されるメロディ成分モデルによって基本周波数の時間変動が表される音符の組み合わせを示す音符識別子を対応付けてピッチカーブ生成用データベースに格納する処理が行われるのである。これに対して、機械学習処理SD130では、学習用スコアデータと分離処理SD120により生成された音素依存成分データとを使用してバウム=ウェルチアルゴリズム等を利用した機械学習が行われ、上記学習用波形データの表わす歌唱音声における基本周波数の時間変動のうち、基本周波数の時間変動に影響を与え得る音素に起因した成分(すなわち、音素依存成分)を表わす音素依存成分モデル(本実施形態では、HMM)を規定する音素依存成分パラメータが音素毎に生成される。そして、機械学習処理SD130では、上記のようにして生成した音素依存成分パラメータに、その音素依存成分パラメータにより規定される音素依存成分モデルにより音素依存成分が表わされる音素を一意に識別する音素識別子を対応付けて音素依存成分補正用データベースに格納する処理が行われるのである。
以上が本実施形態におけるデータベース生成処理である。
次いで、歌唱合成処理について説明する。
図7に示すように、歌唱合成プログラム154eにしたがって制御部110が実行する歌唱合成処理は、ピッチカーブ生成処理SB110、音素依存成分補正処理SE110およびフィルタ処理SB120を含んでいる。図7に示すように、本実施形態の歌唱合成処理は、ピッチカーブ生成処理SB110により生成したピッチカーブに対して音素依存成分補正処理SE110を施し、この補正後のピッチカーブにしたがって音信号を音源に出力させ、この音信号にフィルタ処理SB120を施す点が図3に示す歌唱合成処理と異なる。音素依存成分補正処理SE110では、歌唱合成用スコアデータの示す歌詞を構成する音素の区間毎に、以下の要領でピッチカーブを補正する処理が行われる。すなわち、歌唱音声の合成対象として指定された歌唱者についての音素依存成分補正用データベースから、歌唱合成用スコアデータの示す歌詞を構成する音素に対応する音素依存成分パラメータを読み出し、その音素依存成分パラメータにより規定される音素依存成分モデルの表すピッチ変動を付与することで上記ピッチカーブの補正が行われるのである。このようなピッチカーブの補正を行うことによって、合成対象として指定された歌唱者のメロディの歌いまわしについての歌唱表現に加え、その歌唱者の音素の発音態様に起因したピッチ変動を反映したピッチカーブが生成されるのである。
以上説明したように本実施形態によれば、歌唱者固有のメロディの歌いまわしの歌唱表現を反映した歌唱合成を行うことが可能になるとともに、歌唱者固有の音素の発音態様に起因したピッチ変動の特徴を反映した歌唱合成を行うことが可能になる。なお、本実施形態では、ピッチカーブの補正を行う音素を特に限定しなかったが、歌唱音声の基本周波数の時間変動に与える影響が特に大きいと推測される音素(例えば、無声子音)の区間についてのみピッチカーブを補正するようにしても勿論良い。具体的には、歌唱音声における基本周波数の時間変動に与える影響が特に大きいと推測される音素を予め特定しておき、それら音素についてのみ機械学習処理SD130を行って音素依存成分補正用データベースを生成するとともに、それら音素についてのみ音素依存成分補正処理SE110を行うようにすれば良い。また、本実施形態では、音素依存成分補正用データベースを歌唱者毎に生成したが、各歌唱者に共通の一つの音素依存成分補正用データベースを生成するようにしても良い。このように各歌唱者に共通の音素依存成分補正用データベースを生成する態様においては、多数の歌唱者に共通して表れる音素の発音態様に起因したピッチ変動の特徴が音素毎にモデル化されてデータベース化されることとなり、歌唱者固有のメロディの歌いまわしの歌唱表現を反映しつつ、多数の歌唱者に共通して表れる音素固有のピッチ変動の特徴を反映した歌唱合成を行うことが可能になる。
(C:変形)
以上、本発明の第1および第2実施形態について説明したが、かかる実施形態に以下に述べる変形を加えても勿論良い。
(1)上述した各実施形態では、本発明の特徴を顕著に示す各処理をソフトウェアで実現した。しかし、メロディ成分抽出処理SA110を実行するメロディ成分抽出手段、および機械学習処理SA120を実行する機械学習手段、ピッチカーブ生成処理SB110を実行するピッチカーブ生成手段、およびフィルタ処理SB120を実行するフィルタ処理手段の各々を電子回路で構成し、学習用波形データや各種スコアデータを入力するための入力手段と組み合わせて歌唱合成装置1Aを構成しても良い。同様に、ピッチ抽出処理SD110を実行するピッチ抽出手段、分離処理SD120を実行する分離手段、機械学習処理SA120および機械学習処理SD130を実行する機械学習手段、音素依存成分補正処理SE110を実行する音素依存成分補正手段の各々を電子回路で構成し、上記入力手段、ピッチカーブ生成手段およびフィルタ処理手段と組み合わせて歌唱合成装置1Bを構成しても勿論良い。
(2)図3(または図7)に示すデータベース生成処理を実行する歌唱合成用データベース生成装置と、同図3(または図7)に示す歌唱合成処理を実行する歌唱合成装置とを各々別個の装置とし、その各々に本発明を適用しても勿論良い。また、上記各実施形態にて説明したピッチカーブ生成用データベースの格納内容と歌唱合成用スコアデータとから、合成対象の歌唱音声のピッチカーブを合成するピッチカーブ生成装置に本発明を適用しても勿論良い。また、上記ピッチカーブ生成装置を含み、そのピッチカーブ生成装置により生成されるピッチカーブにしたがって、歌詞を構成する音素の素片データにピッチ変換を施しつつ接続することで歌唱合成を行う歌唱合成装置を構成することも考えられる。
(3)上述した各実施形態では、本発明の特徴を顕著に示すデータベース生成プログラム154a(或いはデータベース生成プログラム154d)が歌唱合成装置1A(或いは歌唱合成装置1B)の不揮発性記憶部154に予め格納されていた。しかし、これらデータベース生成プログラムをCD−ROMなどのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。歌唱合成プログラム154b(或いは歌唱合成プログラム154e)についても同様にコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、電気通信回線系由のダウンロードにより配布しても良い。
1A,1B…歌唱合成装置、110…制御部、120…インタフェース群、130…操作部、140…表示部、150…記憶部、152…揮発性記憶部、154…不揮発性記憶部、154a,154d…データベース生成プログラム、154b,154e…歌唱合成プログラム、154c,154f…歌唱合成用データベース、160…バス。

Claims (3)

  1. 歌唱曲の歌唱音声の音波形を示す学習用波形データと、前記歌唱曲の楽譜を表す学習用スコアデータとが入力される入力手段と、
    前記学習用波形データを解析し、前記歌唱音声における基本周波数の時間変動を表すピッチデータを生成するピッチ抽出手段と、
    前記学習用スコアデータを用いて前記歌唱曲の歌詞を構成する音素に対応する区間毎に前記ピッチデータを解析し、前記歌唱曲のメロディに依存した基本周波数の変動分を表すメロディ成分データと、歌詞を構成する音素に依存した基本周波数の変動分を表す音素依存成分データとに分離する分離手段と、
    前記学習用スコアデータと前記メロディ成分データとを用いた機械学習により、前記歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを規定するメロディ成分パラメータを音符の組み合わせ毎に生成するとともに、前記学習用スコアデータと前記音素依存成分データとを用いた機械学習により前記歌唱音声における音素に依存した基本周波数の変動成分を表現する音素依存成分モデルを規定する音素依存成分パラメータを音素毎に生成し、前記メロディ成分パラメータとそのメロディ成分パラメータにより規定されるメロディ成分モデルによりメロディを表す基本周波数の時間変動が表される1組または複数組みの音符の組み合わせを示す識別子とを対応付けて歌唱合成用データベースに書き込むとともに、前記音素依存成分パラメータとその音素依存成分パラメータにより規定される音素依存成分モデルにより音素に依存した基本周波数の変動成分が表される音素を示す識別子を対応付けて前記歌唱合成用データベースに書き込む機械学習手段と、
    を有することを特徴とする歌唱合成用データベース生成装置。
  2. 前記学習用波形データとして複数の歌唱者の各々の歌唱音声を表す複数の学習用波形データが前記入力手段に入力された場合には、前記機械学習手段は、前記複数の学習用波形データの各々に基づいて生成されるメロディ成分パラメータを歌唱者毎に分類して前記歌唱合成用データベースに書き込むことを特徴とする請求項1に記載の歌唱合成用データベース生成装置。
  3. 複数の歌唱者の各々の歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを規定するメロディ成分パラメータとそのメロディ成分モデルによりメロディを表す基本周波数の時間変動が表される1組または複数組の音符の組み合わせを示す識別子とが歌唱者毎に分類されて格納されているとともに、前記基本周波数の時間変動のうち音素に依存した変動成分を表現する音素依存成分モデルを規定する音素依存成分パラメータに対応付けてその音素依存成分モデルにより基本周波数の変動成分が表される音素を示す識別子が格納されている歌唱合成用データベースと、
    歌唱曲の楽譜を表す歌唱合成用スコアデータが入力されるとともに、前記歌唱合成用データベースにメロディ成分パラメータおよび音素依存成分パラメータが格納されている歌唱者のうちの何れかを指定する情報が入力される入力手段と、
    前記入力手段に入力された情報の示す歌唱者のものとして前記歌唱合成用データベースに格納されているメロディ成分パラメータにより規定されるメロディ成分モデルと前記歌唱合成用スコアデータの表す音符の時系列とから、当該歌唱合成用スコアデータの表す歌唱曲のメロディのピッチカーブを合成するピッチカーブ生成手段と、
    前記ピッチカーブを、前記歌唱合成用スコアデータの示す歌詞を構成する音素の区間毎に、当該音素のものとして前記歌唱合成用データベースに格納されている音素依存成分パラメータにより規定される音素依存成分モデルにしたがって補正して出力する音素依存成分補正手段と、
    を有することを特徴とするピッチカーブ生成装置。
JP2010131837A 2009-07-02 2010-06-09 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 Expired - Fee Related JP5471858B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010131837A JP5471858B2 (ja) 2009-07-02 2010-06-09 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
EP10167620A EP2270773B1 (en) 2009-07-02 2010-06-29 Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
US12/828,409 US8423367B2 (en) 2009-07-02 2010-07-01 Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009157531 2009-07-02
JP2009157531 2009-07-02
JP2010131837A JP5471858B2 (ja) 2009-07-02 2010-06-09 歌唱合成用データベース生成装置、およびピッチカーブ生成装置

Publications (2)

Publication Number Publication Date
JP2011028230A true JP2011028230A (ja) 2011-02-10
JP5471858B2 JP5471858B2 (ja) 2014-04-16

Family

ID=42753005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010131837A Expired - Fee Related JP5471858B2 (ja) 2009-07-02 2010-06-09 歌唱合成用データベース生成装置、およびピッチカーブ生成装置

Country Status (3)

Country Link
US (1) US8423367B2 (ja)
EP (1) EP2270773B1 (ja)
JP (1) JP5471858B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5874639B2 (ja) * 2010-09-06 2016-03-02 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5605066B2 (ja) * 2010-08-06 2014-10-15 ヤマハ株式会社 音合成用データ生成装置およびプログラム
JP5974436B2 (ja) * 2011-08-26 2016-08-23 ヤマハ株式会社 楽曲生成装置
JP6171711B2 (ja) * 2013-08-09 2017-08-02 ヤマハ株式会社 音声解析装置および音声解析方法
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
US9269339B1 (en) * 2014-06-02 2016-02-23 Illiac Software, Inc. Automatic tonal analysis of musical scores
JP6561499B2 (ja) * 2015-03-05 2019-08-21 ヤマハ株式会社 音声合成装置および音声合成方法
US10008193B1 (en) * 2016-08-19 2018-06-26 Oben, Inc. Method and system for speech-to-singing voice conversion
US10134374B2 (en) * 2016-11-02 2018-11-20 Yamaha Corporation Signal processing method and signal processing apparatus
CN108877753B (zh) * 2018-06-15 2020-01-21 百度在线网络技术(北京)有限公司 音乐合成方法及系统、终端以及计算机可读存储介质
JP6610715B1 (ja) * 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6547878B1 (ja) * 2018-06-21 2019-07-24 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6610714B1 (ja) * 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
CN109241312B (zh) * 2018-08-09 2021-08-31 广东数相智能科技有限公司 旋律的填词方法、装置及终端设备
JP6737320B2 (ja) 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム
JP6747489B2 (ja) 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
JP7059972B2 (ja) 2019-03-14 2022-04-26 カシオ計算機株式会社 電子楽器、鍵盤楽器、方法、プログラム
CN110136678B (zh) * 2019-04-26 2022-06-03 北京奇艺世纪科技有限公司 一种编曲方法、装置及电子设备
US12059533B1 (en) 2020-05-20 2024-08-13 Pineal Labs Inc. Digital music therapeutic system with automated dosage
CN112542155B (zh) * 2020-11-27 2021-09-21 北京百度网讯科技有限公司 歌曲合成方法及模型训练方法、装置、设备与存储介质
CN112992106B (zh) * 2021-03-23 2024-06-25 平安科技(深圳)有限公司 基于手绘图形的音乐创作方法、装置、设备及介质
CN113345453B (zh) * 2021-06-01 2023-06-16 平安科技(深圳)有限公司 歌声转换方法、装置、设备及存储介质
CN113436591B (zh) * 2021-06-24 2023-11-17 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282493A (ja) * 1998-03-31 1999-10-15 Matsushita Electric Ind Co Ltd 音声合成方法とその装置
JP2003108179A (ja) * 2001-10-01 2003-04-11 Nippon Telegr & Teleph Corp <Ntt> 歌唱音声合成における韻律データ収集方法、韻律データ収集プログラム、そのプログラムを記録した記録媒体
JP2007240564A (ja) * 2006-03-04 2007-09-20 Yamaha Corp 歌唱合成装置および歌唱合成プログラム
JP2007256866A (ja) * 2006-03-24 2007-10-04 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP2009075611A (ja) * 2008-12-08 2009-04-09 Yamaha Corp 合唱合成装置、合唱合成方法およびプログラム
JP2011013454A (ja) * 2009-07-02 2011-01-20 Yamaha Corp 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP2013164609A (ja) * 2013-04-15 2013-08-22 Yamaha Corp 歌唱合成用データベース生成装置、およびピッチカーブ生成装置

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3102335B2 (ja) * 1996-01-18 2000-10-23 ヤマハ株式会社 フォルマント変換装置およびカラオケ装置
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5895449A (en) * 1996-07-24 1999-04-20 Yamaha Corporation Singing sound-synthesizing apparatus and method
JP3299890B2 (ja) * 1996-08-06 2002-07-08 ヤマハ株式会社 カラオケ採点装置
US5915237A (en) * 1996-12-13 1999-06-22 Intel Corporation Representing speech using MIDI
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
US6236966B1 (en) * 1998-04-14 2001-05-22 Michael K. Fleming System and method for production of audio control parameters using a learning machine
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
JP2000105595A (ja) * 1998-09-30 2000-04-11 Victor Co Of Japan Ltd 歌唱装置及び記録媒体
EP1138038B1 (en) * 1998-11-13 2005-06-22 Lernout &amp; Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
JP2001109489A (ja) * 1999-08-03 2001-04-20 Canon Inc 音声情報処理方法、装置および記憶媒体
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis
US6684187B1 (en) * 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) * 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP3838039B2 (ja) * 2001-03-09 2006-10-25 ヤマハ株式会社 音声合成装置
JP2002268660A (ja) 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
US7444286B2 (en) * 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
JP3815347B2 (ja) * 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP4153220B2 (ja) * 2002-02-28 2008-09-24 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP3823930B2 (ja) * 2003-03-03 2006-09-20 ヤマハ株式会社 歌唱合成装置、歌唱合成プログラム
JP3864918B2 (ja) * 2003-03-20 2007-01-10 ソニー株式会社 歌声合成方法及び装置
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
WO2006046761A1 (ja) * 2004-10-27 2006-05-04 Yamaha Corporation ピッチ変換装置
US7560636B2 (en) * 2005-02-14 2009-07-14 Wolfram Research, Inc. Method and system for generating signaling tone sequences
US7737354B2 (en) * 2006-06-15 2010-06-15 Microsoft Corporation Creating music via concatenative synthesis
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
US7977562B2 (en) * 2008-06-20 2011-07-12 Microsoft Corporation Synthesized singing voice waveform generator
US8575465B2 (en) * 2009-06-02 2013-11-05 Indian Institute Of Technology, Bombay System and method for scoring a singing voice
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
TWI394142B (zh) * 2009-08-25 2013-04-21 Inst Information Industry 歌聲合成系統、方法、以及裝置
JP5605066B2 (ja) * 2010-08-06 2014-10-15 ヤマハ株式会社 音合成用データ生成装置およびプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282493A (ja) * 1998-03-31 1999-10-15 Matsushita Electric Ind Co Ltd 音声合成方法とその装置
JP2003108179A (ja) * 2001-10-01 2003-04-11 Nippon Telegr & Teleph Corp <Ntt> 歌唱音声合成における韻律データ収集方法、韻律データ収集プログラム、そのプログラムを記録した記録媒体
JP2007240564A (ja) * 2006-03-04 2007-09-20 Yamaha Corp 歌唱合成装置および歌唱合成プログラム
JP2007256866A (ja) * 2006-03-24 2007-10-04 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP2009075611A (ja) * 2008-12-08 2009-04-09 Yamaha Corp 合唱合成装置、合唱合成方法およびプログラム
JP2011013454A (ja) * 2009-07-02 2011-01-20 Yamaha Corp 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP2013164609A (ja) * 2013-04-15 2013-08-22 Yamaha Corp 歌唱合成用データベース生成装置、およびピッチカーブ生成装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KEIJIRO SAINO, ET AL.: "A Singing Style Modeling System for Singing Voice Synthesizers", PROC. INTERSPEECH 2010, JPN7013004858, 26 September 2010 (2010-09-26), JP, pages 2894 - 2897, XP055284574, ISSN: 0002718468 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5874639B2 (ja) * 2010-09-06 2016-03-02 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム

Also Published As

Publication number Publication date
US20110004476A1 (en) 2011-01-06
JP5471858B2 (ja) 2014-04-16
US8423367B2 (en) 2013-04-16
EP2270773A1 (en) 2011-01-05
EP2270773B1 (en) 2012-11-28

Similar Documents

Publication Publication Date Title
JP5471858B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
US9818396B2 (en) Method and device for editing singing voice synthesis data, and method for analyzing singing
CN106971703A (zh) 一种基于hmm的歌曲合成方法及装置
US20110231193A1 (en) Synthesized singing voice waveform generator
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP2011048335A (ja) 歌声合成システム、歌声合成方法及び歌声合成装置
CN104050961A (zh) 语音合成装置和方法以及存储有语音合成程序的记录介质
JP2016161919A (ja) 音声合成装置
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP2003345400A (ja) ピッチ変換装置、ピッチ変換方法及びプログラム
JP6044284B2 (ja) 音声合成装置
JP4430174B2 (ja) 音声変換装置及び音声変換方法
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5699496B2 (ja) 音合成用確率モデル生成装置、特徴量軌跡生成装置およびプログラム
JPH06318094A (ja) 音声規則合成装置
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP6299141B2 (ja) 楽音情報生成装置および楽音情報生成方法
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
JP6191094B2 (ja) 音声素片切出装置
JP4603290B2 (ja) 音声合成装置および音声合成プログラム
CN116013246A (zh) 说唱音乐自动生成方法及系统
JP6036681B2 (ja) 音声合成システム、音声合成方法、および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130419

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140120

R150 Certificate of patent or registration of utility model

Ref document number: 5471858

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees