JP2010009034A - 歌声合成パラメータデータ推定システム - Google Patents

歌声合成パラメータデータ推定システム Download PDF

Info

Publication number
JP2010009034A
JP2010009034A JP2009129446A JP2009129446A JP2010009034A JP 2010009034 A JP2010009034 A JP 2010009034A JP 2009129446 A JP2009129446 A JP 2009129446A JP 2009129446 A JP2009129446 A JP 2009129446A JP 2010009034 A JP2010009034 A JP 2010009034A
Authority
JP
Japan
Prior art keywords
singing voice
pitch
parameter
volume
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009129446A
Other languages
English (en)
Other versions
JP5024711B2 (ja
Inventor
Michiyasu Nakano
倫靖 中野
Masataka Goto
真孝 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2009129446A priority Critical patent/JP5024711B2/ja
Publication of JP2010009034A publication Critical patent/JP2010009034A/ja
Application granted granted Critical
Publication of JP5024711B2 publication Critical patent/JP5024711B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Abstract

【課題】 入力歌声の音響信号から「人間らしい歌声」を合成するための歌声合成パラメータデータを自動推定する歌声合成パラメータデータ推定システムを提供する。
【解決手段】 音高パラメータ推定部9が、入力歌声の音響信号の少なくとも音高の特徴量と音節境界が指定された歌詞データとに基づいて、入力歌声の音響信号の音高の特徴量に合成された歌声の音響信号の音高の特徴量を近づけることができる音高パラメータを推定する。音量パラメータ推定部11が、入力歌声の音響信号の音量の特徴量を合成された歌声の音響信号の音量の特徴量に対して相対値化し、入力歌声の音響信号の相対値化した音量についての特徴量に合成された歌声の音響信号の音量の特徴量を近づけることができる音量パラメータを推定する。
【選択図】 図1

Description

本発明は、歌声合成を使用した音楽制作を支援するために、例えばユーザの入力歌声の音響信号から歌声合成パラメータデータを自動推定する歌声合成パラメータデータ推定システム及び方法並びに歌声合成パラメータデータ作成用プログラムに関するものである。
従来、「人間らしい歌声」を、コンピュータを利用した歌声合成技術により作成する様々な研究がなされている。例えば、非特許文献1乃至3には、サンプリングした入力歌声の音響信号の素片(波形) を連結する方式が開示されている。また非特許文献4には、歌声の音響信号をモデル化して合成を行う方式(HMM 合成) が開示されている。また、非特許文献5乃至7には、朗読音声の音響信号から入力歌声の音響信号を分析合成する研究が開示されている。非特許文献5乃至7に記載の研究では、ユーザの声質を保って、高品質で歌声合成をすることが検討されてきた。これらの研究によって、現在では「人間らしい歌声」の合成が可能となりつつあり、商品化されているものもある[非特許文献3及び8]。
そして従来の技術をユーザが利用するためには、歌詞データと楽譜情報(何を歌わせるか) と、歌唱の表情(どう歌わせるか) を入力するインタフェースが必要となる。非特許文献2乃至4の技術では、歌詞データと楽譜情報(音高・発音開始時刻・音長) を必要とする。また非特許文献9では、歌詞データのみを歌声合成システムに与える。更に非特許文献5乃至7に記載の技術では、朗読音声の音響信号と歌詞データと楽譜情報を歌声合成システムに与える。更に非特許文献10に記載の技術では、入力歌声の音響信号と歌詞データとを歌声合成システムに与える。これに対して非特許文献2及び3に記載の技術では、歌声合成システムに与えられるパラメータのうち、ユーザが表情に関するパラメータを調整する。また非特許文献4及び6に記載の技術では、歌い方や歌唱スタイルを予めモデル化している。さらに非特許文献7に記載の方法では、演奏記号(crescendo 等)を歌声合成システムに入力する。また非特許文献10の方法では、入力歌声の音響信号から表情パラメータを抽出する。
しかし、従来は、入力歌声の音響信号を入力として与えることができても、パラメータを反復推定したり、入力歌声の音響信号の音高や音量を修正したりできるものはなかった。ヤマハ株式会社が製造販売する「Vocaloid」(登録商標)と呼ばれる歌声合成システムでは、ユーザはピアノロール形式のスコアエディタで歌詞情報と楽譜情報とを入力し、表情付けパラメータを操作して歌声を合成している。
J. Bonada et al.: "Synthesis of the Singing Voice by Performance Sampling and Spectral Models," In IEEE Signal Processing Magazine, Vol.24, Iss.2, pp.67−79, 2007. 吉田由紀他: "歌声合成システム: CyberSingers," 情処研報99−SLP−25−8, pp. 35−40, 1998. 剣持秀紀他: "歌声合成システムVOCALOID− 現状と課題," 情処研報2008−MUS−74−9, pp.51−58, 2008. 酒向慎司他: "声質と歌唱スタイルを自動学習可能な歌声合成システム," 情処研報2008−MUS−74−7, pp.39−44, 2008. 河原英紀他: "高品質音声分析変換合成システムSTRAIGHTを用いたスキャット生成研究の提案," 情処学論, Vol.43, No.2,pp.208−218, 2002. 齋藤毅他: "SingBySpeaking: 歌声知覚に重要な音響特徴を制御して話声を歌声に変換するシステム," 情処研報2008−MUS−74−5, pp.25−32, 2008. 森山剛他: "好みの歌唱様式による歌詞朗読音声からの歌唱合成," 情処研報2008−MUS−74−6, pp.33−38, 2008. NTT-AT ワンダーホル(http://www.nttat.co.jp/product/wonderhorn/) 米林裕一郎他: "Orpheus: 歌詞の韻律を利用したWeb ベース自動作曲システム," インタラクション2008, pp.27−28, 2008. J. Janer et al.: "Performance−Driven Control for Sample-Based Singing Voice Synthesis," In DAFx−06, pp.42−44,2006.
より自然、あるいはより個性的な歌声を得るためには、表情パラメータの細かな調整が必要である。しかし、ユーザの能力によっては、自分の望む歌声を作るのが困難であった。また、歌声合成の条件(歌声合成システムやその音源データ) が異なると、歌声構成パラメータデータを調整しなおす必要があった。
非特許文献10には、入力歌声の音響信号と歌詞データとを入力として、音高、音量、ビブラート情報(深さ・速さ) 等の特徴量を抽出し、抽出した特徴量を歌声合成パラメータとして与える手法を提案している。また、非特許文献10に記載の技術では、そのようにして得られた歌声合成パラメータデータを、歌声合成システムのスコアエディタ上でユーザが編集することを想定している。しかし、入力歌声の音響信号から抽出した音高等の特徴量をそのまま歌声合成パラメータとしても、また既存の歌声合成システムのエディタを利用した編集作業を行っても、歌声合成の条件の違いには対処できなかった。
また非特許文献10に記載の技術では、音声認識技術で用いられるViterbiアラインメントによって、歌詞の音節毎の発音開始時刻と音長の決定(以降、歌詞アラインメントと呼ぶ) も自動的に行っていた。ここで、高品質な合成音を得るためには、100%に近い精度の歌詞アラインメントが必要である。しかしViterbi アラインメントのみではそのような高い精度を得ることが難しい。しかも、歌詞アラインメントの結果と、出力される合成音は完全には一致しない。しかし従来は、この不一致に対しては、何も対処は考えられていなかった。
本発明の目的は、入力歌声の音響信号から「人間らしい歌声」を合成するための歌声合成パラメータデータを自動推定する歌声合成パラメータデータ推定システム及び方法並びに歌声合成パラメータデータ作成用プログラムを提供することにある。
本発明のより具体的な目的は、合成された歌唱が入力歌唱と近くなるように、歌声合成パラメータデータを構成する音高パラメータ及び音量パラメータを反復更新することで、歌声合成の条件の変化に対処することができる歌声合成パラメータデータ推定システム及び方法並びに歌声合成パラメータデータ作成用プログラムを提供することにある。
上記目的に加えて、本発明の別の目的は、入力歌声の音響信号に対して、音高のずれやビブラートなどの歌唱要素を修正できる歌声合成パラメータデータ推定システムを提供することにある。
本発明の歌声合成パラメータデータ推定システムは、歌声合成システムにおいて使用する、選択した1種類の歌声音源データに適した歌声合成パラメータデータを作成する。本発明が作成する歌声合成パラメータデータを使用することができる歌声合成システムは、1種以上の歌声音源データが蓄積された歌声音源データベースと、歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と歌声合成部とを備えている。そして、歌声合成部は、歌声音源データベースから選択した1種類の歌声音源データと歌声合成パラメータデータと歌詞データとに基づいて、合成された歌声の音響信号を歌声合成部で合成して出力する。
本発明の歌声合成パラメータデータ推定システムは、入力歌声音響信号分析部と、音高パラメータ推定部と、音量パラメータ推定部と、歌声合成パラメータデータ作成部とを備えている。
入力歌声音響信号分析部は、入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析する。また音高パラメータ推定部は、入力歌声の音響信号の少なくとも音高の特徴量と音節境界が指定された歌詞データとに基づいて、音量パラメータを一定のものとして、入力歌声の音響信号の音高の特徴量に合成された歌声の音響信号の音高の特徴量を近づけることができる音高パラメータを推定する。そこで音高パラメータ推定部では、推定した音高パラメータに基づいて作成した仮の歌声合成パラメータデータを歌声合成部で合成して仮の合成された歌声の音響信号を得る。そしてこの仮の合成された歌声の音響信号の音高の特徴量が、入力歌声の音響信号の音高の特徴量に近づくまで、所定の回数音高パラメータの推定を繰り返すか、または仮の合成された歌声の音響信号の音高の特徴量が、入力歌声の音響信号の音高の特徴量に収束するまで音高パラメータの推定を繰り返す。このようにすると音源データが異なった場合でも、また歌声合成システムが異なったとしても、推定が繰り返されるたびに、仮の合成された歌声の音響信号の音高の特徴量が入力歌声の音響信号の音高の特徴量に自動的に近づいていく。
また本発明では、音高パラメータの推定を完了した後に、音量パラメータ推定部が、入力歌声の音響信号の音量の特徴量を合成された歌声の音響信号の音量の特徴量に対して相対値化し、入力歌声の音響信号の相対値化した音量についての特徴量に合成された歌声の音響信号の音量の特徴量を近づけることができる音量パラメータを推定する。この音量パラメータ推定部は、推定が完了した音高パラメータと推定した音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを歌声合成部で合成して仮の合成された歌声の音響信号を得る。そして音量パラメータ推定部は、仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に近づくまで所定の回数音量パラメータの推定を繰り返すか、または仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に収束するまで音量パラメータの推定を繰り返す。音量パラメータについて、音高パラメータの推定と同様に、推定を繰り返すと、音量パラメータの推定精度をより高いものとすることができる。
そして歌声合成パラメータデータ作成部は、推定が完了した音高パラメータ及び推定が完了した音量パラメータに基づいて歌声合成パラメータデータを作成して歌声合成パラメータデータ記憶部に記憶させる。
なお音高パラメータが代わると、音量パラメータも変わるが、音量パラメータが変わっても音高パラメータが変わる歌声合成システムはほとんどない。そのため、本発明のように音高パラメータの推定を先に完了した後で、音量パラメータの推定を行えば、音高パラメータの推定のやり直しが不要になる。その結果、本発明によれば、歌声合成パラメータデータを短い時間で、且つ簡単に作成することができる。ただし、音量パラメータが代わると、音高パラメータも変わる例外的な歌声合成システムの場合には、音高パラメータの推定を先に完了した後で、音量パラメータの推定を行い、さらに音高パラメータの推定をやり直す必要がある。また本発明によれば、音高パラメータ及び音量パラメータを複数回推定するため、歌声合成の条件の変化に対処して、入力歌声の音響信号から「人間らしい歌声」を合成するための歌声合成パラメータデータを高い精度で自動推定することができる。
音高パラメータは、音高の変化を示すことができるものであればよい。例えば、音高パラメータを、歌詞データの複数の音節のそれぞれに対応する入力歌声の音響信号の複数の部分区間の信号の基準音高レベルを示すパラメータ要素と、部分区間の信号の基準音高レベルに対する音高の時間的相対変化分を示すパラメータ要素と、部分区間の信号の音高方向への変化幅を示すパラメータ要素とから構成することができる。例えばMIDI規格あるいは市販の歌声合成システムで見ると、具体的には、基準音高レベルを示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのノートナンバであり、基準音高レベルに対する音高の時間的相対変化分を示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのピッチベンド(PIT)であり、音高方向への変化幅を示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのピッチベンドセンシティビィティ(PBS)である。
このように音高パラメータを3つのパラメータ要素によって構成する場合には、音高パラメータ推定部を、次のようしてこれらのパラメータ要素を推定することができる。まず基準音高レベルを示すパラメータ要素を決定した後、音高の時間的相対変化分を示すパラメータ要素と音高方向への変化幅を示すパラメータ要素について予め定めた初期値を設定する。次に、初期値に基づいて仮の歌声合成パラメータデータを作成し、該仮の歌声合成パラメータデータを歌声合成部で合成し仮の合成された歌声の音響信号を得る。そして仮の合成された歌声の音響信号の音高の特徴量を、入力歌声の音響信号の音高の特徴量に近づけるように音高の時間的相対変化分を示すパラメータ要素と音高方向への変化幅を示すパラメータ要素を推定する。以後推定したパラメータ要素に基づいて次の仮の歌声合成パラメータデータを作成する。そして次の仮の歌声合成パラメータデータを歌声合成部で合成して得た次の仮の合成された歌声の音響信号の音高の特徴量を、入力歌声の音響信号の音高の特徴量に近づけるように音高の時間的相対変化分を示すパラメータ要素と音高方向への変化幅を示すパラメータ要素を再推定する動作を繰り返す。このようにすると最初に基準音高レベルを決定した後は、残りの2つのパラメータ要素を繰り返し推定すればよいので、パラメータ要素の推定が容易になり、音高パラメータを3つのパラメータ要素によって構成することが可能になる。
また音量パラメータ推定部は、音量パラメータの推定のために、次の二つの機能を備えているのが好ましい。一つの機能は、推定が完了した音高パラメータと設定可能な音量パラメータの範囲の中心の音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを、歌声合成部で合成して得た仮の合成された歌声の音響信号の音量の特徴量と、入力歌声の音響信号の音量の特徴量との距離が最も小さくなるように相対値化係数αを定める機能である。二つ目の機能は、相対値化係数αを入力歌声の音響信号の音量の特徴量に乗算して相対値化した音量の特徴量を作る機能である。これら二つの機能があれば、入力歌声の音響信号の音量の特徴量が、歌声合成部で合成して得る仮の合成された歌声の音響信号の音量の特徴量と比べて、かなり大きい場合でも、またかなり小さい場合でも、相対値化によって、音量パラメータを適正に推定することができる。
音量パラメータは、音量の変化を示すことができるものであればよい。例えば、音量パラメータは、MIDI規格のエクスプレッションあるいは市販の歌声合成部のダイナミクス(DYN)である。音量パラメータとしてダイナミクスを用いる場合には、ダイナミクスの表現可能な範囲に合わせて、入力歌声の音響信号の音量の特徴量を全体的に相対値化する。相対値化では、入力歌声の音響信号の各音節の音量の特徴量の大部分が、ダイナミクスの設定範囲の全ての値における仮の合成された歌声の音響信号の音量の特徴量が存在する範囲内に入るようにする。そして現在のパラメータを用いて得た仮の合成された歌声の音響信号の音量の特徴量を、相対値化した入力歌声の音響信号の音量の特徴量に近づけるように、各音節の音量パラメータ(ダイナミクス)を推定することを繰り返せばよい。
音節境界が指定されていない歌詞データが入力される場合には、歌声合成パラメータデータ推定システムに、音節境界が指定されていない歌詞データと入力歌声の音響信号とに基づいて、音節境界が指定された歌詞データを作成する歌詞アラインメント部を更に設ければよい。歌詞アラインメント部を設けておけば、音節境界が指定されていない歌詞データが入力された場合であっても、音節境界が指定された歌詞データを歌声合成パラメータデータ推定システムにおいて、簡単に準備することができる。歌詞アラインメント部の構成は任意である。例えば、歌詞アラインメント部を、音素列変換部と、音素マニュアル修正部と、アラインメント推定部と、アラインメント・マニュアル修正部と、音素−音節列変換部と、有声区間補正部と、音節境界訂正部と、歌詞データ記憶部とから構成することができる。音素列変換部は、歌詞データに含まれる歌詞を複数の音素から構成される音素列に変換する。音素マニュアル修正部は、音素列変換部の変換結果をマニュアルで修正することを可能にする。またアラインメント推定部は、アラインメント用文法を生成した後に、入力歌声の音響信号における、音素列に含まれる複数の音素のそれぞれの開始時期と終了時期とを推定する。そしてアラインメント・マニュアル修正部は、アラインメント推定部が推定した音素列に含まれる複数の音素のそれぞれの開始時期と終了時期とをマニュアルで修正することを可能にする。また音素−音節列変換部は、音素列を、音節列に変換する。そして有声区間補正部は、音素−音節列変換部から出力された音節列における有声区間のずれを補正する。更に音節境界訂正部は、有声区間が補正された音節列の音節境界の誤りをマニュアルによる指摘に基づいて訂正することを可能にする。そして歌詞データ記憶部は、音節列を音節境界が指定された歌詞データとして記憶する。このような構成の歌詞アラインメント部を用いると、自動修正または自動決定が難しい部分にはユーザを介入させるので、より高い精度で歌詞アラインメントを達成することができる。その結果、音節境界が指定されていない歌詞データが入力された場合でもあっても、音節境界が指定された歌詞データを歌声合成パラメータデータ推定システムにおいて、簡単に準備することができる。
なお前述の有声区間補正部は、入力歌声音響信号分析部による分析により得た1つの有声区間中に含まれる二つ以上の音節を接続して部分的に接続された部分接続音節列を作成する部分音節列作成部と、入力歌声音響信号分析部による分析により得た有声区間に、歌声合成部で合成して得た仮の合成された歌声の音響信号を分析して得た有声区間を一致させるように部分接続音節列に含まれる複数の音節の開始時期と終了時期とを変更して音節を伸縮させる伸縮補正部とを備えているものを用いるのが好ましい。このような部分音節列作成部と伸縮補正部とを設ければ、自動的に有声区間のずれを補正することが可能になる。
また音節境界訂正部は、入力歌声の音響信号のスペクトルの時間変化を演算する演算部と、訂正実行部とから構成することができる。訂正実行部は、ユーザが介在する。訂正実行部では次のことを行う。まず音節境界の誤り箇所の前後N1個(N1は1以上の正の整数)の音節を候補算出対象区間とする。また音節境界の誤り箇所の前後N2個(N2は1以上の正の整数)の音節を距離計算区間とする。そして候補算出対象区間のスペクトルの時間変化によりスペクトルの時間変化の大きいN3(N3は1以上の正の整数)箇所を境界候補点として検出する。次に、各境界候補点に音節境界をずらした仮説の距離を取得し、仮説の距離が最小となる仮説をユーザに提示する。提示した仮説がユーザにより正しいと判断されるまで、境界候補点を繰り下げて他の仮説を提示する。そして提示した他の仮説がユーザにより正しいと判断されたときに、該他の仮説のための境界候補点へ音節境界をずらす訂正を行う。このように自動化が難しい部分に関して、仮説を提示してユーザに判断を求めると、音節境界の誤り訂正の精度をかなり高いレベルまで高めることができる。
なおこの場合、訂正実行部は、境界候補点に音節境界をずらした仮説の距離を取得するために、距離計算区間に対して音高パラメータを推定し、推定した音高パラメータを用いて歌声合成パラメータデータを合成して得た合成された歌声の音響信号を取得し、距離計算区間における入力歌声の音響信号と合成された歌声の音響信号のスペクトルの距離を仮説の距離として計算する。このように仮説の距離を計算すると、スペクトル形状の違い、すなわち音節の違いに着目した距離が計算できるという利点が得られる。なおスペクトルの時間変化としては、例えば、デルタ・メル周波数ケプストラム係数(ΔMFCC)を求めればよい。
入力歌声音響信号分析部は、入力歌声の音響信号の特徴量を分析(抽出)できるものであればどのような構成のものであってもよい。好ましい入力歌声音響信号分析部は、次の3つの機能を有している。第1の機能は、所定の周期で、入力歌声の音響信号から基本周波数Fを推定し、基本周波数から入力歌声の音響信号の音高を観測して音高の特徴量データとして分析データ記憶部に記憶する機能である。なお基本周波数Fの推定方法は任意である。第2の機能は、入力歌声の音響信号から有声音らしさを推定し、予め定めた閾値を基準にして閾値よりも有声音らしさが高い区間を入力歌声の音響信号の有声区間として観測して分析データ記憶部に記憶する機能である。そして第3の機能は、入力歌声の音響信号の音量の特徴量を観測して、音量の特徴量データとして分析データ記憶部に記憶する機能である。
入力歌声の音響信号の音楽的な質は常に保証されているものではなく、調子がずれたものや、ビブラートがおかしいもの等もある。また男性と女性とでは、キーが異なる場合が多い。そこでこのような場合に対処するためには、入力歌声の音響信号を修正または変更できるようにするのが好ましい。そこでこの対処のために、分析データ記憶部に記憶された入力歌声の音響信号の有声区間における音高の特徴量データから調子はずれ量を推定する調子はずれ量推定部と、調子はずれ量推定部が推定した調子はずれ量を音高の特徴量データから除くように音高の特徴量データを補正する音高補正部を更に設ける。調子はずれ量を推定して、その分を除けば、調子はずれの度合いが低い入力歌声の音響信号を得ることができる。
また音高の特徴量データに任意の値を加算して音高トランスポーズをする音高トランスポーズ部を更に設けてもよい。音高トランスポーズ部を設ければ、入力歌声の音響信号を簡単に声域を変えたり移調したりすることができる。
更に入力歌声音響信号分析部は、音高の特徴量データからビブラートが存在している区間を観測してビブラート区間として分析データ記憶部に記憶する機能を更に備えていてもよい。このような機能を入力歌声音響信号分析部が備えていれば、ビブラート区間におけるビブラートの深さを任意に調整するビブラート調整部を更に設けることにより、ビブラートを任意に調整することができる。さらにビブラート区間以外における音高の特徴量データ及び前記音量の特徴量データを任意にスムージング処理するスムージング処理部を設けると、ビブラート区間を正確に除いてスムージング処理をすることができる。ただし、ここでのスムージング処理は、「ビブラートの深さを任意に調整する」ことと同等の処理であり、音高や音量の変動を大きくしたり小さくしたりする効果を持つものである。
上記に説明した上記特徴の全部を備えた歌声合成パラメータデータ推定システムが、現時点においては、実用上最も好ましいものとなるが、上記特徴の少なくとも一つを備えているだけでも、従来のシステムの個々の問題点を解消できるものである。
本発明は、1種以上の歌声音源データが蓄積された歌声音源データベースと、歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と、歌声音源データベースから選択した1種類の歌声音源データと前記歌声合成パラメータデータと歌詞データとに基づいて、合成された歌声の音響信号を合成して出力する歌声合成部とを備えた歌声合成システムにおいて使用する、選択した1種類の歌声音源データに適した歌声合成パラメータデータをコンピュータが作成する歌声合成パラメータデータ作成方法としても表現できる。本発明の方法では、コンピュータが、入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析し、入力歌声の音響信号の少なくとも音高の特徴量と歌詞データとに基づいて、音量パラメータを一定のものとして、入力歌声の音響信号の音高の特徴量に合成された歌声の音響信号の音高の特徴量を近づけることができる音高パラメータを推定し、音高パラメータの推定を完了した後に、入力歌声の音響信号の音量の特徴量を合成された歌声の音響信号の音量の特徴量に対して相対値化し、入力歌声の音響信号の相対値化した音量についての特徴量に前記合成された歌声の音響信号の音量の特徴量を近づけることができる音量パラメータを推定し、推定された音高パラメータ及び推定された音量パラメータに基づいて歌声合成パラメータデータを作成するように構成される。そしてコンピュータが更に、推定した音高パラメータに基づいて作成した仮の歌声合成パラメータデータを歌声合成部で合成して得た仮の合成された歌声の音響信号の音高の特徴量が、入力歌声の音響信号の音高の特徴量に近づくまで所定の回数前記音高パラメータの推定を繰り返すか、または仮の合成された歌声の音響信号の前記音高の特徴量が、入力歌声の音響信号の音高の特徴量に収束するまで音高パラメータの推定を繰り返し、推定が完了した音高パラメータと推定した音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを歌声合成部で合成して得た仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に近づくまで所定の回数前記音量パラメータの推定を繰り返すか、または仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に収束するまで音量パラメータの推定を繰り返す。
さらに本発明は、1種以上の歌声音源データが蓄積された歌声音源データベースと、歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と、歌声音源データベースから選択した1種類の歌声音源データと歌声合成パラメータデータと歌詞データとに基づいて、合成された歌声の音響信号を合成して出力する歌声合成部とを備えた歌声合成システムにおいて使用する、選択した1種類の歌声音源データに適した歌声合成パラメータデータをコンピュータで作成する際にコンピュータで使用される歌声合成パラメータデータ作成用プログラムとしても表現できる。本発明のプログラムは、入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析する入力歌声音響信号分析部と、入力歌声の音響信号の少なくとも音高の特徴量と歌詞データとに基づいて、音量パラメータを一定のものとして、入力歌声の音響信号の音高の特徴量に前記合成された歌声の音響信号の音高の特徴量を近づけることができる音高パラメータを推定する音高パラメータ推定部と、音高パラメータ推定部が音高パラメータの推定を完了した後に、入力歌声の音響信号の音量の特徴量を合成された歌声の音響信号の音量の特徴量に対して相対値化し、入力歌声の音響信号の相対値化した音量についての特徴量に合成された歌声の音響信号の音量の特徴量を近づけることができる音量パラメータを推定する音量パラメータ推定部と、推定が完了した音高パラメータ及び推定が完了した音量パラメータに基づいて歌声合成パラメータデータを作成し歌声合成パラメータデータ記憶部に記憶させる歌声合成パラメータデータ作成部とを前記コンピュータ内に構築する。そして音高パラメータ推定部が、推定した音高パラメータに基づいて作成した仮の歌声合成パラメータデータを歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音高の特徴量が、入力歌声の音響信号の音高の特徴量に近づくまで所定の回数前記音高パラメータの推定を繰り返すか、または仮の合成された歌声の音響信号の音高の特徴量が、入力歌声の音響信号の音高の特徴量に収束するまで音高パラメータの推定を繰り返し、音量パラメータ推定部が、推定が完了した音高パラメータと推定した音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを歌声合成部で合成して得た仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に近づくまで所定の回数音量パラメータの推定を繰り返すか、または仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に収束するまで音量パラメータの推定を繰り返すようにプログラムは構成されている。なおプログラムは、コンピュータ読み取り可能な記憶媒体に記憶されていてもよいのは勿論である。
本発明の歌声合成パラメータデータ推定システムの実施の形態の一例の構成を示すブロック図である。 歌声合成パラメータデータ推定システムをコンピュータを用いて実現する場合に使用されるプログラムの最も上位のアルゴリズムを示すフローチャートである。 (A)は入力歌声の音響信号の一例と歌詞データの一例を示す図であり、(B)は音高の特徴量の分析結果の一例を示す図である。 ノートナンバを決定する場合の概念を説明するために用いる図である。 音高パラメータを説明するために用いる図である。 音高パラメータ推定部をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。 音量パラメータ推定部を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。 DYN=32,64,92及び127について、それぞれ仮の合成された歌声の音響信号を取得し、4種類の仮の合成された歌声の音響信号から音量の特徴量を推定した結果を示す図である。 音量パラメータの推定をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。 歌詞アラインメント部の構成を示すブロック図である。 歌詞アラインメントを説明するために用いる図である。 有声区間のずれ補正を説明するために用いる図である。 音節境界訂正部をコンピュータで実現する場合のプログラムのアルゴリズムを示すフローチャートである。 音節境界の誤り箇所の訂正を説明するために用いる図である。 音高変更機能及び歌唱スタイル変更機能の運用結果を示す図である。 インテレーションによる音高・音量の推移(実験B)を示す図である。
以下、図面を参照して本発明の歌声合成パラメータデータ推定システムの一実施の形態を説明する。図1は、本発明の歌声合成パラメータデータ推定システムの実施の形態の一例の構成を示すブロック図である。本実施の形態の歌声合成パラメータデータ推定システムでは、合成歌唱(合成された歌声の音響信号)を入力歌唱(入力歌声の音響信号)と比較しながら、歌声合成パラメータデータを反復更新する。また以下、ユーザによって与えられた歌唱の音響信号を入力歌声の音響信号、歌声合成部によって合成された合成歌唱の音響信号を合成された歌声の音響信号と呼ぶ。
本実施の形態では、ユーザが、入力歌声の音響信号とその歌詞データとを入力としてシステムに与えるものとする。入力歌声の音響信号は、入力歌声の音響信号記憶部1に記憶される。この入力歌声の音響信号は、マイクロフォン等から入力されたユーザの歌声の音響信号であっても、既製の歌声の音響信号であっても、また他の任意の歌声合成システムが出力した音響信号であってもよい。歌詞データは、通常、漢字かな混じり文の文字列のデータである。歌詞データは、後述する歌詞アラインメント部3に入力される。入力歌声音響信号分析部5は、入力歌声の音響信号に対して分析を行う。また歌詞アラインメント部3は、入力された歌詞データを、入力歌声の音響信号と同期するように音節境界が指定された歌詞データに変換して、変換結果を歌詞データ記憶部15に記憶させる。また歌詞アラインメント部3は、漢字かな混じり文をかな文字列に変換する際の誤りや、歌詞の割り当てでフレーズをまたがるような大きな誤りがあった場合には、ユーザが手作業で訂正することを可能にする。なお音節境界が指定された歌詞データが与えられた場合には、そのような歌詞データは、歌詞データ記憶部15に直接入力される。
図1の歌声合成パラメータデータ推定システムは、既存の歌声合成システム100において使用する、歌声音源データベース103から選択した1種類の歌声音源データに適した歌声合成パラメータデータを作成して、歌声合成パラメータデータ記憶部105に記憶させる。歌声合成パラメータデータを使用することができる歌声合成システム100は、歌声合成部101と、1種以上の歌声音源データが蓄積された歌声音源データベース103とを備えている。歌声合成部101は、入力歌声の音響信号及び合成された歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部105の出力を入力とする。そして、歌声合成部101は、歌声音源データベースから選択した1種類の歌声音源データと歌声合成パラメータデータと歌詞データとに基づいて、合成された歌声の音響信号を合成して再生装置107に出力する。再生装置107は、合成された歌声の音響信号を再生する。なお直接再生せずに、その音響信号をハードディスク等に音声ファイルとして保存してもよいことは言うまでもない。
本実施の形態の歌声合成パラメータデータ推定システムは、大きく分けて、入力歌声音響信号分析部5と、分析データ記憶部7と、音高パラメータ推定部9と、音量パラメータ推定部11と、歌声合成パラメータデータ作成部13とを備えている。図2は、歌声合成パラメータデータ推定システムをコンピュータを用いて実現する場合に使用されるプログラムの最も上位のアルゴリズムを示している。ステップST1で入力が行われ、ステップST2で入力歌声の音響信号の分析が行われ、ステップST3で音高パラメータの推定が行われ、ステップST4で音量パラメータの推定が行われ、ステップST5で歌声合成パラメータが作成される。
入力歌声音響信号分析部5は、ステップST2を実行する。そこで入力歌声音響信号分析部5は、入力歌声の音響信号の音高、音量、有声区間及びビブラート区間を特徴量として分析して、分析結果を分析データ記憶部7に記憶させる。なお、後述する調子はずれ推定部17、音高補正部19、音高トランスポーズ部、ビブラート調整部、スムージング処理部を設けない場合には、ビブラート区間を特徴量として分析する必要はない。本実施の形態の入力歌声音響信号分析部5は、入力歌声の音響信号の特徴量を分析(抽出)できるものであればどのような構成のものであってもよい。本実施の形態の入力歌声音響信号分析部5は、次の4つの機能を有している。第1の機能は、所定の周期で、入力歌声の音響信号から基本周波数Fを推定し、それを入力歌声の音響信号の音高の特徴量データとして分析データ記憶部7に記憶する機能である。なお基本周波数Fの推定方法は任意である。無伴奏歌唱から基本周波数Fを推定する手法を用いても良いし、伴奏付き歌唱から基本周波数Fを推定する手法を用いても良い。図3(A)は入力歌声の音響信号の一例と歌詞データの一例を示している。そして図3(B)は、音高の特徴量の分析結果の一例を示している。図3(B)の縦軸の単位は後述MIDI規格のノートナンバに相当するものである。第2の機能は、入力歌声の音響信号から有声音らしさを推定し、予め定めた閾値を基準にして閾値よりも有声音らしさが高い区間を入力歌声の音響信号の有声区間として観測して分析データ記憶部に記憶する機能である。図3(B)には、音高の下に有声区間を示してある。有声区間とは、有声音が存在する区間であり、有声区間以外の区間は無声区間である。そして第3の機能は、入力歌声の音響信号の音量の特徴量を観測して、音量の特徴量データとして分析データ記憶部に記憶する機能である。図3(C)には分析した音量の特徴量の一例が示されている。図3(C)の縦軸の単位は、ここでは相対値(相対的な変化)としてのみ意味を持つ量であればよいため、音量を表すものであれば任意の単位で良い。第4の機能は、音高の特徴量データからビブラートが存在している区間を観測してビブラート区間として分析データ記憶部に記憶する機能である。ビブラートの検出手法は、公知の検出手法のいずれを採用してもよい。図3(B)にはビブラートが検出されているビブラート区間を示してある。ビブラート区間では、他の区間と比べて、音高が周期的に変化している。
音高パラメータ推定部9は、図2のステップST3を実行する。そこで音高パラメータ推定部9は、分析データ記憶部7から読み出した入力歌声の音響信号の音高の特徴量と歌詞データ記憶部15に記憶された音節境界が指定された歌詞データとに基づいて、音量パラメータを一定のものとして、入力歌声の音響信号の音高の特徴量に合成された歌声の音響信号の音高の特徴量を近づけることができる音高パラメータを推定する。そこで音高パラメータ推定部9では、推定した音高パラメータに基づいて歌声合成パラメータデータ作成部13が作成した仮の歌声合成パラメータデータを歌声合成部101で合成して仮の合成された歌声の音響信号を得る。歌声合成パラメータデータ作成部13が作成した仮の歌声合成パラメータデータは、歌声合成パラメータデータ記憶部105に記憶される。したがって歌声合成部101は、通常の合成動作に従って、仮の歌声合成パラメータデータと歌詞データとに基づいて歌声合成部101で合成して仮の合成された歌声の音響信号を出力する。そして音高パラメータ推定部9では、この仮の合成された歌声の音響信号の音高の特徴量が、入力歌声の音響信号の音高の特徴量に近づくまで、音高パラメータの推定を繰り返す。なお音高パラメータの推定手法については、後に詳しく説明する。本実施の形態の音高パラメータ推定部9は、入力歌声音響信号分析部5と同様に、歌声合成部101から出力された仮の合成された歌声の音響信号の音高の特徴量を分析する機能を内蔵している。そして本実施の形態の音高パラメータ推定部9は、予め定めた回数(具体的には、4回)、音高パラメータの推定を繰り返す。なお予め定めた回数ではなく、仮の合成された歌声の音響信号の音高の特徴量が、入力歌声の音響信号の音高の特徴量に収束するまで音高パラメータの推定を繰り返すように音高パラメータ推定部9を構成してもよいのは勿論である。本実施の形態のように、音高パラメータの推定を繰り返すと、音源データが異なった場合でも、また歌声合成部101の合成方法が異なったとしても、推定が繰り返されるたびに、仮の合成された歌声の音響信号の音高の特徴量が入力歌声の音響信号の音高の特徴量に自動的に近づいていくので、歌声合成部101の合成の品質と精度は高くなる。
また音高パラメータの推定を完了した後に、音量パラメータ推定部11が、図2のステップST4を実行する。そこで音量パラメータ推定部11は、入力歌声の音響信号の音量の特徴量を合成された歌声の音響信号の音量の特徴量に対して相対値化し、入力歌声の音響信号の相対値化した音量の特徴量に合成された歌声の音響信号の音量の特徴量を近づけることができる音量パラメータを推定する。歌声合成パラメータ作成部13は、音高パラメータ推定部9において推定が完了した音高パラメータと、音量パラメータ推定部11が新たに推定した音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを歌声合成パラメータ記憶部105に記憶させる。歌声合成部101は、仮の歌声合成パラメータデータを合成して仮の合成された歌声の音響信号を出力する。音量パラメータ推定部11は、仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に近づくまで所定の回数音量パラメータの推定を繰り返す。音高パラメータ推定部9と同様に、音量パラメータ推定部11も、入力歌声音響信号分析部5と同様に、歌声合成部101から出力された仮の合成された歌声の音響信号の音量の特徴量を分析する機能を内蔵している。そして本実施の形態の音量パラメータ推定部11は、予め定めた回数(具体的には、4回)、音量パラメータの推定を繰り返す。なお仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に収束するまで音量パラメータの推定を繰り返すように、音量パラメータ推定部11を構成してもよいのは勿論である。音量パラメータについても、音高パラメータの推定と同様に、推定を繰り返すと、音量パラメータの推定精度をより高いものとすることができる。
そして歌声合成パラメータデータ作成部13は、図2のステップST5を実行する。歌声合成パラメータデータ作成部13は、推定が完了した音高パラメータ及び推定が完了した音量パラメータに基づいて歌声合成パラメータデータを作成し、歌声合成パラメータデータを歌声合成パラメータデータ記憶部105に記憶させる。
なお音高パラメータが変わると、音量パラメータも変わるが、音量パラメータが変わっても音高パラメータが変わる歌声合成システムはほとんどない。そのため、本実施の形態のように音高パラメータの推定を先に完了した後で、音量パラメータの推定を行えば、音高パラメータの推定のやり直しが不要になる。その結果、本実施の形態によれば、歌声合成パラメータデータを短い時間で、且つ簡単に作成することができる。ただし、音量パラメータが変わると、音高パラメータも変わる例外的な歌声合成システムの場合には、音高パラメータの推定を先に完了した後で、音量パラメータの推定を行い、さらに音高パラメータの推定のやり直す必要がある。
音高パラメータ推定部9で推定する音高パラメータは、音高の変化を示すことができるものであればよい。本実施の形態では、音高パラメータを、歌詞データの複数の音節のそれぞれに対応する入力歌声の音響信号の複数の部分区間の信号の基準音高レベルを示すパラメータ要素と、部分区間の信号の基準音高レベルに対する音高の時間的相対変化分を示すパラメータ要素と、部分区間の信号の音高方向への変化幅を示すパラメータ要素とから構成する。例えばMIDI規格あるいは市販の歌声合成システムで見ると、具体的には、基準音高レベルを示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのノートナンバである。図4は、ノートナンバを決定する場合の概念を図示するものである。なお図4において、「入力歌声の音高」とは、入力歌声の音響信号の音高を意味する。そして図5(A)は、歌詞データの複数の音節のそれぞれに対応する入力歌声の音響信号の複数の部分区間の信号の基準音高レベルをノートナンバで表現した場合の例を示している。音節「た」「ち」等の下の番号「64」、「63」等がノートナンバである。ノートナンバは、音高が半音違うごとに一つずつ違う数字(整数)で音高を表現したものであり、0〜127の数字で表現される。鍵盤は整数のノートナンバに対応するが、単位として考えるときは同じ尺度上で実数として扱っても良い。例えば、ピアノの鍵盤の一つ一つには、一番低い鍵盤から一つずつ増える整数のノートナンバが割り当てられており、1オクターブの音高の違いはノートナンバで12の差に対応する。また本実施の形態では、基準音高レベル(整数のノートナンバ)に対する音高(ノートナンバの単位で実数で表現される音高)の時間的相対変化分を示すパラメータ要素として、MIDI規格あるいは市販の歌声合成システムのピッチベンド(PIT)を用いている。ピッチベンド(PIT)は−8192から8191の範囲の整数で表現される。図5(B)は、ピッチベンド(PIT)の一例を示している。図5(B)においては、中心ラインは各音節における基準音高レベル(ノートナンバ)に相当する。音節ごとにノートナンバの値自体は異なるが、それらを一直線上に表現して、その一直線への相対値としてピッチベンド(PIT)を示してある。さらに本実施の形態では、音高方向への変化幅を示すパラメータ要素として、MIDI規格あるいは市販の歌声合成システムのピッチベンドセンシティビィティ(PBS)を用いている。図5(C)は、ピッチベンドセンシティビィティ(PBS)の一例を示している。ピッチベンドセンシティビィティ(PBS)は、通常は1であり、音高の変化が大きい場合には、2,3等の値を取る。最大値は24である。なお、必要がなければピッチベンドセンシティビィティ(PBS)は小さいほどよい。これは、小さいほうが、音高を表現する周波数分解能が細かくなるからである。
このように音高パラメータを3つのパラメータ要素によって構成する場合には、音高パラメータ推定部9は、次のようにしてこれらのパラメータ要素を推定することができる。図6は、音高パラメータ推定部9をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示している。まずステップST11においては、基準音高レベルを示すパラメータ要素としてのノートナンバを決定する。ノートナンバの決定に関しては、図4に示すように、各音節の始端から終端の区間について入力歌声の音響信号の音高の特徴量と、0〜127までの各ノートナンバとの類似度を計算する。そして各音節ごとに、類似度が最大となるノートナンバを該当するノートナンバとして決定する。
そしてステップST12で、音高の時間的相対変化分を示すパラメータ要素[ピッチベンド(PIT)]と音高方向への変化幅を示すパラメータ要素[ピッチベンドセンシティビィティ(PBS)]について予め定めた初期値を設定する。本実施の形態では、PIT=0、PBS=1を初期値として設定する。次に、ステップST13で、ノートナンバと音量パラメータを固定して、ステップST13AとステップST13Bとを繰り返し実行する。まずステップST13Aでは、初期値に基づいて仮の歌声合成パラメータデータを作成し、仮の歌声合成パラメータデータを歌声合成システムで合成し仮の合成された歌声の音響信号を得る。そしてステップST13Bで、仮の合成された歌声の音響信号の音高の特徴量を、入力歌声の音響信号の音高の特徴量に近づけるように音高の時間的相対変化分を示すパラメータ要素(PIT)と音高方向への変化幅を示すパラメータ要素(PBS)を推定する。そして推定回数X1が4回に達するまで、推定したパラメータ要素(PIT,PBS)に基づいて次の仮の歌声合成パラメータデータを作成する。そして次の仮の歌声合成パラメータデータを歌声合成部で合成して得た次の仮の合成された歌声の音響信号の音高の特徴量を、入力歌声の音響信号の音高の特徴量に近づけるように音高の時間的相対変化分を示すパラメータ要素(PIT)と音高方向への変化幅を示すパラメータ要素(PBS)を再推定する動作(ステップST13A及び13B)を繰り返す。
初期値を入力した以降のピッチベンド(PIT)とピッチベンドセンシティビィティ(PBS)の推定(決定)をするために、まずその推定時点(現在)のピッチベンド(PIT)とピッチベンドセンシティビィティ(PBS)を、後述する式(12)でノートナンバの単位を持つ実数値Pbに変換する。次に仮の合成された歌声の音響信号の音高の特徴量を推定する。そして入力歌声の音響信号の音高の特徴量と仮の合成された歌声の音響信号の音高の特徴量との差を求め、この差を前述の実数値Pbに加算する。そして実数値Pbに基づきピッチベンドセンシティビィティ(PBS)が小さくなるようにピッチベンド(PIT)とピッチベンドセンシティビィティ(PBS)を決定する。本実施の形態では、上記動作を、4回繰り返すことになる。
このようにすると最初に基準音高レベル(ノートナンバ)を決定した後は、残りの2つのパラメータ要素(PIT,PBS)を繰り返し推定すればよいので、パラメータ要素の推定が容易になり、音高パラメータを3つのパラメータ要素によって構成することが可能になる。ステップST14で、X1が4になったときに推定を終了する。ただし、この4は他の整数値でもよい。
図7は、音量パラメータ推定部11を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。このアルゴリズムにより、音量パラメータ推定部11は、音量パラメータの推定のために、次の二つの機能を備えることになる。一つの機能は、推定が完了した音高パラメータと設定可能な音量パラメータの範囲の中心の音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを、歌声合成部で合成して得た仮の合成された歌声の音響信号の音量の特徴量と、入力歌声の音響信号の音量の特徴量との距離が最も小さくなるように相対値化係数αを定める機能である。二つ目の機能は、相対値化係数αを入力歌声の音響信号の音量の特徴量に乗算して相対値化した音量の特徴量を作る機能である。これら二つの機能があれば、入力歌声の音響信号の音量の特徴量が、歌声合成部101で合成して得られる仮の合成された歌声の音響信号の音量の特徴量と比べて、かなり大きい場合でも、またかなり小さい場合でも、相対値化によって、音量パラメータを適正に推定することができるようになる。なお本実施の形態では、音量パラメータとして、MIDI規格のエクスプレッションあるいは市販の歌声合成システムのダイナミクス(DYN)を用いている。
そこで図7のフローチャートでは、まずステップST21で、音量パラメータ(DYN)を設定可能な範囲(0〜127)の中央の値(64)に設定する。すなわち最初は、すべての区間の音量パラメータを中央の値(64)に設定する。なお音量パラメータ(DYN)の設定可能な範囲(0〜127)は、設定可能な音量のレベルの範囲を示すものであって、前述のノートナンバの0〜127とは無関係である。そしてステップST22で、先に推定が完了した音高パラメータと中央の値に設定した音量パラメータとを歌声合成パラメータ作成部13で合成して仮の歌声合成パラメータデータを作成し、歌声合成部101で合成を行って、仮の合成された歌声の音響信号を取得する。次にステップST23で仮の合成された歌声の音響信号の音量の特徴量を、入力歌声信号分析部5における分析と同様にして推定する。次にステップST24で、入力歌声の音響信号の音量の特徴量と仮の合成された歌声の音響信号の音量の特徴量との距離(区間全体での距離)が最も小さくなるように、入力歌声の音響信号の音量の特徴量を相対値化する相対値化係数αを決定する。
相対値化係数αを決定した後は、ステップST25において相対値化係数αを固定したまま、設定可能な0から127のダイナミクス(DYN)の全てで仮の合成された歌声の音響信号の音量の特徴量を取得したときのデータを取得する。設定可能な0から127のダイナミクス(DYN)の全てにおいて、仮の合成された歌声の音響信号の音量の特徴量を推定する処理を行ってもよいが、処理量が多くなる。そこで本実施の形態では、例えば、DYN=0,32,64,92及び127について、それぞれ仮の合成された歌声の音響信号を取得し、取得した5種類の仮の合成された歌声の音響信号の音量の特徴量をそれぞれ取得する。そしてDYN=0,32,64,92及び127以外のその他のDYNにおける仮の合成された歌声の音響信号の音量の特徴量については、線形補間(内挿)を用いてそれぞれ推定する。このようにして取得したDYN=0〜127についての仮の合成された歌声の音響信号の音量の特徴量は、音量パラメータを推定するために使用される。図8には、DYN=32,64,92及び127について、それぞれ仮の合成された歌声の音響信号を取得し、4種類の仮の合成された歌声の音響信号から音量の特徴量を推定した結果を示してある。図8においては符号IVで示したデータは、入力歌声の音響信号から分析した音量の特徴量である。図8の状態では、入力歌声の音響信号から分析した各音節における音量の特徴量が、DYN=127における仮の合成された歌声の音響信号の音量の特徴量よりも大きくなっている場合が多い。そこで本実施の形態では、入力歌声の音響信号から分析した音量の特徴量に対して相対値化係数αを乗算して、音量パラメータの推定が可能なレベルまで入力歌声の音響信号の音量の特徴量を小さくする。
ステップST26では、仮の合成された歌声の音響信号の音量の特徴量の初期値を得るためのダイナミクス(DYN)を64(中間値)に設定する。そしてステップST27へと進む。ステップST27では、先に推定が完了した音高パラメータとダイナミクス(DYN)を64に設定した音量パラメータとを用いて、歌声合成パラメータデータ作成部13で歌声合成パラメータデータを作成し、歌声合成部101から仮の合成された歌声の音響信号を取得する。そしてステップST28で、音量パラメータとしての第1回目のダイナミクスの推定を行う。
ステップST28における推定は図9に示すアルゴリズムに従って実行される。図9のステップST31では、まずステップST27で取得した仮の合成された歌声の音響信号の音量の特徴量を分析する。そしてステップST32では、先に取得したDYN=0〜127の全てにおける仮の合成された歌声の音響信号の音量の特徴量の関係を用いて、ダイナミクスで表される現在の音量パラメータを入力歌声の音響信号の音量の特徴量に対応する実数値(Dp)に変換する。次にステップST33で、入力歌声の音響信号の音量の特徴量に相対値係数αを乗算して、入力歌声の音響信号の音量の特徴量を相対値化する。次にステップST34では、相対値化した入力歌声の音響信号の音量の特徴量と仮の合成された歌声の音響信号の音量の特徴量との差を前述の実数値(Dp)に加算して得た新たな値(Dp′)を得る。そしてステップST35では、新たな値(Dp′)と先に取得したDYN=0〜127の全てにおける仮の合成された歌声の音響信号の音量の特徴量との類似度(距離)を計算する。そしてステップST36では、計算した類似度(距離)が最大(最小)となるように各音節の音量パラメータ(ダイナミクス)を決定する。
すなわち図8に示す入力歌声の音響信号の音量の特徴量(IV)を全体的に相対値化して、入力歌声の音響信号の各音節の音量の特徴量の大部分が、DYN=0〜127の全てにおける仮の合成された歌声の音響信号の音量の特徴量(図8のDYN=32,64,96,127等)が存在する範囲内に入るようにする。そして現在のパラメータを用いて得た仮の合成された歌声の音響信号の音量の特徴量を相対値化した入力歌声の音響信号の音量の特徴量に近づけるように、各音節の音量パラメータ(ダイナミクス)を推定する。本実施の形態では、図7のステップST27〜ステップST28を4回繰り返した後、音量パラメータの推定を完了する。ただし、この4回は他の整数値でもよい。
図1に戻って、音節境界が指定された歌詞データを用いる場合には、そのデータは歌詞記憶データ記憶部15に直接記憶する。しかし音節境界が指定されていない歌詞データが歌声合成パラメータデータ作成に入力される場合には、歌詞アラインメント部3が、音節境界が指定されていない歌詞データと入力歌声の音響信号とに基づいて、音節境界が指定された歌詞データを作成する。本実施の形態のように、歌詞アラインメント部3を設けておけば、音節境界が指定されていない歌詞データが入力された場合であっても、音節境界が指定された歌詞データを歌声合成パラメータデータ推定システムにおいて、簡単に準備することができる。
歌詞アラインメント部の構成は任意である。図10には、本実施の形態の歌詞アラインメント部3の構成を示している。この歌詞アラインメント部3は、音素列変換部31と、音素マニュアル修正部32と、アラインメント推定部33と、アラインメント・マニュアル修正部34と、音素−音節列変換部35と、有声区間補正部36と、音節境界訂正部39と、歌詞データ記憶部15とを有している。音素列変換部31は、図11(A)に示すように、音節境界が指定されていない歌詞データに含まれる歌詞を複数の音素から構成される音素列に変換する(形態素解析)。図11(A)の例では、上段に示された平仮名で表示された歌詞データが、下段に示されたアルファベット表示の音素列に変換されている。
音素マニュアル修正部32は、音素列変換部31の変換結果をユーザがマニュアルで修正することを可能にする。修正を行うために、変換された音素列はパソコンのモニタ等の表示部42に表示される。ユーザは、パソコンのキーボード等の入力部を操作して、表示部42に表示された音素列中の音素の誤りを修正する。
またアラインメント推定部33は、まず図11(B)に示すようなアラインメント用文法を生成する。図11(B)のアラインメント用文法では、音節と音節との間に短い無音に対応するショートポーズspを配置している。なおアラインメント用文法の定め方は、周知の音声認識技術に従って定めればよく、任意である。その後、アラインメント推定部33は、図11(C)に示すように入力歌声の音響信号ISにおける、音素列に含まれる複数の音素のそれぞれの開始時期と終了時期とを推定して、推定結果を表示部42に表示する。このアラインメントには、例えば音声認識技術で使用されているViterbiアラインメント技術を用いることができる。図11(C)においては、表示部42に表示した推定結果の一例を示している。この例では、横に並ぶ複数のブロックがそれぞれ音素に対応しており、各ブロックの前端の発生時期が対応する音素の開始時期を示し、ブロックの後端が音素の終了時期を示している。図11(C)においては、音素列の子音を対応するブロックの上に表示し、母音を対応するブロックの中に表示している。図11(C)に示して例では、Erで表示した音素「ma」で、2つのフレーズを跨る誤り(前方のフレーズに後方のフレーズの音素が誤って入り込む誤り)が発生している。そこでアラインメント・マニュアル修正部34は、アラインメント推定部33が推定した音素列に含まれる複数の音素のそれぞれの開始時期と終了時期とをマニュアルで修正することを可能にする。図11(D)には、図11(C)に示した音素列を修正した修正後の音素列が示されている。アラインメント・マニュアル修正部34は、表示部42に表示した推定結果の誤り箇所Erをユーザがカーソル等で指摘すると、誤り箇所を前のフレーズから後ろのフレーズへと移動させる修正動作を行う。
図10に示す音素−音節列変換部35は、アラインメント推定部33が最終的に推定した音素列を、音節列に変換する。図12(i)は、音素−音節列変換部35により音素列が音節列に変換された状態を概念的に示す図である。日本語の歌詞であれば、日本語の音素列中の「子音+母音」あるいは母音を1つの音節とすることができる。本実施の形態では、図12(i)に示すように、母音部分を音節として、音素列を音節列SLに変換している。そして本実施の形態のシステムでは、入力歌声の音響信号の歌詞の実際の音節と、変換された音節列SLの有声区間のずれの補正と、音節境界の誤りの訂正とを行う。本実施の形態では、有声区間補正部36が、音素−音節列変換部35から出力された音節列SLにおける有声区間のずれを補正する。更に音節境界訂正部39が、有声区間補正部36により有声区間が補正された音節列の音節境界の誤りを、ユーザからのマニュアルによる指摘に基づいて訂正することを可能にする。
有声区間補正部36は、部分音節列作成部37と、伸縮補正部38とを備えている。部分音節列作成部37は、図12(ii)に示すように、図1に示した入力歌声音響信号分析部5により分析されて分析データ記憶部7に保存された入力歌声の音響信号の1つの有声区間[図3(B)及び図12(iv)の破線で示した有声区間TP参照]中に含まれる二つ以上の音節を接続して部分的に接続された部分接続音節列PSLを作成する。そして伸縮補正部38は、入力歌声音響信号分析部5による分析により得た入力歌声の音響信号の有声区間TP[図12(iv)に破線で示した有声区間TP参照]に、後述する方法で合成して得た仮の合成された歌声の音響信号を分析して得た有声区間TP′[図12(iv)に実線で示した有声区間TP′参照]を一致させるように部分接続音節列PSLに含まれる複数の音節の開始時期と終了時期とを変更して音節を伸縮させる。
伸縮補正部38では、最初に、仮の合成された歌声の音響信号を得るために、部分接続音節列PSLに含まれる複数の音節のそれぞれについて図5(A)において説明したノートナンバを取得する。ノートナンバは、前述のとおり、部分接続音節列PSL中の複数の音節のそれぞれに対応する入力歌声の音響信号の複数の部分区間の信号の基準音高レベルを数字で表現したものである。部分接続音節列PSL中の複数の音節のノートナンバが判れば、そのノートナンバと、音源データベース103から選択した1つの音源データと、部分接続音素列を含む歌詞データとを用いて、仮の合成された歌声の音響信号を生成することができる。そこで伸縮補正部38は、音高パラメータ及び音量パラメータを一定にして、仮の合成された歌声の音響信号を生成する。次にこの仮の合成された歌声の音響信号について、図1に示した入力音声信号分析部5と同様に、分析を行って、仮の合成された歌声の音響信号の有声区間TP′を決定する。この有声区間TP′の決定方法は、前述の有声区間TPの決定方法と同じである。このようにして仮の合成された歌声の音響信号の有声区間TP′を決定した後、入力歌声の音響信号の有声区間TP[図12(iv)に破線で示した有声区間TP参照]と、仮の合成された歌声の音響信号を分析して得た有声区間TP′[図12(iv)に実線で示した有声区間TP′参照]とを対比する。両者の間にずれがある場合には、有声区間TP′を有声区間TPに一致させるように、部分接続音節列PSLに含まれる複数の音節の開始時期と終了時期とを変更して音節を伸縮させる。図12(iv)に示した矢印(→,←)は、音節の開始時期と終了時期の伸縮方向(シフト方向)を示している。有声区間TP′のずれの補正は、図12(iii)に示すように、各音節を示すブロックの長さの調整となって顕在化する。例えば、図12(iii)の最後の音節「き」のブロックの長さは、有声区間TP′のずれの補正に伴って長くなっている。このような部分音節列作成部37と伸縮補正部38とを設ければ、自動的に有声区間TP′の有声区間TPに対するずれを補正することができる。
音節境界訂正部39は、合成された歌声の音響信号の有声区間TP′のずれを補正した部分接続音節列PSL′の音節境界の誤りを訂正するものである。図10に示すように、音節境界訂正部39は、入力歌声の音響信号のスペクトルの時間変化を演算する演算部40と、訂正実行部41とから構成することができる。図13は、音節境界訂正部39をコンピュータで実現する場合のプログラムのアルゴリズムを示すフローチャートである。なお訂正実行部41は、ユーザが介在して訂正を実行する。演算部40は、図13のステップST41に示すように、入力歌声の音響信号のデルタMFCC(Mel-Frequency Cepstrum Coefficient)を計算することにより、音響信号のスペクトルの時間変化を演算する。訂正実行部41では演算部40で演算したデルタMFCCを用いて音節境界の誤り箇所の訂正を次のステップにより実行する。訂正実行部41は、図14(A)に示すように、補正した部分接続音節列PSL′を表示部42に表示する。そしてユーザが、表示部42の画面上で、誤り箇所EPを指摘すると、訂正実行部41は、図13のステップST42に従って、誤り箇所EPの前後N1個(本実施の形態では、N1=1である。但し、N1は1以上の正の整数である)の音節を候補算出対象区間S1とする。またステップST43で、誤り箇所EPの前後N2個(本実施の形態では、N2=2である。但しN2は、1以上の正の整数である)の音節を距離計算区間S2とする。そしてステップST44においては、候補算出対象区間S1のスペクトルの時間変化によりスペクトルの時間変化の大きいN3(本実施の形態では、N3=3である。但し、N3は1以上の正の整数である)箇所を境界候補点として検出する。図14(B)は、3箇所の境界候補点の例を示している。但し、既に誤りだと指摘された(正しくないと判断された)箇所を除くものとする。次に、ステップST45で、各境界候補点に音節境界をずらした仮説の距離を取得する。仮説の距離の計算には、距離計算区間S2に対して、各音節のノートナンバを推定し、また予め定めた初期値のピッチベンド(PIT)及びピッチベンドセンシティビィティ(PBS)を導入して音高パラメータを推定する。この音高パラメータの推定には、図1に示した音高パラメータ推定部9における推定動作と同様の演算が行われる。そして推定により得た音高パラメータと予め定めた一定の音量パラメータとを用いて、仮の合成された歌声の音響信号を作成する。その次に、距離計算区間S2全体における入力歌声の音響信号のスペクトルと仮の合成された歌声の音響信号のスペクトルとの距離を計算する。なおスペクトルの距離は、振幅スペクトルあるいはMFCCを用いればよい。本実施の形態では、振幅スペクトルを用いている。図14(B)に示した3箇所の境界候補点に音節境界をそれぞれずらした仮説について、距離計算区間S2における距離を計算する。
そしてステップST46において、距離が最小となる仮説を提示する。この仮説の提示は、表示部42への音節列の表示と、仮の合成された歌声の音響信号を再生装置で再生することにより実施される。あるいはこの仮説の提示をいずれか一方のみで実施しても良い。ステップST47では、提示した仮説がユーザにより正しいと判断されたか否かが判断される。そしてユーザが正しいと判断しなかった場合には、ステップST44へと戻って、次の仮説の提示が行われる。ステップST47でユーザが仮説を正しいと判断した場合には、ステップST48へと進んで、その仮説に従って音節境界をずらす。このようにして音節境界の誤りを訂正する。本実施の形態のように、自動化が難しい部分に関して、仮説を提示してユーザに判断を求めると、音節境界の誤り訂正の精度をかなり高いレベルまで高めることができる。また本実施の形態のように、距離計算区間全体における入力歌声の音響信号と合成された歌声の音響信号のスペクトルの距離を仮説の距離として計算すると、スペクトル形状の違い、すなわち音節の違いに着目した距離が計算できるという利点が得られる。なおスペクトルの時間変化は、前述のデルタ・メル周波数ケプストラム係数(ΔMFCC)以外のスペクトルの時間変化を示すものを用いてもよいのは勿論である。
入力歌声の音響信号の音楽的な質は常に保証されているものではなく、調子がずれたものや、ビブラートがおかしいもの等もある。また男性と女性とでは、キーが異なる場合が多い。そこでこのような場合に対処するためには、本実施の形態では、図1に示すように、調子はずれ量推定部17、音高補正部19、音高トランスポーズ部21、ビブラート調整部23及びスムージング処理部25を備えている。本実施の形態では、これらを用いて、入力歌声の音響信号自体を編集することにより、歌唱入力の表現を広げる。具体的には、以下の二種類の変更機能を実現できる。なおこれらの変更機能は、状況に応じて利用すればよく、使わないという選択も可能である。
(A)音高の変更機能
・ 調子はずれ(off Pitch) の補正:音高がずれた音を修正する。
・ 音高トランスポーズ:自分では歌えない声域の歌唱を合成する。
(B)歌唱スタイルの変更機能
・ ビブラート深さ(vibrato extent) の調整:ビブラートを強く・弱くという直感的操作で、自分好みの表現へ変更できる。
・ 音高・音量のスムージング:音高のオーバーシュート、微細変動等を抑制できる。
上記の変更機能を実現するため、調子はずれ量推定部17は、分析データ記憶部7に記憶された入力歌声の音響信号の連続する有声区間における音高の特徴量データから調子はずれ量を推定する。そして音高補正部19は、調子はずれ量推定部17が推定した調子はずれ量を音高の特徴量データから除くように音高の特徴量データを補正する。調子はずれ量を推定して、その分を除けば、調子はずれの度合いが低い入力歌声の音響信号を得ることができる。なお具体例については、後に説明する。
また音高トランスポーズ部21は、音高の特徴量データに任意の値を加減算して音高トランスポーズをする際に用いられる。音高トランスポーズ部21を設ければ、入力歌声の音響信号を簡単に声域を変えたり移調したりすることができる。
ビブラート調整部は、ビブラート区間におけるビブラートの深さを任意に調整する。ビブラートの深さの調整のためには、例えば、図3(B)に示すような入力歌声の音響信号の音高の軌跡を平滑化し、また図3(C)に示すような入力歌声の音響信号の音量の軌跡を平滑化する。そして平滑化した音高の軌跡と平滑化前の音高の軌跡を、図3(B)に示すようなビブラート区間に関して補間(内挿あるいは外挿)する。また平滑化した音量の軌跡と平滑化前の音量の軌跡を、図3(B)に示すようなビブラート区間に関して補間(内挿あるいは外挿)する。すなわち内挿の場合には、平滑化した軌跡と平滑化前の軌跡の間に音高または音量が入るように補間する。そして外挿の場合には、平滑化した軌跡と平滑化前の軌跡の間ではなく、それらの外側に音高または音量が出るように補間する。
スムージング処理部25は、ビブラート区間以外における音高の特徴量データ及び音量の特徴量データを任意にスムージング処理する。ただし、ここでのスムージング処理は、「ビブラートの深さを任意に調整する」ことと同等の処理をビブラート区間外で行うことであり、ビブラート区間以外で音高や音量の変動を大きくしたり小さくしたりする効果を持つものである。そこでビブラート調整部と同様に、例えば、図3(B)に示すような入力歌声の音響信号の音高の軌跡を平滑化し、また図3(C)に示すような入力歌声の音響信号の音量の軌跡を平滑化する。そして平滑化した音高の軌跡と平滑化前の音高の軌跡を、図3(B)に示すようなビブラート区間以外に関して補間(内挿あるいは外挿)する。また平滑化した音量の軌跡と平滑化前の音量の軌跡を、図3(B)に示すようなビブラート区間以外に関して補間(内挿あるいは外挿)する。
なお図2に示したコンピュータ用プログラムのアルゴリズムは、音節境界が指定された歌詞を用いる場合のものであるが、音節境界が指定されていない歌詞を用いる場合には、図1のステップST2の後に歌詞アラインメントを実行するステップを入れればよい。また音高または歌唱スタイルの変更を行う場合には、歌詞アラインメントを実行する前に、ビブラート区間の検出を行い、その後に音高または歌唱スタイルの変更機能を使用するステップを入れればよい。
[実施例]
以下上記に説明した本発明の歌声合成パラメータデータ推定システムを具体的に実現する場合に使用した技術について項を分けて説明し、最後に本実施の形態の運用及び評価実験について説明する。
[歌声合成パラメータの推定]
次の3つのステップによって歌声合成パラメータを推定する。
・ 入力歌声の音響信号の分析
・ 音高パラメータと音量パラメータの推定
・ 音高パラメータと音量パラメータの更新(反復しながら更新)
まず入力歌声の音響信号から歌声の合成に必要な情報を分析・抽出する。ここで、分析は入力歌声の音響信号に対してだけでなく、推定の途中で作成される歌声合成パラメータ及び歌詞データに基づいて合成された仮の合成された歌声の音響信号に対しても行う。仮の合成された歌声の音響信号の分析が必要なのは、歌声合成パラメータが同一であっても、歌声合成の条件の違い(歌声合成システムの相違や音源データの相違)によって、合成される歌声の音響信号が異なるからである。以下、歌声合成パラメータを構成する音高パラメータ及び音量パラメータとの区別を明確にするため、分析によって得られた入力歌声の音響信号の音高の特徴量及び音量の特徴量を、必要に応じて観測値と呼ぶこともある。
[歌声分析及び歌声合成の要素技術]
以下「歌声分析」及び「歌声合成」に関する、要素技術について説明する。以下の説明では、入力歌声の音響信号のサンプリング周波数は44.1kHz のモノラル音声信号を扱うものとし、処理の時間単位は10 msec とする。
歌声分析においては、入力歌声の音響信号から、合成された歌声の音響信号の合成に必要な歌声合成パラメータを構成するパラメータを抽出する必要がある。以下、「音高」、「音量」、「発音開始時刻」、「音長」の抽出のための要素技術について説明する。なおこれらの要素技術は、状況に応じて別の技術で代用することができるのは勿論である。
音高については、入力歌声の音響信号の音高(F: 基本周波数) を入力歌声の音響信号から抽出し、有声/無声の判定も同時に行う。F推定には任意の手法が使えるが、後述する実験では、Gross Errorが低いと報告されている「A. Camacho: “SWIPE: A Sawtooth Waveform Inspired PITch Estimator for Speech And Music,” Ph.D. Thesis, University of Florida, 116p., 2007.」に記載の手法を用いた。以後、F (fHz) は、特に明記しない限り、次式でMIDI ノートナンバに対応する単位の実数値(fNote#) へ変換して扱う。
Figure 2010009034
音量は、N を窓幅、x(t) を音声波形、h(t) を窓関数として、以下のように計算する。
Figure 2010009034
N は2048 点(約46ms)、h(t) はハニング窓とする。
[発音開始時刻及び音長]
発音開始時刻及び音長は、音声認識で使われるViterbiアラインメントによって自動的に推定したものを利用する。ここで、漢字かな混じり文の歌詞は、前述の歌詞アラインメント部3の一部を構成する形態素解析器(工藤拓, MeCab: Yet Another Part-of-Speech and Morphological Analyzer;hhtp://mecab.sourceforge.net/MeCab 等)によってかな文字列に変換した後、音素列に変換する。変換結果に誤りがあった場合は、前述の歌詞アラインメント部3は、ユーザが手作業で訂正することを許容する。Viterbiアラインメントでは、図11(B)に示すように、音節境界に短い無音(short pause) が入ることを許容したアラインメント文法を用いる。音響モデルには、朗読音声用のHMM [河原達也他: 連続音声認識コンソーシアム2002 年度版ソフトウェアの概要, 情処研報2003-SLP-48-1, pp.1−6, 2003.15] を、MLLR-MAP法[V.V. Digalakis et al.: “Speaker adaptation using combined transformation and Bayesian methods,” IEEE Transactionson Speech and Audio Processing, Vol.4, No.4,pp.294−300, 1996.16] によって入力歌声の音響信号に適応させて使用した。
[歌声合成の要素技術]
歌声合成部101としては、ヤマハ株式会社の開発した「Vocaloid2」 [商標] の応用商品である、クリプトン・フューチャー・メディア株式会社の「初音ミク(以下、CV01)」及び「鏡音リン(以下、CV02)」を用いた。これらは、歌詞と楽譜情報を入力でき、表情(音高, 音量など) に関するパラメータを各時刻毎に指定できるという条件を満たし、市販されていて入手しやすく、異なる音源データも利用できる。またVSTi プラグイン(Vocaloid Playback VST Instrument) によって後述する反復推定(イテレーション) の実装が容易である。
[入力歌声の音響信号の編集]
調子はずれ量推定部17、音高補正部19、音高トランスポーズ部21、ビブラート調整部23とスムージング処理部25を用いて実現する変更機能の具体例を説明する。
[音高の変更機能]
調子はずれ量推定部17及び音高補正部19を用いて、入力歌声の音響信号の音高を変更する「調子はずれの補正」及び「音高トランスポーズ」機能は次のようにして実現する。まず調子はずれの補正として、音高の遷移(相対音高) が歌唱力の評価において重要であるため、音高の遷移を補正する。具体的には、音高遷移が半音単位となるように音高をずらす。このような補正方法を採ることで、ユーザ歌唱の歌唱スタイルを保持したまま調子はずれを補正できる。有声音と判断された有声区間毎に、次式で定義する半音間隔に大きな重みを与える関数i(半音グリッド:0〜127) をずらしながら、その区間のF 軌跡が最も適合する(最も大きくなる)オフセットFdを決定する。
Figure 2010009034
上記式において実際の実装では、σ = 0.17 とし、F には事前にカットオフ周波数5Hz のローパスフィルタをかけ平滑化を行った。オフセットFdは0 ≦Fd<1の範囲で計算し、音高を次式で変更した。
Figure 2010009034
音高トランスポーズ部21で実現する音高トランスポーズは、ユーザ歌唱の音高を全体的、もしくは部分的にずらす機能である。本機能によって、ユーザ自身が表現できない声域の歌唱を合成することができる。変更したい区間を選択した後、次式によってFt分だけ変更する。
Figure 2010009034
例えば、Ftを+12とすれば、1オクターブ高い音高の合成歌唱が得られる。
[歌唱スタイルの変更機能]
ビブラート調整部23及びスムージング処理部25では、入力歌声の音響信号の歌唱スタイルを「ビブラート深さの調節」及び「音高・音量のスムージング」を以下のようにして具体的に実現する。
まず、音高の軌跡となるF(t) にカットオフ周波数3Hz のローパスフィルタをかけて、歌唱におけるFの動的変動成分[非特許文献6で説明されている] を除去した平滑化された音高の軌跡FLPF(t) を得る。また、音量に関しても同様に音量の軌跡となるPow(t)からPowLPF(t) を得る。ビブラート深さと音高・音量スムージングは、それぞれ調節パラメータrとrによって、次式でその度合いを調節する。
Figure 2010009034
基本的にビブラート深さの調節パラメータrは、ビブラート自動検出法[中野倫靖他: 楽譜情報を用いない歌唱力自動評価手法,” 情処学論, Vol.48, No.1, pp.227−236, 2007.] で検出されたビブラート区間に適用する。また音高・音量スムージングの調節パラメータrはビブラート区間以外の区間に適用する。ここで、r=r=1の時に元の入力歌声の音響信号となる。これらは入力歌声の音響信号に対して適用しても、ユーザが指定した区間だけに適用してもよい。ビブラート深さの調節パラメータrを1 より大きくすればビブラートをより強調し、音高・音量スムージングの調節パラメータrを1 より小さくすればFの動的変動成分を抑制できる。例えば、オーバーシュートは、歌唱技量の差によらず生起するが、プロによる歌唱の方が、アマチュアによる歌唱よりも変動が小さいという知見がある。そこでrを1より小さく設定することで変動を小さくできる。
[歌声合成パラメータの推定]
歌声分析によって得られた入力歌声の音響信号の分析値と合成された歌声の音響信号の分析値に基づいて、歌声合成パラメータを推定する。具体的には、以下のようにして歌声合成パラメータを推定する。
[初期値の決定]
まず、歌詞アラインメント、音高及び音量に関する初期値をシステムに与える。歌詞アラインメント部3には、Viterbi アラインメントによって得られた母音の開始時刻と終了時刻を初期値として与えた。音高パラメータとしては、歌声合成システムとして前述のVocaloid2 (商標)を用いる場合には、「音符の音高(ノートナンバ)」「ピッチベンド(PIT)」「ピッチベンドセンシティビティ(PBS)」を用いる。ここで、ピッチベンド(PIT) は−8192〜8191、ピッチベンドセンシティビティ(PBS)は0から24の値を取り、デフォルト値はそれぞれ0, 1 である。PBS が1 なら、ノートナンバから±1半音の範囲を、16384 の分解能で表現できる。また、ノートナンバは0〜127 の値を取り、1が半音、12が1オクターブに相当する。一方、音量パラメータとしては、ダイナミクス(DYN) を用いる。ダイナミクスは、0〜127 の値を取る(デフォルト値は64)。歌声合成パラメータとしてのPIT, PBS, DYN 初期値は、全時刻でデフォルト値とした。
[歌詞アラインメントの推定及び誤り訂正]
音響モデルによって歌詞(音素列) と入力歌声の音響信号とを対応付ける歌詞アラインメントを実施すると、Viterbi アラインメントの誤りに加えて、歌声合成システムに対して指定した発音開始時刻や音長とずれて合成が実施される問題が生じる。したがって、Viterbiアラインメント結果をそのまま用いた歌詞アラインメントでは、入力歌声の音響信号と合成された歌声の音響信号の有声区間(信号処理によって有声と判断された区間) にずれが生じてしまう。そこでまず、有声区間のずれを以下の二つの処理によって補正する。
・ 二つの音節が繋がっておらず、かつ、入力歌声の音響信号ではその区間が有声と判定されていた場合、前の音節の終端を次の音節の始端まで伸ばす。
・ 合成歌唱の有声区間が入力歌声の音響信号とずれている音節の始端と終端を、一致するように伸縮させる。
これらの処理と歌声合成(ノートナンバも推定する)を繰り返して行い、入力歌声の音響信号と合成歌唱の有声区間をあわせていく。
上記実施の形態では、合成された歌声の音響信号を再生して得た合成歌唱をユーザが聴いて、ある音節境界が誤っていることに気付いて指摘すると、他の境界の候補が提示される。その候補は次のようにして得た。入力歌声の音響信号のMFCCの変動(時間変化) が大きい上位3箇所のそれぞれについて、まず音高を反復計算で合わせて合成し、得られた合成された歌声の音響信号と入力歌声の音響信号との振幅スペクトル距離が最小のものをユーザに提示する。提示したものが誤りだと指摘されたら、次の候補を提示する(最終的には手作業で修正してもよい)。MFCCの変動Mf(t)は、次数I のΔMFCC(t, i) を用いて、次式で定義する。
Figure 2010009034
MFCC は16kHz にリサンプリングした入力歌声の音響信号から算出し、次数I=12 である。また、振幅スペクトル距離は、入力歌声の音響信号と合成された歌声の音響信号の振幅スペクトルをハニング窓(2048 点) で算出し、それぞれをSorg(t, f), Ssyn(t, f) として次式で定義する。
Figure 2010009034
ここで、母音の特徴が現れる第2フォルマントまでを良く含むように、周波数fには50Hz〜3000Hz の帯域制限を設けた。またtは、対象の音節境界から前後2音節の区間を計算する。最後に、上記の処理で適切に訂正しきれない箇所のみ、ユーザが手作業で訂正を行う。
[ノートナンバの決定]
観測されたF からノートナンバを決定する。合成された歌声の音響信号は、PIT とPBS の組み合わせによっては、ノートナンバ± 2 オクターブまで表現可能である。しかし大きなPBS では量子化誤差が大きくなってしまう。そこで、その音符の区間に存在する音高の出現頻度から、PBS の値が小さくなるように、以下の式でノートナンバ(Note#) を選択する(図4)。
Figure 2010009034
ここで、σ = 0.33 として計算し、t は音符の始端から終端の時刻で計算する。これにより、F が長い時間留まっているノートナンバを選択することになる。
[ピッチベンドの決定]
ノートナンバは固定したまま、合成された歌声の音響信号の音高F (n) syn(t)が入力歌声の音響信号の音高F0org(t)に近づくように、イテレーション(反復計算) によって音高パラメータ(PIT, PBS) を更新して推定する。時刻t,n 回目のイテレーションにおけるPIT とPBS をノートナンバに対応する値へ変換したものをPb(n)(t) とすると、更新式は以下のようになる。
Figure 2010009034
このようにして得られたPb(n+1)(t) から、PBS が小さくなるように、PIT とPBS を決定する。
[音量パラメータの推定]
入力歌声の音響信号の音量の特徴量は、収録条件の違い等が原因でその絶対的な値が変化するため、相対値化を行う。すなわち、音量の相対的な変化を表現するパラメータを推定するために、入力歌声の音響信号の音量をα倍する。ここで、入力歌声の音響信号の相対変化を完全に表現するためには、全時刻で入力歌声の音響信号の音量を、DYN=127で合成した歌唱の音量以下に調整する必要がある。しかし、そのような条件を例えば図8の「A」の箇所などでも満たそうとすると、目標音量が小さくなりすぎて、量子化誤差が大きくなってしまう。そこで、図8の「A」のような一部の再現を断念する代わりに、全体としての再限度が高くなるよう相対値化を行う。入力歌声の音響信号の音量観測値をPoworg(t)、ダイナミクスDYN が64の時の合成歌唱の音量観測値をPowDYN=64 syn(t) として、次式を最小化する相対値化係数αを決定する。
Figure 2010009034
こうして得られた相対値化係数αは固定したまま、音量パラメータ(DYN) を反復推定する。そのために、まずは全てのダイナミクスDYNにおける合成歌唱の音量観測値を取得する。そこで、DYN= (0, 32, 64, 96, 127)のそれぞれで実際に各フレーズを合成して、音量観測値を取得しておき、その間は線形補間で求めた。n回目のイテレーションにおいて、ダイナミクスDYN から上述のように求めた音量観測値へ変換したものをDyn(n)(t)とし、そのDYN で合成された歌唱の音量観測値をPow(n) syn(t) とすると、更新式は以下のようになる。
Figure 2010009034
このようにして得られたDyn(n+1)(t) から、上述の、DYN とその音量観測値の関係を利用して、音量パラメータDYN に変換する。
[運用及び評価実験]
以下本発明の具体的な実施例の実際の運用結果を説明し、本発明の実施例を「歌詞アラインメントの誤り訂正機能の有効性」、「イテレーションの必要性」及び「音源データの違いに対する頑健性」の観点から評価した結果について説明する。
図15に、音高変更機能として「調子はずれ補正」を、歌唱スタイル変更機能として「ビブラート深さの変更」及び「音高スムージング」を適用した結果を示す。図15においては実線が変更後の音高及び音量の特徴量であり、破線が変更前の音高及び音量の特徴量である。図15からは、音高が補正されること、ビブラートのみの深さを変更可能なこと、スムージングによってプレパレーションなどの変動を抑制可能なことが分かる。
[評価の実験条件]
歌声分析及び歌声合成の要素技術 には前述の技術を利用し、歌声合成システム(Vocaloid2) では、「ビブラートをつけない」、「ベンドの深さを0 %」と設定した以外は全てデフォルト値を用いた。音源データとしては前述のCV01 及びCV02 を用いた。実験では便宜上、入力歌声の音響信号として、ユーザ歌唱の代わりにRWC研究用音楽データベース(ポピュラー音楽) RWC−MDB−P−2001 [後藤真孝他: “RWC 研究用音楽データベース:研究目的で利用可能な著作権処理済み楽曲・楽器音データベース,” 情処学論,Vol.45, No.3, pp.728−738, 2004.]の伴奏なし歌唱データを用いた。
以下のA〜B の二種類の実験を行った。それぞれの実験で利用した楽曲を表1に示す。
Figure 2010009034
実験A: 長い歌唱(曲中の1 番) を利用し、歌詞アラインメントの誤り訂正機能の有効性を評価する。
実験B: 短い歌唱(曲中の1 フレーズ) を利用し、以下で定義するエラー(err(n) { F0|pow}) 及び相対エラー量(Δerr(n) { F0|pow}) を用いて、パラメータ推定におけるイテレーションの必要性と頑健性を評価する。
Figure 2010009034
ただし、実験Bでは、パラメータ更新の評価が目的であるため、歌詞アラインメント(発音開始時刻と音長)については、人手で正解を与えた。
実験A: 歌詞アラインメントの誤り訂正
Viterbi アラインメント結果は、表1のNo.07 ではフレーズをまたぐ等の大きな誤りは起きず、表1のNo.16 では大きな誤りが2箇所起きた。それらを手作業で直した後、実験A を行った結果を表2に示す。
Figure 2010009034
表2のNo.07 では、計166 個の音節について、8 箇所の境界誤りがあり、それらは3 回の指摘で訂正できたことを表す。自動推定に誤りが発生する箇所としては、音節境界の直後の音節が/w/ や/r/ (半母音・流音)、/m/ や/n/ (鼻音) で始まる箇所が多かった。
表2の結果からは、音節境界の誤り自体が少ないこと、2,3回の指摘でその誤りが改善できることが分かった。No.07 での結果の例では、166 箇所という多数の音節に対し、計12 箇所を指摘することで正しい音節境界が得られた。このことから、本発明はユーザの労力削減に寄与できることが判る。
実験B: ユーザ歌唱からの合成パラメータ推定
実験Bで対象としたどの曲に対しても、イテレーションによってエラーは減少した。4 回のイテレーションにおける初期値からの相対エラー量は、音高に関しては1.7〜2.8 %、音量に関しては13.8〜17.5%であった。これをNo.07 について詳しく見ると表3 のようになり、その結果を図16に示す。図16は、インテレーションによる音高・音量の推移(実験B)を示す図であり、音高と音量につてそれぞれ0.84secの箇所を示している。但し図16では、音量の目標値は、CV01とCV02で相対値化係数αが異なっている。
Figure 2010009034
図16及び表3からは、イテレーションによってエラーが減少し、入力歌声の音響信号へ近づいていくといえる。音源データが変わることで初期値が異なっても、最終的に入力歌声の音響信号の音高・音量を得るためのパラメータを推定できた。ただし、音高パラメータ推定における、CV01での4 回目のイテレーションでは、エラーが増加していた(表3)。これは、音高パラメータの量子化誤差が原因と考えられる。このような誤差は音量パラメータにも存在し、場合によってはエラーが若干増加した。しかし、既に高い精度で合成パラメータが得られていることが多く、合成歌唱の品質への影響は少なかった。
上記実施の形態では、ユーザの歌唱を入力歌声の音響信号として入力することを前提に説明したが、歌声合成システムの出力を入力してもよい。例えば、過去にCV01 用に手作業でパラメータ調整した合成歌唱を入力歌声の音響信号として、本発明のシステムでCV02 用にパラメータ推定すれば、手作業による再調整なしで音源データ(声色) を切り替えることができる。
本発明によれば、合成された歌唱が入力歌唱と近くなるように、入力歌声の音響信号から「人間らしい歌声」を合成するための歌声合成パラメータデータを自動推定することができる歌声合成パラメータデータ推定システム及び方法並びに歌声合成パラメータデータ作成用プログラムを提供することができる。したがって本発明によれば、既存の歌声合成システムを利用する多様なユーザが、魅力的な歌声を自由自在に作ることを助けて、歌唱という音楽表現の可能性を広げることができる。
1 入力歌声の音響信号記憶部
3 歌詞アラインメント部
5 入力歌声音響信号分析部
7 分析データ記憶部
9 音高パラメータ推定部
11 音量パラメータ推定部
13 歌声合成パラメータデータ作成部
15 歌詞データ記憶部
17 調子はずれ量推定部
19 音高補正部
21 音高トランスポーズ部
23 ビブラート調整部
25 スムージング処理部
101 歌声合成部
103 歌声音源データベース
105 歌声合成パラメータデータ記憶部
107 再生装置

Claims (20)

  1. 1種以上の歌声音源データが蓄積された歌声音源データベースと、
    歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、
    入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と、
    前記歌声音源データベースから選択した1種類の前記歌声音源データと前記歌声合成パラメータデータと前記歌詞データとに基づいて、合成された歌声の音響信号を合成して出力する歌声合成部とを備えた歌声合成システムにおいて使用する、前記選択した1種類の歌声音源データに適した前記歌声合成パラメータデータを作成する歌声合成パラメータデータ推定システムであって、
    前記入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析する入力歌声音響信号分析部と、
    前記入力歌声の音響信号の少なくとも前記音高の特徴量と前記歌詞データとに基づいて、前記音量パラメータを一定のものとして、前記入力歌声の音響信号の前記音高の特徴量に前記合成された歌声の音響信号の音高の特徴量を近づけることができる前記音高パラメータを推定する音高パラメータ推定部と、
    前記音高パラメータ推定部が前記音高パラメータの推定を完了した後に、前記入力歌声の音響信号の前記音量の特徴量を前記合成された歌声の音響信号の音量の特徴量に対して相対値化し、前記入力歌声の音響信号の相対値化した音量の特徴量に前記合成された歌声の音響信号の音量の特徴量を近づけることができる前記音量パラメータを推定する音量パラメータ推定部と、
    推定された前記音高パラメータ及び推定された前記音量パラメータに基づいて前記歌声合成パラメータデータを作成し前記合成パラメータデータ記憶部に記憶させる歌声合成パラメータデータ作成部と、
    音節境界が指定されていない歌詞データと前記入力歌声の音響信号とに基づいて、前記音節境界が指定された歌詞データを作成する歌詞アラインメント部とを備え、
    前記音高パラメータ推定部は、推定した前記音高パラメータに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に近づくまで所定の回数前記音高パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に収束するまで前記音高パラメータの推定を繰り返し、
    前記音量パラメータ推定部は、推定が完了した前記音高パラメータと推定した前記音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に近づくまで所定の回数前記音量パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に収束するまで前記音量パラメータの推定を繰り返し、
    前記入力歌声音響信号分析部は、所定の周期で、前記入力歌声の音響信号から基本周波数Fを推定し、前記基本周波数から前記入力歌声の音響信号の前記音高を観測して音高の特徴量データとして分析データ記憶部に記憶する機能と、前記入力歌声の音響信号から有声音らしさを推定し、予め定めた閾値を基準にして該閾値よりも前記有声音らしさが高い区間を前記入力歌声の音響信号の有声区間として観測して前記分析データ記憶部に記憶する機能と、前記入力歌声の音響信号の前記音量の特徴量を観測して、音量の特徴量データとして前記分析データ記憶部に記憶する機能と、前記音高の特徴量データからビブラートが存在している区間を観測してビブラート区間として前記分析データ記憶部に記憶する機能とを有し、
    前記分析データ記憶部に記憶された前記入力歌声の音響信号の有声区間における前記音高の特徴量データから調子はずれ量を推定する調子はずれ量推定部と、
    前記調子はずれ量推定部が推定した調子はずれ量を前記音高の特徴量データから除くように前記音高の特徴量データを補正する音高補正部と、
    前記音高の特徴量データに任意の値を加算して音高トランスポーズをする音高トランスポーズ部と、
    前記ビブラート区間におけるビブラートの深さを任意に調整するビブラート調整部と、
    前記ビブラート区間以外における前記音高の特徴量データ及び前記音量の特徴量データを任意にスムージング処理するスムージング処理部とを更に備えていることを特徴とする歌声合成パラメータデータ推定システム。
  2. 1種以上の歌声音源データが蓄積された歌声音源データベースと、
    歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、
    入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と、
    前記歌声音源データベースから選択した1種類の前記歌声音源データと前記歌声合成パラメータデータと前記歌詞データとに基づいて、合成された歌声の音響信号を合成して出力する歌声合成部とを備えた歌声合成システムにおいて使用する、前記選択した1種類の歌声音源データに適した前記歌声合成パラメータデータを作成する歌声合成パラメータデータ推定システムであって、
    前記入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析する入力歌声音響信号分析部と、
    前記入力歌声の音響信号の少なくとも前記音高の特徴量と前記歌詞データとに基づいて、前記音量パラメータを一定のものとして、前記入力歌声の音響信号の前記音高の特徴量に前記合成された歌声の音響信号の音高の特徴量を近づけることができる前記音高パラメータを推定する音高パラメータ推定部と、
    前記音高パラメータ推定部が前記音高パラメータの推定を完了した後に、前記入力歌声の音響信号の前記音量の特徴量を前記合成された歌声の音響信号の音量の特徴量に対して相対値化し、前記入力歌声の音響信号の相対値化した音量の特徴量に前記合成された歌声の音響信号の音量の特徴量を近づけることができる前記音量パラメータを推定する音量パラメータ推定部と、
    推定された前記音高パラメータ及び推定された前記音量パラメータに基づいて前記歌声合成パラメータデータを作成し前記歌声合成パラメータデータ記憶部に記憶させる歌声合成パラメータデータ作成部とを備え、
    前記音高パラメータ推定部は、推定した前記音高パラメータに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に近づくまで所定の回数前記音高パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に収束するまで前記音高パラメータの推定を繰り返し、
    前記音量パラメータ推定部は、推定が完了した前記音高パラメータと推定した前記音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に近づくまで所定の回数前記音量パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に収束するまで前記音量パラメータの推定を繰り返すことを特徴とする歌声合成パラメータデータ推定システム。
  3. 前記音高パラメータが、前記歌詞データの複数の音節のそれぞれに対応する前記入力歌声の音響信号の複数の部分区間の信号の基準音高レベルを示すパラメータ要素と、前記部分区間の信号の前記基準音高レベルに対する音高の時間的相対変化分を示すパラメータ要素と、前記部分区間の信号の音高方向への変化幅を示すパラメータ要素とからなり、
    前記音高パラメータ推定部は、前記基準音高レベルを示すパラメータ要素を決定した後、前記音高の時間的相対変化分を示すパラメータ要素と前記音高方向への変化幅を示すパラメータ要素について予め定めた初期値を設定し、前記初期値に基づいて前記仮の歌声合成パラメータデータを作成し、該仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の音高の特徴量を、前記入力歌声の音響信号の前記音高の特徴量に近づけるように前記音高の時間的相対変化分を示すパラメータ要素と前記音高方向への変化幅を示すパラメータ要素を推定し、以後推定した前記パラメータ要素に基づいて次の仮の歌声合成パラメータデータを作成し、該次の仮の歌声合成パラメータデータを前記歌声合成部で合成して得た次の仮の合成された歌声の音響信号の音高の特徴量を、前記入力歌声の音響信号の前記音高の特徴量に近づけるように前記音高の時間的相対変化分を示すパラメータ要素と前記音高方向への変化幅を示すパラメータ要素を再推定することを繰り返すことを特徴とする請求項1または2に記載の歌声合成パラメータデータ推定システム。
  4. 前記基準音高レベルを示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのノートナンバであり、
    前記基準音高レベルに対する音高の時間的相対変化分を示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのピッチベンド(PIT)であり、
    前記音高方向への変化幅を示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのピッチベンドセンシティビィティ(PBS)である請求項3に記載の歌声合成パラメータデータ推定システム。
  5. 前記音量パラメータ推定部は、
    推定が完了した前記音高パラメータと設定可能な音量パラメータの範囲の中心の音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の音量の特徴量と、前記入力歌声の音響信号の前記音量の特徴量との距離が最も小さくなるように相対値化係数αを定める機能と、
    前記相対値化係数αを前記入力歌声の音響信号の前記音量の特徴量に乗算して前記相対値化した音量の特徴量を作る機能とを備えていることを特徴とする請求項1または2に記載の歌声合成パラメータデータ推定システム。
  6. 前記音量パラメータがMIDI規格のエクスプレッションあるいは市販の歌声合成システムのダイナミクス(DYN)である請求項5に記載の歌声合成パラメータデータ推定システム。
  7. 音節境界が指定されていない歌詞データと前記入力歌声の音響信号とに基づいて、前記音節境界が指定された歌詞データを作成する歌詞アラインメント部を更に備えている請求項2に記載の歌声合成パラメータデータ推定システム。
  8. 前記歌詞アラインメント部は、
    前記歌詞データに含まれる歌詞を複数の音素から構成される音素列に変換する音素列変換部と、
    前記音素列変換部の変換結果をマニュアルで修正することを可能にする音素マニュアル修正部と、
    アラインメント用文法を生成した後に、前記入力歌声の音響信号における、前記音素列に含まれる前記複数の音素のそれぞれの開始時期と終了時期とを推定するアラインメント推定部と、
    前記アラインメント推定部が推定した前記音素列に含まれる前記複数の音素のそれぞれの前記開始時期と前記終了時期とをマニュアルで修正することを可能にするアラインメント・マニュアル修正部と、
    前記音素列を、音節列に変換する音素−音節列変換部と、
    前記音素−音節列変換部から出力された前記音節列における有声区間のずれを補正する有声区間補正部と、
    前記有声区間が補正された前記音節列の音節境界の誤りをマニュアルによる指摘に基づいて訂正することを可能にする音節境界訂正部と、
    前記音節列を前記音節境界が指定された歌詞データとして記憶する歌詞データ記憶部とからなる請求項1または7に記載の歌声合成パラメータデータ推定システム。
  9. 前記有声区間補正部は、
    前記入力歌声音響信号分析部による分析により得た1つの前記有声区間中に含まれる二つ以上の前記音節を接続して部分的に接続された部分接続音節列を作成する部分音節列作成部と、
    前記入力歌声音響信号分析部による分析により得た前記有声区間に、前記歌声合成部で合成して得た仮の合成された歌声の音響信号を分析して得た有声区間を一致させるように前記部分接続音節列に含まれる複数の前記音節の開始時期と終了時期とを変更して前記音節を伸縮させる伸縮補正部とを備えている請求項8に記載の歌声合成パラメータデータ推定システム。
  10. 前記音節境界訂正部は、
    前記入力歌声の音響信号のスペクトルの時間変化を演算する演算部と、
    前記音節境界の誤り箇所の前後N1個(N1は1以上の正の整数)の音節を候補算出対象区間とし、前記音節境界の誤り箇所の前後N2個(N2は1以上の正の整数)の音節を距離計算区間とし、前記候補算出対象区間の前記スペクトルの時間変化により前記スペクトルの時間変化の大きいN3(N3は1以上の正の整数)箇所を境界候補点として検出し、各前記境界候補点に音節境界をずらした仮説の距離を取得し、前記仮説の距離が最小となる仮説をユーザに提示し、提示した前記仮説が前記ユーザにより正しいと判断されるまで、境界候補点を繰り下げて他の仮説を提示し、提示した前記他の仮説が前記ユーザにより正しいと判断されたときに、該他の仮説のための境界候補点へ音節境界をずらす訂正を行う訂正実行部とからなる請求項8に記載の歌声合成パラメータデータ推定システム。
  11. 前記訂正実行部は、前記境界候補点に音節境界をずらしたときの仮説の距離を取得するために、前記距離計算区間に対して前記音高パラメータを推定し、推定した前記音高パラメータを用いて前記歌声合成パラメータデータを合成して得た合成された歌声の音響信号を取得し、前記距離計算区間における前記入力歌声の音響信号と前記合成された歌声の音響信号のスペクトルの距離を前記仮説の距離として計算する請求項10に記載の歌声合成パラメータデータ推定システム。
  12. 前記スペクトルの時間変化が、デルタ・メル周波数ケプストラム係数(ΔMFCC)である請求項10または11に記載の歌声合成パラメータデータ推定システム。
  13. 前記入力歌声音響信号分析部は、
    所定の周期で、前記入力歌声の音響信号から基本周波数Fを推定し、前記基本周波数から前記入力歌声の音響信号の前記音高を観測して音高の特徴量データとして分析データ記憶部に記憶する機能と、
    前記入力歌声の音響信号から有声音らしさを推定し、予め定めた閾値を基準にして該閾値よりも前記有声音らしさが高い区間を前記入力歌声の音響信号の有声区間として観測して前記分析データ記憶部に記憶する機能と、
    前記入力歌声の音響信号の前記音量の特徴量を観測して、音量の特徴量データとして前記分析データ記憶部に記憶する機能とを有している請求項2に記載の歌声合成パラメータデータ推定システム。
  14. 前記分析データ記憶部に記憶された前記入力歌声の音響信号の有声区間における前記音高の特徴量データから調子はずれ量を推定する調子はずれ量推定部と、
    前記調子はずれ量推定部が推定した調子はずれ量を前記音高の特徴量データから除くように前記音高の特徴量データを補正する音高補正部を更に備えている請求項13に記載の歌声合成パラメータデータ推定システム。
  15. 前記音高の特徴量データに任意の値を加算して音高トランスポーズをする音高トランスポーズ部を更に備えている請求項13または14に記載の歌声合成パラメータデータ推定システム。
  16. 前記入力歌声音響信号分析部は、前記音高の特徴量データからビブラートが存在している区間を観測してビブラート区間として前記分析データ記憶部に記憶する機能を更に備えており、
    前記ビブラート区間におけるビブラートの深さを任意に調整するビブラート調整部を更に備えている請求項13,14または15に記載の歌声合成パラメータデータ推定システム。
  17. 前記入力歌声音響信号分析部は、前記音高の特徴量データからビブラートが存在している区間を観測してビブラート区間として前記分析データ記憶部に記憶する機能を更に備えており、
    前記ビブラート区間以外における前記音高の特徴量データ及び前記音量の特徴量データを任意にスムージング処理するスムージング処理部を更に備えている請求項13,14,15または16に記載の歌声合成パラメータデータ推定システム。
  18. 1種以上の歌声音源データが蓄積された歌声音源データベースと、
    歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、
    入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と、
    前記歌声音源データベースから選択した1種類の前記歌声音源データと前記歌声合成パラメータデータと前記歌詞データとに基づいて、合成された歌声の音響信号を合成して出力する歌声合成部を備えた歌声合成システムにおいて使用する、前記選択した1種類の歌声音源データに適した前記歌声合成パラメータデータをコンピュータが作成する歌声合成パラメータデータ作成方法であって、
    前記コンピュータは、
    前記入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析し、
    前記入力歌声の音響信号の少なくとも前記音高の特徴量と前記歌詞データとに基づいて、前記音量パラメータを一定のものとして、前記入力歌声の音響信号の前記音高の特徴量に前記合成された歌声の音響信号の音高の特徴量を近づけることができる前記音高パラメータを推定し、
    前記音高パラメータの推定を完了した後に、前記入力歌声の音響信号の前記音量の特徴量を前記合成された歌声の音響信号の音量の特徴量に対して相対値化し、
    前記入力歌声の音響信号の相対値化した音量についての特徴量に前記合成された歌声の音響信号の音量の特徴量を近づけることができる前記音量パラメータを推定し、
    推定が完了した前記音高パラメータ及び推定が完了した前記音量パラメータに基づいて前記歌声合成パラメータデータを作成するように構成され、
    前記コンピュータが更に、
    推定した前記音高パラメータに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に近づくまで所定の回数前記音高パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に収束するまで前記音高パラメータの推定を繰り返し、
    推定された前記音高パラメータと推定された前記音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に近づくまで所定の回数前記音量パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に収束するまで前記音量パラメータの推定を繰り返すことを特徴とする歌声合成パラメータデータ作成方法。
  19. 1種以上の歌声音源データが蓄積された歌声音源データベースと、
    歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、
    入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と、
    前記歌声音源データベースから選択した1種類の前記歌声音源データと前記歌声合成パラメータデータと前記歌詞データとに基づいて、合成された歌声の音響信号を合成して出力する歌声合成部とを備えた歌声合成システムにおいて使用する、前記選択した1種類の歌声音源データに適した前記歌声合成パラメータデータをコンピュータで作成する際に前記コンピュータで使用される歌声合成パラメータデータ作成用プログラムであって、
    前記入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析する入力歌声音響信号分析部と、
    前記入力歌声の音響信号の少なくとも前記音高の特徴量と前記歌詞データとに基づいて、前記音量パラメータを一定のものとして、前記入力歌声の音響信号の前記音高の特徴量に前記合成された歌声の音響信号の音高の特徴量を近づけることができる前記音高パラメータを推定する音高パラメータ推定部と、
    前記音高パラメータ推定部が前記音高パラメータの推定を完了した後に、前記入力歌声の音響信号の前記音量の特徴量を前記合成された歌声の音響信号の音量の特徴量に対して相対値化し、前記入力歌声の音響信号の相対値化した音量についての特徴量に前記合成された歌声の音響信号の音量の特徴量を近づけることができる前記音量パラメータを推定する音量パラメータ推定部と、
    推定された前記音高パラメータ及び推定された前記音量パラメータに基づいて前記歌声合成パラメータデータを作成し前記歌声合成パラメータデータ記憶部に記憶させる歌声合成パラメータデータ作成部とを前記コンピュータ内に構築し、
    前記音高パラメータ推定部が、推定した前記音高パラメータに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に近づくまで所定の回数前記音高パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に収束するまで前記音高パラメータの推定を繰り返し、
    前記音量パラメータ推定部が、推定が完了した前記音高パラメータと推定した前記音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に近づくまで所定の回数前記音量パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に収束するまで前記音量パラメータの推定を繰り返すように構成されていることを特徴とする歌声合成パラメータデータ作成用プログラム。
  20. 請求項19に記載の歌声合成パラメータデータ作成用プログラムがコンピュータ読み取り可能に記憶された記憶媒体。
JP2009129446A 2008-05-28 2009-05-28 歌声合成パラメータデータ推定システム Active JP5024711B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009129446A JP5024711B2 (ja) 2008-05-28 2009-05-28 歌声合成パラメータデータ推定システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008139831 2008-05-28
JP2008139831 2008-05-28
JP2009129446A JP5024711B2 (ja) 2008-05-28 2009-05-28 歌声合成パラメータデータ推定システム

Publications (2)

Publication Number Publication Date
JP2010009034A true JP2010009034A (ja) 2010-01-14
JP5024711B2 JP5024711B2 (ja) 2012-09-12

Family

ID=41401090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009129446A Active JP5024711B2 (ja) 2008-05-28 2009-05-28 歌声合成パラメータデータ推定システム

Country Status (2)

Country Link
US (1) US8244546B2 (ja)
JP (1) JP5024711B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120041656A (ko) * 2010-10-21 2012-05-02 삼성전자주식회사 가창 음성 생성 방법 및 그에 따른 장치
JP2013156544A (ja) * 2012-01-31 2013-08-15 Brother Ind Ltd 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP2013195928A (ja) * 2012-03-22 2013-09-30 Yamaha Corp 音声素片切出装置
WO2014088036A1 (ja) * 2012-12-04 2014-06-12 独立行政法人産業技術総合研究所 歌声合成システム及び歌声合成方法
JP2014178512A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音声合成装置
US9009052B2 (en) 2010-07-20 2015-04-14 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis capable of reflecting voice timbre changes
JP2016050994A (ja) * 2014-08-29 2016-04-11 ヤマハ株式会社 音響処理装置
JP2016118722A (ja) * 2014-12-22 2016-06-30 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
JP2016161919A (ja) * 2015-03-05 2016-09-05 ヤマハ株式会社 音声合成装置
JP2017027021A (ja) * 2015-07-24 2017-02-02 ヤマハ株式会社 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
JP2017045073A (ja) * 2016-12-05 2017-03-02 ヤマハ株式会社 音声合成方法および音声合成装置
JP2017181793A (ja) * 2016-03-30 2017-10-05 ブラザー工業株式会社 音響処理装置、及びプログラム

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4124247B2 (ja) * 2006-07-05 2008-07-23 ヤマハ株式会社 楽曲練習支援装置、制御方法及びプログラム
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5482042B2 (ja) * 2009-09-10 2014-04-23 富士通株式会社 合成音声テキスト入力装置及びプログラム
US20110219940A1 (en) * 2010-03-11 2011-09-15 Hubin Jiang System and method for generating custom songs
US9099071B2 (en) * 2010-10-21 2015-08-04 Samsung Electronics Co., Ltd. Method and apparatus for generating singing voice
JP5703003B2 (ja) * 2010-12-07 2015-04-15 ローランド株式会社 ピッチシフト装置
US8682938B2 (en) * 2012-02-16 2014-03-25 Giftrapped, Llc System and method for generating personalized songs
WO2013133768A1 (en) * 2012-03-06 2013-09-12 Agency For Science, Technology And Research Method and system for template-based personalized singing synthesis
JP5895740B2 (ja) * 2012-06-27 2016-03-30 ヤマハ株式会社 歌唱合成を行うための装置およびプログラム
US8847056B2 (en) * 2012-10-19 2014-09-30 Sing Trix Llc Vocal processing with accompaniment music input
JP6171711B2 (ja) * 2013-08-09 2017-08-02 ヤマハ株式会社 音声解析装置および音声解析方法
US9123315B1 (en) * 2014-06-30 2015-09-01 William R Bachand Systems and methods for transcoding music notation
WO2016029217A1 (en) 2014-08-22 2016-02-25 Zya, Inc. System and method for automatically converting textual messages to musical compositions
JP2016080827A (ja) * 2014-10-15 2016-05-16 ヤマハ株式会社 音韻情報合成装置および音声合成装置
CN104391980B (zh) * 2014-12-08 2019-03-08 百度在线网络技术(北京)有限公司 生成歌曲的方法和装置
JP6728754B2 (ja) * 2015-03-20 2020-07-22 ヤマハ株式会社 発音装置、発音方法および発音プログラム
JP6728755B2 (ja) * 2015-03-25 2020-07-22 ヤマハ株式会社 歌唱音発音装置
US9818396B2 (en) * 2015-07-24 2017-11-14 Yamaha Corporation Method and device for editing singing voice synthesis data, and method for analyzing singing
EP3365883A4 (en) * 2015-10-25 2019-04-10 Commusicator Ltd. SYSTEM AND METHOD FOR COMPUTER-AIDED TEACHING OF A MUSICAL LANGUAGE
CN106653037B (zh) * 2015-11-03 2020-02-14 广州酷狗计算机科技有限公司 音频数据处理方法和装置
US10008188B1 (en) * 2017-01-31 2018-06-26 Kyocera Document Solutions Inc. Musical score generator
WO2018175892A1 (en) * 2017-03-23 2018-09-27 D&M Holdings, Inc. System providing expressive and emotive text-to-speech
CN108806656B (zh) 2017-04-26 2022-01-28 微软技术许可有限责任公司 歌曲的自动生成
JP7000782B2 (ja) * 2017-09-29 2022-01-19 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
WO2019239971A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
CN108877753B (zh) * 2018-06-15 2020-01-21 百度在线网络技术(北京)有限公司 音乐合成方法及系统、终端以及计算机可读存储介质
JP6610714B1 (ja) * 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6547878B1 (ja) * 2018-06-21 2019-07-24 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6610715B1 (ja) * 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
US10699700B2 (en) 2018-07-31 2020-06-30 Tencent Technology (Shenzhen) Company Limited Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
CN109817191B (zh) * 2019-01-04 2023-06-06 平安科技(深圳)有限公司 颤音建模方法、装置、计算机设备及存储介质
JP7059972B2 (ja) 2019-03-14 2022-04-26 カシオ計算機株式会社 電子楽器、鍵盤楽器、方法、プログラム
US11430431B2 (en) * 2020-02-06 2022-08-30 Tencent America LLC Learning singing from speech
US11257480B2 (en) 2020-03-03 2022-02-22 Tencent America LLC Unsupervised singing voice conversion with pitch adversarial network
KR102168529B1 (ko) * 2020-05-29 2020-10-22 주식회사 수퍼톤 인공신경망을 이용한 가창음성 합성 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH037994A (ja) * 1989-06-05 1991-01-16 Matsushita Electric Works Ltd 歌音声合成データの作成装置
JP2009217141A (ja) * 2008-03-12 2009-09-24 Yamaha Corp 音声合成装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5518408A (en) * 1993-04-06 1996-05-21 Yamaha Corporation Karaoke apparatus sounding instrumental accompaniment and back chorus
US5654516A (en) * 1993-11-03 1997-08-05 Yamaha Corporation Karaoke system having a playback source with pre-stored data and a music synthesizing source with rewriteable data
JP2921428B2 (ja) * 1995-02-27 1999-07-19 ヤマハ株式会社 カラオケ装置
JP3502247B2 (ja) * 1997-10-28 2004-03-02 ヤマハ株式会社 音声変換装置
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
JP3838039B2 (ja) * 2001-03-09 2006-10-25 ヤマハ株式会社 音声合成装置
JP4483188B2 (ja) * 2003-03-20 2010-06-16 ソニー株式会社 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置
US7271329B2 (en) * 2004-05-28 2007-09-18 Electronic Learning Products, Inc. Computer-aided learning system employing a pitch tracking line
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
US7772480B2 (en) * 2007-08-10 2010-08-10 Sonicjam, Inc. Interactive music training and entertainment system and multimedia role playing game platform
US8706496B2 (en) * 2007-09-13 2014-04-22 Universitat Pompeu Fabra Audio signal transforming by utilizing a computational cost function

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH037994A (ja) * 1989-06-05 1991-01-16 Matsushita Electric Works Ltd 歌音声合成データの作成装置
JP2009217141A (ja) * 2008-03-12 2009-09-24 Yamaha Corp 音声合成装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9009052B2 (en) 2010-07-20 2015-04-14 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis capable of reflecting voice timbre changes
KR101890303B1 (ko) * 2010-10-21 2018-08-22 삼성전자주식회사 가창 음성 생성 방법 및 그에 따른 장치
KR20120041656A (ko) * 2010-10-21 2012-05-02 삼성전자주식회사 가창 음성 생성 방법 및 그에 따른 장치
JP2013156544A (ja) * 2012-01-31 2013-08-15 Brother Ind Ltd 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP2013195928A (ja) * 2012-03-22 2013-09-30 Yamaha Corp 音声素片切出装置
JPWO2014088036A1 (ja) * 2012-12-04 2017-01-05 国立研究開発法人産業技術総合研究所 歌声合成システム及び歌声合成方法
US9595256B2 (en) 2012-12-04 2017-03-14 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis
WO2014088036A1 (ja) * 2012-12-04 2014-06-12 独立行政法人産業技術総合研究所 歌声合成システム及び歌声合成方法
JP2014178512A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音声合成装置
JP2016050994A (ja) * 2014-08-29 2016-04-11 ヤマハ株式会社 音響処理装置
JP2016118722A (ja) * 2014-12-22 2016-06-30 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
JP2016161919A (ja) * 2015-03-05 2016-09-05 ヤマハ株式会社 音声合成装置
JP2017027021A (ja) * 2015-07-24 2017-02-02 ヤマハ株式会社 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
JP2017181793A (ja) * 2016-03-30 2017-10-05 ブラザー工業株式会社 音響処理装置、及びプログラム
JP2017045073A (ja) * 2016-12-05 2017-03-02 ヤマハ株式会社 音声合成方法および音声合成装置

Also Published As

Publication number Publication date
US20090306987A1 (en) 2009-12-10
US8244546B2 (en) 2012-08-14
JP5024711B2 (ja) 2012-09-12

Similar Documents

Publication Publication Date Title
JP5024711B2 (ja) 歌声合成パラメータデータ推定システム
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP3823930B2 (ja) 歌唱合成装置、歌唱合成プログラム
US9595256B2 (en) System and method for singing synthesis
JP4469883B2 (ja) 音声合成方法及びその装置
EP1849154B1 (en) Methods and apparatus for use in sound modification
Umbert et al. Expression control in singing voice synthesis: Features, approaches, evaluation, and challenges
JP2017107228A (ja) 歌声合成装置および歌声合成方法
CN116895267A (zh) 电子乐器、电子乐器的控制方法以及存储介质
EP2270773A1 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP5148026B1 (ja) 音声合成装置および音声合成方法
Rodet Synthesis and processing of the singing voice
CN111696498B (zh) 键盘乐器以及键盘乐器的计算机执行的方法
CN103915093A (zh) 一种实现语音歌唱化的方法和装置
JP5136128B2 (ja) 音声合成装置
JP6756151B2 (ja) 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
JP2009133890A (ja) 音声合成装置及びその方法
Lee et al. A comparative study of spectral transformation techniques for singing voice synthesis
JP5062178B2 (ja) 音声収録システム、音声収録方法、および収録処理プログラム
JP2001117598A (ja) 音声変換装置及び方法
JP6578544B1 (ja) 音声処理装置、および音声処理方法
JP4430174B2 (ja) 音声変換装置及び音声変換方法
JP6191094B2 (ja) 音声素片切出装置
JP4622356B2 (ja) 音声合成用スクリプト生成装置及び音声合成用スクリプト生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120608

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150629

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5024711

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250